JP2015022525A

JP2015022525A - 情報処理装置、被写体部位の検出方法、及びプログラム

Info

Publication number: JP2015022525A
Application number: JP2013150204A
Authority: JP
Inventors: 明洋皆川; Akihiro Minagawa; 勝山　裕; Yutaka Katsuyama; 裕勝山; 武部　浩明; Hiroaki Takebe; 浩明武部; 堀田　悦伸; Yoshinobu Hotta; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-07-19
Filing date: 2013-07-19
Publication date: 2015-02-02

Abstract

【課題】顔よりも手前に位置する被写体の部位をより精度良く検出すること。【解決手段】被写体Ｍ０に赤外光ＩＲ０を照射する光源１１と、被写体Ｍ０の赤外画像ＰＩＲ０を撮像する撮像部１２と、顔検出により被写体Ｍ０の顔領域Ｆ０を検出し、赤外画像ＰＩＲ０における顔領域Ｆ０の輝度を計算し、赤外画像ＰＩＲ０のうち顔領域Ｆ０よりも輝度が大きい高輝度領域Ｈ０を検出する演算部１３と、を有する情報処理装置１０が提供される。【選択図】図１

Description

本発明は、情報処理装置、被写体部位の検出方法、及びプログラムに関する。

近年、人の手や視線の動きを捉えてジェスチャを認識する技術が注目されている。なお、ここではコンピュータにユーザが操作の意思を伝達するための動きをジェスチャと呼ぶことにする。ジェスチャを利用した技術としては、例えば、ジェスチャのパターンとコンピュータの処理とを予め対応付けておき、ジェスチャによりコンピュータを操作するユーザインターフェースなどがある。このようなユーザインターフェースは、手術中に医師がコンピュータを操作する場合など、コンピュータの操作時にキーボードなどの入力デバイスを使用することが難しい場面で活躍する。

ジェスチャの認識は、例えば、カメラでユーザを撮影した撮像画像からユーザの手や視線の動きをコンピュータで検出し、検出した動きのパターンと、設定されたパターンとが一致するか否かをコンピュータで判定することで実現することができる。

このようなジェスチャの認識には、例えば、可視光波長の光に感度を有する可視光カメラや、赤外波長の光に感度を有する赤外光カメラが使用される。赤外光カメラを使用する場合には、ユーザに赤外光を照射するために赤外光カメラの付近に配置した赤外光源が併せて使用される。なお、赤外光カメラで撮像された画像を赤外画像と呼ぶことにする。

赤外光は、可視光に比べ、光源からの距離に応じて大きく減衰する。例えば、点光源から発せられる赤外光の強度は距離の二乗に反比例して弱くなる。従って、赤外光源及び赤外光カメラを使用すると背景の物体は赤外画像の中で暗く表現される。この性質を利用すれば、被写体の背景にある物体が被写体と類似した形状や色を有する場合でも、前景の被写体と背景の物体とを容易に区別することができる。さらに、この性質をジェスチャの認識処理に応用すれば、背景に起因して誤認識が生じる確率を低減でき、認識精度の向上が期待できる。

ところで、可視光カメラを使用して撮像した顔の画像から肌色の領域を検出し、その検出結果を解析して顔や手の領域を抽出する第１の方法が提案されている。また、波長の異なる２種類の赤外光を被写体に照射して２種類の画像を撮像し、撮像された２種類の画像間で輝度の差分値を計算し、計算した差分値から肌領域を検出する第２の方法が提案されている。第２の方法は、人の肌に対する赤外光の反射特性を利用して肌領域の検出を行うものである。また、肌領域について輝度のヒストグラムを計算し、ヒストグラムが極小となる輝度値及び最大となる輝度値を利用して肌領域から手の領域を抽出する第３の方法が提案されている。

特開２０１１− ８６０５２公報特開２０１１−２２１６７２公報特開２０１１− １４１２８公報

上記第３の方法を適用すると手の領域を抽出できるため、抽出した手の領域に注目してジェスチャを認識することで認識精度の向上が期待できる。但し、赤外光カメラから手までの距離と赤外光カメラから顔までの距離とが近い場合、或いは、手が光源に正対していない場合など、ある条件の下ではヒストグラムに２つのピークが明確に現れないことがある。このような場合、ヒストグラムが極小となる輝度値を利用する第３の方法では手の領域を正しく抽出できない可能性がある。

そこで、１つの側面によれば、本発明の目的は、顔よりも手前に位置する被写体の部位をより精度良く検出することが可能な、情報処理装置、被写体部位の検出方法、及びプログラムを提供することにある。

本開示の１つの側面によれば、被写体に赤外光を照射する光源と、被写体の赤外画像を撮像する撮像部と、顔検出により被写体の顔領域を検出し、赤外画像における顔領域の輝度を計算し、赤外画像のうち顔領域よりも輝度が大きい高輝度領域を検出する演算部と、を有する情報処理装置が提供される。

また、本開示の他の１つの側面によれば、赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータのプロセッサが、顔検出により被写体の顔領域を検出し、赤外画像における顔領域の輝度を計算し、赤外画像のうち顔領域よりも輝度が大きい高輝度領域を検出する被写体部位の検出方法が提供される。

また、本開示の他の１つの側面によれば、赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータに、顔検出により被写体の顔領域を検出し、赤外画像における顔領域の輝度を計算し、赤外画像のうち顔領域よりも輝度が大きい高輝度領域を検出する処理を実行させる、プログラムが提供される。

以上説明したように本発明によれば、顔よりも手前に位置する被写体の部位をより精度良く検出することが可能になる。

第１実施形態に係る情報処理装置の一例を示した図である。第２実施形態に係るジェスチャ認識方法の一例を示した図である。第２実施形態に係る情報処理装置が有する機能を実現可能なハードウェアの一例を示した図である。第２実施形態に係る情報処理装置が有する機能の一例を示したブロック図である。第２実施形態に係る顔検出結果の表現方法の一例について説明するための図である。第２実施形態に係る外部手領域検出方法について説明するための第１の図である。第２実施形態に係る外部手領域検出方法について説明するための第２の図である。第２実施形態に係る外部手領域検出方法について説明するための第３の図である。第２実施形態に係る内部手領域検出方法について説明するための第１の図である。第２実施形態に係る内部手領域検出方法について説明するための第２の図である。第２実施形態に係るジェスチャ認識の処理フローを示したフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる状態判断処理の流れを示した第１のフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる状態判断処理の流れを示した第２のフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる外部手領域検出処理の流れを示したフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる内部手領域検出処理の流れを示したフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる全体手領域検出処理の流れを示したフロー図である。第２実施形態に係るジェスチャ認識処理に含まれる顔隠蔽手領域検出処理の流れを示したフロー図である。

以下に添付図面を参照しながら、本発明の実施形態について説明する。なお、本明細書及び図面において実質的に同一の機能を有する要素については、同一の符号を付することにより重複説明を省略する場合がある。

＜１．第１実施形態＞
図１を参照しながら、第１実施形態について説明する。図１は、第１実施形態に係る情報処理装置の一例を示した図である。図１に示すように、情報処理装置１０は、光源１１、撮像部１２、及び演算部１３を有する。

なお、情報処理装置１０は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置（非図示）、及び、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリなどの不揮発性記憶装置（非図示）を有していてもよい。演算部１３は、ＣＰＵ（Central Processing Unit）又はＤＳＰ（Digital Signal Processor）などのプロセッサであってもよい。演算部１３は、ＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field Programmable Gate Array）などのプロセッサ以外の電子回路であってもよい。演算部１３は、例えば、上記不揮発性記憶装置に記憶されたプログラムを実行する。

光源１１は、被写体Ｍ０に赤外光ＩＲ０を照射する。光源１１としては、例えば、赤外ＬＥＤ（Light Emitting Diode）又は赤外ＬＤ（Laser Diode）などが用いられる。
撮像部１２は、被写体Ｍ０の赤外画像ＰＩＲ０を撮像する。撮像部１２としては、例えば、赤外光ＩＲ０を受光して電気信号に変換する撮像素子、及び撮像素子が出力した電気信号から赤外画像ＰＩＲ０を生成する画像処理ユニットを含む撮像デバイスが用いられる。撮像部１２は、光源１１により赤外光ＩＲ０が照射された被写体Ｍ０の赤外画像ＰＩＲ０を撮像する。撮像部１２から出力された赤外画像ＰＩＲ０は、演算部１３に入力される。

演算部１３は、顔検出により被写体Ｍ０の顔領域Ｆ０を検出する（Ｓ１）。なお、顔領域Ｆ０の検出には、赤外画像ＰＩＲ０が利用されてもよいし、可視光カメラを利用して別途撮像された可視光画像が利用されてもよい。また、顔領域Ｆ０の検出には、例えば、P.Viola and M.Jones, "Robust Real-time Object Detection," Int. J. of Computer Vision, vol.57, no.2, pp.137-154, 2004に記載の顔検出技術などが利用可能である。

演算部１３は、赤外画像ＰＩＲ０における顔領域Ｆ０の輝度を計算する（Ｓ２）。さらに、演算部１３は、赤外画像ＰＩＲ０のうち顔領域Ｆ０よりも輝度が大きい高輝度領域Ｈ０を検出する（Ｓ３）。例えば、演算部１３は、顔領域Ｆ０の輝度から閾値Ｔｈ０を計算し、計算した閾値Ｔｈ０を用いて高輝度領域Ｈ０を検出する。高輝度領域Ｈ０を検出した演算部１３は、例えば、高輝度領域Ｈ０における被写体Ｍ０の動きからジェスチャを認識する（Ｓ４）。

被写体Ｍ０が有する部位のうち、ジェスチャを行う部位（例えば、手）は、ジェスチャを行う際に顔よりも前に位置することが多い。光源１１に近い部位ほど赤外画像ＰＩＲ０内で輝度が高くなるため、赤外画像ＰＩＲ０の高輝度領域Ｈ０に注目してジェスチャの認識処理を実行することで認識精度の向上が期待できる。

また、顔検出により予め検出した顔領域Ｆ０の輝度を基準に高輝度領域Ｈ０を検出することで、ジェスチャを行う部位が被写体Ｍ０の顔と重なる場合でもジェスチャを行う部位に対応する高輝度領域Ｈ０を精度良く検出することが可能になる。その結果、ジェスチャの認識精度をさらに向上させることができる。

以上、第１実施形態について説明した。
＜２．第２実施形態＞
次に、第２実施形態について説明する。

［２−１．ジェスチャ認識方法］
まず、図２を参照しながら、第２実施形態に係るジェスチャ認識方法について説明する。図２は、第２実施形態に係るジェスチャ認識方法の一例を示した図である。以下、簡単のために、被写体Ｍであるユーザが手でジェスチャを行うことを前提に説明を進める。但し、手以外の部位でジェスチャを行う場合であっても第２実施形態の技術を適用可能である。

第２実施形態のジェスチャ認識方法に係る処理は、情報処理装置１００により実行される。図２に示すように、情報処理装置１００は、光源１０１、及びカメラ１０２を有する。なお、光源１０１は、赤外ＬＥＤや赤外ＬＤなどの赤外光源である。カメラ１０２は、赤外波長の光に対する感度を有する撮像デバイスである。

ジェスチャ認識の処理を開始した情報処理装置１００は、光源１０１を制御して被写体Ｍに赤外光ＩＲを照射する。そして、情報処理装置１００は、カメラ１０２により被写体Ｍの赤外画像（以下、赤外画像ＰＩＲ）を撮像する。情報処理装置１００は、この赤外画像ＰＩＲから被写体Ｍの動きを検出し、ジェスチャの認識処理を実行する。このとき、情報処理装置１００は、ジェスチャを行う部位である手の領域（以下、手領域Ｈ）を赤外画像ＰＩＲの中から検出し、手領域Ｈに注目してジェスチャの認識処理を実行する。

手領域Ｈを検出するために、まず、情報処理装置１００は、顔検出技術を利用して被写体Ｍの顔が位置する顔領域Ｆを検出する。顔検出技術は、画像に含まれる人間や動物の顔を自動検出する技術である。顔認識技術については、例えば、P.Viola and M.Jones, "Robust Real-time Object Detection," Int. J. of Computer Vision, vol.57, no.2, pp.137-154, 2004などに記載がある。顔領域Ｆを検出した情報処理装置１００は、赤外画像ＰＩＲにおける顔領域Ｆの輝度を計算する。そして、情報処理装置１００は、手領域Ｈとして、顔領域Ｆよりも輝度が高い領域を検出する。

上記のように、第２実施形態に係るジェスチャ認識方法では、顔検出により予め顔領域Ｆを検出し、顔領域Ｆの輝度を基準に手領域Ｈを検出しているため、被写体Ｍの顔と手とが赤外画像ＰＩＲ上で重なっている場合でも高い精度で手領域Ｈを検出できる。その結果、ジェスチャの認識精度が向上する。

以上、第２実施形態に係るジェスチャ認識方法について説明した。以下では、情報処理装置１００のハードウェア、機能、及び処理フローについて説明しながら、第２実施形態に係るジェスチャ認識方法について、さらに説明する。

［２−２．ハードウェア］
図３を参照しながら、情報処理装置１００のハードウェアについて説明する。図３は、第２実施形態に係る情報処理装置が有する機能を実現可能なハードウェアの一例を示した図である。情報処理装置１００が有する機能は、例えば、図３に示す情報処理装置のハードウェア資源を用いて実現することが可能である。つまり、情報処理装置１００が有する機能は、コンピュータプログラムを用いて図３に示すハードウェアを制御することにより実現される。

図３に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ（Read Only Memory）９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０とを有する。さらに、このハードウェアは、外部バス９１２と、インタフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６とを有する。

ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータなどを格納する記憶装置の一例である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に変化する各種パラメータなどが一時的又は永続的に格納される。

これらの要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。

また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、タッチパッド、ボタン、スイッチ、及びレバーなどが用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。

出力部９１８としては、例えば、ＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）、又はＥＬＤ（Electro-Luminescence Display）などのディスプレイ装置が用いられる。また、出力部９１８として、スピーカやヘッドホンなどのオーディオ出力装置、又はプリンタなどが用いられることもある。つまり、出力部９１８は、情報を視覚的又は聴覚的に出力することが可能な装置である。

記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ＨＤＤなどの磁気記憶デバイスが用いられる。また、記憶部９２０として、ＳＳＤ（Solid State Drive）やＲＡＭディスクなどの半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイスなどが用いられてもよい。

ドライブ９２２は、着脱可能な記録媒体であるリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどが用いられる。

接続ポート９２４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）、ＲＳ−２３２Ｃポート、又は光オーディオ端子など、外部接続機器９３０を接続するためのポートである。外部接続機器９３０には、例えば、光源１０１及びカメラ１０２が含まれる。その他、外部接続機器としてはプリンタなどが用いられる。

光源１０１としては、例えば、近赤外波長の光を発する赤外ＬＥＤや赤外ＬＤなどが用いられる。カメラ１０２としては、近赤外波長の光に対して感度を有する撮像素子を含む撮像デバイスが用いられる。なお、可視光波長の光を発する光源１０１が情報処理装置１００に接続されていてもよい。さらに、可視光波長の光に対して感度を有する撮像素子を含む撮像デバイスがカメラ１０２として情報処理装置１００に接続されていてもよい。また、光源１０１及びカメラ１０２は情報処理装置１００の筐体内部に配置されていてもよいし、筐体外部に配置されていてもよい。

通信部９２６は、ネットワーク９３２に接続するための通信デバイスである。通信部９２６としては、例えば、有線又は無線ＬＡＮ（Local Area Network）用の通信回路、ＷＵＳＢ（Wireless USB）用の通信回路、光通信用の通信回路やルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用の通信回路やルータ、携帯電話ネットワーク用の通信回路などが用いられる。通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークであり、例えば、インターネット、ＬＡＮ、放送網、衛星通信回線などを含む。

以上、情報処理装置１００のハードウェアについて説明した。
［２−３．情報処理装置の機能］
次に、図４を参照しながら、情報処理装置１００の機能について説明する。図４は、第２実施形態に係る情報処理装置が有する機能の一例を示したブロック図である。

図４に示すように、情報処理装置１００は、画像取得部１１１と、画像メモリ１１２と、顔検出部１１３と、状態判断部１１４と、手領域検出部１１５とを有する。さらに、情報処理装置１００は、記憶部１１６と、ジェスチャ認識部１１７と、処理部１１８とを有する。

なお、画像取得部１１１、顔検出部１１３、状態判断部１１４、手領域検出部１１５、ジェスチャ認識部１１７、及び処理部１１８の機能は、上述したＣＰＵ９０２などを用いて実現できる。画像メモリ１１２、及び記憶部１１６の機能は、上述したＲＡＭ９０６や記憶部９２０などを用いて実現できる。

画像取得部１１１は、被写体Ｍの赤外画像ＰＩＲを取得する。画像取得部１１１により取得された赤外画像ＰＩＲは、画像メモリ１１２に格納される。なお、以下では、画像取得部１１１が連続的に撮像された被写体Ｍの赤外画像ＰＩＲを取得し、取得した赤外画像ＰＩＲが逐次画像メモリ１１２に格納される場合を想定して説明を進める。また、このように連続して撮像された赤外画像ＰＩＲそれぞれをフレームと呼ぶ場合がある。画像メモリ１１２に格納された赤外画像ＰＩＲは、顔検出部１１３、状態判断部１１４、及び手領域検出部１１５により読み出される。

顔検出部１１３は、最も新しい赤外画像ＰＩＲ（以下、現フレーム）を画像メモリ１１２から読み出す。そして、顔検出部１１３は、顔検出技術を用いて現フレームから被写体Ｍの顔を含む顔領域Ｆを検出する。顔検出部１１３が利用する顔検出技術は任意である。例えば、顔検出部１１３は、P.Viola and M.Jones, "Robust Real-time Object Detection," Int. J. of Computer Vision, vol.57, no.2, pp.137-154, 2004に記載の顔検出技術を利用する。

上記の顔検出技術は、例えば、被写体Ｍの目周辺に位置する領域について、上下に隣接する横長の長方形領域を切り出し、長方形領域毎に明度の平均を計算し、上の領域が明るく、かつ、下の領域が暗い場合に顔領域の候補にするという判断基準を利用する。さらに、この顔検出技術では、Integral-Imageを利用し、上記の判断基準に基づく演算を繰り返して顔領域の候補が絞り込まれる。この絞り込みにより最終的に残った候補が顔領域の検出結果とされる。上記の顔検出技術は絞り込み演算が高速であるため、この顔検出技術を適用することで顔領域を短時間で検出することが可能になる。

顔検出部１１３により検出された顔領域Ｆの情報は、状態判断部１１４に入力される。顔領域Ｆの情報は、例えば、図５に示すような形式で表現される。図５は、第２実施形態に係る顔検出結果の表現方法の一例について説明するための図である。図５の例では、顔領域Ｆが矩形領域で表現されている。この場合、顔領域Ｆの左上座標（ｘｆ１，ｙｆ１）と右下座標（ｘｆ２，ｙｆ２）との組み合わせで顔領域Ｆを表現することができる。例えば、顔検出部１１３は、座標の組（ｘｆ１，ｙｆ１）及び（ｘｆ２，ｙｆ２）を顔領域Ｆの情報として状態判断部１１４に入力する。なお、顔領域Ｆの表現形式は上記の例に限定されず、多角形や楕円形で表現する表現形式を利用することも可能である。

現フレームにおいて顔領域Ｆが未検出である場合、顔検出部１１３は、現フレームよりも前に撮像された赤外画像ＰＩＲ（以下、前フレーム）を用いて顔領域Ｆを検出する。前フレームに対する顔領域Ｆの検出方法も現フレームに対する顔領域Ｆの検出方法と同じである。なお、以下では現フレームの直前に撮像された赤外画像ＰＩＲを前フレームとして説明を進めるが、設定したフレーム数分だけ前のフレームを前フレームとしてもよい。前フレームにおいて顔領域Ｆが検出された場合、検出された顔領域Ｆの情報は状態判断部１１４に入力される。一方、顔領域Ｆが未検出の場合、顔検出部１１３は、未検出である旨の情報を状態判断部１１４に入力する。

顔検出部１１３により検出された顔領域Ｆの情報が入力された場合、状態判断部１１４は、被写体Ｍの手と顔との位置関係に関する状態を判断する。ジェスチャを行う場合、手と顔との位置関係は、例えば、次に示す４つのシーンを考慮して分類される。

（シーン１：赤外画像ＰＩＲ上で顔と手の領域とが半分以上重複していないシーン）
シーン１は、手の領域が占める面積のうち、顔と重複する手の面積よりも、顔と重複しない手の面積の方が大きい状況を想定している。シーン１は、手と顔とが全く重複しない場合を含む。シーン１では顔検出部１１３により顔領域Ｆが高い確率で検出される。顔領域Ｆが検出されると、顔検出部１１３から顔領域Ｆの情報が状態判断部１１４に入力される。

（シーン２：赤外画像ＰＩＲ上で顔と手の領域とが半分以上重複するシーン）
シーン２は、手の領域が占める面積のうち、顔と重複しない手の面積よりも、顔と重複する手の面積の方が大きい状況を想定している。シーン２では赤外画像ＰＩＲ上で手と顔とが重複する。但し、シーン２では顔検出部１１３により顔領域Ｆが高い確率で検出される状況を想定している。顔領域Ｆが検出されると、顔検出部１１３から顔領域Ｆの情報が状態判断部１１４に入力される。

（シーン３：手がカメラの直前に差し出されるシーン）
シーン３は、手がカメラの直前に差し出され、赤外画像ＰＩＲ上で顔の領域が占める面積よりも、手の領域が占める面積の方が大きい場合である。但し、シーン３では顔検出部１１３により顔領域Ｆが検出される状況を想定している。顔領域Ｆが検出されると、顔検出部１１３から顔領域Ｆの情報が状態判断部１１４に入力される。

（シーン４：顔が手で覆われるシーン）
シーン４は、カメラから見た顔の領域が手により覆われている状況を想定している。シーン４は、シーン３よりも赤外画像ＰＩＲ上で顔と手との重複部分が大きい場合である。例えば、カメラの直前に手を差し出した場合、赤外画像ＰＩＲ上では手により顔が隠蔽される。シーン４では顔検出部１１３により顔領域Ｆが検出されない状況を想定している。この状況では、顔検出部１１３から未検出である旨の情報が状態判断部１１４に入力される。

状態判断部１１４は、シーン１〜４のいずれの状態に該当するかを判断する。
状態判断部１１４は、赤外画像ＰＩＲの顔領域Ｆにおける各画素の輝度値についてヒストグラムＨｉｎを作成する。また、状態判断部１１４は、赤外画像ＰＩＲについて顔領域Ｆ以外の領域（以下、非顔領域ＮＦ）における各画素の輝度値についてヒストグラムＨｏｕｔを作成する。そして、状態判断部１１４は、シーン１〜３について、２つのヒストグラムＨｉｎ及びＨｏｕｔに基づいて状態を判断し、判断結果に応じてモードＭｄを設定する。モードＭｄは、後述する手領域Ｈの検出方法に対応する。また、状態判断部１１４は、シーン４について、現フレーム及び前フレームの比較結果に基づいて状態を判断し、判断結果に応じてモードＭｄを設定する。

シーン１の状態であると判断された場合にはモードＭｄが１に設定され、シーン２の状態であると判断された場合にはモードＭｄが２に設定され、シーン３又はシーン４の状態であると判断された場合にはモードＭｄが３に設定される。状態判断部１１４により設定されたモードＭｄの情報は、手領域検出部１１５に入力される。

手領域検出部１１５は、状態判断部１１４により設定されたモードＭｄの情報に応じて、被写体Ｍの手を含む手領域Ｈの検出方法を選択する。手領域検出部１１５は、外部手領域検出部１３１、内部手領域検出部１３２、全体手領域検出部１３３、及び顔隠蔽手領域検出部１３４を有する。

モードＭｄが１である場合、手領域検出部１１５は、外部手領域検出部１３１により手領域Ｈの検出処理を実行する。モードＭｄが２である場合、手領域検出部１１５は、内部手領域検出部１３２により手領域Ｈの検出処理を実行する。モードＭｄが３である場合、手領域検出部１１５は、全体手領域検出部１３３又は顔隠蔽手領域検出部１３４により手領域Ｈの検出処理を実行する。なお、各要素が実行する処理については後述する。手領域検出部１１５により検出された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。

記憶部１１６には、予め設定されたジェスチャの情報が格納されている。例えば、記憶部１１６には、手の動きにより描かれる軌跡の形状を示す軌跡情報と、ジェスチャをそれぞれ識別するための識別情報とが対応付けて格納されている。また、記憶部１１６には、ジェスチャ毎に識別情報と、予め設定された処理を示す処理情報とが対応付けて格納されている。

ジェスチャで実行される処理には、例えば、画像の拡大・縮小、音楽や映像の再生・停止、チャンネルの変更、音量調整、プログラムの起動・停止、撮像、電子メールの送信、電源オフなどの処理がある。その他にも、情報処理装置１００の形態や用途に応じて様々な処理をジェスチャに対応付けることができる。また、手の動きだけでなく、手の形状（例えば、手を開いた形、拳を握った形など）を組み合わせたジェスチャに処理を対応付けることも可能である。但し、以下では簡単のため、手の動きによるジェスチャが処理に対応付けられている例を想定して説明を進める。

ジェスチャ認識部１１７は、画像メモリ１１２に格納された赤外画像ＰＩＲを参照し、記憶部１１６に格納された軌跡情報の中から、手領域Ｈの描く軌跡に対応する軌跡情報を抽出する。そして、ジェスチャ認識部１１７は、抽出した軌跡情報に対応付けられたジェスチャの識別情報を出力する。

ジェスチャ認識部１１７から出力された識別情報は、処理部１１８に入力される。処理部１１８は、記憶部１１６に格納された処理情報の中から、ジェスチャ認識部１１７から入力された識別情報に対応する処理情報を抽出する。そして、処理部１１８は、抽出した処理情報が示す処理を実行する。

（外部手領域検出方法について）
ここで、図６〜図８を参照しながら、モードＭｄが１の場合における手領域Ｈの検出方法について説明する。図６は、第２実施形態に係る外部手領域検出方法について説明するための第１の図である。図７は、第２実施形態に係る外部手領域検出方法について説明するための第２の図である。図８は、第２実施形態に係る外部手領域検出方法について説明するための第３の図である。

モードＭｄが１の場合には、顔検出部１１３により顔領域Ｆが検出されている。そして、検出された顔領域Ｆの情報は状態判断部１１４に入力される。この場合、状態判断部１１４は、図６の（Ａ１）に示すような顔領域ＦのヒストグラムＨｉｎ、及び図７の（Ｂ１）に示すような非顔領域ＮＦのヒストグラムＨｏｕｔを生成する。

なお、図６及び図７において、ｎはＢｉｎの番号を表す。また、簡単のために、Ｂｉｎは輝度値に対応するものとする。例えば、２５６階調の輝度を考える場合、Ｂｉｎは０〜２５５の値をとる。モードＭｄが１の場合には、手領域Ｈの検出に閾値Ｔｈが利用される。閾値Ｔｈは、状態判断部１１４により次のようにして計算される。

状態判断部１１４は、ヒストグラムＨｉｎの低輝度側から高輝度側へ向けて画素数を累積した累積ヒストグラムＡＨｉｎ（図６の（Ａ２）を参照）を生成する。さらに、状態判断部１１４は、ヒストグラムＨｏｕｔの高輝度側から低輝度側へ向けて画素数を累積した累積ヒストグラムＡＨｏｕｔ（図７の（Ｂ２）を参照）を生成する。ＡＨｉｎ（ｎ）及びＡＨｏｕｔ（ｎ）は、それぞれ下記の式（１）及び式（２）により与えられる。

ＡＨｉｎ（ｎ）＝ＡＨｉｎ（ｎ−１）＋Ｈｉｎ（ｎ） …（１）
ＡＨｏｕｔ（ｎ）＝ＡＨｏｕｔ（ｎ＋１）＋Ｈｏｕｔ（ｎ） …（２）
状態判断部１１４は、図８に示すように、累積ヒストグラムの和ＡＨｉｎ（ｎ）＋ＡＨｏｕｔ（ｎ＋１）が最大値をとる輝度値ｎを計算する。この最大値は、輝度値ｎの変化に対する累積ヒストグラムＡＨｉｎ及びＡＨｏｕｔの変化量が小さくなる部分に対応する。状態判断部１１４は、計算した輝度値ｎを閾値Ｔｈに設定する。なお、モードＭｄが１の場合、閾値Ｔｈは、ヒストグラムＨｉｎのピーク位置とヒストグラムＨｏｕｔのピーク位置との間に位置する。

状態判断部１１４により設定された閾値Ｔｈの情報は、手領域検出部１１５に入力される。外部手領域検出部１３１は、赤外画像ＰＩＲに含まれる画素の輝度値と閾値Ｔｈとを比較し、閾値Ｔｈよりも大きな輝度値を有する画素の集合を抽出する。外部手領域検出部１３１は、抽出した画素の集合が成す領域を手領域Ｈに設定する。このとき、外部手領域検出部１３１は、抽出した領域の中で最大の輝度値を有する画素の集合が成す領域を手領域Ｈに設定してもよい。外部手領域検出部１３１により設定された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。

（内部手領域検出方法について）
次に、図９及び図１０を参照しながら、モードＭｄが２の場合における手領域Ｈの検出方法について説明する。図９は、第２実施形態に係る内部手領域検出方法について説明するための第１の図である。図１０は、第２実施形態に係る内部手領域検出方法について説明するための第２の図である。

モードＭｄが２の場合には、顔検出部１１３により顔領域Ｆが検出されている。そして、検出された顔領域Ｆの情報は状態判断部１１４に入力される。モードＭｄが２の場合も、モードＭｄが１の場合と同様に状態判断部１１４により閾値Ｔｈが設定される。但し、モードＭｄが２の場合、閾値Ｔｈは、ヒストグラムＨｏｕｔのピーク位置よりも高輝度側に位置する。この場合、内部手領域検出部１３２は、前フレームにおける顔領域Ｆの輝度情報を利用して顔領域Ｆと手領域Ｈとを分離する。

内部手領域検出部１３２は、前フレームＦＬ１と現フレームＦＬ２との間で画素毎に輝度差を計算して差分画像を生成する。そして、内部手領域検出部１３２は、差分画像の顔領域Ｆについて輝度差のヒストグラム（図９の（Ｄ１）及び図１０の（Ｄ２）を参照）を生成する。

図９に示すように、前フレームＦＬ１及び現フレームＦＬ２のいずれにも手領域Ｈが含まれない場合、顔領域Ｆにおける輝度差がヒストグラム（Ｄ１）に分布として現れる。一方、図１０に示すように、前フレームＦＬ１には手領域Ｈが含まれないが、現フレームＦＬ２に手領域Ｈが含まれる場合、手領域Ｈの混入に起因する輝度差の分布成分がヒストグラム（Ｄ２）の高輝度側に現れる。つまり、このような場合には輝度差のヒストグラムに双峰性（２つの峰を持つ形状となること。）が現れる。

内部手領域検出部１３２は、前フレームＦＬ１と現フレームＦＬ２との差分画像について輝度差のヒストグラムを生成し、生成したヒストグラムに双峰性が認められるか否かを確認する。双峰性が認められた場合、内部手領域検出部１３２は、ヒストグラムの高輝度側に現れた分布成分に対応する画素の集合を手領域Ｈに設定する。内部手領域検出部１３２により設定された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。なお、輝度差のヒストグラムに双峰性が現れない場合には、現フレームに手領域Ｈが含まれないと判断される。

（全体手領域検出方法及び顔隠蔽手領域検出方法について）
次に、モードＭｄが３の場合における手領域Ｈの検出方法について説明する。モードＭｄが３の場合、赤外画像ＰＩＲにおける大部分の領域が手領域Ｈであると見なせる。顔領域Ｆが検出された場合（シーン３の場合）、全体手領域検出部１３３は、顔領域Ｆの輝度よりも大きな全ての領域を手領域Ｈに設定する。全体手領域検出部１３３により設定された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。

また、シーン４の場合、赤外画像ＰＩＲ上において顔が手で覆われているため、現フレームから顔領域Ｆが検出されない。但し、手で顔を覆う前に撮像された前フレームにおいては顔領域Ｆが検出される。

顔隠蔽手領域検出部１３４は、前フレームと現フレームとの間で輝度を比較し、現フレームの輝度が大きい場合に手領域Ｈの検出処理を実行する。そして、顔隠蔽手領域検出部１３４は、前フレームにおける顔領域Ｆのヒストグラムのピーク位置に対応する輝度よりも大きい輝度を有する画素の集合を抽出する。次いで、顔隠蔽手領域検出部１３４は、抽出した画素の集合を手領域Ｈに設定する。顔隠蔽手領域検出部１３４により設定された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。

以上、情報処理装置１００の機能について説明した。
［２−４．処理フロー］
次に、図１１〜図１７を参照しながら、情報処理装置１００によるジェスチャ認識の処理フローについて説明する。

（全体）
まず、図１１を参照しながら、全体的な処理フローについて説明する。図１１は、第２実施形態に係るジェスチャ認識の処理フローを示したフロー図である。

（Ｓ１０１）情報処理装置１００は、顔検出部１１３の機能により、顔検出技術を用いて赤外画像ＰＩＲから顔領域Ｆを検出する。例えば、顔検出部１１３は、P.Viola and M.Jones, "Robust Real-time Object Detection," Int. J. of Computer Vision, vol.57, no.2, pp.137-154, 2004に記載の顔検出技術を利用して顔領域Ｆを検出する。なお、顔領域Ｆを検出した場合、顔検出部１１３は、顔領域Ｆの検出結果を画像メモリ１１２に格納する。

（Ｓ１０２）情報処理装置１００は、Ｓ１０１の処理で顔領域Ｆが検出されたか否かを判定する。Ｓ１０１の処理で顔領域Ｆが検出された場合、処理はＳ１０３に進む。一方、Ｓ１０１の処理で顔領域Ｆが検出されなかった場合、処理はＳ１０１に戻る。

（Ｓ１０３）情報処理装置１００は、状態判断部１１４の機能により、上述したシーン１〜４のいずれの状態に該当するかを判断し、その判断結果に応じてモードＭｄを設定する。

シーン１に該当する場合、状態判断部１１４は、モードＭｄを１に設定する。シーン２に該当する場合、状態判断部１１４は、モードＭｄを２に設定する。シーン３又はシーン４に該当する場合、状態判断部１１４は、モードＭｄを３に設定する。なお、Ｓ１０３の処理については後段において詳述する。

（Ｓ１０４）情報処理装置１００は、外部手領域検出部１３１の機能により、モードＭｄが１に設定されているか否かを判断する。モードＭｄが１に設定されている場合、外部手領域検出部１３１は、赤外画像ＰＩＲから手領域Ｈを検出する。外部手領域検出部１３１により検出された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。なお、Ｓ１０４の処理については後段において詳述する。また、モードＭｄが１に設定されていない場合、処理はＳ１０５に進む。

（Ｓ１０５）情報処理装置１００は、内部手領域検出部１３２の機能により、モードＭｄが２に設定されているか否かを判断する。モードＭｄが２に設定されている場合、内部手領域検出部１３２は、赤外画像ＰＩＲから手領域Ｈを検出する。内部手領域検出部１３２により検出された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。なお、Ｓ１０５の処理については後段において詳述する。また、モードＭｄが２に設定されていない場合、処理はＳ１０６に進む。

（Ｓ１０６）情報処理装置１００は、全体手領域検出部１３３の機能により、モードＭｄが３に設定され、かつ、顔領域Ｆが検出されているか否かを判断する。モードＭｄが３に設定され、かつ、顔領域Ｆが検出されている場合、全体手領域検出部１３３は、赤外画像ＰＩＲから手領域Ｈを検出する。全体手領域検出部１３３により検出された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。なお、Ｓ１０６の処理については後段において詳述する。また、モードＭｄが３に設定されていないか、顔領域Ｆが検出されていない場合、処理はＳ１０７に進む。

（Ｓ１０７）情報処理装置１００は、顔隠蔽手領域検出部１３４の機能により、モードＭｄが３に設定され、前フレームで顔領域Ｆが検出され、かつ、現フレームで顔領域Ｆが検出されていないという設定条件を満たすか否かを判断する。この条件を満たす場合、顔隠蔽手領域検出部１３４は、赤外画像ＰＩＲから手領域Ｈを検出する。顔隠蔽手領域検出部１３４により検出された手領域Ｈの情報は、ジェスチャ認識部１１７に入力される。なお、Ｓ１０７の処理については後段において詳述する。また、上記の設定条件を満たさない場合、処理はＳ１０８に進む。

（Ｓ１０８）情報処理装置１００は、ジェスチャ認識部１１７の機能により、手領域Ｈの動きが予め設定されたジェスチャの動きに一致するかを判定し、その判定結果によりジェスチャを認識する。ジェスチャを認識した場合、情報処理装置１００は、処理部１１８の機能により、認識したジェスチャに対応する処理を実行する。Ｓ１０８の処理を完了すると、図１１に示した一連の処理は終了する。なお、手領域Ｈが検出されていない場合、ジェスチャの認識が失敗したものとして図１１に示した一連の処理は終了する。

（状態判断）
ここで、図１２及び図１３を参照しながら、図１１に示したＳ１０３の処理について、さらに説明する。図１２は、第２実施形態に係るジェスチャ認識処理に含まれる状態判断処理の流れを示した第１のフロー図である。図１３は、第２実施形態に係るジェスチャ認識処理に含まれる状態判断処理の流れを示した第２のフロー図である。なお、図１２及び図１３に示した処理は、主に状態判断部１１４により実行される。

（Ｓ１１１）状態判断部１１４は、顔領域Ｆにおける画素毎の輝度値を参照し、輝度値毎に画素数をカウントして顔領域ＦのヒストグラムＨｉｎを作成する。このとき、状態判断部１１４は、顔検出部１１３による顔領域Ｆの検出結果を利用して顔領域Ｆを認識する。例えば、状態判断部１１４は、図６の（Ａ１）に示すようなヒストグラムＨｉｎを作成する。

（Ｓ１１２）状態判断部１１４は、非顔領域ＮＦにおける画素毎の輝度値を参照し、輝度値毎に画素数をカウントして非顔領域ＮＦのヒストグラムＨｏｕｔを作成する。このとき、状態判断部１１４は、顔検出部１１３による顔領域Ｆの検出結果を利用して非顔領域ＮＦを認識する。例えば、状態判断部１１４は、図７の（Ｂ１）に示すようなヒストグラムＨｏｕｔを作成する。なお、Ｓ１１２の処理とＳ１１１の処理とは実行順序を入れ替えてもよい。

（Ｓ１１３）状態判断部１１４は、Ｓ１１１で作成したヒストグラムＨｉｎを用いて、顔領域Ｆの累積ヒストグラムＡＨｉｎを作成する。例えば、状態判断部１１４は、ヒストグラムＨｉｎの低輝度側から高輝度側へ向けて画素数を累積し、図６の（Ａ２）に示すような累積ヒストグラムＡＨｉｎを生成する。ＡＨｉｎ（ｎ）は、上記の式（１）により与えられる。但し、ｎは輝度値に対応する。

（Ｓ１１４）状態判断部１１４は、Ｓ１１２で作成したヒストグラムＨｏｕｔを用いて、非顔領域ＮＦの累積ヒストグラムＡＨｏｕｔを作成する。例えば、状態判断部１１４は、ヒストグラムＨｏｕｔの高輝度側から低輝度側へ向けて画素数を累積し、図７の（Ｂ２）に示すような累積ヒストグラムＡＨｏｕｔを生成する。ＡＨｏｕｔ（ｎ）は、上記の式（２）により与えられる。なお、Ｓ１１３の処理とＳ１１４の処理とは実行順序を入れ替えてもよい。

（Ｓ１１５）状態判断部１１４は、下記の式（３）に示す評価関数Ｅ（ｎ）が最大値を与える輝度値ｎを計算する。そして、状態判断部１１４は、計算した輝度値ｎを閾値Ｔｈに設定する。

Ｅ（ｎ）＝ＡＨｉｎ（ｎ）＋ＡＨｏｕｔ（ｎ＋１） …（３）
（Ｓ１１６）状態判断部１１４は、Ｓ１１１で作成した顔領域ＦのヒストグラムＨｉｎを参照し、ヒストグラムＨｉｎにおけるピーク値Ｐｉｎを取得する。このピーク値Ｐｉｎは、ヒストグラムＨｉｎのピーク位置（図６の（Ａ１）を参照）における輝度値ｎである。

（Ｓ１１７）状態判断部１１４は、Ｓ１１２で作成した非顔領域ＮＦのヒストグラムＨｏｕｔを参照し、ヒストグラムＨｏｕｔにおけるピーク値Ｐｏｕｔを取得する。このピーク値Ｐｏｕｔは、ヒストグラムＨｏｕｔのピーク位置（図７の（Ｂ１）を参照）における輝度値ｎである。なお、Ｓ１１６の処理とＳ１１７の処理とは実行順序を入れ替えてもよい。Ｓ１１７の処理が完了すると、処理は、図１３のＳ１１８に進む。

（Ｓ１１８）状態判断部１１４は、モードＭｄを０に設定する。つまり、状態判断部１１４は、モードＭｄの値を初期化する。
（Ｓ１１９）状態判断部１１４は、閾値Ｔｈが顔領域ＦのヒストグラムＨｉｎにおけるピーク値Ｐｉｎより大きく、かつ、閾値Ｔｈが非顔領域ＮＦのヒストグラムＨｏｕｔにおけるピーク値Ｐｏｕｔよりも小さいか否かを判断する。

閾値Ｔｈがピーク値Ｐｉｎより大きく、かつ、閾値Ｔｈがピーク値Ｐｏｕｔよりも小さい場合、処理はＳ１２０に進む。一方、閾値Ｔｈがピーク値Ｐｉｎより大きくないか、閾値Ｔｈがピーク値Ｐｏｕｔよりも小さくない場合、処理はＳ１２１に進む。

（Ｓ１２０）状態判断部１１４は、モードＭｄを１に設定する。つまり、状態判断部１１４は、シーン１の状態であると判断する。Ｓ１２０の処理が完了すると、図１２及び図１３に示した一連の処理は終了する。

（Ｓ１２１）状態判断部１１４は、閾値Ｔｈが非顔領域ＮＦのヒストグラムＨｏｕｔにおけるピーク値Ｐｏｕｔ以上であるか否かを判定する。閾値Ｔｈがピーク値Ｐｏｕｔ以上である場合、処理はＳ１２２に進む。一方、閾値Ｔｈがピーク値Ｐｏｕｔ以上でない場合、処理はＳ１２３に進む。

（Ｓ１２２）状態判断部１１４は、モードＭｄを２に設定する。つまり、状態判断部１１４は、シーン２の状態であると判断する。Ｓ１２２の処理が完了すると、図１２及び図１３に示した一連の処理は終了する。

（Ｓ１２３）状態判断部１１４は、モードＭｄを３に設定する。つまり、状態判断部１１４は、シーン３の状態であると判断する。Ｓ１２３の処理が完了すると、図１２及び図１３に示した一連の処理は終了する。

以上、ジェスチャ認識処理に含まれる状態判断処理の流れについて説明した。
（外部手領域検出）
次に、図１４を参照しながら、図１１に示したＳ１０４の処理について、さらに説明する。図１４は、第２実施形態に係るジェスチャ認識処理に含まれる外部手領域検出処理の流れを示したフロー図である。なお、図１４に示した処理は、主に外部手領域検出部１３１により実行される。

（Ｓ１３１）外部手領域検出部１３１は、モードＭｄが１に設定されているか否かを判断する。モードＭｄが１に設定されている場合、処理はＳ１３２に進む。一方、モードＭｄが１に設定されていない場合、図１４に示した一連の処理は終了する。

（Ｓ１３２）外部手領域検出部１３１は、閾値Ｔｈに基づいて赤外画像ＰＩＲを二値化する。このとき、外部手領域検出部１３１は、赤外画像ＰＩＲに含まれる画素の輝度値と閾値Ｔｈとを比較する。そして、外部手領域検出部１３１は、輝度値が閾値Ｔｈより大きい画素の画素値を１とし、それ以外の画素の画素値を０として二値化画像を生成する。

（Ｓ１３３）外部手領域検出部１３１は、二値化画像に膨張・収縮処理を施す。膨張処理とは、画素値が１の画素を１層分太くする処理である。例えば、注目画素に隣接する少なくとも１つの画素の画素値が１の場合に注目画素の画素値を１とする。膨張処理により、二値化画像から小さな孔や溝が除かれる。収縮処理は、画素値が１の画素を１層分細くする処理である。例えば、注目画素に隣接する少なくとも１つの画素の画素値が０の場合に注目画素の画素値を０とする。膨張・収縮処理は、膨張処理及び収縮処理の組み合わせである。

（Ｓ１３４）外部手領域検出部１３１は、Ｓ１３２の処理で画素値が１とされた画素の集合で形成される領域の中から、最大の輝度値を有する画素の集合で形成される領域を抽出する。そして、外部手領域検出部１３１は、抽出した領域を手領域Ｈに設定する。Ｓ１３４の処理が完了すると、図１４に示した一連の処理は終了する。

以上、ジェスチャ認識処理に含まれる外部手領域検出処理の流れについて説明した。
（内部手領域検出）
次に、図１５を参照しながら、図１１に示したＳ１０５の処理について、さらに説明する。図１５は、第２実施形態に係るジェスチャ認識処理に含まれる内部手領域検出処理の流れを示したフロー図である。なお、図１５に示した処理は、主に内部手領域検出部１３２により実行される。

（Ｓ１４１）内部手領域検出部１３２は、モードＭｄが２に設定されているか否かを判断する。モードＭｄが２に設定されている場合、処理はＳ１４２に進む。一方、モードＭｄが２に設定されていない場合、図１５に示した一連の処理は終了する。

（Ｓ１４２）内部手領域検出部１３２は、前フレームにおいて検出された顔領域Ｆの画像（顔画像）を取得する。例えば、内部手領域検出部１３２は、画像メモリ１１２に格納された前フレームから、前フレームにおいて検出された顔領域Ｆの部分を切り出す。そして、内部手領域検出部１３２は、切り出した部分を前フレームの顔画像とする。

（Ｓ１４３）内部手領域検出部１３２は、Ｓ１４２で取得した顔画像のサイズを規格化する。つまり、内部手領域検出部１３２は、前フレームの顔画像を拡大又は縮小して、現フレームについて検出された顔領域Ｆのサイズと同じサイズにする。

（Ｓ１４４）内部手領域検出部１３２は、現フレームの顔画像と前フレームの顔画像との差分である差分画像を生成する。
（Ｓ１４５）内部手領域検出部１３２は、Ｓ１４４で生成した差分画像のヒストグラム（図９の（Ｄ１）及び図１０の（Ｄ２）を参照）を生成する。図９に示すように、前フレームＦＬ１及び現フレームＦＬ２のいずれにも手領域Ｈが含まれない場合、顔領域Ｆにおける輝度差の分布がヒストグラム（Ｄ１）に現れる。一方、図１０に示すように、前フレームＦＬ１には手領域Ｈが含まれないが、現フレームＦＬ２に手領域Ｈが含まれる場合、手領域Ｈの混入に起因する輝度差の分布成分がヒストグラム（Ｄ２）の高輝度側に現れる。つまり、輝度差のヒストグラムに双峰性が現れる。

（Ｓ１４６）内部手領域検出部１３２は、差分画像のヒストグラムに双峰性があるか否かを判定する。差分画像のヒストグラムに双峰性がある場合、処理はＳ１４７に進む。一方、差分画像のヒストグラムに双峰性がない場合、処理はＳ１４８に進む。

（Ｓ１４７）内部手領域検出部１３２は、差分画像のヒストグラムに現れる２つの峰（ピークを有する輝度差の分布）のうち、高輝度側の峰に対応する画素の集合で形成される領域を手領域Ｈに設定する。Ｓ１４７の処理が完了すると、図１５に示した一連の処理は終了する。

（Ｓ１４８）内部手領域検出部１３２は、モードＭｄを０に設定する。差分画像のヒストグラムに双峰性がない場合とは、前フレームと現フレームとの間に手領域Ｈの混入に起因する変化が含まれない場合である。そのため、内部手領域検出部１３２は、現フレームに手領域Ｈが含まれていないと判断してモードＭｄを０に設定する。Ｓ１４８の処理が完了すると、図１５に示した一連の処理は終了する。

以上、ジェスチャ認識処理に含まれる内部手領域検出処理の流れについて説明した。
（全体手領域検出）
次に、図１６を参照しながら、図１１に示したＳ１０６の処理について、さらに説明する。図１６は、第２実施形態に係るジェスチャ認識処理に含まれる全体手領域検出処理の流れを示したフロー図である。なお、図１６に示した処理は、主に全体手領域検出部１３３により実行される。

（Ｓ１５１）全体手領域検出部１３３は、モードＭｄが３に設定されているか否かを判断する。モードＭｄが３に設定されている場合、処理は、Ｓ１５２に進む。一方、モードＭｄが３に設定されていない場合、図１６に示した一連の処理は終了する。

（Ｓ１５２）全体手領域検出部１３３は、現フレームから顔領域Ｆが検出されているか否かを判断する。現フレームから顔領域Ｆが検出されている場合、処理は、Ｓ１５３に進む。一方、現フレームから顔領域Ｆが検出されていない場合、図１６に示した一連の処理は終了する。

（Ｓ１５３）全体手領域検出部１３３は、顔領域Ｆのヒストグラムが有するピーク位置の輝度値を基準に赤外画像ＰＩＲを二値化する。このとき、全体手領域検出部１３３は、赤外画像ＰＩＲに含まれる画素の輝度値とピーク位置の輝度値とを比較する。そして、全体手領域検出部１３３は、ピーク位置の輝度値よりも大きな輝度値を有する画素の画素値を１とし、それ以外の画素値を０として二値化画像を生成する。

（Ｓ１５４）全体手領域検出部１３３は、Ｓ１５２で生成した二値化画像を用いて顔領域Ｆの画素を除去する。例えば、全体手領域検出部１３３は、赤外画像ＰＩＲと二値化画像とを重ね、二値化画像で画素値が１の画素を除く全画素について赤外画像ＰＩＲの画素値を０とする。

（Ｓ１５５）全体手領域検出部１３３は、二値化画像に膨張・収縮処理を施す。例えば、全体手領域検出部１３３は、注目画素に隣接する少なくとも１つの画素の画素値が１の場合に注目画素の画素値を１とする。さらに、全体手領域検出部１３３は、注目画素に隣接する少なくとも１つの画素の画素値が０の場合に注目画素の画素値を０とする。

（Ｓ１５６）全体手領域検出部１３３は、画素値が１である画素の集合で形成される領域の中から、最大の輝度値を有する画素の集合で形成される領域を抽出する。そして、全体手領域検出部１３３は、抽出した領域を手領域Ｈに設定する。Ｓ１５６の処理が完了すると、図１６に示した一連の処理は終了する。

以上、ジェスチャ認識処理に含まれる全体手領域検出処理の流れについて説明した。
（顔隠蔽手領域検出）
次に、図１７を参照しながら、図１１に示したＳ１０７の処理について、さらに説明する。図１７は、第２実施形態に係るジェスチャ認識処理に含まれる顔隠蔽手領域検出処理の流れを示したフロー図である。なお、図１７に示した処理は、主に顔隠蔽手領域検出部１３４により実行される。

（Ｓ１６１）顔隠蔽手領域検出部１３４は、モードＭｄが３であるか否かを判定する。モードＭｄが３である場合、処理はＳ１６２に進む。一方、モードＭｄが３でない場合、図１７に示した一連の処理は終了する。

（Ｓ１６２）顔隠蔽手領域検出部１３４は、前フレームで顔領域Ｆが検出され、かつ、現フレームで顔領域Ｆが未検出であるか否かを判定する。前フレームで顔領域Ｆが検出され、かつ、現フレームで顔領域Ｆが未検出である場合、処理はＳ１６３に進む。一方、前フレームで顔領域Ｆが検出されていないか、現フレームで顔領域Ｆが検出されている場合、図１７に示した一連の処理は終了する。

（Ｓ１６３）顔隠蔽手領域検出部１３４は、前フレームの輝度よりも設定値Ｔｈｇ以上明るい画素がｍ以上の割合で存在するか否かを判定する。設定値Ｔｈｇは、輝度の揺らぎを考慮したオフセットである。割合ｍは輝度が高くなった領域の割合である。例えば、Ｔｈｇは１５などと設定される。また、３０％の領域で手が出現すると仮定した場合、ｍは０．３などと設定される。なお、Ｔｈｇ及びｍの値は試験を実施した結果を踏まえて予め設定されてもよい。

（Ｓ１６４）顔隠蔽手領域検出部１３４は、前フレームで検出された顔領域Ｆのヒストグラムが有するピーク位置の輝度値を基準に赤外画像ＰＩＲを二値化する。このとき、顔隠蔽手領域検出部１３４は、赤外画像ＰＩＲに含まれる画素の輝度値とピーク位置の輝度値とを比較する。そして、顔隠蔽手領域検出部１３４は、ピーク位置の輝度値よりも大きな輝度値を有する画素の画素値を１とし、それ以外の画素値を０として二値化画像を生成する。

（Ｓ１６５）顔隠蔽手領域検出部１３４は、Ｓ１６４で生成した二値化画像を用いて、二値化画像の画素値が１である画素の集合（高輝度領域）を赤外画像ＰＩＲから抽出する。そして、顔隠蔽手領域検出部１３４は、抽出した高輝度領域を手領域Ｈに設定する。Ｓ１６４の処理が完了すると、図１７に示した一連の処理は終了する。

以上、ジェスチャ認識処理に含まれる顔隠蔽手領域検出処理の流れについて説明した。
以上説明したように、第２実施形態においては、顔検出技術を用いて検出された顔領域Ｆの輝度を基準に、より輝度の高い領域が手領域Ｈと判断される。そのため、顔領域Ｆ及び手領域Ｈを含む赤外画像ＰＩＲの輝度分布から手領域Ｈを検出するよりも、より高精度に手領域Ｈを検出することが可能になり、ジェスチャの検出精度の向上に寄与する。

以上、添付図面を参照しながら好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、様々な変形例や修正例に想到し得ることは明らかであり、こうした変形例や修正例についても当然に本発明の技術的範囲に属することは言うまでもない。

例えば、上記説明においては、赤外画像ＰＩＲから顔領域Ｆを検出する処理を例に挙げたが、可視光波長に感度を有する可視光カメラで撮像された可視光画像から顔領域Ｆを検出することも可能である。但し、赤外光カメラと可視光カメラとの設置位置の違いにより赤外画像と可視光画像との間で位置ずれが生じる。そのため、情報処理装置１００は、赤外画像と可視光画像との間の位置ずれを補正する変換処理を顔領域Ｆに施す。このような変換処理を実施することで、可視光画像を利用した顔検出の結果を赤外画像による手領域Ｈの検出に適用することが可能になる。

＜３．付記＞
以上説明した実施形態に関し、さらに以下の付記を開示する。
（付記１）被写体に赤外光を照射する光源と、
前記被写体の赤外画像を撮像する撮像部と、
顔検出により前記被写体の顔領域を検出し、前記赤外画像における前記顔領域の輝度を計算し、前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する演算部と、
を有する
情報処理装置。

（付記２）前記演算部は、前記高輝度領域における前記被写体の動きからジェスチャを認識する
付記１に記載の情報処理装置。

（付記３）前記撮像部は、複数の前記赤外画像を撮像し、
前記演算部は、１つの前記赤外画像から前記被写体の顔領域が検出されなかった場合に他の前記赤外画像から前記被写体の顔領域を検出する
付記１又は２に記載の情報処理装置。

（付記４）前記演算部は、前記高輝度領域の検出対象とする第１の赤外画像の顔領域と、前記第１の赤外画像より前に撮像された第２の赤外画像の顔領域との差分である差分画像を生成し、前記差分画像の輝度ヒストグラムを計算し、前記輝度ヒストグラムに双峰性が検出された場合、高輝度側に位置する前記輝度ヒストグラムの峰に対応する前記第１の赤外画像の領域を前記高輝度領域とする
付記１又は２に記載の情報処理装置。

（付記５）前記演算部は、前記赤外画像のうち前記顔領域における第１の輝度ヒストグラムと、前記赤外画像のうち前記顔領域以外の領域における第２の輝度ヒストグラムとを計算し、低輝度側から前記第１の輝度ヒストグラムを累積した第１の累積ヒストグラムと、高輝度側から前記第２の輝度ヒストグラムを累積した第２の累積ヒストグラムとの和が最大値をとる輝度を閾値に設定し、前記閾値より輝度が大きい領域を前記高輝度領域とする
付記１〜４のいずれか１つに記載の情報処理装置。

（付記６）赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータのプロセッサが、
顔検出により前記被写体の顔領域を検出し、
前記赤外画像における前記顔領域の輝度を計算し、
前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する
被写体部位の検出方法。

（付記７）前記プロセッサが、前記高輝度領域における前記被写体の動きからジェスチャを認識する
付記６に記載の被写体部位の検出方法。

（付記８）前記メモリは、複数の前記赤外画像を記憶し、
前記プロセッサが、１つの前記赤外画像から前記被写体の顔領域が検出されなかった場合に他の前記赤外画像から前記被写体の顔領域を検出する
付記６又は７に記載の被写体部位の検出方法。

（付記９）前記プロセッサが、前記高輝度領域の検出対象とする第１の赤外画像の顔領域と、前記第１の赤外画像より前に撮像された第２の赤外画像の顔領域との差分である差分画像を生成し、前記差分画像の輝度ヒストグラムを計算し、前記輝度ヒストグラムに双峰性が検出された場合、高輝度側に位置する前記輝度ヒストグラムの峰に対応する前記第１の赤外画像の領域を前記高輝度領域とする
付記６又は７に記載の被写体部位の検出方法。

（付記１０）前記プロセッサが、前記赤外画像のうち前記顔領域における第１の輝度ヒストグラムと、前記赤外画像のうち前記顔領域以外の領域における第２の輝度ヒストグラムとを計算し、低輝度側から前記第１の輝度ヒストグラムを累積した第１の累積ヒストグラムと、高輝度側から前記第２の輝度ヒストグラムを累積した第２の累積ヒストグラムとの和が最大値をとる輝度を閾値に設定し、前記閾値より輝度が大きい領域を前記高輝度領域とする
付記６〜９のいずれか１つに記載の被写体部位の検出方法。

（付記１１）赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータに、
顔検出により前記被写体の顔領域を検出し、
前記赤外画像における前記顔領域の輝度を計算し、
前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する
処理を実行させる、プログラム。

１０情報処理装置
１１光源
１２撮像部
１３演算部
Ｆ０顔領域
Ｈ０高輝度領域
Ｍ０被写体
ＩＲ０赤外光
ＰＩＲ０赤外画像
Ｔｈ０閾値

Claims

被写体に赤外光を照射する光源と、
前記被写体の赤外画像を撮像する撮像部と、
顔検出により前記被写体の顔領域を検出し、前記赤外画像における前記顔領域の輝度を計算し、前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する演算部と、
を有する
情報処理装置。
前記演算部は、前記高輝度領域における前記被写体の動きからジェスチャを認識する
請求項１に記載の情報処理装置。
前記撮像部は、複数の前記赤外画像を撮像し、
前記演算部は、１つの前記赤外画像から前記被写体の顔領域が検出されなかった場合に他の前記赤外画像から前記被写体の顔領域を検出する
請求項１又は２に記載の情報処理装置。
前記演算部は、前記高輝度領域の検出対象とする第１の赤外画像の顔領域と、前記第１の赤外画像より前に撮像された第２の赤外画像の顔領域との差分である差分画像を生成し、前記差分画像の輝度ヒストグラムを計算し、前記輝度ヒストグラムに双峰性が検出された場合、高輝度側に位置する前記輝度ヒストグラムの峰に対応する前記第１の赤外画像の領域を前記高輝度領域とする
請求項１又は２に記載の情報処理装置。
前記演算部は、前記赤外画像のうち前記顔領域における第１の輝度ヒストグラムと、前記赤外画像のうち前記顔領域以外の領域における第２の輝度ヒストグラムとを計算し、低輝度側から前記第１の輝度ヒストグラムを累積した第１の累積ヒストグラムと、高輝度側から前記第２の輝度ヒストグラムを累積した第２の累積ヒストグラムとの和が最大値をとる輝度を閾値に設定し、前記閾値より輝度が大きい領域を前記高輝度領域とする
請求項１〜４のいずれか１項に記載の情報処理装置。
赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータのプロセッサが、
顔検出により前記被写体の顔領域を検出し、
前記赤外画像における前記顔領域の輝度を計算し、
前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する
被写体部位の検出方法。
赤外光が照射された被写体の赤外画像を記憶するメモリを有するコンピュータに、
顔検出により前記被写体の顔領域を検出し、
前記赤外画像における前記顔領域の輝度を計算し、
前記赤外画像のうち前記顔領域よりも輝度が大きい高輝度領域を検出する
処理を実行させる、プログラム。