JP2010079651A

JP2010079651A - 動作認識装置、方法及びプログラム

Info

Publication number: JP2010079651A
Application number: JP2008248059A
Authority: JP
Inventors: Kyoichi Okamoto; 恭一岡本; Tsukasa Ike; 司池
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-08

Abstract

【課題】手などの認識対象物の動作を認識する際に、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能な動作認識技術を提供する。
【解決手段】画像選択部５３は、画像入力部５１から入力され画像記憶部５２に記憶された画像から３つの時刻に撮影された画像を選択し、２つの画像の異なる組み合わせを選択する。動領域抽出部５４は、一方の組み合わせから動きのある動領域を抽出する。非動領域抽出部５５は、他方の組み合わせから動きの少ない非動領域を抽出する。色領域抽出部５６は、１つの画像から、認識対象物に固有の色を表す色領域を抽出する。対象領域検出部５７は、動領域、非動領域及び色領域を用いて、認識対象物を表す対象領域を検出する。
【選択図】図１

Description

本発明は、例えば手などの認識対象物の動作を認識し、その動作に応じて非接触で機器を操作可能にするための動作認識装置、方法及びプログラムに関する。

従来より、カメラで撮影された画像から、予め教示しておいたユーザの手形状を認識し、認識した手の形状に応じて非接触で機器を操作可能にする認識装置が提案されている（例えば、特許文献１参照）。この認識装置では、例えば、握りこぶしで親指を立てた手形状と、握りこぶしの手形状との２種類の手形状を対象としたときに、親指を立てた手形状をスイッチオン、握りこぶしの手形状をスイッチオフと予め登録しておく。この場合、ユーザが握りこぶしから親指を立てる動作をすると、その動作を認識装置が認識することにより、非接触で機器のスイッチを入れることができる。しかし、この技術では、画像から手形状を認識する場合に、手ではない背景の領域を手と誤って誤認識してしまう例があった。また、手が動いている途中を撮影した画像では、動きによるボケが生じて手の形状がはっきり映らないため、手形状の認識精度が低下して、操作に失敗する例があった。特に手の動きが早い場合には認識精度の低下は顕著であった。

一方、動いている手を検出する方式として、時系列の画像データから動きのある領域を抽出する動き検出手段と、色を検出する色検出手段とを備え、動きのある領域で且つ対象物を特徴づける色を含む領域を、動いている手の存在する対象領域として選択する方式が提案されている（例えば、特許文献２参照）。この方式では動きと色とによって対象領域を制限するため、背景の領域で手を誤認識する確率を低減させることができる。

特開２００６−３５０４３４号公報特開２００１−１６６０６号公報

しかし、特許文献２の方式では、静止した手を検出することができない恐れがあった。また、この方式では、手形状を認識せず動きだけを使うため、操作の選択肢が限られて、機器の操作方法として十分な機能をユーザに提供できない恐れがあった。

本発明は、上記に鑑みてなされたものであって、手などの認識対象物の動作を認識する際に、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能な動作認識装置、方法及びプログラムを提供することを目的とする。

上述した課題を解決し、本発明は、動作認識装置であって、認識対象物が時系列画像から、互いに異なる少なくとも３つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択する画像選択部と、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出部と、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出部と、前記少なくとも３つの時刻のうち少なくとも１つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出部と、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第１比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第２比率以上である場合、当該色領域である対象領域を検出する対象領域検出部とを備えることを特徴とする。

また、本発明は、画像選択部と、動領域抽出部と、非動領域抽出部と、色領域抽出部と、対象領域検出部とを備える動作認識装置で実行される動作認識方法であって、前記画像選択部が、認識対象物が時系列画像から、互いに異なる少なくとも３つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択する画像選択ステップと、前記動領域抽出部が、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出ステップと、前記非動領域抽出部が、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出ステップと、前記色領域抽出部が、前記少なくとも３つの時刻のうち少なくとも１つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出ステップと、前記対象領域検出部が、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第１比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第２比率以上である場合、当該色領域である対象領域を検出する対象領域検出ステップとを含むことを特徴とする。

また、本発明は、上記の動作認識方法をコンピュータに実行させるためのプログラムである。

本発明によれば、背景を誤認識する可能性を低減しつつ、機器の操作方法として十分な機能をユーザに提供可能になる。

以下に添付図面を参照して、本発明に係る動作認識装置、方法及びプログラムの最良な実施の形態を詳細に説明する。

本実施の形態の動作認識装置は、例えば、ＣＰＵ（Central Processing Unit）等の制御部と、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等の記憶部と、ＨＤＤ（Hard Disk Drive）やＣＤ（Compact Disk）ドライブ装置等の外部記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。ＣＰＵは、記憶部や外部記憶部に記憶された各種プログラムを読み出して実行することにより、動作認識装置全体を制御し、各種機能を実現させる。動作認識装置の内部又は外部には、例えば、ＣＭＯＳイメージセンサやＣＣＤイメージセンサなどの撮像素子を有する撮像部と、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の入力部と、外部装置の通信を制御する通信Ｉ／Ｆ（interface）とが有線又は無線により各々接続される。

次に、このようなハードウェア構成において、ＣＰＵが記憶部や外部記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図１は、動作認識装置１００の機能的構成を例示する図である。同図に示される各部は、ＣＰＵのプログラム実行時にＲＡＭなどの記憶部上に生成されるものである。動作認識装置１００は、画像入力部５１と、画像記憶部５２と、画像選択部５３と、動領域抽出部５４と、非動領域抽出部５５と、色領域抽出部５６と、対象領域検出部５７と、対象認識部５８と、認識辞書記憶部５９とを有する。

画像入力部５１には、撮像部で撮影された認識対象物の画像が入力される。認識対象物とは、例えば人間の手である。画像入力部５１は、入力された画像を画像記憶部２に出力する。画像記憶部５２は、例えば、リングバッファであり、画像入力部５１から入力された画像を時系列に記憶する。具体的には、画像記憶部５２にはＮ（Ｎ：３以上の整数）フレーム分の画像を記憶する記憶エリアがあり、画像記憶部５２は画像入力部５１から入力された画像をこの記憶エリアに順次記憶していく。新しい画像が入力されると、‘Ｎ＋１’フレーム前の最も古い画像が上書きされて、当該画像が記憶されていた記憶エリアに新しい画像が新たに記憶されることにより、最も遅い時刻に撮影されたＮフレームの画像（最新の画像）が記憶される。また、画像入力部５１での画像の撮影の間隔が不定である場合や不定期に欠落がある場合は、画像記憶部５２は、画像と一緒に画像入力部５１での撮影時刻を記憶する。尚、画像入力部５１から入力される画像が常に一定間隔で撮影される場合、画像記憶部５２は、画像と一緒にフレーム番号を記憶するようにしても良い。

画像選択部５３は、画像記憶部５２に記憶された画像から少なくとも２つの画像を選択し、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択する。そして、画像選択部５３は、一方の組み合わせを動領域抽出部５４に出力し、他方の組み合わせを非動領域抽出部５５に出力し、１つの画像を色領域抽出部５６に出力する。画像選択部５３が画像を選択する方法の一例は以下の通りである。画像選択部５３は、画像記憶部２に記憶された画像から、最も遅い時刻に撮影された画像（撮影時刻を‘ｔ’とする）と、その１フレーム前の画像（撮影時刻を‘ｔ−１’とする）と、最も遅い時刻に撮影された画像のｎ（ｎ：２以上の整数）フレーム前の画像（撮影時刻を‘ｔ−ｎ’とする）との３フレームの画像を選択する。そして画像選択部５３は、撮影時刻‘ｔ’の画像と撮影時刻‘t−ｎ’の画像とを動領域抽出部５４に出力し、撮影時刻‘ｔ’の画像と撮影時刻‘ｔ−１’の画像とを非動領域抽出部５５に出力し、撮影時刻‘ｔ’の画像を色領域抽出部５６に出力する。即ち、画像選択部５３は、３つの時刻のうち最も遅い時刻に撮影された画像と、最も早い時刻に撮影された画像とを動領域抽出部５４に出力し、最も遅い時刻に撮影された画像と、最も遅い時刻と最も早い時刻との間の時刻に撮影された画像とを非動領域抽出部５５に出力し、最も遅い時刻に撮影された画像を色領域抽出部５６に出力する。

図２は、撮影時刻‘ｔ’，‘ｔ−１’，‘ｔ−ｎ’と、各撮影時刻に対応する画像の出力先との関係を模式的に示す図である。本実施の形態においては、認識対象物について、現在動きが小さいがある時間前には動きがあった領域を対象領域として検出するために、撮影時刻‘ｔ−ｎ’から撮影時刻‘ｔ−１’までの間は、動きがあったとみなし、撮影時刻‘ｔ−１’から撮影時刻‘ｔ’までの間は、動きが少なかったとみなして動作認識装置１００は処理を行う。このため、同図に示されるように、撮影時刻‘ｔ−１’の画像と撮影時刻‘ｔ’の画像とから実際に動きの少ない領域を抽出するために、これらの画像を非動領域抽出部５５に画像選択部５３は出力する。一方で、撮影時刻‘ｔ’の画像と撮影時刻‘ｔ―ｎ’の画像とから実際に動きのある領域を抽出するために、これらの画像を動領域抽出部５４に画像選択部５３は出力する。

ここで、各撮影時刻‘ｔ’，‘ｔ−１’，‘ｔ−ｎ’に対応する実際の画像の例を参照しながら説明する。図３は、撮影時刻‘ｔ’の画像を例示する図である。図４は、撮影時刻‘t−１’の画像を例示する図である。図５は、撮影時刻‘t−ｎ’の画像を例示する図である。これらの図によれば、撮影時刻‘t−ｎ’から撮影時刻‘t−１’までの間は手をやや下にさげるという動きがあり、撮影時刻‘t−１’から撮影時刻‘ｔ’までの間は動きがほとんどなくなったことが示されている。このような３フレームの画像が選択された場合、後述するように、認識対象物について現在動きは小さいがある時間前には動きがあった領域が対象領域として精度高く検出されることになる。尚、撮影時刻‘t−１’から撮影時刻‘ｔ’までの間にも実際には動きがあった場合などには、動作認識装置１００は、対象領域を検出することができない。この場合、画像選択部５３は、新たな撮影時刻（例えば‘ｔ＋１’とする）に対応する画像を最も遅い時刻に撮影された画像として選択して、以降処理が新たに行われることになる。また、外部から認識対象物の認識状態が入力され、認識対象物が表される対象領域が既に検出された状態であれば画像選択部５３は画像の選択を行わない。

尚、画像選択部５３は、各２フレームの画像間の撮影時刻の間隔が等しくなるように３フレームの画像を選択するようにしても良いが、動領域抽出部５４に出力する２フレームの画像間の撮影時刻の間隔が、非動領域抽出部５５に出力する２フレームの画像間の撮影時刻の間隔より長い方が望ましい。また、色領域抽出部５６に出力する画像は、非動領域抽出部５５に出力する画像の一方であれば良く、撮影時刻‘ｔ’の画像であっても、撮影時刻‘ｔ−１’の画像であっても良い。

動領域抽出部５４は、画像選択部５３から入力された２フレームの画像（撮影時刻‘ｔ’の画像と撮影時刻‘t−ｎ’の画像）から動きのある領域を抽出する。具体的には、動領域抽出部５４は、２フレームの画像（ＩとＩ’とする）について画像間の差分処理を行って差分画像Ｄを生成する。より具体的には、動領域抽出部５４は、画像の位置座標（ｘ、ｙ）毎に、以下の式１により明度の差の絶対値Ｄ（ｘ，ｙ）を求めて、差分画像Ｄを生成する。尚、Ｉ（ｘ、ｙ）は、画像Ｉの位置座標（ｘ、ｙ）における明度の値を示す。Ｉ’（ｘ、ｙ）は、画像Ｉ’の位置座標（ｘ、ｙ）における明度の値を示す。
Ｄ（ｘ，ｙ）＝｜Ｉ（ｘ，ｙ）−Ｉ’（ｘ，ｙ）｜・・・（１）

尚、入力された画像がカラー画像である場合は、動領域抽出部５４は、カラー画像からＧ成分又はＹ成分だけを抽出して、入力された画像をモノクロ画像に一旦変換してから、上述と同様に式１を用いて差分画像Ｄを生成する。

そして、差分画像を生成した後、動領域抽出部５４は、差分画像の画素値が、第１閾値より高い領域を選択して、その領域を動きのある動領域として出力する。尚、第１閾値は例えば外部記憶部に予め記憶されている。図６は、図３に例示した撮影時刻‘t’の画像と図５に例示した撮影時刻‘t−ｎ’の画像との差分画像を例示する図である。同図に示されるように、撮影時刻‘t−ｎ’から撮影時刻‘t’まで間に動いた手の部分が白く表されており、白く表されている領域が動領域として抽出される。

非動領域抽出部５５は、画像選択部５３から入力された２フレームの画像（撮影時刻‘ｔ’の画像と撮影時刻‘t−１’の画像）から動きの小さい領域を抽出する。具体的には、非動領域抽出部５５は、動領域抽出部５４と同様に、第２閾値より低い領域を選択して、その領域を動きの小さい非動領域として出力する。尚、第２閾値は例えば外部記憶部に予め記憶されている。第２閾値は第１閾値より小さいことが望ましいが、上述の第１の閾値と同じであっても良い。図７は、図３に例示した撮影時刻‘t’の画像と図４に例示した撮影時刻‘t−１’の画像との差分画像を例示する図である。同図に示されるように、両者の画像との差分はほとんどなく、身体のわずかな動きによって生じる身体の輪郭を表す部分が白く表されており、それ以外の黒く表されている部分、即ち、画像の略全体が非動領域として抽出される。

色領域抽出部５６は、画像選択部５３から入力された画像から、認識対象物に固有の色を表す領域である色領域を抽出する。例えば、色の表現方法としてＲＧＢを用いる場合、認識対象物の色分布を予め測定しておく。この場合、認識対象物の色が、ＲＧＢの３次元空間中で以下の式２の平面方程式を満たすように、パラメータ（α_１，β_１，γ_１，τ_１）を設定することができる。
α_１Ｒ＋β_１Ｇ＋γ_１Ｂ−τ_１＞０・・・（２）

このようなパラメータを例えばｍ組（α_１，β_１，γ_１，τ_１）〜（α_ｍ，β_ｍ，γ_ｍ，τ_ｍ）用意して例えば外部記憶部に予め記憶させておく。色領域抽出部５６は、画像選択部５３から入力された画像を構成する画素のうち、ｍ組の各パラメータが設定された方程式を全て満たす画素を選択することによって、認識対象物に固有の色を表す色領域を抽出する。例えば、認識対象物が手である場合、肌色に近い領域が色領域として抽出される。従って、手、腕及び顔が表される領域が色領域として抽出される。また、茶色に近い衣服が着用されている場合には衣服の部分の領域が色領域として抽出される。図８は、図３に例示した撮影時刻‘t’の画像から抽出された色領域を例示する図である。同図においては、向かって右側の手が表される領域、左側の腕が表される領域及び顔が表される領域が色領域として各々抽出されることが示されている。

対象領域検出部５７は、動領域抽出部５４で抽出された動領域、非動領域抽出部５５で抽出された非動領域及び色領域抽出部５６で抽出された色領域の情報を用いて、認識対象物が表される対象領域を検出する。具体的には、対象領域検出部５７は、色領域抽出部５６で抽出された色領域について、領域ラベリング処理を行って、連続していると見なすことができる連結領域毎にラベルＩＤを割り当てる。図９は、領域ラベリング処理の結果を例示する図である。同図においては、撮影時刻‘t’の画像について、顔が表される領域Ｒ１に対してラベルＩＤ‘１’が割り当てられ、手が表される領域Ｒ２に対してラベルＩＤ‘２’が割り当てられ、腕が表される領域Ｒ３に対してラベルＩＤ‘３’が割り当てられる。ここで、ラベルＩＤが割り当てられた色領域をラベル領域という。対象領域検出部５７は、各ラベル領域を、非動領域抽出部５５から出力された非動領域と比較し、ラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第１比率以上である場合、そのラベル領域を対象領域の候補として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域が対象領域の候補として検出される。尚、第１比率は例えば外部記憶部に予め記憶されている。

更に、対象領域検出部５７は、選択したラベル領域と、動領域抽出部５４から出力された動領域と比較し、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第２比率以上である場合、そのラベル領域を対象領域として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域から、動きが常に小さい領域が排除され、認識対象物に固有の色を表し且つ現在動きが小さいがある時間前には動きがあった領域が対象領域として選択される。尚、第２比率は例えば外部記憶部に予め記憶されている。この第２比率は上述の第１比率と同じであっても良いし異なっていても良い。対象領域検出部５７は、このように検出した対象領域を対象認識部５８に出力する。

ここで、選択される対象領域について図６，７，９を参照しながら具体的に説明する。図９に示したラベル領域と、図７の差分画像において示される非動領域とを比較すると、全てのラベル領域について、ラベル領域に含まれる非動領域の面積はラベル領域の面積と略同じである。この場合、非動領域の面積は各ラベル領域の面積に比べて第１比率以上であるとして、各ラベル領域が対象領域として選択される。ここでは、ラベルＩＤ‘１’〜‘３’が各々割り当てられたラベル領域が全て対象領域として選択される。そして、これらのラベル領域と、図６の差分画像において示される動領域とを比較すると、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第２比率以上であるラベル領域は、ここでは、ラベルＩＤ‘２’が割り当てられたものとなる。従って、手を表すラベル領域Ｒ２が、認識対象物に固有の色を表し且つ現在動きは小さいがある時間前には動きがあった対象領域として選択される。

認識辞書記憶部５９は、認識対象物の様々な形状を各々表す画像を用いてテンプレート（認識辞書情報）を各々生成してこれを記憶する。認識辞書記憶部５９の構成は、例えば特許文献１に示されたテンプレート生成蓄積部と略同様であるため、ここではその詳細な説明を省略する。

対象認識部５８は、対象領域検出部５７から入力された対象領域によって表される認識対象物の形状と、認識辞書記憶部５９に記憶された複数のテンプレートによって表される形状とを各々照合し、対象領域によって表される認識対象物の形状とテンプレートによって表される形状との類似度を各々算出する。この照合の際、対象認識部５８は、１つのテンプレートをずらしながら複数回の照合を行う。例えば、対象認識部５８は、対象領域に対してテンプレートの位置を例えば３画素おきなどの一定間隔でずらしていき、テンプレートの中心が対象領域に含まれる場合にだけ照合を行う。また、この照合の際、対象認識部５８は、認識辞書記憶部５９に記憶されたテンプレートのサイズを予め定められた範囲内で変化させることによりテンプレートのスケールを変化させ、複数スケールのテンプレートについて照合を行う。そして、対象認識部５８は、最も高い類似度が算出されるテンプレートによって表される形状が、認識対象物の形状であると認識する。そして、対象認識部５８は、形状を認識した認識対象物の位置やサイズ、又は認識対象物の左上と右下との位置座標などの幾何情報を出力する。尚、認識対象物の形状は、最も高い類似度が算出されるテンプレートによるものではなく、類似度が最高値から一定範囲内の値を取る複数のテンプレートによって表される各形状を候補としても良い。また、認識対象物の形状は、類似度が一定の閾値を超える場合に最も高い類似度が算出されるテンプレートによるものとし、一定の閾値を超える類似度がない場合は類似度が最高値から一定範囲内の値を取るテンプレートによって表される各形状を候補としても良い。尚、対象認識部５８の構成は、例えば特許文献１にて示されたジェスチャ識別部と略同様であるため、その詳細な説明を省略する。

次に、本実施の形態に係る動作認識装置の行う動作認識処理の手順について図１０を用いて説明する。まず、動作認識装置１００の画像選択部５３は、撮像部で撮影された認識対象物の画像であって画像記憶部５２に時系列に記憶された画像（時系列画像）から、最も遅い時刻に撮影された画像（撮影時刻‘ｔ’）と、その１フレーム前の画像（撮影時刻‘ｔ−１’）と、最も遅い時刻に撮影された画像のｎフレーム前の画像（撮影時刻‘ｔ−ｎ’）との３フレームの画像を選択する。そして画像選択部５３は、撮影時刻‘ｔ’の画像と撮影時刻‘t−ｎ’の画像とを動領域抽出部５４に出力し、撮影時刻‘ｔ’の画像と撮影時刻‘ｔ−１’の画像とを非動領域抽出部５５に出力し、撮影時刻‘ｔ’の画像を色領域抽出部５６に出力する（ステップＳ１）。動領域抽出部５４は、ステップＳ１で出力された２フレームの画像（撮影時刻‘ｔ’の画像と撮影時刻‘t−ｎ’の画像）から動きのある動領域を抽出する（ステップＳ２）。また、非動領域抽出部５５は、ステップＳ１で出力された２フレームの画像（撮影時刻‘ｔ’の画像と撮影時刻‘t−１’の画像）から動きの小さい非動領域を抽出する（ステップＳ３）。色領域抽出部５６は、ステップＳ１で出力された画像から、認識対象物に固有の色を表す色領域を抽出する(ステップＳ４)。次いで、対象領域検出部５７は、ステップＳ２で抽出された動領域、ステップＳ３で抽出された非動領域及びステップＳ４で抽出された色領域の情報を用いて、認識対象物が表される対象領域を検出する（ステップＳ５）。

ここで、対象領域検出部５７が対象領域を検出する対象領域検出処理の詳細な手順について図１１を用いて説明する。まず、対象領域検出部５７は、ステップＳ４で抽出された色領域について、領域ラベリング処理を行って、連続していると見なすことができる連結領域毎にラベルＩＤを割り当てる（ステップＳ２０）。例えば、上述の図９で説明したように、撮影時刻‘t’の画像について、顔が表される領域Ｒ１に対してラベルＩＤ‘１’が割り当てられ、手が表される領域Ｒ２に対してラベルＩＤ‘２’が割り当てられ、腕が表される領域Ｒ３に対してラベルＩＤ‘３’が割り当てられる。このステップＳ２０でラベルＩＤを割り当てられた色領域（ラベル領域）の数をＰ個とし、Ｐ個の各々のラベル領域に‘１’から‘Ｐ’までのラベルＩＤが割り当てられたとする。次に、対象領域検出部５７は、処理対象のラベルＩＤを表す変数Ｉを‘１’に初期化する（ステップＳ２１）。そして、対象領域検出部５７は、ラベルＩＤが変数Ｉに等しいラベル領域をステップＳ３で抽出された非動領域と比較し、そのラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第１比率以上であるか否かを判断する（ステップＳ２２）。そして、対象領域検出部５７は、ラベル領域に含まれる非動領域の面積がラベル領域の面積に比べて第１比率以上であると判断した場合、そのラベル領域を対象領域の候補として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域が対象領域の候補として検出される。

次いで、対象領域検出部５７は、ラベルＩＤが変数Ｉに等しいラベル領域であってステップＳ２２の判断の結果対象領域として選択したラベル領域をステップＳ２で抽出された動領域と比較し、そのラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第２比率以上であるか否かを判断する（ステップＳ２３）。そして、対象領域検出部５７は、ラベル領域に含まれる動領域の面積がラベル領域の面積に比べて第２比率以上であると判断した場合、そのラベル領域を対象領域として選択する。この結果、認識対象物に固有の色を表し且つ動きのない領域から、動きが常に小さい領域が排除され、認識対象物に固有の色を表し且つ現在動きが小さいがある時間前には動きがあった領域が対象領域として選択される。そして、対象領域検出部５７は、ステップＳ２３の判断の結果対象領域として選択した、ラベルＩＤが変数Ｉに等しいラベル領域を対象認識部５８に出力し（ステップＳ２４）、ステップＳ２５に進む。

尚、ステップＳ２２で、非動領域の面積がラベル領域の面積に比べて第１比率より小さいと判断した場合及びステップＳ２３で、動領域の面積がラベル領域の面積に比べて第２比率より小さいと判断した場合、ステップＳ２５に進む。ステップＳ２５では、対象領域検出部５７は、変数Ｉが‘Ｐ’より小さいか否かを判断し、変数Ｉが‘Ｐ’より小さいと判断した場合（ステップＳ２５：ＹＥＳ）、対象領域検出部５７は、変数Ｉに‘１’を加えて（ステップＳ２６）、ステップＳ２２に進む。変数Ｉが‘Ｐ’以上であると判断した場合（ステップＳ２５：ＮＯ）、対象領域検出部５７は、全てのラベル領域について処理を行ったことになるので、対象領域検出処理を終了する。

図１０の説明に戻る。ステップＳ５のステップＳ２４で対象領域が対象認識部５８に出力された場合、対象認識部５８は、当該対象領域によって表される認識対象物の形状と、認識辞書記憶部５９に記憶された複数のテンプレートによって表される形状とを各々照合し、対象領域によって表される認識対象物の形状とテンプレートによって表される形状との類似度を各々算出する（ステップＳ６）。図９の例では、この類似度に基づいて、ラベルＩＤ‘２’が割り当てられたラベル領域Ｒ２から、認識対象物として手の形状が認識されることになる。

以上のように、少なくとも３つの画像を時系列に選択して、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択し、一方の組み合わせから動きのある動領域を抽出すると共に、他方の組み合わせから動きの小さい非動領域を抽出し、１つの画像から認識体操物の色を表す色領域を抽出する。そして、動領域、非動領域及び色領域を用いて、過去に動きがあってその後動きが小さくなった認識対象物が表される対象領域、即ち、動作が開始された後動作を終了した認識対象物が表される対象領域を選択する。この結果、動きによるボケの少ない画像を選択して認識対象物の形状の認識に適用することができるので、認識精度を向上することができる。即ち、動きのある動作であっても、認識対象物の形状を精度良く認識することができる。従って、認識した形状に応じて機器の操作が行われる場合、ユーザの操作感を向上させることができる。

なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。

上述した実施の形態において、動作認識装置１００で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。この場合には、プログラムは、動作認識装置１００において上記記録媒体から読み出して実行することによりＲＡＭなどの記憶部上にロードされ、上記機能的構成において説明した各部が記憶部上に生成される。

上述した実施の形態において、画像選択部５３は、非動領域抽出部５５に対して、最も遅い時刻に撮影された画像（撮影時刻は‘ｔ’）とその１フレーム前の画像（撮影時刻は‘ｔ−１’）とを出力したが、これに限らず、過去の画像として、最も遅い時刻に撮影された画像（撮影時刻は‘ｔ’）の‘ｎ−１’フレーム前の画像（撮影時刻は‘ｔ−ｎ＋１’）と、その１フレーム前の画像（撮影時刻は‘ｔ−ｎ’）とを非動領域抽出部５５に出力するようにしても良い。この場合、画像選択部５３は、色領域抽出部５６に対して、撮影時刻‘ｔ−ｎ＋１’の画像又は撮影時刻‘ｔ−ｎ’の画像を出力すれば良い。即ち、画像選択部５３は、３つの時刻のうち最も遅い時刻に撮影された画像と、最も遅い時刻と最も早い時刻との間の時刻に撮影された画像とを動領域抽出部５４に出力し、最も遅い時刻に撮影された画像と、最も早い時刻に撮影された画像とを非動領域抽出部５５に出力し、最も早い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻に撮影された画像を色領域抽出部５６に出力する。このような構成によれば、動きが小さい状態から動きのある状態に遷移した、即ち、動作を開始した認識対象物を精度高く認識することができる。

上述した実施の形態において、画像選択部５３は、３フレームの画像のうちの１つとして、最も遅い時刻に撮影された画像（撮影時刻は‘ｔ’）の１フレーム前の画像（撮影時刻は‘ｔ−１’）を選択するようにしたが、１フレーム前に限らず、複数フレーム前の画像を選択するようにしても良い。

上述した実施の形態において、図１０のフローチャートにおいては、ステップＳ２で動領域を抽出する処理、ステップＳ３で非動領域を抽出する処理及びステップＳ４で色領域を抽出する処理を行ったが、これらの処理をこの順に行わなくても良いし、また、これらの処理を並行して行うようにしても良い。

上述した実施の形態において、画像選択部５３は、３フレームの画像を選択するようにしたが、４フレーム以上の画像を選択するようにしても良い。この場合、画像選択部５３は、３フレーム以上の画像を動領域抽出部５４及び非動領域抽出部５５のうち少なくとも一方に出力するようにしても良い。例えば、画像選択部５３は、例えば、撮影時刻‘ｔ’,‘t−２’,‘ｔ−４’,…‘ｔ−ｎ’に各々対応する画像であって合計で‘ｎ／２’フレームの画像を動領域抽出部５４に出力し、撮影時刻‘ｔ’，‘ｔ−１’に各々対応する画像を非動領域抽出部５５に出力し、撮影時刻‘ｔ’の画像を色領域抽出部５６に出力するようにしても良い。動領域抽出部５４は、３フレーム以上の画像が入力された場合、それらの画像から２フレームずつ選択して差分処理と動領域の抽出とを各々行い、２つのフレーム毎に抽出された複数の動領域の論理和を取った領域を動領域として出力すれば良い。また、非動領域抽出部５５は、３フレーム以上の画像が入力された場合、それらの画像から２フレームずつ選択して差分処理と非動領域の抽出とを各々行い、２つのフレーム毎に抽出された複数の動領域の論理積を取った領域を非動領域として出力すれば良い。

上述した実施の形態において、画像の撮影状況に応じて、画像選択部５３が画像を選択する方法を適宜変更するようにしても良い。例えば、画像の撮影条件について、一般的な撮像部では、撮影するシーンが明るいと露光時間を短くしシーンが暗くなると露光時間を長くする露光調整手段を有している。撮影対象の運動速度が同じであれば、露光時間が短ければ動きによるボケは小さくなる。このため、撮影環境に対する照度センサの情報を取得する取得部や、画像全体の明度ヒストグラム情報を用いてシーンの明暗情報を計測する計測部を動作認識装置１００は更に備え、画像選択部５３は、これらの照度センサの情報や明暗情報を用いて、シーンが明るければ非動領域抽出部５５に出力する各画像について撮影時刻間の間隔が長くなるように画像を選択し、シーンが暗ければ非動領域抽出部５５に出力する各画像について撮影時刻間の間隔が短くなるように画像を選択する。このように、画像の撮影状況に応じて、画像選択部５３が画像を選択する方法を動的に変更することにより、認識対象物に対してより好適な認識を行うことが可能になる。

一実施の形態に係る動作認識装置の機能的構成を例示する図である。撮影時刻‘ｔ’，‘ｔ−１’，‘ｔ−ｎ’と、各撮影時刻に対応する画像の出力先との関係を模式的に示す図である。撮影時刻‘ｔ’の画像を例示する図である。撮影時刻‘t−１’の画像を例示する図である。撮影時刻‘t−ｎ’の画像を例示する図である。図３に例示した撮影時刻‘t’の画像と図５に例示した撮影時刻‘t−ｎ’の画像との差分画像を例示する図である。図３に例示した撮影時刻‘t’の画像と図４に例示した撮影時刻‘t−１’の画像との差分画像を例示する図である。図３に例示した撮影時刻‘t’の画像から抽出された色領域を例示する図である。領域ラベリング処理の結果を例示する図である。同実施の形態に係る動作認識装置の行う動作認識処理の手順を示すフローチャートである。同実施の形態に係る対象領域検出部５７が対象領域を検出する対象領域検出処理の詳細な手順を示すフローチャートである。

符号の説明

５１画像入力部
５２画像記憶部
５３画像選択部
５４動領域抽出部
５５非動領域抽出部
５６色領域抽出部
５７対象領域検出部
５８対象認識部
５９認識辞書記憶部
１００動作認識処理

Claims

認識対象物を撮影した時系列画像から、互いに異なる少なくとも３つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択する画像選択部と、
前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出部と、
前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出部と、
前記少なくとも３つの時刻のうち少なくとも１つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出部と、
前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第１比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第２比率以上である場合、当該色領域である対象領域を検出する対象領域検出部と、を備えることを特徴とする動作認識装置。
前記認識対象物の様々な形状を各々表す画像を用いて生成された認識辞書情報を記憶する認識辞書記憶部と、
前記認識辞書情報を用いて、前記対象領域において前記認識対象物を認識する対象認識部と、
を更に備えることを特徴とする請求項１に記載の動作認識装置。
前記画像選択部は、前記少なくとも３つの時刻のうち最も遅い時刻に撮影された画像及び最も早い時刻に撮影された画像の第１の組み合わせと、前記少なくとも３つの時刻のうち最も遅い時刻に撮影された画像及び最も遅い時刻と最も早い時刻との間の時刻に撮影された画像の第２の組み合わせとを選択し、
前記動領域抽出部は、前記第１の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出し、
前記非動領域抽出部は、前記第２の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出することを特徴とする請求項１又は請求項２に記載の動作認識装置。
前記色領域抽出部は、前記少なくとも３つの時刻のうち最も遅い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出することを特徴とする請求項３に記載の動作認識装置。
前記画像選択部は、前記少なくとも３つの時刻のうち最も遅い時刻に撮影された画像及び最も早い時刻に撮影された画像の第１の組み合わせと、前記少なくとも３つの時刻のうち最も遅い時刻に撮影された画像及び最も遅い時刻と最も早い時刻との間の時刻に撮影された画像の第２の組み合わせとを選択し、
前記動領域抽出部は、前記第２の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出し、
前記非動領域抽出部は、前記第１の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出することを特徴とする請求項１又は請求項２に記載の動作認識装置。
前記色領域抽出部は、前記少なくとも３つの時刻のうち最も早い時刻に撮影された画像又は最も遅い時刻と最も早い時刻との間の時刻から、前記認識対象物に固有の色を表す領域である色領域を抽出することを特徴とする請求項５に記載の動作認識装置。
前記画像選択部は、画像の撮影状況に応じて、前記少なくとも３つの時刻のうち、最も遅い時刻から最も遅い時刻と最も早い時刻との間の時刻までの時間間隔を変更して前記画像を選択して、前組み合わせを少なくとも２つ選択することを特徴とする請求項１乃至請求項６のいずれか１項に記載の動作認識装置。
前記動領域抽出部は、前記一方の組み合わせに３つ以上の画像が含まれる場合、各々異なる２つの画像の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域を組み合わせ毎に各々抽出し、抽出された各領域の論理和である動領域を抽出することを特徴とする請求項１乃至請求項７のいずれか１項に記載の動作認識装置。
前記非動領域抽出部は、前記他方の組み合わせに３つ以上の画像が含まれる場合、各々異なる２つの画像の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域を組み合わせ毎に各々抽出し、抽出された各領域の論理積である非動領域を抽出することを特徴とする請求項１乃至請求項８のいずれか１項に記載の動作認識装置。
前記動領域抽出部は、前記一方の組み合わせにおける画像間の差分の画素値が第１閾値以上の前記動領域を抽出し、
前記非動領域抽出部は、他方の組み合わせにおける画像間の差分の画素値が、前記第１閾値より小さい第２閾値より小さい前記非動領域を抽出することを特徴とする請求項１乃至請求項９のいずれか１項に記載の動作認識装置。
画像選択部と、動領域抽出部と、非動領域抽出部と、色領域抽出部と、対象領域検出部とを備える動作認識装置で実行される動作認識方法であって、
前記画像選択部が、認識対象物が時系列画像から、互いに異なる少なくとも３つの時刻に各々撮影された画像を選択して、選択した前記画像のうち、互いに異なる少なくとも２つの時刻に各々撮影された画像の組み合わせを少なくとも２つ選択する画像選択ステップと、
前記動領域抽出部が、前記組み合わせのうち、一方の組み合わせにおける画像間の差分の画素値が予め定められた閾値以上の領域である動領域を抽出する動領域抽出ステップと、
前記非動領域抽出部が、前記組み合わせのうち、他方の組み合わせにおける画像間の差分の画素値が予め定められた閾値より小さい領域である非動領域を抽出する非動領域抽出ステップと、
前記色領域抽出部が、前記少なくとも３つの時刻のうち少なくとも１つの時刻に撮影された画像から、前記認識対象物に固有の色を表す領域である色領域を抽出する色領域抽出ステップと、
前記対象領域検出部が、前記色領域に含まれる前記非動領域の面積が当該色領域の面積に対して第１比率以上である場合且つ前記色領域に含まれる前記動領域の面積が当該色領域の面積に対して第２比率以上である場合、当該色領域である対象領域を検出する対象領域検出ステップと、
を含むことを特徴とする動作認識方法。
請求項１１に記載の動作認識方法をコンピュータに実行させるためのプログラム。