JP3657463B2

JP3657463B2 - 動作認識システムおよび動作認識プログラムを記録した記録媒体

Info

Publication number: JP3657463B2
Application number: JP18424299A
Authority: JP
Inventors: 通広大野; 宏之赤木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-06-29
Filing date: 1999-06-29
Publication date: 2005-06-08
Anticipated expiration: 2019-06-29
Also published as: JP2001016606A

Description

【０００１】
【発明の属する技術分野】
本発明は、例えば手などの画像が含まれている時系列画像データを処理することによって、手の形状および動作を認識する動作認識システムに関するものである。
【０００２】
【従来の技術】
従来、パーソナルコンピュータ等の情報処理機器におけるユーザーインターフェースとして、キー入力デバイスとしてのキーボードや、ポインティングデバイスとしてのマウスなどが一般的に用いられている。しかしながら、キーボードやマウスによる操作は、ある程度のスキルを要求するため、初心者にとっては、その操作が難しいという問題がある。
【０００３】
また、キーボードやマウスなどを使用する場合、操作とそれに対するシステムの応答との関連を使用者が記憶しておく必要がある。例えばキーボードにおいては、ＣｔｒｌキーやＡｌｔキーなどの機能を覚える必要があったり、マウスにおいては、シングルクリックとダブルクリックとの違いや、左ボタンと右ボタンとの機能の違いなどを覚える必要がある。このような多種多様の操作および機能を逐一覚えることは、初心者にとって大きな負担となる。
【０００４】
そこで、近年では、簡単かつ直観的なユーザーインターフェースとして、人間の身体、すなわち、身振りや手振りを利用しようとする試みが盛んに行われている。身振りや手振りをユーザーインターフェースとして利用するためには、カメラ等の入力デバイスによって身体の姿勢、形状や動作に関する情報を入力し、入力された情報を解析することによって身体情報の内容を認識し、認識された動作に対して特定のコマンド等の意味を持たせることが必要となる。
【０００５】
ここで、人間の身体を利用したユーザーインターフェースとして提案されている方法について以下にその例を示す。電子情報通信学会論文誌 D-II Vol.J80-D-II No.6 pp.1571-1580(1997)「インタラクティブシステム構築のための動画像からの実時間ジェスチャ認識手法−仮想指揮システムへの応用−」（文献１）には、ＣＣＤカメラによって撮影された画像から、腕部分を抽出し、その動きの軌跡を解析することによって、実時間でジェスチャを認識する方法が開示されている。また、特開平２−１４４６７５号公報（文献２）には、指の各関節毎に異なる色で塗り分けられた手袋を装着し、撮影画像から手袋の色を手がかりに指の動きを認識する方法が開示されている。
【０００６】
また、テレビジョン学会誌 Vol.48, No.8, pp.960-965(1994) 「仮想環境実現のための基板技術」（文献３）には、データグローブと呼ばれる手袋型のセンサデバイスを用いて、手指の動きをコンピュータに入力する方法が開示されている。また、映像情報(I) 1992/9 pp.55-60 「赤外画像と可視画像による人物抽出」（文献４）には、赤外画像と可視画像とを入力として用い、赤外画像から人物候補領域を抽出し、さらに可視画像において人物候補領域内の肌色領域を抽出することで顔や手の位置を特定する方法が開示されている。
【０００７】
【発明が解決しようとする課題】
文献１に開示されている方法のように、入力として可視画像を用いる場合、最も難しい問題は、入力された画像から手や指等の認識対象領域を抽出することである。手や指の抽出に関しては、画像の輝度情報や色情報を利用して肌色領域を抽出することによって実現する手法が一般的である。しかしながら、輝度情報や色情報は、背景に肌色に近い領域がある場合に、身体との区別が難しくなることや、照明状態などの環境条件によって値が変動しやすいため、上記の手法は、認識の安定性に欠けるという問題を有している。
【０００８】
この問題を解決するために、例えば文献１では、背景に暗幕を配置することによって対応する例が示されており、このような特殊な環境下において実施する例は比較的多く提案されている。あるいは、例えば文献２に開示されている方法のように、認識対象となる部位に、マーカーとなるものを装着することによって検出精度を高める例も多く提案されている。
【０００９】
また、文献３に開示されている方法のように、データグローブのような動作入力専用のデバイスを用いる場合には、手領域の抽出や動作情報の取得の安定性に関する問題は考慮する必要がなくなる。しかしながら、操作の前に動作入力用のデバイスを装着することの煩わしさや、ユーザーインターフェースとしては高価なものとなるという問題があり、キーボードやマウスの代用として利用するには困難な点も多い。
【００１０】
また、文献４に開示されている方法のように、赤外画像を利用すれば、一般的な環境においては身体と背景との温度差が大きいので、人間の身体領域の抽出は容易となる。しかしながら、赤外画像を入力する装置は、一般的に価格が高価であり、かつ、装置が大型となるものが多く、不法侵入者の監視などの特殊用途以外には流用することが難しいので、一般家庭には普及しにくいという問題がある。
【００１１】
本発明は上記の問題点を解決するためになされたもので、その目的は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供することにある。
【００１２】
【課題を解決するための手段】
上記の課題を解決するために、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域で、かつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えていることを特徴としている。
【００１３】
上記の構成によれば、時系列画像データから、動き検出手段によって抽出された動きのある領域と、色検出手段によって抽出された、動作認識対象を特徴づける色を含む領域とに基づいて、領域統合手段によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【００１４】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【００１５】
また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【００１６】
また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の２つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。
【００１７】
上記の構成によれば、動き検出手段は、時系列画像データにおける互いに異なる時間の２つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像に基づいて動きのある領域を検出するので、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができる。
【００１８】
また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。
【００１９】
上記の構成によれば、動き検出手段は、上記差分画像に基づいてブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出するので、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となる。
【００２０】
また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【００２１】
上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出するので、的確に対象を特徴づける色を含む領域を検出することができる。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となる。
【００２２】
また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【００２３】
上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たすとともに、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出するので、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となる。
【００２４】
また、本発明に係る動作認識システムは、上記の構成において、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。
【００２５】
上記の構成によれば、各色成分の画素値に対する条件を、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定するので、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができる。
【００２６】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。
【００２７】
上記の構成によれば、領域統合手段は、現時刻において動きのある領域でかつ上記対象を特徴づける色を含む領域とともに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出するので、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となる。
【００２８】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。
【００２９】
上記の構成によれば、形状解析手段によって、領域統合手段によって抽出された対象領域の形状を解析することができるので、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリーに分類することが可能となる。
【００３０】
また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。
【００３１】
上記の構成によれば、形状解析手段は、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識するので、必要最小限の形状解析を行うことができる。
【００３２】
また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。
【００３３】
上記の構成によれば、動作認識手段によって、形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識するので、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となる。
【００３４】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。
【００３５】
上記の構成によれば、領域統合手段における対象領域の抽出と、形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うので、１単位時刻に行う処理量を低減することが可能となる。よって、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となる。
【００３６】
また、本発明に係る動作認識システムは、上記の構成において、上記対象が人間の手である構成としてもよい。
【００３７】
上記の構成によれば、人間の手の領域を抽出、形状解析、動作認識を行うことになるので、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となる。
【００３８】
また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴としている。
【００３９】
上記の構成によれば、時系列画像データから、動きのある領域と動作認識対象を特徴づける色を含む領域とに基づいて対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【００４０】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【００４１】
また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【００４２】
【発明の実施の形態】
本発明の実施の一形態について図１ないし図７に基づいて説明すれば、以下のとおりである。
【００４３】
図１は、本実施形態に係る動作認識システムの概略構成を示すブロック図である。該動作認識システムは、フレームメモリ１、動き検出部（動き検出手段）２、肌色検出部（色検出手段）３、領域統合部（領域統合手段）４、形状解析部（形状解析手段）５、および動作認識部（動作認識手段）６を備えている。また、図１に示すように、動作認識システムは、動画入力装置７および情報処理装置８に接続されている。
【００４４】
動画入力装置７は、例えばＣＣＤ(Charge Coupled Device) カメラによって構成される。このＣＣＤカメラは、近年価格が急激に下落したことや、テレビ会議システム、インターネットを介してのテレビ通話などの市場が拡大していることなどの理由によって、一般的に広く普及する傾向にある。また、すでに一般に広く普及しているビデオムービーカメラを動画入力装置７として用いることも可能である。このように、動画入力装置７としては、可視画像を入力することが可能なものであればよいので、比較的安価な装置によって構成することができる。
【００４５】
情報処理装置８は、例えばパーソナルコンピュータなどによって構成され、種々の情報処理を行うものである。また、例えば、さらに他の装置の動作を制御するためのコンピュータであってもよい。
【００４６】
以下に、上記動作認識システムが備える各処理部に関して詳細に説明する。
【００４７】
フレームメモリ１は、動画入力装置７から順次転送されるフレーム画像のデータを一時的に記憶するものである。このフレームメモリ１は、少なくとも２フレーム分の画像を記憶可能な程度の記憶容量を持つものとし、新しいフレーム画像が入力されるときには、入力時刻が最も早いフレーム画像を消去することによって、記憶しているフレーム画像を順次更新していく。なお、以降の処理量を軽減するために、フレーム画像を縮小して記憶するようにしてもよい。
【００４８】
動き検出部２は、フレームメモリ１に記憶されている２つのフレーム画像を比較することによって、画像内において動いている動き領域の検出を行うものである。
【００４９】
この動き検出部２の検出動作において、動画入力装置７の転送レートが高い場合、例えば１秒あたり３０フレーム程度となる場合には、動き領域の動く速度が遅いと、連続する２時刻の画像間の差が極めて僅かとなるので、動き領域の検出ができなくなってしまう。このような場合には、フレームメモリ１が、動画入力装置７から出力される全てのフレーム画像を記憶せずに、１フレームおき、あるいは２フレームおきに、フレーム画像を記憶していけばよい。また、別の方法としては、動き領域の動く速度が遅い場合にも画像間の差が生じるように、フレームメモリ１の記憶容量を十分に大きくすることによって対応してもよい。この場合には、動き検出部２は、現時刻のフレーム画像と、フレームメモリ１に記憶されているフレーム画像の中で最も早い時刻のフレーム画像との比較を行うことになる。
【００５０】
ここで、図３（ａ）ないし（ｄ）を参照しながら、動き検出部３における作用について詳細に説明する。動き検出部２は、まず、フレームメモリ１に記憶されている２つのフレーム画像の各画素について、輝度値に関する減算値の絶対値を各画素の値とする差分画像を作成する。この差分画像の一例を図３（ａ）に示す。なお、フレーム画像の表色形式がＲＧＢ形式である場合には、計算量削減のために、簡略的にＲＧＢの１つの要素のみ（一般的にはＧ）の値を輝度値として用いてもよい。
【００５１】
次に、動き検出部２は、図３（ｂ）に示すように、上記差分画像を所定の大きさのブロック単位に分割する。例えば、差分画像の大きさが３２０×２４０画素である場合、１ブロックの大きさを１６×１６画素とすると、差分画像は、２０×１５ブロックからなる画像となる。そして、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値とし、このブロック値に基づいて、図３（ｃ）に示すように、ブロック画像を作成する。ここで、ブロック値が所定の閾値以下となっているブロックに対しては、そのブロックのブロック値を０とすることで、動作検出対象とは異なる微小な動き領域を排除している。なお、図３（ｃ）においては、便宜的に、ブロック値の大きさを各ブロック内での表示面積の大きさで表している。
【００５２】
なお、上記では、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値としていたが、これに限定されるものではなく、例えば、各ブロック内に含まれる画素値の総和値をブロック値としてもよい。
【００５３】
次に、図３（ｄ）に示すように、動き検出部２は、図３（ｃ）に示すブロック画像を２値化することによって、動きの大きい画素のみを検出する。この２値化を行う際に用いられる閾値は、判別分析法等の手法を用いてブロック画像の各ブロック値を分析することによって自動的に決定されるものとする。そして、２値化された画像において、動きの大きい画素として検出されたブロックが隣接している場合に、これらを連結させた領域の面積を求める。この連結させた領域の面積が所定の閾値を越える場合には、その領域を動きのある領域として抽出する。領域の面積に対する閾値は、例えば、ブロック画像全体の面積の３０分の１というように決定する。
【００５４】
以上のように、動き検出部２は、フレームメモリ１に記憶されている２つのフレーム画像の差分画像からブロック画像を作成し、このブロック画像の解析に基づいて、画像中の動きのある領域を抽出する動作を行っている。
【００５５】
次に、肌色検出部３について詳細に説明する。肌色検出部３には、フレームメモリ１内に現時刻のフレーム画像として記憶されている画像データが入力される。入力された画像データにおける各画素のＲＧＢ値に対して、以下に示す変換を行うことによって正規化を行い、色度画像を作成する。なお、正規化を行う意味は、照明むらを除去し、色度成分のみを抽出することにある。
【００５６】
【数１】

【００５７】
次に、正規化後の色度画像における各画素に関して、肌色である条件を満たす画素を検出する。肌色である条件は、式（１）の（ｒ，ｇ，ｂ）に関して、次の式（２）〜（６）のように表される。
ｒ_min≦ｒ≦ｒ_max （２）
ｇ_min≦ｇ≦ｇ_max （３）
ｂ_min≦ｂ≦ｂ_max （４）
ｒ＞ｇ（５）
ｒ＞ｂ（６）
【００５８】
ここで、ｒ_min、ｇ_min、ｂ_minは、（ｒ，ｇ，ｂ）のそれぞれの値に対する最小値であり、ｒ_max、ｇ_max、ｂ_maxは最大値を表している。これらの最小値および最大値の決め方については後述する。
【００５９】
次に、肌色検出部３は、上記の動き検出部２と同様に、上記の色度画像を複数のブロックに分割し、各ブロック内で上記の肌色である条件を満たす画素の数が所定の閾値を越えるときに、該ブロック値を１とし、所定の閾値以下であるときに、該ブロック値を０とするブロック画像を作成する。このブロック画像における各ブロックの大きさは、動き検出部２において作成したブロック画像における各ブロックの大きさと同じであるものとする。
【００６０】
続いて、動き検出部２と同様に、ブロック画像において、ブロック値が１であるブロックのうち、隣接するブロック同士を連結して、その連結領域の面積を求める。この連結領域の面積が所定の閾値を越える場合に、この領域を肌色領域の候補として抽出する。
【００６１】
さらに、肌色検出部３では、上記で肌色領域の候補として抽出された領域の形状に関する解析を行う。一般に、顔や手が表示されている領域は、ブロック画像上では円形や楕円形に近い形となっている。これに基づいて、領域の円形度を目安に肌色領域を絞り込むことができる。領域の円形度Ｃは、該領域の周囲長をＬ、面積をＡとすると、次の式（７）によって求められる。
Ｃ＝Ｌ²／Ａ（７）
【００６２】
この円形度Ｃの値が小さい程円に近いと判定される。したがって、円形度Ｃが所定の閾値より小さい領域を肌色領域として抽出する。
【００６３】
肌色領域の大きさや形状は、連続するフレームの間ではほとんど変化しないものである。したがって、面積や形状に関する閾値は、適当な初期値を決めておき、以降は前時刻の検出結果に基づいて決定することができる。つまり、面積の閾値に関しては、前時刻に近傍で検出された領域の面積より若干小さい値とし、形状の閾値に関しては、前時刻の円形度より少し大きい値とすればよい。
【００６４】
次に、領域統合部４について詳細に説明する。領域統合部４には、動き検出部２で作成されたブロック画像と、肌色検出部３で作成されたブロック画像が入力される。領域統合部４は、動き検出部２によって検出された動き領域と、肌色検出部３によって検出された肌色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を身体領域の候補として抽出するものである。この閾値としては、例えば、重複する領域の面積が、肌色領域の３分の１であるという具合に決定すればよい。
【００６５】
また、身体部分にほとんど動きがない時刻に対応するために、１時刻前の領域統合部４において身体領域の候補として抽出した領域を記憶しておき、その領域と現時刻の肌色領域との重複領域が所定の閾値を越える場合にも、身体領域の候補として抽出する。
【００６６】
以上のような処理をまとめると、図４に示すようになる。図４において、Ａは、動き検出部２において動き領域として検出された領域、Ｂは、領域統合部４において前時刻において身体領域の候補として検出された領域、Ｃは、肌色検出部３において肌色領域として検出された領域をそれぞれ示している。領域統合部４では、ＡとＢとが足し合わされた画像と、Ｃの画像とで重複する領域を、図中Ｄで示す、動きのある肌色領域、すなわち身体領域の候補として検出する。ここで、どの領域も動きのある肌色領域として検出されなかった場合には、次のフレーム画像の入力処理に戻り、領域統合部４以降の処理部における処理は行われない。
【００６７】
前記した肌色検出部３における肌色条件値ｒ_min、ｇ_min、ｂ_min、ｒ_max、ｇ_max、ｂ_maxは、領域統合部４における身体領域の候補として検出された結果に基づいて更新される。このことについて、図５（ａ）および（ｂ）、ならびに図６を参照しながら、以下に説明する。
【００６８】
図５（ａ）は、領域統合部４において、身体領域の候補として検出された領域を示している。この領域を、図５（ｂ）に示すように、肌色検出部３において作成された色度画像に投影すると、図中破線で囲まれた領域となる。この破線で囲まれた領域に含まれる画素のｒ，ｇ，ｂの各色度値に関して、各画素値に対する画素数を毎時刻積算する。そして、この積算結果に基づいて、横軸に色度値、縦軸に画素数をとったヒストグラムを作成する。図６は、ｒ成分に関するヒストグラムを示している。
【００６９】
各色成分に対応したヒストグラムにおいて、画素数のピーク値を検出し、そのピーク値が所定の閾値を越えた場合に、上記の肌色条件値を更新する。この閾値は、ヒストグラムのピーク値に対する割合が所定の値となるように設定すればよい。図６においては、破線で示した値がこの閾値を表している。そして、度数が、設定された閾値以上になる色値の範囲を肌色範囲とし、これに応じて、肌色条件値が決定される。すなわち、図６においては、ｒ_minおよびｒ_maxの値が決定される。
【００７０】
以上のように、肌色の検出条件を過去の検出結果に基づいて決定すれば、照明条件などの微妙な変化や、背景の変化などに適応することが可能となる。
【００７１】
次に、形状解析部５について詳細に説明する。形状解析部５は、領域統合部４で抽出された身体領域の候補領域の形状を解析することによって、身体によって何が表現されているかを認識する。ここでは、対象となる身体を手であるものとし、その手において示されている指の本数を特定することにする。
【００７２】
領域統合部４において抽出される手の候補領域は、ブロック画像上の領域であるため、領域が小さい場合には、形状の詳細な部分が不明瞭となる。したがって、以下のような方法によって形状の解析を行う。
【００７３】
まず、手の候補領域を、肌色検出部３において作成された色度画像に投影したときに、該候補領域と重複する領域を抽出する。そして、その領域の内部において、前記した式（２）〜（６）の肌色条件を満たしている画素によって形成される形状領域を抽出し、この形状領域に対して、孤立点の除去処理、穴埋め処理、輪郭部分の平滑化処理などを行う。その結果、候補領域内に複数の形状領域が抽出される場合もあるが、この場合には、最も面積が大きい形状領域に対して、形状の解析を行う。
【００７４】
形状の解析は、例えば以下の手順で行うことができる。まず、抽出された形状領域から、その輪郭線を抽出する。次に、抽出された輪郭線を、ある程度の長さを有する複数の直線で近似する。これらの複数の直線の中で、ほぼ同じ傾きを有する直線を輪郭直線として選出する。この形状解析の具体例を図７に示す。
【００７５】
図７において、細線で示した部分が、抽出された形状領域の輪郭線であり、Ｌ１ないしＬ６で示した太線が、選出された輪郭直線である。これらの輪郭直線の中から、形状領域を挟んだ任意の２本の輪郭直線を選択し、挟まれている領域の幅、長さ、面積、位置関係などを調べることによって、指の領域や手のひらの領域などを検出することができる。
【００７６】
例えば図７に示す例においては、輪郭直線Ｌ２とＬ３とに挟まれている領域と、輪郭直線Ｌ４とＬ５とに挟まれている領域とが、ほぼ同じ長さで同じ幅となっていることから、指の領域と推定することができる。また、これらの他には同様の領域が存在しないことから、指の本数は２本であることも推定できる。また、輪郭直線Ｌ１とＬ６とで挟まれている領域は、上記の指の領域と比較して、その面積がかなり大きいことから、手のひらの領域と推定することができる。さらに、画像領域において、指の領域が上方、手のひらの領域が下方に位置することから、指は上向きに出されていることが推定される。
【００７７】
以上のように、形状解析部５は、領域統合部４で抽出された身体領域の候補領域から形状領域を抽出し、この形状領域から得られる輪郭直線に基づいて、身体がどのような形状となっているかを解析する。
【００７８】
次に、動作認識部６について詳細に説明する。動作認識部６は、認識された身体領域、例えば手の領域の位置を毎時刻追跡することによって、動きの方向を特定する。１時刻間には手の領域の位置は大きく変化しないと仮定することができるので、現時刻の手の領域と前時刻の手の領域との位置関係が近く、かつ指の本数や向きが同じであれば、２つの手の領域の重心位置を結ぶ直線の向きが動きの方向であるとみなすことができる。
【００７９】
一方、手を動画入力装置７に近づけていくような動作や、逆に遠ざけるような動作を行った場合には、重心位置はあまり変化しないことになる。しかしながら、動画入力装置７に近づけていくような動作を行った場合には、手の領域の面積が増加し、逆に遠ざけるような動作を行った場合には、面積が減少することから動作を特定することができる。
【００８０】
以上のようにして認識された指の本数や動きの方向に何らかの意味付けをすることによって、動作認識システムに接続された情報処理装置８を制御するための様々な入力を行うことが可能となる。また、上記のシステムは、手の動きを追跡している間に、認識された指の本数や特定された位置を、情報処理装置８に入力することが可能となっている。したがって、例えばモニタ上で手の動きの軌跡を表示することによって、使用者は動作認識システムに認識されている動作の確認を行うことができる。また、この機能を利用すれば、使用者に動作入力のガイダンスを行うことも可能となる。
【００８１】
次に、図２に示すフローチャートを参照しながら、本実施形態に係る動作認識システムにおける処理の流れを説明する。処理が開始されると、動画入力装置７によって撮影されたフレーム画像が、フレームメモリ１に順に記憶される（ステップ１、以下、Ｓ１と称する）。
【００８２】
次に、フレームメモリ１に記憶されている現時刻および前時刻の２つのフレーム画像に基づいて、動き検出部２によって動き領域が検出される（Ｓ２）。この際に、動き検出部２は、上記の２つのフレーム画像の差分画像に基づいて複数のブロックからなるブロック画像を作成し、このブロック画像に基づいて動き領域の検出を行っている。
【００８３】
次に、フレームメモリ１に記憶されている現時刻のフレーム画像に基づいて、肌色検出部３によって肌色領域が検出される（Ｓ３）。この際に、肌色検出部３は、現時刻のフレーム画像から色度画像を作成し、この色度画像における各画素に対して肌色検出条件に基づいてブロック画像として肌色領域を抽出するとともに、領域の円形度を調べることによって身体領域としての肌色領域を絞りこんでいる。
【００８４】
次に、領域統合部４において、動き検出部２によって作成された動き領域に関するブロック画像と、肌色検出部３によって作成された肌色領域に関するブロック画像とを統合する（Ｓ４）。そして、この統合結果によって身体領域が検出された否かが判断される（Ｓ５）。
【００８５】
身体領域が検出されなかった場合（Ｓ５においてＮＯ）には、以降の処理は行わずに、再びＳ１からの処理を始める。一方、身体領域が検出された場合（Ｓ５においてＹＥＳ）には、身体領域の各画素の色度を検出し、色度値と画素数との関係を示すヒストグラムに基づいて、肌色検出条件を更新する（Ｓ６）。
【００８６】
次に、形状解析部５において、上記の身体領域を基に形状領域を作成し、この形状領域に基づいて形状解析を行う（Ｓ７）。この形状解析においては、形状領域の輪郭線を検出し、この輪郭線をある程度の長さを有する輪郭直線で近似し、この輪郭直線を解析することによって、手などの領域が解析される。
【００８７】
この形状解析部５において、手などの領域が認識されなかった場合（Ｓ８においてＮＯ）には、以降の処理は行わずに、再びＳ１からの処理を始める。一方、手などの領域が認識された場合（Ｓ８においてＹＥＳ）には、動作認識部６において、上記で認識された手などの領域の動作が認識される（Ｓ９）。
【００８８】
Ｓ９において動作が認識されなかった場合（Ｓ１０においてＮＯ）には、以降の処理は行わずに、再びＳ１からの処理を始める。一方、Ｓ９において動作が認識された場合（Ｓ１０においてＹＥＳ）には、認識結果を情報処理装置８に出力する（Ｓ１１）。
【００８９】
その後、動作認識処理の終了命令があったかどうかが判断され（Ｓ１２）、終了命令がなかった場合（Ｓ１２においてＮＯ）には、再びＳ１からの処理を始め、終了命令があった場合（Ｓ１２においてＹＥＳ）には、処理を終了する。
【００９０】
以上で述べた実施の形態では、動画像の入力から動作の認識までの処理が、全て同一時刻の入力画像に対して行われることを前提としている。しかしながら、システムの処理能力が不足しているなどの理由で、全ての処理を１つの時刻に行うことができない場合には、領域統合部４による身体領域の候補を抽出するまでの処理と、形状解析部５以降の処理とを別時刻の入力画像に対して行うことも可能である。このことについて、以下により詳しく説明する。
【００９１】
例えば、時刻０に手の候補領域が抽出されると仮定する。そして、時刻０よりも後となる時刻１の入力画像に対しては、まず式（１）に従って色度画像を作成する。そして、この色度画像上に時刻０における候補領域を投影し、投影領域内において、時刻０の肌色検出条件によって肌色領域を検出する。これを手の候補領域として、以降の形状解析、動作認識の処理を行う。すなわち、時刻１においては、時刻０において領域統合部４によって身体領域の候補として抽出された領域に基づいて、時刻１における入力画像における身体領域の候補領域を設定し、この候補領域に対して、形状解析部５以降の処理を行うことになる。
【００９２】
以上のように、本実施形態に係る動作認識システムは、動画入力装置７から毎時刻入力されるフレーム画像データから、動き検出部２によって抽出された動きのある領域と、肌色検出部３によって抽出された肌色領域とに基づいて、領域統合部４によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【００９３】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【００９４】
また、上記の構成では、動きのある領域の検出と肌色領域の検出とを行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【００９５】
なお、以上説明した動作認識システムは、動き検出部２、肌色検出部３、領域統合部４、形状解析部５、および動作認識部６において行われる処理を、コンピュータ上で実行可能なプログラムとして記述し、このプログラムをコンピュータ上で実行することによっても、実現することが可能である。このプログラムはコンピュータで読み取り可能な記録媒体に格納されることになる。この記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する媒体などが挙げられる。
【００９６】
また、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。尚、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。
【００９７】
また、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。
【００９８】
【発明の効果】
以上のように、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えている構成である。
【００９９】
これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。
【０１００】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができると同時に、システムにおけるコストの低減を図ることができるという効果を奏する。
【０１０１】
また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。
【０１０２】
また、本発明に係る動作認識システムは、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の２つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。
【０１０３】
これにより、上記の効果に加えて、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができるという効果を奏する。
【０１０４】
また、本発明に係る動作認識システムは、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。
【０１０５】
これにより、上記の効果に加えて、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となるという効果を奏する。
【０１０６】
また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【０１０７】
これにより、上記の効果に加えて、的確に対象を特徴づける色を含む領域を検出することができるという効果を奏する。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となるという効果を奏する。
【０１０８】
また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【０１０９】
これにより、上記の効果に加えて、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となるという効果を奏する。
【０１１０】
また、本発明に係る動作認識システムは、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。
【０１１１】
これにより、上記の効果に加えて、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができるという効果を奏する。
【０１１２】
また、本発明に係る動作認識システムは、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。
【０１１３】
これにより、上記の効果に加えて、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となるという効果を奏する。
【０１１４】
また、本発明に係る動作認識システムは、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。
【０１１５】
これにより、上記の効果に加えて、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリーに分類することが可能となるという効果を奏する。
【０１１６】
また、本発明に係る動作認識システムは、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。
【０１１７】
これにより、上記の効果に加えて、必要最小限の形状解析を行うことができるという効果を奏する。
【０１１８】
また、本発明に係る動作認識システムは、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。
【０１１９】
これにより、上記の効果に加えて、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となるという効果を奏する。
【０１２０】
また、本発明に係る動作認識システムは、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。
【０１２１】
これにより、上記の効果に加えて、１単位時刻に行う処理量を低減することが可能となるので、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となるという効果を奏する。
【０１２２】
また、本発明に係る動作認識システムは、上記対象が人間の手である構成としてもよい。
【０１２３】
これにより、上記の効果に加えて、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となるという効果を奏する。
【０１２４】
また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録している構成である。
【０１２５】
これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。
【０１２６】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができるとともに、システムにおけるコストの低減を図ることができるという効果を奏する。
【０１２７】
また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係る動作認識システムの概略構成を示すブロック図である。
【図２】上記動作認識システムにおいて行われる処理の流れを示すフローチャートである。
【図３】同図（ａ）ないし（ｄ）は、上記動作認識システムが備える動き検出部が、処理を行う上で作成する画像を示す説明図である。
【図４】上記動作認識システムが備える領域統合部での処理を模式的に示す説明図である。
【図５】同図（ａ）は、領域統合部において、身体領域の候補として検出された領域を示す説明図であり、同図（ｂ）は、同図（ａ）に示す領域を、肌色検出部において作成された色度画像に投影した状態を示す説明図である。
【図６】図５（ｂ）において破線で囲まれた領域に含まれる画素の各色度値に関して、各画素値に対する画素数を毎時刻積算した結果に基づき、横軸に色度値、縦軸に画素数をとって作成したヒストグラムである。
【図７】上記動作認識システムが備える形状解析部において行われる処理を示す説明図である。
【符号の説明】
１フレームメモリ
２動き検出部（動き検出手段）
３肌色検出部（色検出手段）
４領域統合部（領域統合手段）
５形状解析部（形状解析手段）
６動作認識部（動作認識手段）
７動画入力装置
８情報処理装置

Claims

特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、
上記時系列画像データから動きのある領域を抽出する動き検出手段と、
上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、
上記動き検出手段および上記色検出手段の検出結果に基づいて、対象領域を抽出する領域統合手段とを備え、
上記領域統合手段は、動き検出手段によって検出された動き領域、および前に領域統合手段において対象領域として検出された領域が足し合わされた領域と、色検出手段によって検出された色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を対象領域の候補とするものであることを特徴とする動作認識システム。
上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の２つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出することを特徴とする請求項１記載の動作認識システム。
上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出することを特徴とする請求項２記載の動作認識システム。
上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項１記載の動作認識システム。
上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項４記載の動作認識システム。
対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定されることを特徴とする請求項４または５記載の動作認識システム。
対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて更新されることを特徴とする請求項４または５記載の動作認識システム。
上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えていることを特徴とする請求項１ないし７のいずれかに記載の動作認識システム。
上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識することを特徴とする請求項８記載の動作認識システム。
上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えていることを特徴とする請求項８または９記載の動作認識システム。
上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うことを特徴とする請求項８記載の動作認識システム。
上記対象が人間の手であることを特徴とする請求項１ないし１１のいずれかに記載の動作認識システム。
特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、
上記時系列画像データから動きのある領域を抽出する処理と、
上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、
上記動きのある領域を抽出する処理の結果に基づいて検出された動き領域、および前に対象領域として検出された領域が足し合わされた領域と、検出された色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を対象領域の候補とする処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴とするコンピュータが読み取り可能な記録媒体。
上記色検出手段は、色を含む領域の円形度を目安に色を含む領域を絞り込むものである、請求項１ないし１２の何れか１項に記載の動作認識システム。