JP3657463B2 - 動作認識システムおよび動作認識プログラムを記録した記録媒体 - Google Patents

動作認識システムおよび動作認識プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3657463B2
JP3657463B2 JP18424299A JP18424299A JP3657463B2 JP 3657463 B2 JP3657463 B2 JP 3657463B2 JP 18424299 A JP18424299 A JP 18424299A JP 18424299 A JP18424299 A JP 18424299A JP 3657463 B2 JP3657463 B2 JP 3657463B2
Authority
JP
Japan
Prior art keywords
region
color
area
motion
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP18424299A
Other languages
English (en)
Other versions
JP2001016606A (ja
Inventor
通広 大野
宏之 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP18424299A priority Critical patent/JP3657463B2/ja
Publication of JP2001016606A publication Critical patent/JP2001016606A/ja
Application granted granted Critical
Publication of JP3657463B2 publication Critical patent/JP3657463B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Processing Of Color Television Signals (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、例えば手などの画像が含まれている時系列画像データを処理することによって、手の形状および動作を認識する動作認識システムに関するものである。
【0002】
【従来の技術】
従来、パーソナルコンピュータ等の情報処理機器におけるユーザーインターフェースとして、キー入力デバイスとしてのキーボードや、ポインティングデバイスとしてのマウスなどが一般的に用いられている。しかしながら、キーボードやマウスによる操作は、ある程度のスキルを要求するため、初心者にとっては、その操作が難しいという問題がある。
【0003】
また、キーボードやマウスなどを使用する場合、操作とそれに対するシステムの応答との関連を使用者が記憶しておく必要がある。例えばキーボードにおいては、CtrlキーやAltキーなどの機能を覚える必要があったり、マウスにおいては、シングルクリックとダブルクリックとの違いや、左ボタンと右ボタンとの機能の違いなどを覚える必要がある。このような多種多様の操作および機能を逐一覚えることは、初心者にとって大きな負担となる。
【0004】
そこで、近年では、簡単かつ直観的なユーザーインターフェースとして、人間の身体、すなわち、身振りや手振りを利用しようとする試みが盛んに行われている。身振りや手振りをユーザーインターフェースとして利用するためには、カメラ等の入力デバイスによって身体の姿勢、形状や動作に関する情報を入力し、入力された情報を解析することによって身体情報の内容を認識し、認識された動作に対して特定のコマンド等の意味を持たせることが必要となる。
【0005】
ここで、人間の身体を利用したユーザーインターフェースとして提案されている方法について以下にその例を示す。電子情報通信学会論文誌 D-II Vol.J80-D-II No.6 pp.1571-1580(1997)「インタラクティブシステム構築のための動画像からの実時間ジェスチャ認識手法−仮想指揮システムへの応用−」(文献1)には、CCDカメラによって撮影された画像から、腕部分を抽出し、その動きの軌跡を解析することによって、実時間でジェスチャを認識する方法が開示されている。また、特開平2−144675号公報(文献2)には、指の各関節毎に異なる色で塗り分けられた手袋を装着し、撮影画像から手袋の色を手がかりに指の動きを認識する方法が開示されている。
【0006】
また、テレビジョン学会誌 Vol.48, No.8, pp.960-965(1994) 「仮想環境実現のための基板技術」(文献3)には、データグローブと呼ばれる手袋型のセンサデバイスを用いて、手指の動きをコンピュータに入力する方法が開示されている。また、映像情報(I) 1992/9 pp.55-60 「赤外画像と可視画像による人物抽出」(文献4)には、赤外画像と可視画像とを入力として用い、赤外画像から人物候補領域を抽出し、さらに可視画像において人物候補領域内の肌色領域を抽出することで顔や手の位置を特定する方法が開示されている。
【0007】
【発明が解決しようとする課題】
文献1に開示されている方法のように、入力として可視画像を用いる場合、最も難しい問題は、入力された画像から手や指等の認識対象領域を抽出することである。手や指の抽出に関しては、画像の輝度情報や色情報を利用して肌色領域を抽出することによって実現する手法が一般的である。しかしながら、輝度情報や色情報は、背景に肌色に近い領域がある場合に、身体との区別が難しくなることや、照明状態などの環境条件によって値が変動しやすいため、上記の手法は、認識の安定性に欠けるという問題を有している。
【0008】
この問題を解決するために、例えば文献1では、背景に暗幕を配置することによって対応する例が示されており、このような特殊な環境下において実施する例は比較的多く提案されている。あるいは、例えば文献2に開示されている方法のように、認識対象となる部位に、マーカーとなるものを装着することによって検出精度を高める例も多く提案されている。
【0009】
また、文献3に開示されている方法のように、データグローブのような動作入力専用のデバイスを用いる場合には、手領域の抽出や動作情報の取得の安定性に関する問題は考慮する必要がなくなる。しかしながら、操作の前に動作入力用のデバイスを装着することの煩わしさや、ユーザーインターフェースとしては高価なものとなるという問題があり、キーボードやマウスの代用として利用するには困難な点も多い。
【0010】
また、文献4に開示されている方法のように、赤外画像を利用すれば、一般的な環境においては身体と背景との温度差が大きいので、人間の身体領域の抽出は容易となる。しかしながら、赤外画像を入力する装置は、一般的に価格が高価であり、かつ、装置が大型となるものが多く、不法侵入者の監視などの特殊用途以外には流用することが難しいので、一般家庭には普及しにくいという問題がある。
【0011】
本発明は上記の問題点を解決するためになされたもので、その目的は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供することにある。
【0012】
【課題を解決するための手段】
上記の課題を解決するために、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域で、かつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えていることを特徴としている。
【0013】
上記の構成によれば、時系列画像データから、動き検出手段によって抽出された動きのある領域と、色検出手段によって抽出された、動作認識対象を特徴づける色を含む領域とに基づいて、領域統合手段によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【0014】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【0015】
また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【0016】
また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。
【0017】
上記の構成によれば、動き検出手段は、時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像に基づいて動きのある領域を検出するので、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができる。
【0018】
また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。
【0019】
上記の構成によれば、動き検出手段は、上記差分画像に基づいてブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出するので、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となる。
【0020】
また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【0021】
上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出するので、的確に対象を特徴づける色を含む領域を検出することができる。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となる。
【0022】
また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【0023】
上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たすとともに、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出するので、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となる。
【0024】
また、本発明に係る動作認識システムは、上記の構成において、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。
【0025】
上記の構成によれば、各色成分の画素値に対する条件を、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定するので、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができる。
【0026】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。
【0027】
上記の構成によれば、領域統合手段は、現時刻において動きのある領域でかつ上記対象を特徴づける色を含む領域とともに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出するので、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となる。
【0028】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。
【0029】
上記の構成によれば、形状解析手段によって、領域統合手段によって抽出された対象領域の形状を解析することができるので、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリーに分類することが可能となる。
【0030】
また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。
【0031】
上記の構成によれば、形状解析手段は、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識するので、必要最小限の形状解析を行うことができる。
【0032】
また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。
【0033】
上記の構成によれば、動作認識手段によって、形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識するので、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となる。
【0034】
また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。
【0035】
上記の構成によれば、領域統合手段における対象領域の抽出と、形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うので、1単位時刻に行う処理量を低減することが可能となる。よって、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となる。
【0036】
また、本発明に係る動作認識システムは、上記の構成において、上記対象が人間の手である構成としてもよい。
【0037】
上記の構成によれば、人間の手の領域を抽出、形状解析、動作認識を行うことになるので、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となる。
【0038】
また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴としている。
【0039】
上記の構成によれば、時系列画像データから、動きのある領域と動作認識対象を特徴づける色を含む領域とに基づいて対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【0040】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【0041】
また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【0042】
【発明の実施の形態】
本発明の実施の一形態について図1ないし図7に基づいて説明すれば、以下のとおりである。
【0043】
図1は、本実施形態に係る動作認識システムの概略構成を示すブロック図である。該動作認識システムは、フレームメモリ1、動き検出部(動き検出手段)2、肌色検出部(色検出手段)3、領域統合部(領域統合手段)4、形状解析部(形状解析手段)5、および動作認識部(動作認識手段)6を備えている。また、図1に示すように、動作認識システムは、動画入力装置7および情報処理装置8に接続されている。
【0044】
動画入力装置7は、例えばCCD(Charge Coupled Device) カメラによって構成される。このCCDカメラは、近年価格が急激に下落したことや、テレビ会議システム、インターネットを介してのテレビ通話などの市場が拡大していることなどの理由によって、一般的に広く普及する傾向にある。また、すでに一般に広く普及しているビデオムービーカメラを動画入力装置7として用いることも可能である。このように、動画入力装置7としては、可視画像を入力することが可能なものであればよいので、比較的安価な装置によって構成することができる。
【0045】
情報処理装置8は、例えばパーソナルコンピュータなどによって構成され、種々の情報処理を行うものである。また、例えば、さらに他の装置の動作を制御するためのコンピュータであってもよい。
【0046】
以下に、上記動作認識システムが備える各処理部に関して詳細に説明する。
【0047】
フレームメモリ1は、動画入力装置7から順次転送されるフレーム画像のデータを一時的に記憶するものである。このフレームメモリ1は、少なくとも2フレーム分の画像を記憶可能な程度の記憶容量を持つものとし、新しいフレーム画像が入力されるときには、入力時刻が最も早いフレーム画像を消去することによって、記憶しているフレーム画像を順次更新していく。なお、以降の処理量を軽減するために、フレーム画像を縮小して記憶するようにしてもよい。
【0048】
動き検出部2は、フレームメモリ1に記憶されている2つのフレーム画像を比較することによって、画像内において動いている動き領域の検出を行うものである。
【0049】
この動き検出部2の検出動作において、動画入力装置7の転送レートが高い場合、例えば1秒あたり30フレーム程度となる場合には、動き領域の動く速度が遅いと、連続する2時刻の画像間の差が極めて僅かとなるので、動き領域の検出ができなくなってしまう。このような場合には、フレームメモリ1が、動画入力装置7から出力される全てのフレーム画像を記憶せずに、1フレームおき、あるいは2フレームおきに、フレーム画像を記憶していけばよい。また、別の方法としては、動き領域の動く速度が遅い場合にも画像間の差が生じるように、フレームメモリ1の記憶容量を十分に大きくすることによって対応してもよい。この場合には、動き検出部2は、現時刻のフレーム画像と、フレームメモリ1に記憶されているフレーム画像の中で最も早い時刻のフレーム画像との比較を行うことになる。
【0050】
ここで、図3(a)ないし(d)を参照しながら、動き検出部3における作用について詳細に説明する。動き検出部2は、まず、フレームメモリ1に記憶されている2つのフレーム画像の各画素について、輝度値に関する減算値の絶対値を各画素の値とする差分画像を作成する。この差分画像の一例を図3(a)に示す。なお、フレーム画像の表色形式がRGB形式である場合には、計算量削減のために、簡略的にRGBの1つの要素のみ(一般的にはG)の値を輝度値として用いてもよい。
【0051】
次に、動き検出部2は、図3(b)に示すように、上記差分画像を所定の大きさのブロック単位に分割する。例えば、差分画像の大きさが320×240画素である場合、1ブロックの大きさを16×16画素とすると、差分画像は、20×15ブロックからなる画像となる。そして、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値とし、このブロック値に基づいて、図3(c)に示すように、ブロック画像を作成する。ここで、ブロック値が所定の閾値以下となっているブロックに対しては、そのブロックのブロック値を0とすることで、動作検出対象とは異なる微小な動き領域を排除している。なお、図3(c)においては、便宜的に、ブロック値の大きさを各ブロック内での表示面積の大きさで表している。
【0052】
なお、上記では、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値としていたが、これに限定されるものではなく、例えば、各ブロック内に含まれる画素値の総和値をブロック値としてもよい。
【0053】
次に、図3(d)に示すように、動き検出部2は、図3(c)に示すブロック画像を2値化することによって、動きの大きい画素のみを検出する。この2値化を行う際に用いられる閾値は、判別分析法等の手法を用いてブロック画像の各ブロック値を分析することによって自動的に決定されるものとする。そして、2値化された画像において、動きの大きい画素として検出されたブロックが隣接している場合に、これらを連結させた領域の面積を求める。この連結させた領域の面積が所定の閾値を越える場合には、その領域を動きのある領域として抽出する。領域の面積に対する閾値は、例えば、ブロック画像全体の面積の30分の1というように決定する。
【0054】
以上のように、動き検出部2は、フレームメモリ1に記憶されている2つのフレーム画像の差分画像からブロック画像を作成し、このブロック画像の解析に基づいて、画像中の動きのある領域を抽出する動作を行っている。
【0055】
次に、肌色検出部3について詳細に説明する。肌色検出部3には、フレームメモリ1内に現時刻のフレーム画像として記憶されている画像データが入力される。入力された画像データにおける各画素のRGB値に対して、以下に示す変換を行うことによって正規化を行い、色度画像を作成する。なお、正規化を行う意味は、照明むらを除去し、色度成分のみを抽出することにある。
【0056】
【数1】
Figure 0003657463
【0057】
次に、正規化後の色度画像における各画素に関して、肌色である条件を満たす画素を検出する。肌色である条件は、式(1)の(r,g,b)に関して、次の式(2)〜(6)のように表される。
min ≦r≦rmax (2)
min ≦g≦gmax (3)
min ≦b≦bmax (4)
r>g (5)
r>b (6)
【0058】
ここで、rmin 、gmin 、bmin は、(r,g,b)のそれぞれの値に対する最小値であり、rmax 、gmax 、bmax は最大値を表している。これらの最小値および最大値の決め方については後述する。
【0059】
次に、肌色検出部3は、上記の動き検出部2と同様に、上記の色度画像を複数のブロックに分割し、各ブロック内で上記の肌色である条件を満たす画素の数が所定の閾値を越えるときに、該ブロック値を1とし、所定の閾値以下であるときに、該ブロック値を0とするブロック画像を作成する。このブロック画像における各ブロックの大きさは、動き検出部2において作成したブロック画像における各ブロックの大きさと同じであるものとする。
【0060】
続いて、動き検出部2と同様に、ブロック画像において、ブロック値が1であるブロックのうち、隣接するブロック同士を連結して、その連結領域の面積を求める。この連結領域の面積が所定の閾値を越える場合に、この領域を肌色領域の候補として抽出する。
【0061】
さらに、肌色検出部3では、上記で肌色領域の候補として抽出された領域の形状に関する解析を行う。一般に、顔や手が表示されている領域は、ブロック画像上では円形や楕円形に近い形となっている。これに基づいて、領域の円形度を目安に肌色領域を絞り込むことができる。領域の円形度Cは、該領域の周囲長をL、面積をAとすると、次の式(7)によって求められる。
C=L2 /A (7)
【0062】
この円形度Cの値が小さい程円に近いと判定される。したがって、円形度Cが所定の閾値より小さい領域を肌色領域として抽出する。
【0063】
肌色領域の大きさや形状は、連続するフレームの間ではほとんど変化しないものである。したがって、面積や形状に関する閾値は、適当な初期値を決めておき、以降は前時刻の検出結果に基づいて決定することができる。つまり、面積の閾値に関しては、前時刻に近傍で検出された領域の面積より若干小さい値とし、形状の閾値に関しては、前時刻の円形度より少し大きい値とすればよい。
【0064】
次に、領域統合部4について詳細に説明する。領域統合部4には、動き検出部2で作成されたブロック画像と、肌色検出部3で作成されたブロック画像が入力される。領域統合部4は、動き検出部2によって検出された動き領域と、肌色検出部3によって検出された肌色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を身体領域の候補として抽出するものである。この閾値としては、例えば、重複する領域の面積が、肌色領域の3分の1であるという具合に決定すればよい。
【0065】
また、身体部分にほとんど動きがない時刻に対応するために、1時刻前の領域統合部4において身体領域の候補として抽出した領域を記憶しておき、その領域と現時刻の肌色領域との重複領域が所定の閾値を越える場合にも、身体領域の候補として抽出する。
【0066】
以上のような処理をまとめると、図4に示すようになる。図4において、Aは、動き検出部2において動き領域として検出された領域、Bは、領域統合部4において前時刻において身体領域の候補として検出された領域、Cは、肌色検出部3において肌色領域として検出された領域をそれぞれ示している。領域統合部4では、AとBとが足し合わされた画像と、Cの画像とで重複する領域を、図中Dで示す、動きのある肌色領域、すなわち身体領域の候補として検出する。ここで、どの領域も動きのある肌色領域として検出されなかった場合には、次のフレーム画像の入力処理に戻り、領域統合部4以降の処理部における処理は行われない。
【0067】
前記した肌色検出部3における肌色条件値rmin 、gmin 、bmin 、rmax 、gmax 、bmax は、領域統合部4における身体領域の候補として検出された結果に基づいて更新される。このことについて、図5(a)および(b)、ならびに図6を参照しながら、以下に説明する。
【0068】
図5(a)は、領域統合部4において、身体領域の候補として検出された領域を示している。この領域を、図5(b)に示すように、肌色検出部3において作成された色度画像に投影すると、図中破線で囲まれた領域となる。この破線で囲まれた領域に含まれる画素のr,g,bの各色度値に関して、各画素値に対する画素数を毎時刻積算する。そして、この積算結果に基づいて、横軸に色度値、縦軸に画素数をとったヒストグラムを作成する。図6は、r成分に関するヒストグラムを示している。
【0069】
各色成分に対応したヒストグラムにおいて、画素数のピーク値を検出し、そのピーク値が所定の閾値を越えた場合に、上記の肌色条件値を更新する。この閾値は、ヒストグラムのピーク値に対する割合が所定の値となるように設定すればよい。図6においては、破線で示した値がこの閾値を表している。そして、度数が、設定された閾値以上になる色値の範囲を肌色範囲とし、これに応じて、肌色条件値が決定される。すなわち、図6においては、rmin およびrmax の値が決定される。
【0070】
以上のように、肌色の検出条件を過去の検出結果に基づいて決定すれば、照明条件などの微妙な変化や、背景の変化などに適応することが可能となる。
【0071】
次に、形状解析部5について詳細に説明する。形状解析部5は、領域統合部4で抽出された身体領域の候補領域の形状を解析することによって、身体によって何が表現されているかを認識する。ここでは、対象となる身体を手であるものとし、その手において示されている指の本数を特定することにする。
【0072】
領域統合部4において抽出される手の候補領域は、ブロック画像上の領域であるため、領域が小さい場合には、形状の詳細な部分が不明瞭となる。したがって、以下のような方法によって形状の解析を行う。
【0073】
まず、手の候補領域を、肌色検出部3において作成された色度画像に投影したときに、該候補領域と重複する領域を抽出する。そして、その領域の内部において、前記した式(2)〜(6)の肌色条件を満たしている画素によって形成される形状領域を抽出し、この形状領域に対して、孤立点の除去処理、穴埋め処理、輪郭部分の平滑化処理などを行う。その結果、候補領域内に複数の形状領域が抽出される場合もあるが、この場合には、最も面積が大きい形状領域に対して、形状の解析を行う。
【0074】
形状の解析は、例えば以下の手順で行うことができる。まず、抽出された形状領域から、その輪郭線を抽出する。次に、抽出された輪郭線を、ある程度の長さを有する複数の直線で近似する。これらの複数の直線の中で、ほぼ同じ傾きを有する直線を輪郭直線として選出する。この形状解析の具体例を図7に示す。
【0075】
図7において、細線で示した部分が、抽出された形状領域の輪郭線であり、L1ないしL6で示した太線が、選出された輪郭直線である。これらの輪郭直線の中から、形状領域を挟んだ任意の2本の輪郭直線を選択し、挟まれている領域の幅、長さ、面積、位置関係などを調べることによって、指の領域や手のひらの領域などを検出することができる。
【0076】
例えば図7に示す例においては、輪郭直線L2とL3とに挟まれている領域と、輪郭直線L4とL5とに挟まれている領域とが、ほぼ同じ長さで同じ幅となっていることから、指の領域と推定することができる。また、これらの他には同様の領域が存在しないことから、指の本数は2本であることも推定できる。また、輪郭直線L1とL6とで挟まれている領域は、上記の指の領域と比較して、その面積がかなり大きいことから、手のひらの領域と推定することができる。さらに、画像領域において、指の領域が上方、手のひらの領域が下方に位置することから、指は上向きに出されていることが推定される。
【0077】
以上のように、形状解析部5は、領域統合部4で抽出された身体領域の候補領域から形状領域を抽出し、この形状領域から得られる輪郭直線に基づいて、身体がどのような形状となっているかを解析する。
【0078】
次に、動作認識部6について詳細に説明する。動作認識部6は、認識された身体領域、例えば手の領域の位置を毎時刻追跡することによって、動きの方向を特定する。1時刻間には手の領域の位置は大きく変化しないと仮定することができるので、現時刻の手の領域と前時刻の手の領域との位置関係が近く、かつ指の本数や向きが同じであれば、2つの手の領域の重心位置を結ぶ直線の向きが動きの方向であるとみなすことができる。
【0079】
一方、手を動画入力装置7に近づけていくような動作や、逆に遠ざけるような動作を行った場合には、重心位置はあまり変化しないことになる。しかしながら、動画入力装置7に近づけていくような動作を行った場合には、手の領域の面積が増加し、逆に遠ざけるような動作を行った場合には、面積が減少することから動作を特定することができる。
【0080】
以上のようにして認識された指の本数や動きの方向に何らかの意味付けをすることによって、動作認識システムに接続された情報処理装置8を制御するための様々な入力を行うことが可能となる。また、上記のシステムは、手の動きを追跡している間に、認識された指の本数や特定された位置を、情報処理装置8に入力することが可能となっている。したがって、例えばモニタ上で手の動きの軌跡を表示することによって、使用者は動作認識システムに認識されている動作の確認を行うことができる。また、この機能を利用すれば、使用者に動作入力のガイダンスを行うことも可能となる。
【0081】
次に、図2に示すフローチャートを参照しながら、本実施形態に係る動作認識システムにおける処理の流れを説明する。処理が開始されると、動画入力装置7によって撮影されたフレーム画像が、フレームメモリ1に順に記憶される(ステップ1、以下、S1と称する)。
【0082】
次に、フレームメモリ1に記憶されている現時刻および前時刻の2つのフレーム画像に基づいて、動き検出部2によって動き領域が検出される(S2)。この際に、動き検出部2は、上記の2つのフレーム画像の差分画像に基づいて複数のブロックからなるブロック画像を作成し、このブロック画像に基づいて動き領域の検出を行っている。
【0083】
次に、フレームメモリ1に記憶されている現時刻のフレーム画像に基づいて、肌色検出部3によって肌色領域が検出される(S3)。この際に、肌色検出部3は、現時刻のフレーム画像から色度画像を作成し、この色度画像における各画素に対して肌色検出条件に基づいてブロック画像として肌色領域を抽出するとともに、領域の円形度を調べることによって身体領域としての肌色領域を絞りこんでいる。
【0084】
次に、領域統合部4において、動き検出部2によって作成された動き領域に関するブロック画像と、肌色検出部3によって作成された肌色領域に関するブロック画像とを統合する(S4)。そして、この統合結果によって身体領域が検出された否かが判断される(S5)。
【0085】
身体領域が検出されなかった場合(S5においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、身体領域が検出された場合(S5においてYES)には、身体領域の各画素の色度を検出し、色度値と画素数との関係を示すヒストグラムに基づいて、肌色検出条件を更新する(S6)。
【0086】
次に、形状解析部5において、上記の身体領域を基に形状領域を作成し、この形状領域に基づいて形状解析を行う(S7)。この形状解析においては、形状領域の輪郭線を検出し、この輪郭線をある程度の長さを有する輪郭直線で近似し、この輪郭直線を解析することによって、手などの領域が解析される。
【0087】
この形状解析部5において、手などの領域が認識されなかった場合(S8においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、手などの領域が認識された場合(S8においてYES)には、動作認識部6において、上記で認識された手などの領域の動作が認識される(S9)。
【0088】
S9において動作が認識されなかった場合(S10においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、S9において動作が認識された場合(S10においてYES)には、認識結果を情報処理装置8に出力する(S11)。
【0089】
その後、動作認識処理の終了命令があったかどうかが判断され(S12)、終了命令がなかった場合(S12においてNO)には、再びS1からの処理を始め、終了命令があった場合(S12においてYES)には、処理を終了する。
【0090】
以上で述べた実施の形態では、動画像の入力から動作の認識までの処理が、全て同一時刻の入力画像に対して行われることを前提としている。しかしながら、システムの処理能力が不足しているなどの理由で、全ての処理を1つの時刻に行うことができない場合には、領域統合部4による身体領域の候補を抽出するまでの処理と、形状解析部5以降の処理とを別時刻の入力画像に対して行うことも可能である。このことについて、以下により詳しく説明する。
【0091】
例えば、時刻0に手の候補領域が抽出されると仮定する。そして、時刻0よりも後となる時刻1の入力画像に対しては、まず式(1)に従って色度画像を作成する。そして、この色度画像上に時刻0における候補領域を投影し、投影領域内において、時刻0の肌色検出条件によって肌色領域を検出する。これを手の候補領域として、以降の形状解析、動作認識の処理を行う。すなわち、時刻1においては、時刻0において領域統合部4によって身体領域の候補として抽出された領域に基づいて、時刻1における入力画像における身体領域の候補領域を設定し、この候補領域に対して、形状解析部5以降の処理を行うことになる。
【0092】
以上のように、本実施形態に係る動作認識システムは、動画入力装置7から毎時刻入力されるフレーム画像データから、動き検出部2によって抽出された動きのある領域と、肌色検出部3によって抽出された肌色領域とに基づいて、領域統合部4によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。
【0093】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。
【0094】
また、上記の構成では、動きのある領域の検出と肌色領域の検出とを行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。
【0095】
なお、以上説明した動作認識システムは、動き検出部2、肌色検出部3、領域統合部4、形状解析部5、および動作認識部6において行われる処理を、コンピュータ上で実行可能なプログラムとして記述し、このプログラムをコンピュータ上で実行することによっても、実現することが可能である。このプログラムはコンピュータで読み取り可能な記録媒体に格納されることになる。この記録媒体としては、磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する媒体などが挙げられる。
【0096】
また、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。尚、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。
【0097】
また、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。
【0098】
【発明の効果】
以上のように、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えている構成である。
【0099】
これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。
【0100】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができると同時に、システムにおけるコストの低減を図ることができるという効果を奏する。
【0101】
また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。
【0102】
また、本発明に係る動作認識システムは、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。
【0103】
これにより、上記の効果に加えて、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができるという効果を奏する。
【0104】
また、本発明に係る動作認識システムは、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。
【0105】
これにより、上記の効果に加えて、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となるという効果を奏する。
【0106】
また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【0107】
これにより、上記の効果に加えて、的確に対象を特徴づける色を含む領域を検出することができるという効果を奏する。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となるという効果を奏する。
【0108】
また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。
【0109】
これにより、上記の効果に加えて、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となるという効果を奏する。
【0110】
また、本発明に係る動作認識システムは、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。
【0111】
これにより、上記の効果に加えて、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができるという効果を奏する。
【0112】
また、本発明に係る動作認識システムは、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。
【0113】
これにより、上記の効果に加えて、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となるという効果を奏する。
【0114】
また、本発明に係る動作認識システムは、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。
【0115】
これにより、上記の効果に加えて、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリーに分類することが可能となるという効果を奏する。
【0116】
また、本発明に係る動作認識システムは、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。
【0117】
これにより、上記の効果に加えて、必要最小限の形状解析を行うことができるという効果を奏する。
【0118】
また、本発明に係る動作認識システムは、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。
【0119】
これにより、上記の効果に加えて、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となるという効果を奏する。
【0120】
また、本発明に係る動作認識システムは、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。
【0121】
これにより、上記の効果に加えて、1単位時刻に行う処理量を低減することが可能となるので、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となるという効果を奏する。
【0122】
また、本発明に係る動作認識システムは、上記対象が人間の手である構成としてもよい。
【0123】
これにより、上記の効果に加えて、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となるという効果を奏する。
【0124】
また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録している構成である。
【0125】
これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。
【0126】
また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができるとともに、システムにおけるコストの低減を図ることができるという効果を奏する。
【0127】
また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係る動作認識システムの概略構成を示すブロック図である。
【図2】上記動作認識システムにおいて行われる処理の流れを示すフローチャートである。
【図3】同図(a)ないし(d)は、上記動作認識システムが備える動き検出部が、処理を行う上で作成する画像を示す説明図である。
【図4】上記動作認識システムが備える領域統合部での処理を模式的に示す説明図である。
【図5】同図(a)は、領域統合部において、身体領域の候補として検出された領域を示す説明図であり、同図(b)は、同図(a)に示す領域を、肌色検出部において作成された色度画像に投影した状態を示す説明図である。
【図6】図5(b)において破線で囲まれた領域に含まれる画素の各色度値に関して、各画素値に対する画素数を毎時刻積算した結果に基づき、横軸に色度値、縦軸に画素数をとって作成したヒストグラムである。
【図7】上記動作認識システムが備える形状解析部において行われる処理を示す説明図である。
【符号の説明】
1 フレームメモリ
2 動き検出部(動き検出手段)
3 肌色検出部(色検出手段)
4 領域統合部(領域統合手段)
5 形状解析部(形状解析手段)
6 動作認識部(動作認識手段)
7 動画入力装置
8 情報処理装置

Claims (14)

  1. 特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、
    上記時系列画像データから動きのある領域を抽出する動き検出手段と、
    上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、
    上記動き検出手段および上記色検出手段の検出結果に基づいて、対象領域を抽出する領域統合手段とを備え、
    上記領域統合手段は、動き検出手段によって検出された動き領域、および前に領域統合手段において対象領域として検出された領域が足し合わされた領域と、色検出手段によって検出された色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を対象領域の候補とするものであることを特徴とする動作認識システム。
  2. 上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出することを特徴とする請求項1記載の動作認識システム。
  3. 上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出することを特徴とする請求項2記載の動作認識システム。
  4. 上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項1記載の動作認識システム。
  5. 上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項4記載の動作認識システム。
  6. 対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定されることを特徴とする請求項4または5記載の動作認識システム。
  7. 対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて更新されることを特徴とする請求項4または5記載の動作認識システム。
  8. 上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えていることを特徴とする請求項1ないし7のいずれかに記載の動作認識システム。
  9. 上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識することを特徴とする請求項8記載の動作認識システム。
  10. 上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えていることを特徴とする請求項8または9記載の動作認識システム。
  11. 上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うことを特徴とする請求項8記載の動作認識システム。
  12. 上記対象が人間の手であることを特徴とする請求項1ないし11のいずれかに記載の動作認識システム。
  13. 特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、
    上記時系列画像データから動きのある領域を抽出する処理と、
    上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、
    上記動きのある領域を抽出する処理の結果に基づいて検出された動き領域、および前に対象領域として検出された領域が足し合わされた領域と、検出された色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を対象領域の候補とする処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴とするコンピュータが読み取り可能な記録媒体。
  14. 上記色検出手段は、色を含む領域の円形度を目安に色を含む領域を絞り込むものである、請求項1ないし12の何れか1項に記載の動作認識システム。
JP18424299A 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体 Expired - Lifetime JP3657463B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18424299A JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18424299A JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001016606A JP2001016606A (ja) 2001-01-19
JP3657463B2 true JP3657463B2 (ja) 2005-06-08

Family

ID=16149880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18424299A Expired - Lifetime JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3657463B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4618470B2 (ja) * 2001-02-22 2011-01-26 ソニー株式会社 画像処理装置及び方法並びにロボット装置及びその制御方法
FR2857481A1 (fr) * 2003-07-08 2005-01-14 Thomson Licensing Sa Procede et dispositif de detection de visages dans une image couleur
JP4745724B2 (ja) * 2005-06-08 2011-08-10 キヤノン株式会社 画像処理方法、画像処理装置
JP4819001B2 (ja) 2006-07-25 2011-11-16 富士フイルム株式会社 撮影装置および方法並びにプログラム、画像処理装置および方法並びにプログラム
JP5153660B2 (ja) * 2009-01-14 2013-02-27 キヤノン株式会社 画像処理装置および画像処理方法、ならびにプログラム
JP4965590B2 (ja) * 2009-01-22 2012-07-04 トップシード テクノロジー コーポレーション ジェスチャを認識および追跡する方法
US8605942B2 (en) * 2009-02-26 2013-12-10 Nikon Corporation Subject tracking apparatus, imaging apparatus and subject tracking method
JP5656567B2 (ja) 2010-11-05 2015-01-21 キヤノン株式会社 映像処理装置および方法
JP5754931B2 (ja) * 2010-12-21 2015-07-29 キヤノン株式会社 画像解析装置、画像解析方法及びプログラム
JP2012212373A (ja) * 2011-03-31 2012-11-01 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム
JP5747695B2 (ja) * 2011-07-07 2015-07-15 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US9020194B2 (en) * 2013-06-14 2015-04-28 Qualcomm Incorporated Systems and methods for performing a device action based on a detected gesture
JP6350331B2 (ja) * 2015-02-17 2018-07-04 株式会社Jvcケンウッド 追尾装置、追尾方法及び追尾プログラム
JP6790611B2 (ja) * 2016-09-02 2020-11-25 富士通株式会社 生体画像処理装置、生体画像処理方法、および生体画像処理プログラム
KR101874471B1 (ko) 2016-11-07 2018-07-04 광주과학기술원 객체 검색 후보 영역을 개선하기 위한 방법, 컴퓨터-판독가능 저장 매체 및 장치
JP6906973B2 (ja) * 2017-02-09 2021-07-21 グローリー株式会社 顔検出装置、顔検出方法、顔検出プログラム、及び対象物検出装置
SG11201909139TA (en) * 2017-12-22 2019-10-30 Beijing Sensetime Technology Development Co Ltd Methods and apparatuses for recognizing dynamic gesture, and control methods and apparatuses using gesture interaction

Also Published As

Publication number Publication date
JP2001016606A (ja) 2001-01-19

Similar Documents

Publication Publication Date Title
JP3657463B2 (ja) 動作認識システムおよび動作認識プログラムを記録した記録媒体
KR101514169B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
WO2021115181A1 (zh) 手势识别方法、手势控制方法、装置、介质与终端设备
Zhou et al. A novel finger and hand pose estimation technique for real-time hand gesture recognition
CN109710071B (zh) 一种屏幕控制方法和装置
US20190346932A1 (en) Motion-Assisted Visual Language for Human Computer Interfaces
US9104242B2 (en) Palm gesture recognition method and device as well as human-machine interaction method and apparatus
CN103488294B (zh) 一种基于用户交互习惯的非接触手势控制映射调整方法
US8897490B2 (en) Vision-based user interface and related method
JP4711885B2 (ja) 遠隔操作装置及び方法
US8971585B2 (en) Image processing apparatus for retrieving object from moving image and method thereof
WO2012036790A1 (en) Gesture recognition system for tv control
WO1999039302A1 (en) Camera-based handwriting tracking
JP2011253292A (ja) 情報処理装置および方法、並びにプログラム
US20160334877A1 (en) Real-time 3d gesture recognition and tracking system for mobile devices
KR20140002007A (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
CN107357414B (zh) 一种点击动作的识别方法及点击动作识别装置
JP5895720B2 (ja) 被写体追跡装置、被写体追跡方法及び被写体追跡用コンピュータプログラム
CN111986229A (zh) 视频目标检测方法、装置及计算机系统
CN115951783A (zh) 一种基于手势识别的计算机人机交互方法
WO2021246089A1 (ja) ジェスチャ認識装置、システム及びそのプログラム
CN114299612A (zh) 手势检测方法、装置、电子设备及存储介质
Li Vision based gesture recognition system with high accuracy
Zhou et al. A real-time gesture recognition algorithm on video surveillance
De Beugher et al. Semi-automatic hand annotation making human-human interaction analysis fast and accurate

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080318

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130318

Year of fee payment: 8