JP2001016606A

JP2001016606A - 動作認識システムおよび動作認識プログラムを記録した記録媒体

Info

Publication number: JP2001016606A
Application number: JP11184242A
Authority: JP
Inventors: Michihiro Ono; 通広大野; Hiroyuki Akagi; 宏之赤木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1999-06-29
Filing date: 1999-06-29
Publication date: 2001-01-19
Anticipated expiration: 2019-06-29
Also published as: JP3657463B2

Abstract

(57)【要約】【課題】特定の対象の画像が含まれている時系列画像
データを処理することによって該対象の形状および動作
を認識する動作認識システムにおいて、対象の形状およ
び動作の検出の精度が高く、かつ、低コストの動作認識
システムを提供する。【解決手段】入力されたフレーム画像の時系列データ
から、動き検出部２によって動きのある領域を抽出し、
肌色検出部３によって肌色領域を抽出する。そして、領
域統合部４において、動きのある領域でかつ肌色領域と
なる領域を対象領域として抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば手などの画
像が含まれている時系列画像データを処理することによ
って、手の形状および動作を認識する動作認識システム
に関するものである。

【０００２】

【従来の技術】従来、パーソナルコンピュータ等の情報
処理機器におけるユーザーインターフェースとして、キ
ー入力デバイスとしてのキーボードや、ポインティング
デバイスとしてのマウスなどが一般的に用いられてい
る。しかしながら、キーボードやマウスによる操作は、
ある程度のスキルを要求するため、初心者にとっては、
その操作が難しいという問題がある。

【０００３】また、キーボードやマウスなどを使用する
場合、操作とそれに対するシステムの応答との関連を使
用者が記憶しておく必要がある。例えばキーボードにお
いては、ＣｔｒｌキーやＡｌｔキーなどの機能を覚える
必要があったり、マウスにおいては、シングルクリック
とダブルクリックとの違いや、左ボタンと右ボタンとの
機能の違いなどを覚える必要がある。このような多種多
様の操作および機能を逐一覚えることは、初心者にとっ
て大きな負担となる。

【０００４】そこで、近年では、簡単かつ直観的なユー
ザーインターフェースとして、人間の身体、すなわち、
身振りや手振りを利用しようとする試みが盛んに行われ
ている。身振りや手振りをユーザーインターフェースと
して利用するためには、カメラ等の入力デバイスによっ
て身体の姿勢、形状や動作に関する情報を入力し、入力
された情報を解析することによって身体情報の内容を認
識し、認識された動作に対して特定のコマンド等の意味
を持たせることが必要となる。

【０００５】ここで、人間の身体を利用したユーザーイ
ンターフェースとして提案されている方法について以下
にその例を示す。電子情報通信学会論文誌 D-II Vol.J8
0-D-II No.6 pp.1571-1580(1997)「インタラクティブシ
ステム構築のための動画像からの実時間ジェスチャ認識
手法−仮想指揮システムへの応用−」（文献１）には、
ＣＣＤカメラによって撮影された画像から、腕部分を抽
出し、その動きの軌跡を解析することによって、実時間
でジェスチャを認識する方法が開示されている。また、
特開平２−１４４６７５号公報（文献２）には、指の各
関節毎に異なる色で塗り分けられた手袋を装着し、撮影
画像から手袋の色を手がかりに指の動きを認識する方法
が開示されている。

【０００６】また、テレビジョン学会誌 Vol.48, No.8,
pp.960-965(1994) 「仮想環境実現のための基板技術」
（文献３）には、データグローブと呼ばれる手袋型のセ
ンサデバイスを用いて、手指の動きをコンピュータに入
力する方法が開示されている。また、映像情報(I) 1992
/9 pp.55-60 「赤外画像と可視画像による人物抽出」
（文献４）には、赤外画像と可視画像とを入力として用
い、赤外画像から人物候補領域を抽出し、さらに可視画
像において人物候補領域内の肌色領域を抽出することで
顔や手の位置を特定する方法が開示されている。

【０００７】

【発明が解決しようとする課題】文献１に開示されてい
る方法のように、入力として可視画像を用いる場合、最
も難しい問題は、入力された画像から手や指等の認識対
象領域を抽出することである。手や指の抽出に関して
は、画像の輝度情報や色情報を利用して肌色領域を抽出
することによって実現する手法が一般的である。しかし
ながら、輝度情報や色情報は、背景に肌色に近い領域が
ある場合に、身体との区別が難しくなることや、照明状
態などの環境条件によって値が変動しやすいため、上記
の手法は、認識の安定性に欠けるという問題を有してい
る。

【０００８】この問題を解決するために、例えば文献１
では、背景に暗幕を配置することによって対応する例が
示されており、このような特殊な環境下において実施す
る例は比較的多く提案されている。あるいは、例えば文
献２に開示されている方法のように、認識対象となる部
位に、マーカーとなるものを装着することによって検出
精度を高める例も多く提案されている。

【０００９】また、文献３に開示されている方法のよう
に、データグローブのような動作入力専用のデバイスを
用いる場合には、手領域の抽出や動作情報の取得の安定
性に関する問題は考慮する必要がなくなる。しかしなが
ら、操作の前に動作入力用のデバイスを装着することの
煩わしさや、ユーザーインターフェースとしては高価な
ものとなるという問題があり、キーボードやマウスの代
用として利用するには困難な点も多い。

【００１０】また、文献４に開示されている方法のよう
に、赤外画像を利用すれば、一般的な環境においては身
体と背景との温度差が大きいので、人間の身体領域の抽
出は容易となる。しかしながら、赤外画像を入力する装
置は、一般的に価格が高価であり、かつ、装置が大型と
なるものが多く、不法侵入者の監視などの特殊用途以外
には流用することが難しいので、一般家庭には普及しに
くいという問題がある。

【００１１】本発明は上記の問題点を解決するためにな
されたもので、その目的は、特定の対象の画像が含まれ
ている時系列画像データを処理することによって該対象
の形状および動作を認識する動作認識システムにおい
て、対象の形状および動作の検出の精度が高く、かつ、
低コストの動作認識システムを提供することにある。

【００１２】

【課題を解決するための手段】上記の課題を解決するた
めに、本発明に係る動作認識システムは、特定の対象の
画像が含まれている時系列画像データを処理することに
よって該対象の形状および動作を認識する動作認識シス
テムにおいて、上記時系列画像データから動きのある領
域を抽出する動き検出手段と、上記時系列画像データか
ら上記対象を特徴づける色を含む領域を抽出する色検出
手段と、上記動き検出手段および上記色検出手段の検出
結果に基づいて、動きのある領域で、かつ上記対象を特
徴づける色を含む領域となる領域を対象領域として抽出
する領域統合手段とを備えていることを特徴としてい
る。

【００１３】上記の構成によれば、時系列画像データか
ら、動き検出手段によって抽出された動きのある領域
と、色検出手段によって抽出された、動作認識対象を特
徴づける色を含む領域とに基づいて、領域統合手段によ
って対象領域を抽出しているので、例えば従来の技術で
示したように、輝度情報や色情報のみによって対象領域
を抽出する構成と比較して、対象領域を、より的確にか
つ高い信頼性でもって抽出することができる。例えば、
背景に対象を特徴づける色と同じような色の領域がある
場合でも、背景は基本的に動かないものであるので、上
記の動き検出手段において対象領域の候補として抽出さ
れないことになる。したがって、背景に暗幕をひくなど
の特殊な環境にする必要なく、対象を適切に抽出するこ
とが可能となる。

【００１４】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。

【００１５】また、上記の構成では、動きのある領域の
検出と、対象を特徴づける色を含む領域の検出を行えば
いいので、必要とする画像データは、一般に用いられて
いる可視画像データでよいことになる。したがって、例
えば赤外画像などの特殊な画像データを入力することが
可能な、高価格で大型の画像入力装置を不要とすること
ができる。

【００１６】また、本発明に係る動作認識システムは、
上記の構成において、上記動き検出手段が、上記時系列
画像データにおける互いに異なる時間の２つの画像デー
タにおいて、各画素における輝度値の差分を画素値とす
る差分画像を作成し、この差分画像に基づいて動きのあ
る領域を検出する構成としてもよい。

【００１７】上記の構成によれば、動き検出手段は、時
系列画像データにおける互いに異なる時間の２つの画像
データにおいて、各画素における輝度値の差分を画素値
とする差分画像に基づいて動きのある領域を検出するの
で、動きのある領域を、的確に、かつ、少ない演算処理
によって検出することができる。

【００１８】また、本発明に係る動作認識システムは、
上記の構成において、上記動き検出手段が、上記差分画
像を所定の大きさのブロック単位に分割し、各ブロック
に含まれる画素の輝度値の平均値あるいは積算値をブロ
ック値とするブロック画像を作成し、ブロック値が所定
の閾値を越えるブロックを連結することによって形成さ
れる領域の面積が所定の範囲内にある領域を、動きのあ
る領域として抽出する構成としてもよい。

【００１９】上記の構成によれば、動き検出手段は、上
記差分画像に基づいてブロック画像を作成し、ブロック
値が所定の閾値を越えるブロックを連結することによっ
て形成される領域の面積が所定の範囲内にある領域を、
動きのある領域として抽出するので、動いている領域の
中でも、ある程度広い範囲を占める領域のみを抽出する
ことになる。よって、例えば背景において、対象とは異
なる小さな物体が動いている場合でも、これを対象とな
る領域の候補からはずすことができる。したがって、対
象となる領域の検出の精度を上げることが可能となる。

【００２０】また、本発明に係る動作認識システムは、
上記の構成において、上記色検出手段が、画像データに
おいて、各色成分の画素値が所定の条件を満たす画素領
域を、対象を特徴づける色を含む領域として抽出する構
成としてもよい。

【００２１】上記の構成によれば、色検出手段は、各色
成分の画素値が所定の条件を満たす画素領域を、対象を
特徴づける色を含む領域として抽出するので、的確に対
象を特徴づける色を含む領域を検出することができる。
また、各色成分に対する条件を適宜変更することによっ
て、背景や照明の変化にも適切に対応することが可能と
なる。

【００２２】また、本発明に係る動作認識システムは、
上記の構成において、上記色検出手段が、画像データに
おいて、各色成分の画素値が所定の条件を満たす画素領
域で、かつ、その画素領域を連結することによって形成
される領域の形状および面積が所定の条件を満たしてい
る場合に、該領域を、対象を特徴づける色を含む領域と
して抽出する構成としてもよい。

【００２３】上記の構成によれば、色検出手段は、各色
成分の画素値が所定の条件を満たすとともに、その画素
領域を連結することによって形成される領域の形状およ
び面積が所定の条件を満たしている場合に、該領域を、
対象を特徴づける色を含む領域として抽出するので、色
の条件のみならず、その領域の形状および面積をも考慮
して、対象を特徴づける色を含む領域を検出することに
なる。よって、例えば、背景に、対象を特徴づける色と
同様の色からなる領域があったとしても、形状や面積に
よる条件によって、このような領域を候補から外すこと
が可能となる。したがって、対象を特徴づける色を含む
領域の検出の精度を上げることが可能となる。

【００２４】また、本発明に係る動作認識システムは、
上記の構成において、対象を特徴づける色を含む領域を
抽出する際に用いられる、各色成分の画素値に対する条
件が、現時刻に到るまでの、対象を特徴づける色を含む
領域の抽出結果に基づいて決定される構成としてもよ
い。

【００２５】上記の構成によれば、各色成分の画素値に
対する条件を、現時刻に到るまでの、対象を特徴づける
色を含む領域の抽出結果に基づいて決定するので、例え
ば、背景や照明の状態などの環境の変化が動作認識中に
生じたとしても、このような変化に応じて、各色成分の
画素値に対する条件を変化させることが可能となる。す
なわち、環境に変化が生じても、対象を特徴づける色を
含む領域の抽出の精度を維持することができる。

【００２６】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段が、さらに、所
定の過去の時刻において、領域統合手段によって対象領
域として抽出された領域で、かつ、現時刻における、対
象を特徴づける色を含む領域をも上記対象領域として抽
出する構成としてもよい。

【００２７】上記の構成によれば、領域統合手段は、現
時刻において動きのある領域でかつ上記対象を特徴づけ
る色を含む領域とともに、所定の過去の時刻において、
領域統合手段によって対象領域として抽出された領域
で、かつ、現時刻における、対象を特徴づける色を含む
領域をも上記対象領域として抽出するので、対象がほと
んど動いていない状態の時でも、対象を対象領域として
抽出することが可能となる。

【００２８】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段によって抽出さ
れた対象領域の形状を解析する形状解析手段をさらに備
えている構成としてもよい。

【００２９】上記の構成によれば、形状解析手段によっ
て、領域統合手段によって抽出された対象領域の形状を
解析することができるので、対象領域の形状の状態を、
形状を示すある種のコードによって認識することが可能
となる。すなわち、多様に変化する対象領域の形状を、
複数のカテゴリーに分類することが可能となる。

【００３０】また、本発明に係る動作認識システムは、
上記の構成において、上記形状解析手段が、対象領域の
輪郭線を所定の範囲の長さからなる複数の直線で近似
し、この直線の傾き、長さ、位置関係によって対象領域
の形状を認識する構成としてもよい。

【００３１】上記の構成によれば、形状解析手段は、対
象領域の輪郭線を所定の範囲の長さからなる複数の直線
で近似し、この直線の傾き、長さ、位置関係によって対
象領域の形状を認識するので、必要最小限の形状解析を
行うことができる。

【００３２】また、本発明に係る動作認識システムは、
上記の構成において、上記形状解析手段によって解析さ
れた対象領域の形状を、経時的に追跡することによっ
て、対象領域の動きの方向を認識する動作認識手段をさ
らに備えている構成としてもよい。

【００３３】上記の構成によれば、動作認識手段によっ
て、形状解析手段によって解析された対象領域の形状
を、経時的に追跡することによって、対象領域の動きの
方向を認識するので、対象領域の動きの状態を、動きを
示すある種のコードによって認識することが可能とな
る。すなわち、多様に変化する対象領域の動きを、複数
のカテゴリーに分類することが可能となる。

【００３４】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段における対象領
域の抽出と、上記形状解析手段における形状の解析と
を、それぞれ別時刻の画像データに対して行う構成とし
てもよい。

【００３５】上記の構成によれば、領域統合手段におけ
る対象領域の抽出と、形状解析手段における形状の解析
とを、それぞれ別時刻の画像データに対して行うので、
１単位時刻に行う処理量を低減することが可能となる。
よって、演算性能が若干劣るシステムにおいても、処理
の停滞などが生じることなく、円滑に処理を行うことが
可能となる。

【００３６】また、本発明に係る動作認識システムは、
上記の構成において、上記対象が人間の手である構成と
してもよい。

【００３７】上記の構成によれば、人間の手の領域を抽
出、形状解析、動作認識を行うことになるので、例え
ば、差し出す指の本数、およびその向き、さらに動きの
方向にそれぞれ意味を持たせ、これらを認識することに
よって、例えば外部に接続された情報処理装置などのシ
ステムに対して制御命令を送信するなどのインターフェ
ースとして機能させることが可能となる。これによっ
て、複雑な操作を使用者が覚えることなく、直観的な操
作によるユーザーインターフェースを実現することが可
能となる。

【００３８】また、本発明に係る動作認識プログラムを
記録した記録媒体は、特定の対象の画像が含まれている
時系列画像データを処理することによって該対象の形状
および動作を認識する動作認識プログラムを記録した記
録媒体において、上記時系列画像データから動きのある
領域を抽出する処理と、上記時系列画像データから上記
対象を特徴づける色を含む領域を抽出する処理と、上記
動き検出手段および上記色検出手段の検出結果に基づい
て、動きのある領域でかつ上記対象を特徴づける色を含
む領域となる領域を対象領域として抽出する処理とをコ
ンピュータに実行させるための動作認識プログラムを記
録していることを特徴としている。

【００３９】上記の構成によれば、時系列画像データか
ら、動きのある領域と動作認識対象を特徴づける色を含
む領域とに基づいて対象領域を抽出しているので、例え
ば従来の技術で示したように、輝度情報や色情報のみに
よって対象領域を抽出する構成と比較して、対象領域
を、より的確にかつ高い信頼性でもって抽出することが
できる。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、動きのある領域として抽出されないこと
になる。したがって、背景に暗幕をひくなどの特殊な環
境にする必要なく、対象を適切に抽出することが可能と
なる。

【００４０】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。

【００４１】また、上記の構成では、動きのある領域の
検出と、対象を特徴づける色を含む領域の検出を行えば
いいので、必要とする画像データは、一般に用いられて
いる可視画像データでよいことになる。したがって、例
えば赤外画像などの特殊な画像データを入力することが
可能な、高価格で大型の画像入力装置を不要とすること
ができる。

【００４２】

【発明の実施の形態】本発明の実施の一形態について図
１ないし図７に基づいて説明すれば、以下のとおりであ
る。

【００４３】図１は、本実施形態に係る動作認識システ
ムの概略構成を示すブロック図である。該動作認識シス
テムは、フレームメモリ１、動き検出部（動き検出手
段）２、肌色検出部（色検出手段）３、領域統合部（領
域統合手段）４、形状解析部（形状解析手段）５、およ
び動作認識部（動作認識手段）６を備えている。また、
図１に示すように、動作認識システムは、動画入力装置
７および情報処理装置８に接続されている。

【００４４】動画入力装置７は、例えばＣＣＤ(Charge
Coupled Device) カメラによって構成される。このＣＣ
Ｄカメラは、近年価格が急激に下落したことや、テレビ
会議システム、インターネットを介してのテレビ通話な
どの市場が拡大していることなどの理由によって、一般
的に広く普及する傾向にある。また、すでに一般に広く
普及しているビデオムービーカメラを動画入力装置７と
して用いることも可能である。このように、動画入力装
置７としては、可視画像を入力することが可能なもので
あればよいので、比較的安価な装置によって構成するこ
とができる。

【００４５】情報処理装置８は、例えばパーソナルコン
ピュータなどによって構成され、種々の情報処理を行う
ものである。また、例えば、さらに他の装置の動作を制
御するためのコンピュータであってもよい。

【００４６】以下に、上記動作認識システムが備える各
処理部に関して詳細に説明する。

【００４７】フレームメモリ１は、動画入力装置７から
順次転送されるフレーム画像のデータを一時的に記憶す
るものである。このフレームメモリ１は、少なくとも２
フレーム分の画像を記憶可能な程度の記憶容量を持つも
のとし、新しいフレーム画像が入力されるときには、入
力時刻が最も早いフレーム画像を消去することによっ
て、記憶しているフレーム画像を順次更新していく。な
お、以降の処理量を軽減するために、フレーム画像を縮
小して記憶するようにしてもよい。

【００４８】動き検出部２は、フレームメモリ１に記憶
されている２つのフレーム画像を比較することによっ
て、画像内において動いている動き領域の検出を行うも
のである。

【００４９】この動き検出部２の検出動作において、動
画入力装置７の転送レートが高い場合、例えば１秒あた
り３０フレーム程度となる場合には、動き領域の動く速
度が遅いと、連続する２時刻の画像間の差が極めて僅か
となるので、動き領域の検出ができなくなってしまう。
このような場合には、フレームメモリ１が、動画入力装
置７から出力される全てのフレーム画像を記憶せずに、
１フレームおき、あるいは２フレームおきに、フレーム
画像を記憶していけばよい。また、別の方法としては、
動き領域の動く速度が遅い場合にも画像間の差が生じる
ように、フレームメモリ１の記憶容量を十分に大きくす
ることによって対応してもよい。この場合には、動き検
出部２は、現時刻のフレーム画像と、フレームメモリ１
に記憶されているフレーム画像の中で最も早い時刻のフ
レーム画像との比較を行うことになる。

【００５０】ここで、図３（ａ）ないし（ｄ）を参照し
ながら、動き検出部３における作用について詳細に説明
する。動き検出部２は、まず、フレームメモリ１に記憶
されている２つのフレーム画像の各画素について、輝度
値に関する減算値の絶対値を各画素の値とする差分画像
を作成する。この差分画像の一例を図３（ａ）に示す。
なお、フレーム画像の表色形式がＲＧＢ形式である場合
には、計算量削減のために、簡略的にＲＧＢの１つの要
素のみ（一般的にはＧ）の値を輝度値として用いてもよ
い。

【００５１】次に、動き検出部２は、図３（ｂ）に示す
ように、上記差分画像を所定の大きさのブロック単位に
分割する。例えば、差分画像の大きさが３２０×２４０
画素である場合、１ブロックの大きさを１６×１６画素
とすると、差分画像は、２０×１５ブロックからなる画
像となる。そして、各ブロック内に含まれる画素値の平
均値を各ブロックにおけるブロック値とし、このブロッ
ク値に基づいて、図３（ｃ）に示すように、ブロック画
像を作成する。ここで、ブロック値が所定の閾値以下と
なっているブロックに対しては、そのブロックのブロッ
ク値を０とすることで、動作検出対象とは異なる微小な
動き領域を排除している。なお、図３（ｃ）において
は、便宜的に、ブロック値の大きさを各ブロック内での
表示面積の大きさで表している。

【００５２】なお、上記では、各ブロック内に含まれる
画素値の平均値を各ブロックにおけるブロック値として
いたが、これに限定されるものではなく、例えば、各ブ
ロック内に含まれる画素値の総和値をブロック値として
もよい。

【００５３】次に、図３（ｄ）に示すように、動き検出
部２は、図３（ｃ）に示すブロック画像を２値化するこ
とによって、動きの大きい画素のみを検出する。この２
値化を行う際に用いられる閾値は、判別分析法等の手法
を用いてブロック画像の各ブロック値を分析することに
よって自動的に決定されるものとする。そして、２値化
された画像において、動きの大きい画素として検出され
たブロックが隣接している場合に、これらを連結させた
領域の面積を求める。この連結させた領域の面積が所定
の閾値を越える場合には、その領域を動きのある領域と
して抽出する。領域の面積に対する閾値は、例えば、ブ
ロック画像全体の面積の３０分の１というように決定す
る。

【００５４】以上のように、動き検出部２は、フレーム
メモリ１に記憶されている２つのフレーム画像の差分画
像からブロック画像を作成し、このブロック画像の解析
に基づいて、画像中の動きのある領域を抽出する動作を
行っている。

【００５５】次に、肌色検出部３について詳細に説明す
る。肌色検出部３には、フレームメモリ１内に現時刻の
フレーム画像として記憶されている画像データが入力さ
れる。入力された画像データにおける各画素のＲＧＢ値
に対して、以下に示す変換を行うことによって正規化を
行い、色度画像を作成する。なお、正規化を行う意味
は、照明むらを除去し、色度成分のみを抽出することに
ある。

【００５６】

【数１】

【００５７】次に、正規化後の色度画像における各画素
に関して、肌色である条件を満たす画素を検出する。肌
色である条件は、式（１）の（ｒ，ｇ，ｂ）に関して、
次の式（２）〜（６）のように表される。ｒ_min≦ｒ≦ｒ_max （２）ｇ_min≦ｇ≦ｇ_max （３）ｂ_min≦ｂ≦ｂ_max （４）ｒ＞ｇ（５）ｒ＞ｂ（６）

【００５８】ここで、ｒ_min、ｇ_min、ｂ_minは、
（ｒ，ｇ，ｂ）のそれぞれの値に対する最小値であり、
ｒ_max、ｇ_max、ｂ_maxは最大値を表している。これら
の最小値および最大値の決め方については後述する。

【００５９】次に、肌色検出部３は、上記の動き検出部
２と同様に、上記の色度画像を複数のブロックに分割
し、各ブロック内で上記の肌色である条件を満たす画素
の数が所定の閾値を越えるときに、該ブロック値を１と
し、所定の閾値以下であるときに、該ブロック値を０と
するブロック画像を作成する。このブロック画像におけ
る各ブロックの大きさは、動き検出部２において作成し
たブロック画像における各ブロックの大きさと同じであ
るものとする。

【００６０】続いて、動き検出部２と同様に、ブロック
画像において、ブロック値が１であるブロックのうち、
隣接するブロック同士を連結して、その連結領域の面積
を求める。この連結領域の面積が所定の閾値を越える場
合に、この領域を肌色領域の候補として抽出する。

【００６１】さらに、肌色検出部３では、上記で肌色領
域の候補として抽出された領域の形状に関する解析を行
う。一般に、顔や手が表示されている領域は、ブロック
画像上では円形や楕円形に近い形となっている。これに
基づいて、領域の円形度を目安に肌色領域を絞り込むこ
とができる。領域の円形度Ｃは、該領域の周囲長をＬ、
面積をＡとすると、次の式（７）によって求められる。Ｃ＝Ｌ²／Ａ（７）

【００６２】この円形度Ｃの値が小さい程円に近いと判
定される。したがって、円形度Ｃが所定の閾値より小さ
い領域を肌色領域として抽出する。

【００６３】肌色領域の大きさや形状は、連続するフレ
ームの間ではほとんど変化しないものである。したがっ
て、面積や形状に関する閾値は、適当な初期値を決めて
おき、以降は前時刻の検出結果に基づいて決定すること
ができる。つまり、面積の閾値に関しては、前時刻に近
傍で検出された領域の面積より若干小さい値とし、形状
の閾値に関しては、前時刻の円形度より少し大きい値と
すればよい。

【００６４】次に、領域統合部４について詳細に説明す
る。領域統合部４には、動き検出部２で作成されたブロ
ック画像と、肌色検出部３で作成されたブロック画像が
入力される。領域統合部４は、動き検出部２によって検
出された動き領域と、肌色検出部３によって検出された
肌色領域とで重複する領域の面積が所定の閾値を越える
場合に、その領域を身体領域の候補として抽出するもの
である。この閾値としては、例えば、重複する領域の面
積が、肌色領域の３分の１であるという具合に決定すれ
ばよい。

【００６５】また、身体部分にほとんど動きがない時刻
に対応するために、１時刻前の領域統合部４において身
体領域の候補として抽出した領域を記憶しておき、その
領域と現時刻の肌色領域との重複領域が所定の閾値を越
える場合にも、身体領域の候補として抽出する。

【００６６】以上のような処理をまとめると、図４に示
すようになる。図４において、Ａは、動き検出部２にお
いて動き領域として検出された領域、Ｂは、領域統合部
４において前時刻において身体領域の候補として検出さ
れた領域、Ｃは、肌色検出部３において肌色領域として
検出された領域をそれぞれ示している。領域統合部４で
は、ＡとＢとが足し合わされた画像と、Ｃの画像とで重
複する領域を、図中Ｄで示す、動きのある肌色領域、す
なわち身体領域の候補として検出する。ここで、どの領
域も動きのある肌色領域として検出されなかった場合に
は、次のフレーム画像の入力処理に戻り、領域統合部４
以降の処理部における処理は行われない。

【００６７】前記した肌色検出部３における肌色条件値
ｒ_min、ｇ_min、ｂ_min、ｒ_max、ｇ_max、ｂ_maxは、
領域統合部４における身体領域の候補として検出された
結果に基づいて更新される。このことについて、図５
（ａ）および（ｂ）、ならびに図６を参照しながら、以
下に説明する。

【００６８】図５（ａ）は、領域統合部４において、身
体領域の候補として検出された領域を示している。この
領域を、図５（ｂ）に示すように、肌色検出部３におい
て作成された色度画像に投影すると、図中破線で囲まれ
た領域となる。この破線で囲まれた領域に含まれる画素
のｒ，ｇ，ｂの各色度値に関して、各画素値に対する画
素数を毎時刻積算する。そして、この積算結果に基づい
て、横軸に色度値、縦軸に画素数をとったヒストグラム
を作成する。図６は、ｒ成分に関するヒストグラムを示
している。

【００６９】各色成分に対応したヒストグラムにおい
て、画素数のピーク値を検出し、そのピーク値が所定の
閾値を越えた場合に、上記の肌色条件値を更新する。こ
の閾値は、ヒストグラムのピーク値に対する割合が所定
の値となるように設定すればよい。図６においては、破
線で示した値がこの閾値を表している。そして、度数
が、設定された閾値以上になる色値の範囲を肌色範囲と
し、これに応じて、肌色条件値が決定される。すなわ
ち、図６においては、ｒ_minおよびｒ_maxの値が決定さ
れる。

【００７０】以上のように、肌色の検出条件を過去の検
出結果に基づいて決定すれば、照明条件などの微妙な変
化や、背景の変化などに適応することが可能となる。

【００７１】次に、形状解析部５について詳細に説明す
る。形状解析部５は、領域統合部４で抽出された身体領
域の候補領域の形状を解析することによって、身体によ
って何が表現されているかを認識する。ここでは、対象
となる身体を手であるものとし、その手において示され
ている指の本数を特定することにする。

【００７２】領域統合部４において抽出される手の候補
領域は、ブロック画像上の領域であるため、領域が小さ
い場合には、形状の詳細な部分が不明瞭となる。したが
って、以下のような方法によって形状の解析を行う。

【００７３】まず、手の候補領域を、肌色検出部３にお
いて作成された色度画像に投影したときに、該候補領域
と重複する領域を抽出する。そして、その領域の内部に
おいて、前記した式（２）〜（６）の肌色条件を満たし
ている画素によって形成される形状領域を抽出し、この
形状領域に対して、孤立点の除去処理、穴埋め処理、輪
郭部分の平滑化処理などを行う。その結果、候補領域内
に複数の形状領域が抽出される場合もあるが、この場合
には、最も面積が大きい形状領域に対して、形状の解析
を行う。

【００７４】形状の解析は、例えば以下の手順で行うこ
とができる。まず、抽出された形状領域から、その輪郭
線を抽出する。次に、抽出された輪郭線を、ある程度の
長さを有する複数の直線で近似する。これらの複数の直
線の中で、ほぼ同じ傾きを有する直線を輪郭直線として
選出する。この形状解析の具体例を図７に示す。

【００７５】図７において、細線で示した部分が、抽出
された形状領域の輪郭線であり、Ｌ１ないしＬ６で示し
た太線が、選出された輪郭直線である。これらの輪郭直
線の中から、形状領域を挟んだ任意の２本の輪郭直線を
選択し、挟まれている領域の幅、長さ、面積、位置関係
などを調べることによって、指の領域や手のひらの領域
などを検出することができる。

【００７６】例えば図７に示す例においては、輪郭直線
Ｌ２とＬ３とに挟まれている領域と、輪郭直線Ｌ４とＬ
５とに挟まれている領域とが、ほぼ同じ長さで同じ幅と
なっていることから、指の領域と推定することができ
る。また、これらの他には同様の領域が存在しないこと
から、指の本数は２本であることも推定できる。また、
輪郭直線Ｌ１とＬ６とで挟まれている領域は、上記の指
の領域と比較して、その面積がかなり大きいことから、
手のひらの領域と推定することができる。さらに、画像
領域において、指の領域が上方、手のひらの領域が下方
に位置することから、指は上向きに出されていることが
推定される。

【００７７】以上のように、形状解析部５は、領域統合
部４で抽出された身体領域の候補領域から形状領域を抽
出し、この形状領域から得られる輪郭直線に基づいて、
身体がどのような形状となっているかを解析する。

【００７８】次に、動作認識部６について詳細に説明す
る。動作認識部６は、認識された身体領域、例えば手の
領域の位置を毎時刻追跡することによって、動きの方向
を特定する。１時刻間には手の領域の位置は大きく変化
しないと仮定することができるので、現時刻の手の領域
と前時刻の手の領域との位置関係が近く、かつ指の本数
や向きが同じであれば、２つの手の領域の重心位置を結
ぶ直線の向きが動きの方向であるとみなすことができ
る。

【００７９】一方、手を動画入力装置７に近づけていく
ような動作や、逆に遠ざけるような動作を行った場合に
は、重心位置はあまり変化しないことになる。しかしな
がら、動画入力装置７に近づけていくような動作を行っ
た場合には、手の領域の面積が増加し、逆に遠ざけるよ
うな動作を行った場合には、面積が減少することから動
作を特定することができる。

【００８０】以上のようにして認識された指の本数や動
きの方向に何らかの意味付けをすることによって、動作
認識システムに接続された情報処理装置８を制御するた
めの様々な入力を行うことが可能となる。また、上記の
システムは、手の動きを追跡している間に、認識された
指の本数や特定された位置を、情報処理装置８に入力す
ることが可能となっている。したがって、例えばモニタ
上で手の動きの軌跡を表示することによって、使用者は
動作認識システムに認識されている動作の確認を行うこ
とができる。また、この機能を利用すれば、使用者に動
作入力のガイダンスを行うことも可能となる。

【００８１】次に、図２に示すフローチャートを参照し
ながら、本実施形態に係る動作認識システムにおける処
理の流れを説明する。処理が開始されると、動画入力装
置７によって撮影されたフレーム画像が、フレームメモ
リ１に順に記憶される（ステップ１、以下、Ｓ１と称す
る）。

【００８２】次に、フレームメモリ１に記憶されている
現時刻および前時刻の２つのフレーム画像に基づいて、
動き検出部２によって動き領域が検出される（Ｓ２）。
この際に、動き検出部２は、上記の２つのフレーム画像
の差分画像に基づいて複数のブロックからなるブロック
画像を作成し、このブロック画像に基づいて動き領域の
検出を行っている。

【００８３】次に、フレームメモリ１に記憶されている
現時刻のフレーム画像に基づいて、肌色検出部３によっ
て肌色領域が検出される（Ｓ３）。この際に、肌色検出
部３は、現時刻のフレーム画像から色度画像を作成し、
この色度画像における各画素に対して肌色検出条件に基
づいてブロック画像として肌色領域を抽出するととも
に、領域の円形度を調べることによって身体領域として
の肌色領域を絞りこんでいる。

【００８４】次に、領域統合部４において、動き検出部
２によって作成された動き領域に関するブロック画像
と、肌色検出部３によって作成された肌色領域に関する
ブロック画像とを統合する（Ｓ４）。そして、この統合
結果によって身体領域が検出された否かが判断される
（Ｓ５）。

【００８５】身体領域が検出されなかった場合（Ｓ５に
おいてＮＯ）には、以降の処理は行わずに、再びＳ１か
らの処理を始める。一方、身体領域が検出された場合
（Ｓ５においてＹＥＳ）には、身体領域の各画素の色度
を検出し、色度値と画素数との関係を示すヒストグラム
に基づいて、肌色検出条件を更新する（Ｓ６）。

【００８６】次に、形状解析部５において、上記の身体
領域を基に形状領域を作成し、この形状領域に基づいて
形状解析を行う（Ｓ７）。この形状解析においては、形
状領域の輪郭線を検出し、この輪郭線をある程度の長さ
を有する輪郭直線で近似し、この輪郭直線を解析するこ
とによって、手などの領域が解析される。

【００８７】この形状解析部５において、手などの領域
が認識されなかった場合（Ｓ８においてＮＯ）には、以
降の処理は行わずに、再びＳ１からの処理を始める。一
方、手などの領域が認識された場合（Ｓ８においてＹＥ
Ｓ）には、動作認識部６において、上記で認識された手
などの領域の動作が認識される（Ｓ９）。

【００８８】Ｓ９において動作が認識されなかった場合
（Ｓ１０においてＮＯ）には、以降の処理は行わずに、
再びＳ１からの処理を始める。一方、Ｓ９において動作
が認識された場合（Ｓ１０においてＹＥＳ）には、認識
結果を情報処理装置８に出力する（Ｓ１１）。

【００８９】その後、動作認識処理の終了命令があった
かどうかが判断され（Ｓ１２）、終了命令がなかった場
合（Ｓ１２においてＮＯ）には、再びＳ１からの処理を
始め、終了命令があった場合（Ｓ１２においてＹＥＳ）
には、処理を終了する。

【００９０】以上で述べた実施の形態では、動画像の入
力から動作の認識までの処理が、全て同一時刻の入力画
像に対して行われることを前提としている。しかしなが
ら、システムの処理能力が不足しているなどの理由で、
全ての処理を１つの時刻に行うことができない場合に
は、領域統合部４による身体領域の候補を抽出するまで
の処理と、形状解析部５以降の処理とを別時刻の入力画
像に対して行うことも可能である。このことについて、
以下により詳しく説明する。

【００９１】例えば、時刻０に手の候補領域が抽出され
ると仮定する。そして、時刻０よりも後となる時刻１の
入力画像に対しては、まず式（１）に従って色度画像を
作成する。そして、この色度画像上に時刻０における候
補領域を投影し、投影領域内において、時刻０の肌色検
出条件によって肌色領域を検出する。これを手の候補領
域として、以降の形状解析、動作認識の処理を行う。す
なわち、時刻１においては、時刻０において領域統合部
４によって身体領域の候補として抽出された領域に基づ
いて、時刻１における入力画像における身体領域の候補
領域を設定し、この候補領域に対して、形状解析部５以
降の処理を行うことになる。

【００９２】以上のように、本実施形態に係る動作認識
システムは、動画入力装置７から毎時刻入力されるフレ
ーム画像データから、動き検出部２によって抽出された
動きのある領域と、肌色検出部３によって抽出された肌
色領域とに基づいて、領域統合部４によって対象領域を
抽出しているので、例えば従来の技術で示したように、
輝度情報や色情報のみによって対象領域を抽出する構成
と比較して、対象領域を、より的確にかつ高い信頼性で
もって抽出することができる。例えば、背景に対象を特
徴づける色と同じような色の領域がある場合でも、背景
は基本的に動かないものであるので、上記の動き検出手
段において対象領域の候補として抽出されないことにな
る。したがって、背景に暗幕をひくなどの特殊な環境に
する必要なく、対象を適切に抽出することが可能とな
る。

【００９３】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。

【００９４】また、上記の構成では、動きのある領域の
検出と肌色領域の検出とを行えばいいので、必要とする
画像データは、一般に用いられている可視画像データで
よいことになる。したがって、例えば赤外画像などの特
殊な画像データを入力することが可能な、高価格で大型
の画像入力装置を不要とすることができる。

【００９５】なお、以上説明した動作認識システムは、
動き検出部２、肌色検出部３、領域統合部４、形状解析
部５、および動作認識部６において行われる処理を、コ
ンピュータ上で実行可能なプログラムとして記述し、こ
のプログラムをコンピュータ上で実行することによって
も、実現することが可能である。このプログラムはコン
ピュータで読み取り可能な記録媒体に格納されることに
なる。この記録媒体としては、磁気テープやカセットテ
ープ等のテープ系、フロッピーディスクやハードディス
ク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶ
Ｄ等の光ディスクのディスク系、ＩＣカード（メモリカ
ードを含む）／光カード等のカード系、あるいはマスク
ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ
等による半導体メモリを含めた固定的にプログラムを担
持する媒体などが挙げられる。

【００９６】また、通信ネットワークからプログラムを
ダウンロードするように流動的にプログラムを担持する
媒体であってもよい。尚、このように通信ネットワーク
からプログラムをダウンロードする場合には、そのダウ
ンロード用プログラムは予め本体装置に格納しておく
か、あるいは別な記録媒体からインストールされるもの
であってもよい。

【００９７】また、記録媒体に格納されている内容とし
てはプログラムに限定されず、データであってもよい。

【００９８】

【発明の効果】以上のように、本発明に係る動作認識シ
ステムは、特定の対象の画像が含まれている時系列画像
データを処理することによって該対象の形状および動作
を認識する動作認識システムにおいて、上記時系列画像
データから動きのある領域を抽出する動き検出手段と、
上記時系列画像データから上記対象を特徴づける色を含
む領域を抽出する色検出手段と、上記動き検出手段およ
び上記色検出手段の検出結果に基づいて、動きのある領
域でかつ上記対象を特徴づける色を含む領域となる領域
を対象領域として抽出する領域統合手段とを備えている
構成である。

【００９９】これにより、対象領域を、より的確にかつ
高い信頼性でもって抽出することができるという効果を
奏する。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、上記の動き検出手段において対象領域の
候補として抽出されないことになる。したがって、背景
に暗幕をひくなどの特殊な環境にする必要なく、対象を
適切に抽出することが可能となるという効果を奏する。

【０１００】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができると同時
に、システムにおけるコストの低減を図ることができる
という効果を奏する。

【０１０１】また、必要とする画像データは、一般に用
いられている可視画像データでよいので、例えば赤外画
像などの特殊な画像データを入力することが可能な、高
価格で大型の画像入力装置を不要とすることができると
いう効果を奏する。

【０１０２】また、本発明に係る動作認識システムは、
上記動き検出手段が、上記時系列画像データにおける互
いに異なる時間の２つの画像データにおいて、各画素に
おける輝度値の差分を画素値とする差分画像を作成し、
この差分画像に基づいて動きのある領域を検出する構成
としてもよい。

【０１０３】これにより、上記の効果に加えて、動きの
ある領域を、的確に、かつ、少ない演算処理によって検
出することができるという効果を奏する。

【０１０４】また、本発明に係る動作認識システムは、
上記動き検出手段が、上記差分画像を所定の大きさのブ
ロック単位に分割し、各ブロックに含まれる画素の輝度
値の平均値あるいは積算値をブロック値とするブロック
画像を作成し、ブロック値が所定の閾値を越えるブロッ
クを連結することによって形成される領域の面積が所定
の範囲内にある領域を、動きのある領域として抽出する
構成としてもよい。

【０１０５】これにより、上記の効果に加えて、動いて
いる領域の中でも、ある程度広い範囲を占める領域のみ
を抽出することになる。よって、例えば背景において、
対象とは異なる小さな物体が動いている場合でも、これ
を対象となる領域の候補からはずすことができる。した
がって、対象となる領域の検出の精度を上げることが可
能となるという効果を奏する。

【０１０６】また、本発明に係る動作認識システムは、
上記色検出手段が、画像データにおいて、各色成分の画
素値が所定の条件を満たす画素領域を、対象を特徴づけ
る色を含む領域として抽出する構成としてもよい。

【０１０７】これにより、上記の効果に加えて、的確に
対象を特徴づける色を含む領域を検出することができる
という効果を奏する。また、各色成分に対する条件を適
宜変更することによって、背景や照明の変化にも適切に
対応することが可能となるという効果を奏する。

【０１０８】また、本発明に係る動作認識システムは、
上記色検出手段が、画像データにおいて、各色成分の画
素値が所定の条件を満たす画素領域で、かつ、その画素
領域を連結することによって形成される領域の形状およ
び面積が所定の条件を満たしている場合に、該領域を、
対象を特徴づける色を含む領域として抽出する構成とし
てもよい。

【０１０９】これにより、上記の効果に加えて、色の条
件のみならず、その領域の形状および面積をも考慮し
て、対象を特徴づける色を含む領域を検出することにな
る。よって、例えば、背景に、対象を特徴づける色と同
様の色からなる領域があったとしても、形状や面積によ
る条件によって、このような領域を候補から外すことが
可能となる。したがって、対象を特徴づける色を含む領
域の検出の精度を上げることが可能となるという効果を
奏する。

【０１１０】また、本発明に係る動作認識システムは、
対象を特徴づける色を含む領域を抽出する際に用いられ
る、各色成分の画素値に対する条件が、現時刻に到るま
での、対象を特徴づける色を含む領域の抽出結果に基づ
いて決定される構成としてもよい。

【０１１１】これにより、上記の効果に加えて、例え
ば、背景や照明の状態などの環境の変化が動作認識中に
生じたとしても、このような変化に応じて、各色成分の
画素値に対する条件を変化させることが可能となる。す
なわち、環境に変化が生じても、対象を特徴づける色を
含む領域の抽出の精度を維持することができるという効
果を奏する。

【０１１２】また、本発明に係る動作認識システムは、
上記領域統合手段が、さらに、所定の過去の時刻におい
て、領域統合手段によって対象領域として抽出された領
域で、かつ、現時刻における、対象を特徴づける色を含
む領域をも上記対象領域として抽出する構成としてもよ
い。

【０１１３】これにより、上記の効果に加えて、対象が
ほとんど動いていない状態の時でも、対象を対象領域と
して抽出することが可能となるという効果を奏する。

【０１１４】また、本発明に係る動作認識システムは、
上記領域統合手段によって抽出された対象領域の形状を
解析する形状解析手段をさらに備えている構成としても
よい。

【０１１５】これにより、上記の効果に加えて、対象領
域の形状の状態を、形状を示すある種のコードによって
認識することが可能となる。すなわち、多様に変化する
対象領域の形状を、複数のカテゴリーに分類することが
可能となるという効果を奏する。

【０１１６】また、本発明に係る動作認識システムは、
上記形状解析手段が、対象領域の輪郭線を所定の範囲の
長さからなる複数の直線で近似し、この直線の傾き、長
さ、位置関係によって対象領域の形状を認識する構成と
してもよい。

【０１１７】これにより、上記の効果に加えて、必要最
小限の形状解析を行うことができるという効果を奏す
る。

【０１１８】また、本発明に係る動作認識システムは、
上記形状解析手段によって解析された対象領域の形状
を、経時的に追跡することによって、対象領域の動きの
方向を認識する動作認識手段をさらに備えている構成と
してもよい。

【０１１９】これにより、上記の効果に加えて、対象領
域の動きの状態を、動きを示すある種のコードによって
認識することが可能となる。すなわち、多様に変化する
対象領域の動きを、複数のカテゴリーに分類することが
可能となるという効果を奏する。

【０１２０】また、本発明に係る動作認識システムは、
上記領域統合手段における対象領域の抽出と、上記形状
解析手段における形状の解析とを、それぞれ別時刻の画
像データに対して行う構成としてもよい。

【０１２１】これにより、上記の効果に加えて、１単位
時刻に行う処理量を低減することが可能となるので、演
算性能が若干劣るシステムにおいても、処理の停滞など
が生じることなく、円滑に処理を行うことが可能となる
という効果を奏する。

【０１２２】また、本発明に係る動作認識システムは、
上記対象が人間の手である構成としてもよい。

【０１２３】これにより、上記の効果に加えて、例え
ば、差し出す指の本数、およびその向き、さらに動きの
方向にそれぞれ意味を持たせ、これらを認識することに
よって、例えば外部に接続された情報処理装置などのシ
ステムに対して制御命令を送信するなどのインターフェ
ースとして機能させることが可能となる。これによっ
て、複雑な操作を使用者が覚えることなく、直観的な操
作によるユーザーインターフェースを実現することが可
能となるという効果を奏する。

【０１２４】また、本発明に係る動作認識プログラムを
記録した記録媒体は、特定の対象の画像が含まれている
時系列画像データを処理することによって該対象の形状
および動作を認識する動作認識プログラムを記録した記
録媒体において、上記時系列画像データから動きのある
領域を抽出する処理と、上記時系列画像データから上記
対象を特徴づける色を含む領域を抽出する処理と、上記
動き検出手段および上記色検出手段の検出結果に基づい
て、動きのある領域でかつ上記対象を特徴づける色を含
む領域となる領域を対象領域として抽出する処理とをコ
ンピュータに実行させるための動作認識プログラムを記
録している構成である。

【０１２５】これにより、対象領域を、より的確にかつ
高い信頼性でもって抽出することができるという効果を
奏する。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、動きのある領域として抽出されないこと
になる。したがって、背景に暗幕をひくなどの特殊な環
境にする必要なく、対象を適切に抽出することが可能と
なるという効果を奏する。

【０１２６】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができるととも
に、システムにおけるコストの低減を図ることができる
という効果を奏する。

【０１２７】また、必要とする画像データは、一般に用
いられている可視画像データでよいので、例えば赤外画
像などの特殊な画像データを入力することが可能な、高
価格で大型の画像入力装置を不要とすることができると
いう効果を奏する。

【図面の簡単な説明】

【図１】本発明の実施の一形態に係る動作認識システム
の概略構成を示すブロック図である。

【図２】上記動作認識システムにおいて行われる処理の
流れを示すフローチャートである。

【図３】同図（ａ）ないし（ｄ）は、上記動作認識シス
テムが備える動き検出部が、処理を行う上で作成する画
像を示す説明図である。

【図４】上記動作認識システムが備える領域統合部での
処理を模式的に示す説明図である。

【図５】同図（ａ）は、領域統合部において、身体領域
の候補として検出された領域を示す説明図であり、同図
（ｂ）は、同図（ａ）に示す領域を、肌色検出部におい
て作成された色度画像に投影した状態を示す説明図であ
る。

【図６】図５（ｂ）において破線で囲まれた領域に含ま
れる画素の各色度値に関して、各画素値に対する画素数
を毎時刻積算した結果に基づき、横軸に色度値、縦軸に
画素数をとって作成したヒストグラムである。

【図７】上記動作認識システムが備える形状解析部にお
いて行われる処理を示す説明図である。

【符号の説明】

１フレームメモリ２動き検出部（動き検出手段）３肌色検出部（色検出手段）４領域統合部（領域統合手段）５形状解析部（形状解析手段）６動作認識部（動作認識手段）７動画入力装置８情報処理装置

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C066 AA13 BA20 CA21 DA00 DC00 ED02 EF11 FA00 KD06 KE07 KM01 5L096 AA02 AA06 BA08 BA18 FA06 FA15 FA32 FA35 FA39 FA59 FA72 GA08 GA19 GA38 GA51 HA03 9A001 BB03 DD11 HH21 HH28 HH31 JJ71 KK54

Claims

【特許請求の範囲】

【請求項１】特定の対象の画像が含まれている時系列画
像データを処理することによって該対象の形状および動
作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動
き検出手段と、上記時系列画像データから上記対象を特徴づける色を含
む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基
づいて、動きのある領域でかつ上記対象を特徴づける色
を含む領域となる領域を対象領域として抽出する領域統
合手段とを備えていることを特徴とする動作認識システ
ム。
【請求項２】上記動き検出手段が、上記時系列画像デー
タにおける互いに異なる時間の２つの画像データにおい
て、各画素における輝度値の差分を画素値とする差分画
像を作成し、この差分画像に基づいて動きのある領域を
検出することを特徴とする請求項１記載の動作認識シス
テム。
【請求項３】上記動き検出手段が、上記差分画像を所定
の大きさのブロック単位に分割し、各ブロックに含まれ
る画素の輝度値の平均値あるいは積算値をブロック値と
するブロック画像を作成し、ブロック値が所定の閾値を
越えるブロックを連結することによって形成される領域
の面積が所定の範囲内にある領域を、動きのある領域と
して抽出することを特徴とする請求項２記載の動作認識
システム。
【請求項４】上記色検出手段が、画像データにおいて、
各色成分の画素値が所定の条件を満たす画素領域を、対
象を特徴づける色を含む領域として抽出することを特徴
とする請求項１記載の動作認識システム。
【請求項５】上記色検出手段が、画像データにおいて、
各色成分の画素値が所定の条件を満たす画素領域で、か
つ、その画素領域を連結することによって形成される領
域の形状および面積が所定の条件を満たしている場合
に、該領域を、対象を特徴づける色を含む領域として抽
出することを特徴とする請求項４記載の動作認識システ
ム。
【請求項６】対象を特徴づける色を含む領域を抽出する
際に用いられる、各色成分の画素値に対する条件が、現
時刻に到るまでの、対象を特徴づける色を含む領域の抽
出結果に基づいて決定されることを特徴とする請求項４
または５記載の動作認識システム。
【請求項７】上記領域統合手段が、さらに、所定の過去
の時刻において、領域統合手段によって対象領域として
抽出された領域で、かつ、現時刻における、対象を特徴
づける色を含む領域をも上記対象領域として抽出するこ
とを特徴とする請求項１記載の動作認識システム。
【請求項８】上記領域統合手段によって抽出された対象
領域の形状を解析する形状解析手段をさらに備えている
ことを特徴とする請求項１ないし７のいずれかに記載の
動作認識システム。
【請求項９】上記形状解析手段が、対象領域の輪郭線を
所定の範囲の長さからなる複数の直線で近似し、この直
線の傾き、長さ、位置関係によって対象領域の形状を認
識することを特徴とする請求項８記載の動作認識システ
ム。
【請求項１０】上記形状解析手段によって解析された対
象領域の形状を、経時的に追跡することによって、対象
領域の動きの方向を認識する動作認識手段をさらに備え
ていることを特徴とする請求項８または９記載の動作認
識システム。
【請求項１１】上記領域統合手段における対象領域の抽
出と、上記形状解析手段における形状の解析とを、それ
ぞれ別時刻の画像データに対して行うことを特徴とする
請求項８記載の動作認識システム。
【請求項１２】上記対象が人間の手であることを特徴と
する請求項１ないし１１のいずれかに記載の動作認識シ
ステム。
【請求項１３】特定の対象の画像が含まれている時系列
画像データを処理することによって該対象の形状および
動作を認識する動作認識プログラムを記録した記録媒体
において、上記時系列画像データから動きのある領域を抽出する処
理と、上記時系列画像データから上記対象を特徴づける色を含
む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基
づいて、動きのある領域でかつ上記対象を特徴づける色
を含む領域となる領域を対象領域として抽出する処理と
をコンピュータに実行させるための動作認識プログラム
を記録していることを特徴とするコンピュータが読み取
り可能な記録媒体。