JP2001016606A - 動作認識システムおよび動作認識プログラムを記録した記録媒体 - Google Patents

動作認識システムおよび動作認識プログラムを記録した記録媒体

Info

Publication number
JP2001016606A
JP2001016606A JP11184242A JP18424299A JP2001016606A JP 2001016606 A JP2001016606 A JP 2001016606A JP 11184242 A JP11184242 A JP 11184242A JP 18424299 A JP18424299 A JP 18424299A JP 2001016606 A JP2001016606 A JP 2001016606A
Authority
JP
Japan
Prior art keywords
area
region
motion
color
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11184242A
Other languages
English (en)
Other versions
JP3657463B2 (ja
Inventor
Michihiro Ono
通広 大野
Hiroyuki Akagi
宏之 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP18424299A priority Critical patent/JP3657463B2/ja
Publication of JP2001016606A publication Critical patent/JP2001016606A/ja
Application granted granted Critical
Publication of JP3657463B2 publication Critical patent/JP3657463B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Processing Of Color Television Signals (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 特定の対象の画像が含まれている時系列画像
データを処理することによって該対象の形状および動作
を認識する動作認識システムにおいて、対象の形状およ
び動作の検出の精度が高く、かつ、低コストの動作認識
システムを提供する。 【解決手段】 入力されたフレーム画像の時系列データ
から、動き検出部2によって動きのある領域を抽出し、
肌色検出部3によって肌色領域を抽出する。そして、領
域統合部4において、動きのある領域でかつ肌色領域と
なる領域を対象領域として抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば手などの画
像が含まれている時系列画像データを処理することによ
って、手の形状および動作を認識する動作認識システム
に関するものである。
【0002】
【従来の技術】従来、パーソナルコンピュータ等の情報
処理機器におけるユーザーインターフェースとして、キ
ー入力デバイスとしてのキーボードや、ポインティング
デバイスとしてのマウスなどが一般的に用いられてい
る。しかしながら、キーボードやマウスによる操作は、
ある程度のスキルを要求するため、初心者にとっては、
その操作が難しいという問題がある。
【0003】また、キーボードやマウスなどを使用する
場合、操作とそれに対するシステムの応答との関連を使
用者が記憶しておく必要がある。例えばキーボードにお
いては、CtrlキーやAltキーなどの機能を覚える
必要があったり、マウスにおいては、シングルクリック
とダブルクリックとの違いや、左ボタンと右ボタンとの
機能の違いなどを覚える必要がある。このような多種多
様の操作および機能を逐一覚えることは、初心者にとっ
て大きな負担となる。
【0004】そこで、近年では、簡単かつ直観的なユー
ザーインターフェースとして、人間の身体、すなわち、
身振りや手振りを利用しようとする試みが盛んに行われ
ている。身振りや手振りをユーザーインターフェースと
して利用するためには、カメラ等の入力デバイスによっ
て身体の姿勢、形状や動作に関する情報を入力し、入力
された情報を解析することによって身体情報の内容を認
識し、認識された動作に対して特定のコマンド等の意味
を持たせることが必要となる。
【0005】ここで、人間の身体を利用したユーザーイ
ンターフェースとして提案されている方法について以下
にその例を示す。電子情報通信学会論文誌 D-II Vol.J8
0-D-II No.6 pp.1571-1580(1997)「インタラクティブシ
ステム構築のための動画像からの実時間ジェスチャ認識
手法−仮想指揮システムへの応用−」(文献1)には、
CCDカメラによって撮影された画像から、腕部分を抽
出し、その動きの軌跡を解析することによって、実時間
でジェスチャを認識する方法が開示されている。また、
特開平2−144675号公報(文献2)には、指の各
関節毎に異なる色で塗り分けられた手袋を装着し、撮影
画像から手袋の色を手がかりに指の動きを認識する方法
が開示されている。
【0006】また、テレビジョン学会誌 Vol.48, No.8,
pp.960-965(1994) 「仮想環境実現のための基板技術」
(文献3)には、データグローブと呼ばれる手袋型のセ
ンサデバイスを用いて、手指の動きをコンピュータに入
力する方法が開示されている。また、映像情報(I) 1992
/9 pp.55-60 「赤外画像と可視画像による人物抽出」
(文献4)には、赤外画像と可視画像とを入力として用
い、赤外画像から人物候補領域を抽出し、さらに可視画
像において人物候補領域内の肌色領域を抽出することで
顔や手の位置を特定する方法が開示されている。
【0007】
【発明が解決しようとする課題】文献1に開示されてい
る方法のように、入力として可視画像を用いる場合、最
も難しい問題は、入力された画像から手や指等の認識対
象領域を抽出することである。手や指の抽出に関して
は、画像の輝度情報や色情報を利用して肌色領域を抽出
することによって実現する手法が一般的である。しかし
ながら、輝度情報や色情報は、背景に肌色に近い領域が
ある場合に、身体との区別が難しくなることや、照明状
態などの環境条件によって値が変動しやすいため、上記
の手法は、認識の安定性に欠けるという問題を有してい
る。
【0008】この問題を解決するために、例えば文献1
では、背景に暗幕を配置することによって対応する例が
示されており、このような特殊な環境下において実施す
る例は比較的多く提案されている。あるいは、例えば文
献2に開示されている方法のように、認識対象となる部
位に、マーカーとなるものを装着することによって検出
精度を高める例も多く提案されている。
【0009】また、文献3に開示されている方法のよう
に、データグローブのような動作入力専用のデバイスを
用いる場合には、手領域の抽出や動作情報の取得の安定
性に関する問題は考慮する必要がなくなる。しかしなが
ら、操作の前に動作入力用のデバイスを装着することの
煩わしさや、ユーザーインターフェースとしては高価な
ものとなるという問題があり、キーボードやマウスの代
用として利用するには困難な点も多い。
【0010】また、文献4に開示されている方法のよう
に、赤外画像を利用すれば、一般的な環境においては身
体と背景との温度差が大きいので、人間の身体領域の抽
出は容易となる。しかしながら、赤外画像を入力する装
置は、一般的に価格が高価であり、かつ、装置が大型と
なるものが多く、不法侵入者の監視などの特殊用途以外
には流用することが難しいので、一般家庭には普及しに
くいという問題がある。
【0011】本発明は上記の問題点を解決するためにな
されたもので、その目的は、特定の対象の画像が含まれ
ている時系列画像データを処理することによって該対象
の形状および動作を認識する動作認識システムにおい
て、対象の形状および動作の検出の精度が高く、かつ、
低コストの動作認識システムを提供することにある。
【0012】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明に係る動作認識システムは、特定の対象の
画像が含まれている時系列画像データを処理することに
よって該対象の形状および動作を認識する動作認識シス
テムにおいて、上記時系列画像データから動きのある領
域を抽出する動き検出手段と、上記時系列画像データか
ら上記対象を特徴づける色を含む領域を抽出する色検出
手段と、上記動き検出手段および上記色検出手段の検出
結果に基づいて、動きのある領域で、かつ上記対象を特
徴づける色を含む領域となる領域を対象領域として抽出
する領域統合手段とを備えていることを特徴としてい
る。
【0013】上記の構成によれば、時系列画像データか
ら、動き検出手段によって抽出された動きのある領域
と、色検出手段によって抽出された、動作認識対象を特
徴づける色を含む領域とに基づいて、領域統合手段によ
って対象領域を抽出しているので、例えば従来の技術で
示したように、輝度情報や色情報のみによって対象領域
を抽出する構成と比較して、対象領域を、より的確にか
つ高い信頼性でもって抽出することができる。例えば、
背景に対象を特徴づける色と同じような色の領域がある
場合でも、背景は基本的に動かないものであるので、上
記の動き検出手段において対象領域の候補として抽出さ
れないことになる。したがって、背景に暗幕をひくなど
の特殊な環境にする必要なく、対象を適切に抽出するこ
とが可能となる。
【0014】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。
【0015】また、上記の構成では、動きのある領域の
検出と、対象を特徴づける色を含む領域の検出を行えば
いいので、必要とする画像データは、一般に用いられて
いる可視画像データでよいことになる。したがって、例
えば赤外画像などの特殊な画像データを入力することが
可能な、高価格で大型の画像入力装置を不要とすること
ができる。
【0016】また、本発明に係る動作認識システムは、
上記の構成において、上記動き検出手段が、上記時系列
画像データにおける互いに異なる時間の2つの画像デー
タにおいて、各画素における輝度値の差分を画素値とす
る差分画像を作成し、この差分画像に基づいて動きのあ
る領域を検出する構成としてもよい。
【0017】上記の構成によれば、動き検出手段は、時
系列画像データにおける互いに異なる時間の2つの画像
データにおいて、各画素における輝度値の差分を画素値
とする差分画像に基づいて動きのある領域を検出するの
で、動きのある領域を、的確に、かつ、少ない演算処理
によって検出することができる。
【0018】また、本発明に係る動作認識システムは、
上記の構成において、上記動き検出手段が、上記差分画
像を所定の大きさのブロック単位に分割し、各ブロック
に含まれる画素の輝度値の平均値あるいは積算値をブロ
ック値とするブロック画像を作成し、ブロック値が所定
の閾値を越えるブロックを連結することによって形成さ
れる領域の面積が所定の範囲内にある領域を、動きのあ
る領域として抽出する構成としてもよい。
【0019】上記の構成によれば、動き検出手段は、上
記差分画像に基づいてブロック画像を作成し、ブロック
値が所定の閾値を越えるブロックを連結することによっ
て形成される領域の面積が所定の範囲内にある領域を、
動きのある領域として抽出するので、動いている領域の
中でも、ある程度広い範囲を占める領域のみを抽出する
ことになる。よって、例えば背景において、対象とは異
なる小さな物体が動いている場合でも、これを対象とな
る領域の候補からはずすことができる。したがって、対
象となる領域の検出の精度を上げることが可能となる。
【0020】また、本発明に係る動作認識システムは、
上記の構成において、上記色検出手段が、画像データに
おいて、各色成分の画素値が所定の条件を満たす画素領
域を、対象を特徴づける色を含む領域として抽出する構
成としてもよい。
【0021】上記の構成によれば、色検出手段は、各色
成分の画素値が所定の条件を満たす画素領域を、対象を
特徴づける色を含む領域として抽出するので、的確に対
象を特徴づける色を含む領域を検出することができる。
また、各色成分に対する条件を適宜変更することによっ
て、背景や照明の変化にも適切に対応することが可能と
なる。
【0022】また、本発明に係る動作認識システムは、
上記の構成において、上記色検出手段が、画像データに
おいて、各色成分の画素値が所定の条件を満たす画素領
域で、かつ、その画素領域を連結することによって形成
される領域の形状および面積が所定の条件を満たしてい
る場合に、該領域を、対象を特徴づける色を含む領域と
して抽出する構成としてもよい。
【0023】上記の構成によれば、色検出手段は、各色
成分の画素値が所定の条件を満たすとともに、その画素
領域を連結することによって形成される領域の形状およ
び面積が所定の条件を満たしている場合に、該領域を、
対象を特徴づける色を含む領域として抽出するので、色
の条件のみならず、その領域の形状および面積をも考慮
して、対象を特徴づける色を含む領域を検出することに
なる。よって、例えば、背景に、対象を特徴づける色と
同様の色からなる領域があったとしても、形状や面積に
よる条件によって、このような領域を候補から外すこと
が可能となる。したがって、対象を特徴づける色を含む
領域の検出の精度を上げることが可能となる。
【0024】また、本発明に係る動作認識システムは、
上記の構成において、対象を特徴づける色を含む領域を
抽出する際に用いられる、各色成分の画素値に対する条
件が、現時刻に到るまでの、対象を特徴づける色を含む
領域の抽出結果に基づいて決定される構成としてもよ
い。
【0025】上記の構成によれば、各色成分の画素値に
対する条件を、現時刻に到るまでの、対象を特徴づける
色を含む領域の抽出結果に基づいて決定するので、例え
ば、背景や照明の状態などの環境の変化が動作認識中に
生じたとしても、このような変化に応じて、各色成分の
画素値に対する条件を変化させることが可能となる。す
なわち、環境に変化が生じても、対象を特徴づける色を
含む領域の抽出の精度を維持することができる。
【0026】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段が、さらに、所
定の過去の時刻において、領域統合手段によって対象領
域として抽出された領域で、かつ、現時刻における、対
象を特徴づける色を含む領域をも上記対象領域として抽
出する構成としてもよい。
【0027】上記の構成によれば、領域統合手段は、現
時刻において動きのある領域でかつ上記対象を特徴づけ
る色を含む領域とともに、所定の過去の時刻において、
領域統合手段によって対象領域として抽出された領域
で、かつ、現時刻における、対象を特徴づける色を含む
領域をも上記対象領域として抽出するので、対象がほと
んど動いていない状態の時でも、対象を対象領域として
抽出することが可能となる。
【0028】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段によって抽出さ
れた対象領域の形状を解析する形状解析手段をさらに備
えている構成としてもよい。
【0029】上記の構成によれば、形状解析手段によっ
て、領域統合手段によって抽出された対象領域の形状を
解析することができるので、対象領域の形状の状態を、
形状を示すある種のコードによって認識することが可能
となる。すなわち、多様に変化する対象領域の形状を、
複数のカテゴリーに分類することが可能となる。
【0030】また、本発明に係る動作認識システムは、
上記の構成において、上記形状解析手段が、対象領域の
輪郭線を所定の範囲の長さからなる複数の直線で近似
し、この直線の傾き、長さ、位置関係によって対象領域
の形状を認識する構成としてもよい。
【0031】上記の構成によれば、形状解析手段は、対
象領域の輪郭線を所定の範囲の長さからなる複数の直線
で近似し、この直線の傾き、長さ、位置関係によって対
象領域の形状を認識するので、必要最小限の形状解析を
行うことができる。
【0032】また、本発明に係る動作認識システムは、
上記の構成において、上記形状解析手段によって解析さ
れた対象領域の形状を、経時的に追跡することによっ
て、対象領域の動きの方向を認識する動作認識手段をさ
らに備えている構成としてもよい。
【0033】上記の構成によれば、動作認識手段によっ
て、形状解析手段によって解析された対象領域の形状
を、経時的に追跡することによって、対象領域の動きの
方向を認識するので、対象領域の動きの状態を、動きを
示すある種のコードによって認識することが可能とな
る。すなわち、多様に変化する対象領域の動きを、複数
のカテゴリーに分類することが可能となる。
【0034】また、本発明に係る動作認識システムは、
上記の構成において、上記領域統合手段における対象領
域の抽出と、上記形状解析手段における形状の解析と
を、それぞれ別時刻の画像データに対して行う構成とし
てもよい。
【0035】上記の構成によれば、領域統合手段におけ
る対象領域の抽出と、形状解析手段における形状の解析
とを、それぞれ別時刻の画像データに対して行うので、
1単位時刻に行う処理量を低減することが可能となる。
よって、演算性能が若干劣るシステムにおいても、処理
の停滞などが生じることなく、円滑に処理を行うことが
可能となる。
【0036】また、本発明に係る動作認識システムは、
上記の構成において、上記対象が人間の手である構成と
してもよい。
【0037】上記の構成によれば、人間の手の領域を抽
出、形状解析、動作認識を行うことになるので、例え
ば、差し出す指の本数、およびその向き、さらに動きの
方向にそれぞれ意味を持たせ、これらを認識することに
よって、例えば外部に接続された情報処理装置などのシ
ステムに対して制御命令を送信するなどのインターフェ
ースとして機能させることが可能となる。これによっ
て、複雑な操作を使用者が覚えることなく、直観的な操
作によるユーザーインターフェースを実現することが可
能となる。
【0038】また、本発明に係る動作認識プログラムを
記録した記録媒体は、特定の対象の画像が含まれている
時系列画像データを処理することによって該対象の形状
および動作を認識する動作認識プログラムを記録した記
録媒体において、上記時系列画像データから動きのある
領域を抽出する処理と、上記時系列画像データから上記
対象を特徴づける色を含む領域を抽出する処理と、上記
動き検出手段および上記色検出手段の検出結果に基づい
て、動きのある領域でかつ上記対象を特徴づける色を含
む領域となる領域を対象領域として抽出する処理とをコ
ンピュータに実行させるための動作認識プログラムを記
録していることを特徴としている。
【0039】上記の構成によれば、時系列画像データか
ら、動きのある領域と動作認識対象を特徴づける色を含
む領域とに基づいて対象領域を抽出しているので、例え
ば従来の技術で示したように、輝度情報や色情報のみに
よって対象領域を抽出する構成と比較して、対象領域
を、より的確にかつ高い信頼性でもって抽出することが
できる。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、動きのある領域として抽出されないこと
になる。したがって、背景に暗幕をひくなどの特殊な環
境にする必要なく、対象を適切に抽出することが可能と
なる。
【0040】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。
【0041】また、上記の構成では、動きのある領域の
検出と、対象を特徴づける色を含む領域の検出を行えば
いいので、必要とする画像データは、一般に用いられて
いる可視画像データでよいことになる。したがって、例
えば赤外画像などの特殊な画像データを入力することが
可能な、高価格で大型の画像入力装置を不要とすること
ができる。
【0042】
【発明の実施の形態】本発明の実施の一形態について図
1ないし図7に基づいて説明すれば、以下のとおりであ
る。
【0043】図1は、本実施形態に係る動作認識システ
ムの概略構成を示すブロック図である。該動作認識シス
テムは、フレームメモリ1、動き検出部(動き検出手
段)2、肌色検出部(色検出手段)3、領域統合部(領
域統合手段)4、形状解析部(形状解析手段)5、およ
び動作認識部(動作認識手段)6を備えている。また、
図1に示すように、動作認識システムは、動画入力装置
7および情報処理装置8に接続されている。
【0044】動画入力装置7は、例えばCCD(Charge
Coupled Device) カメラによって構成される。このCC
Dカメラは、近年価格が急激に下落したことや、テレビ
会議システム、インターネットを介してのテレビ通話な
どの市場が拡大していることなどの理由によって、一般
的に広く普及する傾向にある。また、すでに一般に広く
普及しているビデオムービーカメラを動画入力装置7と
して用いることも可能である。このように、動画入力装
置7としては、可視画像を入力することが可能なもので
あればよいので、比較的安価な装置によって構成するこ
とができる。
【0045】情報処理装置8は、例えばパーソナルコン
ピュータなどによって構成され、種々の情報処理を行う
ものである。また、例えば、さらに他の装置の動作を制
御するためのコンピュータであってもよい。
【0046】以下に、上記動作認識システムが備える各
処理部に関して詳細に説明する。
【0047】フレームメモリ1は、動画入力装置7から
順次転送されるフレーム画像のデータを一時的に記憶す
るものである。このフレームメモリ1は、少なくとも2
フレーム分の画像を記憶可能な程度の記憶容量を持つも
のとし、新しいフレーム画像が入力されるときには、入
力時刻が最も早いフレーム画像を消去することによっ
て、記憶しているフレーム画像を順次更新していく。な
お、以降の処理量を軽減するために、フレーム画像を縮
小して記憶するようにしてもよい。
【0048】動き検出部2は、フレームメモリ1に記憶
されている2つのフレーム画像を比較することによっ
て、画像内において動いている動き領域の検出を行うも
のである。
【0049】この動き検出部2の検出動作において、動
画入力装置7の転送レートが高い場合、例えば1秒あた
り30フレーム程度となる場合には、動き領域の動く速
度が遅いと、連続する2時刻の画像間の差が極めて僅か
となるので、動き領域の検出ができなくなってしまう。
このような場合には、フレームメモリ1が、動画入力装
置7から出力される全てのフレーム画像を記憶せずに、
1フレームおき、あるいは2フレームおきに、フレーム
画像を記憶していけばよい。また、別の方法としては、
動き領域の動く速度が遅い場合にも画像間の差が生じる
ように、フレームメモリ1の記憶容量を十分に大きくす
ることによって対応してもよい。この場合には、動き検
出部2は、現時刻のフレーム画像と、フレームメモリ1
に記憶されているフレーム画像の中で最も早い時刻のフ
レーム画像との比較を行うことになる。
【0050】ここで、図3(a)ないし(d)を参照し
ながら、動き検出部3における作用について詳細に説明
する。動き検出部2は、まず、フレームメモリ1に記憶
されている2つのフレーム画像の各画素について、輝度
値に関する減算値の絶対値を各画素の値とする差分画像
を作成する。この差分画像の一例を図3(a)に示す。
なお、フレーム画像の表色形式がRGB形式である場合
には、計算量削減のために、簡略的にRGBの1つの要
素のみ(一般的にはG)の値を輝度値として用いてもよ
い。
【0051】次に、動き検出部2は、図3(b)に示す
ように、上記差分画像を所定の大きさのブロック単位に
分割する。例えば、差分画像の大きさが320×240
画素である場合、1ブロックの大きさを16×16画素
とすると、差分画像は、20×15ブロックからなる画
像となる。そして、各ブロック内に含まれる画素値の平
均値を各ブロックにおけるブロック値とし、このブロッ
ク値に基づいて、図3(c)に示すように、ブロック画
像を作成する。ここで、ブロック値が所定の閾値以下と
なっているブロックに対しては、そのブロックのブロッ
ク値を0とすることで、動作検出対象とは異なる微小な
動き領域を排除している。なお、図3(c)において
は、便宜的に、ブロック値の大きさを各ブロック内での
表示面積の大きさで表している。
【0052】なお、上記では、各ブロック内に含まれる
画素値の平均値を各ブロックにおけるブロック値として
いたが、これに限定されるものではなく、例えば、各ブ
ロック内に含まれる画素値の総和値をブロック値として
もよい。
【0053】次に、図3(d)に示すように、動き検出
部2は、図3(c)に示すブロック画像を2値化するこ
とによって、動きの大きい画素のみを検出する。この2
値化を行う際に用いられる閾値は、判別分析法等の手法
を用いてブロック画像の各ブロック値を分析することに
よって自動的に決定されるものとする。そして、2値化
された画像において、動きの大きい画素として検出され
たブロックが隣接している場合に、これらを連結させた
領域の面積を求める。この連結させた領域の面積が所定
の閾値を越える場合には、その領域を動きのある領域と
して抽出する。領域の面積に対する閾値は、例えば、ブ
ロック画像全体の面積の30分の1というように決定す
る。
【0054】以上のように、動き検出部2は、フレーム
メモリ1に記憶されている2つのフレーム画像の差分画
像からブロック画像を作成し、このブロック画像の解析
に基づいて、画像中の動きのある領域を抽出する動作を
行っている。
【0055】次に、肌色検出部3について詳細に説明す
る。肌色検出部3には、フレームメモリ1内に現時刻の
フレーム画像として記憶されている画像データが入力さ
れる。入力された画像データにおける各画素のRGB値
に対して、以下に示す変換を行うことによって正規化を
行い、色度画像を作成する。なお、正規化を行う意味
は、照明むらを除去し、色度成分のみを抽出することに
ある。
【0056】
【数1】
【0057】次に、正規化後の色度画像における各画素
に関して、肌色である条件を満たす画素を検出する。肌
色である条件は、式(1)の(r,g,b)に関して、
次の式(2)〜(6)のように表される。 rmin ≦r≦rmax (2) gmin ≦g≦gmax (3) bmin ≦b≦bmax (4) r>g (5) r>b (6)
【0058】ここで、rmin 、gmin 、bmin は、
(r,g,b)のそれぞれの値に対する最小値であり、
max 、gmax 、bmax は最大値を表している。これら
の最小値および最大値の決め方については後述する。
【0059】次に、肌色検出部3は、上記の動き検出部
2と同様に、上記の色度画像を複数のブロックに分割
し、各ブロック内で上記の肌色である条件を満たす画素
の数が所定の閾値を越えるときに、該ブロック値を1と
し、所定の閾値以下であるときに、該ブロック値を0と
するブロック画像を作成する。このブロック画像におけ
る各ブロックの大きさは、動き検出部2において作成し
たブロック画像における各ブロックの大きさと同じであ
るものとする。
【0060】続いて、動き検出部2と同様に、ブロック
画像において、ブロック値が1であるブロックのうち、
隣接するブロック同士を連結して、その連結領域の面積
を求める。この連結領域の面積が所定の閾値を越える場
合に、この領域を肌色領域の候補として抽出する。
【0061】さらに、肌色検出部3では、上記で肌色領
域の候補として抽出された領域の形状に関する解析を行
う。一般に、顔や手が表示されている領域は、ブロック
画像上では円形や楕円形に近い形となっている。これに
基づいて、領域の円形度を目安に肌色領域を絞り込むこ
とができる。領域の円形度Cは、該領域の周囲長をL、
面積をAとすると、次の式(7)によって求められる。 C=L2 /A (7)
【0062】この円形度Cの値が小さい程円に近いと判
定される。したがって、円形度Cが所定の閾値より小さ
い領域を肌色領域として抽出する。
【0063】肌色領域の大きさや形状は、連続するフレ
ームの間ではほとんど変化しないものである。したがっ
て、面積や形状に関する閾値は、適当な初期値を決めて
おき、以降は前時刻の検出結果に基づいて決定すること
ができる。つまり、面積の閾値に関しては、前時刻に近
傍で検出された領域の面積より若干小さい値とし、形状
の閾値に関しては、前時刻の円形度より少し大きい値と
すればよい。
【0064】次に、領域統合部4について詳細に説明す
る。領域統合部4には、動き検出部2で作成されたブロ
ック画像と、肌色検出部3で作成されたブロック画像が
入力される。領域統合部4は、動き検出部2によって検
出された動き領域と、肌色検出部3によって検出された
肌色領域とで重複する領域の面積が所定の閾値を越える
場合に、その領域を身体領域の候補として抽出するもの
である。この閾値としては、例えば、重複する領域の面
積が、肌色領域の3分の1であるという具合に決定すれ
ばよい。
【0065】また、身体部分にほとんど動きがない時刻
に対応するために、1時刻前の領域統合部4において身
体領域の候補として抽出した領域を記憶しておき、その
領域と現時刻の肌色領域との重複領域が所定の閾値を越
える場合にも、身体領域の候補として抽出する。
【0066】以上のような処理をまとめると、図4に示
すようになる。図4において、Aは、動き検出部2にお
いて動き領域として検出された領域、Bは、領域統合部
4において前時刻において身体領域の候補として検出さ
れた領域、Cは、肌色検出部3において肌色領域として
検出された領域をそれぞれ示している。領域統合部4で
は、AとBとが足し合わされた画像と、Cの画像とで重
複する領域を、図中Dで示す、動きのある肌色領域、す
なわち身体領域の候補として検出する。ここで、どの領
域も動きのある肌色領域として検出されなかった場合に
は、次のフレーム画像の入力処理に戻り、領域統合部4
以降の処理部における処理は行われない。
【0067】前記した肌色検出部3における肌色条件値
min 、gmin 、bmin 、rmax 、gmax 、bmax は、
領域統合部4における身体領域の候補として検出された
結果に基づいて更新される。このことについて、図5
(a)および(b)、ならびに図6を参照しながら、以
下に説明する。
【0068】図5(a)は、領域統合部4において、身
体領域の候補として検出された領域を示している。この
領域を、図5(b)に示すように、肌色検出部3におい
て作成された色度画像に投影すると、図中破線で囲まれ
た領域となる。この破線で囲まれた領域に含まれる画素
のr,g,bの各色度値に関して、各画素値に対する画
素数を毎時刻積算する。そして、この積算結果に基づい
て、横軸に色度値、縦軸に画素数をとったヒストグラム
を作成する。図6は、r成分に関するヒストグラムを示
している。
【0069】各色成分に対応したヒストグラムにおい
て、画素数のピーク値を検出し、そのピーク値が所定の
閾値を越えた場合に、上記の肌色条件値を更新する。こ
の閾値は、ヒストグラムのピーク値に対する割合が所定
の値となるように設定すればよい。図6においては、破
線で示した値がこの閾値を表している。そして、度数
が、設定された閾値以上になる色値の範囲を肌色範囲と
し、これに応じて、肌色条件値が決定される。すなわ
ち、図6においては、rmin およびrmax の値が決定さ
れる。
【0070】以上のように、肌色の検出条件を過去の検
出結果に基づいて決定すれば、照明条件などの微妙な変
化や、背景の変化などに適応することが可能となる。
【0071】次に、形状解析部5について詳細に説明す
る。形状解析部5は、領域統合部4で抽出された身体領
域の候補領域の形状を解析することによって、身体によ
って何が表現されているかを認識する。ここでは、対象
となる身体を手であるものとし、その手において示され
ている指の本数を特定することにする。
【0072】領域統合部4において抽出される手の候補
領域は、ブロック画像上の領域であるため、領域が小さ
い場合には、形状の詳細な部分が不明瞭となる。したが
って、以下のような方法によって形状の解析を行う。
【0073】まず、手の候補領域を、肌色検出部3にお
いて作成された色度画像に投影したときに、該候補領域
と重複する領域を抽出する。そして、その領域の内部に
おいて、前記した式(2)〜(6)の肌色条件を満たし
ている画素によって形成される形状領域を抽出し、この
形状領域に対して、孤立点の除去処理、穴埋め処理、輪
郭部分の平滑化処理などを行う。その結果、候補領域内
に複数の形状領域が抽出される場合もあるが、この場合
には、最も面積が大きい形状領域に対して、形状の解析
を行う。
【0074】形状の解析は、例えば以下の手順で行うこ
とができる。まず、抽出された形状領域から、その輪郭
線を抽出する。次に、抽出された輪郭線を、ある程度の
長さを有する複数の直線で近似する。これらの複数の直
線の中で、ほぼ同じ傾きを有する直線を輪郭直線として
選出する。この形状解析の具体例を図7に示す。
【0075】図7において、細線で示した部分が、抽出
された形状領域の輪郭線であり、L1ないしL6で示し
た太線が、選出された輪郭直線である。これらの輪郭直
線の中から、形状領域を挟んだ任意の2本の輪郭直線を
選択し、挟まれている領域の幅、長さ、面積、位置関係
などを調べることによって、指の領域や手のひらの領域
などを検出することができる。
【0076】例えば図7に示す例においては、輪郭直線
L2とL3とに挟まれている領域と、輪郭直線L4とL
5とに挟まれている領域とが、ほぼ同じ長さで同じ幅と
なっていることから、指の領域と推定することができ
る。また、これらの他には同様の領域が存在しないこと
から、指の本数は2本であることも推定できる。また、
輪郭直線L1とL6とで挟まれている領域は、上記の指
の領域と比較して、その面積がかなり大きいことから、
手のひらの領域と推定することができる。さらに、画像
領域において、指の領域が上方、手のひらの領域が下方
に位置することから、指は上向きに出されていることが
推定される。
【0077】以上のように、形状解析部5は、領域統合
部4で抽出された身体領域の候補領域から形状領域を抽
出し、この形状領域から得られる輪郭直線に基づいて、
身体がどのような形状となっているかを解析する。
【0078】次に、動作認識部6について詳細に説明す
る。動作認識部6は、認識された身体領域、例えば手の
領域の位置を毎時刻追跡することによって、動きの方向
を特定する。1時刻間には手の領域の位置は大きく変化
しないと仮定することができるので、現時刻の手の領域
と前時刻の手の領域との位置関係が近く、かつ指の本数
や向きが同じであれば、2つの手の領域の重心位置を結
ぶ直線の向きが動きの方向であるとみなすことができ
る。
【0079】一方、手を動画入力装置7に近づけていく
ような動作や、逆に遠ざけるような動作を行った場合に
は、重心位置はあまり変化しないことになる。しかしな
がら、動画入力装置7に近づけていくような動作を行っ
た場合には、手の領域の面積が増加し、逆に遠ざけるよ
うな動作を行った場合には、面積が減少することから動
作を特定することができる。
【0080】以上のようにして認識された指の本数や動
きの方向に何らかの意味付けをすることによって、動作
認識システムに接続された情報処理装置8を制御するた
めの様々な入力を行うことが可能となる。また、上記の
システムは、手の動きを追跡している間に、認識された
指の本数や特定された位置を、情報処理装置8に入力す
ることが可能となっている。したがって、例えばモニタ
上で手の動きの軌跡を表示することによって、使用者は
動作認識システムに認識されている動作の確認を行うこ
とができる。また、この機能を利用すれば、使用者に動
作入力のガイダンスを行うことも可能となる。
【0081】次に、図2に示すフローチャートを参照し
ながら、本実施形態に係る動作認識システムにおける処
理の流れを説明する。処理が開始されると、動画入力装
置7によって撮影されたフレーム画像が、フレームメモ
リ1に順に記憶される(ステップ1、以下、S1と称す
る)。
【0082】次に、フレームメモリ1に記憶されている
現時刻および前時刻の2つのフレーム画像に基づいて、
動き検出部2によって動き領域が検出される(S2)。
この際に、動き検出部2は、上記の2つのフレーム画像
の差分画像に基づいて複数のブロックからなるブロック
画像を作成し、このブロック画像に基づいて動き領域の
検出を行っている。
【0083】次に、フレームメモリ1に記憶されている
現時刻のフレーム画像に基づいて、肌色検出部3によっ
て肌色領域が検出される(S3)。この際に、肌色検出
部3は、現時刻のフレーム画像から色度画像を作成し、
この色度画像における各画素に対して肌色検出条件に基
づいてブロック画像として肌色領域を抽出するととも
に、領域の円形度を調べることによって身体領域として
の肌色領域を絞りこんでいる。
【0084】次に、領域統合部4において、動き検出部
2によって作成された動き領域に関するブロック画像
と、肌色検出部3によって作成された肌色領域に関する
ブロック画像とを統合する(S4)。そして、この統合
結果によって身体領域が検出された否かが判断される
(S5)。
【0085】身体領域が検出されなかった場合(S5に
おいてNO)には、以降の処理は行わずに、再びS1か
らの処理を始める。一方、身体領域が検出された場合
(S5においてYES)には、身体領域の各画素の色度
を検出し、色度値と画素数との関係を示すヒストグラム
に基づいて、肌色検出条件を更新する(S6)。
【0086】次に、形状解析部5において、上記の身体
領域を基に形状領域を作成し、この形状領域に基づいて
形状解析を行う(S7)。この形状解析においては、形
状領域の輪郭線を検出し、この輪郭線をある程度の長さ
を有する輪郭直線で近似し、この輪郭直線を解析するこ
とによって、手などの領域が解析される。
【0087】この形状解析部5において、手などの領域
が認識されなかった場合(S8においてNO)には、以
降の処理は行わずに、再びS1からの処理を始める。一
方、手などの領域が認識された場合(S8においてYE
S)には、動作認識部6において、上記で認識された手
などの領域の動作が認識される(S9)。
【0088】S9において動作が認識されなかった場合
(S10においてNO)には、以降の処理は行わずに、
再びS1からの処理を始める。一方、S9において動作
が認識された場合(S10においてYES)には、認識
結果を情報処理装置8に出力する(S11)。
【0089】その後、動作認識処理の終了命令があった
かどうかが判断され(S12)、終了命令がなかった場
合(S12においてNO)には、再びS1からの処理を
始め、終了命令があった場合(S12においてYES)
には、処理を終了する。
【0090】以上で述べた実施の形態では、動画像の入
力から動作の認識までの処理が、全て同一時刻の入力画
像に対して行われることを前提としている。しかしなが
ら、システムの処理能力が不足しているなどの理由で、
全ての処理を1つの時刻に行うことができない場合に
は、領域統合部4による身体領域の候補を抽出するまで
の処理と、形状解析部5以降の処理とを別時刻の入力画
像に対して行うことも可能である。このことについて、
以下により詳しく説明する。
【0091】例えば、時刻0に手の候補領域が抽出され
ると仮定する。そして、時刻0よりも後となる時刻1の
入力画像に対しては、まず式(1)に従って色度画像を
作成する。そして、この色度画像上に時刻0における候
補領域を投影し、投影領域内において、時刻0の肌色検
出条件によって肌色領域を検出する。これを手の候補領
域として、以降の形状解析、動作認識の処理を行う。す
なわち、時刻1においては、時刻0において領域統合部
4によって身体領域の候補として抽出された領域に基づ
いて、時刻1における入力画像における身体領域の候補
領域を設定し、この候補領域に対して、形状解析部5以
降の処理を行うことになる。
【0092】以上のように、本実施形態に係る動作認識
システムは、動画入力装置7から毎時刻入力されるフレ
ーム画像データから、動き検出部2によって抽出された
動きのある領域と、肌色検出部3によって抽出された肌
色領域とに基づいて、領域統合部4によって対象領域を
抽出しているので、例えば従来の技術で示したように、
輝度情報や色情報のみによって対象領域を抽出する構成
と比較して、対象領域を、より的確にかつ高い信頼性で
もって抽出することができる。例えば、背景に対象を特
徴づける色と同じような色の領域がある場合でも、背景
は基本的に動かないものであるので、上記の動き検出手
段において対象領域の候補として抽出されないことにな
る。したがって、背景に暗幕をひくなどの特殊な環境に
する必要なく、対象を適切に抽出することが可能とな
る。
【0093】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができる。同時
に、データグローブなどの接触型の入力装置は、一般的
に高価なものであるので、このような入力装置を不要と
することにより、システムにおけるコストの低減を図る
ことができる。
【0094】また、上記の構成では、動きのある領域の
検出と肌色領域の検出とを行えばいいので、必要とする
画像データは、一般に用いられている可視画像データで
よいことになる。したがって、例えば赤外画像などの特
殊な画像データを入力することが可能な、高価格で大型
の画像入力装置を不要とすることができる。
【0095】なお、以上説明した動作認識システムは、
動き検出部2、肌色検出部3、領域統合部4、形状解析
部5、および動作認識部6において行われる処理を、コ
ンピュータ上で実行可能なプログラムとして記述し、こ
のプログラムをコンピュータ上で実行することによって
も、実現することが可能である。このプログラムはコン
ピュータで読み取り可能な記録媒体に格納されることに
なる。この記録媒体としては、磁気テープやカセットテ
ープ等のテープ系、フロッピーディスクやハードディス
ク等の磁気ディスクやCD−ROM/MO/MD/DV
D等の光ディスクのディスク系、ICカード(メモリカ
ードを含む)/光カード等のカード系、あるいはマスク
ROM、EPROM、EEPROM、フラッシュROM
等による半導体メモリを含めた固定的にプログラムを担
持する媒体などが挙げられる。
【0096】また、通信ネットワークからプログラムを
ダウンロードするように流動的にプログラムを担持する
媒体であってもよい。尚、このように通信ネットワーク
からプログラムをダウンロードする場合には、そのダウ
ンロード用プログラムは予め本体装置に格納しておく
か、あるいは別な記録媒体からインストールされるもの
であってもよい。
【0097】また、記録媒体に格納されている内容とし
てはプログラムに限定されず、データであってもよい。
【0098】
【発明の効果】以上のように、本発明に係る動作認識シ
ステムは、特定の対象の画像が含まれている時系列画像
データを処理することによって該対象の形状および動作
を認識する動作認識システムにおいて、上記時系列画像
データから動きのある領域を抽出する動き検出手段と、
上記時系列画像データから上記対象を特徴づける色を含
む領域を抽出する色検出手段と、上記動き検出手段およ
び上記色検出手段の検出結果に基づいて、動きのある領
域でかつ上記対象を特徴づける色を含む領域となる領域
を対象領域として抽出する領域統合手段とを備えている
構成である。
【0099】これにより、対象領域を、より的確にかつ
高い信頼性でもって抽出することができるという効果を
奏する。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、上記の動き検出手段において対象領域の
候補として抽出されないことになる。したがって、背景
に暗幕をひくなどの特殊な環境にする必要なく、対象を
適切に抽出することが可能となるという効果を奏する。
【0100】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができると同時
に、システムにおけるコストの低減を図ることができる
という効果を奏する。
【0101】また、必要とする画像データは、一般に用
いられている可視画像データでよいので、例えば赤外画
像などの特殊な画像データを入力することが可能な、高
価格で大型の画像入力装置を不要とすることができると
いう効果を奏する。
【0102】また、本発明に係る動作認識システムは、
上記動き検出手段が、上記時系列画像データにおける互
いに異なる時間の2つの画像データにおいて、各画素に
おける輝度値の差分を画素値とする差分画像を作成し、
この差分画像に基づいて動きのある領域を検出する構成
としてもよい。
【0103】これにより、上記の効果に加えて、動きの
ある領域を、的確に、かつ、少ない演算処理によって検
出することができるという効果を奏する。
【0104】また、本発明に係る動作認識システムは、
上記動き検出手段が、上記差分画像を所定の大きさのブ
ロック単位に分割し、各ブロックに含まれる画素の輝度
値の平均値あるいは積算値をブロック値とするブロック
画像を作成し、ブロック値が所定の閾値を越えるブロッ
クを連結することによって形成される領域の面積が所定
の範囲内にある領域を、動きのある領域として抽出する
構成としてもよい。
【0105】これにより、上記の効果に加えて、動いて
いる領域の中でも、ある程度広い範囲を占める領域のみ
を抽出することになる。よって、例えば背景において、
対象とは異なる小さな物体が動いている場合でも、これ
を対象となる領域の候補からはずすことができる。した
がって、対象となる領域の検出の精度を上げることが可
能となるという効果を奏する。
【0106】また、本発明に係る動作認識システムは、
上記色検出手段が、画像データにおいて、各色成分の画
素値が所定の条件を満たす画素領域を、対象を特徴づけ
る色を含む領域として抽出する構成としてもよい。
【0107】これにより、上記の効果に加えて、的確に
対象を特徴づける色を含む領域を検出することができる
という効果を奏する。また、各色成分に対する条件を適
宜変更することによって、背景や照明の変化にも適切に
対応することが可能となるという効果を奏する。
【0108】また、本発明に係る動作認識システムは、
上記色検出手段が、画像データにおいて、各色成分の画
素値が所定の条件を満たす画素領域で、かつ、その画素
領域を連結することによって形成される領域の形状およ
び面積が所定の条件を満たしている場合に、該領域を、
対象を特徴づける色を含む領域として抽出する構成とし
てもよい。
【0109】これにより、上記の効果に加えて、色の条
件のみならず、その領域の形状および面積をも考慮し
て、対象を特徴づける色を含む領域を検出することにな
る。よって、例えば、背景に、対象を特徴づける色と同
様の色からなる領域があったとしても、形状や面積によ
る条件によって、このような領域を候補から外すことが
可能となる。したがって、対象を特徴づける色を含む領
域の検出の精度を上げることが可能となるという効果を
奏する。
【0110】また、本発明に係る動作認識システムは、
対象を特徴づける色を含む領域を抽出する際に用いられ
る、各色成分の画素値に対する条件が、現時刻に到るま
での、対象を特徴づける色を含む領域の抽出結果に基づ
いて決定される構成としてもよい。
【0111】これにより、上記の効果に加えて、例え
ば、背景や照明の状態などの環境の変化が動作認識中に
生じたとしても、このような変化に応じて、各色成分の
画素値に対する条件を変化させることが可能となる。す
なわち、環境に変化が生じても、対象を特徴づける色を
含む領域の抽出の精度を維持することができるという効
果を奏する。
【0112】また、本発明に係る動作認識システムは、
上記領域統合手段が、さらに、所定の過去の時刻におい
て、領域統合手段によって対象領域として抽出された領
域で、かつ、現時刻における、対象を特徴づける色を含
む領域をも上記対象領域として抽出する構成としてもよ
い。
【0113】これにより、上記の効果に加えて、対象が
ほとんど動いていない状態の時でも、対象を対象領域と
して抽出することが可能となるという効果を奏する。
【0114】また、本発明に係る動作認識システムは、
上記領域統合手段によって抽出された対象領域の形状を
解析する形状解析手段をさらに備えている構成としても
よい。
【0115】これにより、上記の効果に加えて、対象領
域の形状の状態を、形状を示すある種のコードによって
認識することが可能となる。すなわち、多様に変化する
対象領域の形状を、複数のカテゴリーに分類することが
可能となるという効果を奏する。
【0116】また、本発明に係る動作認識システムは、
上記形状解析手段が、対象領域の輪郭線を所定の範囲の
長さからなる複数の直線で近似し、この直線の傾き、長
さ、位置関係によって対象領域の形状を認識する構成と
してもよい。
【0117】これにより、上記の効果に加えて、必要最
小限の形状解析を行うことができるという効果を奏す
る。
【0118】また、本発明に係る動作認識システムは、
上記形状解析手段によって解析された対象領域の形状
を、経時的に追跡することによって、対象領域の動きの
方向を認識する動作認識手段をさらに備えている構成と
してもよい。
【0119】これにより、上記の効果に加えて、対象領
域の動きの状態を、動きを示すある種のコードによって
認識することが可能となる。すなわち、多様に変化する
対象領域の動きを、複数のカテゴリーに分類することが
可能となるという効果を奏する。
【0120】また、本発明に係る動作認識システムは、
上記領域統合手段における対象領域の抽出と、上記形状
解析手段における形状の解析とを、それぞれ別時刻の画
像データに対して行う構成としてもよい。
【0121】これにより、上記の効果に加えて、1単位
時刻に行う処理量を低減することが可能となるので、演
算性能が若干劣るシステムにおいても、処理の停滞など
が生じることなく、円滑に処理を行うことが可能となる
という効果を奏する。
【0122】また、本発明に係る動作認識システムは、
上記対象が人間の手である構成としてもよい。
【0123】これにより、上記の効果に加えて、例え
ば、差し出す指の本数、およびその向き、さらに動きの
方向にそれぞれ意味を持たせ、これらを認識することに
よって、例えば外部に接続された情報処理装置などのシ
ステムに対して制御命令を送信するなどのインターフェ
ースとして機能させることが可能となる。これによっ
て、複雑な操作を使用者が覚えることなく、直観的な操
作によるユーザーインターフェースを実現することが可
能となるという効果を奏する。
【0124】また、本発明に係る動作認識プログラムを
記録した記録媒体は、特定の対象の画像が含まれている
時系列画像データを処理することによって該対象の形状
および動作を認識する動作認識プログラムを記録した記
録媒体において、上記時系列画像データから動きのある
領域を抽出する処理と、上記時系列画像データから上記
対象を特徴づける色を含む領域を抽出する処理と、上記
動き検出手段および上記色検出手段の検出結果に基づい
て、動きのある領域でかつ上記対象を特徴づける色を含
む領域となる領域を対象領域として抽出する処理とをコ
ンピュータに実行させるための動作認識プログラムを記
録している構成である。
【0125】これにより、対象領域を、より的確にかつ
高い信頼性でもって抽出することができるという効果を
奏する。例えば、背景に対象を特徴づける色と同じよう
な色の領域がある場合でも、背景は基本的に動かないも
のであるので、動きのある領域として抽出されないこと
になる。したがって、背景に暗幕をひくなどの特殊な環
境にする必要なく、対象を適切に抽出することが可能と
なるという効果を奏する。
【0126】また、データグローブなどの接触型の入力
装置を必要としないので、手などに特殊な装置を装着す
るなどの煩わしい作業を不要とすることができるととも
に、システムにおけるコストの低減を図ることができる
という効果を奏する。
【0127】また、必要とする画像データは、一般に用
いられている可視画像データでよいので、例えば赤外画
像などの特殊な画像データを入力することが可能な、高
価格で大型の画像入力装置を不要とすることができると
いう効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係る動作認識システム
の概略構成を示すブロック図である。
【図2】上記動作認識システムにおいて行われる処理の
流れを示すフローチャートである。
【図3】同図(a)ないし(d)は、上記動作認識シス
テムが備える動き検出部が、処理を行う上で作成する画
像を示す説明図である。
【図4】上記動作認識システムが備える領域統合部での
処理を模式的に示す説明図である。
【図5】同図(a)は、領域統合部において、身体領域
の候補として検出された領域を示す説明図であり、同図
(b)は、同図(a)に示す領域を、肌色検出部におい
て作成された色度画像に投影した状態を示す説明図であ
る。
【図6】図5(b)において破線で囲まれた領域に含ま
れる画素の各色度値に関して、各画素値に対する画素数
を毎時刻積算した結果に基づき、横軸に色度値、縦軸に
画素数をとって作成したヒストグラムである。
【図7】上記動作認識システムが備える形状解析部にお
いて行われる処理を示す説明図である。
【符号の説明】
1 フレームメモリ 2 動き検出部(動き検出手段) 3 肌色検出部(色検出手段) 4 領域統合部(領域統合手段) 5 形状解析部(形状解析手段) 6 動作認識部(動作認識手段) 7 動画入力装置 8 情報処理装置
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5C066 AA13 BA20 CA21 DA00 DC00 ED02 EF11 FA00 KD06 KE07 KM01 5L096 AA02 AA06 BA08 BA18 FA06 FA15 FA32 FA35 FA39 FA59 FA72 GA08 GA19 GA38 GA51 HA03 9A001 BB03 DD11 HH21 HH28 HH31 JJ71 KK54

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】特定の対象の画像が含まれている時系列画
    像データを処理することによって該対象の形状および動
    作を認識する動作認識システムにおいて、 上記時系列画像データから動きのある領域を抽出する動
    き検出手段と、 上記時系列画像データから上記対象を特徴づける色を含
    む領域を抽出する色検出手段と、 上記動き検出手段および上記色検出手段の検出結果に基
    づいて、動きのある領域でかつ上記対象を特徴づける色
    を含む領域となる領域を対象領域として抽出する領域統
    合手段とを備えていることを特徴とする動作認識システ
    ム。
  2. 【請求項2】上記動き検出手段が、上記時系列画像デー
    タにおける互いに異なる時間の2つの画像データにおい
    て、各画素における輝度値の差分を画素値とする差分画
    像を作成し、この差分画像に基づいて動きのある領域を
    検出することを特徴とする請求項1記載の動作認識シス
    テム。
  3. 【請求項3】上記動き検出手段が、上記差分画像を所定
    の大きさのブロック単位に分割し、各ブロックに含まれ
    る画素の輝度値の平均値あるいは積算値をブロック値と
    するブロック画像を作成し、ブロック値が所定の閾値を
    越えるブロックを連結することによって形成される領域
    の面積が所定の範囲内にある領域を、動きのある領域と
    して抽出することを特徴とする請求項2記載の動作認識
    システム。
  4. 【請求項4】上記色検出手段が、画像データにおいて、
    各色成分の画素値が所定の条件を満たす画素領域を、対
    象を特徴づける色を含む領域として抽出することを特徴
    とする請求項1記載の動作認識システム。
  5. 【請求項5】上記色検出手段が、画像データにおいて、
    各色成分の画素値が所定の条件を満たす画素領域で、か
    つ、その画素領域を連結することによって形成される領
    域の形状および面積が所定の条件を満たしている場合
    に、該領域を、対象を特徴づける色を含む領域として抽
    出することを特徴とする請求項4記載の動作認識システ
    ム。
  6. 【請求項6】対象を特徴づける色を含む領域を抽出する
    際に用いられる、各色成分の画素値に対する条件が、現
    時刻に到るまでの、対象を特徴づける色を含む領域の抽
    出結果に基づいて決定されることを特徴とする請求項4
    または5記載の動作認識システム。
  7. 【請求項7】上記領域統合手段が、さらに、所定の過去
    の時刻において、領域統合手段によって対象領域として
    抽出された領域で、かつ、現時刻における、対象を特徴
    づける色を含む領域をも上記対象領域として抽出するこ
    とを特徴とする請求項1記載の動作認識システム。
  8. 【請求項8】上記領域統合手段によって抽出された対象
    領域の形状を解析する形状解析手段をさらに備えている
    ことを特徴とする請求項1ないし7のいずれかに記載の
    動作認識システム。
  9. 【請求項9】上記形状解析手段が、対象領域の輪郭線を
    所定の範囲の長さからなる複数の直線で近似し、この直
    線の傾き、長さ、位置関係によって対象領域の形状を認
    識することを特徴とする請求項8記載の動作認識システ
    ム。
  10. 【請求項10】上記形状解析手段によって解析された対
    象領域の形状を、経時的に追跡することによって、対象
    領域の動きの方向を認識する動作認識手段をさらに備え
    ていることを特徴とする請求項8または9記載の動作認
    識システム。
  11. 【請求項11】上記領域統合手段における対象領域の抽
    出と、上記形状解析手段における形状の解析とを、それ
    ぞれ別時刻の画像データに対して行うことを特徴とする
    請求項8記載の動作認識システム。
  12. 【請求項12】上記対象が人間の手であることを特徴と
    する請求項1ないし11のいずれかに記載の動作認識シ
    ステム。
  13. 【請求項13】特定の対象の画像が含まれている時系列
    画像データを処理することによって該対象の形状および
    動作を認識する動作認識プログラムを記録した記録媒体
    において、 上記時系列画像データから動きのある領域を抽出する処
    理と、 上記時系列画像データから上記対象を特徴づける色を含
    む領域を抽出する処理と、 上記動き検出手段および上記色検出手段の検出結果に基
    づいて、動きのある領域でかつ上記対象を特徴づける色
    を含む領域となる領域を対象領域として抽出する処理と
    をコンピュータに実行させるための動作認識プログラム
    を記録していることを特徴とするコンピュータが読み取
    り可能な記録媒体。
JP18424299A 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体 Expired - Lifetime JP3657463B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18424299A JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18424299A JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001016606A true JP2001016606A (ja) 2001-01-19
JP3657463B2 JP3657463B2 (ja) 2005-06-08

Family

ID=16149880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18424299A Expired - Lifetime JP3657463B2 (ja) 1999-06-29 1999-06-29 動作認識システムおよび動作認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3657463B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251615A (ja) * 2001-02-22 2002-09-06 Sony Corp 画像処理装置及び方法並びにロボット装置及びその制御方法
JP2005032250A (ja) * 2003-07-08 2005-02-03 Thomson Licensing Sa 顔を検出する処理方法及び画像中の顔の検出装置
JP2006343953A (ja) * 2005-06-08 2006-12-21 Canon Inc 画像処理方法、画像処理装置
JP2010166263A (ja) * 2009-01-14 2010-07-29 Canon Inc 画像処理装置および画像処理方法、ならびにプログラム
JP2010170300A (ja) * 2009-01-22 2010-08-05 Topseed Technology Corp ジェスチャを認識および追跡する方法
JP2010226709A (ja) * 2009-02-26 2010-10-07 Nikon Corp 被写体追尾装置及び撮像装置
US7973833B2 (en) 2006-07-25 2011-07-05 Fujifilm Corporation System for and method of taking image and computer program
JP2012133587A (ja) * 2010-12-21 2012-07-12 Canon Inc 画像解析装置、画像解析方法及びプログラム
JP2012212373A (ja) * 2011-03-31 2012-11-01 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム
JP2013020311A (ja) * 2011-07-07 2013-01-31 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2016521894A (ja) * 2013-06-14 2016-07-25 クアルコム,インコーポレイテッド 検出されたジェスチャーに基づいてデバイス動作を実行するためのシステムおよび方法
JP2016152467A (ja) * 2015-02-17 2016-08-22 株式会社Jvcケンウッド 追尾装置、追尾方法及び追尾プログラム
JP2018037041A (ja) * 2016-09-02 2018-03-08 富士通株式会社 生体画像処理装置、生体画像処理方法、および生体画像処理プログラム
KR101874471B1 (ko) 2016-11-07 2018-07-04 광주과학기술원 객체 검색 후보 영역을 개선하기 위한 방법, 컴퓨터-판독가능 저장 매체 및 장치
JP2018128885A (ja) * 2017-02-09 2018-08-16 グローリー株式会社 顔検出装置、顔検出方法、顔検出プログラム、及び対象物検出装置
EP3518146A1 (en) * 2010-11-05 2019-07-31 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2020508511A (ja) * 2017-12-22 2020-03-19 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 動的ジェスチャ認識方法および装置、ジェスチャ対話制御方法および装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4618470B2 (ja) * 2001-02-22 2011-01-26 ソニー株式会社 画像処理装置及び方法並びにロボット装置及びその制御方法
JP2002251615A (ja) * 2001-02-22 2002-09-06 Sony Corp 画像処理装置及び方法並びにロボット装置及びその制御方法
JP2005032250A (ja) * 2003-07-08 2005-02-03 Thomson Licensing Sa 顔を検出する処理方法及び画像中の顔の検出装置
JP4658532B2 (ja) * 2003-07-08 2011-03-23 トムソン ライセンシング 顔を検出する処理方法及び画像中の顔の検出装置
JP4745724B2 (ja) * 2005-06-08 2011-08-10 キヤノン株式会社 画像処理方法、画像処理装置
JP2006343953A (ja) * 2005-06-08 2006-12-21 Canon Inc 画像処理方法、画像処理装置
US7973833B2 (en) 2006-07-25 2011-07-05 Fujifilm Corporation System for and method of taking image and computer program
US8525903B2 (en) 2006-07-25 2013-09-03 Fujifilm Corporation System for and method of taking image and computer program
JP2010166263A (ja) * 2009-01-14 2010-07-29 Canon Inc 画像処理装置および画像処理方法、ならびにプログラム
JP2010170300A (ja) * 2009-01-22 2010-08-05 Topseed Technology Corp ジェスチャを認識および追跡する方法
JP2010226709A (ja) * 2009-02-26 2010-10-07 Nikon Corp 被写体追尾装置及び撮像装置
US10417503B2 (en) 2010-11-05 2019-09-17 Canon Kabushiki Kaisha Image processing apparatus and image processing method
EP3518146A1 (en) * 2010-11-05 2019-07-31 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2012133587A (ja) * 2010-12-21 2012-07-12 Canon Inc 画像解析装置、画像解析方法及びプログラム
JP2012212373A (ja) * 2011-03-31 2012-11-01 Casio Comput Co Ltd 画像処理装置、画像処理方法及びプログラム
JP2013020311A (ja) * 2011-07-07 2013-01-31 Fujitsu Ltd 画像処理装置、画像処理方法及び画像処理プログラム
JP2016521894A (ja) * 2013-06-14 2016-07-25 クアルコム,インコーポレイテッド 検出されたジェスチャーに基づいてデバイス動作を実行するためのシステムおよび方法
JP2016152467A (ja) * 2015-02-17 2016-08-22 株式会社Jvcケンウッド 追尾装置、追尾方法及び追尾プログラム
JP2018037041A (ja) * 2016-09-02 2018-03-08 富士通株式会社 生体画像処理装置、生体画像処理方法、および生体画像処理プログラム
KR101874471B1 (ko) 2016-11-07 2018-07-04 광주과학기술원 객체 검색 후보 영역을 개선하기 위한 방법, 컴퓨터-판독가능 저장 매체 및 장치
JP2018128885A (ja) * 2017-02-09 2018-08-16 グローリー株式会社 顔検出装置、顔検出方法、顔検出プログラム、及び対象物検出装置
JP2020508511A (ja) * 2017-12-22 2020-03-19 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 動的ジェスチャ認識方法および装置、ジェスチャ対話制御方法および装置
US11221681B2 (en) 2017-12-22 2022-01-11 Beijing Sensetime Technology Development Co., Ltd Methods and apparatuses for recognizing dynamic gesture, and control methods and apparatuses using gesture interaction

Also Published As

Publication number Publication date
JP3657463B2 (ja) 2005-06-08

Similar Documents

Publication Publication Date Title
WO2021115181A1 (zh) 手势识别方法、手势控制方法、装置、介质与终端设备
JP3657463B2 (ja) 動作認識システムおよび動作認識プログラムを記録した記録媒体
US20190346932A1 (en) Motion-Assisted Visual Language for Human Computer Interfaces
KR101514169B1 (ko) 정보 처리 장치, 정보 처리 방법 및 기록 매체
RU2439653C2 (ru) Виртуальный контроллер для визуальных отображений
EP2577426B1 (en) Information processing apparatus and method and program
US8525876B2 (en) Real-time embedded vision-based human hand detection
US9256324B2 (en) Interactive operation method of electronic apparatus
US8897490B2 (en) Vision-based user interface and related method
US20140198031A1 (en) Palm gesture recognition method and device as well as human-machine interaction method and apparatus
WO2012036790A1 (en) Gesture recognition system for tv control
CN103488294B (zh) 一种基于用户交互习惯的非接触手势控制映射调整方法
JP2007316882A (ja) 遠隔操作装置及び方法
CN113014846B (zh) 一种视频采集控制方法、电子设备、计算机可读存储介质
Saboo et al. Vision based two-level hand tracking system for dynamic hand gestures in indoor environment
WO2005055143A1 (ja) 人物顔の頭頂部検出方法及び頭頂部検出システム並びに頭頂部検出プログラム
Kawato et al. Scale-adaptive face detection and tracking in real time with SSR filters and support vector machine
CN111986229A (zh) 视频目标检测方法、装置及计算机系统
WO2024034924A1 (ko) 스테레오 카메라 기반의 시선 추적을 이용한 포인팅 방법 및 시스템
Brancati et al. Robust fingertip detection in egocentric vision under varying illumination conditions
JP6971788B2 (ja) 画面表示制御方法および画面表示制御システム
CN115951783A (zh) 一种基于手势识别的计算机人机交互方法
Li Vision based gesture recognition system with high accuracy
Ghosh et al. Real-time 3d markerless multiple hand detection and tracking for human computer interaction applications
CN113192127A (zh) 一种图像处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050309

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080318

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130318

Year of fee payment: 8