JP2003216955A

JP2003216955A - ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体

Info

Publication number: JP2003216955A
Application number: JP2002013677A
Authority: JP
Inventors: Michiaki Mukai; 理朗向井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-01-23
Filing date: 2002-01-23
Publication date: 2003-07-31

Abstract

(57)【要約】【課題】人物のジェスチャの認識範囲を限定すること
ができるジェスチャ認識方法、ジェスチャ認識装置、対
話装置及びジェスチャ認識プログラムを記録した記録媒
体を提供する。【解決手段】ジェスチャ認識装置は、動画像データを
入力する画像入力部１１と、肌色領域を抽出する肌色抽
出部１６と、各領域に対して顔形状のテンプレートを用
いて顔らしさを算出するテンプレートマッチング部１７
と、算出された顔領域の横幅、縦長さ、面積などを用い
て人物のジェスチャの起こりうる範囲を限定する認識空
間推定部１８と、限定された全ての範囲からジェスチャ
認識に必要な特徴ベクトルを抽出する特徴量抽出部１２
と、特徴ベクトルの履歴情報を格納する履歴格納部１４
と、抽出された特徴ベクトルと格納されている特徴ベク
トルの履歴情報を用いてあらかじめ用意されている標準
パターンとのマッチング処理を行うパターンマッチング
部１３と、パターンマッチング部１３による判定結果を
出力する出力部１５とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ビデオカメラ等で
撮影した動画像からジェスチャの意味内容をコンピュー
タにより認識するためのジェスチャ認識方法、ジェスチ
ャ認識装置及びジェスチャ認識プログラム、並びにユー
ザと機械との間で自然な対話を実現するジェスチャ認識
装置を含む対話装置に関する。

【０００２】

【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ（以下、ＰＣという）等
の機器に搭載されつつある。音声認識装置は通常それぞ
れの機器の一部として内蔵されている。この音声認識装
置、手書き文字認識装置、マウス、ライトペン、タブレ
ット等のポインティングデバイスなど、複数の入力装置
をコンピュータに接続して、ユーザがその局面局面にお
いて自分にとって最も都合の良い入力装置を使って入力
できれば非常に使いやすいインタフェースとなる。この
ように複数の異なる入力モードから、ユーザが任意の入
力モードを選択し、組み合わせて自分の意図をシステム
に伝えることができるインタフェースのことをマルチモ
ーダルインタフェースという。

【０００３】また、人間のジェスチャ（身振り手振り）
を認識する技術は、柔軟なマンマシンインタフェースを
構築する上で重要である。特に動作者にデータグローブ
等の接触型センサを装着させること無く、動作を捕らえ
るジェスチャ認識が試みられている。すでにＨＭＭ（Hi
dden Markov Model）や連続ＤＰ（Continuous Dynamic
Programming）などを用いたジェスチャ認識方法が提案
されている。

【０００４】例えば、特開平１０−１６２１５１号公報
には、さまざまな照明条件下で連続ＤＰを用いて認識す
る方法が開示されている。しかし、上記公報記載のジェ
スチャ認識方法は、１名のジェスチャを認識することに
限定されたものであった。複数人物が計算機と音声や身
振りで対話するマルチモーダル対話と呼ぶ方法が重要に
なっている。特開平１０−１４９４４７号公報には、特
殊なカメラを用いて複数人物のジェスチャを同時に認識
する方法が開示されている。このジェスチャ認識方法で
は、あらかじめユーザがどこにいて、どれくらいの認識
空間を用意すればいいのかわかっている必要があった。

【０００５】

【発明が解決しようとする課題】上述したように、特開
平１０−１６２１５１号公報記載のジェスチャ認識方法
では、１名のジェスチャしか認識できないという問題点
がある。また、特開平１０−１４９４４７号公報記載の
ジェスチャ認識方法では、複数の人物のジェスチャを同
時に認識できるものの、人物の存在する場所は事前に教
示する必要があり、認識システムが稼動中にユーザが移
動すると正しく認識できなくなるという問題点があっ
た。すなわち、入力画像中に複数のユーザが存在し、入
力画像内を動き回る可能性がある状態であってもユーザ
のジェスチャを安定して認識することが必要である。

【０００６】本発明は、このような課題に鑑みてなされ
たものであって、人物のジェスチャの認識範囲を限定す
ることができるジェスチャ認識方法、ジェスチャ認識装
置、対話装置及びジェスチャ認識プログラムを記録した
記録媒体を提供することを目的としている。

【０００７】

【課題を解決するための手段】本発明のジェスチャ認識
方法は、動画像から人物のジェスチャを認識するジェス
チャ認識方法であって、動画像を入力するステップと、
前記動画像から肌色部分を抽出するステップと、前記抽
出された肌色部分をあらかじめ用意された顔のテンプレ
ートと照合して顔部分を抽出する顔抽出ステップと、前
記抽出された顔部分の横幅、縦長さ、又は面積のうち少
なくとも一つに基づいて、前記人物のジェスチャ範囲を
設定するステップとを有することを特徴としている。さ
らに、前記入力された動画像から前記ジェスチャ範囲に
おけるジェスチャ特徴ベクトルを抽出し、該抽出した特
徴ベクトルを用いて人物のジェスチャを認識するジェス
チャ認識ステップを有することを特徴とする。

【０００８】請求項１又は２の発明によれば、顔の大き
さを基準に身体の大きさを推定し、認識すべきジェスチ
ャが発生しうる領域を限定する。その方法として、まず
入力画像から肌色情報で顔の存在位置を推定する。次に
顔の形のテンプレートを使って顔以外の肌色部分を除去
する。このとき顔の大きさをあらわすパラメータ（横
幅、縦、面積など）のうち少なくとも一つを使って身体
の大きさを推定することができ、ジェスチャの範囲を限
定することができる。

【０００９】また、前記抽出された肌色部分の大きさ
が、所定範囲外である場合には、顔の候補から除外する
ステップを有することで、抽出された肌色領域のうち、
所定の大きさ範囲以外の場合には領域にはジェスチャを
認識する必要の無い部分として削除することができる。
また、前記顔抽出ステップでは、顔のテンプレートの大
きさが可変であることで、顔の形のテンプレートを顔の
大きさをあらわすパラメータ（横幅、縦、面積など）に
よってその大きさを変えられるようにすることができ
る。

【００１０】また、前記抽出された顔部分の移動情報を
移動履歴として記憶するステップを有し、前記ジェスチ
ャ認識ステップでは、前記移動履歴を用いて人物のジェ
スチャを認識するものであってもよい。例えば、顔の位
置の移動履歴と大きさ履歴を作成し、ジェスチャを認識
するための特徴ベクトルの一つとするようにする。

【００１１】本発明のジェスチャ認識装置は、動画像か
ら人物のジェスチャを認識するジェスチャ認識装置であ
って、動画像を入力する入力手段と、前記動画像から肌
色部分を抽出する肌色抽出手段と、前記抽出された肌色
部分をあらかじめ用意された顔のテンプレートと照合し
て顔部分を抽出する顔抽出手段と、前記抽出された顔部
分の横幅、縦長さ、又は面積のうち少なくとも一つに基
づいて、前記人物のジェスチャ範囲を設定するジェスチ
ャ範囲設定手段と、前記入力された動画像から前記ジェ
スチャ範囲におけるジェスチャ特徴ベクトルを抽出し、
該抽出した特徴ベクトルを用いて人物のジェスチャを認
識するジェスチャ認識手段とを備えることを特徴してい
る。

【００１２】また、前記抽出された肌色部分の大きさ
が、所定範囲外である場合には、顔の候補から除外する
除去手段をさらに備えるものであってもよく、また、前
記顔抽出手段は、顔のテンプレートの大きさを可変する
テンプレート可変手段を備えるものであってもよい。

【００１３】また、前記抽出された顔部分の移動情報を
移動履歴として記憶する移動履歴記憶手段を備え、前記
ジェスチャ認識手段は、前記移動履歴を用いて人物のジ
ェスチャを認識するものであることで、複数の被写体を
時系列的に撮像し、撮像した画像から肌色情報を使って
被写体の存在を限定し、それをもとに被写体のジェスチ
ャの範囲を限定することができる。

【００１４】また、より好ましくは、前記顔抽出手段に
より抽出された顔部分が複数あり、かつ前記設定された
ジェスチャ範囲に重なりがあるとき、ユーザに警告を提
示する警告手段をさらに備えるもので、抽出された顔部
分が複数存在し、かつ前記顔部分を元に限定したジェス
チャ範囲に重なりが生じるときにユーザに対し警告を提
示することができる。

【００１５】本発明の対話装置は、音声、又はジェスチ
ャ入力に対して対応する対話装置において、前記請求項
６乃至１０のいずれか一項に記載のジェスチャ認識装置
を備え、前記ジェスチャ認識装置からの出力結果に対応
する動画像又は音声により合成して出力することを特徴
としている。

【００１６】また、好ましい具体的な態様としては、前
記入力に対する対応は、自己の動作を動画像により表示
する、音声合成により出力する、文字列データにより表
示する、又は機構的構造を有するロボットの動作により
表現するものであってもよい。ジェスチャ認識装置の結
果から意味を被写体の意図を理解し、音声合成、画像合
成、テキスト等文字列表示のうち少なくとも一つ以上を
使って応答することができる。

【００１７】さらに、本発明は、動画像から人物のジェ
スチャを認識するジェスチャ認識方法であって、動画像
を入力するステップと、前記動画像から肌色部分を抽出
するステップと、前記抽出された肌色部分をあらかじめ
用意された顔のテンプレートと照合して顔部分を抽出す
る顔抽出ステップと、前記抽出された顔部分の横幅、縦
長さ、又は面積のうち少なくとも一つに基づいて、前記
人物のジェスチャ範囲を設定するステップとを有するジ
ェスチャ認識方法として機能させるためのプログラムを
記録したことを特徴とするコンピュータ読み取り可能な
記録媒体である。

【００１８】また、本発明は、動画像から人物のジェス
チャを認識するジェスチャ認識方法であって、動画像を
入力するステップと、前記動画像から肌色部分を抽出す
るステップと、前記抽出された肌色部分をあらかじめ用
意された顔のテンプレートと照合して顔部分を抽出する
顔抽出ステップと、前記抽出された顔部分の横幅、縦長
さ、又は面積のうち少なくとも一つに基づいて、前記人
物のジェスチャ範囲を設定するステップとを有するジェ
スチャ認識方法として機能させるためのプログラムであ
る。

【００１９】

【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適なジェスチャ認識方法、ジェスチャ認識装置
及び対話装置の実施の形態について詳細に説明する。ま
ず、本発明の基本的な考え方について説明する。本発明
は、ジェスチャ認識方法、ジェスチャ認識装置及びジェ
スチャ認識装置を含む対話装置にかかるものである。現
代人は、ほぼ７頭身であることがわかっている。そこで
顔の大きさを基準に身体の大きさを推定し、認識すべき
ジェスチャが発生しうる領域を限定する。

【００２０】また、入力画像から肌色情報で顔の存在位
置を推定する。次に顔の形のテンプレートを使って顔以
外の肌色部分を除去する。このとき顔の大きさをあらわ
すパラメータ（横幅、縦、面積など）のうち少なくとも
一つを使って身体の大きさを推定することができ、ジェ
スチャの範囲を限定することができる。抽出された肌色
領域のうち、所定の大きさ範囲以外の場合には領域には
ジェスチャを認識する必要の無い部分として削除する。

【００２１】これにより、人物の存在する場所を事前に
教示することなく、入力画像中に複数のユーザが存在
し、入力画像内を動き回る可能性がある状態であっても
ユーザのジェスチャを安定して認識することができ、ユ
ーザとシステムとの間に円滑な対話を実現できる。

【００２２】第１の実施の形態図１は、上記基本的な考え方に基づく本発明の第１の実
施の形態のジェスチャ認識方法及びジェスチャ認識装置
の基本構成を示すブロック図である。ジェスチャ認識装
置として、パソコン等の情報処理装置に適用した例であ
る。図１において、ジェスチャ認識装置１０は、動画像
データを入力する画像入力部１１（入力手段）と、認識
空間推定部１８により限定された全ての範囲からジェス
チャ認識に必要な特徴ベクトルを抽出する特徴量抽出部
１２と、特徴量抽出部１２により抽出された特徴ベクト
ルと履歴格納部１４に格納されている特徴ベクトルの履
歴情報を用いてあらかじめ用意されている標準パターン
とのマッチング処理を行うパターンマッチング部１３
と、特徴ベクトルの履歴情報を格納する履歴格納部１４
（移動履歴記憶手段）と、パターンマッチング部１３に
よる判定結果を出力する出力部１５と、画素ごとに肌色
であることを判定して肌色領域を抽出する肌色抽出部１
６（肌色抽出手段）と、各領域に対して顔形状のテンプ
レートを用いて顔らしさを算出するテンプレートマッチ
ング部１７（顔抽出手段）と、算出された顔領域の横
幅、縦長さ、面積などを用いて人物のジェスチャの起こ
りうる範囲を限定する認識空間推定部１８（ジェスチャ
範囲設定手段）とを備えて構成される。

【００２３】上記特徴量抽出部１２及びパターンマッチ
ング部１３は、全体として、入力された動画像からジェ
スチャ範囲におけるジェスチャ特徴ベクトルを抽出し、
該抽出した特徴ベクトルを用いて人物のジェスチャを認
識するジェスチャ認識手段を構成する。

【００２４】図２は、上記ジェスチャ認識装置１０の具
体的なシステム構成を示すブロック図である。図２にお
いて、ジェスチャ認識装置１０は、ＣＰＵ２１、ＲＯ
Ｍ，ＲＡＭ等からなるシステムメモリ２２、標準パター
ン、テンプレート及びＣＰＵ２１の演算処理結果を格納
する外部記憶装置であるハードディスクドライブ（ＨＤ
Ｄ）２３、Ｉ／Ｏインタフェース２４、キーボード及び
マウス等のポィンティングデバイスからなる入力装置２
５、画像信号を入力するＣＣＤカメラ２６、ドットマト
リックス構成の液晶表示装置（ＬＣＤ）等からなり動作
形状を出力するディスプレイ２７、及び出力装置２８を
備えたコンピュータ２０上に実装される。ＣＰＵ２１
は、画像認識処理等の動作演算処理の実行を含む装置全
体の制御を行う制御部であり、システムメモリ２２上の
プログラムに従い、演算に使用するデータを記憶したメ
モリを使用してアプリケーション処理等各種処理を実行
する。

【００２５】特に、ＣＰＵ２１は、ＲＯＭ上のプログラ
ムに従い、ＣＣＤカメラ２６から入力された画像はシス
テムメモリ２２上を用いて処理を行う。ＣＰＵ２１は後
述するジェスチャ認識方法に従って画像処理を行い、ユ
ーザの認識対象空間を推定する。また、ジェスチャを識
別するための特徴ベクトルを生成し、あらかじめＨＤＤ
２３内に蓄えてある標準パターンと比較を行い、類似度
が所定の条件を満たすとき、該当パターンであるとし
て、ディスプレイ２７又は出力装置２８から結果を出力
する制御を行う。

【００２６】ＲＯＭは、ＣＰＵ２１が動作する際に必要
なプログラム、制御データ等の固定データを記憶する読
出し専用の半導体メモリである。ＲＡＭは、文字表示に
関するデータや演算に使用するデータ及び演算結果等を
一時的に記憶するいわゆるワーキングメモリとして使用
され、ビットマップ展開された仮想画面及び表示データ
等を格納する。

【００２７】ＣＣＤカメラ２６は、特殊なカメラである
必要はなく、汎用のものでよい。ＣＣＤカメラ２６は、
ユーザの顔の動きを含む身体の動きを撮像する。特に、
ユーザの顔及び手（手首）の動きをフレーム毎に撮像し
取り込む。この場合、マーカーを顔、身体に取り付けな
くてもキャプチャは可能である。

【００２８】ディスプレイ２７は、ＬＣＤディスプレイ
からなり、ＨＤＤ２３に格納される画像情報やＣＰＵ２
１の演算処理結果を表示する。また、この表示は、ディ
スプレイ２７の表示画面上に例えばＣＧ（Computer Gra
phics）で合成表示される。出力装置２８は、コンピュ
ータ２０による認識結果を表示以外の方法により出力す
るもので、例えば機構的な構造をもつロボットや用紙に
画像を印刷するプリンタ等である。

【００２９】ＣＣＤカメラ２６から入力された画像は、
システムメモリ２２上に展開されて処理される。ＣＰＵ
２１は、後述の方法に従って画像処理を行い、ユーザの
認識対象空間を推定する。ＣＰＵ２１は、ジェスチャを
識別するための特徴ベクトルを生成し、あらかじめＨＤ
Ｄ２３内に蓄えてある標準パターンと比較を行い、類似
度が所定の条件を満たすとき、該当パターンであるとし
て、ディスプレイ２７又は出力装置２８から結果を出力
する。

【００３０】以下、上述のように構成されたジェスチャ
認識装置の動作を説明する。従来のジェスチャ認識方法
では、ユーザが１名であるか又はその存在位置があらか
じめ判っているという前提条件が存在したため、画像入
力部で得られた画像から直接ジェスチャの認識に必要な
特徴ベクトルを抽出することができた。しかし、人物の
存在する場所を事前に教示する必要があり、またユーザ
が移動すると正しく認識できなくなるという問題点があ
る。

【００３１】さらに、実世界ではユーザは複数である。
また固定された椅子に座っているような場合以外は常に
存在場所が異なり、移動している場合もある。そのため
入力画像から「ユーザがジェスチャを行う空間」を切り
出す処理が必要となる。そこで本発明では、入力画像中
のユーザがジェスチャを起こしうる領域を推定し、その
結果得られた領域からジェスチャ認識に必要な特徴ベク
トルを作成する。特に、本発明の特徴とするところは、
人物のジェスチャ範囲を限定するステップを含む点にあ
る。

【００３２】図３は、本実施の形態のジェスチャ認識方
法の画像処理の流れとその結果を説明する図であり、図
３（ａ）はその入力画像、図３（ｂ）はその肌色部分抽
出画像、図３（ｃ）はその顔部分抽出画像、図３（ｄ）
はそのジェスチャ範囲を示す。また、図４は、本実施の
形態のジェスチャ認識方法の概念を説明する図である。

【００３３】図３（ａ）の入力画像中に１人以上の人物
（ここでは３人）が存在すると仮定する。人の顔の色は
肌色であることを利用し、図３（ａ）の入力画像から肌
色領域１０１を抽出する。図３（ｂ）は、肌色領域１０
１を抽出した肌色部分抽出画像を示す。

【００３４】抽出された肌色領域１０１すべてを顔の候
補としてもよいが、パターンマッチングを行う際の計算
量が大きくなってしまうので、不要な部分を削除する必
要がある。この方法として、図４に示すように、顔形状
のテンプレート１０２を用意し、抽出した肌色部分と顔
形状のテンプレート１０２とを比較する。この比較によ
り、ユーザが存在する位置の候補を推定する。ラベル付
けを行った結果、同一のラベルとなった肌色領域に対
し、顔形状のテンプレート１０２を使って顔らしさを算
出する。テンプレート１０２は、大きさ別に複数のテン
プレートを用意してもよいし、大きさを可変にして顔の
幅、長さ、面積などのうち一つ以上を使って大きさを決
めてもよい。テンプレート１０２との類似度が所定の値
よりも小さい場合には顔ではないとして、顔候補から除
くようにする。図４の例では、同一ラベル肌色領域であ
っても人物の手に相当する肌色部分１００は、顔形状の
テンプレート１０２と類似度が大きく異なるため、顔候
補から除去される。このようにして顔部分抽出画像（図
３（ｃ）参照）が作成される。次に顔の大きさから身体
の大きさを推定し、ジェスチャ認識空間１０３を決定す
る（図３（ｄ）参照）。

【００３５】上記処理の流れを、図１を用いて説明す
る。肌色抽出部１６では、画像入力部１１で入力された
入力画像を元に肌色領域を抽出する。画素ごとに肌色で
あるかどうかを判定した後、隣接する８方向の画素との
連結性を考慮して肌色領域に分割する。

【００３６】テンプレートマッチング部１７では、各領
域に対してそれぞれ顔形状のテンプレート１０２を使
い、顔らしさを算出する。算出された顔の確からしさが
所定の条件を満たした場合には、顔領域とする。このと
きの顔領域の横幅、縦、面積などのうち一つ以上を使っ
て認識空間推定部１８においてジェスチャの起こりうる
範囲を限定する。特徴量抽出部１２では、限定された全
ての範囲からジェスチャ認識に必要な特徴ベクトルを抽
出する。

【００３７】パターンマッチング部１３では、抽出され
た特徴ベクトルと履歴格納部１４に格納してある直前の
特徴ベクトルの履歴情報を用いてあらかじめ用意されて
いる標準パターンとのマッチング処理を行う。この特徴
ベクトルは、履歴格納部１４に格納される。パターンマ
ッチング部１３の判定結果は、出力部１５により出力さ
れる。該当するパターンが存在しない場合には何も出力
しなくてもよい。

【００３８】図５は、本ジェスチャ認識方法の処理の流
れを示すフローチャートであり、コンピュータ２０に実
装される場合はＣＰＵ２１により実行される。図中、Ｓ
はフローの各ステップを示す。まず、ステップＳ１でＣ
ＣＤカメラ２６等の入力デバイスからの入力画像を取り
込む。本実施の形態では、入力画像のフォーマットをＲ
ＧＢ各８ビットの２４ビットとし、時間的に連続して入
力されると仮定する。

【００３９】ステップＳ２では、入力画像から肌色領域
１０１（図３（ａ）参照）を抽出する。肌色領域抽出処
理の詳細については、図６により後述する。次いで、ス
テップＳ３でラベル付けを行う。このラベル付けでは、
上記ステップＳで抽出された肌色部分について、画素の
連結性に着目し、隣接８方向の画素のうち少なくとも一
つが連続していれば同じラベル番号を振るようにする。
すなわち、同じ番号のついた肌色の画素は一つの領域を
形成する。

【００４０】次いで、ステップＳ４で顔の位置の推定を
行う。顔の位置の推定は、図３及び図４で述べたように
あらかじめ用意した顔形状のテンプレート１０２を使っ
て類似度を算出することにより行う。ここで、上記ステ
ップＳ３において同一ラベルの領域が限定できるので、
この領域の大きさにあわせたテンプレート１０２を選択
することができる。図４は、抽出された同一ラベル肌色
領域１０１と大きさをあわせたテンプレート１０２の例
である。同一ラベルの肌色領域の重心とテンプレートの
重心を合わせて形状の類似度を算出することで、探索領
域を減らすことができる。類似度が低ければ顔ではない
と判断し、肌色領域に付与したラベル番号を削除し、顔
候補から削除する。図３（ｃ）は、顔候補のみを黒と
し、それ以外を白にした結果である。

【００４１】ステップＳ５では、ジェスチャの起こりえ
る認識領域を推定する。成人の場合ほぼ７頭身であるこ
とがわかっているので、顔の大きさを基準に身体の大き
さを推定する。顔の幅ｘのｎ（ｎは１以上の実数）倍を
認識対象空間の横幅Ｘ、顔の長さｙのｍ（ｍは１以上の
実数）倍を縦Ｙとする。したがって、認識空間の大きさ
は認識する対象となるジェスチャの大きさにより変化す
ることになる。

【００４２】ステップＳ６では、認識のための特徴量を
求めることによりジェスチャ特徴ベクトルを取得する。
取得した特徴量は認識空間の大きさに応じて正規化する
ことで、同一のジェスチャに対応した標準パターンを複
数持つ必要が無くなる。ステップＳ７では、取得した特
徴量を使った認識を行う。認識のアルゴリズムは、例え
ば特開平１０−１６２１５１号公報記載の連続ＤＰ（Co
ntinuous Dynamic Programming）を用いた認識方法を適
用する。

【００４３】ステップＳ８では、該当パターンがあるか
否かを判別し、該当パターンがない場合には、ステップ
Ｓ１に戻って上記処理を繰り返す。上記ステップＳ７の
パターンマッチングの結果、類似度が所定の閾値よりも
高くなった場合には、該当パターンがあると判断してス
テップＳ９で認識結果を出力して本フローを終了する。

【００４４】図６は、ジェスチャ認識方法の肌色領域抽
出処理を示すフローチャートであり、図２のステップＳ
２の処理を詳細フローである。まず、ステップＳ１１で
画像を入力し、ステップＳ１２で表色系をＲＧＢ（赤、
青、緑）系からからＨＳＶ（色合、明度、強度）系に変
換する。以下はＲＧＢ表色系をＨＳＶ表色系に変換する
一般的な変換式である。 cmax＝maximum（Ｒ、Ｇ、Ｂ） cmin＝minimum（Ｒ、Ｇ、Ｂ）Ｖ＝cmax Ｓ＝（cmax−cmin）／cmax 但し、cmax＝０の時はＳ＝０このとき、Ｒ＝cmaxならばＨ＝６０＊｛（Ｇ−Ｂ）／（cmax−cmi
n）｝Ｇ＝cmaxならばＨ＝６０＊｛２＋（Ｂ−Ｒ）／（cmax−
cmin）｝Ｂ＝cmaxならばＨ＝６０＊｛４＋（Ｒ−Ｇ）／（cmax−
cmin）｝とする。なお、Ｈ＜０の時はＨに３６０を加える。ま
た、Ｓ＝０の時はＨ＝０とする。また、あらかじめ変換
テーブルを用意し、ＲＧＢの各値から直接肌色領域を求
めてもよい。

【００４５】次いで、ステップＳ３で色合、明度、強度
のうち一つ以上を使って、肌色であるかどうか判別を行
い、肌色ならば１、それ以外なら０に二値化する。その
まま肌色領域として出力してもよいが、実際にはノイズ
が発生していることが多いので、孤立点を除去する従来
公知の手法でノイズを除去する。次いで、ステップＳ１
４で縮小処理を行う。この縮小処理は、例えば隣接４方
向（上下左右）の画素がすべて１であるならば１を、一
方向でも０の画素があれば０を割り当てるようにする。

【００４６】次いで、ステップＳ１５で膨張処理を行
い、ステップＳ１６で肌色領域画像を出力して本フロー
を終え、図５のステップＳ３に戻る。上記膨張処理は、
例えば隣接４方向（上下左右）の画素のうち全ての画素
が０の場合には０を、少なくとも一方向の画素が１の場
合には１を割り当てる。上記ステップＳ１４及びステッ
プＳ１５の処理の結果、孤立点が無くなり、凹凸が少な
くなる。

【００４７】図３の例では、図３（ａ）に示す入力画像
に対して肌色領域部分が抽出され、図３（ｂ）に示すよ
うに肌色部分が黒に、それ以外が白に二値化された結果
となる。以上のように、本実施の形態のジェスチャ認識
装置は、動画像データを入力する画像入力部１１と、肌
色領域を抽出する肌色抽出部１６と、各領域に対して顔
形状のテンプレートを用いて顔らしさを算出するテンプ
レートマッチング部１７と、算出された顔領域の横幅、
縦長さ、面積などを用いて人物のジェスチャの起こりう
る範囲を限定する認識空間推定部１８と、限定された全
ての範囲からジェスチャ認識に必要な特徴ベクトルを抽
出する特徴量抽出部１２と、特徴ベクトルの履歴情報を
格納する履歴格納部１４と、抽出された特徴ベクトルと
格納されている特徴ベクトルの履歴情報を用いてあらか
じめ用意されている標準パターンとのマッチング処理を
行うパターンマッチング部１３と、パターンマッチング
部１３による判定結果を出力する出力部１５とを備え、
入力動画像から肌色部分を抽出するステップと、前記抽
出された肌色部分をあらかじめ用意された顔のテンプレ
ートと照合して顔部分を抽出する顔抽出ステップと、抽
出された顔部分の横幅、縦長さ、又は面積のうち少なく
とも一つに基づいて、人物のジェスチャ範囲を設定する
ステップと、入力された動画像からジェスチャ範囲にお
けるジェスチャ特徴ベクトルを抽出し、該抽出した特徴
ベクトルを用いて人物のジェスチャを認識するジェスチ
ャ認識ステップとを順次実行することで、人物の存在す
る場所を事前に教示したり、ユーザが移動する場合であ
っても、複数の人物ごとにジェスチャの範囲を限定する
ことができ、ユーザのジェスチャを安定して認識するこ
とができる。

【００４８】第２の実施の形態図７は、本発明の第２の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。本実施の形態の説明にあたり、図１と同一構成
部分には同一番号を付して重複箇所の説明を省略する。
図７において、ジェスチャ認識装置３０は、肌色抽出部
１６の後段に、抽出された肌色部分の大きさが所定の大
きさ範囲以外の場合には顔の候補から除外する擬似似顔
除去部３１（除去手段）を備えて構成される。ジェスチ
ャ認識装置３０は、第１の実施の形態と同様に、図２に
示すコンピュータ２０上に実装される。以下、上述のよ
うに構成されたジェスチャ認識装置の動作を説明する。

【００４９】第１の実施の形態は、肌色領域を抽出した
後にラベリングを行うが、同一ラベルの画素数が極端に
小さい場合には、顔形状のテンプレート１０２とのマッ
チングを行うと類似度を計算できなくなることがある。
肌色領域１０１の大きさにテンプレート１０２を合わせ
た場合に形状がつぶれてしまい、保てなくなるためであ
る。また、極端に大きい場合にはジェスチャが起こりう
る範囲が入力画像からはみ出すことが想定され、最終的
な目的であるジェスチャを認識することが困難になる。

【００５０】そこで、本実施の形態では、抽出された肌
色領域のうち、同一ラベルの領域の画素数、横幅、縦の
うち少なくとも一つを使って認識対象を選別する。例え
ば、ラベルｎ（ｎは１以上の実数）の横幅がｘ_nの場
合、ｘ_min≦ｘ_n≦ｘ_maxなる範囲を定め、その範囲内の
みテンプレートマッチングを行う。

【００５１】さらに特開平８−１０６５１９号公報に記
載の顔方向判定装置及びそれを用いた画像表示装置など
の顔の向きを認識する方法を組み合わせた場合、所定の
方向を向いているかどうかで絞り込むことができる。例
えば、前述のようにテンプレートマッチングを行い、顔
らしさを推定した後に、顔の向きを判定する。判定の結
果が所定の向き（例えばカメラの方向）を向いている場
合にそのジェスチャを認識するよう、特徴ベクトルを抽
出するようにする。顔の向きによる絞込みは、後述する
ように推定したジェスチャの認識対象空間に重なりが無
い場合にはしなくてもよい。

【００５２】図８は、本ジェスチャ認識方法の処理の流
れを示すフローチャートであり、図５に示すフローと同
一処理を行うステップについては同一ステップ番号を付
して説明を省略する。ステップＳ３でラベル付けを行う
と、ステップＳ２１で同一ラベルの画素数、横幅、縦の
うち一つ以上を使って顔の位置の認識対象外であるラベ
ルのものを削除してステップＳ４に進む。ステップＳ４
以降は、図５のフローチャートと同じである。

【００５３】以上のように、本実施の形態のジェスチャ
認識装置３０は、抽出された肌色部分の大きさが所定の
大きさ範囲以外の場合には顔の候補から除外する擬似似
顔除去部３１を備えているので、所定の大きさ範囲以外
の肌色領域を無視して、ジェスチャを認識する必要の無
い部分として削除することができ、処理範囲を限定する
ことができる。これにより、認識精度を高めることがこ
とができるとともに、処理速度の向上を図ることができ
る。

【００５４】第３の実施の形態図９は、本発明の第３の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。本実施の形態の説明にあたり、図１と同一構成
部分には同一番号を付して重複箇所の説明を省略する。
図９において、ジェスチャ認識装置４０は、肌色抽出部
１６の後段に、顔の形のテンプレートを顔の大きさをあ
らわすパラメータ（横幅、縦長さ、面積など）によって
テンプレートの大きさを可変するテンプレート作成部４
１（テンプレート可変手段）を備えて構成される。以
下、上述のように構成されたジェスチャ認識装置の動作
を説明する。

【００５５】図１０は、本ジェスチャ認識方法の処理の
流れを示すフローチャートであり、図５に示すフローと
同一処理を行うステップについては同一ステップ番号を
付して説明を省略する。ステップＳ３でラベル付けを行
うと、ステップ３１で認識対象となった肌色領域の横
幅、長さ、面積などのうち一つ以上を使って大きさを変
える。例えば、同一ラベルの肌色領域の幅をｘとすると
き、テンプレートの横幅が同じになるようにテンプレー
トの縦、横それぞれｎ（ｎは１以上の実数）倍すること
で大きさ可変のテンプレートを用いる。ステップＳ４以
降は、図５のフローチャートと同じである。

【００５６】以上のように、本実施の形態のジェスチャ
認識装置４０は、顔の形のテンプレートを顔の大きさを
あらわすパラメータによってテンプレートの大きさを可
変するテンプレート作成部４１を備えているので、前記
マッチング処理により肌色領域が顔の形をしていること
を抽出する際、テンプレートを複数持つ必要が無くな
り、メモリを減少させることができる。

【００５７】第４の実施の形態図１１は、本発明の第４の実施の形態のジェスチャ認識
方法及びジェスチャ認識装置の基本構成を示すブロック
図である。本実施の形態の説明にあたり、図９及び図１
０と同一構成部分には同一番号を付して重複箇所の説明
を省略する。図１１において、ジェスチャ認識装置５０
は、肌色抽出部１６の後段に、抽出された肌色部分の大
きさが所定の大きさ範囲以外の場合には顔の候補から除
外する擬似似顔除去部３１と、顔の形のテンプレートを
顔の大きさをあらわすパラメータ（横幅、縦長さ、面積
など）によってテンプレートの大きさを可変するテンプ
レート作成部４１とを備えて構成される。

【００５８】以上の構成において、処理の流れとしては
図１０のフローチャートのステップＳ３１の前に図８の
ステップＳ２１を実行すればよい。したがって、第２及
び第３の実施の形態の効果を合わせた効果を得ることが
できる。

【００５９】第５の実施の形態ところで、従来のジェスチャ認識では認識対象空間が固
定されていたため、移動しながらのジェスチャを認識す
ることができなかった。本認識方法では、逐次ユーザの
位置を推定しているので、ジェスチャを認識する特徴ベ
クトルの一つとして移動方向、移動速度、移動距離を使
うことができる。

【００６０】例えば、前記ジェスチャ認識装置１０，３
０，４０は、抽出された顔部分の移動情報を記憶する記
憶部を有し、特徴抽出部１２が、顔の位置の移動履歴と
大きさ履歴を作成し、ジェスチャを認識するための特徴
ベクトルの一つとする。この記憶部は、特徴抽出部１２
が備えていてもよく、具体的な構成としては図２のシス
テムメモリ２２に、顔部分の移動情報として一時的に保
存される。ＣＰＵ２１により実行されるプログラムによ
りジェスチャ特徴ベクトルの一つとして取得する（図５
のステップＳ６）。顔部分の移動情報を特徴ベクトルと
して用いる具体例について説明する。

【００６１】・「移動」を一つの特徴ベクトルとして用い
る例例えば、従来は「右手を挙げる」というジェスチャは認識
できるが、「前進しながら手を挙げる」という複合ジェス
チャは認識することができなかった。本手法では「移動
している」という情報は入力画像内の移動又は認識対象
空間の拡大縮小などから判別することができる。特開平
１０−１６２１５１号公報記載の認識方法と同様の特徴
ベクトルを用いた場合、認識対象空間を９分割し、空間
のどの部分に動きがあるかを量子化し、９次元の特徴ベ
クトルを生成する。このとき、認識対象空間の動き方
向、大きさ情報、前フレームでの認識対象空間の移動距
離などのうち、少なくとも一つ以上を組み合わせること
でより複雑なジェスチャを認識することができるように
なる。

【００６２】・「移動」により生じるノイズを低減する方
法また、特開平１０−１６２１５１号公報記載の認識方法
と同様の特徴ベクトルを用いる場合には、時間軸方向の
差分画像を使っているため、ユーザが移動するとジェス
チャを行っていないのに特徴ベクトルには画面全体が動
いたように反応してしまう。そこで移動には関係なくジ
ェスチャのみを切り出す必要がある。あらかじめ記録し
ておいた背景画像と比較し、ユーザの背景と異なる部分
のみ残すようにする。このとき画像全体を使って差分処
理を行うと時間がかかるので認識対象空間のみ背景差分
処理を行ってもよい。ユーザが移動していない場合には
背景差分処理は不要であり、かつ処理速度を落とすの
で、ユーザが移動している場合のみ背景差分処理を行う
ことが好ましい。このあと、認識対象空間の大きさを標
準化し、連続したフレーム間で差分をとることで移動し
ながらの身振りを安定して認識することができる。

【００６３】以上のように、本実施の形態のジェスチャ
認識装置５０は、特徴抽出部１２が、顔の位置の移動履
歴と大きさ履歴を作成してシステムメモリ２２に保存
し、ジェスチャを認識するための特徴ベクトルの一つと
するので、顔の位置の移動履歴と大きさ履歴を用いて移
動しながらの身振りを認識できるようになる。

【００６４】なお、本実施の形態では、移動履歴と大き
さ履歴を作成してジェスチャを認識するための特徴ベク
トルの一つとする態様を示したが、前記移動履歴を用い
て人物のジェスチャを認識する方法であれば、該移動履
歴を特徴ベクトルの一つとする態様に限らずどのような
方法でもよい。

【００６５】第６の実施の形態上記各実施の形態のジェスチャ認識方法及びジェスチャ
認識装置は、該ジェスチャ認識装置を含む対話装置に適
用することができる。図１２は、本発明の第６の実施の
形態の対話装置の構成を示すブロック図である。図１２
において、対話装置６０は、ユーザからの音声信号を入
力するマイク等音声入力部６１、ユーザの顔及び身体の
動きを入力するビデオカメラ等の動作入力部６２、入力
された音声信号を認識処理する音声処理部６３、入力さ
れた動きを認識処理する動作処理部６４、対話用データ
ベース（ＤＢ）（図示略）に格納した情報を用いて意味
理解を行うとともに、音声及び動作を制御する制御部６
５、音声を合成して出力する音声出力部６６、及び動作
を出力する動作出力部６７を含んで構成される。また、
対話装置６０の具体的なシステム構成は、図２に示すコ
ンピュータ２０上で実現できる。

【００６６】音声処理部６３は、ユーザのしゃべった内
容を音声認識により獲得する。音声認識の手法として
は、ヒドンマルコフモデル（ＨＭＭ：hidden Markov mo
del）や連続ＤＰマッチングによるキーワード認識など
を用いる。動作処理部６４は、ジェスチャ認識装置１
０，３０，４０，５０を備え、ユーザのジェスチャや画
像による個人認証を行う。

【００６７】動作出力部６７は、図２のＨＤＤ２３に格
納される動作情報やＣＰＵ２１の演算処理結果を動作に
より提示する。また、動作出力部６７は、機構的な構造
をもつハード構成の動作形状を出力するロボットでもよ
いし、ディスプレイ２７の表示画面上に例えばＣＧで合
成表示されるものでもよい。上記音声出力部６６及び動
作出力部６７は、対話相手となる擬人化エージェントを
合成して出力する。

【００６８】本実施の形態の対話装置６０は、１人以上
の音声、ジェスチャを入力とし、動画像、音、テキスト
データ等の文字列データのうち少なくとも一つを出力す
る対話装置であって、上記各実施の形態のジェスチャ認
識装置１０，３０，４０，５０を有する。

【００６９】対話装置６０の動作について説明する。い
ま、１人以上のユーザが対話装置６０を使用している場
合を考える。従来のジェスチャ認識手段を含む対話装置
では、ユーザはあらかじめ認識のために用意されている
場所に位置することで、ジェスチャを認識させる。これ
に対し対話装置６０では、ユーザが撮影画像の中に存在
すればよく、カメラの向きの調整など事前の位置あわせ
が不要となる。

【００７０】また、しゃべりながら移動した場合でもそ
の際の身振りを認識することができる。さらに、音声の
指向性を制御可能な音声入力部６１を組み合わせた場
合、複数のユーザの存在する方向に指向性を制御するこ
とができ、身振りをしながらしゃべっている人の音声だ
けを取り出したり、複数ユーザの音声認識の結果と身振
りの結果を正しく判断することができる。

【００７１】例えば、ユーザＡが「○○を調べて」と対
話装置６０に依頼した場合、画像によるユーザＡの存在
方向と音声の指向性からユーザＡが発話したことがわか
っていると仮定する。このとき、本対話装置が「○○で
すか？」と問い返したとする。このとき、ユーザＡがＹ
ＥＳを表すジェスチャを、ユーザＢがＮｏを表すジェス
チャをしたとする。ユーザＡの発話であるとわかってい
るので、最初の依頼がユーザＡのものと判断できる。こ
のとき認識した複数のジェスチャの発生位置からユーザ
ＡがＹＥＳとしていることから、対話装置６０は「○○
を調べる」というタスクを実行することができる。ここ
で、抽出された顔部分が複数で、かつ限定されたジェス
チャ範囲に重なりがあるとき、ユーザに警告を提示する
構成としてもよい。

【００７２】前述の対話装置６０において、入力画像内
で複数のユーザが近づいた場合について考える。このと
きジェスチャの認識対象空間は徐々に近づいていき、あ
るところから重なるようになる。重なりのある認識対象
空間では正しいジェスチャを認識することができないの
で、ユーザに対し、離れるよう警告をする必要がある。

【００７３】図１３は、上記対話装置６０のジェスチャ
認識処理の流れを示すフローチャートであり、対話装置
６０において警告を出すまでのフローを示す。図５に示
すフローと同一処理を行うステップについては同一ステ
ップ番号を付して説明を省略する。

【００７４】ステップＳ５でジェスチャ認識領域を推定
すると、ステップＳ４１でジェスチャ認識領域に重なり
があるか否かをチェックする。重なりがある場合には、
ジェスチャを認識できないのでステップＳ４２で警告を
出力して本フローを終了する。警告の出力は、例えば対
話装置のジェスチャ出力がＧＣ表示により行われている
場合には該表示画面上にジェスチャ認識ができない旨の
メッセージを表示することにより行う。また、音声合成
により音声で警告してもよいし、ランプ等により報知す
る態様でもよく、これらを組み合わせてもよい。

【００７５】上記警告の提示では、ジェスチャ認識に影
響を及ぼさない微小区間の重なりであるときには警告を
出しつつもジェスチャ認識するようにしてもよい。ま
た、ジェスチャ認識領域に重なりが生じている場合で、
一方のユーザが前述した顔の向きでジェスチャの認識を
しなくてもいいとわかっているのであれば、そのユーザ
を指定して「向かって右側の方はすこし離れてください」
など出力してもよい。

【００７６】上記ステップＳ４１で重なりが無い場合に
は、ステップＳ６でジェスチャ認識に必要な特徴量を抽
出し、ジェスチャを認識する。その認識結果は、本対話
装置６０の意味理解部分で利用する。以上のように、本
実施の形態の対話装置６０は、ジェスチャ認識装置１
０，３０，４０，５０を備え、認識結果から被写体の意
図を理解し、音声、ジェスチャを入力とし、動画像、
音、テキストデータ等のＣＧやロボットの動きのうち、
少なくとも一つ以上を使って応答するので、同時に複数
のユーザを対象とした対話装置を提供することができ
る。この場合、対話出力は、種々の組合せが可能であ
る。

【００７７】また、複数のユーザが近づきすぎてジェス
チャの認識に障害が発生すると思われるときに警告を発
することにより複数ユーザのジェスチャを安定して認識
することができる対話装置を提供できる。なお、本発明
の対話装置は、上述の各実施の形態に限定されるもので
はなく、本発明の要旨を逸脱しない範囲内において種々
変更を加え得ることは勿論である。例えば、上述したよ
うなマルチモーダルインタフェースを用いた情報処理装
置に適用することもできるが、これには限定されず、全
ての装置に適用可能である。

【００７８】また、本実施の形態に係る対話装置が、Ｐ
ＤＡ（Personal Digital Assistants）等の携帯情報端
末やパーソナルコンピュータの音声・動画像処理機能と
して組み込まれたものでもよい。また、上記各実施の形
態では、ジェスチャ認識方法、ジェスチャ認識装置、対
話装置の名称を用いているが、これは説明の便宜上であ
り、例えば音声・動画像処理装置、マルチモーダルイン
ターフェース装置でもよい。

【００７９】また、上記各実施の形態では、動画像から
肌色部分を抽出するようにしているが、肌色について
は、人種等による肌色の差異を考慮してあらかじめ複数
種類の肌色認識パターンを用意し、各肌色について顔部
分を抽出するようにしてもよい。同様に、人物がサング
ラスや帽子等を装着している場合を考慮してこれら装着
時の補正パターンを用意し、顔部分に相当する範囲を補
正するようにしてもよい。さらに、上記補正は、想定さ
れる肌色又は顔部分が適切に抽出できなかった場合に、
実行するようにしてもよい。さらに、上記ジェスチャ認
識装置、対話装置を構成する各部等の種類、データベー
スなどは前述した実施形態に限られない。

【００８０】以上説明したジェスチャ認識方法、ジェス
チャ認識装置及び対話装置は、この処理装置を機能させ
るためのプログラムでも実現される。このプログラムは
コンピュータで読み取り可能な記録媒体に格納されてい
る。本発明では、この記録媒体として、メインメモリそ
のものがプログラムメディアであってもよいし、また外
部記憶装置としてプログラム読み取り装置が設けられ、
そこに記録媒体を挿入することで読み取り可能なプログ
ラムメディアであってもよい。いずれの場合において
も、格納されているプログラムはＣＰＵがアクセスして
実行させる構成であってもよいし、あるいはいずれの場
合もプログラムを読み出し、読み出されたプログラム
は、図示されていないプログラム記憶エリアにダウンロ
ードされて、そのプログラムが実行される方式であって
もよい。このダウンロード用のプログラムは予め本体装
置に格納されているものとする。

【００８１】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばＰＣカ
ード（ＳＲＡＭカード）のほか、磁気テープやカセット
テープ等のテープ系、フロッピーディスク（登録商標）
やハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／Ｍ
Ｏ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカ
ード／光カード等のカード系、あるいはマスクＲＯＭ、
ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。

【００８２】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。

【００８３】

【発明の効果】以上、詳述したように、本発明によれ
ば、複数のユーザごとにジェスチャの範囲を限定するこ
とができ、人物の存在する場所を事前に教示したり、ユ
ーザが移動する場合であっても、ユーザのジェスチャを
安定して認識することができる。また、移動しながらの
身振りを認識できるようになる。また、同時に複数のユ
ーザを対象とした対話装置を実現することができる。さ
らに、複数ユーザのジェスチャを安定して認識できる対
話装置を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。

【図２】本実施の形態のジェスチャ認識装置の具体的な
システム構成を示すブロック図である。

【図３】本実施の形態のジェスチャ認識方法の画像処理
の流れとその結果を説明する図である。

【図４】本実施の形態のジェスチャ認識方法の概念を説
明する図である。

【図５】本実施の形態のジェスチャ認識方法の処理の流
れを示すフローチャートである。

【図６】本実施の形態のジェスチャ認識方法の肌色領域
抽出処理を示すフローチャートである。

【図７】本発明の第２の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。

【図８】本実施の形態のジェスチャ認識方法の処理の流
れを示すフローチャートである。

【図９】本発明の第３の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。

【図１０】本実施の形態のジェスチャ認識方法の処理の
流れを示すフローチャートである。

【図１１】本発明の第４の実施の形態のジェスチャ認識
方法及びジェスチャ認識装置の基本構成を示すブロック
図である。

【図１２】本発明の第６の実施の形態の対話装置の構成
を示すブロック図である。

【図１３】本実施の形態の対話装置のジェスチャ認識処
理の流れを示すフローチャートである。

【符号の説明】

１０，３０，４０，５０ジェスチャ認識装置１１画像入力部（入力手段）１２特徴量抽出部１３パターンマッチング部１４履歴格納部（移動履歴記憶手段）１５出力部１６肌色抽出部（肌色抽出手段）１７テンプレートマッチング部（顔抽出手段）１８認識空間推定部（ジェスチャ範囲設定手段）２０コンピュータ２１ＣＰＵ２２システムメモリ２３ＨＤＤ２４Ｉ／Ｏインタフェース２５入力装置２６ＣＣＤカメラ２７ディスプレイ２８出力装置３１擬似似顔除去部（除去手段）４１テンプレート作成部（テンプレート可変手段）６０対話装置６１マイク等音声入力部６２動作入力部６３音声処理部６４動作処理部６５制御部６６音声出力部６７動作出力部１０１肌色領域１０２顔形状のテンプレート

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 13/00 Ｇ１０Ｌ 3/00 ５７１Ｕ 15/22 ５６１Ｄ 15/24 Ｑ５７１ＱＦターム(参考） 5B057 AA20 CA01 CA08 CA12 CE16 DA08 DB02 DB06 DB09 DC16 DC25 DC33 5D015 KK02 LL06 5D045 AB30 5L096 AA02 AA06 BA20 DA02 EA13 FA06 FA15 HA07 JA09

Claims

【特許請求の範囲】

【請求項１】動画像から人物のジェスチャを認識する
ジェスチャ認識方法であって、動画像を入力するステップと、前記動画像から肌色部分を抽出するステップと、前記抽出された肌色部分をあらかじめ用意された顔のテ
ンプレートと照合して顔部分を抽出する顔抽出ステップ
と、前記抽出された顔部分の横幅、縦長さ、又は面積のうち
少なくとも一つに基づいて、前記人物のジェスチャ範囲
を設定するステップとを有することを特徴とするジェス
チャ認識方法。
【請求項２】さらに、前記入力された動画像から前記
ジェスチャ範囲におけるジェスチャ特徴ベクトルを抽出
し、該抽出した特徴ベクトルを用いて人物のジェスチャ
を認識するジェスチャ認識ステップを有することを特徴
とする請求項１記載のジェスチャ認識方法。
【請求項３】前記抽出された肌色部分の大きさが、所
定範囲外である場合には、顔の候補から除外するステッ
プを有することを特徴とする請求項１記載のジェスチャ
認識方法。
【請求項４】前記顔抽出ステップでは、顔のテンプレ
ートの大きさが可変であることを特徴とする請求項１記
載のジェスチャ認識方法。
【請求項５】前記抽出された顔部分の移動情報を移動
履歴として記憶するステップを有し、前記ジェスチャ認識ステップでは、前記移動履歴を用い
て人物のジェスチャを認識することを特徴とする請求項
２記載のジェスチャ認識方法。
【請求項６】動画像から人物のジェスチャを認識する
ジェスチャ認識装置であって、動画像を入力する入力手段と、前記動画像から肌色部分を抽出する肌色抽出手段と、前記抽出された肌色部分をあらかじめ用意された顔のテ
ンプレートと照合して顔部分を抽出する顔抽出手段と、前記抽出された顔部分の横幅、縦長さ、又は面積のうち
少なくとも一つに基づいて、前記人物のジェスチャ範囲
を設定するジェスチャ範囲設定手段と、前記入力された動画像から前記ジェスチャ範囲における
ジェスチャ特徴ベクトルを抽出し、該抽出した特徴ベク
トルを用いて人物のジェスチャを認識するジェスチャ認
識手段とを備えることを特徴とするジェスチャ認識装
置。
【請求項７】前記抽出された肌色部分の大きさが、所
定範囲外である場合には、顔の候補から除外する除去手
段をさらに備えることを特徴とする請求項６記載のジェ
スチャ認識装置。
【請求項８】前記顔抽出手段は、顔のテンプレートの
大きさを可変するテンプレート可変手段を備えることを
特徴とする請求項６記載のジェスチャ認識装置。
【請求項９】前記抽出された顔部分の移動情報を移動
履歴として記憶する移動履歴記憶手段を備え、前記ジェスチャ認識手段は、前記移動履歴を用いて人物
のジェスチャを認識することを特徴とする請求項６記載
のジェスチャ認識装置。
【請求項１０】前記顔抽出手段により抽出された顔部
分が複数あり、かつ前記設定されたジェスチャ範囲に重
なりがあるとき、ユーザに警告を提示する警告手段をさ
らに備えることを特徴とする請求項６に記載のジェスチ
ャ認識装置。
【請求項１１】音声、又はジェスチャ入力に対して対
応する対話装置において、前記請求項６乃至１０のいずれか一項に記載のジェスチ
ャ認識装置を備え、前記ジェスチャ認識装置からの出力結果に対応する動画
像又は音声により合成して出力することを特徴とする対
話装置。
【請求項１２】前記入力に対する対応は、自己の動作
を動画像により表示する、音声合成により出力する、文
字列データにより表示する、又は機構的構造を有するロ
ボットの動作により表現することを特徴とする請求項１
１記載の対話装置。
【請求項１３】動画像から人物のジェスチャを認識す
るジェスチャ認識方法であって、動画像を入力するステ
ップと、前記動画像から肌色部分を抽出するステップ
と、前記抽出された肌色部分をあらかじめ用意された顔
のテンプレートと照合して顔部分を抽出する顔抽出ステ
ップと、前記抽出された顔部分の横幅、縦長さ、又は面
積のうち少なくとも一つに基づいて、前記人物のジェス
チャ範囲を設定するステップとを有するジェスチャ認識
方法として機能させるためのプログラムを記録したこと
を特徴とするコンピュータ読み取り可能な記録媒体。
【請求項１４】動画像から人物のジェスチャを認識す
るジェスチャ認識方法であって、動画像を入力するステ
ップと、前記動画像から肌色部分を抽出するステップ
と、前記抽出された肌色部分をあらかじめ用意された顔
のテンプレートと照合して顔部分を抽出する顔抽出ステ
ップと、前記抽出された顔部分の横幅、縦長さ、又は面
積のうち少なくとも一つに基づいて、前記人物のジェス
チャ範囲を設定するステップとを有するジェスチャ認識
方法として機能させるためのプログラム。