JP2003216955A - ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体 - Google Patents

ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体

Info

Publication number
JP2003216955A
JP2003216955A JP2002013677A JP2002013677A JP2003216955A JP 2003216955 A JP2003216955 A JP 2003216955A JP 2002013677 A JP2002013677 A JP 2002013677A JP 2002013677 A JP2002013677 A JP 2002013677A JP 2003216955 A JP2003216955 A JP 2003216955A
Authority
JP
Japan
Prior art keywords
gesture
face
gesture recognition
extracted
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002013677A
Other languages
English (en)
Inventor
Michiaki Mukai
理朗 向井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002013677A priority Critical patent/JP2003216955A/ja
Publication of JP2003216955A publication Critical patent/JP2003216955A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 人物のジェスチャの認識範囲を限定すること
ができるジェスチャ認識方法、ジェスチャ認識装置、対
話装置及びジェスチャ認識プログラムを記録した記録媒
体を提供する。 【解決手段】 ジェスチャ認識装置は、動画像データを
入力する画像入力部11と、肌色領域を抽出する肌色抽
出部16と、各領域に対して顔形状のテンプレートを用
いて顔らしさを算出するテンプレートマッチング部17
と、算出された顔領域の横幅、縦長さ、面積などを用い
て人物のジェスチャの起こりうる範囲を限定する認識空
間推定部18と、限定された全ての範囲からジェスチャ
認識に必要な特徴ベクトルを抽出する特徴量抽出部12
と、特徴ベクトルの履歴情報を格納する履歴格納部14
と、抽出された特徴ベクトルと格納されている特徴ベク
トルの履歴情報を用いてあらかじめ用意されている標準
パターンとのマッチング処理を行うパターンマッチング
部13と、パターンマッチング部13による判定結果を
出力する出力部15とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ビデオカメラ等で
撮影した動画像からジェスチャの意味内容をコンピュー
タにより認識するためのジェスチャ認識方法、ジェスチ
ャ認識装置及びジェスチャ認識プログラム、並びにユー
ザと機械との間で自然な対話を実現するジェスチャ認識
装置を含む対話装置に関する。
【0002】
【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ(以下、PCという)等
の機器に搭載されつつある。音声認識装置は通常それぞ
れの機器の一部として内蔵されている。この音声認識装
置、手書き文字認識装置、マウス、ライトペン、タブレ
ット等のポインティングデバイスなど、複数の入力装置
をコンピュータに接続して、ユーザがその局面局面にお
いて自分にとって最も都合の良い入力装置を使って入力
できれば非常に使いやすいインタフェースとなる。この
ように複数の異なる入力モードから、ユーザが任意の入
力モードを選択し、組み合わせて自分の意図をシステム
に伝えることができるインタフェースのことをマルチモ
ーダルインタフェースという。
【0003】また、人間のジェスチャ(身振り手振り)
を認識する技術は、柔軟なマンマシンインタフェースを
構築する上で重要である。特に動作者にデータグローブ
等の接触型センサを装着させること無く、動作を捕らえ
るジェスチャ認識が試みられている。すでにHMM(Hi
dden Markov Model)や連続DP(Continuous Dynamic
Programming)などを用いたジェスチャ認識方法が提案
されている。
【0004】例えば、特開平10−162151号公報
には、さまざまな照明条件下で連続DPを用いて認識す
る方法が開示されている。しかし、上記公報記載のジェ
スチャ認識方法は、1名のジェスチャを認識することに
限定されたものであった。複数人物が計算機と音声や身
振りで対話するマルチモーダル対話と呼ぶ方法が重要に
なっている。特開平10−149447号公報には、特
殊なカメラを用いて複数人物のジェスチャを同時に認識
する方法が開示されている。このジェスチャ認識方法で
は、あらかじめユーザがどこにいて、どれくらいの認識
空間を用意すればいいのかわかっている必要があった。
【0005】
【発明が解決しようとする課題】上述したように、特開
平10−162151号公報記載のジェスチャ認識方法
では、1名のジェスチャしか認識できないという問題点
がある。また、特開平10−149447号公報記載の
ジェスチャ認識方法では、複数の人物のジェスチャを同
時に認識できるものの、人物の存在する場所は事前に教
示する必要があり、認識システムが稼動中にユーザが移
動すると正しく認識できなくなるという問題点があっ
た。すなわち、入力画像中に複数のユーザが存在し、入
力画像内を動き回る可能性がある状態であってもユーザ
のジェスチャを安定して認識することが必要である。
【0006】本発明は、このような課題に鑑みてなされ
たものであって、人物のジェスチャの認識範囲を限定す
ることができるジェスチャ認識方法、ジェスチャ認識装
置、対話装置及びジェスチャ認識プログラムを記録した
記録媒体を提供することを目的としている。
【0007】
【課題を解決するための手段】本発明のジェスチャ認識
方法は、動画像から人物のジェスチャを認識するジェス
チャ認識方法であって、動画像を入力するステップと、
前記動画像から肌色部分を抽出するステップと、前記抽
出された肌色部分をあらかじめ用意された顔のテンプレ
ートと照合して顔部分を抽出する顔抽出ステップと、前
記抽出された顔部分の横幅、縦長さ、又は面積のうち少
なくとも一つに基づいて、前記人物のジェスチャ範囲を
設定するステップとを有することを特徴としている。さ
らに、前記入力された動画像から前記ジェスチャ範囲に
おけるジェスチャ特徴ベクトルを抽出し、該抽出した特
徴ベクトルを用いて人物のジェスチャを認識するジェス
チャ認識ステップを有することを特徴とする。
【0008】請求項1又は2の発明によれば、顔の大き
さを基準に身体の大きさを推定し、認識すべきジェスチ
ャが発生しうる領域を限定する。その方法として、まず
入力画像から肌色情報で顔の存在位置を推定する。次に
顔の形のテンプレートを使って顔以外の肌色部分を除去
する。このとき顔の大きさをあらわすパラメータ(横
幅、縦、面積など)のうち少なくとも一つを使って身体
の大きさを推定することができ、ジェスチャの範囲を限
定することができる。
【0009】また、前記抽出された肌色部分の大きさ
が、所定範囲外である場合には、顔の候補から除外する
ステップを有することで、抽出された肌色領域のうち、
所定の大きさ範囲以外の場合には領域にはジェスチャを
認識する必要の無い部分として削除することができる。
また、前記顔抽出ステップでは、顔のテンプレートの大
きさが可変であることで、顔の形のテンプレートを顔の
大きさをあらわすパラメータ(横幅、縦、面積など)に
よってその大きさを変えられるようにすることができ
る。
【0010】また、前記抽出された顔部分の移動情報を
移動履歴として記憶するステップを有し、前記ジェスチ
ャ認識ステップでは、前記移動履歴を用いて人物のジェ
スチャを認識するものであってもよい。例えば、顔の位
置の移動履歴と大きさ履歴を作成し、ジェスチャを認識
するための特徴ベクトルの一つとするようにする。
【0011】本発明のジェスチャ認識装置は、動画像か
ら人物のジェスチャを認識するジェスチャ認識装置であ
って、動画像を入力する入力手段と、前記動画像から肌
色部分を抽出する肌色抽出手段と、前記抽出された肌色
部分をあらかじめ用意された顔のテンプレートと照合し
て顔部分を抽出する顔抽出手段と、前記抽出された顔部
分の横幅、縦長さ、又は面積のうち少なくとも一つに基
づいて、前記人物のジェスチャ範囲を設定するジェスチ
ャ範囲設定手段と、前記入力された動画像から前記ジェ
スチャ範囲におけるジェスチャ特徴ベクトルを抽出し、
該抽出した特徴ベクトルを用いて人物のジェスチャを認
識するジェスチャ認識手段とを備えることを特徴してい
る。
【0012】また、前記抽出された肌色部分の大きさ
が、所定範囲外である場合には、顔の候補から除外する
除去手段をさらに備えるものであってもよく、また、前
記顔抽出手段は、顔のテンプレートの大きさを可変する
テンプレート可変手段を備えるものであってもよい。
【0013】また、前記抽出された顔部分の移動情報を
移動履歴として記憶する移動履歴記憶手段を備え、前記
ジェスチャ認識手段は、前記移動履歴を用いて人物のジ
ェスチャを認識するものであることで、複数の被写体を
時系列的に撮像し、撮像した画像から肌色情報を使って
被写体の存在を限定し、それをもとに被写体のジェスチ
ャの範囲を限定することができる。
【0014】また、より好ましくは、前記顔抽出手段に
より抽出された顔部分が複数あり、かつ前記設定された
ジェスチャ範囲に重なりがあるとき、ユーザに警告を提
示する警告手段をさらに備えるもので、抽出された顔部
分が複数存在し、かつ前記顔部分を元に限定したジェス
チャ範囲に重なりが生じるときにユーザに対し警告を提
示することができる。
【0015】本発明の対話装置は、音声、又はジェスチ
ャ入力に対して対応する対話装置において、前記請求項
6乃至10のいずれか一項に記載のジェスチャ認識装置
を備え、前記ジェスチャ認識装置からの出力結果に対応
する動画像又は音声により合成して出力することを特徴
としている。
【0016】また、好ましい具体的な態様としては、前
記入力に対する対応は、自己の動作を動画像により表示
する、音声合成により出力する、文字列データにより表
示する、又は機構的構造を有するロボットの動作により
表現するものであってもよい。ジェスチャ認識装置の結
果から意味を被写体の意図を理解し、音声合成、画像合
成、テキスト等文字列表示のうち少なくとも一つ以上を
使って応答することができる。
【0017】さらに、本発明は、動画像から人物のジェ
スチャを認識するジェスチャ認識方法であって、動画像
を入力するステップと、前記動画像から肌色部分を抽出
するステップと、前記抽出された肌色部分をあらかじめ
用意された顔のテンプレートと照合して顔部分を抽出す
る顔抽出ステップと、前記抽出された顔部分の横幅、縦
長さ、又は面積のうち少なくとも一つに基づいて、前記
人物のジェスチャ範囲を設定するステップとを有するジ
ェスチャ認識方法として機能させるためのプログラムを
記録したことを特徴とするコンピュータ読み取り可能な
記録媒体である。
【0018】また、本発明は、動画像から人物のジェス
チャを認識するジェスチャ認識方法であって、動画像を
入力するステップと、前記動画像から肌色部分を抽出す
るステップと、前記抽出された肌色部分をあらかじめ用
意された顔のテンプレートと照合して顔部分を抽出する
顔抽出ステップと、前記抽出された顔部分の横幅、縦長
さ、又は面積のうち少なくとも一つに基づいて、前記人
物のジェスチャ範囲を設定するステップとを有するジェ
スチャ認識方法として機能させるためのプログラムであ
る。
【0019】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適なジェスチャ認識方法、ジェスチャ認識装置
及び対話装置の実施の形態について詳細に説明する。ま
ず、本発明の基本的な考え方について説明する。本発明
は、ジェスチャ認識方法、ジェスチャ認識装置及びジェ
スチャ認識装置を含む対話装置にかかるものである。現
代人は、ほぼ7頭身であることがわかっている。そこで
顔の大きさを基準に身体の大きさを推定し、認識すべき
ジェスチャが発生しうる領域を限定する。
【0020】また、入力画像から肌色情報で顔の存在位
置を推定する。次に顔の形のテンプレートを使って顔以
外の肌色部分を除去する。このとき顔の大きさをあらわ
すパラメータ(横幅、縦、面積など)のうち少なくとも
一つを使って身体の大きさを推定することができ、ジェ
スチャの範囲を限定することができる。抽出された肌色
領域のうち、所定の大きさ範囲以外の場合には領域には
ジェスチャを認識する必要の無い部分として削除する。
【0021】これにより、人物の存在する場所を事前に
教示することなく、入力画像中に複数のユーザが存在
し、入力画像内を動き回る可能性がある状態であっても
ユーザのジェスチャを安定して認識することができ、ユ
ーザとシステムとの間に円滑な対話を実現できる。
【0022】第1の実施の形態 図1は、上記基本的な考え方に基づく本発明の第1の実
施の形態のジェスチャ認識方法及びジェスチャ認識装置
の基本構成を示すブロック図である。ジェスチャ認識装
置として、パソコン等の情報処理装置に適用した例であ
る。図1において、ジェスチャ認識装置10は、動画像
データを入力する画像入力部11(入力手段)と、認識
空間推定部18により限定された全ての範囲からジェス
チャ認識に必要な特徴ベクトルを抽出する特徴量抽出部
12と、特徴量抽出部12により抽出された特徴ベクト
ルと履歴格納部14に格納されている特徴ベクトルの履
歴情報を用いてあらかじめ用意されている標準パターン
とのマッチング処理を行うパターンマッチング部13
と、特徴ベクトルの履歴情報を格納する履歴格納部14
(移動履歴記憶手段)と、パターンマッチング部13に
よる判定結果を出力する出力部15と、画素ごとに肌色
であることを判定して肌色領域を抽出する肌色抽出部1
6(肌色抽出手段)と、各領域に対して顔形状のテンプ
レートを用いて顔らしさを算出するテンプレートマッチ
ング部17(顔抽出手段)と、算出された顔領域の横
幅、縦長さ、面積などを用いて人物のジェスチャの起こ
りうる範囲を限定する認識空間推定部18(ジェスチャ
範囲設定手段)とを備えて構成される。
【0023】上記特徴量抽出部12及びパターンマッチ
ング部13は、全体として、入力された動画像からジェ
スチャ範囲におけるジェスチャ特徴ベクトルを抽出し、
該抽出した特徴ベクトルを用いて人物のジェスチャを認
識するジェスチャ認識手段を構成する。
【0024】図2は、上記ジェスチャ認識装置10の具
体的なシステム構成を示すブロック図である。図2にお
いて、ジェスチャ認識装置10は、CPU21、RO
M,RAM等からなるシステムメモリ22、標準パター
ン、テンプレート及びCPU21の演算処理結果を格納
する外部記憶装置であるハードディスクドライブ(HD
D)23、I/Oインタフェース24、キーボード及び
マウス等のポィンティングデバイスからなる入力装置2
5、画像信号を入力するCCDカメラ26、ドットマト
リックス構成の液晶表示装置(LCD)等からなり動作
形状を出力するディスプレイ27、及び出力装置28を
備えたコンピュータ20上に実装される。CPU21
は、画像認識処理等の動作演算処理の実行を含む装置全
体の制御を行う制御部であり、システムメモリ22上の
プログラムに従い、演算に使用するデータを記憶したメ
モリを使用してアプリケーション処理等各種処理を実行
する。
【0025】特に、CPU21は、ROM上のプログラ
ムに従い、CCDカメラ26から入力された画像はシス
テムメモリ22上を用いて処理を行う。CPU21は後
述するジェスチャ認識方法に従って画像処理を行い、ユ
ーザの認識対象空間を推定する。また、ジェスチャを識
別するための特徴ベクトルを生成し、あらかじめHDD
23内に蓄えてある標準パターンと比較を行い、類似度
が所定の条件を満たすとき、該当パターンであるとし
て、ディスプレイ27又は出力装置28から結果を出力
する制御を行う。
【0026】ROMは、CPU21が動作する際に必要
なプログラム、制御データ等の固定データを記憶する読
出し専用の半導体メモリである。RAMは、文字表示に
関するデータや演算に使用するデータ及び演算結果等を
一時的に記憶するいわゆるワーキングメモリとして使用
され、ビットマップ展開された仮想画面及び表示データ
等を格納する。
【0027】CCDカメラ26は、特殊なカメラである
必要はなく、汎用のものでよい。CCDカメラ26は、
ユーザの顔の動きを含む身体の動きを撮像する。特に、
ユーザの顔及び手(手首)の動きをフレーム毎に撮像し
取り込む。この場合、マーカーを顔、身体に取り付けな
くてもキャプチャは可能である。
【0028】ディスプレイ27は、LCDディスプレイ
からなり、HDD23に格納される画像情報やCPU2
1の演算処理結果を表示する。また、この表示は、ディ
スプレイ27の表示画面上に例えばCG(Computer Gra
phics)で合成表示される。出力装置28は、コンピュ
ータ20による認識結果を表示以外の方法により出力す
るもので、例えば機構的な構造をもつロボットや用紙に
画像を印刷するプリンタ等である。
【0029】CCDカメラ26から入力された画像は、
システムメモリ22上に展開されて処理される。CPU
21は、後述の方法に従って画像処理を行い、ユーザの
認識対象空間を推定する。CPU21は、ジェスチャを
識別するための特徴ベクトルを生成し、あらかじめHD
D23内に蓄えてある標準パターンと比較を行い、類似
度が所定の条件を満たすとき、該当パターンであるとし
て、ディスプレイ27又は出力装置28から結果を出力
する。
【0030】以下、上述のように構成されたジェスチャ
認識装置の動作を説明する。従来のジェスチャ認識方法
では、ユーザが1名であるか又はその存在位置があらか
じめ判っているという前提条件が存在したため、画像入
力部で得られた画像から直接ジェスチャの認識に必要な
特徴ベクトルを抽出することができた。しかし、人物の
存在する場所を事前に教示する必要があり、またユーザ
が移動すると正しく認識できなくなるという問題点があ
る。
【0031】さらに、実世界ではユーザは複数である。
また固定された椅子に座っているような場合以外は常に
存在場所が異なり、移動している場合もある。そのため
入力画像から「ユーザがジェスチャを行う空間」を切り
出す処理が必要となる。そこで本発明では、入力画像中
のユーザがジェスチャを起こしうる領域を推定し、その
結果得られた領域からジェスチャ認識に必要な特徴ベク
トルを作成する。特に、本発明の特徴とするところは、
人物のジェスチャ範囲を限定するステップを含む点にあ
る。
【0032】図3は、本実施の形態のジェスチャ認識方
法の画像処理の流れとその結果を説明する図であり、図
3(a)はその入力画像、図3(b)はその肌色部分抽
出画像、図3(c)はその顔部分抽出画像、図3(d)
はそのジェスチャ範囲を示す。また、図4は、本実施の
形態のジェスチャ認識方法の概念を説明する図である。
【0033】図3(a)の入力画像中に1人以上の人物
(ここでは3人)が存在すると仮定する。人の顔の色は
肌色であることを利用し、図3(a)の入力画像から肌
色領域101を抽出する。図3(b)は、肌色領域10
1を抽出した肌色部分抽出画像を示す。
【0034】抽出された肌色領域101すべてを顔の候
補としてもよいが、パターンマッチングを行う際の計算
量が大きくなってしまうので、不要な部分を削除する必
要がある。この方法として、図4に示すように、顔形状
のテンプレート102を用意し、抽出した肌色部分と顔
形状のテンプレート102とを比較する。この比較によ
り、ユーザが存在する位置の候補を推定する。ラベル付
けを行った結果、同一のラベルとなった肌色領域に対
し、顔形状のテンプレート102を使って顔らしさを算
出する。テンプレート102は、大きさ別に複数のテン
プレートを用意してもよいし、大きさを可変にして顔の
幅、長さ、面積などのうち一つ以上を使って大きさを決
めてもよい。テンプレート102との類似度が所定の値
よりも小さい場合には顔ではないとして、顔候補から除
くようにする。図4の例では、同一ラベル肌色領域であ
っても人物の手に相当する肌色部分100は、顔形状の
テンプレート102と類似度が大きく異なるため、顔候
補から除去される。このようにして顔部分抽出画像(図
3(c)参照)が作成される。次に顔の大きさから身体
の大きさを推定し、ジェスチャ認識空間103を決定す
る(図3(d)参照)。
【0035】上記処理の流れを、図1を用いて説明す
る。肌色抽出部16では、画像入力部11で入力された
入力画像を元に肌色領域を抽出する。画素ごとに肌色で
あるかどうかを判定した後、隣接する8方向の画素との
連結性を考慮して肌色領域に分割する。
【0036】テンプレートマッチング部17では、各領
域に対してそれぞれ顔形状のテンプレート102を使
い、顔らしさを算出する。算出された顔の確からしさが
所定の条件を満たした場合には、顔領域とする。このと
きの顔領域の横幅、縦、面積などのうち一つ以上を使っ
て認識空間推定部18においてジェスチャの起こりうる
範囲を限定する。特徴量抽出部12では、限定された全
ての範囲からジェスチャ認識に必要な特徴ベクトルを抽
出する。
【0037】パターンマッチング部13では、抽出され
た特徴ベクトルと履歴格納部14に格納してある直前の
特徴ベクトルの履歴情報を用いてあらかじめ用意されて
いる標準パターンとのマッチング処理を行う。この特徴
ベクトルは、履歴格納部14に格納される。パターンマ
ッチング部13の判定結果は、出力部15により出力さ
れる。該当するパターンが存在しない場合には何も出力
しなくてもよい。
【0038】図5は、本ジェスチャ認識方法の処理の流
れを示すフローチャートであり、コンピュータ20に実
装される場合はCPU21により実行される。図中、S
はフローの各ステップを示す。まず、ステップS1でC
CDカメラ26等の入力デバイスからの入力画像を取り
込む。本実施の形態では、入力画像のフォーマットをR
GB各8ビットの24ビットとし、時間的に連続して入
力されると仮定する。
【0039】ステップS2では、入力画像から肌色領域
101(図3(a)参照)を抽出する。肌色領域抽出処
理の詳細については、図6により後述する。次いで、ス
テップS3でラベル付けを行う。このラベル付けでは、
上記ステップSで抽出された肌色部分について、画素の
連結性に着目し、隣接8方向の画素のうち少なくとも一
つが連続していれば同じラベル番号を振るようにする。
すなわち、同じ番号のついた肌色の画素は一つの領域を
形成する。
【0040】次いで、ステップS4で顔の位置の推定を
行う。顔の位置の推定は、図3及び図4で述べたように
あらかじめ用意した顔形状のテンプレート102を使っ
て類似度を算出することにより行う。ここで、上記ステ
ップS3において同一ラベルの領域が限定できるので、
この領域の大きさにあわせたテンプレート102を選択
することができる。図4は、抽出された同一ラベル肌色
領域101と大きさをあわせたテンプレート102の例
である。同一ラベルの肌色領域の重心とテンプレートの
重心を合わせて形状の類似度を算出することで、探索領
域を減らすことができる。類似度が低ければ顔ではない
と判断し、肌色領域に付与したラベル番号を削除し、顔
候補から削除する。図3(c)は、顔候補のみを黒と
し、それ以外を白にした結果である。
【0041】ステップS5では、ジェスチャの起こりえ
る認識領域を推定する。成人の場合ほぼ7頭身であるこ
とがわかっているので、顔の大きさを基準に身体の大き
さを推定する。顔の幅xのn(nは1以上の実数)倍を
認識対象空間の横幅X、顔の長さyのm(mは1以上の
実数)倍を縦Yとする。したがって、認識空間の大きさ
は認識する対象となるジェスチャの大きさにより変化す
ることになる。
【0042】ステップS6では、認識のための特徴量を
求めることによりジェスチャ特徴ベクトルを取得する。
取得した特徴量は認識空間の大きさに応じて正規化する
ことで、同一のジェスチャに対応した標準パターンを複
数持つ必要が無くなる。ステップS7では、取得した特
徴量を使った認識を行う。認識のアルゴリズムは、例え
ば特開平10−162151号公報記載の連続DP(Co
ntinuous Dynamic Programming)を用いた認識方法を適
用する。
【0043】ステップS8では、該当パターンがあるか
否かを判別し、該当パターンがない場合には、ステップ
S1に戻って上記処理を繰り返す。上記ステップS7の
パターンマッチングの結果、類似度が所定の閾値よりも
高くなった場合には、該当パターンがあると判断してス
テップS9で認識結果を出力して本フローを終了する。
【0044】図6は、ジェスチャ認識方法の肌色領域抽
出処理を示すフローチャートであり、図2のステップS
2の処理を詳細フローである。まず、ステップS11で
画像を入力し、ステップS12で表色系をRGB(赤、
青、緑)系からからHSV(色合、明度、強度)系に変
換する。以下はRGB表色系をHSV表色系に変換する
一般的な変換式である。 cmax=maximum(R、G、B) cmin=minimum(R、G、B) V=cmax S=(cmax−cmin)/cmax 但し、cmax=0の時はS=0 このとき、 R=cmaxならばH=60*{(G−B)/(cmax−cmi
n)} G=cmaxならばH=60*{2+(B−R)/(cmax−
cmin)} B=cmaxならばH=60*{4+(R−G)/(cmax−
cmin)} とする。なお、H<0の時はHに360を加える。ま
た、S=0の時はH=0とする。また、あらかじめ変換
テーブルを用意し、RGBの各値から直接肌色領域を求
めてもよい。
【0045】次いで、ステップS3で色合、明度、強度
のうち一つ以上を使って、肌色であるかどうか判別を行
い、肌色ならば1、それ以外なら0に二値化する。その
まま肌色領域として出力してもよいが、実際にはノイズ
が発生していることが多いので、孤立点を除去する従来
公知の手法でノイズを除去する。次いで、ステップS1
4で縮小処理を行う。この縮小処理は、例えば隣接4方
向(上下左右)の画素がすべて1であるならば1を、一
方向でも0の画素があれば0を割り当てるようにする。
【0046】次いで、ステップS15で膨張処理を行
い、ステップS16で肌色領域画像を出力して本フロー
を終え、図5のステップS3に戻る。上記膨張処理は、
例えば隣接4方向(上下左右)の画素のうち全ての画素
が0の場合には0を、少なくとも一方向の画素が1の場
合には1を割り当てる。上記ステップS14及びステッ
プS15の処理の結果、孤立点が無くなり、凹凸が少な
くなる。
【0047】図3の例では、図3(a)に示す入力画像
に対して肌色領域部分が抽出され、図3(b)に示すよ
うに肌色部分が黒に、それ以外が白に二値化された結果
となる。以上のように、本実施の形態のジェスチャ認識
装置は、動画像データを入力する画像入力部11と、肌
色領域を抽出する肌色抽出部16と、各領域に対して顔
形状のテンプレートを用いて顔らしさを算出するテンプ
レートマッチング部17と、算出された顔領域の横幅、
縦長さ、面積などを用いて人物のジェスチャの起こりう
る範囲を限定する認識空間推定部18と、限定された全
ての範囲からジェスチャ認識に必要な特徴ベクトルを抽
出する特徴量抽出部12と、特徴ベクトルの履歴情報を
格納する履歴格納部14と、抽出された特徴ベクトルと
格納されている特徴ベクトルの履歴情報を用いてあらか
じめ用意されている標準パターンとのマッチング処理を
行うパターンマッチング部13と、パターンマッチング
部13による判定結果を出力する出力部15とを備え、
入力動画像から肌色部分を抽出するステップと、前記抽
出された肌色部分をあらかじめ用意された顔のテンプレ
ートと照合して顔部分を抽出する顔抽出ステップと、抽
出された顔部分の横幅、縦長さ、又は面積のうち少なく
とも一つに基づいて、人物のジェスチャ範囲を設定する
ステップと、入力された動画像からジェスチャ範囲にお
けるジェスチャ特徴ベクトルを抽出し、該抽出した特徴
ベクトルを用いて人物のジェスチャを認識するジェスチ
ャ認識ステップとを順次実行することで、人物の存在す
る場所を事前に教示したり、ユーザが移動する場合であ
っても、複数の人物ごとにジェスチャの範囲を限定する
ことができ、ユーザのジェスチャを安定して認識するこ
とができる。
【0048】第2の実施の形態 図7は、本発明の第2の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。本実施の形態の説明にあたり、図1と同一構成
部分には同一番号を付して重複箇所の説明を省略する。
図7において、ジェスチャ認識装置30は、肌色抽出部
16の後段に、抽出された肌色部分の大きさが所定の大
きさ範囲以外の場合には顔の候補から除外する擬似似顔
除去部31(除去手段)を備えて構成される。ジェスチ
ャ認識装置30は、第1の実施の形態と同様に、図2に
示すコンピュータ20上に実装される。以下、上述のよ
うに構成されたジェスチャ認識装置の動作を説明する。
【0049】第1の実施の形態は、肌色領域を抽出した
後にラベリングを行うが、同一ラベルの画素数が極端に
小さい場合には、顔形状のテンプレート102とのマッ
チングを行うと類似度を計算できなくなることがある。
肌色領域101の大きさにテンプレート102を合わせ
た場合に形状がつぶれてしまい、保てなくなるためであ
る。また、極端に大きい場合にはジェスチャが起こりう
る範囲が入力画像からはみ出すことが想定され、最終的
な目的であるジェスチャを認識することが困難になる。
【0050】そこで、本実施の形態では、抽出された肌
色領域のうち、同一ラベルの領域の画素数、横幅、縦の
うち少なくとも一つを使って認識対象を選別する。例え
ば、ラベルn(nは1以上の実数)の横幅がxnの場
合、xmin≦xn≦xmaxなる範囲を定め、その範囲内の
みテンプレートマッチングを行う。
【0051】さらに特開平8−106519号公報に記
載の顔方向判定装置及びそれを用いた画像表示装置など
の顔の向きを認識する方法を組み合わせた場合、所定の
方向を向いているかどうかで絞り込むことができる。例
えば、前述のようにテンプレートマッチングを行い、顔
らしさを推定した後に、顔の向きを判定する。判定の結
果が所定の向き(例えばカメラの方向)を向いている場
合にそのジェスチャを認識するよう、特徴ベクトルを抽
出するようにする。顔の向きによる絞込みは、後述する
ように推定したジェスチャの認識対象空間に重なりが無
い場合にはしなくてもよい。
【0052】図8は、本ジェスチャ認識方法の処理の流
れを示すフローチャートであり、図5に示すフローと同
一処理を行うステップについては同一ステップ番号を付
して説明を省略する。ステップS3でラベル付けを行う
と、ステップS21で同一ラベルの画素数、横幅、縦の
うち一つ以上を使って顔の位置の認識対象外であるラベ
ルのものを削除してステップS4に進む。ステップS4
以降は、図5のフローチャートと同じである。
【0053】以上のように、本実施の形態のジェスチャ
認識装置30は、抽出された肌色部分の大きさが所定の
大きさ範囲以外の場合には顔の候補から除外する擬似似
顔除去部31を備えているので、所定の大きさ範囲以外
の肌色領域を無視して、ジェスチャを認識する必要の無
い部分として削除することができ、処理範囲を限定する
ことができる。これにより、認識精度を高めることがこ
とができるとともに、処理速度の向上を図ることができ
る。
【0054】第3の実施の形態 図9は、本発明の第3の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。本実施の形態の説明にあたり、図1と同一構成
部分には同一番号を付して重複箇所の説明を省略する。
図9において、ジェスチャ認識装置40は、肌色抽出部
16の後段に、顔の形のテンプレートを顔の大きさをあ
らわすパラメータ(横幅、縦長さ、面積など)によって
テンプレートの大きさを可変するテンプレート作成部4
1(テンプレート可変手段)を備えて構成される。以
下、上述のように構成されたジェスチャ認識装置の動作
を説明する。
【0055】図10は、本ジェスチャ認識方法の処理の
流れを示すフローチャートであり、図5に示すフローと
同一処理を行うステップについては同一ステップ番号を
付して説明を省略する。ステップS3でラベル付けを行
うと、ステップ31で認識対象となった肌色領域の横
幅、長さ、面積などのうち一つ以上を使って大きさを変
える。例えば、同一ラベルの肌色領域の幅をxとすると
き、テンプレートの横幅が同じになるようにテンプレー
トの縦、横それぞれn(nは1以上の実数)倍すること
で大きさ可変のテンプレートを用いる。ステップS4以
降は、図5のフローチャートと同じである。
【0056】以上のように、本実施の形態のジェスチャ
認識装置40は、顔の形のテンプレートを顔の大きさを
あらわすパラメータによってテンプレートの大きさを可
変するテンプレート作成部41を備えているので、前記
マッチング処理により肌色領域が顔の形をしていること
を抽出する際、テンプレートを複数持つ必要が無くな
り、メモリを減少させることができる。
【0057】第4の実施の形態 図11は、本発明の第4の実施の形態のジェスチャ認識
方法及びジェスチャ認識装置の基本構成を示すブロック
図である。本実施の形態の説明にあたり、図9及び図1
0と同一構成部分には同一番号を付して重複箇所の説明
を省略する。図11において、ジェスチャ認識装置50
は、肌色抽出部16の後段に、抽出された肌色部分の大
きさが所定の大きさ範囲以外の場合には顔の候補から除
外する擬似似顔除去部31と、顔の形のテンプレートを
顔の大きさをあらわすパラメータ(横幅、縦長さ、面積
など)によってテンプレートの大きさを可変するテンプ
レート作成部41とを備えて構成される。
【0058】以上の構成において、処理の流れとしては
図10のフローチャートのステップS31の前に図8の
ステップS21を実行すればよい。したがって、第2及
び第3の実施の形態の効果を合わせた効果を得ることが
できる。
【0059】第5の実施の形態 ところで、従来のジェスチャ認識では認識対象空間が固
定されていたため、移動しながらのジェスチャを認識す
ることができなかった。本認識方法では、逐次ユーザの
位置を推定しているので、ジェスチャを認識する特徴ベ
クトルの一つとして移動方向、移動速度、移動距離を使
うことができる。
【0060】例えば、前記ジェスチャ認識装置10,3
0,40は、抽出された顔部分の移動情報を記憶する記
憶部を有し、特徴抽出部12が、顔の位置の移動履歴と
大きさ履歴を作成し、ジェスチャを認識するための特徴
ベクトルの一つとする。この記憶部は、特徴抽出部12
が備えていてもよく、具体的な構成としては図2のシス
テムメモリ22に、顔部分の移動情報として一時的に保
存される。CPU21により実行されるプログラムによ
りジェスチャ特徴ベクトルの一つとして取得する(図5
のステップS6)。顔部分の移動情報を特徴ベクトルと
して用いる具体例について説明する。
【0061】・「移動」を一つの特徴ベクトルとして用い
る例 例えば、従来は「右手を挙げる」というジェスチャは認識
できるが、「前進しながら手を挙げる」という複合ジェス
チャは認識することができなかった。本手法では「移動
している」という情報は入力画像内の移動又は認識対象
空間の拡大縮小などから判別することができる。特開平
10−162151号公報記載の認識方法と同様の特徴
ベクトルを用いた場合、認識対象空間を9分割し、空間
のどの部分に動きがあるかを量子化し、9次元の特徴ベ
クトルを生成する。このとき、認識対象空間の動き方
向、大きさ情報、前フレームでの認識対象空間の移動距
離などのうち、少なくとも一つ以上を組み合わせること
でより複雑なジェスチャを認識することができるように
なる。
【0062】・「移動」により生じるノイズを低減する方
法 また、特開平10−162151号公報記載の認識方法
と同様の特徴ベクトルを用いる場合には、時間軸方向の
差分画像を使っているため、ユーザが移動するとジェス
チャを行っていないのに特徴ベクトルには画面全体が動
いたように反応してしまう。そこで移動には関係なくジ
ェスチャのみを切り出す必要がある。あらかじめ記録し
ておいた背景画像と比較し、ユーザの背景と異なる部分
のみ残すようにする。このとき画像全体を使って差分処
理を行うと時間がかかるので認識対象空間のみ背景差分
処理を行ってもよい。ユーザが移動していない場合には
背景差分処理は不要であり、かつ処理速度を落とすの
で、ユーザが移動している場合のみ背景差分処理を行う
ことが好ましい。このあと、認識対象空間の大きさを標
準化し、連続したフレーム間で差分をとることで移動し
ながらの身振りを安定して認識することができる。
【0063】以上のように、本実施の形態のジェスチャ
認識装置50は、特徴抽出部12が、顔の位置の移動履
歴と大きさ履歴を作成してシステムメモリ22に保存
し、ジェスチャを認識するための特徴ベクトルの一つと
するので、顔の位置の移動履歴と大きさ履歴を用いて移
動しながらの身振りを認識できるようになる。
【0064】なお、本実施の形態では、移動履歴と大き
さ履歴を作成してジェスチャを認識するための特徴ベク
トルの一つとする態様を示したが、前記移動履歴を用い
て人物のジェスチャを認識する方法であれば、該移動履
歴を特徴ベクトルの一つとする態様に限らずどのような
方法でもよい。
【0065】第6の実施の形態 上記各実施の形態のジェスチャ認識方法及びジェスチャ
認識装置は、該ジェスチャ認識装置を含む対話装置に適
用することができる。図12は、本発明の第6の実施の
形態の対話装置の構成を示すブロック図である。図12
において、対話装置60は、ユーザからの音声信号を入
力するマイク等音声入力部61、ユーザの顔及び身体の
動きを入力するビデオカメラ等の動作入力部62、入力
された音声信号を認識処理する音声処理部63、入力さ
れた動きを認識処理する動作処理部64、対話用データ
ベース(DB)(図示略)に格納した情報を用いて意味
理解を行うとともに、音声及び動作を制御する制御部6
5、音声を合成して出力する音声出力部66、及び動作
を出力する動作出力部67を含んで構成される。また、
対話装置60の具体的なシステム構成は、図2に示すコ
ンピュータ20上で実現できる。
【0066】音声処理部63は、ユーザのしゃべった内
容を音声認識により獲得する。音声認識の手法として
は、ヒドンマルコフモデル(HMM:hidden Markov mo
del)や連続DPマッチングによるキーワード認識など
を用いる。動作処理部64は、ジェスチャ認識装置1
0,30,40,50を備え、ユーザのジェスチャや画
像による個人認証を行う。
【0067】動作出力部67は、図2のHDD23に格
納される動作情報やCPU21の演算処理結果を動作に
より提示する。また、動作出力部67は、機構的な構造
をもつハード構成の動作形状を出力するロボットでもよ
いし、ディスプレイ27の表示画面上に例えばCGで合
成表示されるものでもよい。上記音声出力部66及び動
作出力部67は、対話相手となる擬人化エージェントを
合成して出力する。
【0068】本実施の形態の対話装置60は、1人以上
の音声、ジェスチャを入力とし、動画像、音、テキスト
データ等の文字列データのうち少なくとも一つを出力す
る対話装置であって、上記各実施の形態のジェスチャ認
識装置10,30,40,50を有する。
【0069】対話装置60の動作について説明する。い
ま、1人以上のユーザが対話装置60を使用している場
合を考える。従来のジェスチャ認識手段を含む対話装置
では、ユーザはあらかじめ認識のために用意されている
場所に位置することで、ジェスチャを認識させる。これ
に対し対話装置60では、ユーザが撮影画像の中に存在
すればよく、カメラの向きの調整など事前の位置あわせ
が不要となる。
【0070】また、しゃべりながら移動した場合でもそ
の際の身振りを認識することができる。さらに、音声の
指向性を制御可能な音声入力部61を組み合わせた場
合、複数のユーザの存在する方向に指向性を制御するこ
とができ、身振りをしながらしゃべっている人の音声だ
けを取り出したり、複数ユーザの音声認識の結果と身振
りの結果を正しく判断することができる。
【0071】例えば、ユーザAが「○○を調べて」と対
話装置60に依頼した場合、画像によるユーザAの存在
方向と音声の指向性からユーザAが発話したことがわか
っていると仮定する。このとき、本対話装置が「○○で
すか?」と問い返したとする。このとき、ユーザAがY
ESを表すジェスチャを、ユーザBがNoを表すジェス
チャをしたとする。ユーザAの発話であるとわかってい
るので、最初の依頼がユーザAのものと判断できる。こ
のとき認識した複数のジェスチャの発生位置からユーザ
AがYESとしていることから、対話装置60は「○○
を調べる」というタスクを実行することができる。ここ
で、抽出された顔部分が複数で、かつ限定されたジェス
チャ範囲に重なりがあるとき、ユーザに警告を提示する
構成としてもよい。
【0072】前述の対話装置60において、入力画像内
で複数のユーザが近づいた場合について考える。このと
きジェスチャの認識対象空間は徐々に近づいていき、あ
るところから重なるようになる。重なりのある認識対象
空間では正しいジェスチャを認識することができないの
で、ユーザに対し、離れるよう警告をする必要がある。
【0073】図13は、上記対話装置60のジェスチャ
認識処理の流れを示すフローチャートであり、対話装置
60において警告を出すまでのフローを示す。図5に示
すフローと同一処理を行うステップについては同一ステ
ップ番号を付して説明を省略する。
【0074】ステップS5でジェスチャ認識領域を推定
すると、ステップS41でジェスチャ認識領域に重なり
があるか否かをチェックする。重なりがある場合には、
ジェスチャを認識できないのでステップS42で警告を
出力して本フローを終了する。警告の出力は、例えば対
話装置のジェスチャ出力がGC表示により行われている
場合には該表示画面上にジェスチャ認識ができない旨の
メッセージを表示することにより行う。また、音声合成
により音声で警告してもよいし、ランプ等により報知す
る態様でもよく、これらを組み合わせてもよい。
【0075】上記警告の提示では、ジェスチャ認識に影
響を及ぼさない微小区間の重なりであるときには警告を
出しつつもジェスチャ認識するようにしてもよい。ま
た、ジェスチャ認識領域に重なりが生じている場合で、
一方のユーザが前述した顔の向きでジェスチャの認識を
しなくてもいいとわかっているのであれば、そのユーザ
を指定して「向かって右側の方はすこし離れてください」
など出力してもよい。
【0076】上記ステップS41で重なりが無い場合に
は、ステップS6でジェスチャ認識に必要な特徴量を抽
出し、ジェスチャを認識する。その認識結果は、本対話
装置60の意味理解部分で利用する。以上のように、本
実施の形態の対話装置60は、ジェスチャ認識装置1
0,30,40,50を備え、認識結果から被写体の意
図を理解し、音声、ジェスチャを入力とし、動画像、
音、テキストデータ等のCGやロボットの動きのうち、
少なくとも一つ以上を使って応答するので、同時に複数
のユーザを対象とした対話装置を提供することができ
る。この場合、対話出力は、種々の組合せが可能であ
る。
【0077】また、複数のユーザが近づきすぎてジェス
チャの認識に障害が発生すると思われるときに警告を発
することにより複数ユーザのジェスチャを安定して認識
することができる対話装置を提供できる。なお、本発明
の対話装置は、上述の各実施の形態に限定されるもので
はなく、本発明の要旨を逸脱しない範囲内において種々
変更を加え得ることは勿論である。例えば、上述したよ
うなマルチモーダルインタフェースを用いた情報処理装
置に適用することもできるが、これには限定されず、全
ての装置に適用可能である。
【0078】また、本実施の形態に係る対話装置が、P
DA(Personal Digital Assistants)等の携帯情報端
末やパーソナルコンピュータの音声・動画像処理機能と
して組み込まれたものでもよい。また、上記各実施の形
態では、ジェスチャ認識方法、ジェスチャ認識装置、対
話装置の名称を用いているが、これは説明の便宜上であ
り、例えば音声・動画像処理装置、マルチモーダルイン
ターフェース装置でもよい。
【0079】また、上記各実施の形態では、動画像から
肌色部分を抽出するようにしているが、肌色について
は、人種等による肌色の差異を考慮してあらかじめ複数
種類の肌色認識パターンを用意し、各肌色について顔部
分を抽出するようにしてもよい。同様に、人物がサング
ラスや帽子等を装着している場合を考慮してこれら装着
時の補正パターンを用意し、顔部分に相当する範囲を補
正するようにしてもよい。さらに、上記補正は、想定さ
れる肌色又は顔部分が適切に抽出できなかった場合に、
実行するようにしてもよい。さらに、上記ジェスチャ認
識装置、対話装置を構成する各部等の種類、データベー
スなどは前述した実施形態に限られない。
【0080】以上説明したジェスチャ認識方法、ジェス
チャ認識装置及び対話装置は、この処理装置を機能させ
るためのプログラムでも実現される。このプログラムは
コンピュータで読み取り可能な記録媒体に格納されてい
る。本発明では、この記録媒体として、メインメモリそ
のものがプログラムメディアであってもよいし、また外
部記憶装置としてプログラム読み取り装置が設けられ、
そこに記録媒体を挿入することで読み取り可能なプログ
ラムメディアであってもよい。いずれの場合において
も、格納されているプログラムはCPUがアクセスして
実行させる構成であってもよいし、あるいはいずれの場
合もプログラムを読み出し、読み出されたプログラム
は、図示されていないプログラム記憶エリアにダウンロ
ードされて、そのプログラムが実行される方式であって
もよい。このダウンロード用のプログラムは予め本体装
置に格納されているものとする。
【0081】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばPCカ
ード(SRAMカード)のほか、磁気テープやカセット
テープ等のテープ系、フロッピーディスク(登録商標)
やハードディスク等の磁気ディスクやCD−ROM/M
O/MD/DVD等の光ディスクのディスク系、ICカ
ード/光カード等のカード系、あるいはマスクROM、
EPROM、EEPROM、フラッシュROM等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。
【0082】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。
【0083】
【発明の効果】以上、詳述したように、本発明によれ
ば、複数のユーザごとにジェスチャの範囲を限定するこ
とができ、人物の存在する場所を事前に教示したり、ユ
ーザが移動する場合であっても、ユーザのジェスチャを
安定して認識することができる。また、移動しながらの
身振りを認識できるようになる。また、同時に複数のユ
ーザを対象とした対話装置を実現することができる。さ
らに、複数ユーザのジェスチャを安定して認識できる対
話装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。
【図2】本実施の形態のジェスチャ認識装置の具体的な
システム構成を示すブロック図である。
【図3】本実施の形態のジェスチャ認識方法の画像処理
の流れとその結果を説明する図である。
【図4】本実施の形態のジェスチャ認識方法の概念を説
明する図である。
【図5】本実施の形態のジェスチャ認識方法の処理の流
れを示すフローチャートである。
【図6】本実施の形態のジェスチャ認識方法の肌色領域
抽出処理を示すフローチャートである。
【図7】本発明の第2の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。
【図8】本実施の形態のジェスチャ認識方法の処理の流
れを示すフローチャートである。
【図9】本発明の第3の実施の形態のジェスチャ認識方
法及びジェスチャ認識装置の基本構成を示すブロック図
である。
【図10】本実施の形態のジェスチャ認識方法の処理の
流れを示すフローチャートである。
【図11】本発明の第4の実施の形態のジェスチャ認識
方法及びジェスチャ認識装置の基本構成を示すブロック
図である。
【図12】本発明の第6の実施の形態の対話装置の構成
を示すブロック図である。
【図13】本実施の形態の対話装置のジェスチャ認識処
理の流れを示すフローチャートである。
【符号の説明】
10,30,40,50 ジェスチャ認識装置 11 画像入力部(入力手段) 12 特徴量抽出部 13 パターンマッチング部 14 履歴格納部(移動履歴記憶手段) 15 出力部 16 肌色抽出部(肌色抽出手段) 17 テンプレートマッチング部(顔抽出手段) 18 認識空間推定部(ジェスチャ範囲設定手段) 20 コンピュータ 21 CPU 22 システムメモリ 23 HDD 24 I/Oインタフェース 25 入力装置 26 CCDカメラ 27 ディスプレイ 28 出力装置 31 擬似似顔除去部(除去手段) 41 テンプレート作成部(テンプレート可変手段) 60 対話装置 61 マイク等音声入力部 62 動作入力部 63 音声処理部 64 動作処理部 65 制御部 66 音声出力部 67 動作出力部 101 肌色領域 102 顔形状のテンプレート
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 13/00 G10L 3/00 571U 15/22 561D 15/24 Q 571Q Fターム(参考) 5B057 AA20 CA01 CA08 CA12 CE16 DA08 DB02 DB06 DB09 DC16 DC25 DC33 5D015 KK02 LL06 5D045 AB30 5L096 AA02 AA06 BA20 DA02 EA13 FA06 FA15 HA07 JA09

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 動画像から人物のジェスチャを認識する
    ジェスチャ認識方法であって、 動画像を入力するステップと、 前記動画像から肌色部分を抽出するステップと、 前記抽出された肌色部分をあらかじめ用意された顔のテ
    ンプレートと照合して顔部分を抽出する顔抽出ステップ
    と、 前記抽出された顔部分の横幅、縦長さ、又は面積のうち
    少なくとも一つに基づいて、前記人物のジェスチャ範囲
    を設定するステップとを有することを特徴とするジェス
    チャ認識方法。
  2. 【請求項2】 さらに、前記入力された動画像から前記
    ジェスチャ範囲におけるジェスチャ特徴ベクトルを抽出
    し、該抽出した特徴ベクトルを用いて人物のジェスチャ
    を認識するジェスチャ認識ステップを有することを特徴
    とする請求項1記載のジェスチャ認識方法。
  3. 【請求項3】 前記抽出された肌色部分の大きさが、所
    定範囲外である場合には、顔の候補から除外するステッ
    プを有することを特徴とする請求項1記載のジェスチャ
    認識方法。
  4. 【請求項4】 前記顔抽出ステップでは、顔のテンプレ
    ートの大きさが可変であることを特徴とする請求項1記
    載のジェスチャ認識方法。
  5. 【請求項5】 前記抽出された顔部分の移動情報を移動
    履歴として記憶するステップを有し、 前記ジェスチャ認識ステップでは、前記移動履歴を用い
    て人物のジェスチャを認識することを特徴とする請求項
    2記載のジェスチャ認識方法。
  6. 【請求項6】 動画像から人物のジェスチャを認識する
    ジェスチャ認識装置であって、 動画像を入力する入力手段と、 前記動画像から肌色部分を抽出する肌色抽出手段と、 前記抽出された肌色部分をあらかじめ用意された顔のテ
    ンプレートと照合して顔部分を抽出する顔抽出手段と、 前記抽出された顔部分の横幅、縦長さ、又は面積のうち
    少なくとも一つに基づいて、前記人物のジェスチャ範囲
    を設定するジェスチャ範囲設定手段と、 前記入力された動画像から前記ジェスチャ範囲における
    ジェスチャ特徴ベクトルを抽出し、該抽出した特徴ベク
    トルを用いて人物のジェスチャを認識するジェスチャ認
    識手段とを備えることを特徴とするジェスチャ認識装
    置。
  7. 【請求項7】 前記抽出された肌色部分の大きさが、所
    定範囲外である場合には、顔の候補から除外する除去手
    段をさらに備えることを特徴とする請求項6記載のジェ
    スチャ認識装置。
  8. 【請求項8】 前記顔抽出手段は、顔のテンプレートの
    大きさを可変するテンプレート可変手段を備えることを
    特徴とする請求項6記載のジェスチャ認識装置。
  9. 【請求項9】 前記抽出された顔部分の移動情報を移動
    履歴として記憶する移動履歴記憶手段を備え、 前記ジェスチャ認識手段は、前記移動履歴を用いて人物
    のジェスチャを認識することを特徴とする請求項6記載
    のジェスチャ認識装置。
  10. 【請求項10】 前記顔抽出手段により抽出された顔部
    分が複数あり、かつ前記設定されたジェスチャ範囲に重
    なりがあるとき、ユーザに警告を提示する警告手段をさ
    らに備えることを特徴とする請求項6に記載のジェスチ
    ャ認識装置。
  11. 【請求項11】 音声、又はジェスチャ入力に対して対
    応する対話装置において、 前記請求項6乃至10のいずれか一項に記載のジェスチ
    ャ認識装置を備え、 前記ジェスチャ認識装置からの出力結果に対応する動画
    像又は音声により合成して出力することを特徴とする対
    話装置。
  12. 【請求項12】 前記入力に対する対応は、自己の動作
    を動画像により表示する、音声合成により出力する、文
    字列データにより表示する、又は機構的構造を有するロ
    ボットの動作により表現することを特徴とする請求項1
    1記載の対話装置。
  13. 【請求項13】 動画像から人物のジェスチャを認識す
    るジェスチャ認識方法であって、動画像を入力するステ
    ップと、前記動画像から肌色部分を抽出するステップ
    と、前記抽出された肌色部分をあらかじめ用意された顔
    のテンプレートと照合して顔部分を抽出する顔抽出ステ
    ップと、前記抽出された顔部分の横幅、縦長さ、又は面
    積のうち少なくとも一つに基づいて、前記人物のジェス
    チャ範囲を設定するステップとを有するジェスチャ認識
    方法として機能させるためのプログラムを記録したこと
    を特徴とするコンピュータ読み取り可能な記録媒体。
  14. 【請求項14】 動画像から人物のジェスチャを認識す
    るジェスチャ認識方法であって、動画像を入力するステ
    ップと、前記動画像から肌色部分を抽出するステップ
    と、前記抽出された肌色部分をあらかじめ用意された顔
    のテンプレートと照合して顔部分を抽出する顔抽出ステ
    ップと、前記抽出された顔部分の横幅、縦長さ、又は面
    積のうち少なくとも一つに基づいて、前記人物のジェス
    チャ範囲を設定するステップとを有するジェスチャ認識
    方法として機能させるためのプログラム。
JP2002013677A 2002-01-23 2002-01-23 ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体 Pending JP2003216955A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002013677A JP2003216955A (ja) 2002-01-23 2002-01-23 ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002013677A JP2003216955A (ja) 2002-01-23 2002-01-23 ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2003216955A true JP2003216955A (ja) 2003-07-31

Family

ID=27650577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002013677A Pending JP2003216955A (ja) 2002-01-23 2002-01-23 ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003216955A (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037350A1 (ja) * 2005-09-29 2007-04-05 Plusmic Corporation 馬位置情報解析並びに表示方法
JP2007164560A (ja) * 2005-12-15 2007-06-28 Sony Corp 画像処理装置および方法、並びにプログラム
WO2007125866A1 (ja) * 2006-04-28 2007-11-08 Nikon Corporation 被写体抽出方法、被写体追跡方法、画像合成方法、被写体抽出コンピュータプログラム、被写体追跡コンピュータプログラム、画像合成コンピュータプログラム、被写体抽出装置、被写体追跡装置、および画像合成装置
JP2008191760A (ja) * 2007-02-01 2008-08-21 Toyota Central R&D Labs Inc 対象物検出装置、対象物検出方法、及びプログラム
JP2008263422A (ja) * 2007-04-12 2008-10-30 Yasumasa Muto 画像撮像装置および画像撮像方法
JP2009129388A (ja) * 2007-11-28 2009-06-11 Nippon Syst Wear Kk 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体
JP2010040052A (ja) * 2009-09-18 2010-02-18 Toshiba Corp 画像処理装置、画像処理方法、画像処理プログラム
JP4548542B1 (ja) * 2009-06-30 2010-09-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US8013890B2 (en) 2008-05-28 2011-09-06 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method for recognizing an object with color
JP2012027532A (ja) * 2010-07-20 2012-02-09 Canon Inc 情報処理装置および情報処理方法
CN102402276A (zh) * 2010-09-13 2012-04-04 大同股份有限公司 可实时辨识非特定手势的嵌入式装置及其辨识方法
JP2012515968A (ja) * 2009-01-21 2012-07-12 トムソン ライセンシング 顔検出及びホットスポットの動きによりメディアを制御する方法
US8428306B2 (en) 2009-06-26 2013-04-23 Sony Corporation Information processor and information processing method for performing process adapted to user motion
CN103279750A (zh) * 2013-06-14 2013-09-04 清华大学 基于肤色范围的驾驶员手持电话行为检测方法
JP2013196047A (ja) * 2012-03-15 2013-09-30 Omron Corp ジェスチャ入力装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器、ジェスチャ入力システム、および、ジェスチャ入力装置の制御方法
EP2704057A2 (en) 2012-08-31 2014-03-05 Omron Corporation Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium
WO2014061372A1 (ja) * 2012-10-18 2014-04-24 コニカミノルタ株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP2014522528A (ja) * 2012-04-06 2014-09-04 騰訊科技(深▲セン▼)有限公司 仮想イメージで自動的に表情を再生する方法及び装置
US9195313B2 (en) 2013-06-05 2015-11-24 Canon Kabushiki Kaisha Information processing apparatus capable of recognizing user operation and method for controlling the same
JP2017530457A (ja) * 2014-09-03 2017-10-12 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited アイデンティティ認証方法ならびに装置、端末及びサーバ
KR101803574B1 (ko) * 2011-07-06 2017-12-28 엘지디스플레이 주식회사 비젼 기반의 제스쳐 인식 시스템
JP2018060579A (ja) * 2017-12-28 2018-04-12 株式会社ニコン 撮像装置
JP2018072272A (ja) * 2016-11-02 2018-05-10 株式会社ニコン 装置、方法、およびプログラム
CN108073890A (zh) * 2016-11-14 2018-05-25 安讯士有限公司 视频序列中的动作识别
KR101870292B1 (ko) * 2011-08-26 2018-06-25 엘지디스플레이 주식회사 사용자 제스처 인식 방법 및 장치와, 이를 사용하는 전기 사용 장치
US20200117885A1 (en) * 2018-10-11 2020-04-16 Hyundai Motor Company Apparatus and Method for Controlling Vehicle
WO2020084842A1 (ja) * 2018-10-24 2020-04-30 株式会社資生堂 プログラム、情報処理装置、定量化方法及び情報処理システム

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037350A1 (ja) * 2005-09-29 2007-04-05 Plusmic Corporation 馬位置情報解析並びに表示方法
US8107679B2 (en) 2005-09-29 2012-01-31 Yamaguchi Cinema Co., Ltd. Horse position information analyzing and displaying method
JP4640155B2 (ja) * 2005-12-15 2011-03-02 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP2007164560A (ja) * 2005-12-15 2007-06-28 Sony Corp 画像処理装置および方法、並びにプログラム
US7907751B2 (en) 2005-12-15 2011-03-15 Sony Corporation Image processing apparatus, method, and program
WO2007125866A1 (ja) * 2006-04-28 2007-11-08 Nikon Corporation 被写体抽出方法、被写体追跡方法、画像合成方法、被写体抽出コンピュータプログラム、被写体追跡コンピュータプログラム、画像合成コンピュータプログラム、被写体抽出装置、被写体追跡装置、および画像合成装置
US8254630B2 (en) 2006-04-28 2012-08-28 Nikon Corporation Subject extracting method and device by eliminating a background region using binary masks
JP4924606B2 (ja) * 2006-04-28 2012-04-25 株式会社ニコン 被写体抽出方法、被写体追跡方法、画像合成方法、被写体抽出コンピュータプログラム、被写体追跡コンピュータプログラム、画像合成コンピュータプログラム、被写体抽出装置、被写体追跡装置、および画像合成装置
JP2008191760A (ja) * 2007-02-01 2008-08-21 Toyota Central R&D Labs Inc 対象物検出装置、対象物検出方法、及びプログラム
JP2008263422A (ja) * 2007-04-12 2008-10-30 Yasumasa Muto 画像撮像装置および画像撮像方法
JP2009129388A (ja) * 2007-11-28 2009-06-11 Nippon Syst Wear Kk 物体認識装置、物体認識方法、物体認識プログラム、および該プログラムを格納するコンピュータ可読媒体
US8013890B2 (en) 2008-05-28 2011-09-06 Kabushiki Kaisha Toshiba Image processing apparatus and image processing method for recognizing an object with color
JP2012515968A (ja) * 2009-01-21 2012-07-12 トムソン ライセンシング 顔検出及びホットスポットの動きによりメディアを制御する方法
US8428306B2 (en) 2009-06-26 2013-04-23 Sony Corporation Information processor and information processing method for performing process adapted to user motion
JPWO2011001761A1 (ja) * 2009-06-30 2012-12-13 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び電子装置
US8107706B2 (en) 2009-06-30 2012-01-31 Sony Corporation Information processing apparatus, information processing method, program, and electronic apparatus
JP2014064047A (ja) * 2009-06-30 2014-04-10 Sony Corp 情報処理装置、情報処理方法及びプログラム
JP4831267B2 (ja) * 2009-06-30 2011-12-07 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び電子装置
WO2011001761A1 (ja) * 2009-06-30 2011-01-06 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び電子装置
JP4548542B1 (ja) * 2009-06-30 2010-09-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US8285054B2 (en) 2009-06-30 2012-10-09 Sony Corporation Information processing apparatus and information processing method
JP2010040052A (ja) * 2009-09-18 2010-02-18 Toshiba Corp 画像処理装置、画像処理方法、画像処理プログラム
JP2012027532A (ja) * 2010-07-20 2012-02-09 Canon Inc 情報処理装置および情報処理方法
CN102402276A (zh) * 2010-09-13 2012-04-04 大同股份有限公司 可实时辨识非特定手势的嵌入式装置及其辨识方法
KR101803574B1 (ko) * 2011-07-06 2017-12-28 엘지디스플레이 주식회사 비젼 기반의 제스쳐 인식 시스템
KR101870292B1 (ko) * 2011-08-26 2018-06-25 엘지디스플레이 주식회사 사용자 제스처 인식 방법 및 장치와, 이를 사용하는 전기 사용 장치
JP2013196047A (ja) * 2012-03-15 2013-09-30 Omron Corp ジェスチャ入力装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器、ジェスチャ入力システム、および、ジェスチャ入力装置の制御方法
JP2014522528A (ja) * 2012-04-06 2014-09-04 騰訊科技(深▲セン▼)有限公司 仮想イメージで自動的に表情を再生する方法及び装置
EP2704057A2 (en) 2012-08-31 2014-03-05 Omron Corporation Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium
JP2014048938A (ja) * 2012-08-31 2014-03-17 Omron Corp ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
EP2704057A3 (en) * 2012-08-31 2015-02-18 Omron Corporation Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium
WO2014061372A1 (ja) * 2012-10-18 2014-04-24 コニカミノルタ株式会社 画像処理装置、画像処理方法および画像処理プログラム
JPWO2014061372A1 (ja) * 2012-10-18 2016-09-05 コニカミノルタ株式会社 画像処理装置、画像処理方法および画像処理プログラム
US9195313B2 (en) 2013-06-05 2015-11-24 Canon Kabushiki Kaisha Information processing apparatus capable of recognizing user operation and method for controlling the same
CN103279750A (zh) * 2013-06-14 2013-09-04 清华大学 基于肤色范围的驾驶员手持电话行为检测方法
US10601821B2 (en) 2014-09-03 2020-03-24 Alibaba Group Holding Limited Identity authentication method and apparatus, terminal and server
JP2017530457A (ja) * 2014-09-03 2017-10-12 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited アイデンティティ認証方法ならびに装置、端末及びサーバ
JP2018072272A (ja) * 2016-11-02 2018-05-10 株式会社ニコン 装置、方法、およびプログラム
CN108073890A (zh) * 2016-11-14 2018-05-25 安讯士有限公司 视频序列中的动作识别
JP2018125841A (ja) * 2016-11-14 2018-08-09 アクシス アーベー ビデオシーケンスにおける動作認識
JP2018060579A (ja) * 2017-12-28 2018-04-12 株式会社ニコン 撮像装置
US20200117885A1 (en) * 2018-10-11 2020-04-16 Hyundai Motor Company Apparatus and Method for Controlling Vehicle
US11010594B2 (en) * 2018-10-11 2021-05-18 Hyundai Motor Company Apparatus and method for controlling vehicle
WO2020084842A1 (ja) * 2018-10-24 2020-04-30 株式会社資生堂 プログラム、情報処理装置、定量化方法及び情報処理システム
JP7408562B2 (ja) 2018-10-24 2024-01-05 株式会社 資生堂 プログラム、情報処理装置、定量化方法及び情報処理システム

Similar Documents

Publication Publication Date Title
JP2003216955A (ja) ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
US11741940B2 (en) Text and audio-based real-time face reenactment
US7454342B2 (en) Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US7472063B2 (en) Audio-visual feature fusion and support vector machine useful for continuous speech recognition
JP4612806B2 (ja) 画像処理装置、画像処理方法、撮像装置
US6959099B2 (en) Method and apparatus for automatic face blurring
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
JP2008186303A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP2006012062A (ja) 画像処理装置及びその方法、プログラム、撮像装置
EP4283577A2 (en) Text and audio-based real-time face reenactment
JP2007087345A (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
KR20120120858A (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
KR20170081350A (ko) 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법
CN111341350A (zh) 人机交互控制方法、系统、智能机器人及存储介质
CN114556469A (zh) 数据处理方法、装置、电子设备和存储介质
JP2006331271A (ja) 代表画像抽出装置及び代表画像抽出プログラム
KR20170030296A (ko) 전자 장치 및 그 정보 처리 방법
CN113177531B (zh) 一种基于视频分析的说话识别方法、系统、设备及介质
CN114639150A (zh) 情绪识别方法、装置、计算机设备和存储介质
JP4379616B2 (ja) モーションキャプチャデータ補正装置、マルチモーダルコーパス作成システム、画像合成装置、及びコンピュータプログラム
Radha et al. A survey on visual speech recognition approaches
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
Ibrahim A novel lip geometry approach for audio-visual speech recognition
JP2002190009A (ja) 電子アルバム装置および電子アルバムプログラムを記録したコンピュータ読取可能な記録媒体
Yu The application of manifold based visual speech units for visual speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070123