発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
本発明の非限定的な実施形態を、図面を参照して説明する。図面において、同様のコンポーネントおよび素子には同じ参照番号が付されている。
研究段階の手話の認識では、手話に用いられる手指の形状には互いに同じまたは類似したものが多く、認識精度が低い。また、研究段階の手話の認識レベルでは、手指のみの静的な画像解析による基礎的な認識方式が多く、特に手話における各ジェスチャまたは所作の判定精度が低い。また、手話の認識精度を上げるために、複数のカメラおよび特殊な距離カメラを用いる研究もなされているが、そのようなカメラを用いる方式は、汎用性が低く実用的でなくコストが高くなる。
一方、既知の動作認識装置では、上半身の画像において顔の位置から左右の肩の位置が特定されることがある。しかし、発明者たちは、そのような動作認識装置では、顔と手指の位置関係を利用して手指の形状およびその変化を識別することはない、と認識した。
発明者たちは、手話に用いられる手指の形状は互いに類似性が高いので、それらの形状を確実に区別して手話の認識を行うには、手指の形状だけを認識する方法では認識精度に限界がある、と認識した。また、発明者たちは、顔と手指の位置関係と手指の形状とに基づいて手話を判定すれば、実用的に充分に高い精度で手話を認識することができる、と認識した。
実施形態の目的は、手話者の顔と手指の位置関係と、手指の形状とに基づいて手話を認識できるようにすることである。
実施形態によれば、距離情報を出力しない広く用いられている1個のカメラだけで撮影された、顔および手指の画像を含むフレーム画像を用いて、実用的に充分に高い精度で手話を認識しまたは翻訳することができる。
図1は、実施形態に利用可能な情報処理装置20の概略的な構成(configuration)の例を示している。
情報処理装置20は、撮影された動画像を表す時系列の一連の画像データを捕捉しまたは遠隔的に受信して保存して処理することができる装置である。情報処理装置20は、例えば、テレビ電話端末、テレビ・ドアホン、デスクトップ型もしくはノートブック型またはタブレット型および/またはノートブック型のパーソナル・コンピュータ、携帯電話機、スマートフォンまたはPDA(Personal Digital Assistant)であってもよい。情報処理装置20は、例えば、プロセッサまたは制御部202、入出力インタフェース(I/O)204、メモリ206および記憶部208、表示部222、音響部224、入力部226、カメラ部228、およびネットワーク・インタフェース(NW/IF)242を含んでいる。情報処理装置20は、さらに、無線通信部244を含んでいてもよい。カメラ部228は、例えばウェブ・カメラのような、話者等の被写体の距離情報を出力しない広く普及している1個の単眼カメラを含んでいればよく、距離情報を出力するカメラまたは複数個のカメラを含んでいなくてよい。
情報処理装置20は、ネットワーク5を介して別の情報処理装置22と通信可能であってもよく、撮影された動画像を表す時系列の複数の画像データを捕捉しまたは受信して保存することができ、情報処理装置22との間で画像データを送受信可能な装置であってもよい。ネットワーク・インタフェース242は、例えばインターネットのようなネットワーク5に接続可能である。無線通信部244は、アクセス・ポイント(無線基地局)52を介して無線でネットワーク5に接続されてもよい。情報処理装置22は、情報処理装置20と同様のまたは情報処理装置20と画像通信可能な装置であってもよい。
情報処理装置20は、外付けドライブ230に接続可能である。ドライブ230は、プログラムが記録された例えば光ディスクまたは磁気ディスクのような記録媒体234を読み取るためのものであってもよい。
プロセッサ202は、コンピュータ用のCPU(Central Processing Unit)であってもよい。メモリ206には、例えば、主記憶装置および半導体メモリ等が含まれる。記憶装置208には、例えばSD(セキュア・ディジタル)メモリまたはUSBメモリ等のフラッシュ・メモリのような半導体メモリが含まれる。記憶装置208には、ハードディスク・ドライブ(HDD)が含まれていてもよい。入出力インタフェース204は、外付けドライブ230に接続可能である。ドライブ230は、ソフトウェアが記録された例えば光ディスクまたは磁気ディスクのような記録媒体232を読み取るためのものであってもよい。そのソフトウェアは、例えば、OS、データベース管理システム(DBMS)、アプリケーション・プログラム、等を含んでいてもよい。アプリケーション・プログラムは、画像認識および手話認識用のアプリケーションを含んでいてもよい。
プロセッサ202は、例えば集積回路として実装された専用のプロセッサであってもよい。また、プロセッサ202は、メモリ206および/または記憶装置208に格納されたアプリケーション・プログラムに従って動作するものであってもよい。アプリケーション・プログラムは、記録媒体232に格納されていて、ドライブ230によって記録媒体232から読み出されて情報処理装置20にインストールされてもよい。
表示部222は、例えば、液晶表示装置、またはタッチパネル付き液晶表示装置であってもよい。音響部224は、例えば、マイクロホン、スピーカ、およびレシーバを含んでいてもよい。入力部226は、例えば、複数のキー、タッチパッド、テンキー、キーボード、タッチパネル、および/またはポインティング・デバイスを含んでいてもよい。
記憶装置208は、手話のテンプレート画像のデータベースと、異なる複数の手話をそれぞれ表すジェスチャのシーケンスまたはツリーのデータベースを含んでいてもよい。
図2は、情報処理装置20のプロセッサ202の概略的な構成(configuration)の例を示している。
プロセッサ202は、制御部2020、アプリケーション部2022、予備処理部2024、画像取込み部2026、画像解析部2028、手話判定部2030、およびその他の処理部2036を含んでいる。プロセッサ202は、さらに個人認証部2032を含んでいてもよい。制御部2020は、アプリケーション部2022、予備処理部2024、画像取込み部2026、画像解析部2028、手話判定部2030および処理部2036に制御信号を供給して、これらの要素の動作を制御してもよい。制御部2020は、さらに、個人認証部2032に制御信号を供給してその動作を制御してもよい。
情報処理装置20は、情報処理装置22からネットワーク5を介して動画像を表す時系列の一連のフレーム画像のデータを受信して取り込んで、その一連のフレーム画像によって表される手話を認識してその翻訳文または意味を表示部222に表示することができる。また、情報処理装置20は、カメラ部228で撮影された動画像を表す時系列の一連のフレーム画像を取り込んで、その一連のフレーム画像によって表される手話を認識して、その翻訳文の文字を表示部222に表示することができる。情報処理装置20は、翻訳文または意味を表示部222の画面に表示する代わりに、音声合成により音響部224のスピーカで翻訳文を表す音声を発生させてもよい。さらに、情報処理装置20は、カメラ部228で撮影された一連の画像データを捕捉して記憶装置208に格納して一連の画像フレームによって表される手話を識別しまたは判定して、その翻訳文をネットワーク5を介して情報処理装置22に送信して表示させてもよい。
次は、実施形態に利用可能な情報処理装置20の製品形態の例について説明する。
図3は、テレビ電話機またはテレビ・ドアホンとしての情報処理装置20の外観の一例を示している。
情報処理装置20は、図3に例示されているようなテレビ電話機またはテレビ・ドアホンであってもよい。この場合、別の情報処理装置22も、対応するテレビ電話機またはテレビ・ドアホンであってもよい。そのようなテレビ電話機またはテレビ・ドアホンは、例えば、会社または病院の受付で使用することができる。このように、テレビ電話機またはテレビ・ドアホンにおいて、遠隔的に撮影された一連のフレーム画像における手話を判定し翻訳することによって、遠隔の別のテレビ電話機またはテレビ・ドアホンで相手が手話で話しても、手話を翻訳して表示することができ、手話者との間で意思疎通を図ることができる。
図4は、パーソナル・コンピュータとしての情報処理装置20の外観の別の例を示している。
情報処理装置20は、図4に例示されているようなパーソナル・コンピュータであってもよい。この場合、別の情報処理装置22は同様にパーソナル・コンピュータであってもよい。そのようなパーソナル・コンピュータは、例えば、会社または家庭で使用することができる。また、情報処理装置20は、情報処理装置20付近にいる手話者をカメラ部228で撮影して、その手話の翻訳文を健常者のために表示部222に表示する形態で使用されてもよい。この場合、情報処理装置20において手話者を撮影して手話の翻訳文を表示することによって、手話のできない者が聾唖者に応対する場合に、聾唖者の手話を翻訳して表示することができ、手話者との間で意思疎通を図ることができる。
次は、実施形態による手話の認識のための概略的な手順の例を説明する。
図5は、情報処理装置20のプロセッサ202によって実行される、手話の認識のための処理の概略的なフローチャートの例を示している。
図5を参照すると、ステップ502において、プロセッサ202(またはその予備処理部2024)は、記憶装置208の画像データベースから、手話の認識に使用する複数のテンプレート画像と、最初のフレーム画像とを読み込む。その最初のフレーム画像は、例えば、カメラ部228で撮影されて、またはネットワーク5を介しネットワーク・インタフェース242または無線通信装置244を介して受信されて、記憶装置208に格納されたものである。フレーム画像は、手話者の少なくとも顔および手指を含む画像データである。次いで、プロセッサ202(またはその画像取込み部2026)は、フレーム画像における手話者の顔を認識してその顔の位置および顔の大きさを求める。顔の位置は、例えば、1フレームのピクセル画像における顔の輪郭線を近似する近似円の中心座標であってもよい。また、顔の大きさは、例えば、1フレームのピクセル画像における顔の輪郭線の近似円の半径または面積であってもよい。
ステップ504において、プロセッサ202(またはその画像取込み部2026)は、次のフレーム画像を手話の認識のために取り込む。そのフレーム画像は、手話者の手話を表すジェスチャを含んでいる可能性があるものである。
ステップ506において、プロセッサ202(またはその画像解析部2028)は、取り込まれたフレーム画像を解析して、手話の判定に使用される特徴、例えば、顔と手指の位置および大きさ、および手指の形状に関する情報を抽出する。手指の位置は、例えば、1フレームのピクセル画像における手指の輪郭線の近似円の中心座標であってもよい。また、手指の大きさは、例えば、1フレームのピクセル画像における手指の輪郭線の近似円の半径または面積であってもよい。
そのために、プロセッサ202(画像解析部2028)は、1つ以上のフレーム画像での顔および手指の領域を分析して、2次元画面における顔および手指の位置および/または大きさを求める。プロセッサ202(画像解析部2028)は、さらに、手話者の手指の形状が、例えば、1つ以上の手指のテンプレート画像とマッチングするか、または複数の手指のテンプレート画像中のいずれの画像とマッチングするかを判定し、手指の形状を表す識別情報を生成する。その手指の形状を表す識別情報は、テンプレート画像の識別情報であってもよい。代替形態として、手話者の手指の形状は、テンプレート画像を用いずに、手指の領域の画像の特徴を分析して判定されるようにしてもよい。
ステップ508において、プロセッサ202(またはその手話判定部2030)は、予備処理によって得られた顔の位置および大きさと、画像の解析によって得られた手指の位置および大きさと基づいて、顔に対する手指の相対的位置とその変化を判定する。顔に対する手指の相対的位置は、1フレームのピクセル画像における2次元座標と、1フレーム以上のピクセル画像における顔に対する手指の奥行き方向の相対的な位置または動きを含んでいてもよい。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置および複数のフレーム画像にわたるその時間的変化と、判定された手指の形状との組合せに基づいて、対応する各ジェスチャまたはその識別情報を決定する。また、プロセッサ202(手話判定部2030)は、手話者の一連のジェスチャの組合せまたはシーケンスに基づいて、対応する手話を判定しまたは決定し、その翻訳文またはその意味を表す情報を生成する。
ステップ510において、プロセッサ202(手話判定部2030)は、手話認識を継続するかどうかを判定する。手話認識を継続すると判定された場合は、手順はステップ504に戻る。例えば、その時点で判定された1つ以上のジェスチャだけでは、有意な手話が決定できない場合に、それまでのジェスチャに次のジェスチャを加えて手話を判定するために、次のフレーム画像が次のステップ504において入力される。また、その後も別の手話が続く場合に、次のフレーム画像が次のステップ504において入力される。手話認識を継続しないと判定された場合は、手順は図5のルーチンを出る。
このように、顔に対する手指の相対的位置と手指形状の組合せに基づいてジェスチャを判定することによって、同じまたは類似の手指形状に対して、手指の相対的位置に応じてジェスチャの差異を識別することができる。そのように、顔に対する手指の相対的位置または時間的な手指の大きさの相対的変化に基づいて手指形状によって表されるジェスチャを判定することによって、同じまたは類似した手指の形状によって表される異なるジェスチャまたは手話を識別することができる。
例えば、手話者が手指を左右に移動させた場合、それが頭上での移動か、身体の右側での移動か、顔を跨いでの移動か、などに基づいて、同じまたは類似の手指の形状で表される異なるジェスチャまたは手話を識別することができる。また、それによって、カメラから手話者の顔および手指までの距離を1個以上のカメラから取得しなくても、顔の大きさに基づいて、手指の奥行き方向の相対的位置またはその時間的変化を識別することができる。それによって、手話の認識精度が高くなり、手話の誤認識率が低減する。
例えば、フレーム画像において、顔領域の大きさが殆ど変化せず、手指領域の大きさが変化した場合は、手指が奥行き方向に移動したと判定されてもよい。一方、顔領域の大きさとともに手指領域の大きさが共に同時に同様の割合で増大または減少した場合は、手話者自身がカメラに対して移動したと判定されてもよい。
その顔に対する手指の相対的位置は、例えば、フレーム画像における手指として認識されたオブジェクト(物体)の座標と、顔として認識されたオブジェクトの座標とが求められて、それらの座標間の差分に基づいて求めることができる。そのために、手指の位置が、例えば、オブジェクトの輪郭線の形状を分析して指状の突起または指先および掌の配置に基づいて、手指の領域を表す座標として求められる。また、顔の座標が、例えば、顔の輪郭線の近似円の中心座標として求められる。その中心座標は、概して鼻の位置に対応する。その求められた手指と顔の座標の差分に基づいて、同じまたは類似した手指形状によって表される異なる手指の相対的位置関係および対応するジェスチャが識別される。
その顔に対する手指の相対的位置の時間的変化は、例えば、一連のフレーム画像にわたる顔および手指の2次元座標の変化または移動を識別することによって、求めることができる。そのために、上述したのと同様に、手指と顔の座標の差分に基づいて、同じまたは類似した手指形状によって表される異なる手指の位置関係およびそのジェスチャが識別される。次いで、複数のフレーム画像にわたる手指と顔の座標間の差分または変化が判定される。その手指と顔の座標間の差分または変化に基づいて、顔に対する手指の相対的位置の時間的変化、例えば、手指が左右に移動したこと、その移動が頭上での移動かまたは身体の右側での移動かなど、が識別される。
手指の奥行き方向での位置関係は、例えば、顔の輪郭線の近似円の半径を大きさの縮尺とすることによって、手指の奥行き方向の位置が求められる。手指は形状によって見かけの大きさが変動するが、顔の大きさはほぼ一定なので縮尺の基準として利用できる。そのために、顔の輪郭線が求められ、顔の座標が顔の輪郭線の近似円の中心座標として求められる。また、上述のような、顔に対する手指の相対的位置の時間的変化が求められる。時間的な手指の大きさの変化に基づいて、顔に対する手指の奥行き方向での時間的な位置の変化または移動量が、カメラと手話者の間の実際の距離または測定距離に関係なく、識別される。
図6は、図5のステップ502における予備処理のためのフローチャートの例を示している。図7A〜7Fは、手指の形状のテンプレート画像の例を示している。
図6を参照すると、ステップ522において、プロセッサ202(画像解析部2028)は、記憶装置208のデータベースに格納された参照用またはマッチング用の1つ以上のテンプレート画像を読み込む。そのテンプレート画像は、例えば、手指の標準的な画像であってもよい。
図7Aは上に向いた握り拳の手指形状のテンプレート画像である。図7Bは掌を正面に向け指先を上に向けて指を開いた平手の手指形状のテンプレート画像である。図7Cは親指と人差し指を開いて中指、薬指および小指を握った状態の手指形状のテンプレート画像である。図7Dは指先を正面に向けた平手の手指形状のテンプレート画像である。図7Eは小指を正面に向けて立てた平手の手指形状のテンプレート画像である。図7Fは掌を正面に向けて親指を下側にした平手の手指形状のテンプレート画像である。これらの手指形状のテンプレート画像には識別情報、例えばH01〜H06が割り当てられていて、その中の1つが、顔に対する手指の相対的位置との関係に基づいて、対応するジェスチャが決定される。
ステップ524において、プロセッサ202(画像解析部2028)は、フレーム画像における顔を認識して顔位置を検出して、検出記憶装置208に格納する。その顔位置は、例えば、顔の領域の2次元座標の範囲であってもよい。顔の認識において、処理を高速化するために、顔位置の検出は、手話の開始前または開始時に一度だけ行われても、または平均的な1つのジェスチャまたは手話の時間より長い時間間隔で行われてもよい。通常、顔の位置が有意な距離で移動することは稀なので、顔位置の判定が最初に一度だけ行われても手話の認識への影響は殆どない。手話が進行している期間に顔の位置が大きく変化した場合には、プロセッサ202(画像解析部2028)は、顔を再び認識して顔位置を再度検出してもよい。顔の認識には、例えばHaar−like特徴分類法を使用することができる。Haar−like特徴分類法は、人間の顔を構成する目、鼻および口の特徴点を抽出して顔を認識する方法である。
次は、一連のフレーム画像の各フレーム画像において、顔領域の画像および手指領域の画像を生成して、手話の判定に用いられる手指の形状および位置を検出する手順を説明する。
図8は、図5のステップ506における画像を解析する処理のための他のフローチャートの例を示している。
次に図8を参照すると、ステップ562において、プロセッサ202(画像解析部2028)は、背景等の不要情報を除去するために、フレーム画像において肌色の領域またはオブジェクトを検出する。それによって、手話認識に用いられるオブジェクトだけが抽出される。
図9A〜9Cは、肌色の領域のオブジェクトの検出におけるフレーム画像の処理の手順の例を示している。
図9Aは取り込まれた元のフレーム画像の例を示している。図9Bは、取り込まれたフレーム画像における肌色の領域だけを抽出しその他の領域を除去した後のフレーム画像の例を示している。この場合、肌色の領域が白の領域として表され、その他の領域が黒の領域として表されて、白黒の二値画像が得られる。白の領域は、顔と手指の領域を含んでいる。図9Cは、図9Bにおける白の領域において、図9Aの元のフレーム画像における対応する領域が組み込まれて合成された画像の例を示している。
ステップ564において、プロセッサ202(画像解析部2028)は、図9Cのようなフレーム画像において、図6の予備処理で検出された顔位置付近にある顔の領域を除外して、手指の領域を抽出する。次いで、プロセッサ202(画像解析部2028)は、例えば図7A〜7Fのような手指形状のテンプレート画像を順次参照して、テンプレート・マッチング方式で、抽出された手指の形状がいずれのテンプレート画像の手指形状に対応するかを検出しまたはその識別情報を決定して記憶装置208に格納する。
図10Aおよび10Bは、図9Cの手指領域の画像とテンプレート画像の間で成立したマッチングの例を示している。例えば、テンプレート・マッチング方式によって、図10Bのテンプレート画像の手指領域が、図10Aのフレーム画像における可能性ある手指領域と比較されて、図10Aにおける白い枠で囲まれた手指領域が、図10Bのテンプレート画像に対応しまたは近似すると判定される。
ステップ566において、プロセッサ202(画像解析部2028)は、フレーム画像における、テンプレート画像に近似すると判定された手指領域の位置を検出して記憶装置208に格納する。その手指領域の位置は、例えば、手指の輪郭線の近似円の中心座標であってもよい。
次は、一連のフレーム画像の各フレーム画像における顔領域および手指領域の位置および大きさと、および検出された手指の形状とに基づいて、手話を認識する手順を説明する。
1つの手話は、しばしば、特徴的な幾つかの段階の一連のジェスチャを含んでいる。1つの手話を表すジェスチャの数は、手話毎に異なるが、例えば2または3である。フレーム画像における手指形状とその位置が、或るジェスチャのものと近似する場合に、そのジェスチャが成立したと判定することができる。また、第1段階から最終段階までの一連のジェスチャが順に完全に成立した場合に、その手話が成立した判定される。可能性ある手話を表すジェスチャのシーケンスを探索している間の途中で、その手話では出現しないジェスチャが検出された場合は、探索中のジェスチャのシーケンス上での探索がリセットされまたは無効にされる。
図11は、図5のステップ508における手話を判定する処理のためのフローチャートの例を示している。
図12A〜12Cは、フレーム画像における顔および手指を表す近似円の配置の例を示している。
ステップ572において、プロセッサ202(手話判定部2030)は、例えば図9Cのような顔および手指の領域を含むフレーム画像において、顔の位置に対する手指の相対的な位置を判定して、記憶装置208に格納する。そのために、例えば、図9Cの顔および手指の領域を含むフレーム画像において、図12Aのように顔を近似する円CFと、手指を近似する円CHとが生成され、顔を近似する円CFの中心位置の、垂直および水平方向の座標上の位置が求められる。次いで、図12Aにおいて、手指を近似する円CHが、顔を近似する円CFの、例えば右上、右下、左上または左下の領域のうちの左下の領域に位置すると判定される。
ステップ574において、プロセッサ202(手話判定部2030)は、フレーム画像の平面における顔領域の中心座標から手指領域までの間の2次元の距離Dと、顔領域の近似円CFの半径Rとを比較して、手指と顔の間の距離の関係を判定して、記憶装置208に格納する。その際、顔領域の中心座標から手指領域までの距離Dは、顔領域の中心座標から手指領域までの水平方向の距離DHおよび垂直方向の距離DVに基づいて求められてもよい。例えば、図12Bにおいて、顔近似円CFの中心座標から手指近似円CHまでの距離Dが、顔近似円CFの半径RFより小さい場合には、手指は顔に接していると判定されてもよい。また、手指近似円と顔近似円の間の距離Dが、顔近似円CFの半径RFと等しいかまたはそれより幾分か大きい場合には、手指は顔の近傍にあると判定されてもよい。また、手指近似円CHと顔近似円CFの間の距離Dが、顔近似円CFの半径RFより大きい場合には、手指は顔から遠い位置にあると判定されてもよい。
ステップ576において、プロセッサ202(手話判定部2030)は、今回のジェスチャにおける、手指近似円CHの半径RHの大きさに対する、顔近似円CFの半径RFの大きさの比率Rを算出する。プロセッサ202(手話判定部2030)は、今回のジェスチャにおけるその比率Rを、前回のジェスチャにおいて同様に算出されたその半径の比率Rと比較して、手指の奥行き方向の相対的な位置を判定して、記憶装置208に格納する。例えば、図12Cにおいて、今回のジェスチャにおける半径の比率Rが、前回のジェスチャにおける半径の比率Rより大きい場合は、手指が顔より前方に位置しまたは移動したと判定される。一方、今回のジェスチャにおける半径の比率Rが、前回のジェスチャにおける半径の比率Rより小さい場合は、手指が顔より後方に位置しまたは移動したと判定される。
ステップ578において、プロセッサ202(手話判定部2030)は、手話者の手指の形状と、ステップ572〜576において取得された顔に対する手指の相対的な位置とに基づいて、フレーム画像の手指がいずれのジェスチャに対応するかを判定して記憶装置208に格納する。その手指の相対的位置は、例えば、前述のような、顔に対する右上、右下、左上または左下のような手指の位置、顔に対する手指の水平方向の2次元の位置、または顔に対する手指の奥行き方向の位置で表されてもよい。そのような顔に対する手指の位置に関するいずれかの2次元の位置情報、および/または手指の奥行き方向の位置情報を用いて、ジェスチャを判定することができる。
図13は、図11のステップ578のジェスチャの判定において用いられるジェスチャのツリーの例を示している。ジェスチャのツリーは、複数の手話にそれぞれ対応する分枝構造の複数のジェスチャ・シーケンスを含んでいる。
図13において、手話者が、複数の手話1〜6等の中のいずれの手話に対応する振る舞いをしたかを判定するために、ジェスチャのツリー上で、手話者の行ったジェスチャが第1段階から順に探索される。例えば、第1段階でジェスチャAが行われ、次の第2段階でジェスチャDが行われた場合には、第2段階で手話が完了して、その一連のジェスチャが或る手話1に対応すると判定される。また、例えば、第1段階でジェスチャAが行われ、次の第2段階でジェスチャEが行われ、さらに次の第3段階のジェスチャIが行われた場合には、第3段階で手話が完了して、その一連のジェスチャが或る手話2に対応すると判定される。また、例えば、第1段階でジェスチャCが行われ、次の第2段階でジェスチャHが行われ、さらに次の第3段階のジェスチャKが行われた場合には、第3段階で手話が完了して、その一連のジェスチャが或る手話5に対応すると判定される。
図14は、図11のステップ578におけるジェスチャを判定する処理のためのフローチャートの例を示している。図14のフローチャートは、時系列の一連のフレーム画像の各フレーム画像に対して順に適用される。
ステップ582において、プロセッサ202(手話判定部2030)は、例えば図13のようなジェスチャのツリーにおいて、第n段階におけるジェスチャが或るジェスチャとして判定されて或るジェスチャが成立したかどうかを判定する。最初は、第n段階は第1段階である。ここで、nは、自然数1、2、3...である。第n段階のジェスチャが成立したと判定された場合は、手順はステップ584に進む。第n段階のジェスチャが成立していないと判定された場合は、手順はステップ592に進む。
ステップ584において、プロセッサ202(手話判定部2030)は、ジェスチャのツリーにおいて探索中の分枝における次の第n+1段階のジェスチャを判定する。
ステップ586において、プロセッサ202(手話判定部2030)は、第n+1段階におけるジェスチャが或るジェスチャとして判定されて或るジェスチャが成立したかどうかを判定する。最初は、第n+1段階は第2段階である。第n+1段階のジェスチャが成立したと判定された場合は、手順はステップ588に進む。第n+1段階のジェスチャが成立していないと判定された場合は、手順はステップ594に進む。
ステップ588において、プロセッサ202(手話判定部2030)は、第n+1段階のジェスチャがジェスチャのツリーにおいて最終段階のジェスチャであるかどうかを判定する。第n+1段階のジェスチャが最終段階のジェスチャであると判定された場合は、手順はステップ590に進む。第n+1段階のジェスチャが最終段階のジェスチャでないと判定された場合は、手順は図14のルーチンを出て、次のフレーム画像または第n+1段階のジェスチャに対して、図14の処理が再び実行される。
ステップ592において、プロセッサ202(手話判定部2030)は、第1段階のジェスチャが成立したかどうかを判定する。第1段階のジェスチャが成立したと判定された場合は、手順はステップ596に進む。第1段階のジェスチャが成立していないと判定された場合は、手順は図14のルーチンを出て、次のフレーム画像または第n+1段階のジェスチャに対して、図14の処理が再び実行される。
ステップ594において、プロセッサ202(手話判定部2030)は、成立した第n+1段階のジェスチャによって、探索中のツリーの分枝または経路に関するジェスチャ以外の別のジェスチャが成立したかどうかを判定する。別のジェスチャが成立したと判定された場合は、手順はステップ596に進む。別のジェスチャは成立していないと判定された場合は、手順は図14のルーチンを出て、次のフレーム画像に対して、図14の処理が再び実行される。
ステップ596において、プロセッサ202(手話判定部2030)は、探索中のジェスチャに関するツリーの分枝における第1段階から第n段階までのジェスチャの探索をリセットする。それによって、第1段階から第n段階までのジェスチャが無効化されてもよい。その後、手順は図14のルーチンを出て、次のフレーム画像または第n+1段階のジェスチャに対して、図14の処理が再び実行されてもよい。この場合、第n+1段階のジェスチャが、その後、第1段階のジェスチャとして用いられてもよい。
ステップ590において、プロセッサ202(手話判定部2030)は、探索中のジェスチャのツリーの分枝における第1段階から最終段階までのジェスチャに対応する手話を決定してその対応する翻訳文若しくは意味またはその識別情報を出力する。その翻訳文は、情報処理装置20において、例えば、表示部222において手話者の画像上に重畳されて表示されても、または、例えば、音声合成により音響部224のスピーカを介して音読されてもよい。それによって、情報処理装置20のユーザは、手話者の手話の内容を理解することができる。
ステップ590の後、手順は図14のルーチンを出て、次のフレーム画像に対して、図14の処理が再び実行されてもよい。
図15Aおよび15Bは、例えば図13のようなジェスチャのツリーに従って、或る一連のジェスチャの手話に対して翻訳文“分かりました”が出力される例を示している。この場合、2次元の位置情報として顔の位置を利用して、ジェスチャの判定が行われる。
図15Aのフレーム画像において、手話者は、片手の掌(てのひら)を胸に当てている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、手指の位置が手話者の胸付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“分かりました”の第1段階のジェスチャであると判定する。
次の図15Bのフレーム画像において、手話者は、手話者の胸付近で片手の掌を下に移動させている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、現在の段階の手指の現在の位置と第1段階における位置との間の差分から、第1段階における手指の位置が距離の閾値を超えて下へ移動したと判定する。その手指の位置の下へ移動の判定において、顔および手指の大きさの変化または無変化も判定条件の要素となる。また、プロセッサ202(手話判定部2030)は、そのフレーム画像のジェスチャを、例えば、手話“分かりました”の第2段階のジェスチャであると判定する。それによって、プロセッサ202(手話判定部2030)は、第2段階のジェスチャによって第1段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“分かりました”を生成し出力する。
図16Aおよび16Bは、例えば図13のようなジェスチャのツリーに従って、別の一連のジェスチャの手話に対して別の翻訳文“分かりません”が出力される例を示している。この場合、2次元の位置情報として顔の位置を利用して、ジェスチャの判定が行われる。
図16Aのフレーム画像において、手話者は、片手の掌を肩に当てている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、手指の位置が肩付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“分かりません”の第1段階のジェスチャであると判定する。この場合、手指の形状は、手話“分かりました”の第1段階のジェスチャと同じであるが、手指の位置が異なるので、異なるジェスチャとして識別することができる。
次の図16Bのフレーム画像において、手話者は、肩付近で片手の掌を払い上げている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、手指の現在の位置と第1段階における位置との間の差分から、第1段階における手指の位置が距離の閾値を超えて上へ移動したと判定する。その手指の位置の上へ移動の判定において、顔および手指の大きさの変化または無変化も判定条件の要素となる。また、プロセッサ202(手話判定部2030)は、そのフレーム画像のジェスチャを、例えば、手話“分かりません”の第2段階のジェスチャであると判定する。それによって、プロセッサ202(手話判定部2030)は、第2段階のジェスチャによって第1段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“分かりません”を生成し出力する。
図17Aおよび17Bは、例えば図13のようなジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対してさらに別の翻訳文“過去”が出力される例を示している。この場合、奥行き方向の位置情報として顔の位置または大きさを利用して、ジェスチャの判定が行われる。
図17Aのフレーム画像において、手話者は、片手の掌を顔の横にかざしている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、手指の位置が顔の横付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“過去”または“未来”の第1段階のジェスチャであると判定する。
次の図17Bのフレーム画像において、手話者は、顔の横付近で片手の掌を後方に移動させている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置と手の大きさに基づいて、手指の現在の大きさと第1段階における大きさとの間の差分から、第1段階における手指の大きさが閾値を超えて減少し、後方へ移動したと判定する。その手指の大きさの減少の判定において、顔および手指の位置の変化または無変化も判定条件の要素となる。また、プロセッサ202(手話判定部2030)は、そのフレーム画像のジェスチャを、例えば、手話“過去”の第2段階のジェスチャであると判定する。それによって、プロセッサ202(手話判定部2030)は、第2段階のジェスチャによって第1段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“過去”を生成し出力する。
図18Aおよび18Bは、例えば図13のようなジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対して翻訳文“未来”が出力される例を示している。この場合、奥行き方向の位置情報として顔の位置または大きさを利用して、ジェスチャの判定が行われる。
図18Aのフレーム画像において、手話者は、片手の掌を顔の横にかざしている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置に基づいて、手指の位置が顔の横付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“過去”または“未来”の第1段階のジェスチャであると判定する。
次の図18Bのフレーム画像において、手話者は、顔の横付近で片手の掌を前方に移動させている。この場合、プロセッサ202(画像解析部2028)は、手指の形状を、テンプレート画像とのパターン・マッチングにより、5本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ202(手話判定部2030)は、顔に対する手指の相対的位置と手の大きさに基づいて、手指の現在の大きさと第1段階における大きさとの間の差分から、第1段階における手指の大きさが閾値を超えて増大し、前方へ移動したと判定する。その手指の大きさの増大の判定において、顔および手指の位置の変化または無変化も判定条件の要素となる。また、プロセッサ202(手話判定部2030)は、そのフレーム画像のジェスチャを、例えば、手話“未来”の第2段階のジェスチャであると判定する。それによって、プロセッサ202(手話判定部2030)は、第2段階のジェスチャによって第1段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“未来”を生成し出力する。
このようにして、フレーム画像における2次元の位置情報または奥行き方向の位置情報として顔の位置を利用して、顔に対する手指の相対的位置に基づいて、ジェスチャの判定を高い精度で行うことができる。
図19は、別の実施形態による、上述の手話認識処理が適用された、例えば病院および会社等における来訪者の受付のための処理のフローチャートの例を示している。
ステップ602において、プロセッサ202(またはその個人認証部2032)は、フレーム画像における顔位置を判定してその顔を認識して、来訪者の顔の特徴を判定する。
ステップ604において、プロセッサ202(個人認証部2032)は、その認識された顔の特徴を、記憶装置208のデータベースにおける登録者の顔の特徴と比較して、その認識された顔が登録されたいずれかの登録者の顔に対応するかどうかを判定する。今回認識された顔が登録者の顔に対応すると判定された場合は、手順はステップ606に進む。今回認識された顔が登録者のいずれの顔とも対応しないと判定された場合は、手順はステップ608に進む。
ステップ606において、プロセッサ202(個人認証部2032)は、識別された登録者の、例えばカルテのような個人情報のファイルを検索して照会し、受付に用いられる個人情報を表示部222に表示する。受付係は、その情報の氏名を見て、例えば“○○さんですね”と来訪者の氏名を音声で確認することができる。その音声は、例えば、音声認識によって文字に変換されて、来訪者側の表示装置に表示されてもよい。また、来訪者が例えば聾唖者で、受付係が健常者である場合、その来訪者は、受付係の顔の表情および口の動きを見て、受付係の話の内容を理解することがあり、それに対して、その来訪者は、手話で話したり返事したりすることができる。
ステップ608において、プロセッサ202(個人認証部2032)は、初回の受付として来訪者の顔を一時的に保存し、初回の受付であることを示す情報を表示部222に表示する。受付係は、その情報を見て、例えば“初めての方ですね”と音声で来訪者に確認することができる。
ステップ610において、プロセッサ202(個人認証部2032)は、来訪者が手話を行った場合、上述の手話認識処理を行って手話の翻訳文を表示部222に表示する。それによって、受付係は、手話を理解できなくても、手話の翻訳文の表示によって手話を理解することができ、それによって手話で話す来訪者との意思疎通を図ってその来訪者に適したサービスを円滑に提供することができる。
このように、実施形態によれば、顔の領域に対する手指の領域に関する特徴を用いて手話を認識することによって、カメラの位置から手指の位置までの距離に関する情報が1個以上のカメラから得られなくても、実用的に充分な精度で手話を認識することができる。例えば、同じまたは類似の手指の形状について、フレーム画像における顔の領域に対する手指の領域の2次元平面上または奥行き方向の位置関係を判定して用いることによって、実用的に充分な精度で手話を認識することができる。
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈すべきである。また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができると理解すべきである。
以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
(付記1)記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する
処理を情報処理装置に実行させるためのプログラム。
(付記2)前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、前記話者の手話の意味を判定することを含むものである、付記1に記載のプログラム。
(付記3)前記手話の意味の判定は、前記顔領域に対する前記手指領域の相対的な大きさの時間的な変化に基づいて前記手指領域の奥行き方向の位置の変化を判定し、前記判定された奥行き方向の位置の変化に基づいて前記手話の意味を判定することを含むものである、付記1または2に記載のプログラム。
(付記4)前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の2次元的な位置の変化と、前記手指領域の2次元的な位置の変化とに基づいて、前記話者の手話の意味を判定することを含むものである、付記1乃至3のいずれかに記載のプログラム。
(付記5)前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の位置に対する前記手指領域の位置の相対的な距離に基づいて、前記話者の手話の意味を判定することを含むものである、付記1乃至4のいずれかに記載のプログラム。
(付記6)前記手話の意味の判定は、時系列の複数の画像データにおいて、それぞれの前記手指領域の位置関係と前記手指領域の手指の形状とに基づいて判定された一連のジェスチャが、いずれの手話に対応するかを判定することによって、前記話者の手話の意味を判定することを含むものである、付記1乃至5のいずれかに記載のプログラム。
(付記7)さらに、前記判定された手話の意味を可視表示または可聴表示する処理を前記情報処理装置に実行させるための付記1乃至6のいずれかに記載のプログラム。
(付記8)記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別する解析部と、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する判定部と、
を含む情報処理装置。
(付記9)記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する
処理を情報処理装置が実行する方法。