JP6225612B2

JP6225612B2 - プログラム、情報処理装置、および方法

Info

Publication number: JP6225612B2
Application number: JP2013202907A
Authority: JP
Inventors: 博月岡田; 田中　健一; 健一田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2017-11-08
Anticipated expiration: 2033-09-30
Also published as: JP2015069396A

Description

本発明は、画像に基づく手話の認識に関する。

ソフトウェアに基づく画像処理による手話の認識または翻訳は、未だ研究段階にあり、実用化されていない。

既知の動作認識装置は、撮影装置で撮影された手動作の時系列画像から、肌色領域の抽出、顔、右手、左手の重心の抽出を行ない、空間位置計算装置左てのひらと右てのひらの空間位置を計算する。指形状コード作成装置で、指形状コード列を作成する。動作認識装置は、さらに、手の使用状態、静動、指形状の変化により、認識対象手動作の含まれるグループを特定する。動きコード作成装置で、左右の手の動きコードが作成される。開始位置コード作成装置で、手動作の開始位置コードが作成される。手動作単語照合装置が、動きコード、開始位置コード、指形状コードに基づいて、特定したグループ中の手動作単語から、撮影装置で撮影された手動作と対応する手動作単語を決定する。肌色領域の抽出を行ない、指形状のコード化、及び左右の手の空間中での動きをコード化することにより、手動作の認識が容易になる。

既知のジェスチャ認識装置は、対象人物の実空間上における顔位置および手先位置を検出する顔・手先位置検出手段と、顔・手先位置検出手段によって検出された顔位置と手先位置に基づいて、対象人物のポスチャまたはジェスチャを認識するポスチャ・ジェスチャ認識手段とを備えている。ポスチャ・ジェスチャ認識手段は、「実空間上における顔位置」および「実空間上における手先位置」から、「顔位置と手先位置との相対的な位置関係」および「顔位置を基準とした際の手先位置の変位」を検出する。ポスチャ・ジェスチャ認識手段は、その検出結果と、ポスチャ・ジェスチャ・データ記憶部に記憶されているポスチャ・データまたはジェスチャ・データとを比較することにより、対象人物のポスチャまたはジェスチャを認識する。それによって、ポスチャ認識処理またはジェスチャ認識処理に要する計算量を減らすことができる。

既知の、サインに基づくマンマシン・インタラクション方法は、人間の検出、人間のボディパーツ検出、手形状分析、軌道分析、向き決定、ジェスチャ・マッチング、等を含んでいる。形状およびジェスチャの多くの型が、コンピュータ・ビジョンに基づく煩わしくない様式で認識される。多くのアプリケーションが、家電の遠隔制御、コンピュータ制御装置のマウスレス（およびタッチレス）操作、ゲーミングおよび他方に命令を与えるための人間−ロボット・コミュニケーションを含むこのサイン理解技術により実現可能となる。動的な検出ハードウェアが、ビデオ・レートでの深度画像のストリームを取得するために用いられ、深度画像のストリームは、情報抽出のために順次分析される。それによって、人間のサインおよびジェスチャのコンピュータ視覚認識に基づくヒューマン・コンピュータ・インタラクション方法が提供される。

特開平７−２８２２３５号公報特開２００４−３０２９９２号公報特開２０１１−６５６５２号公報

ソフトウェア画像処理による手話翻訳は、研究されてはいるが、様々な問題があって実用的なレベルに達していない。

発明者たちは、顔と手指の位置関係に基づいて手指の形状を判定すれば、実用的に充分な精度で手話が認識できる、と認識した。

１つの観点では、本発明の目的は、充分な精度で手話を認識できるようにすることである。

本発明の実施形態の一観点（特徴）によれば、記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて、および、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、対応する前記話者の手話の意味を判定する処理を情報処理装置に実行させるためのプログラムが提供される。

本発明の実施形態の一観点によれば、実用的レベルで手話を認識できるようになる。

図１は、実施形態に利用可能な情報処理装置の概略的な構成（configuration）の例を示している。図２は、情報処理装置のプロセッサの概略的な構成（configuration）の例を示している。図３は、テレビ電話機またはテレビ・ドアホンとしての情報処理装置の外観の一の例を示している。図４は、パーソナル・コンピュータとしての情報処理装置の外観の別の例を示している。図５は、情報処理装置のプロセッサによって実行される、手話の認識のための処理の概略的なフローチャートの例を示している。図６は、図５のステップ５０２における予備処理のためのフローチャートの例を示している。図７Ａ〜７Ｆは、手指のテンプレート画像の例を示している。図８は、図５のステップ５０６における予備処理のための他のフローチャートの例を示している。図９Ａ〜９Ｃは、肌色のオブジェクトの領域の検出におけるフレーム画像の処理の手順の例を示している。図１０Ａおよび１０Ｂは、図９Ｃの手指領域の画像とテンプレート画像の間で成立したマッチングの例を示している。図１１は、図５のステップ５０８における手話を判定する処理のためのフローチャートの例を示している。図１２は、１２Ａ〜１２Ｃは、フレーム画像における顔および手指を表す近似円の配置の例を示している。図１３は、図１１のステップ５７８のジェスチャの判定において用いられるジェスチャのツリーの例を示している。図１４は、図１１のステップ５７８におけるジェスチャを判定する処理のためのフローチャートの例を示している。図１５Ａおよび１５Ｂは、ジェスチャのツリーに従って、或る一連のジェスチャの手話に対して翻訳文が出力される例を示している。図１６Ａおよび１６Ｂは、ジェスチャのツリーに従って、別の一連のジェスチャの手話に対して別の翻訳文が出力される例を示している。図１７Ａおよび１７Ｂは、ジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対してさらに別の翻訳文が出力される例を示している。図１８Ａおよび１８Ｂは、ジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対してさらに別の翻訳文が出力される例を示している。図１９は、別の実施形態による、手話認識処理が適用された来訪者の受付のための処理のフローチャートの例を示している。

発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。

本発明の非限定的な実施形態を、図面を参照して説明する。図面において、同様のコンポーネントおよび素子には同じ参照番号が付されている。

研究段階の手話の認識では、手話に用いられる手指の形状には互いに同じまたは類似したものが多く、認識精度が低い。また、研究段階の手話の認識レベルでは、手指のみの静的な画像解析による基礎的な認識方式が多く、特に手話における各ジェスチャまたは所作の判定精度が低い。また、手話の認識精度を上げるために、複数のカメラおよび特殊な距離カメラを用いる研究もなされているが、そのようなカメラを用いる方式は、汎用性が低く実用的でなくコストが高くなる。

一方、既知の動作認識装置では、上半身の画像において顔の位置から左右の肩の位置が特定されることがある。しかし、発明者たちは、そのような動作認識装置では、顔と手指の位置関係を利用して手指の形状およびその変化を識別することはない、と認識した。

発明者たちは、手話に用いられる手指の形状は互いに類似性が高いので、それらの形状を確実に区別して手話の認識を行うには、手指の形状だけを認識する方法では認識精度に限界がある、と認識した。また、発明者たちは、顔と手指の位置関係と手指の形状とに基づいて手話を判定すれば、実用的に充分に高い精度で手話を認識することができる、と認識した。

実施形態の目的は、手話者の顔と手指の位置関係と、手指の形状とに基づいて手話を認識できるようにすることである。
実施形態によれば、距離情報を出力しない広く用いられている１個のカメラだけで撮影された、顔および手指の画像を含むフレーム画像を用いて、実用的に充分に高い精度で手話を認識しまたは翻訳することができる。

図１は、実施形態に利用可能な情報処理装置２０の概略的な構成（configuration）の例を示している。

情報処理装置２０は、撮影された動画像を表す時系列の一連の画像データを捕捉しまたは遠隔的に受信して保存して処理することができる装置である。情報処理装置２０は、例えば、テレビ電話端末、テレビ・ドアホン、デスクトップ型もしくはノートブック型またはタブレット型および／またはノートブック型のパーソナル・コンピュータ、携帯電話機、スマートフォンまたはＰＤＡ（Personal Digital Assistant）であってもよい。情報処理装置２０は、例えば、プロセッサまたは制御部２０２、入出力インタフェース（Ｉ／Ｏ）２０４、メモリ２０６および記憶部２０８、表示部２２２、音響部２２４、入力部２２６、カメラ部２２８、およびネットワーク・インタフェース（ＮＷ／ＩＦ）２４２を含んでいる。情報処理装置２０は、さらに、無線通信部２４４を含んでいてもよい。カメラ部２２８は、例えばウェブ・カメラのような、話者等の被写体の距離情報を出力しない広く普及している１個の単眼カメラを含んでいればよく、距離情報を出力するカメラまたは複数個のカメラを含んでいなくてよい。

情報処理装置２０は、ネットワーク５を介して別の情報処理装置２２と通信可能であってもよく、撮影された動画像を表す時系列の複数の画像データを捕捉しまたは受信して保存することができ、情報処理装置２２との間で画像データを送受信可能な装置であってもよい。ネットワーク・インタフェース２４２は、例えばインターネットのようなネットワーク５に接続可能である。無線通信部２４４は、アクセス・ポイント（無線基地局）５２を介して無線でネットワーク５に接続されてもよい。情報処理装置２２は、情報処理装置２０と同様のまたは情報処理装置２０と画像通信可能な装置であってもよい。

情報処理装置２０は、外付けドライブ２３０に接続可能である。ドライブ２３０は、プログラムが記録された例えば光ディスクまたは磁気ディスクのような記録媒体２３４を読み取るためのものであってもよい。

プロセッサ２０２は、コンピュータ用のＣＰＵ（Central Processing Unit）であってもよい。メモリ２０６には、例えば、主記憶装置および半導体メモリ等が含まれる。記憶装置２０８には、例えばＳＤ（セキュア・ディジタル）メモリまたはＵＳＢメモリ等のフラッシュ・メモリのような半導体メモリが含まれる。記憶装置２０８には、ハードディスク・ドライブ（ＨＤＤ）が含まれていてもよい。入出力インタフェース２０４は、外付けドライブ２３０に接続可能である。ドライブ２３０は、ソフトウェアが記録された例えば光ディスクまたは磁気ディスクのような記録媒体２３２を読み取るためのものであってもよい。そのソフトウェアは、例えば、ＯＳ、データベース管理システム（ＤＢＭＳ）、アプリケーション・プログラム、等を含んでいてもよい。アプリケーション・プログラムは、画像認識および手話認識用のアプリケーションを含んでいてもよい。

プロセッサ２０２は、例えば集積回路として実装された専用のプロセッサであってもよい。また、プロセッサ２０２は、メモリ２０６および／または記憶装置２０８に格納されたアプリケーション・プログラムに従って動作するものであってもよい。アプリケーション・プログラムは、記録媒体２３２に格納されていて、ドライブ２３０によって記録媒体２３２から読み出されて情報処理装置２０にインストールされてもよい。

表示部２２２は、例えば、液晶表示装置、またはタッチパネル付き液晶表示装置であってもよい。音響部２２４は、例えば、マイクロホン、スピーカ、およびレシーバを含んでいてもよい。入力部２２６は、例えば、複数のキー、タッチパッド、テンキー、キーボード、タッチパネル、および／またはポインティング・デバイスを含んでいてもよい。

記憶装置２０８は、手話のテンプレート画像のデータベースと、異なる複数の手話をそれぞれ表すジェスチャのシーケンスまたはツリーのデータベースを含んでいてもよい。

図２は、情報処理装置２０のプロセッサ２０２の概略的な構成（configuration）の例を示している。

プロセッサ２０２は、制御部２０２０、アプリケーション部２０２２、予備処理部２０２４、画像取込み部２０２６、画像解析部２０２８、手話判定部２０３０、およびその他の処理部２０３６を含んでいる。プロセッサ２０２は、さらに個人認証部２０３２を含んでいてもよい。制御部２０２０は、アプリケーション部２０２２、予備処理部２０２４、画像取込み部２０２６、画像解析部２０２８、手話判定部２０３０および処理部２０３６に制御信号を供給して、これらの要素の動作を制御してもよい。制御部２０２０は、さらに、個人認証部２０３２に制御信号を供給してその動作を制御してもよい。

情報処理装置２０は、情報処理装置２２からネットワーク５を介して動画像を表す時系列の一連のフレーム画像のデータを受信して取り込んで、その一連のフレーム画像によって表される手話を認識してその翻訳文または意味を表示部２２２に表示することができる。また、情報処理装置２０は、カメラ部２２８で撮影された動画像を表す時系列の一連のフレーム画像を取り込んで、その一連のフレーム画像によって表される手話を認識して、その翻訳文の文字を表示部２２２に表示することができる。情報処理装置２０は、翻訳文または意味を表示部２２２の画面に表示する代わりに、音声合成により音響部２２４のスピーカで翻訳文を表す音声を発生させてもよい。さらに、情報処理装置２０は、カメラ部２２８で撮影された一連の画像データを捕捉して記憶装置２０８に格納して一連の画像フレームによって表される手話を識別しまたは判定して、その翻訳文をネットワーク５を介して情報処理装置２２に送信して表示させてもよい。

次は、実施形態に利用可能な情報処理装置２０の製品形態の例について説明する。
図３は、テレビ電話機またはテレビ・ドアホンとしての情報処理装置２０の外観の一例を示している。

情報処理装置２０は、図３に例示されているようなテレビ電話機またはテレビ・ドアホンであってもよい。この場合、別の情報処理装置２２も、対応するテレビ電話機またはテレビ・ドアホンであってもよい。そのようなテレビ電話機またはテレビ・ドアホンは、例えば、会社または病院の受付で使用することができる。このように、テレビ電話機またはテレビ・ドアホンにおいて、遠隔的に撮影された一連のフレーム画像における手話を判定し翻訳することによって、遠隔の別のテレビ電話機またはテレビ・ドアホンで相手が手話で話しても、手話を翻訳して表示することができ、手話者との間で意思疎通を図ることができる。

図４は、パーソナル・コンピュータとしての情報処理装置２０の外観の別の例を示している。

情報処理装置２０は、図４に例示されているようなパーソナル・コンピュータであってもよい。この場合、別の情報処理装置２２は同様にパーソナル・コンピュータであってもよい。そのようなパーソナル・コンピュータは、例えば、会社または家庭で使用することができる。また、情報処理装置２０は、情報処理装置２０付近にいる手話者をカメラ部２２８で撮影して、その手話の翻訳文を健常者のために表示部２２２に表示する形態で使用されてもよい。この場合、情報処理装置２０において手話者を撮影して手話の翻訳文を表示することによって、手話のできない者が聾唖者に応対する場合に、聾唖者の手話を翻訳して表示することができ、手話者との間で意思疎通を図ることができる。

次は、実施形態による手話の認識のための概略的な手順の例を説明する。
図５は、情報処理装置２０のプロセッサ２０２によって実行される、手話の認識のための処理の概略的なフローチャートの例を示している。

図５を参照すると、ステップ５０２において、プロセッサ２０２（またはその予備処理部２０２４）は、記憶装置２０８の画像データベースから、手話の認識に使用する複数のテンプレート画像と、最初のフレーム画像とを読み込む。その最初のフレーム画像は、例えば、カメラ部２２８で撮影されて、またはネットワーク５を介しネットワーク・インタフェース２４２または無線通信装置２４４を介して受信されて、記憶装置２０８に格納されたものである。フレーム画像は、手話者の少なくとも顔および手指を含む画像データである。次いで、プロセッサ２０２（またはその画像取込み部２０２６）は、フレーム画像における手話者の顔を認識してその顔の位置および顔の大きさを求める。顔の位置は、例えば、１フレームのピクセル画像における顔の輪郭線を近似する近似円の中心座標であってもよい。また、顔の大きさは、例えば、１フレームのピクセル画像における顔の輪郭線の近似円の半径または面積であってもよい。

ステップ５０４において、プロセッサ２０２（またはその画像取込み部２０２６）は、次のフレーム画像を手話の認識のために取り込む。そのフレーム画像は、手話者の手話を表すジェスチャを含んでいる可能性があるものである。

ステップ５０６において、プロセッサ２０２（またはその画像解析部２０２８）は、取り込まれたフレーム画像を解析して、手話の判定に使用される特徴、例えば、顔と手指の位置および大きさ、および手指の形状に関する情報を抽出する。手指の位置は、例えば、１フレームのピクセル画像における手指の輪郭線の近似円の中心座標であってもよい。また、手指の大きさは、例えば、１フレームのピクセル画像における手指の輪郭線の近似円の半径または面積であってもよい。

そのために、プロセッサ２０２（画像解析部２０２８）は、１つ以上のフレーム画像での顔および手指の領域を分析して、２次元画面における顔および手指の位置および／または大きさを求める。プロセッサ２０２（画像解析部２０２８）は、さらに、手話者の手指の形状が、例えば、１つ以上の手指のテンプレート画像とマッチングするか、または複数の手指のテンプレート画像中のいずれの画像とマッチングするかを判定し、手指の形状を表す識別情報を生成する。その手指の形状を表す識別情報は、テンプレート画像の識別情報であってもよい。代替形態として、手話者の手指の形状は、テンプレート画像を用いずに、手指の領域の画像の特徴を分析して判定されるようにしてもよい。

ステップ５０８において、プロセッサ２０２（またはその手話判定部２０３０）は、予備処理によって得られた顔の位置および大きさと、画像の解析によって得られた手指の位置および大きさと基づいて、顔に対する手指の相対的位置とその変化を判定する。顔に対する手指の相対的位置は、１フレームのピクセル画像における２次元座標と、１フレーム以上のピクセル画像における顔に対する手指の奥行き方向の相対的な位置または動きを含んでいてもよい。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置および複数のフレーム画像にわたるその時間的変化と、判定された手指の形状との組合せに基づいて、対応する各ジェスチャまたはその識別情報を決定する。また、プロセッサ２０２（手話判定部２０３０）は、手話者の一連のジェスチャの組合せまたはシーケンスに基づいて、対応する手話を判定しまたは決定し、その翻訳文またはその意味を表す情報を生成する。

ステップ５１０において、プロセッサ２０２（手話判定部２０３０）は、手話認識を継続するかどうかを判定する。手話認識を継続すると判定された場合は、手順はステップ５０４に戻る。例えば、その時点で判定された１つ以上のジェスチャだけでは、有意な手話が決定できない場合に、それまでのジェスチャに次のジェスチャを加えて手話を判定するために、次のフレーム画像が次のステップ５０４において入力される。また、その後も別の手話が続く場合に、次のフレーム画像が次のステップ５０４において入力される。手話認識を継続しないと判定された場合は、手順は図５のルーチンを出る。

このように、顔に対する手指の相対的位置と手指形状の組合せに基づいてジェスチャを判定することによって、同じまたは類似の手指形状に対して、手指の相対的位置に応じてジェスチャの差異を識別することができる。そのように、顔に対する手指の相対的位置または時間的な手指の大きさの相対的変化に基づいて手指形状によって表されるジェスチャを判定することによって、同じまたは類似した手指の形状によって表される異なるジェスチャまたは手話を識別することができる。

例えば、手話者が手指を左右に移動させた場合、それが頭上での移動か、身体の右側での移動か、顔を跨いでの移動か、などに基づいて、同じまたは類似の手指の形状で表される異なるジェスチャまたは手話を識別することができる。また、それによって、カメラから手話者の顔および手指までの距離を１個以上のカメラから取得しなくても、顔の大きさに基づいて、手指の奥行き方向の相対的位置またはその時間的変化を識別することができる。それによって、手話の認識精度が高くなり、手話の誤認識率が低減する。

例えば、フレーム画像において、顔領域の大きさが殆ど変化せず、手指領域の大きさが変化した場合は、手指が奥行き方向に移動したと判定されてもよい。一方、顔領域の大きさとともに手指領域の大きさが共に同時に同様の割合で増大または減少した場合は、手話者自身がカメラに対して移動したと判定されてもよい。

その顔に対する手指の相対的位置は、例えば、フレーム画像における手指として認識されたオブジェクト（物体）の座標と、顔として認識されたオブジェクトの座標とが求められて、それらの座標間の差分に基づいて求めることができる。そのために、手指の位置が、例えば、オブジェクトの輪郭線の形状を分析して指状の突起または指先および掌の配置に基づいて、手指の領域を表す座標として求められる。また、顔の座標が、例えば、顔の輪郭線の近似円の中心座標として求められる。その中心座標は、概して鼻の位置に対応する。その求められた手指と顔の座標の差分に基づいて、同じまたは類似した手指形状によって表される異なる手指の相対的位置関係および対応するジェスチャが識別される。

その顔に対する手指の相対的位置の時間的変化は、例えば、一連のフレーム画像にわたる顔および手指の２次元座標の変化または移動を識別することによって、求めることができる。そのために、上述したのと同様に、手指と顔の座標の差分に基づいて、同じまたは類似した手指形状によって表される異なる手指の位置関係およびそのジェスチャが識別される。次いで、複数のフレーム画像にわたる手指と顔の座標間の差分または変化が判定される。その手指と顔の座標間の差分または変化に基づいて、顔に対する手指の相対的位置の時間的変化、例えば、手指が左右に移動したこと、その移動が頭上での移動かまたは身体の右側での移動かなど、が識別される。

手指の奥行き方向での位置関係は、例えば、顔の輪郭線の近似円の半径を大きさの縮尺とすることによって、手指の奥行き方向の位置が求められる。手指は形状によって見かけの大きさが変動するが、顔の大きさはほぼ一定なので縮尺の基準として利用できる。そのために、顔の輪郭線が求められ、顔の座標が顔の輪郭線の近似円の中心座標として求められる。また、上述のような、顔に対する手指の相対的位置の時間的変化が求められる。時間的な手指の大きさの変化に基づいて、顔に対する手指の奥行き方向での時間的な位置の変化または移動量が、カメラと手話者の間の実際の距離または測定距離に関係なく、識別される。

図６は、図５のステップ５０２における予備処理のためのフローチャートの例を示している。図７Ａ〜７Ｆは、手指の形状のテンプレート画像の例を示している。

図６を参照すると、ステップ５２２において、プロセッサ２０２（画像解析部２０２８）は、記憶装置２０８のデータベースに格納された参照用またはマッチング用の１つ以上のテンプレート画像を読み込む。そのテンプレート画像は、例えば、手指の標準的な画像であってもよい。

図７Ａは上に向いた握り拳の手指形状のテンプレート画像である。図７Ｂは掌を正面に向け指先を上に向けて指を開いた平手の手指形状のテンプレート画像である。図７Ｃは親指と人差し指を開いて中指、薬指および小指を握った状態の手指形状のテンプレート画像である。図７Ｄは指先を正面に向けた平手の手指形状のテンプレート画像である。図７Ｅは小指を正面に向けて立てた平手の手指形状のテンプレート画像である。図７Ｆは掌を正面に向けて親指を下側にした平手の手指形状のテンプレート画像である。これらの手指形状のテンプレート画像には識別情報、例えばＨ０１〜Ｈ０６が割り当てられていて、その中の１つが、顔に対する手指の相対的位置との関係に基づいて、対応するジェスチャが決定される。

ステップ５２４において、プロセッサ２０２（画像解析部２０２８）は、フレーム画像における顔を認識して顔位置を検出して、検出記憶装置２０８に格納する。その顔位置は、例えば、顔の領域の２次元座標の範囲であってもよい。顔の認識において、処理を高速化するために、顔位置の検出は、手話の開始前または開始時に一度だけ行われても、または平均的な１つのジェスチャまたは手話の時間より長い時間間隔で行われてもよい。通常、顔の位置が有意な距離で移動することは稀なので、顔位置の判定が最初に一度だけ行われても手話の認識への影響は殆どない。手話が進行している期間に顔の位置が大きく変化した場合には、プロセッサ２０２（画像解析部２０２８）は、顔を再び認識して顔位置を再度検出してもよい。顔の認識には、例えばＨａａｒ−ｌｉｋｅ特徴分類法を使用することができる。Ｈａａｒ−ｌｉｋｅ特徴分類法は、人間の顔を構成する目、鼻および口の特徴点を抽出して顔を認識する方法である。

次は、一連のフレーム画像の各フレーム画像において、顔領域の画像および手指領域の画像を生成して、手話の判定に用いられる手指の形状および位置を検出する手順を説明する。

図８は、図５のステップ５０６における画像を解析する処理のための他のフローチャートの例を示している。

次に図８を参照すると、ステップ５６２において、プロセッサ２０２（画像解析部２０２８）は、背景等の不要情報を除去するために、フレーム画像において肌色の領域またはオブジェクトを検出する。それによって、手話認識に用いられるオブジェクトだけが抽出される。

図９Ａ〜９Ｃは、肌色の領域のオブジェクトの検出におけるフレーム画像の処理の手順の例を示している。

図９Ａは取り込まれた元のフレーム画像の例を示している。図９Ｂは、取り込まれたフレーム画像における肌色の領域だけを抽出しその他の領域を除去した後のフレーム画像の例を示している。この場合、肌色の領域が白の領域として表され、その他の領域が黒の領域として表されて、白黒の二値画像が得られる。白の領域は、顔と手指の領域を含んでいる。図９Ｃは、図９Ｂにおける白の領域において、図９Ａの元のフレーム画像における対応する領域が組み込まれて合成された画像の例を示している。

ステップ５６４において、プロセッサ２０２（画像解析部２０２８）は、図９Ｃのようなフレーム画像において、図６の予備処理で検出された顔位置付近にある顔の領域を除外して、手指の領域を抽出する。次いで、プロセッサ２０２（画像解析部２０２８）は、例えば図７Ａ〜７Ｆのような手指形状のテンプレート画像を順次参照して、テンプレート・マッチング方式で、抽出された手指の形状がいずれのテンプレート画像の手指形状に対応するかを検出しまたはその識別情報を決定して記憶装置２０８に格納する。

図１０Ａおよび１０Ｂは、図９Ｃの手指領域の画像とテンプレート画像の間で成立したマッチングの例を示している。例えば、テンプレート・マッチング方式によって、図１０Ｂのテンプレート画像の手指領域が、図１０Ａのフレーム画像における可能性ある手指領域と比較されて、図１０Ａにおける白い枠で囲まれた手指領域が、図１０Ｂのテンプレート画像に対応しまたは近似すると判定される。

ステップ５６６において、プロセッサ２０２（画像解析部２０２８）は、フレーム画像における、テンプレート画像に近似すると判定された手指領域の位置を検出して記憶装置２０８に格納する。その手指領域の位置は、例えば、手指の輪郭線の近似円の中心座標であってもよい。

次は、一連のフレーム画像の各フレーム画像における顔領域および手指領域の位置および大きさと、および検出された手指の形状とに基づいて、手話を認識する手順を説明する。

１つの手話は、しばしば、特徴的な幾つかの段階の一連のジェスチャを含んでいる。１つの手話を表すジェスチャの数は、手話毎に異なるが、例えば２または３である。フレーム画像における手指形状とその位置が、或るジェスチャのものと近似する場合に、そのジェスチャが成立したと判定することができる。また、第１段階から最終段階までの一連のジェスチャが順に完全に成立した場合に、その手話が成立した判定される。可能性ある手話を表すジェスチャのシーケンスを探索している間の途中で、その手話では出現しないジェスチャが検出された場合は、探索中のジェスチャのシーケンス上での探索がリセットされまたは無効にされる。

図１１は、図５のステップ５０８における手話を判定する処理のためのフローチャートの例を示している。

図１２Ａ〜１２Ｃは、フレーム画像における顔および手指を表す近似円の配置の例を示している。

ステップ５７２において、プロセッサ２０２（手話判定部２０３０）は、例えば図９Ｃのような顔および手指の領域を含むフレーム画像において、顔の位置に対する手指の相対的な位置を判定して、記憶装置２０８に格納する。そのために、例えば、図９Ｃの顔および手指の領域を含むフレーム画像において、図１２Ａのように顔を近似する円ＣＦと、手指を近似する円ＣＨとが生成され、顔を近似する円ＣＦの中心位置の、垂直および水平方向の座標上の位置が求められる。次いで、図１２Ａにおいて、手指を近似する円ＣＨが、顔を近似する円ＣＦの、例えば右上、右下、左上または左下の領域のうちの左下の領域に位置すると判定される。

ステップ５７４において、プロセッサ２０２（手話判定部２０３０）は、フレーム画像の平面における顔領域の中心座標から手指領域までの間の２次元の距離Ｄと、顔領域の近似円ＣＦの半径Ｒとを比較して、手指と顔の間の距離の関係を判定して、記憶装置２０８に格納する。その際、顔領域の中心座標から手指領域までの距離Ｄは、顔領域の中心座標から手指領域までの水平方向の距離ＤＨおよび垂直方向の距離ＤＶに基づいて求められてもよい。例えば、図１２Ｂにおいて、顔近似円ＣＦの中心座標から手指近似円ＣＨまでの距離Ｄが、顔近似円ＣＦの半径ＲＦより小さい場合には、手指は顔に接していると判定されてもよい。また、手指近似円と顔近似円の間の距離Ｄが、顔近似円ＣＦの半径ＲＦと等しいかまたはそれより幾分か大きい場合には、手指は顔の近傍にあると判定されてもよい。また、手指近似円ＣＨと顔近似円ＣＦの間の距離Ｄが、顔近似円ＣＦの半径ＲＦより大きい場合には、手指は顔から遠い位置にあると判定されてもよい。

ステップ５７６において、プロセッサ２０２（手話判定部２０３０）は、今回のジェスチャにおける、手指近似円ＣＨの半径ＲＨの大きさに対する、顔近似円ＣＦの半径ＲＦの大きさの比率Ｒを算出する。プロセッサ２０２（手話判定部２０３０）は、今回のジェスチャにおけるその比率Ｒを、前回のジェスチャにおいて同様に算出されたその半径の比率Ｒと比較して、手指の奥行き方向の相対的な位置を判定して、記憶装置２０８に格納する。例えば、図１２Ｃにおいて、今回のジェスチャにおける半径の比率Ｒが、前回のジェスチャにおける半径の比率Ｒより大きい場合は、手指が顔より前方に位置しまたは移動したと判定される。一方、今回のジェスチャにおける半径の比率Ｒが、前回のジェスチャにおける半径の比率Ｒより小さい場合は、手指が顔より後方に位置しまたは移動したと判定される。

ステップ５７８において、プロセッサ２０２（手話判定部２０３０）は、手話者の手指の形状と、ステップ５７２〜５７６において取得された顔に対する手指の相対的な位置とに基づいて、フレーム画像の手指がいずれのジェスチャに対応するかを判定して記憶装置２０８に格納する。その手指の相対的位置は、例えば、前述のような、顔に対する右上、右下、左上または左下のような手指の位置、顔に対する手指の水平方向の２次元の位置、または顔に対する手指の奥行き方向の位置で表されてもよい。そのような顔に対する手指の位置に関するいずれかの２次元の位置情報、および／または手指の奥行き方向の位置情報を用いて、ジェスチャを判定することができる。

図１３は、図１１のステップ５７８のジェスチャの判定において用いられるジェスチャのツリーの例を示している。ジェスチャのツリーは、複数の手話にそれぞれ対応する分枝構造の複数のジェスチャ・シーケンスを含んでいる。

図１３において、手話者が、複数の手話１〜６等の中のいずれの手話に対応する振る舞いをしたかを判定するために、ジェスチャのツリー上で、手話者の行ったジェスチャが第１段階から順に探索される。例えば、第１段階でジェスチャＡが行われ、次の第２段階でジェスチャＤが行われた場合には、第２段階で手話が完了して、その一連のジェスチャが或る手話１に対応すると判定される。また、例えば、第１段階でジェスチャＡが行われ、次の第２段階でジェスチャＥが行われ、さらに次の第３段階のジェスチャＩが行われた場合には、第３段階で手話が完了して、その一連のジェスチャが或る手話２に対応すると判定される。また、例えば、第１段階でジェスチャＣが行われ、次の第２段階でジェスチャＨが行われ、さらに次の第３段階のジェスチャＫが行われた場合には、第３段階で手話が完了して、その一連のジェスチャが或る手話５に対応すると判定される。

図１４は、図１１のステップ５７８におけるジェスチャを判定する処理のためのフローチャートの例を示している。図１４のフローチャートは、時系列の一連のフレーム画像の各フレーム画像に対して順に適用される。

ステップ５８２において、プロセッサ２０２（手話判定部２０３０）は、例えば図１３のようなジェスチャのツリーにおいて、第ｎ段階におけるジェスチャが或るジェスチャとして判定されて或るジェスチャが成立したかどうかを判定する。最初は、第ｎ段階は第１段階である。ここで、ｎは、自然数１、２、３．．．である。第ｎ段階のジェスチャが成立したと判定された場合は、手順はステップ５８４に進む。第ｎ段階のジェスチャが成立していないと判定された場合は、手順はステップ５９２に進む。

ステップ５８４において、プロセッサ２０２（手話判定部２０３０）は、ジェスチャのツリーにおいて探索中の分枝における次の第ｎ＋１段階のジェスチャを判定する。

ステップ５８６において、プロセッサ２０２（手話判定部２０３０）は、第ｎ＋１段階におけるジェスチャが或るジェスチャとして判定されて或るジェスチャが成立したかどうかを判定する。最初は、第ｎ＋１段階は第２段階である。第ｎ＋１段階のジェスチャが成立したと判定された場合は、手順はステップ５８８に進む。第ｎ＋１段階のジェスチャが成立していないと判定された場合は、手順はステップ５９４に進む。

ステップ５８８において、プロセッサ２０２（手話判定部２０３０）は、第ｎ＋１段階のジェスチャがジェスチャのツリーにおいて最終段階のジェスチャであるかどうかを判定する。第ｎ＋１段階のジェスチャが最終段階のジェスチャであると判定された場合は、手順はステップ５９０に進む。第ｎ＋１段階のジェスチャが最終段階のジェスチャでないと判定された場合は、手順は図１４のルーチンを出て、次のフレーム画像または第ｎ＋１段階のジェスチャに対して、図１４の処理が再び実行される。

ステップ５９２において、プロセッサ２０２（手話判定部２０３０）は、第１段階のジェスチャが成立したかどうかを判定する。第１段階のジェスチャが成立したと判定された場合は、手順はステップ５９６に進む。第１段階のジェスチャが成立していないと判定された場合は、手順は図１４のルーチンを出て、次のフレーム画像または第ｎ＋１段階のジェスチャに対して、図１４の処理が再び実行される。

ステップ５９４において、プロセッサ２０２（手話判定部２０３０）は、成立した第ｎ＋１段階のジェスチャによって、探索中のツリーの分枝または経路に関するジェスチャ以外の別のジェスチャが成立したかどうかを判定する。別のジェスチャが成立したと判定された場合は、手順はステップ５９６に進む。別のジェスチャは成立していないと判定された場合は、手順は図１４のルーチンを出て、次のフレーム画像に対して、図１４の処理が再び実行される。

ステップ５９６において、プロセッサ２０２（手話判定部２０３０）は、探索中のジェスチャに関するツリーの分枝における第１段階から第ｎ段階までのジェスチャの探索をリセットする。それによって、第１段階から第ｎ段階までのジェスチャが無効化されてもよい。その後、手順は図１４のルーチンを出て、次のフレーム画像または第ｎ＋１段階のジェスチャに対して、図１４の処理が再び実行されてもよい。この場合、第ｎ＋１段階のジェスチャが、その後、第１段階のジェスチャとして用いられてもよい。

ステップ５９０において、プロセッサ２０２（手話判定部２０３０）は、探索中のジェスチャのツリーの分枝における第１段階から最終段階までのジェスチャに対応する手話を決定してその対応する翻訳文若しくは意味またはその識別情報を出力する。その翻訳文は、情報処理装置２０において、例えば、表示部２２２において手話者の画像上に重畳されて表示されても、または、例えば、音声合成により音響部２２４のスピーカを介して音読されてもよい。それによって、情報処理装置２０のユーザは、手話者の手話の内容を理解することができる。

ステップ５９０の後、手順は図１４のルーチンを出て、次のフレーム画像に対して、図１４の処理が再び実行されてもよい。

図１５Ａおよび１５Ｂは、例えば図１３のようなジェスチャのツリーに従って、或る一連のジェスチャの手話に対して翻訳文“分かりました”が出力される例を示している。この場合、２次元の位置情報として顔の位置を利用して、ジェスチャの判定が行われる。

図１５Ａのフレーム画像において、手話者は、片手の掌（てのひら）を胸に当てている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、手指の位置が手話者の胸付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“分かりました”の第１段階のジェスチャであると判定する。

次の図１５Ｂのフレーム画像において、手話者は、手話者の胸付近で片手の掌を下に移動させている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、現在の段階の手指の現在の位置と第１段階における位置との間の差分から、第１段階における手指の位置が距離の閾値を超えて下へ移動したと判定する。その手指の位置の下へ移動の判定において、顔および手指の大きさの変化または無変化も判定条件の要素となる。また、プロセッサ２０２（手話判定部２０３０）は、そのフレーム画像のジェスチャを、例えば、手話“分かりました”の第２段階のジェスチャであると判定する。それによって、プロセッサ２０２（手話判定部２０３０）は、第２段階のジェスチャによって第１段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“分かりました”を生成し出力する。

図１６Ａおよび１６Ｂは、例えば図１３のようなジェスチャのツリーに従って、別の一連のジェスチャの手話に対して別の翻訳文“分かりません”が出力される例を示している。この場合、２次元の位置情報として顔の位置を利用して、ジェスチャの判定が行われる。

図１６Ａのフレーム画像において、手話者は、片手の掌を肩に当てている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、手指の位置が肩付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“分かりません”の第１段階のジェスチャであると判定する。この場合、手指の形状は、手話“分かりました”の第１段階のジェスチャと同じであるが、手指の位置が異なるので、異なるジェスチャとして識別することができる。

次の図１６Ｂのフレーム画像において、手話者は、肩付近で片手の掌を払い上げている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、手指の現在の位置と第１段階における位置との間の差分から、第１段階における手指の位置が距離の閾値を超えて上へ移動したと判定する。その手指の位置の上へ移動の判定において、顔および手指の大きさの変化または無変化も判定条件の要素となる。また、プロセッサ２０２（手話判定部２０３０）は、そのフレーム画像のジェスチャを、例えば、手話“分かりません”の第２段階のジェスチャであると判定する。それによって、プロセッサ２０２（手話判定部２０３０）は、第２段階のジェスチャによって第１段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“分かりません”を生成し出力する。

図１７Ａおよび１７Ｂは、例えば図１３のようなジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対してさらに別の翻訳文“過去”が出力される例を示している。この場合、奥行き方向の位置情報として顔の位置または大きさを利用して、ジェスチャの判定が行われる。

図１７Ａのフレーム画像において、手話者は、片手の掌を顔の横にかざしている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、手指の位置が顔の横付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“過去”または“未来”の第１段階のジェスチャであると判定する。

次の図１７Ｂのフレーム画像において、手話者は、顔の横付近で片手の掌を後方に移動させている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置と手の大きさに基づいて、手指の現在の大きさと第１段階における大きさとの間の差分から、第１段階における手指の大きさが閾値を超えて減少し、後方へ移動したと判定する。その手指の大きさの減少の判定において、顔および手指の位置の変化または無変化も判定条件の要素となる。また、プロセッサ２０２（手話判定部２０３０）は、そのフレーム画像のジェスチャを、例えば、手話“過去”の第２段階のジェスチャであると判定する。それによって、プロセッサ２０２（手話判定部２０３０）は、第２段階のジェスチャによって第１段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“過去”を生成し出力する。

図１８Ａおよび１８Ｂは、例えば図１３のようなジェスチャのツリーに従って、さらに別の一連のジェスチャの手話に対して翻訳文“未来”が出力される例を示している。この場合、奥行き方向の位置情報として顔の位置または大きさを利用して、ジェスチャの判定が行われる。

図１８Ａのフレーム画像において、手話者は、片手の掌を顔の横にかざしている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置に基づいて、手指の位置が顔の横付近にあると判定し、そのフレーム画像のジェスチャを、例えば、手話“過去”または“未来”の第１段階のジェスチャであると判定する。

次の図１８Ｂのフレーム画像において、手話者は、顔の横付近で片手の掌を前方に移動させている。この場合、プロセッサ２０２（画像解析部２０２８）は、手指の形状を、テンプレート画像とのパターン・マッチングにより、５本の指が伸ばされた掌を表すものとして検出する。また、プロセッサ２０２（手話判定部２０３０）は、顔に対する手指の相対的位置と手の大きさに基づいて、手指の現在の大きさと第１段階における大きさとの間の差分から、第１段階における手指の大きさが閾値を超えて増大し、前方へ移動したと判定する。その手指の大きさの増大の判定において、顔および手指の位置の変化または無変化も判定条件の要素となる。また、プロセッサ２０２（手話判定部２０３０）は、そのフレーム画像のジェスチャを、例えば、手話“未来”の第２段階のジェスチャであると判定する。それによって、プロセッサ２０２（手話判定部２０３０）は、第２段階のジェスチャによって第１段階から最終段階までのジェスチャが成立したと判定して、翻訳文または意味“未来”を生成し出力する。

このようにして、フレーム画像における２次元の位置情報または奥行き方向の位置情報として顔の位置を利用して、顔に対する手指の相対的位置に基づいて、ジェスチャの判定を高い精度で行うことができる。

図１９は、別の実施形態による、上述の手話認識処理が適用された、例えば病院および会社等における来訪者の受付のための処理のフローチャートの例を示している。

ステップ６０２において、プロセッサ２０２（またはその個人認証部２０３２）は、フレーム画像における顔位置を判定してその顔を認識して、来訪者の顔の特徴を判定する。

ステップ６０４において、プロセッサ２０２（個人認証部２０３２）は、その認識された顔の特徴を、記憶装置２０８のデータベースにおける登録者の顔の特徴と比較して、その認識された顔が登録されたいずれかの登録者の顔に対応するかどうかを判定する。今回認識された顔が登録者の顔に対応すると判定された場合は、手順はステップ６０６に進む。今回認識された顔が登録者のいずれの顔とも対応しないと判定された場合は、手順はステップ６０８に進む。

ステップ６０６において、プロセッサ２０２（個人認証部２０３２）は、識別された登録者の、例えばカルテのような個人情報のファイルを検索して照会し、受付に用いられる個人情報を表示部２２２に表示する。受付係は、その情報の氏名を見て、例えば“○○さんですね”と来訪者の氏名を音声で確認することができる。その音声は、例えば、音声認識によって文字に変換されて、来訪者側の表示装置に表示されてもよい。また、来訪者が例えば聾唖者で、受付係が健常者である場合、その来訪者は、受付係の顔の表情および口の動きを見て、受付係の話の内容を理解することがあり、それに対して、その来訪者は、手話で話したり返事したりすることができる。

ステップ６０８において、プロセッサ２０２（個人認証部２０３２）は、初回の受付として来訪者の顔を一時的に保存し、初回の受付であることを示す情報を表示部２２２に表示する。受付係は、その情報を見て、例えば“初めての方ですね”と音声で来訪者に確認することができる。

ステップ６１０において、プロセッサ２０２（個人認証部２０３２）は、来訪者が手話を行った場合、上述の手話認識処理を行って手話の翻訳文を表示部２２２に表示する。それによって、受付係は、手話を理解できなくても、手話の翻訳文の表示によって手話を理解することができ、それによって手話で話す来訪者との意思疎通を図ってその来訪者に適したサービスを円滑に提供することができる。

このように、実施形態によれば、顔の領域に対する手指の領域に関する特徴を用いて手話を認識することによって、カメラの位置から手指の位置までの距離に関する情報が１個以上のカメラから得られなくても、実用的に充分な精度で手話を認識することができる。例えば、同じまたは類似の手指の形状について、フレーム画像における顔の領域に対する手指の領域の２次元平面上または奥行き方向の位置関係を判定して用いることによって、実用的に充分な精度で手話を認識することができる。

ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈すべきである。また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができると理解すべきである。

以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
（付記１）記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する
処理を情報処理装置に実行させるためのプログラム。
（付記２）前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、前記話者の手話の意味を判定することを含むものである、付記１に記載のプログラム。
（付記３）前記手話の意味の判定は、前記顔領域に対する前記手指領域の相対的な大きさの時間的な変化に基づいて前記手指領域の奥行き方向の位置の変化を判定し、前記判定された奥行き方向の位置の変化に基づいて前記手話の意味を判定することを含むものである、付記１または２に記載のプログラム。
（付記４）前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の２次元的な位置の変化と、前記手指領域の２次元的な位置の変化とに基づいて、前記話者の手話の意味を判定することを含むものである、付記１乃至３のいずれかに記載のプログラム。
（付記５）前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の位置に対する前記手指領域の位置の相対的な距離に基づいて、前記話者の手話の意味を判定することを含むものである、付記１乃至４のいずれかに記載のプログラム。
（付記６）前記手話の意味の判定は、時系列の複数の画像データにおいて、それぞれの前記手指領域の位置関係と前記手指領域の手指の形状とに基づいて判定された一連のジェスチャが、いずれの手話に対応するかを判定することによって、前記話者の手話の意味を判定することを含むものである、付記１乃至５のいずれかに記載のプログラム。
（付記７）さらに、前記判定された手話の意味を可視表示または可聴表示する処理を前記情報処理装置に実行させるための付記１乃至６のいずれかに記載のプログラム。
（付記８）記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別する解析部と、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する判定部と、
を含む情報処理装置。
（付記９）記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて対応する前記話者の手話の意味を判定する
処理を情報処理装置が実行する方法。

２０、２２情報処理装置
２０２４予備処理部
２０２６画像取込み部
２０３０手話判定部
２０３２個人認証部

Claims

記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて、および、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、対応する前記話者の手話の意味を判定する
処理を情報処理装置に実行させるためのプログラム。
前記手話の意味の判定は、前記顔領域に対する前記手指領域の相対的な大きさの時間的な変化に基づいて前記手指領域の奥行き方向の位置の変化を判定し、前記判定された奥行き方向の位置の変化に基づいて前記手話の意味を判定することを含むものである、請求項１に記載のプログラム。
前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の２次元的な位置の変化と、前記手指領域の２次元的な位置の変化とに基づいて、前記話者の手話の意味を判定することを含むものである、請求項１または２に記載のプログラム。
前記手話の意味の判定は、時系列の複数の画像データにおける前記顔領域の位置に対する前記手指領域の位置の相対的な距離に基づいて、前記話者の手話の意味を判定することを含むものである、請求項１乃至３のいずれかに記載のプログラム。
記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別する解析部と、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて、および、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、対応する前記話者の手話の意味を判定する判定部と、
を含む情報処理装置。
記憶装置に格納された画像データにおいて話者の顔に相当する顔領域と手指に相当する手指領域とを識別し、
前記顔領域に対する前記手指領域の位置関係と、前記手指領域の手指の形状とに基づいて、および、時系列の複数の画像データにおける前記顔領域の大きさの変化と、前記手指領域の大きさの変化とに基づいて、対応する前記話者の手話の意味を判定する
処理を情報処理装置が実行する方法。