JP2015102897A

JP2015102897A - 画像認識装置、及び画像認識方法

Info

Publication number: JP2015102897A
Application number: JP2013240963A
Authority: JP
Inventors: 渋谷　彰; Akira Shibuya; 彰渋谷; 小林　茂子; Shigeko Kobayashi; 茂子小林; ▲高▼橋　誠; 誠 ▲高▼橋; Makoto Takahashi; 雄太樋口; Yuta Higuchi
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-11-21
Filing date: 2013-11-21
Publication date: 2015-06-04
Anticipated expiration: 2033-11-21
Also published as: JP6209067B2

Abstract

【課題】ジェスチャ動作の意味を正確に判断し得る画像認識装置及び画像認識方法を提供することを目的とする。【解決手段】画像認識装置１０では、ジェスチャ認識部１２は、ジェスチャ入力部１１により入力された画像データから撮影対象のジェスチャを認識し、唇動作認識部１５は、ジェスチャ入力部１１により入力された画像データから撮影対象の唇の動作を認識し、判断部１８は、ジェスチャ認識結果に対応する意味候補と、撮影対象の唇の動作の認識結果とに基づいて、ジェスチャの意味を判断し、判断結果出力部１９は、ジェスチャの意味を出力する。これにより、ジェスチャの認識結果だけでなく、当該ジェスチャ中の撮影対象の唇の動作の認識結果も用いて、ジェスチャの認識を行うので、正確にジェスチャの意味を判断することができる。【選択図】図１

Description

本発明は、画像認識装置、及び画像認識方法に関する。

従来では、手話の自動翻訳システムとしては、手のモーション認識などの精度向上などに注力しており、予測変換で簡易に文字入力するという発想よりも、如何に入力精度を向上させるかという視点でのシステム研究がおこなわれていた。

例えば、２つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている（特許文献１）。

特開２００９−２１１５６３号公報

ところで、同一もしくは類似のジェスチャ動作で複数の意味を有する場合がある。この場合、仮にモーション認識の精度が高いとしても、正確に意味を判断することができないという問題点がある。

本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を正確に判断し得る画像認識装置及び画像認識方法を提供することを目的とする。

上述の課題を解決するために、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第１認識手段と、画像取得手段により取得された画像データに基づいて、第１認識手段が認識したジェスチャ中における撮影対象の口の動作を認識する第２認識手段と、第１認識手段によるジェスチャの認識結果に対応する意味候補と、第２認識手段による撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、判断手段が判断したジェスチャの意味を出力する出力手段と、を備える。

また、本発明に係る画像認識方法において、撮影対象を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第１認識ステップと、画像取得ステップにより取得された画像データに基づいて、第１認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識する第２認識ステップと、第１認識ステップによるジェスチャの認識結果に対応する意味候補と、第２認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、判断ステップで判断したジェスチャの意味を出力する出力ステップと、を備える。

この発明によれば、撮影対象のジェスチャを認識すると共に、ジェスチャ中の撮影対象の口の動作を認識し、ジェスチャの認識結果と、撮影対象の口の動作認識結果とに基づいてジェスチャの意味を判断する。

一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。この発明では、上記傾向を考慮して、撮影対象の口の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。

また、本発明の画像認識装置において、第２認識手段は、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識をするようにしてもよい。この場合、画像認識装置は、音数を用いて、ジェスチャを認識する。このように、画像認識装置は、撮影対象の口の動きも考慮して判断するので、正確にジェスチャを認識することができる。

また、本発明の画像認識装置において、第２認識手段は、ジェスチャ中における、最初に口を開いた時間から、最後に口を閉じた時間までの期間内の、口の開閉の回数に基づいた音数を認識する、ようにしてもよい。この場合、画像認識装置は、ジェスチャに対応する口の動作に基づいた音数を正確に判断することができる。

また、本発明の画像認識装置において、判断手段は、ジェスチャの意味候補の音数と、第２認識手段によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、意味候補の音数と、ジェスチャ中の音数との合致度により最終的なジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。

また、本発明の画像認識装置において、第２認識手段は、口の動作の認識として、口の動作による音情報の認識をし、判断手段は、ジェスチャの意味候補の音情報と、第２認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、音情報（例えば、子音であるか否かなど）とジェスチャ候補との一致度にさらに基づいてジェスチャの意味を判断する。これにより、画像認識装置は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。

また、本発明の画像認識装置において、第２認識手段により認識された音数が、判断手段が判断した意味の文字数を上回った場合、第２認識手段により認識された音数と、判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段をさらに備え、判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、第２認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。

また、本発明の画像認識装置において、判断手段は、ジェスチャの意味候補の文字数と第２認識手段により認識された音数との差が所定値以上である場合、第２認識手段により認識された音数を、ジェスチャの意味候補の何れか少なくとも１つの文字数と仮定して、ジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。

また、本発明の画像認識装置において、判断手段は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する、ようにしてもよい。このように、画像認識装置は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。

本発明によれば、ジェスチャ動作の意味を正確に判断することができる。

本実施形態の画像認識装置１０の機能構成を示すブロック図である。画像認識装置１０のハードウェア構成図である。ジェスチャＤＢ１３及び文章解釈ＤＢ１４のデータ例を示す図である。手話者の動作を模式的に示した説明図である。唇の動きに基づいて音数を計算する方法を説明する図である。ジェスチャの意味の候補の重み付けを説明する図である。手話者の動作を模式的に示した説明図である。唇の動きに基づいて音数を計算する方法を説明する図である。本発明の実施形態に係る手話の翻訳処理を示すフローチャートである。

以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本実施形態の画像認識装置１０の機能を示すブロック図である。この画像認識装置１０は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部１１（画像取得手段）、ジェスチャ認識部１２（第１認識手段）、ジェスチャＤＢ１３、文章解釈ＤＢ１４、唇動作認識部１５（第２認識手段）、未使用情報ＤＢ１７（未使用情報保持手段）、判断部１８（判断手段）、及び判断結果出力部１９（出力手段）を含んで構成されている。この画像認識装置１０は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。

図２は、画像認識装置１０のハードウェア構成図である。図１に示される画像認識装置１０は、物理的には、図２に示すように、一または複数のＣＰＵ１０１、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３、入力デバイスであるキーボード及びマウス等の入力装置１０４、ディスプレイ等の出力装置１０５、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６、半導体メモリ等の補助記憶装置１０７などを含むコンピュータシステムとして構成されている。図１における各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで入力装置１０４、出力装置１０５、通信モジュール１０６を動作させるとともに、ＲＡＭ１０２や補助記憶装置１０７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図１に示す機能ブロックに基づいて、各機能ブロックを説明する。

ジェスチャ入力部１１は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。

ジェスチャ認識部１２は、ジェスチャ入力部１１により取得された画像から特定した撮影対象者の動作に基づいて、ジェスチャを認識する部分である。ジェスチャ認識部１２は、複数の画像から撮影対象者の指、腕、上体の動きを判別し、ジェスチャＤＢ１３及び文章解釈ＤＢ１４を参照して判別した動きに対応する意味を認識する。

ジェスチャＤＢ１３は、手話者の動作をジェスチャ認識部１２に認識させるための動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。

ジェスチャＤＢ１３のデータ例を図３（Ａ）に示す。図３（Ａ）に示すように、ジェスチャＤＢ１３は、「ジェスチャＩＤ」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを有する。

例えば、ジェスチャＩＤが「０００００００１」であるジェスチャは、手の向きが正面であり、手の角度が０度（指先が上を向いた状態）であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。

文章解釈ＤＢ１４は、ジェスチャ認識部１２が、ジェスチャＤＢ１３を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味（意図）とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。

文章解釈ＤＢ１４のデータ例を図３（Ｂ）に示す。図３（Ｂ）に示すように、文章解釈ＤＢ１４は、「ジェスチャＩＤ」と「意味」とを有する。

図３（Ｂ）の例では、ジェスチャＩＤが「０００００００１」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャＩＤが「００００２０００」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャＩＤが「００００２０００」のジェスチャは、複数の意味を有している。

唇動作認識部１５は、ジェスチャ認識部１２が認識した動作単位で、唇の動きを口の動作として認識する。具体的に、唇動作認識部１５は、ジェスチャ認識部１２が認識した動作単位で唇の動きの回数を計測した結果に基づいて音数を認識する。より具体的には、唇動作認識部１５は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数を計測した結果に基づいて音数を認識する。また、唇動作認識部１５は、唇の形状に基づいて子音を発したか、母音を発したかを認識する。

なお、唇動作認識部１５は、唇の動作の平均時間に基づいて、伸ばす音の有無を判断する。例えば、図４（Ａ）に示すように、撮影対象者が「おーきなかばん」と発していた場合、「大きな（おーきな）」の唇の動きでは、唇動作認識部１５は、３音ではなく、「き」「な」の時間情報から、「おー」が２音であると推定する。また、図４（Ｂ）に示すように、「からす」など、唇の動きが少ないものについても、唇動作認識部１５は、同様に、前後の平均的な一音の時間から、唇の動きを類推する。

判断部１８は、ジェスチャ認識部１２による認識結果と唇動作認識部１５による認識結果とを用いてジェスチャの意味を判断する。具体的には、判断部１８は、ジェスチャ認識部１２により１つの認識結果が得られた場合は、その認識結果を示す意味を判断結果出力部１９へ出力する。また、判断部１８は、ジェスチャ認識部１２により複数の認識結果が得られた場合は、唇動作認識部１５による唇の動きに基づいた音数を用いて認識結果を絞り込む。

続いて、判断部１８がジェスチャの意味を判断する具体例を、図５等を用いて説明する。図５（Ａ）〜（Ｅ）は、「どんなヘアスタイルにする？」という手話動作を分割したものである。ジェスチャ認識部１２が認識した結果に基づき、図５（Ａ）〜（Ｅ）に動作を分割し、当該分割した単位で唇動作認識部１５が唇の動きを認識する。図５（Ａ）〜（Ｅ）に示すように、「どんなヘアスタイルにする？」という手話動作において、図５（Ｃ）の「スタイル」を示す動作の意味は、「スタイル」以外に、図３（Ｂ）に示すように「形（かたち）」、「型（かた）」という意味もあるので、ジェスチャ認識部１２による認識結果のみでは、１つに意味を絞ることができない。

そこで、判断部１８は、唇動作認識部１５による認識結果を用いて、ジェスチャの意味の絞り込みをする。具体的に、判断部１８は、唇動作認識部１５によって認識された音数及び唇の動作から導かれる子音情報に基づいて意味を絞り込む。

図５に示した、「どんなヘアスタイルにする？」という手話動作において、図５（Ｃ）の「スタイル」の部分の候補として、図３（Ｂ）に示す文章解釈ＤＢ１４に記載のように、スタイルを示す動作（ジェスチャＩＤが「００００２０００」の動作）の意味には、「スタイル」の他に「形」、「型」という意味がある。よって、ジェスチャの意味の候補として、「スタイル」、「形」、「型」がある。また、動作の意味に「に」を加えて話している可能性もあるので、「スタイルに」、「形に」、「型に」も候補に含まれる。このように、判断部１８は、ジェスチャ認識部１２が認識した動作の意味が名詞と判断される場合は、格助詞として１音付与したものも候補とする。

判断部１８は、最初に各候補に対して唇動作認識部１５によって認識された音数に基づいて重み付けをする。具体的には、判断部１８は、候補の文字数が音数と合致する場合、その音数を候補の重みとする。唇動作認識部１５は、「スタイル」に対応する動作中の音数が４音であると認識したので、判断部１８は、４音の候補に対しては４点を付与する。また、判断部１８は、４音以外の候補の重みを、候補の音数と４音との差分値分を４点から減算した値とする。図６に、各候補に対して重み付けした例を示す。候補１の「かたち」は、３音であるので３点、候補２の「かた」は、２音であるので２点、候補３の「すたいる」は、４音であるので４点、候補１ａの「かたちに」は、４音であるので４点、候補２ａの「かたに」は、３音であるので３点、候補３ａの「すたいるに」は、５音であるので３点となる。

判断部１８は、続いて各候補に対して唇動作認識部１５が認識した子音情報との一致度に基づいた重み付けをする。この例では、唇動作認識部１５は、「ｓｔ？？」と認識しており、第１音が「ｓ」と認識し、第２音が「ｔ」と認識し、第３音及び第４音が認識できなかったことを示す。

唇動作認識部１５による子音情報の認識結果に基づき、判断部１８は、各候補と子音情報とが一致しているか否かを判断し、一致していない場合には、０．５点減算する。認識できなかった部分に対しては、判断外とする。上記の例の場合、判断部１８は、第３音及び第４音が認識できなかったので、判断対象は、第１音及び第２音とする。

候補１の「かたち」は、第１音が一致しないので、０．５点減算し、２．５点となる。候補２の「かた」は、第１音が一致しないので、０．５点減算し、１．５点となる。候補３の「すたいる」は、第１音及び第２音が一致するので、減算しない。候補１ａの「かたちに」は、第１音が一致しないので、０．５点減算し、３．５点となる。候補２ａの「かたに」は、第１音が一致しないので、０．５点減算し、２．５点となる。候補３ａの「すたいるに」は、第１音及び第２音が一致するので、減算しない。

上述のように、判断部１８は、音数及び子音情報との一致度に基づいて算出した重みに対して、検出した音数（４音）で割ることにより正規化する。この結果、候補３の「すたいる」の重みが最も高いので、判断部１８は、候補３を最優先候補とし、当該候補３に対応する正規化した値と、予め定義された閾値とを比較し、正規化した値が閾値以上であれば、判断部１８は、候補３がジェスチャの意味であると判断する。

（唇の動きによる音数とジェスチャの意味の文字数とが乖離している場合）
図５に示した例では、ジェスチャとそのジェスチャに対応する唇の動きとの同期が取れている場合について説明したが、ジェスチャとそのジェスチャに対応する唇の動きによる音数との間にずれがある場合の判断方法について説明する。図７を用いて、「どんなヘアスタイルにする？」という手話動作において、ジェスチャと、ジェスチャに対応する唇の動きとの同期が取れていない場合の例を説明する。図７に示すように、対象となるジェスチャの意味の文字数と、当該ジェスチャに対応する唇の動きの回数に乖離がある場合（例えば、あるジェスチャの最大文字数と唇の動きの数が２以上乖離している場合）は、次のジェスチャに対応する唇の動きも含んでいると仮定して、複数のパターンでスコア化（重み付け）を行う。

図７に示す例の場合、図７（Ａ）に示す「どんな」の動作時、図７（Ｂ）に示す「ヘア」の動作時は、動作と唇の動きの同期が取れているが、図７（Ｃ）に示すように「スタイル」の動作時に、その次の「する」の唇の動きも認識してしまうと、「スタイル」の動作時に唇の動きが６回あったと判断することになり、ジェスチャの意味の文字数と、ジェスチャに対応する唇の動きの数（音数）との間に乖離があることになる。

判断部１８では、ジェスチャ毎にジェスチャの意味の文字数と、音数とを比較して、比較した結果、乖離がある場合（例えば、あるジェスチャの最大小文字数と音数との差が２以上）には、次のジェスチャの音数も含んでいると判断して、音数がジェスチャの意味候補の文字数の何れかであると仮定して重み付けをする。判断部１８は、ジェスチャ認識部１２により認識されたジェスチャの意味候補が複数ある場合に、音数が複数の意味候補の文字数のそれぞれであると仮定して重み付けをする。

図７（Ｃ）のように、唇の動きが６回である場合に、図７（Ｃ）に対応する動作（ジェスチャＩＤ「００００２０００」）に対応するジェスチャの意味の文字数が２文字〜４文字のとき、判断部１８は、音数が２文字〜４文字であると仮定して、音数が２文字〜４文字のそれぞれの場合に分けて（意味候補の文字数グループに分けて）重み付けをする。すなわち、判断部１８は、唇動作認識部１５により認識された音数を、ジェスチャの意味候補の何れか少なくとも１つの文字数であると仮定して重み付けをする。具体的には、判断部１８は、図８（Ａ）や図８（Ｂ）に示すように、意味候補の文字数グループごとに、各候補の重みの値（評価値と文字数とに基づいた値）を含むテーブル形式の情報を評価管理情報として生成する。

図８（Ａ）に唇動作認識部１５により認識された音数が４文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。また、図８（Ｂ）に唇動作認識部１５により認識された音数が３文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。ここで、未使用の唇の動きとは、ジェスチャの意味を判断するために使用されなかった唇の動きを示す。未使用の唇の動きの回数は、唇の動きの数と、各候補の文字数との差分値により求められる。なお、図８（Ａ）及び（Ｂ）に示す候補は、代表的な候補（重みが高い値である候補）である。また、唇動作認識部１５により認識された音数が２文字であると仮定した場合の各候補の重みの値、各候補が適用された際の未使用の唇の動きの回数の図は省略する。

図８（Ａ）に示す重みは、４文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化（文字数で割った）したものである。図８（Ｂ）に示す重みは、３文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化したものである。

判断部１８は、唇動作認識部１５により認識された音数が４，３又は２文字であると仮定した場合における（図８（Ａ）及び（Ｂ）参照）、各候補の重みの値の中で最も高い値の候補を最優先候補とし、当該最優先候補に対応する重みの値と、予め定義された閾値とを比較し、最優先候補に対応する重みの値が閾値以上であれば、判断部１８は、最優先候補がジェスチャの意味であると判断する。以上で、判断部１８がジェスチャの意味を判断する具体例の説明を終える。

また、判断部１８は、未使用の唇の動きの回数を未使用情報として未使用情報ＤＢ１７へ登録する。未使用情報ＤＢ１７は、未使用情報を管理するデータベースである。判断結果出力部１９は、判断部１８による判断結果を出力する。なお、判断結果出力部１９は、判断部１８が判断した結果複数の候補が有る場合、選択を促すために候補の出力もする。

つぎに、このように構成された画像認識装置１０による手話の翻訳処理について説明する。図９は、画像認識装置１０の手話の翻訳処理を示すフローチャートである。

撮影対象となる手話者の手話動作が、ジェスチャ入力部１１により撮影され、撮影対象の画像が入力される（ステップＳ１）。撮影された手話動作は、ジェスチャ認識部１３により認識されるとともに、唇動作認識部１５によって唇の動作の認識がなされる（ステップＳ２）。判断部１８は、ジェスチャ認識部１３がジェスチャ認識した結果、ジェスチャの意味の候補数が１つのみである場合（ステップＳ３；ＮＯ）、当該１つの認識結果が一意に絞られたので、認識完了し（ステップＳ１２）、ステップＳ１３へ移動する。判断部１８は、ジェスチャ認識部１３がジェスチャ認識した結果、候補数が複数ある場合において（ステップＳ３：ＹＥＳ）、唇動作認識部１５によって認識した結果、唇の動作がある場合（ステップＳ４；ＹＥＳ）、ステップＳ５へ移動する。また、唇動作認識部１５によって認識した結果、唇の動作がない場合において（ステップＳ４；ＮＯ）、直前のジェスチャに対応する唇の動きの内、未利用のデータがある場合（ステップＳ６；ＹＥＳ）、ステップＳ５へ移動し、直前のジェスチャに対応する唇の動きの内、未利用のデータがない場合（ステップＳ６；ＮＯ）、判断結果出力部１９が複数のジェスチャの意味の候補を出力して、ジェスチャの意味の候補の選択を促す（ステップＳ１１）。ジェスチャの意味が選択されると、判断部１８は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断し、ステップＳ１３へ移動する。

ステップＳ５において、判断部１８は、各ジェスチャの意味候補に対して重み付け処理をして、重み付け処理した結果、閾値を超えたものがあれば（ステップＳ７；ＹＥＳ）、認識完了する（ステップＳ９）。

ステップＳ５において、判断部１８が各ジェスチャの意味候補の重み付け処理をした結果、閾値を超えた候補が無ければ（ステップＳ７；ＮＯ）、判断結果出力部１９が複数の候補を出力し、ジェスチャの意味の候補の選択を促す（ステップＳ８）。判断部１８は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断する。ステップＳ８又はステップＳ９の終了後、未利用のデータがある場合には、未利用データ登録処理をして（ステップＳ１０）、ステップＳ１３へ移動する。ここで未利用データ登録処理とは、判断部１８が、未利用データを未使用情報ＤＢ１７へ登録する処理をいう。

ステップＳ１３において、ステップＳ１でジェスチャ入力部１１により入力されたジェスチャ全てに対して、認識が完了したか否かを判断し、認識完了していない場合（ステップＳ１３；ＮＯ）、ステップＳ２へ戻り、認識完了したジェスチャの認識及び当該ジェスチャに対応する唇動作の認識を行う（ステップＳ２）。

ステップＳ１３において、ステップＳ１でジェスチャ入力部１１により入力されたジェスチャ全てに対して、認識が完了した場合（ステップＳ１３；ＹＥＳ）、判断結果出力部１９が判断部１８による認識結果を出力して（ステップＳ１４）、処理を終了する。

つぎに、本実施形態における画像認識装置１０の作用効果について説明する。

本実施形態の画像認識装置１０によれば、ジェスチャ認識部１２は、ジェスチャ入力部１１により入力された画像データから撮影対象のジェスチャを認識し、唇動作認識部１５は、ジェスチャ入力部１１により入力された画像データから撮影対象の唇の動作を認識し、判断部１８は、ジェスチャ認識結果に対応する意味候補と、撮影対象の唇の動作の認識結果とに基づいて、ジェスチャの意味を判断し、判断結果出力部１９は、ジェスチャの意味を出力する。

このように、画像認識装置１０は、ジェスチャの認識結果だけでなく、当該ジェスチャ中の撮影対象の唇の動作の認識結果も用いて、ジェスチャの認識を行う。一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。画像認識装置１０は、この点を考慮して、撮影対象の唇の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。

唇動作認識部１５は、口の動作の認識として、ジェスチャ中における撮影対象の唇の動きに基づいた音数を認識する。この場合、画像認識装置１０は、撮影対象の音数を用いてジェスチャを認識する。これにより、画像認識装置１０は、ジェスチャの意味の音数と撮影対象の唇の動きに基づいた音数とを照らし合わせて、ジェスチャの意味を判断するので、正確にジェスチャを認識することができる。

唇動作認識部１５は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数に基づいた音数を認識する。この場合、画像認識装置１０は、ジェスチャに対応する唇動作に基づいた音数を正確に判断することができる。

判断部１８は、ジェスチャの意味候補の音数と、唇動作認識部１５によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する。この場合、画像認識装置は、ジェスチャの意味候補の音数と、唇の開閉回数との合致度によりジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。

唇動作認識部１５は、口の動作の認識として、唇の動作による音情報の認識をし、判断部１８は、ジェスチャ意味候補の音情報と、第２認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する。この場合、画像認識装置１０は、音情報（例えば、子音であるか否かなど）とジェスチャの意味候補との音情報に関する一致度に基づいてジェスチャの意味を判断する。これにより、画像認識装置１０は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。

唇動作認識部１５により認識された音数が、判断部１８が判断した意味の文字数を上回った場合、唇動作認識部１５により認識された音数と、判断部１８が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報ＤＢ１７をさらに備え、判断部１８は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、唇動作認識部１５により認識された音数に加えてジェスチャの意味を判断する。この場合、画像認識装置１０は、ジェスチャと撮影対象の唇の動作との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。

判断部１８は、ジェスチャの意味候補の文字数と唇動作認識部１５により認識された唇の動作回数との差が所定値以上である場合、唇動作認識部１５により認識された音数を、ジェスチャの意味候補の何れか少なくとも１つの文字数とする。この場合、画像認識装置１０は、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。

判断部１８は、ジェスチャの意味候補が複数あり、各ジェスチャの意味候補の文字数が同一でない場合、唇動作認識部１５により認識された音数を、複数のジェスチャの意味候補の文字数で場合分けして、ジェスチャの意味を判断する。より具体的には、判断部１８は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する。この場合、画像認識装置１０は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。

上述の実施形態では、同一動作から複数の意味候補を抽出する場合について述べたが、類似動作も含めて複数の意味候補を抽出するようにしてもよい。

上述の実施形態では、先のジェスチャの意味を特定できない場合、ジェスチャの意味の候補を出力して選択を促すようにしていたが、先のジェスチャの意味の判断をスキップし、後のジェスチャの意味を特定して、その後にスキップした先のジェスチャの意味を特定するようにしてもよい。

上述の実施形態では、口の動作として、唇動作認識部１５が唇の動作を認識する場合について述べたが、口の動作として舌の動作も認識するようにしてもよい。この場合、唇の動作と舌の動作とに基づいて、子音を発したか、母音を発したかを認識する。

１０…画像認識装置、１１…ジェスチャ入力部、１２…ジェスチャ認識部、１３…ジェスチャＤＢ、１４…文章解釈ＤＢ、１５…唇動作認識部、１７…未使用情報ＤＢ、１８…判断部、１９…判断結果出力部。

Claims

撮影対象を画像データにして取得する画像取得手段と、
前記画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第１認識手段と、
前記画像取得手段により取得された画像データに基づいて、前記第１認識手段が認識したジェスチャ中における前記撮影対象の口の動作を認識する第２認識手段と、
前記第１認識手段によるジェスチャの認識結果に対応する意味候補と、前記第２認識手段による前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、
前記判断手段が判断したジェスチャの意味を出力する出力手段と、
を備える画像認識装置。
前記第２認識手段は、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識をする、請求項１に記載の画像認識装置。
前記第２認識手段は、前記ジェスチャ中における、最初に口を開いた時間から、最後に口を閉じた時間までの期間内の、前記口の開閉の回数に基づいた音数を認識する、請求項２に記載の画像認識装置。
前記判断手段は、ジェスチャの意味候補の音数と、前記第２認識手段による前記ジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する、請求項２又は３に記載の画像認識装置。
前記第２認識手段は、前記口の動作の認識として、口の動作による音情報の認識をし、
前記判断手段は、前記ジェスチャの意味候補の音情報と、前記第２認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する、請求項４に記載の画像認識装置。
前記第２認識手段により認識された音数が、前記判断手段が判断した意味の文字数を上回った場合、前記第２認識手段により認識された音数と、前記判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段をさらに備え、
前記判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、前記第２認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、請求項２に記載の画像認識装置。
前記判断手段は、前記ジェスチャの意味候補の文字数と、前記第２認識手段により認識された音数との差が所定値以上である場合、前記第２認識手段により認識された音数を、前記ジェスチャの意味候補の何れか少なくとも１つの文字数と仮定して、ジェスチャの意味を判断する、請求項２に記載の画像認識装置。
前記判断手段は、前記ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、
前記評価管理情報における評価値と、前記文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、前記ジェスチャの意味を判断する、請求項７に記載の画像認識装置。
撮影対象のジェスチャを認識する画像認識装置において、
前記撮影対象を画像データにして取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第１認識ステップと、
前記画像取得ステップにより取得された画像データに基づいて、前記第１認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識する第２認識ステップと、
前記第１認識ステップによるジェスチャの認識結果に対応する意味候補と、前記第２認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、
前記判断ステップで判断したジェスチャの意味を出力する出力ステップと、
を備える画像認識方法。