JP2015102897A - 画像認識装置、及び画像認識方法 - Google Patents

画像認識装置、及び画像認識方法 Download PDF

Info

Publication number
JP2015102897A
JP2015102897A JP2013240963A JP2013240963A JP2015102897A JP 2015102897 A JP2015102897 A JP 2015102897A JP 2013240963 A JP2013240963 A JP 2013240963A JP 2013240963 A JP2013240963 A JP 2013240963A JP 2015102897 A JP2015102897 A JP 2015102897A
Authority
JP
Japan
Prior art keywords
gesture
meaning
recognition
sounds
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013240963A
Other languages
English (en)
Other versions
JP6209067B2 (ja
Inventor
渋谷 彰
Akira Shibuya
彰 渋谷
小林 茂子
Shigeko Kobayashi
茂子 小林
▲高▼橋 誠
誠 ▲高▼橋
Makoto Takahashi
雄太 樋口
Yuta Higuchi
雄太 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013240963A priority Critical patent/JP6209067B2/ja
Publication of JP2015102897A publication Critical patent/JP2015102897A/ja
Application granted granted Critical
Publication of JP6209067B2 publication Critical patent/JP6209067B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ジェスチャ動作の意味を正確に判断し得る画像認識装置及び画像認識方法を提供することを目的とする。【解決手段】画像認識装置10では、ジェスチャ認識部12は、ジェスチャ入力部11により入力された画像データから撮影対象のジェスチャを認識し、唇動作認識部15は、ジェスチャ入力部11により入力された画像データから撮影対象の唇の動作を認識し、判断部18は、ジェスチャ認識結果に対応する意味候補と、撮影対象の唇の動作の認識結果とに基づいて、ジェスチャの意味を判断し、判断結果出力部19は、ジェスチャの意味を出力する。これにより、ジェスチャの認識結果だけでなく、当該ジェスチャ中の撮影対象の唇の動作の認識結果も用いて、ジェスチャの認識を行うので、正確にジェスチャの意味を判断することができる。【選択図】図1

Description

本発明は、画像認識装置、及び画像認識方法に関する。
従来では、手話の自動翻訳システムとしては、手のモーション認識などの精度向上などに注力しており、予測変換で簡易に文字入力するという発想よりも、如何に入力精度を向上させるかという視点でのシステム研究がおこなわれていた。
例えば、2つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている(特許文献1)。
特開2009−211563号公報
ところで、同一もしくは類似のジェスチャ動作で複数の意味を有する場合がある。この場合、仮にモーション認識の精度が高いとしても、正確に意味を判断することができないという問題点がある。
本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を正確に判断し得る画像認識装置及び画像認識方法を提供することを目的とする。
上述の課題を解決するために、本発明の画像認識装置は、撮影対象を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、画像取得手段により取得された画像データに基づいて、第1認識手段が認識したジェスチャ中における撮影対象の口の動作を認識する第2認識手段と、第1認識手段によるジェスチャの認識結果に対応する意味候補と、第2認識手段による撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、判断手段が判断したジェスチャの意味を出力する出力手段と、を備える。
また、本発明に係る画像認識方法において、撮影対象を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、画像取得ステップにより取得された画像データに基づいて、第1認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識する第2認識ステップと、第1認識ステップによるジェスチャの認識結果に対応する意味候補と、第2認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、判断ステップで判断したジェスチャの意味を出力する出力ステップと、を備える。
この発明によれば、撮影対象のジェスチャを認識すると共に、ジェスチャ中の撮影対象の口の動作を認識し、ジェスチャの認識結果と、撮影対象の口の動作認識結果とに基づいてジェスチャの意味を判断する。
一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。この発明では、上記傾向を考慮して、撮影対象の口の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。
また、本発明の画像認識装置において、第2認識手段は、撮影対象の口の動作の認識として、ジェスチャ中における口の動きに基づいた音数の認識をするようにしてもよい。この場合、画像認識装置は、音数を用いて、ジェスチャを認識する。このように、画像認識装置は、撮影対象の口の動きも考慮して判断するので、正確にジェスチャを認識することができる。
また、本発明の画像認識装置において、第2認識手段は、ジェスチャ中における、最初に口を開いた時間から、最後に口を閉じた時間までの期間内の、口の開閉の回数に基づいた音数を認識する、ようにしてもよい。この場合、画像認識装置は、ジェスチャに対応する口の動作に基づいた音数を正確に判断することができる。
また、本発明の画像認識装置において、判断手段は、ジェスチャの意味候補の音数と、第2認識手段によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、意味候補の音数と、ジェスチャ中の音数との合致度により最終的なジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。
また、本発明の画像認識装置において、第2認識手段は、口の動作の認識として、口の動作による音情報の認識をし、判断手段は、ジェスチャの意味候補の音情報と、第2認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、音情報(例えば、子音であるか否かなど)とジェスチャ候補との一致度にさらに基づいてジェスチャの意味を判断する。これにより、画像認識装置は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。
また、本発明の画像認識装置において、第2認識手段により認識された音数が、判断手段が判断した意味の文字数を上回った場合、第2認識手段により認識された音数と、判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段をさらに備え、判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、第2認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。
また、本発明の画像認識装置において、判断手段は、ジェスチャの意味候補の文字数と第2認識手段により認識された音数との差が所定値以上である場合、第2認識手段により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する、ようにしてもよい。この場合、画像認識装置は、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。
また、本発明の画像認識装置において、判断手段は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する、ようにしてもよい。このように、画像認識装置は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の口の動作とジェスチャとの同期が取れていない場合でも、同期のずれを修正することができる。
本発明によれば、ジェスチャ動作の意味を正確に判断することができる。
本実施形態の画像認識装置10の機能構成を示すブロック図である。 画像認識装置10のハードウェア構成図である。 ジェスチャDB13及び文章解釈DB14のデータ例を示す図である。 手話者の動作を模式的に示した説明図である。 唇の動きに基づいて音数を計算する方法を説明する図である。 ジェスチャの意味の候補の重み付けを説明する図である。 手話者の動作を模式的に示した説明図である。 唇の動きに基づいて音数を計算する方法を説明する図である。 本発明の実施形態に係る手話の翻訳処理を示すフローチャートである。
以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態の画像認識装置10の機能を示すブロック図である。この画像認識装置10は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部11(画像取得手段)、ジェスチャ認識部12(第1認識手段)、ジェスチャDB13、文章解釈DB14、唇動作認識部15(第2認識手段)、未使用情報DB17(未使用情報保持手段)、判断部18(判断手段)、及び判断結果出力部19(出力手段)を含んで構成されている。この画像認識装置10は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。
図2は、画像認識装置10のハードウェア構成図である。図1に示される画像認識装置10は、物理的には、図2に示すように、一または複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
ジェスチャ入力部11は、手話者などの撮影対象者の動作を画像として取得する部分であり、例えばカメラである。
ジェスチャ認識部12は、ジェスチャ入力部11により取得された画像から特定した撮影対象者の動作に基づいて、ジェスチャを認識する部分である。ジェスチャ認識部12は、複数の画像から撮影対象者の指、腕、上体の動きを判別し、ジェスチャDB13及び文章解釈DB14を参照して判別した動きに対応する意味を認識する。
ジェスチャDB13は、手話者の動作をジェスチャ認識部12に認識させるための動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。
ジェスチャDB13のデータ例を図3(A)に示す。図3(A)に示すように、ジェスチャDB13は、「ジェスチャID」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを有する。
例えば、ジェスチャIDが「00000001」であるジェスチャは、手の向きが正面であり、手の角度が0度(指先が上を向いた状態)であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。
文章解釈DB14は、ジェスチャ認識部12が、ジェスチャDB13を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。
文章解釈DB14のデータ例を図3(B)に示す。図3(B)に示すように、文章解釈DB14は、「ジェスチャID」と「意味」とを有する。
図3(B)の例では、ジェスチャIDが「00000001」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャIDが「00002000」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャIDが「00002000」のジェスチャは、複数の意味を有している。
唇動作認識部15は、ジェスチャ認識部12が認識した動作単位で、唇の動きを口の動作として認識する。具体的に、唇動作認識部15は、ジェスチャ認識部12が認識した動作単位で唇の動きの回数を計測した結果に基づいて音数を認識する。より具体的には、唇動作認識部15は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数を計測した結果に基づいて音数を認識する。また、唇動作認識部15は、唇の形状に基づいて子音を発したか、母音を発したかを認識する。
なお、唇動作認識部15は、唇の動作の平均時間に基づいて、伸ばす音の有無を判断する。例えば、図4(A)に示すように、撮影対象者が「おーきなかばん」と発していた場合、「大きな(おーきな)」の唇の動きでは、唇動作認識部15は、3音ではなく、「き」「な」の時間情報から、「おー」が2音であると推定する。また、図4(B)に示すように、「からす」など、唇の動きが少ないものについても、唇動作認識部15は、同様に、前後の平均的な一音の時間から、唇の動きを類推する。
判断部18は、ジェスチャ認識部12による認識結果と唇動作認識部15による認識結果とを用いてジェスチャの意味を判断する。具体的には、判断部18は、ジェスチャ認識部12により1つの認識結果が得られた場合は、その認識結果を示す意味を判断結果出力部19へ出力する。また、判断部18は、ジェスチャ認識部12により複数の認識結果が得られた場合は、唇動作認識部15による唇の動きに基づいた音数を用いて認識結果を絞り込む。
続いて、判断部18がジェスチャの意味を判断する具体例を、図5等を用いて説明する。図5(A)〜(E)は、「どんなヘアスタイルにする?」という手話動作を分割したものである。ジェスチャ認識部12が認識した結果に基づき、図5(A)〜(E)に動作を分割し、当該分割した単位で唇動作認識部15が唇の動きを認識する。図5(A)〜(E)に示すように、「どんなヘアスタイルにする?」という手話動作において、図5(C)の「スタイル」を示す動作の意味は、「スタイル」以外に、図3(B)に示すように「形(かたち)」、「型(かた)」という意味もあるので、ジェスチャ認識部12による認識結果のみでは、1つに意味を絞ることができない。
そこで、判断部18は、唇動作認識部15による認識結果を用いて、ジェスチャの意味の絞り込みをする。具体的に、判断部18は、唇動作認識部15によって認識された音数及び唇の動作から導かれる子音情報に基づいて意味を絞り込む。
図5に示した、「どんなヘアスタイルにする?」という手話動作において、図5(C)の「スタイル」の部分の候補として、図3(B)に示す文章解釈DB14に記載のように、スタイルを示す動作(ジェスチャIDが「00002000」の動作)の意味には、「スタイル」の他に「形」、「型」という意味がある。よって、ジェスチャの意味の候補として、「スタイル」、「形」、「型」がある。また、動作の意味に「に」を加えて話している可能性もあるので、「スタイルに」、「形に」、「型に」も候補に含まれる。このように、判断部18は、ジェスチャ認識部12が認識した動作の意味が名詞と判断される場合は、格助詞として1音付与したものも候補とする。
判断部18は、最初に各候補に対して唇動作認識部15によって認識された音数に基づいて重み付けをする。具体的には、判断部18は、候補の文字数が音数と合致する場合、その音数を候補の重みとする。唇動作認識部15は、「スタイル」に対応する動作中の音数が4音であると認識したので、判断部18は、4音の候補に対しては4点を付与する。また、判断部18は、4音以外の候補の重みを、候補の音数と4音との差分値分を4点から減算した値とする。図6に、各候補に対して重み付けした例を示す。候補1の「かたち」は、3音であるので3点、候補2の「かた」は、2音であるので2点、候補3の「すたいる」は、4音であるので4点、候補1aの「かたちに」は、4音であるので4点、候補2aの「かたに」は、3音であるので3点、候補3aの「すたいるに」は、5音であるので3点となる。
判断部18は、続いて各候補に対して唇動作認識部15が認識した子音情報との一致度に基づいた重み付けをする。この例では、唇動作認識部15は、「st??」と認識しており、第1音が「s」と認識し、第2音が「t」と認識し、第3音及び第4音が認識できなかったことを示す。
唇動作認識部15による子音情報の認識結果に基づき、判断部18は、各候補と子音情報とが一致しているか否かを判断し、一致していない場合には、0.5点減算する。認識できなかった部分に対しては、判断外とする。上記の例の場合、判断部18は、第3音及び第4音が認識できなかったので、判断対象は、第1音及び第2音とする。
候補1の「かたち」は、第1音が一致しないので、0.5点減算し、2.5点となる。候補2の「かた」は、第1音が一致しないので、0.5点減算し、1.5点となる。候補3の「すたいる」は、第1音及び第2音が一致するので、減算しない。候補1aの「かたちに」は、第1音が一致しないので、0.5点減算し、3.5点となる。候補2aの「かたに」は、第1音が一致しないので、0.5点減算し、2.5点となる。候補3aの「すたいるに」は、第1音及び第2音が一致するので、減算しない。
上述のように、判断部18は、音数及び子音情報との一致度に基づいて算出した重みに対して、検出した音数(4音)で割ることにより正規化する。この結果、候補3の「すたいる」の重みが最も高いので、判断部18は、候補3を最優先候補とし、当該候補3に対応する正規化した値と、予め定義された閾値とを比較し、正規化した値が閾値以上であれば、判断部18は、候補3がジェスチャの意味であると判断する。
(唇の動きによる音数とジェスチャの意味の文字数とが乖離している場合)
図5に示した例では、ジェスチャとそのジェスチャに対応する唇の動きとの同期が取れている場合について説明したが、ジェスチャとそのジェスチャに対応する唇の動きによる音数との間にずれがある場合の判断方法について説明する。図7を用いて、「どんなヘアスタイルにする?」という手話動作において、ジェスチャと、ジェスチャに対応する唇の動きとの同期が取れていない場合の例を説明する。図7に示すように、対象となるジェスチャの意味の文字数と、当該ジェスチャに対応する唇の動きの回数に乖離がある場合(例えば、あるジェスチャの最大文字数と唇の動きの数が2以上乖離している場合)は、次のジェスチャに対応する唇の動きも含んでいると仮定して、複数のパターンでスコア化(重み付け)を行う。
図7に示す例の場合、図7(A)に示す「どんな」の動作時、図7(B)に示す「ヘア」の動作時は、動作と唇の動きの同期が取れているが、図7(C)に示すように「スタイル」の動作時に、その次の「する」の唇の動きも認識してしまうと、「スタイル」の動作時に唇の動きが6回あったと判断することになり、ジェスチャの意味の文字数と、ジェスチャに対応する唇の動きの数(音数)との間に乖離があることになる。
判断部18では、ジェスチャ毎にジェスチャの意味の文字数と、音数とを比較して、比較した結果、乖離がある場合(例えば、あるジェスチャの最大小文字数と音数との差が2以上)には、次のジェスチャの音数も含んでいると判断して、音数がジェスチャの意味候補の文字数の何れかであると仮定して重み付けをする。判断部18は、ジェスチャ認識部12により認識されたジェスチャの意味候補が複数ある場合に、音数が複数の意味候補の文字数のそれぞれであると仮定して重み付けをする。
図7(C)のように、唇の動きが6回である場合に、図7(C)に対応する動作(ジェスチャID「00002000」)に対応するジェスチャの意味の文字数が2文字〜4文字のとき、判断部18は、音数が2文字〜4文字であると仮定して、音数が2文字〜4文字のそれぞれの場合に分けて(意味候補の文字数グループに分けて)重み付けをする。すなわち、判断部18は、唇動作認識部15により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数であると仮定して重み付けをする。具体的には、判断部18は、図8(A)や図8(B)に示すように、意味候補の文字数グループごとに、各候補の重みの値(評価値と文字数とに基づいた値)を含むテーブル形式の情報を評価管理情報として生成する。
図8(A)に唇動作認識部15により認識された音数が4文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。また、図8(B)に唇動作認識部15により認識された音数が3文字であると仮定した場合における、各候補の重みの値と、各候補が適用された際の未使用の唇の動きの回数を示す。ここで、未使用の唇の動きとは、ジェスチャの意味を判断するために使用されなかった唇の動きを示す。未使用の唇の動きの回数は、唇の動きの数と、各候補の文字数との差分値により求められる。なお、図8(A)及び(B)に示す候補は、代表的な候補(重みが高い値である候補)である。また、唇動作認識部15により認識された音数が2文字であると仮定した場合の各候補の重みの値、各候補が適用された際の未使用の唇の動きの回数の図は省略する。
図8(A)に示す重みは、4文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化(文字数で割った)したものである。図8(B)に示す重みは、3文字の場合における、音数に基づいた重み付けと子音情報に基づいた重み付けをした結果を正規化したものである。
判断部18は、唇動作認識部15により認識された音数が4,3又は2文字であると仮定した場合における(図8(A)及び(B)参照)、各候補の重みの値の中で最も高い値の候補を最優先候補とし、当該最優先候補に対応する重みの値と、予め定義された閾値とを比較し、最優先候補に対応する重みの値が閾値以上であれば、判断部18は、最優先候補がジェスチャの意味であると判断する。以上で、判断部18がジェスチャの意味を判断する具体例の説明を終える。
また、判断部18は、未使用の唇の動きの回数を未使用情報として未使用情報DB17へ登録する。未使用情報DB17は、未使用情報を管理するデータベースである。判断結果出力部19は、判断部18による判断結果を出力する。なお、判断結果出力部19は、判断部18が判断した結果複数の候補が有る場合、選択を促すために候補の出力もする。
つぎに、このように構成された画像認識装置10による手話の翻訳処理について説明する。図9は、画像認識装置10の手話の翻訳処理を示すフローチャートである。
撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像が入力される(ステップS1)。撮影された手話動作は、ジェスチャ認識部13により認識されるとともに、唇動作認識部15によって唇の動作の認識がなされる(ステップS2)。判断部18は、ジェスチャ認識部13がジェスチャ認識した結果、ジェスチャの意味の候補数が1つのみである場合(ステップS3;NO)、当該1つの認識結果が一意に絞られたので、認識完了し(ステップS12)、ステップS13へ移動する。判断部18は、ジェスチャ認識部13がジェスチャ認識した結果、候補数が複数ある場合において(ステップS3:YES)、唇動作認識部15によって認識した結果、唇の動作がある場合(ステップS4;YES)、ステップS5へ移動する。また、唇動作認識部15によって認識した結果、唇の動作がない場合において(ステップS4;NO)、直前のジェスチャに対応する唇の動きの内、未利用のデータがある場合(ステップS6;YES)、ステップS5へ移動し、直前のジェスチャに対応する唇の動きの内、未利用のデータがない場合(ステップS6;NO)、判断結果出力部19が複数のジェスチャの意味の候補を出力して、ジェスチャの意味の候補の選択を促す(ステップS11)。ジェスチャの意味が選択されると、判断部18は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断し、ステップS13へ移動する。
ステップS5において、判断部18は、各ジェスチャの意味候補に対して重み付け処理をして、重み付け処理した結果、閾値を超えたものがあれば(ステップS7;YES)、認識完了する(ステップS9)。
ステップS5において、判断部18が各ジェスチャの意味候補の重み付け処理をした結果、閾値を超えた候補が無ければ(ステップS7;NO)、判断結果出力部19が複数の候補を出力し、ジェスチャの意味の候補の選択を促す(ステップS8)。判断部18は、選択されたジェスチャの意味をジェスチャの正式な意味であると判断する。ステップS8又はステップS9の終了後、未利用のデータがある場合には、未利用データ登録処理をして(ステップS10)、ステップS13へ移動する。ここで未利用データ登録処理とは、判断部18が、未利用データを未使用情報DB17へ登録する処理をいう。
ステップS13において、ステップS1でジェスチャ入力部11により入力されたジェスチャ全てに対して、認識が完了したか否かを判断し、認識完了していない場合(ステップS13;NO)、ステップS2へ戻り、認識完了したジェスチャの認識及び当該ジェスチャに対応する唇動作の認識を行う(ステップS2)。
ステップS13において、ステップS1でジェスチャ入力部11により入力されたジェスチャ全てに対して、認識が完了した場合(ステップS13;YES)、判断結果出力部19が判断部18による認識結果を出力して(ステップS14)、処理を終了する。
つぎに、本実施形態における画像認識装置10の作用効果について説明する。
本実施形態の画像認識装置10によれば、ジェスチャ認識部12は、ジェスチャ入力部11により入力された画像データから撮影対象のジェスチャを認識し、唇動作認識部15は、ジェスチャ入力部11により入力された画像データから撮影対象の唇の動作を認識し、判断部18は、ジェスチャ認識結果に対応する意味候補と、撮影対象の唇の動作の認識結果とに基づいて、ジェスチャの意味を判断し、判断結果出力部19は、ジェスチャの意味を出力する。
このように、画像認識装置10は、ジェスチャの認識結果だけでなく、当該ジェスチャ中の撮影対象の唇の動作の認識結果も用いて、ジェスチャの認識を行う。一般的に、ジェスチャをする人は、ジェスチャをしながら、そのジェスチャの意味を口に表す傾向がある。画像認識装置10は、この点を考慮して、撮影対象の唇の動作の認識結果も用いてジェスチャの認識をしているので、単にジェスチャのみから認識する場合に比べて正確にジェスチャの意味を判断することができる。
唇動作認識部15は、口の動作の認識として、ジェスチャ中における撮影対象の唇の動きに基づいた音数を認識する。この場合、画像認識装置10は、撮影対象の音数を用いてジェスチャを認識する。これにより、画像認識装置10は、ジェスチャの意味の音数と撮影対象の唇の動きに基づいた音数とを照らし合わせて、ジェスチャの意味を判断するので、正確にジェスチャを認識することができる。
唇動作認識部15は、ジェスチャ中における、最初に唇を開いた時間から、最後に唇を閉じた時間までの期間内の、唇の開閉の回数に基づいた音数を認識する。この場合、画像認識装置10は、ジェスチャに対応する唇動作に基づいた音数を正確に判断することができる。
判断部18は、ジェスチャの意味候補の音数と、唇動作認識部15によるジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する。この場合、画像認識装置は、ジェスチャの意味候補の音数と、唇の開閉回数との合致度によりジェスチャの意味を判断するので、正確にジェスチャの意味を判断することができる。
唇動作認識部15は、口の動作の認識として、唇の動作による音情報の認識をし、判断部18は、ジェスチャ意味候補の音情報と、第2認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する。この場合、画像認識装置10は、音情報(例えば、子音であるか否かなど)とジェスチャの意味候補との音情報に関する一致度に基づいてジェスチャの意味を判断する。これにより、画像認識装置10は、ジェスチャ時に発した音情報とジェスチャの意味候補の音情報とを対比するので、正確にジェスチャの意味を判断することができる。
唇動作認識部15により認識された音数が、判断部18が判断した意味の文字数を上回った場合、唇動作認識部15により認識された音数と、判断部18が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報DB17をさらに備え、判断部18は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、唇動作認識部15により認識された音数に加えてジェスチャの意味を判断する。この場合、画像認識装置10は、ジェスチャと撮影対象の唇の動作との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
判断部18は、ジェスチャの意味候補の文字数と唇動作認識部15により認識された唇の動作回数との差が所定値以上である場合、唇動作認識部15により認識された音数を、ジェスチャの意味候補の何れか少なくとも1つの文字数とする。この場合、画像認識装置10は、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
判断部18は、ジェスチャの意味候補が複数あり、各ジェスチャの意味候補の文字数が同一でない場合、唇動作認識部15により認識された音数を、複数のジェスチャの意味候補の文字数で場合分けして、ジェスチャの意味を判断する。より具体的には、判断部18は、ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、評価管理情報における評価値と、文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、ジェスチャの意味を判断する。この場合、画像認識装置10は、ジェスチャの複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値と、文字数グループで区別された文字数により意味候補を判断するので、ジェスチャ時における撮影対象の唇の動作による音数と、ジェスチャの意味との同期が取れていない場合でも、ずれを修正してジェスチャの認識をすることができる。
上述の実施形態では、同一動作から複数の意味候補を抽出する場合について述べたが、類似動作も含めて複数の意味候補を抽出するようにしてもよい。
上述の実施形態では、先のジェスチャの意味を特定できない場合、ジェスチャの意味の候補を出力して選択を促すようにしていたが、先のジェスチャの意味の判断をスキップし、後のジェスチャの意味を特定して、その後にスキップした先のジェスチャの意味を特定するようにしてもよい。
上述の実施形態では、口の動作として、唇動作認識部15が唇の動作を認識する場合について述べたが、口の動作として舌の動作も認識するようにしてもよい。この場合、唇の動作と舌の動作とに基づいて、子音を発したか、母音を発したかを認識する。
10…画像認識装置、11…ジェスチャ入力部、12…ジェスチャ認識部、13…ジェスチャDB、14…文章解釈DB、15…唇動作認識部、17…未使用情報DB、18…判断部、19…判断結果出力部。

Claims (9)

  1. 撮影対象を画像データにして取得する画像取得手段と、
    前記画像取得手段により取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識手段と、
    前記画像取得手段により取得された画像データに基づいて、前記第1認識手段が認識したジェスチャ中における前記撮影対象の口の動作を認識する第2認識手段と、
    前記第1認識手段によるジェスチャの認識結果に対応する意味候補と、前記第2認識手段による前記撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断手段と、
    前記判断手段が判断したジェスチャの意味を出力する出力手段と、
    を備える画像認識装置。
  2. 前記第2認識手段は、前記撮影対象の口の動作の認識として、前記ジェスチャ中における口の動きに基づいた音数の認識をする、請求項1に記載の画像認識装置。
  3. 前記第2認識手段は、前記ジェスチャ中における、最初に口を開いた時間から、最後に口を閉じた時間までの期間内の、前記口の開閉の回数に基づいた音数を認識する、請求項2に記載の画像認識装置。
  4. 前記判断手段は、ジェスチャの意味候補の音数と、前記第2認識手段による前記ジェスチャ中における音数との合致度に基づいてジェスチャの意味を判断する、請求項2又は3に記載の画像認識装置。
  5. 前記第2認識手段は、前記口の動作の認識として、口の動作による音情報の認識をし、
    前記判断手段は、前記ジェスチャの意味候補の音情報と、前記第2認識手段による認識結果の音情報との一致度にさらに基づいてジェスチャの意味を判断する、請求項4に記載の画像認識装置。
  6. 前記第2認識手段により認識された音数が、前記判断手段が判断した意味の文字数を上回った場合、前記第2認識手段により認識された音数と、前記判断手段が判断した意味の文字数との差分情報を未使用情報として保持する未使用情報保持手段をさらに備え、
    前記判断手段は、認識対象のジェスチャの直前のジェスチャ中における未使用情報がある場合、当該未使用情報を、前記第2認識手段により認識された認識された音数に加えてジェスチャの意味を判断する、請求項2に記載の画像認識装置。
  7. 前記判断手段は、前記ジェスチャの意味候補の文字数と、前記第2認識手段により認識された音数との差が所定値以上である場合、前記第2認識手段により認識された音数を、前記ジェスチャの意味候補の何れか少なくとも1つの文字数と仮定して、ジェスチャの意味を判断する、請求項2に記載の画像認識装置。
  8. 前記判断手段は、前記ジェスチャにおける複数の意味候補のそれぞれの文字数で区別した文字数グループごとに、当該意味候補のそれぞれに対する文字数に基づいた評価値を含んだ評価管理情報を複数生成し、
    前記評価管理情報における評価値と、前記文字数グループで区別された文字数とを用いて、複数の意味候補から一の意味候補を選択することで、前記ジェスチャの意味を判断する、請求項7に記載の画像認識装置。
  9. 撮影対象のジェスチャを認識する画像認識装置において、
    前記撮影対象を画像データにして取得する画像取得ステップと、
    前記画像取得ステップにより取得された画像データに基づいて、撮影対象のジェスチャを認識する第1認識ステップと、
    前記画像取得ステップにより取得された画像データに基づいて、前記第1認識ステップで認識したジェスチャ中における撮影対象の口の動作を認識する第2認識ステップと、
    前記第1認識ステップによるジェスチャの認識結果に対応する意味候補と、前記第2認識ステップによる撮影対象の口の動作の認識結果とに基づいて、ジェスチャの意味を判断する判断ステップと、
    前記判断ステップで判断したジェスチャの意味を出力する出力ステップと、
    を備える画像認識方法。
JP2013240963A 2013-11-21 2013-11-21 画像認識装置、及び画像認識方法 Expired - Fee Related JP6209067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013240963A JP6209067B2 (ja) 2013-11-21 2013-11-21 画像認識装置、及び画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013240963A JP6209067B2 (ja) 2013-11-21 2013-11-21 画像認識装置、及び画像認識方法

Publications (2)

Publication Number Publication Date
JP2015102897A true JP2015102897A (ja) 2015-06-04
JP6209067B2 JP6209067B2 (ja) 2017-10-04

Family

ID=53378575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013240963A Expired - Fee Related JP6209067B2 (ja) 2013-11-21 2013-11-21 画像認識装置、及び画像認識方法

Country Status (1)

Country Link
JP (1) JP6209067B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10601821B2 (en) * 2014-09-03 2020-03-24 Alibaba Group Holding Limited Identity authentication method and apparatus, terminal and server
CN113157080A (zh) * 2020-01-07 2021-07-23 宝马股份公司 用于车辆的指令输入方法、存储介质、系统及车辆

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049194A (ja) * 1996-07-30 1998-02-20 Aqueous Res:Kk 音声認識装置
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置
JPH11203023A (ja) * 1998-01-09 1999-07-30 Norio Aigase 連想文字の文字画像を主体とした文字入力システム
JPH11306316A (ja) * 1998-04-24 1999-11-05 Toshiba Corp 手話認識方法および手話認識装置および記録媒体
JP2004015250A (ja) * 2002-06-05 2004-01-15 Nec Corp 携帯端末装置
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
JP2012118679A (ja) * 2010-11-30 2012-06-21 Nec Commun Syst Ltd 情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらに関する方法ならびにプログラム
JP2013089238A (ja) * 2011-10-20 2013-05-13 Fuji Xerox Co Ltd ジェスチャ処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049194A (ja) * 1996-07-30 1998-02-20 Aqueous Res:Kk 音声認識装置
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置
JPH11203023A (ja) * 1998-01-09 1999-07-30 Norio Aigase 連想文字の文字画像を主体とした文字入力システム
JPH11306316A (ja) * 1998-04-24 1999-11-05 Toshiba Corp 手話認識方法および手話認識装置および記録媒体
JP2004015250A (ja) * 2002-06-05 2004-01-15 Nec Corp 携帯端末装置
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
JP2012118679A (ja) * 2010-11-30 2012-06-21 Nec Commun Syst Ltd 情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらに関する方法ならびにプログラム
JP2013089238A (ja) * 2011-10-20 2013-05-13 Fuji Xerox Co Ltd ジェスチャ処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10601821B2 (en) * 2014-09-03 2020-03-24 Alibaba Group Holding Limited Identity authentication method and apparatus, terminal and server
CN113157080A (zh) * 2020-01-07 2021-07-23 宝马股份公司 用于车辆的指令输入方法、存储介质、系统及车辆

Also Published As

Publication number Publication date
JP6209067B2 (ja) 2017-10-04

Similar Documents

Publication Publication Date Title
JP6467965B2 (ja) 感情推定装置及び感情推定方法
JP6798798B2 (ja) ユーザ認証のためのデータを更新する方法及び装置
US10678342B2 (en) Method of virtual user interface interaction based on gesture recognition and related device
Buriro et al. Itsme: Multi-modal and unobtrusive behavioural user authentication for smartphones
KR101612605B1 (ko) 얼굴 특징점 추출 방법 및 이를 수행하는 장치
JP7107598B2 (ja) 認証用顔画像候補判定装置、認証用顔画像候補判定方法、プログラム、および記録媒体
JP2012512478A (ja) 顔姿勢推定を提供するための方法、装置、およびコンピュータプログラム
WO2019000817A1 (zh) 手势识别控制方法和电子设备
Oza et al. Federated learning-based active authentication on mobile devices
CN108596079B (zh) 手势识别方法、装置及电子设备
KR102094953B1 (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
KR20220042335A (ko) 자동 수어 인식 방법 및 시스템
CN111103981B (zh) 控制指令生成方法及装置
JPWO2013145496A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2016099643A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6209067B2 (ja) 画像認識装置、及び画像認識方法
Ouadjer et al. Feature importance evaluation of smartphone touch gestures for biometric authentication
KR101869304B1 (ko) 컴퓨터를 이용한 수화어 인식시스템, 방법 및 인식프로그램
KR20190132885A (ko) 영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램
Tarrataca et al. The current feasibility of gesture recognition for a smartphone using J2ME
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
JP6144192B2 (ja) 画像認識装置、及び画像認識方法
US10936052B2 (en) Method and device for determining head movement according to electrooculographic information
CN111989693A (zh) 生物识别方法及装置
JP7400987B2 (ja) 顔認証装置、顔認証方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170908

R150 Certificate of patent or registration of utility model

Ref document number: 6209067

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees