JP6144192B2

JP6144192B2 - 画像認識装置、及び画像認識方法

Info

Publication number: JP6144192B2
Application number: JP2013272408A
Authority: JP
Inventors: 小林　茂子; 茂子小林; 渋谷　彰; 彰渋谷; ▲高▼橋　誠; 誠 ▲高▼橋; 雄太樋口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2017-06-07
Anticipated expiration: 2033-12-27
Also published as: JP2015125766A

Description

本発明は、画像認識装置、及び画像認識方法に関する。

従来における、手話などのジェスチャ認識の技術では、体全体、頭の位置、腕の動きだけでなく、指、口、顔の表情といった各々の動きを総合的に認識する。

例えば、２つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている（特許文献１）。

特開２００９−２１１５６３号公報

しかし、特許文献１では、画像からユーザ領域を特定することができるが、全てのジェスチャに対して、体全体、頭の位置、腕、及び指の動きの検出や当該動きに対応する意味の特定した場合、処理負荷がかかるという問題点がある。

本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を特定する処理負荷を軽減することができる画像認識装置及び画像認識方法を提供することを目的とする。

上述の課題を解決するために、本発明の画像認識装置は、撮影対象者を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象者の第１特定部分の特徴点を複数検出する第１特徴点検出手段と、画像取得手段により取得された画像データに基づいて、定期的に撮影対象者の第１特定部分以外の部分である第２特定部分の特徴点を複数検出する第２特徴点検出手段と、第１特徴点検出手段又は第２特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、区切り特定手段が特定した区切りに基づいた期間における、第１特徴点検出手段が検出した複数の特徴点に基づいて、第１特定部分の動作を特定する動作特定手段と、動作特定手段が特定した第１特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、意味特定手段が特定した意味を出力する出力手段と、を備え、意味特定手段が、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、動作特定手段は、区切り特定手段が特定した区切りに基づいた期間における、第２特徴点検出手段が検出した複数の特徴点に基づいて、第２特定部分の動作を特定し、意味特定手段は、動作特定手段が特定した第１特定部分の動作及び第２特定部分の動作から撮影対象者のジェスチャの意味を特定する。

また、本発明に係る画像認識方法において、画像認識装置で実行する画像認識方法であって、撮影対象者を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象者の第１特定部分の特徴点を複数検出する第１特徴点検出ステップと、第１特徴点検出ステップ又は第２特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第１特徴点検出ステップで検出した特徴点に基づいて、第１特定部分の動作を特定する第１動作特定ステップと、第１動作特定ステップで特定した第１特定部分の動作から、撮影対象者のジェスチャの意味を特定する第１意味特定ステップと、第１意味特定ステップで、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、画像取得ステップにより取得された画像データに基づいて、区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第１特定部分以外の部分である第２特定部分の特徴点を複数検出する第２特徴点検出ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第２特徴点検出ステップで検出した複数の特徴点に基づいて、第２特定部分の動作を特定する第２動作特定ステップと、第１動作特定ステップで特定した第１特定部分の動作及び第２動作特定ステップで第２特定部分の動作から撮影対象者のジェスチャの意味を特定する第２意味特定ステップと、第１意味特定ステップ又は第２意味特定ステップで特定した意味を出力する出力ステップと、を備える。

この発明によれば、第１特定部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、第２特定部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。

また、本発明の画像認識装置において、意味特定手段が、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、第２特徴点検出手段により第２特定部分の特徴点の検出処理を開始するようにしてもよい。この場合、画像認識装置は、第２特徴点検出手段により検出された特徴点に基づいて動作を特定することを省略するだけでなく、第２特徴点の検出が必要になるタイミングまで第２特徴点の検出も停止するので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。

また、本発明の画像認識装置において、撮影対象者の利き手を特定する利き手特定手段をさらに備え、第１特徴点検出手段が、第１特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出し、第２特徴点検出手段が、第２特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出する、ようにしてもよい。この場合、画像認識装置は、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて動作を特定するので、検出する処理負荷を軽減させることができる。

また、本発明の画像認識装置において、第１特徴点検出手段又は第２特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、ようにしてもよい。この場合、画像認識装置は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、ジェスチャの区切りを正確に特定することができる。

本発明によれば、ジェスチャ動作の意味を判断する処理負荷を軽減することができる。

本実施形態の画像認識装置１０の機能構成を示すブロック図である。画像認識装置１０のハードウェア構成図である。ジェスチャＤＢ１８及び文章解釈ＤＢ１９のデータ例を示す図である。動作とその意味の関係を示す図である。本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。

以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本実施形態の画像認識装置１０の機能を示すブロック図である。この画像認識装置１０は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部１１（画像取得手段）、画像記憶ＤＢ（データベース）１２、指特徴点検出部１３（第１特徴点検出手段、第２特徴点検出手段、利き手特定手段）、全体特徴点検出部１４（第１特徴点検出手段、第２特徴点検出手段）、区切り特定部１５（区切り特定手段）、動作特定部１６（動作特定手段）、意味特定部１７（意味特定手段）、ジェスチャＤＢ１８、文章解釈ＤＢ１９及び意味出力部２０（出力手段）を含んで構成されている。この画像認識装置１０は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。

図２は、画像認識装置１０のハードウェア構成図である。図１に示される画像認識装置１０は、物理的には、図２に示すように、一または複数のＣＰＵ１０１、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３、入力デバイスであるキーボード及びマウス等の入力装置１０４、ディスプレイ等の出力装置１０５、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６、半導体メモリ等の補助記憶装置１０７などを含むコンピュータシステムとして構成されている。図１における各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで入力装置１０４、出力装置１０５、通信モジュール１０６を動作させるとともに、ＲＡＭ１０２や補助記憶装置１０７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図１に示す機能ブロックに基づいて、各機能ブロックを説明する。

ジェスチャ入力部１１は、手話者などの撮影対象者の動作を複数の画像データとして取得する部分であり、例えばカメラ（３次元計測技術を備えたカメラ、簡易カメラ）である。なお、画像データには、撮影時刻が紐づけられている。ジェスチャ入力部１１は、取得した画像データを画像記憶ＤＢ１２へ記憶する。

画像記憶ＤＢ１２は、ジェスチャ入力部１１が取得した画像データを記憶するデータベースである。

指特徴点検出部１３は、ジェスチャ入力部１１により取得された画像データに基づいて、撮影対象者の指部分（第１特定部分又は第２特定部分）の特徴点を複数検出する部分である。具体的には、指特徴点検出部１３は、各画像データ中における指部分の特徴点の位置を検出することにより、指部分の特徴点の位置を複数検出する。そして、指特徴点検出部１３は、予め定められている利き手情報（例えば、画像認識装置１０が保持している情報）に基づいて、利き手側の指部分の特徴点を検出する。なお、指特徴点検出部１３は、画像記憶ＤＢ１２を介して画像データを取得してもよいし、ジェスチャ入力部１１から直接画像データを取得してもよい。

全体特徴点検出部１４は、ジェスチャ入力部１１により取得された画像データに基づいて、撮影対象者の指以外の特徴点を複数検出する部分である。具体的には、全体特徴点検出部１４は、各画像データ中における指以外の特徴点として、腕、顔、及び手等の部位（第１特定部分又は第２特定部分）の特徴点の位置を検出することにより、指以外の特徴点を複数検出する。本実施形態では、全体特徴点検出部１４は、指以外の特徴点として、腕の位置を検出するものとする。なお、全体特徴点検出部１４は、画像記憶ＤＢ１２を介して画像データを取得してもよいし、ジェスチャ入力部１１から直接画像データを取得してもよい。

区切り特定部１５は、指特徴点検出部１３又は全体特徴点検出部１４が検出した特徴点の位置に基づいて、撮影対象者のジェスチャの区切りを特定する部分である。具体的には、区切り特定部１５は、指特徴点検出部１３又は全体特徴点検出部１４が複数の画像データから検出した特徴点における、画像データの撮影時刻に基づいた特徴点（例えば、手首部分の特徴点）の位置の変化を検出する。区切り特定部１５は、検出した位置の変化が無い又は、検出した位置の変化が予め定められている閾値より小さい箇所を撮影対象者のジェスチャの区切りであると特定する。

動作特定部１６は、区切り特定部１５が特定した区切りに基づいた期間における、指特徴点検出部１３又は全体特徴点検出部１４が検出した特徴点に基づいて、検出部分（例えば、指、腕等）の動作を特定する部分である。具体的に、動作特定部１６は、区切り特定部１５が特定した期間に対応する複数の画像データ中から指特徴点検出部１３又は全体特徴点検出部１４が検出した特徴点の位置変化に基づいて、検出部分の動作を特定する。例えば、動作特定部１６は、画像データの撮影時刻順に、区切り特定部１５が特定した期間に対応する複数の画像データ中の指特徴点検出部１３又は全体特徴点検出部１４が検出した特徴点の位置変化として、変化度合いや変化方向を検出することにより、検出部分の動作を特定する。なお、上記区切り特定部１５が特定した区切りに基づいた期間とは、ある区切りからその次の区切りまでの期間である。

意味特定部１７は、指特徴点検出部１３又は全体特徴点検出部１４の何れか１つが検出した特徴点に基づいて動作特定部１６が特定した動作から、撮影対象者のジェスチャの意味を特定する。また、意味特定部１７は、指特徴点検出部１３又は全体特徴点検出部１４の何れか１つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部１３及び全体特徴点検出部１４のそれぞれが検出した特徴点に基づいた動作（すなわち、指及び腕の動作）から、撮影対象者のジェスチャの意味を特定する。

意味特定部１７は、指特徴点検出部１３又は全体特徴点検出部１４の何れか１つが検出した特徴点に基づいて動作特定部１６が特定した動作から、撮影対象者のジェスチャの意味を特定する際に、上記動作に対応する意味を、後述するジェスチャＤＢ１８及び文章解釈ＤＢ１９を用いて検索することにより、撮影対象者のジェスチャの意味を特定する。

また、意味特定部１７は、指特徴点検出部１３又は全体特徴点検出部１４の何れか１つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部１３及び全体特徴点検出部１４のそれぞれが検出した特徴点に基づいた動作から、撮影対象者のジェスチャの意味を特定する際に、指特徴点検出部１３及び全体特徴点検出部１４のそれぞれが検出した特徴点に基づいた動作の意味を、ジェスチャＤＢ１８及び文章解釈ＤＢ１９を用いて検索する。なお、意味特定部１７は、最初に検索して取得した複数のジェスチャの意味をメモリ（例えば、ＲＡＭ１０２）で保持しておき、当該複数のジェスチャの意味と、指特徴点検出部１３及び全体特徴点検出部１４のそれぞれが検出した特徴点に基づいた動作とに基づいて、撮影対象者のジェスチャの意味を特定するようにしてもよい。

ジェスチャＤＢ１８は、手話者の動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。

ジェスチャＤＢ１８のデータ例を図３（Ａ）に示す。図３（Ａ）は、指の動きに関するジェスチャのデータ例である。図３（Ａ）に示すように、ジェスチャＤＢ１８は、「ジェスチャＩＤ」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを少なくとも有する。図示していないが、ジェスチャＤＢ１８では、顔、腕の動きの情報もさらに有する。

例えば、ジェスチャＩＤが「０００００００１」であるジェスチャは、手の向きが正面であり、手の角度が０度（指先が上を向いた状態）であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。「指の突起有無」の情報では、「１」の値が割り当てられている指が上がっていることを示す。

文章解釈ＤＢ１９は、意味特定部１７が、ジェスチャＤＢ１８を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味（意図）とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。

文章解釈ＤＢ１９が記憶しているデータ例を図３（Ｂ）に示す。図３（Ｂ）に示すように、文章解釈ＤＢ１９は、「ジェスチャＩＤ」と「意味」とを有する。

図３（Ｂ）の例では、ジェスチャＩＤが「０００００００１」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャＩＤが「００００２０００」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャＩＤが「００００２０００」のジェスチャは、複数の意味を有している。

なお、文章解釈ＤＢ１９で保持しているデータの「意味」は、指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみで特定できる意味、及び、指の動作と「上体、腕、及び頭」の動作との両方で特定できる意味がある。

指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみに基づいて特定できる意味、及び指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味の例を図４に示す。

図４に示すように、指の動作のみに基づいて特定できる意味として、五十音、アルファベット、数字等がある。また、「上体、腕、及び頭」の動作のみに基づいて特定できる意味として、体の特定の部位を示すものがある。そして、指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味として、約束（両手の小指を絡める）等がある。

このように、指の動作だけで意味を特定できるものや、「上体、腕、及び頭」の動作だけで意味を特定できるものがあるので、指の動作と「上体、腕、及び頭」の動作との双方の動作を特定することなく、意味を特定することも可能である。この点に着目し、本実施形態では、最初に、指特徴点検出部１３及び全体特徴点検出部１４の一方から検出した特徴点に基づいて動作を特定し、その動作から１つの意味に特定できれば、その意味を出力し、上記動作に対応する複数の意味候補がある場合、指特徴点検出部１３が検出した特徴点に基づいた動作、及び全体特徴点検出部１４が検出した特徴点に基づいた動作から意味を特定する。

意味出力部２０は、意味特定部１７が特定したジェスチャの意味を出力する部分である。具体的には、ディスプレイ等である。

続いて、最初に全体特徴点検出部１４が検出した特徴点に基づいた動作のみから意味を特定する場合の処理の説明を図５に示すフローチャートを用いて説明する。前提として、図５に示すフローチャートの処理が始まる前は、指特徴点検出部１３は、停止しているものとする。図５に示すフローチャートの処理では、全体特徴点検出部１４が第１特徴点検出手段に対応し、指特徴点検出部１３が第２特徴点検出手段に対応する。

撮影対象となる手話者の手話動作が、ジェスチャ入力部１１により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶ＤＢ１２へ記憶する（ステップＳ１）。全体特徴点検出部１４は、画像データから腕に対応する特徴点の位置を検出する（ステップＳ２）。続いて、区切り特定部１５は、直前に撮影された画像データ中の腕の特徴点の一又は複数の位置と比較して腕の特徴点位置の変化度合いを判定する（ステップＳ３）。

区切り特定部１５が特徴点位置の変化度合いを判定した結果、腕が下りた状態で、且つ腕の動きが一定時間停止していると判断した場合（ステップＳ４；ＹＥＳ）、区切り特定部１５は、区切りを特定し、ステップＳ５へ移動する。

区切り特定部１５が特徴点位置の変化度合いを判定した結果、腕の動きが一定時間停止していない場合（ステップＳ４；ＮＯ）、ステップＳ１へ戻る。このように、区切り特定部１５が、腕の動きが一定時間停止していると判断するまで、ステップＳ１〜ステップＳ３を定期的に実行する。

ステップＳ５において、動作特定部１６は、区切り特定部１５が特定した区切りに基づいた期間（区切り特定部１５が特定した区切りとその直前の区切りの間）に対応する画像データに対して全体特徴点検出部１４が検出した特徴点を用いて腕の動作を特定する（ステップＳ５）。そして、意味特定部１７は、当該動作に基づいて意味を特定する（ステップＳ６）。

上記期間における動作に基づいて意味特定部１７が特定した意味が１つの場合（ステップＳ７；ＮＯ）、ステップＳ１１へ移動する。意味特定部１７が特定した意味が複数の場合（ステップＳ７；ＹＥＳ）、指特徴点検出部１３による指部分の特徴点の検出処理を開始し、指特徴点検出部１３は、上記期間に対応する画像データに対して、指部分の特徴点を検出する（ステップＳ８）。動作特定部１６は、指特徴点検出部１３が検出した特徴点を用いて指の動作を特定する（ステップＳ９）。そして、意味特定部１７は、動作特定部１６が特定した動作に基づいて動作の意味を特定し（ステップＳ１０）、ステップＳ１１へ移動する。

ステップＳ１１において、意味出力部２０は、意味特定部１７が特定した意味を出力し、処理を終了する。このように、画像認識装置１０は、最初に全体特徴点検出部１４が検出した特徴点を用いて腕の動作を特定し、当該腕の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置１０は、腕の動作だけで意味を特定できる場合に、指特徴点検出部１３が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。

続いて、最初に指特徴点検出部１３が検出した特徴点に基づいた動作から意味を特定する場合の処理の説明を図６に示すフローチャートを用いて説明する。前提として、図６のフローチャートの処理前は、全体特徴点検出部１４が停止しているものとする。図６に示すフローチャートの処理では、指特徴点検出部１３が第１特徴点検出手段に対応し、全体特徴点検出部１４が第２特徴点検出手段に対応する。

撮影対象となる手話者の手話動作が、ジェスチャ入力部１１により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶ＤＢ１２へ記憶する（ステップＳ２１）。指特徴点検出部１３は、画像データから腕に対応する特徴点の位置を検出する（ステップＳ２２）。続いて、区切り特定部１５は、直前に撮影された画像データ中の指の特徴位置と比較して指の特徴点位置の変化度合いを判定する（ステップＳ２３）。

区切り特定部１５が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していると判断した場合（ステップＳ２４；ＹＥＳ）、区切り特定部１５は、区切りを特定し、ステップＳ２５へ移動する。

区切り特定部１５が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していない場合（ステップＳ２４；ＮＯ）、ステップＳ２１へ戻る。このように、区切り特定部１５が、指の動きが一定時間停止していると判断するまで、ステップＳ２１〜ステップＳ２３を定期的に実行する。

ステップＳ２５において、動作特定部１６は、区切り特定部１５が特定した区切りに基づいた期間（区切り特定部１５が特定した区切りとその直前の区切りの間）に対応する画像データに対して指特徴点検出部１３が検出した特徴点を用いて指の動作を特定する（ステップＳ２５）。そして、意味特定部１７は、当該動作に基づいて意味を特定する（ステップＳ２６）。

上記期間における動作に基づいて意味特定部１７が特定した意味が１つの場合（ステップＳ２７；ＮＯ）、ステップＳ３１へ移動する。意味特定部１７が特定した意味が複数の場合（ステップＳ２７；ＹＥＳ）、全体特徴点検出部１４による腕部分の特徴点の検出処理を開始し、全体特徴点検出部１４は、上記期間に対応する画像データに対して、腕部分の特徴点を検出する（ステップＳ２８）。動作特定部１６は、全体特徴点検出部１４が検出した特徴点を用いて腕の動作を特定する（ステップＳ２９）。そして、意味特定部１７は、動作特定部１６が特定した動作に基づいて動作の意味を特定し（ステップＳ３０）、ステップＳ３１へ移動する。

ステップＳ３１において、意味出力部２０は、意味特定部１７が特定した意味を出力し、処理を終了する。このように、画像認識装置１０は、最初に指特徴点検出部１３が検出した特徴点を用いて指の動作を特定し、当該指の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置１０は、指の動作だけで意味を特定できる場合に、全体特徴点検出部１４が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。

つぎに、本実施形態における画像認識装置１０の作用効果について説明する。

本実施形態の画像認識装置１０によれば、ジェスチャ入力部１１は、撮影対象者を画像データにして取得する。指特徴点検出部１３は、画像データに基づいて、撮影対象者の指部分の特徴点を複数検出し、全体特徴点検出部１４は、画像データに基づいて、撮影対象者の腕部分の特徴点を複数検出し、区切り特定部１５は、指特徴点検出部１３検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する。動作特定部１６は、区切り特定部１５が特定した区切りに基づいた期間における、指特徴点検出部１３が検出した特徴点に基づいて、指部分の動作を特定する。意味特定部１７は、動作特定部１６が特定した指部分の動作から、撮影対象者のジェスチャの意味を特定する。意味特定部１７が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合（例えば、撮影対象者の意味が複数ある場合）、全体特徴点検出部１４は、区切り特定部１５が特定した区切りに基づいた期間に対応する画像データに基づいて特徴点を複数検出する。動作特定部１６は、区切り特定部１５が特定した区切りに基づいた期間における、全体特徴点検出部１４が検出した複数の特徴点に基づいて、腕特定部分の動作を特定し、意味特定部１７は、動作特定部１６が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する。意味出力部２０は、意味特定部１７が特定した意味を出力する。

このように、画像認識装置１０は、指部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、腕部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。

画像認識装置１０では、意味特定部１７が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、全体特徴点検出部１４による腕部分の特徴点の検出処理を開始する。この場合、画像認識装置１０は、全体特徴点検出部１４により検出された特徴点に基づいて動作を特定することを省略するだけでなく、腕部分の特徴点の検出が必要になるタイミングまで全体特徴点検出部１４による特徴点の検出処理をしないので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。

画像認識装置１０では、指特徴点検出部１３は、撮影対象者の利き手を予め保持している情報に基づいて特定し、指特徴点検出部１３が、利き手側の指部分の特徴点を検出する。この場合、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて指の動作を特定するので、両手の指の動作を特定する場合に比較して処理負荷を軽減させることができる。

画像認識装置１０では、区切り特定部１５は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する。ジェスチャの区切りの時点では、一般的に撮影対象者は、腕の動きを止めていることが多い（腕を下している場合は、より顕著である）。この傾向に基づいて、区切り特定部１５は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、正確にジェスチャの区切りを特定することができる。

上述の実施形態では、最初に指特徴点検出部１３が特徴点を検出する場合には、全体特徴点検出部１４を停止させておく場合について述べたが、全体特徴点検出部１４を予め起動させておいてもよい。この場合でも、意味特定部１７が複数の意味を特定しない限り、全体特徴点検出部１４が検出した特徴点に基づいて動作を特定しないので、処理負荷を軽減させることができる。

上述の実施形態では、利き手に関する情報を予め保持し、指特徴点検出部１３は、その保持している情報を用いて利き手を特定する場合について述べたが、過去のジェスチャの画像データを解析して、動作が大きい方の手を利き手と特定するようにしてもよい。これは、撮影対象者が利き手を優先して動かす傾向にあることに基づく。

上述の実施形態では、ジェスチャ入力部１１がカメラである場合について述べたが、温度センサに基づいた画像データを生成する装置によりジェスチャ入力部１１を実現するようにしてもよい。

上述の実施形態では、意味特定部１７が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部１６が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する場合について述べたが、意味特定部１７は、腕部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。すなわち、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、第２特定部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。

上述の実施形態では、意味特定部１７が、腕部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部１６が指部分の動作を特定し、動作特定部１６が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定することについて述べたが、区切りに基づいた期間中の腕部分の動作が、腕を下した状態から変化が無い場合には、動作特定部１６が指部分の動作を特定する処理及び意味特定部１７が指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する処理をせずに全体処理を終了してもよい。この場合、腕を下した状態では指を動作させている可能性が低いので不要な処理を省略することができる。

１０…画像認識装置、１１…ジェスチャ入力部、１２…画像記憶ＤＢ、１３…指特徴点検出部、１４…全体特徴点検出部、１５…区切り特定部、１６…動作特定部、１７…意味特定部、１８…ジェスチャＤＢ、１９…文章解釈ＤＢ、２０…意味出力部。

Claims

撮影対象者を画像データにして取得する画像取得手段と、
前記画像取得手段により取得された画像データに基づいて、撮影対象者の第１特定部分の特徴点を複数検出する第１特徴点検出手段と、
前記画像取得手段により取得された画像データに基づいて、撮影対象者の第１特定部分以外の部分である第２特定部分の特徴点を複数検出する第２特徴点検出手段と、
前記第１特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、
前記区切り特定手段が特定した区切りに基づいた期間における、前記第１特徴点検出手段が検出した複数の特徴点に基づいて、第１特定部分の動作を特定する動作特定手段と、
前記動作特定手段が特定した第１特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、
前記意味特定手段が特定した意味を出力する出力手段と、
を備え、
前記意味特定手段が、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、
前記動作特定手段は、前記区切り特定手段が特定した区切りに基づいた期間における、前記第２特徴点検出手段が検出した複数の特徴点に基づいて、第２特定部分の動作を特定し、
前記意味特定手段は、前記動作特定手段が特定した第１特定部分の動作及び第２特定部分の動作から撮影対象者のジェスチャの意味を特定する画像認識装置。
前記意味特定手段が、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記第２特徴点検出手段により第２特定部分の特徴点の検出処理を開始する、請求項１に記載の画像認識装置。
撮影対象者の利き手を特定する利き手特定手段をさらに備え、
前記第１特徴点検出手段が、第１特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出し、
前記第２特徴点検出手段が、第２特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出する、請求項１又は２に記載の画像認識装置。
前記第１特徴点検出手段又は前記第２特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、
前記区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、
請求項１〜３の何れか一項に記載の画像認識装置。
画像認識装置で実行する画像認識方法であって、
撮影対象者を画像データにして取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに基づいて、撮影対象者の第１特定部分の特徴点を複数検出する第１特徴点検出ステップと、
前記第１特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、
前記区切り特定ステップで特定した区切りに基づいた期間における、前記第１特徴点検出ステップで検出した特徴点に基づいて、第１特定部分の動作を特定する第１動作特定ステップと、
前記第１動作特定ステップで特定した第１特定部分の動作から、撮影対象者のジェスチャの意味を特定する第１意味特定ステップと、
前記第１意味特定ステップで、第１特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記画像取得ステップにより取得された画像データに基づいて、前記区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第１特定部分以外の部分である第２特定部分の特徴点を複数検出する第２特徴点検出ステップと、
前記区切り特定ステップで特定した区切りに基づいた期間における、前記第２特徴点検出ステップが検出した複数の特徴点に基づいて、第２特定部分の動作を特定する第２動作特定ステップと、
前記動作特定ステップで特定した第１特定部分の動作及び前記第２動作特定ステップで第２特定部分の動作から撮影対象者のジェスチャの意味を特定する第２意味特定ステップと、
前記第１意味特定ステップ又は前記第２意味特定ステップで特定した意味を出力する出力ステップと、
を備える、画像認識方法。