JP6144192B2 - 画像認識装置、及び画像認識方法 - Google Patents

画像認識装置、及び画像認識方法 Download PDF

Info

Publication number
JP6144192B2
JP6144192B2 JP2013272408A JP2013272408A JP6144192B2 JP 6144192 B2 JP6144192 B2 JP 6144192B2 JP 2013272408 A JP2013272408 A JP 2013272408A JP 2013272408 A JP2013272408 A JP 2013272408A JP 6144192 B2 JP6144192 B2 JP 6144192B2
Authority
JP
Japan
Prior art keywords
specifying
feature point
meaning
specified
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013272408A
Other languages
English (en)
Other versions
JP2015125766A (ja
Inventor
小林 茂子
茂子 小林
渋谷 彰
彰 渋谷
▲高▼橋 誠
誠 ▲高▼橋
雄太 樋口
雄太 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013272408A priority Critical patent/JP6144192B2/ja
Publication of JP2015125766A publication Critical patent/JP2015125766A/ja
Application granted granted Critical
Publication of JP6144192B2 publication Critical patent/JP6144192B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、画像認識装置、及び画像認識方法に関する。
従来における、手話などのジェスチャ認識の技術では、体全体、頭の位置、腕の動きだけでなく、指、口、顔の表情といった各々の動きを総合的に認識する。
例えば、2つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている(特許文献1)。
特開2009−211563号公報
しかし、特許文献1では、画像からユーザ領域を特定することができるが、全てのジェスチャに対して、体全体、頭の位置、腕、及び指の動きの検出や当該動きに対応する意味の特定した場合、処理負荷がかかるという問題点がある。
本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を特定する処理負荷を軽減することができる画像認識装置及び画像認識方法を提供することを目的とする。
上述の課題を解決するために、本発明の画像認識装置は、撮影対象者を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出手段と、画像取得手段により取得された画像データに基づいて、定期的に撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出手段と、第1特徴点検出手段又は第2特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、区切り特定手段が特定した区切りに基づいた期間における、第1特徴点検出手段が検出した複数の特徴点に基づいて、第1特定部分の動作を特定する動作特定手段と、動作特定手段が特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、意味特定手段が特定した意味を出力する出力手段と、を備え、意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、動作特定手段は、区切り特定手段が特定した区切りに基づいた期間における、第2特徴点検出手段が検出した複数の特徴点に基づいて、第2特定部分の動作を特定し、意味特定手段は、動作特定手段が特定した第1特定部分の動作及び第2特定部分の動作から撮影対象者のジェスチャの意味を特定する。
また、本発明に係る画像認識方法において、画像認識装置で実行する画像認識方法であって、撮影対象者を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出ステップと、第1特徴点検出ステップ又は第2特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第1特徴点検出ステップで検出した特徴点に基づいて、第1特定部分の動作を特定する第1動作特定ステップと、第1動作特定ステップで特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する第1意味特定ステップと、第1意味特定ステップで、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、画像取得ステップにより取得された画像データに基づいて、区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第2特徴点検出ステップで検出した複数の特徴点に基づいて、第2特定部分の動作を特定する第2動作特定ステップと、第1動作特定ステップで特定した第1特定部分の動作及び第2動作特定ステップで第2特定部分の動作から撮影対象者のジェスチャの意味を特定する第2意味特定ステップと、第1意味特定ステップ又は第2意味特定ステップで特定した意味を出力する出力ステップと、を備える。
この発明によれば、第1特定部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、第2特定部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。
また、本発明の画像認識装置において、意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、第2特徴点検出手段により第2特定部分の特徴点の検出処理を開始するようにしてもよい。この場合、画像認識装置は、第2特徴点検出手段により検出された特徴点に基づいて動作を特定することを省略するだけでなく、第2特徴点の検出が必要になるタイミングまで第2特徴点の検出も停止するので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。
また、本発明の画像認識装置において、撮影対象者の利き手を特定する利き手特定手段をさらに備え、第1特徴点検出手段が、第1特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出し、第2特徴点検出手段が、第2特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出する、ようにしてもよい。この場合、画像認識装置は、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて動作を特定するので、検出する処理負荷を軽減させることができる。
また、本発明の画像認識装置において、第1特徴点検出手段又は第2特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、ようにしてもよい。この場合、画像認識装置は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、ジェスチャの区切りを正確に特定することができる。
本発明によれば、ジェスチャ動作の意味を判断する処理負荷を軽減することができる。
本実施形態の画像認識装置10の機能構成を示すブロック図である。 画像認識装置10のハードウェア構成図である。 ジェスチャDB18及び文章解釈DB19のデータ例を示す図である。 動作とその意味の関係を示す図である。 本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。 本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。
以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態の画像認識装置10の機能を示すブロック図である。この画像認識装置10は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部11(画像取得手段)、画像記憶DB(データベース)12、指特徴点検出部13(第1特徴点検出手段、第2特徴点検出手段、利き手特定手段)、全体特徴点検出部14(第1特徴点検出手段、第2特徴点検出手段)、区切り特定部15(区切り特定手段)、動作特定部16(動作特定手段)、意味特定部17(意味特定手段)、ジェスチャDB18、文章解釈DB19及び意味出力部20(出力手段)を含んで構成されている。この画像認識装置10は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。
図2は、画像認識装置10のハードウェア構成図である。図1に示される画像認識装置10は、物理的には、図2に示すように、一または複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
ジェスチャ入力部11は、手話者などの撮影対象者の動作を複数の画像データとして取得する部分であり、例えばカメラ(3次元計測技術を備えたカメラ、簡易カメラ)である。なお、画像データには、撮影時刻が紐づけられている。ジェスチャ入力部11は、取得した画像データを画像記憶DB12へ記憶する。
画像記憶DB12は、ジェスチャ入力部11が取得した画像データを記憶するデータベースである。
指特徴点検出部13は、ジェスチャ入力部11により取得された画像データに基づいて、撮影対象者の指部分(第1特定部分又は第2特定部分)の特徴点を複数検出する部分である。具体的には、指特徴点検出部13は、各画像データ中における指部分の特徴点の位置を検出することにより、指部分の特徴点の位置を複数検出する。そして、指特徴点検出部13は、予め定められている利き手情報(例えば、画像認識装置10が保持している情報)に基づいて、利き手側の指部分の特徴点を検出する。なお、指特徴点検出部13は、画像記憶DB12を介して画像データを取得してもよいし、ジェスチャ入力部11から直接画像データを取得してもよい。
全体特徴点検出部14は、ジェスチャ入力部11により取得された画像データに基づいて、撮影対象者の指以外の特徴点を複数検出する部分である。具体的には、全体特徴点検出部14は、各画像データ中における指以外の特徴点として、腕、顔、及び手等の部位(第1特定部分又は第2特定部分)の特徴点の位置を検出することにより、指以外の特徴点を複数検出する。本実施形態では、全体特徴点検出部14は、指以外の特徴点として、腕の位置を検出するものとする。なお、全体特徴点検出部14は、画像記憶DB12を介して画像データを取得してもよいし、ジェスチャ入力部11から直接画像データを取得してもよい。
区切り特定部15は、指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置に基づいて、撮影対象者のジェスチャの区切りを特定する部分である。具体的には、区切り特定部15は、指特徴点検出部13又は全体特徴点検出部14が複数の画像データから検出した特徴点における、画像データの撮影時刻に基づいた特徴点(例えば、手首部分の特徴点)の位置の変化を検出する。区切り特定部15は、検出した位置の変化が無い又は、検出した位置の変化が予め定められている閾値より小さい箇所を撮影対象者のジェスチャの区切りであると特定する。
動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、指特徴点検出部13又は全体特徴点検出部14が検出した特徴点に基づいて、検出部分(例えば、指、腕等)の動作を特定する部分である。具体的に、動作特定部16は、区切り特定部15が特定した期間に対応する複数の画像データ中から指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置変化に基づいて、検出部分の動作を特定する。例えば、動作特定部16は、画像データの撮影時刻順に、区切り特定部15が特定した期間に対応する複数の画像データ中の指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置変化として、変化度合いや変化方向を検出することにより、検出部分の動作を特定する。なお、上記区切り特定部15が特定した区切りに基づいた期間とは、ある区切りからその次の区切りまでの期間である。
意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいて動作特定部16が特定した動作から、撮影対象者のジェスチャの意味を特定する。また、意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作(すなわち、指及び腕の動作)から、撮影対象者のジェスチャの意味を特定する。
意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいて動作特定部16が特定した動作から、撮影対象者のジェスチャの意味を特定する際に、上記動作に対応する意味を、後述するジェスチャDB18及び文章解釈DB19を用いて検索することにより、撮影対象者のジェスチャの意味を特定する。
また、意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作から、撮影対象者のジェスチャの意味を特定する際に、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作の意味を、ジェスチャDB18及び文章解釈DB19を用いて検索する。なお、意味特定部17は、最初に検索して取得した複数のジェスチャの意味をメモリ(例えば、RAM102)で保持しておき、当該複数のジェスチャの意味と、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作とに基づいて、撮影対象者のジェスチャの意味を特定するようにしてもよい。
ジェスチャDB18は、手話者の動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。
ジェスチャDB18のデータ例を図3(A)に示す。図3(A)は、指の動きに関するジェスチャのデータ例である。図3(A)に示すように、ジェスチャDB18は、「ジェスチャID」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを少なくとも有する。図示していないが、ジェスチャDB18では、顔、腕の動きの情報もさらに有する。
例えば、ジェスチャIDが「00000001」であるジェスチャは、手の向きが正面であり、手の角度が0度(指先が上を向いた状態)であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。「指の突起有無」の情報では、「1」の値が割り当てられている指が上がっていることを示す。
文章解釈DB19は、意味特定部17が、ジェスチャDB18を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。
文章解釈DB19が記憶しているデータ例を図3(B)に示す。図3(B)に示すように、文章解釈DB19は、「ジェスチャID」と「意味」とを有する。
図3(B)の例では、ジェスチャIDが「00000001」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャIDが「00002000」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャIDが「00002000」のジェスチャは、複数の意味を有している。
なお、文章解釈DB19で保持しているデータの「意味」は、指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみで特定できる意味、及び、指の動作と「上体、腕、及び頭」の動作との両方で特定できる意味がある。
指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみに基づいて特定できる意味、及び指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味の例を図4に示す。
図4に示すように、指の動作のみに基づいて特定できる意味として、五十音、アルファベット、数字等がある。また、「上体、腕、及び頭」の動作のみに基づいて特定できる意味として、体の特定の部位を示すものがある。そして、指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味として、約束(両手の小指を絡める)等がある。
このように、指の動作だけで意味を特定できるものや、「上体、腕、及び頭」の動作だけで意味を特定できるものがあるので、指の動作と「上体、腕、及び頭」の動作との双方の動作を特定することなく、意味を特定することも可能である。この点に着目し、本実施形態では、最初に、指特徴点検出部13及び全体特徴点検出部14の一方から検出した特徴点に基づいて動作を特定し、その動作から1つの意味に特定できれば、その意味を出力し、上記動作に対応する複数の意味候補がある場合、指特徴点検出部13が検出した特徴点に基づいた動作、及び全体特徴点検出部14が検出した特徴点に基づいた動作から意味を特定する。
意味出力部20は、意味特定部17が特定したジェスチャの意味を出力する部分である。具体的には、ディスプレイ等である。
続いて、最初に全体特徴点検出部14が検出した特徴点に基づいた動作のみから意味を特定する場合の処理の説明を図5に示すフローチャートを用いて説明する。前提として、図5に示すフローチャートの処理が始まる前は、指特徴点検出部13は、停止しているものとする。図5に示すフローチャートの処理では、全体特徴点検出部14が第1特徴点検出手段に対応し、指特徴点検出部13が第2特徴点検出手段に対応する。
撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶DB12へ記憶する(ステップS1)。全体特徴点検出部14は、画像データから腕に対応する特徴点の位置を検出する(ステップS2)。続いて、区切り特定部15は、直前に撮影された画像データ中の腕の特徴点の一又は複数の位置と比較して腕の特徴点位置の変化度合いを判定する(ステップS3)。
区切り特定部15が特徴点位置の変化度合いを判定した結果、腕が下りた状態で、且つ腕の動きが一定時間停止していると判断した場合(ステップS4;YES)、区切り特定部15は、区切りを特定し、ステップS5へ移動する。
区切り特定部15が特徴点位置の変化度合いを判定した結果、腕の動きが一定時間停止していない場合(ステップS4;NO)、ステップS1へ戻る。このように、区切り特定部15が、腕の動きが一定時間停止していると判断するまで、ステップS1〜ステップS3を定期的に実行する。
ステップS5において、動作特定部16は、区切り特定部15が特定した区切りに基づいた期間(区切り特定部15が特定した区切りとその直前の区切りの間)に対応する画像データに対して全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定する(ステップS5)。そして、意味特定部17は、当該動作に基づいて意味を特定する(ステップS6)。
上記期間における動作に基づいて意味特定部17が特定した意味が1つの場合(ステップS7;NO)、ステップS11へ移動する。意味特定部17が特定した意味が複数の場合(ステップS7;YES)、指特徴点検出部13による指部分の特徴点の検出処理を開始し、指特徴点検出部13は、上記期間に対応する画像データに対して、指部分の特徴点を検出する(ステップS8)。動作特定部16は、指特徴点検出部13が検出した特徴点を用いて指の動作を特定する(ステップS9)。そして、意味特定部17は、動作特定部16が特定した動作に基づいて動作の意味を特定し(ステップS10)、ステップS11へ移動する。
ステップS11において、意味出力部20は、意味特定部17が特定した意味を出力し、処理を終了する。このように、画像認識装置10は、最初に全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定し、当該腕の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置10は、腕の動作だけで意味を特定できる場合に、指特徴点検出部13が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。
続いて、最初に指特徴点検出部13が検出した特徴点に基づいた動作から意味を特定する場合の処理の説明を図6に示すフローチャートを用いて説明する。前提として、図6のフローチャートの処理前は、全体特徴点検出部14が停止しているものとする。図6に示すフローチャートの処理では、指特徴点検出部13が第1特徴点検出手段に対応し、全体特徴点検出部14が第2特徴点検出手段に対応する。
撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶DB12へ記憶する(ステップS21)。指特徴点検出部13は、画像データから腕に対応する特徴点の位置を検出する(ステップS22)。続いて、区切り特定部15は、直前に撮影された画像データ中の指の特徴位置と比較して指の特徴点位置の変化度合いを判定する(ステップS23)。
区切り特定部15が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していると判断した場合(ステップS24;YES)、区切り特定部15は、区切りを特定し、ステップS25へ移動する。
区切り特定部15が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していない場合(ステップS24;NO)、ステップS21へ戻る。このように、区切り特定部15が、指の動きが一定時間停止していると判断するまで、ステップS21〜ステップS23を定期的に実行する。
ステップS25において、動作特定部16は、区切り特定部15が特定した区切りに基づいた期間(区切り特定部15が特定した区切りとその直前の区切りの間)に対応する画像データに対して指特徴点検出部13が検出した特徴点を用いて指の動作を特定する(ステップS25)。そして、意味特定部17は、当該動作に基づいて意味を特定する(ステップS26)。
上記期間における動作に基づいて意味特定部17が特定した意味が1つの場合(ステップS27;NO)、ステップS31へ移動する。意味特定部17が特定した意味が複数の場合(ステップS27;YES)、全体特徴点検出部14による腕部分の特徴点の検出処理を開始し、全体特徴点検出部14は、上記期間に対応する画像データに対して、腕部分の特徴点を検出する(ステップS28)。動作特定部16は、全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定する(ステップS29)。そして、意味特定部17は、動作特定部16が特定した動作に基づいて動作の意味を特定し(ステップS30)、ステップS31へ移動する。
ステップS31において、意味出力部20は、意味特定部17が特定した意味を出力し、処理を終了する。このように、画像認識装置10は、最初に指特徴点検出部13が検出した特徴点を用いて指の動作を特定し、当該指の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置10は、指の動作だけで意味を特定できる場合に、全体特徴点検出部14が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。
つぎに、本実施形態における画像認識装置10の作用効果について説明する。
本実施形態の画像認識装置10によれば、ジェスチャ入力部11は、撮影対象者を画像データにして取得する。指特徴点検出部13は、画像データに基づいて、撮影対象者の指部分の特徴点を複数検出し、全体特徴点検出部14は、画像データに基づいて、撮影対象者の腕部分の特徴点を複数検出し、区切り特定部15は、指特徴点検出部13検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する。動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、指特徴点検出部13が検出した特徴点に基づいて、指部分の動作を特定する。意味特定部17は、動作特定部16が特定した指部分の動作から、撮影対象者のジェスチャの意味を特定する。意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合(例えば、撮影対象者の意味が複数ある場合)、全体特徴点検出部14は、区切り特定部15が特定した区切りに基づいた期間に対応する画像データに基づいて特徴点を複数検出する。動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、全体特徴点検出部14が検出した複数の特徴点に基づいて、腕特定部分の動作を特定し、意味特定部17は、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する。意味出力部20は、意味特定部17が特定した意味を出力する。
このように、画像認識装置10は、指部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、腕部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。
画像認識装置10では、意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、全体特徴点検出部14による腕部分の特徴点の検出処理を開始する。この場合、画像認識装置10は、全体特徴点検出部14により検出された特徴点に基づいて動作を特定することを省略するだけでなく、腕部分の特徴点の検出が必要になるタイミングまで全体特徴点検出部14による特徴点の検出処理をしないので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。
画像認識装置10では、指特徴点検出部13は、撮影対象者の利き手を予め保持している情報に基づいて特定し、指特徴点検出部13が、利き手側の指部分の特徴点を検出する。この場合、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて指の動作を特定するので、両手の指の動作を特定する場合に比較して処理負荷を軽減させることができる。
画像認識装置10では、区切り特定部15は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する。ジェスチャの区切りの時点では、一般的に撮影対象者は、腕の動きを止めていることが多い(腕を下している場合は、より顕著である)。この傾向に基づいて、区切り特定部15は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、正確にジェスチャの区切りを特定することができる。
上述の実施形態では、最初に指特徴点検出部13が特徴点を検出する場合には、全体特徴点検出部14を停止させておく場合について述べたが、全体特徴点検出部14を予め起動させておいてもよい。この場合でも、意味特定部17が複数の意味を特定しない限り、全体特徴点検出部14が検出した特徴点に基づいて動作を特定しないので、処理負荷を軽減させることができる。
上述の実施形態では、利き手に関する情報を予め保持し、指特徴点検出部13は、その保持している情報を用いて利き手を特定する場合について述べたが、過去のジェスチャの画像データを解析して、動作が大きい方の手を利き手と特定するようにしてもよい。これは、撮影対象者が利き手を優先して動かす傾向にあることに基づく。
上述の実施形態では、ジェスチャ入力部11がカメラである場合について述べたが、温度センサに基づいた画像データを生成する装置によりジェスチャ入力部11を実現するようにしてもよい。
上述の実施形態では、意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する場合について述べたが、意味特定部17は、腕部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。すなわち、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、第2特定部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。
上述の実施形態では、意味特定部17が、腕部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部16が指部分の動作を特定し、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定することについて述べたが、区切りに基づいた期間中の腕部分の動作が、腕を下した状態から変化が無い場合には、動作特定部16が指部分の動作を特定する処理及び意味特定部17が指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する処理をせずに全体処理を終了してもよい。この場合、腕を下した状態では指を動作させている可能性が低いので不要な処理を省略することができる。
10…画像認識装置、11…ジェスチャ入力部、12…画像記憶DB、13…指特徴点検出部、14…全体特徴点検出部、15…区切り特定部、16…動作特定部、17…意味特定部、18…ジェスチャDB、19…文章解釈DB、20…意味出力部。

Claims (5)

  1. 撮影対象者を画像データにして取得する画像取得手段と、
    前記画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出手段と、
    前記画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出手段と、
    前記第1特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、
    前記区切り特定手段が特定した区切りに基づいた期間における、前記第1特徴点検出手段が検出した複数の特徴点に基づいて、第1特定部分の動作を特定する動作特定手段と、
    前記動作特定手段が特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、
    前記意味特定手段が特定した意味を出力する出力手段と、
    を備え、
    前記意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、
    前記動作特定手段は、前記区切り特定手段が特定した区切りに基づいた期間における、前記第2特徴点検出手段が検出した複数の特徴点に基づいて、第2特定部分の動作を特定し、
    前記意味特定手段は、前記動作特定手段が特定した第1特定部分の動作及び第2特定部分の動作から撮影対象者のジェスチャの意味を特定する画像認識装置。
  2. 前記意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記第2特徴点検出手段により第2特定部分の特徴点の検出処理を開始する、請求項1に記載の画像認識装置。
  3. 撮影対象者の利き手を特定する利き手特定手段をさらに備え、
    前記第1特徴点検出手段が、第1特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出し、
    前記第2特徴点検出手段が、第2特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出する、請求項1又は2に記載の画像認識装置。
  4. 前記第1特徴点検出手段又は前記第2特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、
    前記区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、
    請求項1〜3の何れか一項に記載の画像認識装置。
  5. 画像認識装置で実行する画像認識方法であって、
    撮影対象者を画像データにして取得する画像取得ステップと、
    前記画像取得ステップにより取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出ステップと、
    前記第1特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、
    前記区切り特定ステップで特定した区切りに基づいた期間における、前記第1特徴点検出ステップで検出した特徴点に基づいて、第1特定部分の動作を特定する第1動作特定ステップと、
    前記第1動作特定ステップで特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する第1意味特定ステップと、
    前記第1意味特定ステップで、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記画像取得ステップにより取得された画像データに基づいて、前記区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出ステップと、
    前記区切り特定ステップで特定した区切りに基づいた期間における、前記第2特徴点検出ステップが検出した複数の特徴点に基づいて、第2特定部分の動作を特定する第2動作特定ステップと、
    前記動作特定ステップで特定した第1特定部分の動作及び前記第2動作特定ステップで第2特定部分の動作から撮影対象者のジェスチャの意味を特定する第2意味特定ステップと、
    前記第1意味特定ステップ又は前記第2意味特定ステップで特定した意味を出力する出力ステップと、
    を備える、画像認識方法。
JP2013272408A 2013-12-27 2013-12-27 画像認識装置、及び画像認識方法 Expired - Fee Related JP6144192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013272408A JP6144192B2 (ja) 2013-12-27 2013-12-27 画像認識装置、及び画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013272408A JP6144192B2 (ja) 2013-12-27 2013-12-27 画像認識装置、及び画像認識方法

Publications (2)

Publication Number Publication Date
JP2015125766A JP2015125766A (ja) 2015-07-06
JP6144192B2 true JP6144192B2 (ja) 2017-06-07

Family

ID=53536382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013272408A Expired - Fee Related JP6144192B2 (ja) 2013-12-27 2013-12-27 画像認識装置、及び画像認識方法

Country Status (1)

Country Link
JP (1) JP6144192B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216072B2 (en) 2016-07-25 2022-01-04 Sony Corporation Information processing apparatus, information processing method, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3338992B2 (ja) * 1992-10-29 2002-10-28 株式会社日立製作所 手話/単語変換システム
JPH08115408A (ja) * 1994-10-19 1996-05-07 Hitachi Ltd 手話認識装置
JP4565200B2 (ja) * 1998-09-28 2010-10-20 パナソニック株式会社 手動作分節方法および装置
JP4332649B2 (ja) * 1999-06-08 2009-09-16 独立行政法人情報通信研究機構 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
JP2001286677A (ja) * 2000-04-07 2001-10-16 Namco Ltd 手話ゲーム装置および情報記憶媒体
JP3949913B2 (ja) * 2001-08-06 2007-07-25 株式会社日立製作所 手話文認識装置およびユーザインタフェース
AU2013205535B2 (en) * 2012-05-02 2018-03-15 Samsung Electronics Co., Ltd. Apparatus and method of controlling mobile terminal based on analysis of user's face

Also Published As

Publication number Publication date
JP2015125766A (ja) 2015-07-06

Similar Documents

Publication Publication Date Title
US11423700B2 (en) Method, apparatus, device and computer readable storage medium for recognizing aerial handwriting
US9916012B2 (en) Image processing apparatus, image processing method, and program
US9390340B2 (en) Image-based character recognition
US8897490B2 (en) Vision-based user interface and related method
WO2017088727A1 (zh) 一种图像处理方法和装置
KR20130106833A (ko) 휴대용 전자 디바이스에 대한 입력을 증진시키기 위한 카메라 사용
US9746929B2 (en) Gesture recognition using gesture elements
KR101631011B1 (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
US9390317B2 (en) Lip activity detection
EP4030749B1 (en) Image photographing method and apparatus
WO2019033567A1 (zh) 眼球动作捕捉方法、装置及存储介质
US20160140762A1 (en) Image processing device and image processing method
US20180225438A1 (en) Biometric authentication apparatus, biometric authentication method, and non-transitory computer-readable storage medium for storing program for biometric authentication
JP6144192B2 (ja) 画像認識装置、及び画像認識方法
CN115131693A (zh) 文本内容识别方法、装置、计算机设备和存储介质
EP2998928B1 (en) Apparatus and method for extracting high watermark image from continuously photographed images
US9697608B1 (en) Approaches for scene-based object tracking
US10127478B2 (en) Electronic apparatus and method
Rubin Bose et al. In-situ identification and recognition of multi-hand gestures using optimized deep residual network
KR20190132885A (ko) 영상으로부터 손을 검출하는 장치, 방법 및 컴퓨터 프로그램
CN112541418A (zh) 用于图像处理的方法、装置、设备、介质和程序产品
CN114510142A (zh) 基于二维图像的手势识别方法及其系统和电子设备
US11340706B2 (en) Gesture recognition based on depth information and computer vision
JP6209067B2 (ja) 画像認識装置、及び画像認識方法
KR20210041856A (ko) 딥 러닝 기반으로 애니메이션 캐릭터를 학습하는 데 필요한 학습 데이터 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160818

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170510

R150 Certificate of patent or registration of utility model

Ref document number: 6144192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees