JP2023139534A - ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 - Google Patents
ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 Download PDFInfo
- Publication number
- JP2023139534A JP2023139534A JP2022045113A JP2022045113A JP2023139534A JP 2023139534 A JP2023139534 A JP 2023139534A JP 2022045113 A JP2022045113 A JP 2022045113A JP 2022045113 A JP2022045113 A JP 2022045113A JP 2023139534 A JP2023139534 A JP 2023139534A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- detection
- gesture recognition
- recognition device
- predetermined condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000001514 detection method Methods 0.000 claims abstract description 124
- 238000005516 engineering process Methods 0.000 abstract description 4
- 210000004247 hand Anatomy 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
【課題】様々な状況下でジェスチャを高精度に認識することのできる技術を提供する。【解決手段】本発明のジェスチャ認識装置は、撮像画像から、ジェスチャを行う第1部位を検出する第1検出手段と、前記撮像画像から、前記第1検出手段によって検出された前記第1部位における、前記ジェスチャを行う第2部位を検出する第2検出手段と、前記第1検出手段によって検出された前記第1部位の動きと、前記第2検出手段によって検出された前記第2部位の動きとに基づいて、前記ジェスチャを認識する認識手段とを有し、前記第2検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とする。【選択図】図3
Description
本発明は、ジェスチャを認識する技術に関する。
ユーザの手や指などによるジェスチャを認識し、認識したジェスチャに応じた処理を行う技術が提案されている。このような技術によれば、ユーザは、ジェスチャによって、電子機器(電子機器の入力デバイス)に触れずに、当該電子機器を操作することができる。
特許文献1には、ユーザの手や指などをカメラで撮像した画像から、ジェスチャを行う部位である手を抽出し、抽出した手の形状を特定して、ジェスチャを認識することが開示されている。
特許文献2には、ジェスチャの認識にディープラーニングを用いることが開示されている。
しかしながら、両手を用いたジェスチャなどを認識する場合に、状況に依っては、ジェスチャが高精度に認識できない(ジェスチャの認識が不安定になる)ことがある。例えば、右手と左手が重なり合っている場合に、右手と左手の分離や、関節など(ジェスチャの認識のキーポイント)の検出、手など(ジェスチャを行う部位)の形状の特定(認識)などが高精度に行えない(不安定になる)ことがある。
本発明は、様々な状況下でジェスチャを高精度に認識することのできる技術を提供することを目的とする。
本発明の第1の態様は、撮像画像から、ジェスチャを行う第1部位を検出する第1検出手段と、前記撮像画像から、前記第1検出手段によって検出された前記第1部位における、前記ジェスチャを行う第2部位を検出する第2検出手段と、前記第1検出手段によって検出された前記第1部位の動きと、前記第2検出手段によって検出された前記第2部位の動きとに基づいて、前記ジェスチャを認識する認識手段とを有し、前記第2検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とするジェスチャ認識装置である。
本発明の第2の態様は、撮像画像から、ジェスチャを行う第1部位を検出する第1検出ステップと、前記撮像画像から、前記第1検出ステップにおいて検出された前記第1部位における、前記ジェスチャを行う第2部位を検出する第2検出ステップと、前記第1検出ステップにおいて検出された前記第1部位の動きと、前記第2検出ステップにおいて検出された前記第2部位の動きとに基づいて、前記ジェスチャを認識する認識ステップとを有
し、前記第2検出ステップにおいて所定の条件を満たす検出結果が得られなかった場合に、前記認識ステップは、過去の第2検出ステップにおいて得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とするジェスチャ認識方法である。
し、前記第2検出ステップにおいて所定の条件を満たす検出結果が得られなかった場合に、前記認識ステップは、過去の第2検出ステップにおいて得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識することを特徴とするジェスチャ認識方法である。
本発明の第3の態様は、上記ジェスチャ認識装置の認識結果に基づいて表示を制御する表示制御手段を有することを特徴とする頭部装着型表示装置である。本発明の第4の態様は、コンピュータを上記ジェスチャ認識装置の各手段として機能させるためのプログラムである。本発明の第5の態様は、コンピュータを上記ジェスチャ認識装置の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体である。
本発明によれば、様々な環境下でジェスチャを高精度に認識することができる。
本発明の実施形態について説明する。図1は、本実施形態におけるジェスチャ認識装置101の構成例を示すブロック図である。ジェスチャ認識装置101は、撮像部102、システム制御部103、不揮発性メモリ104、システムメモリ105、およびジェスチャ認識部110を有する。
撮像部102は、複数のレンズを備える光学系と、イメージセンサ(例えば、CCDまたはCMOSセンサ)とを有しており、ユーザによるジェスチャが撮像可能な方向を向くように配置されている。本実施形態においてはイメージセンサを用いるとするが、ジェスチャの認識に利用可能なセンサであればよく、測距センサ(例えば、LiDAR(Light Detection and Ranging)のようなレーザーを利用したセンサ)を用いてもよい。
不揮発性メモリ104は、電気的に消去・記録可能なメモリであり、例えばFlash-ROMなどである。不揮発性メモリ104には、システム制御部103の動作用の定数やプログラムなどが格納される。ここでいう、プログラムとは、例えば、本実施形態にて後述するフローチャートの各処理を実行するためのプログラムのことである。
システムメモリ105は、例えばRAMなどであり、システム制御部103の動作用の変数や、不揮発性メモリ104から読み出された定数やプログラムなどが展開される。
システム制御部103は、少なくとも1つのプロセッサまたは回路からなる制御部であり、ジェスチャ認識装置101全体を制御する。システム制御部103は、前述した不揮発性メモリ104に格納されているプログラムを実行することで、後述するフローチャートの各処理を実現する。システム制御部103は、撮像部102から得られた撮像画像に対してノイズ除去やリサイズなどの画像処理を施すことで検出画像を生成し、検出画像をシステムメモリ105に記録する。また、システム制御部103は、ジェスチャ認識部110によって認識されたジェスチャに応じた処理を実行する。例えば、システム制御部103は、認識されたジェスチャに対応する制御信号を生成し、当該制御信号を用いてジェスチャ認識装置101の各部を制御する。
ジェスチャ認識部110は、対象部位検出部111、詳細部位検出部112、詳細部位判断部113、およびジェスチャ検出部114を有し、撮像部102から得られた撮像画像(具体的には、上述した検出画像)に基づいてジェスチャを認識する。
ジェスチャ認識部110について、図2を用いて詳細に説明する。図2は、本実施形態における手と関節の検出例を示す図である。
図2の画像200は、撮像部102から得られた撮像画像に画像処理を施した検出画像である。検出画像200には、ジェスチャ(ジェスチャ操作)を行うユーザの左手211と右手212が写っている。図2の画像201は、検出画像200に対象部位検出部111と詳細部位検出部112の検出結果を重畳した画像である。
対象部位検出部111は、検出画像200から、ジェスチャを行う対象部位である手を検出(抽出)する。図2では、左手211と右手212のそれぞれについて、手領域(手の領域)が検出されている。手領域は、例えば手の中心位置を中心として当該手を囲む矩形領域である。左手211については手領域221が検出され、右手212については手領域222が検出される。
詳細部位検出部112は、検出画像200から、対象部位検出部111によって検出された対象部位における、ジェスチャを行う詳細部位である関節を検出(抽出)する。図2では、左手211と右手212のそれぞれについて、手首から各指先までの21点の関節位置(関節の位置)が検出されている。対象部位検出部111は、21点の関節位置に基づいて関節情報を得る。左手211については関節情報231が得られ、右手212については関節情報232が得られる。関節情報231,232は、21点の関節位置と、骨格を形成するように21点の関節位置を繋ぐ複数の線分とを示す。関節情報が示す関節位置は、例えば、手領域に対する相対位置である。関節情報231が示す関節位置は、手領域221に対する相対位置であり、関節情報232が示す関節位置は、手領域222に対する相対位置である。なお、本実施形態では、ユーザが手や指でジェスチャを行うとするが、体や腕、足、顔、目、口などでジェスチャを行ってもよい。対象部位を体とし、詳細部位を腕や腕の関節などとしてもよい。対象部位を顔とし、詳細部位を目などとしてもよい。また、検出画像が大きい(検出画像の画素数が多い)場合には、詳細部位の検出に長い時間を要してしまう。リサイズによって小さい検出画像(解像度(画素の密度)の低い検出画像)が得られるようにすると、詳細部位の検出に要する時間は短くなるが、当該検出の精度が低下てしまう。そのため、検出画像から対象部位の領域(手領域221や手領域222)を切り出し、当該切り出した領域の画像(切り出し画像)から詳細部位を検出してもよい。切り出し画像の解像度は検出画像と同じであるが、切り出し画像は検出画像よりも小さい(切り出し画像の画素数は検出画像よりも少ない)。そのため、切り出し画像から詳細部位を検出するようにすれば、詳細部位を短時間かつ高精度で検出することが可能になる。
詳細部位判断部113は、詳細部位検出部112によって得られた検出結果(関節情報)の信頼度を判断(算出)する。そして、詳細部位判断部113は、信頼度が閾値TH以上であるか否かに基づいて、ジェスチャ検出部114で用いる関節情報を決定する。信頼度の判断方法や、ジェスチャ検出部114で用いる関節情報の決定方法などの詳細(具体例)については後述する。
ジェスチャ検出部114は、対象部位検出部111によって検出された対象部位(手)の動きと、詳細部位検出部112によって検出された詳細部位(関節)の動きとに基づいて、ジェスチャを検出(認識)する。本実施形態では、ジェスチャ検出部114は、対象
部位検出部111の検出結果(手領域)と詳細部位判断部113の判断結果(関節情報)とを用いて、ジェスチャを検出する。ジェスチャ検出部114は、例えば、対象部位検出部111の検出結果(手領域)と詳細部位判断部113の判断結果(関節情報)とを、予め不揮発性メモリ104に格納しておいたジェスチャモデルと照合して、ジェスチャを検出する。なお、ジェスチャの検出方法はこれに限られず、ディープラーニングなどで学習された検出器を用いてジェスチャを検出してもよい。ディープラーニングを用いる場合には、RNN(回帰型ニューラルネットワーク)を用いることで、関節情報の時系列データから、1フレームのデータからは検出できないジェスチャ(指で円を描くジェスチャなど)を検出することが可能となる。ジェスチャ検出部114が検出可能なジェスチャは1つに限られず、ジェスチャ検出部114は複数のジェスチャを検出可能であってもよい。
部位検出部111の検出結果(手領域)と詳細部位判断部113の判断結果(関節情報)とを用いて、ジェスチャを検出する。ジェスチャ検出部114は、例えば、対象部位検出部111の検出結果(手領域)と詳細部位判断部113の判断結果(関節情報)とを、予め不揮発性メモリ104に格納しておいたジェスチャモデルと照合して、ジェスチャを検出する。なお、ジェスチャの検出方法はこれに限られず、ディープラーニングなどで学習された検出器を用いてジェスチャを検出してもよい。ディープラーニングを用いる場合には、RNN(回帰型ニューラルネットワーク)を用いることで、関節情報の時系列データから、1フレームのデータからは検出できないジェスチャ(指で円を描くジェスチャなど)を検出することが可能となる。ジェスチャ検出部114が検出可能なジェスチャは1つに限られず、ジェスチャ検出部114は複数のジェスチャを検出可能であってもよい。
本実施形態におけるジェスチャ認識処理について説明する。図3は、本実施形態におけるジェスチャ認識処理の一例を示すフローチャートである。この処理は、システム制御部103が不揮発性メモリ104に格納されているプログラムをシステムメモリ105に展開して実行することにより実現される。例えば、ジェスチャ認識装置101が起動すると、図3の処理が開始する。図4は、本実施形態におけるジェスチャ認識処理の一例を説明する図である。図4では、検出画像401~403が時系列順に並べられている。検出画像401が最も古く、検出画像403が最も新しい。検出画像401~403には左手405と右手411が写っている。以下では、右手411に関する処理について説明するが、複数の手のジェスチャが認識できるように、右手411に関する処理と、左手405に関する処理とを並列に行ったり、順に行ったりしてもよい。左手405に関する処理は、右手411に関する処理と同様である。
ステップS301では、システム制御部103は、撮像部102から撮像画像を取得し、撮像画像に画像処理を施すことにより検出画像401を生成(取得)する。そして、システム制御部103は、対象部位検出部111を用いて、生成した検出画像401から手領域412を検出する。
ステップS302では、システム制御部103は、ステップS301で手領域412が検出できたか否かを判定する。手領域412が検出できた場合はステップS303に進み、そうでない場合はステップS301に戻る。ここでは、手領域412が検出できたとし、ステップS303に進むとする。
ステップS303では、システム制御部103は、詳細部位検出部112を用いて、ステップS301で検出した手領域412から関節情報413を取得する。
ステップS304では、システム制御部103は、詳細部位判断部113を用いて、ステップS303で取得した関節情報413(詳細部位検出部112の検出結果)の信頼度を判断(算出)する。関節情報の時系列データに基づいて、検出画像における関節の移動量(移動速度)が閾値TH1よりも大きいと判断される場合、例えば関節が想定外の大きさ(速度)で移動したと判断される場合には、誤った関節情報が取得されている可能性が高い。検出画像における複数の関節の間隔が閾値TH2よりも長いと判断される場合、例えば関節の間隔が想定外の長さであると判断される場合にも、誤った関節情報が取得されている可能性が高い。手のうち、検出画像に写っている部分の割合(例えば、手領域412の画素数に対する右手411の画素数の割合)が閾値TH3よりも小さい場合、例えば手の大部分が別の手などによって隠れている場合にも、誤った関節情報が取得されている可能性が高い。そのため、これらの場合において、信頼度を低く算出してもよい。なお、詳細部位検出部112が、ディープラーニングなどで学習された検出器のように、検出結果と共に、その信頼度を示すスコアを出力してもよい。
ステップS305では、システム制御部103は、詳細部位判断部113を用いて、ステップS304で判断(算出)した信頼度が閾値TH以上か否かを判定する。信頼度が閾値TH以上の場合は、システム制御部103は、ステップS303で取得した関節情報413を、ジェスチャ検出部114で用いる関節情報として決定し、システムメモリ105に保存する。そして、ステップS306に進む。信頼度が閾値TH未満の場合は、システム制御部103は、システムメモリ105に保存されている関節情報、つまり詳細部位検出部112によって過去に得られた、閾値TH以上の信頼度の関節情報を、ジェスチャ検出部114で用いる関節情報として決定する。そして、ステップS307に進む。例えば、検出画像における関節の移動量が閾値TH1よりも大きい場合や、検出画像における複数の関節の間隔が閾値TH2よりも長い場合、手のうち検出画像に写っている部分の割合が閾値TH3よりも小さい場合に、信頼度は閾値THよりも低くなる。なお、信頼度が閾値TH以上であるという条件を用いたが、関節情報が高精度に(正確に)検出できている場合に満たされ、そうでない場合に満たされない条件であれば、別の所定の条件を用いてもよい。所定の条件が満たされたか否かでジェスチャ検出部114で用いる関節情報を切り替えることで、ジェスチャ検出部114による誤った関節情報の使用を抑制することができ、ひいてはジェスチャの誤検出を抑制することができる。ここでは、信頼度が閾値TH以上であるとし、ステップS306に進むとする。
ステップS306では、システム制御部103は、ジェスチャ検出部114を用いて、ステップS301で検出した手領域412と、ステップS303で取得した関節情報413とから、ジェスチャを検出(認識)する。
ステップS309では、システム制御部103は、ジェスチャ認識処理を終了するか否かを判定する。ジェスチャ認識処理を終了する場合はジェスチャ認識処理を終了し、そうでない場合はステップS301に戻る。ここでは、ステップS301に戻るとする。ステップS301で、システム制御部103は、新たな検出画像402を取得して、手領域422を検出する。ステップS302で、システム制御部103は、手領域422が検出できたか否かを判定する。ここでは、手領域422が検出できたとし、ステップS303に進むとする。システム制御部103は、ステップS303で関節情報423を取得し、ステップS304で関節情報423(詳細部位検出部112の検出結果)の信頼度を判断(算出)する。そして、ステップS305で、システム制御部103は、関節情報423の信頼度が閾値TH以上か否かを判定する。ここでは、信頼度が閾値TH未満であるとし、ステップS307に進むとする。
ステップS307では、システム制御部103は、システムメモリ105から過去の関節情報(閾値TH以上の信頼度の関節情報)を取得する。そして、ステップS308に進む。システムメモリ105に関節情報が保存されていない場合(閾値TH以上の信頼度の関節情報が過去に得られていない場合)は、ジェスチャを認識しないように、ステップS301に戻る。ここでは、システムメモリ105に関節情報413が保存されているとし、システムメモリ105から関節情報413を取得してステップS308に進むとする。なお、システムメモリ105に複数の関節情報が保存されている場合には、最新の関節情報を取得してもよい。システムメモリ105に関節情報が保存されていても、ジェスチャを高精度に認識できない可能性が高い場合には、ジェスチャを認識(検出)しないように、ステップS301に戻ってよい。例えば、現在に対して所定時間前のタイミングよりも古い関節情報しか保存されていない場合(閾値TH以上の信頼度の関節情報が所定時間前のタイミングよりも後に得られていない場合)には、ステップS301に戻ってよい。検出画像における右手411の移動量(例えば右手411の中心位置の移動量)が閾値TH4よりも大きい場合にも、ステップS301に戻ってよい。
ステップS308では、システム制御部103は、ジェスチャ検出部114を用いて、
ステップS301で検出した手領域422と、ステップS307で取得した過去の関節情報413とから、ジェスチャを検出(認識)する。
ステップS301で検出した手領域422と、ステップS307で取得した過去の関節情報413とから、ジェスチャを検出(認識)する。
ステップS309では、システム制御部103は、ジェスチャ認識処理を終了するか否かを判定する。ジェスチャ認識処理を終了する場合はジェスチャ認識処理を終了し、そうでない場合はステップS301に戻る。ここでは、ステップS301に戻るとする。ステップS301で、システム制御部103は、新たな検出画像403を取得して、手領域432を検出する。ステップS302で、システム制御部103は、手領域432が検出できたか否かを判定する。ここでは、手領域432が検出できたとし、ステップS303に進むとする。システム制御部103は、ステップS303で関節情報433を取得し、ステップS304で関節情報433(詳細部位検出部112の検出結果)の信頼度を判断(算出)する。
以上述べたように、本実施形態によれば、詳細部位検出部112によって所定の条件を満たす検出結果が得られなかった場合に、詳細部位検出部112によって過去に得られた、所定の条件を満たす検出結果を用いて、ジェスチャが認識される。こうすることで、様々な環境下でジェスチャを高精度に認識することができる。
なお、上記実施形態はあくまで一例であり、本発明の要旨の範囲内で上記実施形態の構成を適宜変形したり変更したりすることにより得られる構成も、本発明に含まれる。例えば、ジェスチャ認識装置101は、AR(拡張現実)に対応したスマートグラスなどの電子機器(頭部装着型表示装置)に設けられてもよい。この場合は、頭部装着型表示装置が有する表示制御部は、ジェスチャ認識装置101の認識結果に基づいて表示を制御する。ジェスチャ認識装置101(ジェスチャ認識部110)は、頭部装着型表示装置とは別体の電子機器であってもよく、例えばクラウド上のコンピュータ(サーバ)などであってもよい。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101:ジェスチャ認識装置 103:システム制御部 110:ジェスチャ認識部
111:対象部位検出部 112:詳細部位検出部 113:詳細部位判断部
114:ジェスチャ検出部
111:対象部位検出部 112:詳細部位検出部 113:詳細部位判断部
114:ジェスチャ検出部
Claims (16)
- 撮像画像から、ジェスチャを行う第1部位を検出する第1検出手段と、
前記撮像画像から、前記第1検出手段によって検出された前記第1部位における、前記ジェスチャを行う第2部位を検出する第2検出手段と、
前記第1検出手段によって検出された前記第1部位の動きと、前記第2検出手段によって検出された前記第2部位の動きとに基づいて、前記ジェスチャを認識する認識手段と
を有し、
前記第2検出手段によって所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識する
ことを特徴とするジェスチャ認識装置。 - 前記撮像画像における前記第2部位の移動量が閾値よりも大きい場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項1に記載のジェスチャ認識装置。 - 前記第2検出手段は、複数の第2部位を検出し、
前記撮像画像における前記複数の第2部位の間隔が閾値よりも長い場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項1または2に記載のジェスチャ認識装置。 - 前記第1部位のうち、前記撮像画像に写っている部分の割合が閾値よりも小さい場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす検出結果を用いる
ことを特徴とする請求項1~3のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段によって得られた検出結果の信頼度を判断する判断手段をさらに有し、
前記判断手段によって判断された前記信頼度が閾値よりも低い場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記閾値よりも高い信頼度の検出結果を用いる
ことを特徴とする請求項1~4のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段は、前記第1検出手段によって検出された前記第1部位の領域を前記撮像画像から切り出し、当該切り出した領域の画像から前記第2部位を検出する
ことを特徴とする請求項1~5のいずれか1項に記載のジェスチャ認識装置。 - 前記認識手段によって認識された前記ジェスチャに対応する制御信号を生成する生成手段をさらに有する
ことを特徴とする請求項1~6のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段によって前記所定の条件を満たす検出結果が得られなかった場合に、前記認識手段は、前記第2検出手段によって過去に得られた、前記所定の条件を満たす最新の検出結果を用いる
ことを特徴とする請求項1~7のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であ
っても、前記所定の条件を満たす検出結果が前記第2検出手段によって過去に得られていない場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項1~8のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であっても、前記所定の条件を満たす検出結果が前記第2検出手段によって所定時間前のタイミングよりも後に得られていない場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項1~9のいずれか1項に記載のジェスチャ認識装置。 - 前記第2検出手段によって前記所定の条件を満たす検出結果が得られなかった場合であっても、前記撮像画像における前記第1部位の移動量が閾値よりも大きい場合には、前記認識手段は、前記ジェスチャを認識しない
ことを特徴とする請求項1~10のいずれか1項に記載のジェスチャ認識装置。 - 前記第1部位は手であり、前記第2部位は関節である
ことを特徴とする請求項1~11のいずれか1項に記載のジェスチャ認識装置。 - 請求項1~12のいずれか1項に記載のジェスチャ認識装置の認識結果に基づいて表示を制御する表示制御手段を有する
ことを特徴とする頭部装着型表示装置。 - 撮像画像から、ジェスチャを行う第1部位を検出する第1検出ステップと、
前記撮像画像から、前記第1検出ステップにおいて検出された前記第1部位における、前記ジェスチャを行う第2部位を検出する第2検出ステップと、
前記第1検出ステップにおいて検出された前記第1部位の動きと、前記第2検出ステップにおいて検出された前記第2部位の動きとに基づいて、前記ジェスチャを認識する認識ステップと
を有し、
前記第2検出ステップにおいて所定の条件を満たす検出結果が得られなかった場合に、前記認識ステップは、過去の第2検出ステップにおいて得られた、前記所定の条件を満たす検出結果を用いて、前記ジェスチャを認識する
ことを特徴とするジェスチャ認識方法。 - コンピュータを、請求項1~12のいずれか1項に記載のジェスチャ認識装置の各手段として機能させるためのプログラム。
- コンピュータを、請求項1~12のいずれか1項に記載のジェスチャ認識装置の各手段として機能させるためのプログラムを格納したコンピュータが読み取り可能な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022045113A JP2023139534A (ja) | 2022-03-22 | 2022-03-22 | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 |
US18/185,428 US12087095B2 (en) | 2022-03-22 | 2023-03-17 | Gesture recognition apparatus, head-mounted-type display apparatus, gesture recognition method, and non-transitory computer readable medium for recognizing gesture using captured image |
CN202310283555.0A CN116798068A (zh) | 2022-03-22 | 2023-03-22 | 姿势识别设备及方法、头戴式显示设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022045113A JP2023139534A (ja) | 2022-03-22 | 2022-03-22 | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023139534A true JP2023139534A (ja) | 2023-10-04 |
Family
ID=88038755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022045113A Pending JP2023139534A (ja) | 2022-03-22 | 2022-03-22 | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12087095B2 (ja) |
JP (1) | JP2023139534A (ja) |
CN (1) | CN116798068A (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5935529B2 (ja) * | 2012-06-13 | 2016-06-15 | ソニー株式会社 | 画像処理装置、画像処理方法、およびプログラム |
WO2015087383A1 (ja) * | 2013-12-09 | 2015-06-18 | 株式会社Pfu | オーバーヘッド型画像読取装置、画像処理方法、および、プログラム |
US20150177842A1 (en) * | 2013-12-23 | 2015-06-25 | Yuliya Rudenko | 3D Gesture Based User Authorization and Device Control Methods |
JP6349800B2 (ja) | 2014-03-12 | 2018-07-04 | オムロン株式会社 | ジェスチャ認識装置およびジェスチャ認識装置の制御方法 |
JP6723061B2 (ja) | 2016-04-15 | 2020-07-15 | キヤノン株式会社 | 情報処理装置、情報処理装置の制御方法およびプログラム |
KR101976605B1 (ko) * | 2016-05-20 | 2019-05-09 | 이탁건 | 전자기기 및 그 동작 방법 |
EP3467707B1 (en) | 2017-10-07 | 2024-03-13 | Tata Consultancy Services Limited | System and method for deep learning based hand gesture recognition in first person view |
US11422692B2 (en) * | 2018-09-28 | 2022-08-23 | Apple Inc. | System and method of controlling devices using motion gestures |
US20210311621A1 (en) * | 2020-04-02 | 2021-10-07 | Qualcomm Incorporated | Swipe gestures on a virtual keyboard with motion compensation |
US11804077B2 (en) * | 2021-04-01 | 2023-10-31 | KaiKuTek Inc. | Generic gesture detecting method and generic gesture detecting device |
JP2023139535A (ja) | 2022-03-22 | 2023-10-04 | キヤノン株式会社 | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 |
-
2022
- 2022-03-22 JP JP2022045113A patent/JP2023139534A/ja active Pending
-
2023
- 2023-03-17 US US18/185,428 patent/US12087095B2/en active Active
- 2023-03-22 CN CN202310283555.0A patent/CN116798068A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US12087095B2 (en) | 2024-09-10 |
US20230306788A1 (en) | 2023-09-28 |
CN116798068A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10453235B2 (en) | Image processing apparatus displaying image of virtual object and method of displaying the same | |
CN106846403B (zh) | 一种三维空间中手部定位的方法、装置及智能设备 | |
CN112926423B (zh) | 捏合手势检测识别方法、装置及系统 | |
KR101581954B1 (ko) | 실시간으로 피사체의 손을 검출하기 위한 장치 및 방법 | |
JP6344530B2 (ja) | 入力装置、入力方法、及びプログラム | |
KR101631011B1 (ko) | 제스처 인식 장치 및 제스처 인식 장치의 제어 방법 | |
JPWO2018154709A1 (ja) | 動作学習装置、技能判別装置および技能判別システム | |
CN107832736B (zh) | 实时人体动作的识别方法和实时人体动作的识别装置 | |
US11079840B2 (en) | Operation determination device and operation determination method | |
KR20160063163A (ko) | 터치 제스쳐 인식 방법 및 장치 | |
CN115565241A (zh) | 手势识别对象确定方法及装置 | |
KR20220036146A (ko) | 손 제스처 인식에 기초한 인터랙션 홀로그램 디스플레이 방법 및 시스템 | |
US20160140762A1 (en) | Image processing device and image processing method | |
CN109153332B (zh) | 车辆用户接口的手语输入 | |
US20230305634A1 (en) | Gesture recognition apparatus, head-mounted-type display apparatus, gesture recognition method, and non-transitory computer readable medium | |
CN108108709B (zh) | 一种识别方法及装置、计算机存储介质 | |
JP6230666B2 (ja) | データ入力装置、データ入力方法、及びデータ入力プログラム | |
JP2023139534A (ja) | ジェスチャ認識装置、頭部装着型表示装置、ジェスチャ認識方法、プログラム、および記憶媒体 | |
JP2017211739A (ja) | ユーザインターフェース装置およびユーザインターフェースプログラム | |
JPH09102013A (ja) | 手書文字・図形読取装置 | |
JP2021009552A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN111091388A (zh) | 活体检测方法和装置、人脸支付方法和装置、电子设备 | |
Miyoshi et al. | Detection of Dangerous Behavior by Estimation of Head Pose and Moving Direction | |
CN116820251B (zh) | 一种手势轨迹交互方法、智能眼镜及存储介质 | |
KR102664254B1 (ko) | 비전 인공지능 기반 수신호 인식 장치 및 이를 이용한 수신호 인식 방법 |