JP6941198B2 - ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体 - Google Patents

ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体 Download PDF

Info

Publication number
JP6941198B2
JP6941198B2 JP2020047334A JP2020047334A JP6941198B2 JP 6941198 B2 JP6941198 B2 JP 6941198B2 JP 2020047334 A JP2020047334 A JP 2020047334A JP 2020047334 A JP2020047334 A JP 2020047334A JP 6941198 B2 JP6941198 B2 JP 6941198B2
Authority
JP
Japan
Prior art keywords
palm
image
target
frame
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020047334A
Other languages
English (en)
Other versions
JP2020155129A (ja
Inventor
チェン ツァオ,
チェン ツァオ,
シャオション ヤン,
シャオション ヤン,
ユァン ガオ,
ユァン ガオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020155129A publication Critical patent/JP2020155129A/ja
Application granted granted Critical
Publication of JP6941198B2 publication Critical patent/JP6941198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/047Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means using sets of wires, e.g. crossed wires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本出願は、ヒューマンマシンインタラクション技術の分野に関し、特にジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体に関する。
コンピュータ技術の急速な発展に伴い、コンピュータは、あらゆる面で人々に便利をもたらし、人々は、コンピュータから切り離せない存在になっている。その中で、情報に関する人間とコンピュータとのインタラクションは、必要で不可欠な一環である。その中で、ビジョンに基づくヒューマンマシンインタラクションは、既にヒューマンマシンインタラクション分野の主流の技術となっている。
関連技術において、主にジェスチャー認識によってヒューマンマシンインタラクションを行っている。現在のジェスチャー認識方式の多くは、画像内のジェスチャーのキーポイントの3D位置を検測することによりジェスチャーを決定する。しかし、手の自己遮蔽、複数の自由度、異なる人異なる環境によっては、同一のジェスチャーの違いが大きいなどの要因により、このようなジェスチャー認識方式は、アルゴリズムが複雑で、認識速度が遅くなる。
本出願は、関連技術においてジェスチャーキーポイントの3D位置を検測することによりジェスチャーを決定する方法におけるアルゴリズムが複雑で認識速度が遅いなどの問題を解決するジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体を提供する。
本出願の第一態様の実施例は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するステップと、各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップと、前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、を含むジェスチャー認識方法を提供する。
本出願の実施例のジェスチャー認識方法は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度が速い。
本出願の第2態様の実施例は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される第1決定モジュールと、各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するように構成される第2決定モジュールと、前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される第3決定モジュールと、を備えるジェスチャー認識装置を提供する。
本出願の実施例のジェスチャー認識装置は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度を速くすることができる。
本出願の第3態様の実施例は、プロセッサとメモリとを含む電子機器であって、前記プロセッサが、前記メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、上記第1態様の実施例に記載のジェスチャー認識方法を実現する電子機器を提供する。
本出願の第4態様の実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、当該プログラムがプロセッサによって実行される場合、上記第1態様の実施例に記載のジェスチャー認識方法が実現されるコンピュータ読み取り可能な記憶媒体を提供する。
本出願の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになり、又は本出願の実践により理解される。
本出願の上記及び/又は付加的な特徴及び利点は、実施例について図面を参照して以下に説明することにより、明らかになり、理解されやすくなる。
本出願の実施例によって提供されるジェスチャー認識方法の概略フローチャートである。 本出願の実施例によって提供される目標ビデオフレームに対応する目標ジェスチャーを決定する方法の概略フローチャートである。 本出願の実施例によって提供される予め設定された手のひらの向き認識モデルを訓練する方法の概略フローチャートである。 本出願の実施例によって提供されるジェスチャー認識装置の概略構成図である。 本発明の実施形態の実施に適する例示的な電子機器のブロック図である。
以下、本出願の実施例を詳細に説明する。前記実施例の例が図面に示され、同一又は類似の符号は、常に同一又は類似の素子、或いは、同一又は類似の機能を有する構成要素を示す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本出願を解釈するためだけに用いられ、本出願を限定するものと理解してはならない。
本出願の実施例のジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体について、図面を参照して以下に説明する。
図1は、本出願の実施例によって提供されるジェスチャー認識方法の概略フローチャートである。
本出願の実施例のジェスチャー認識方法は、本出願の実施例によって提供されるジェスチャー認識装置によって実行することができ、当該装置は、携帯電話、スマートテレビなどの電子機器に配置することができ、予め設定された手のひらの向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度が速い。
図1に示すように、当該ジェスチャー認識方法は、以下のステップ101〜ステップ103を含む。
ステップ101において、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの画像を決定する。
実際の応用において、撮像デバイスによって複数フレーム画像を収集し、収集した複数フレーム画像を目標ビデオフレームとすることができる。すなわち、目標ビデオフレームは、取得された連続的な複数フレーム画像であっていい。
本実施例において、予め設定された手のひら向き認識モデルの出力は、2通りを有し、1つは手のひらのジェスチャーの確率を出力する2項分類器であり、もう1つは、空間直交座標系におけるX軸、Y軸、Z軸の値x、y、zという3つの値を出力して、手のひらの法線ベクトル(x,y,z)を取得するものである。
具体的には、予め設定された手のひらの向き認識モデルに、目標ビデオフレームにおける各フレーム画像を順次に入力し、予め設定された手のひらの向き認識モデルが各フレーム画像を認識し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを出力する。
ここで、手のひらの法線ベクトルは、手のひらの平面に垂直なベクトルであって、手のひらの法線ベクトルの方向に基づいて手のひらの向きを決定することができる。例えば、手のひらの法線ベクトルの方向が垂直で上向きである場合、手のひらが上向きであると決定することができる。
認識効率を向上させるために、予め設定された手のひらの向き認識モデルを用いて目標ビデオフレーム画像の認識処理を行う前に、まず目標ビデオフレームの初期フィルタリングを行い、無効な画像を削除し、例えば、人体を含まない画像を削除することができる。
関連技術において、手のひらの3Dキーポイントによってジェスチャーを認識する方法は、画像内の手のひらの3Dキーポイントを検測し、検出された3Dキーポイントに基づいて、手のひらの法線ベクトルを決定する方法である。一方、本実施例において、予め設定された手のひらの向き認識モデルを用いて、手のひらの法線ベクトルを直接決定するため、方法は簡単である。
ステップ102において、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定する。
実際の応用において、人の姿勢変化によって、収集された画像に人の手が含まれない可能性があり、すなわち、ジェスチャーを決定するための目標ビデオフレームに、いくつかの画像には手のひらが含まれない可能性があるため、本実施例は、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームの各フレーム画像を判断し、目標ビデオフレームに含まれる目標画像グループを決定することができる。
具体的には、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率と予め設定された閾値とを比較し、第1フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、第1フレーム画像を目標画像グループ内の画像として決定することができる。よって、目標画像グループ内の画像は、手のひらの画像が含まれる確率が高い画像である。
区別しやすくするため、本実施例では、手のひらの画像が含まれる確率が閾値以上である画像を第1フレーム画像と呼ぶ。つまり、第1フレーム画像は、目標ビデオフレームにおける手のひらの画像が含まれる確率が閾値以上であるフレーム画像を指す。
本実施例において、目標ビデオフレームにおける各フレーム画像に手のひらの画像が含まれる確率に基づいて、手のひらの画像が含まれる確率の低い画像をフィルタリングして、目標画像グループを形成することにより、ジェスチャー認識の精度が向上する。
ステップ103において、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。
各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム画像内の手のひらの向きを決定することができるため、目標画像グループにおける各フレーム画像内の手のひらの向きに基づいて、手のひらの向きの変化を決定することができ、そして、手のひらの向きの変化に基づいて、目標ビデオフレームに対応するジェスチャーを決定することができ、ここでは、目標ビデオフレームに対応するジェスチャーを目標ジェスチャーと呼ぶ。
本実施例において、各フレーム画像に手のひらの画像が含まれる確率に基づいて決定された目標画像グループを利用してジェスチャーを決定することは、目標ビデオフレームを利用してジェスチャーを決定することより、ジェスチャー認識の正確率を向上させることができる。
本出願実施例のジェスチャー認識方法は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理することにより、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、次に、各フレーム画像に手のひらの画像が含まれる確率を用いて、目標画像グループを決定し、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、目標画像フレームに対応する目標ジェスチャーを決定する。よって、予め設定された手のひらの向き認識モデルを用いて、画像に対応する手のひらの法線ベクトルを直接出力することができ、アルゴリズムが簡単で、認識速度を速くすることができる。
本出願の一実施例において、図2に示す方法によって、目標ジェスチャーを決定することができる。図2は、本出願の実施例によって提供される目標ビデオフレームに対応する目標ジェスチャーを決定する方法の概略フローチャートである。
図2に示すように、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するステップは、以下のステップ201及びステップ202を含む。
ステップ201において、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定する。
手のひらの法線ベクトルが手のひらの現在の向きを示すことができるので、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、各フレーム画像内の手のひらの向きを決定することができる。
例えば、手のひらの法線ベクトルが垂直で下向きである場合に、手のひらの向きが下向きであると決定することができる。
ステップS202において、各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。
人間の動作が連続的であるため、目標画像グループにおける各フレーム目標画像の収集順番、及び各フレーム目標画像内の手のひらの向きに基づいて、目標ビデオフレームを収集する時間帯における手のひらの向きの変化を決定することにより、目標ビデオフレームに対応する目標ジェスチャーを決定することができる。
本出願の実施例において、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定し、次に各フレーム目標画像内の手のひらの向き、及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。
実際の応用において、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像の認識を行う前に、訓練によって、予め設定された手のひらの向き認識モデルを得ることができる。以下、図3を合わせて説明する。図3は、本出願の実施例によって提供される予め設定された手のひらの向き認識モデル訓練方法の概略フローチャートである。
図3に示すように、当該訓練方法は、以下のステップ301及びステップ302を含む。
ステップ301において、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得する。
本実施例において、まず、大量の手のひらの画像、複数の非手のひらの画像(すなわち手のひらが含まれない画像)を取得し、次に、取得された手のひらの画像と非手のひらの画像とにラベル付けすることができる。
ここで、ラベル付けは、2つに分かれ、1つは、ジェスチャーカテゴリのラベル付けであり、もう1つは手のひらの法線ベクトルのラベル付けである。
ジェスチャーカテゴリのラベルは、手のひらジェスチャーと非手のひらジェスチャーとの2種類のジェスチャーに分かれる。各手のひらの画像のジェスチャーカテゴリは、手のひらジェスチャーとしてラベル付けされ、各非手のひらの画像のジェスチャーカテゴリは、非手のひらジェスチャーとしてラベル付けされる。
手のひらの法線ベクトルのラベル付けについて、ジェスチャー向きに基づいて手のひらの法線ベクトルを推定することができ、又は1つのオープンソースの拡張AR SDKによってラベル付けすることもできる。ここでは、ARToolKitによってラベル付けすることができる。
ARToolKitは、1つのオープンソースの拡張AR SDKであって、カメラの内部および外部パラメータをリアルタイムで求めることができる。具体的には、まず、1つのマークを作成する。そして、マークを手のひらに貼り付け、ARToolKitを利用してストーキングを行う。ARToolKitは、特徴点のマッチングに基づいて2グループの特徴点の回転平行移動マトリックス(RTマトリックス)、すなわちPoseマトリックスを取得し、これにより、手のひらのジェスチャーの3D向き角度、すなわち手のひらの法線ベクトルを取得することができる。
関連技術において、画像内の手のひらの3Dキーポイントを検測することにより認識ジェスチャーを認識する方法について、大量の手のひらの3Dキーポイントにラベル付けする必要があり、しかも3Dキーポイントのラベル付けの困難さが、ラベル付けの誤差も高い。一方、本実施例において、取得された手のひらの画像と非手のひらの画像とにジェスチャーカテゴリと手のひらの法線ベクトルとのみをラベル付けする必要があり、手のひらの3Dキーポイントのラベル付けに比べ、ラベル付けの困難さが低く、ラベル付け作業が簡単である。
ステップ302について、予め設定された手のひらの向き認識モデルを生成するように、訓練データセットを用いて、初期インターネットモデルを訓練する。
本実施例において、初期インターネットモデルは、畳み込みニューラルネットワークであってよく、ここで、初期インターネットモデルの出力は、画像に手のひらの画像が含まれる確率を出力するものと、3つの値、すなわち手のひらの法線ベクトルを出力するものと、の2通りを有する。
具体的には、訓練データセット内の画像を用いて、初期インターネットモデルを訓練し、初期インターネットモデルの損失関数が低下しなくなってあらかじめ設定された手のひらの向き認識モデルを取得するまで、初期インターネットモデル中のパラメータを反復訓練により調整し続ける。
予め設定された手のひらの向き認識モデルを取得した後、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームに対応する目標ジェスチャーを決定することができる。
本出願の実施例において、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを用いて、初期インターネットモデルを訓練して、予め設定された手のひらの向き認識モデルを取得する。訓練データセット内の画像にラベル付けする際に、画像内のジェスチャーカテゴリと手のひらの法線ベクトルとのみをラベル付けする必要があるため、手のひらの3Dキーポイントのラベル付けに比べ、ラベル付けの困難さが低く、しかも予め設定された手のひらの向き認識モデルを用いてジェスチャーを決定するほうが、精度が高い。
いずれかの平面法線ベクトルは、無数に存在するので、データのラベル付け及びモデル処理を簡略化するために、手のひらの単位法線ベクトルのみをラベルづけしてもよい。
具体的には、訓練データセットを取得した後、各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを取得する。手のひらの法線ベクトル(x,y,z)の正規化処理は、以下の式(1)に示され、
Figure 0006941198
ここで、(x,y,z)は、手のひらの法線ベクトル(x,y,z)の単位法線ベクトルである。
本出願の実施例において、訓練データセットを取得した後、各手のひらの画像の手のひらの法線ベクトルを正規化して単位法線ベクトルを取得し、手のひらの画像に単位法線ベクトルのみをラベルづけすることにより、ラベルづけを簡略化することができるだけでなく、モデル処理を減らすこともできる。
ヒューマンマシンインタラクションの分野において、ジェスチャーを用いて機器を相応に制御することができる。本出願の一実施例において、目標ビデオフレームに対応する目標ジェスチャーを決定した後、さらに、目標ジェスチャーと予め設定されたジェスチャーとを比較することができる。ここで、予め設定されたジェスチャーは1つ又は複数あってもよく、かつ、各ジェスチャーは、異なる制御命令に対応する。
マッチングを行う時、目標ジェスチャーの変化過程と予め設定されたジェスチャーの変化過程とが一致しているか否かに基づいて、目標ジェスチャーが予め設定されたジェスチャーとマッチングするか否かを判断することができる。目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御する。
例えば、「手のひらが上向きから下向きに反転する」という予め設定されたジェスチャーは、スマートテレビをオフにする制御命令に対応するものであり、目標ジェスチャーが当該予め設定されたジェスチャーとマッチングされる場合、スマートテレビがオフにされる。
本出願の実施例において、目標ビデオフレームのジェスチャーを決定した後、目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御することができ、ジェスチャーによってヒューマンマシンインタラクションを行う目的を実現することができる。
上記実施例を実現するために、本出願の実施例は、ジェスチャー認識装置をさらに提供する。図4は、本出願の実施例によって提供されるジェスチャー認識装置の概略構成図である。
図4に示すように、当該ジェスチャー認識装置は、第1決定モジュール410、第2決定モジュール420、及び第3決定モジュール430を備える。
第1決定モジュール410は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される。
第2決定モジュール420は、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定するように構成される。
第3決定モジュール430は、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される。
本出願の実施例の一可能な実現形態において、上記第2決定モジュール420は、具体的には、第1フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、第1フレーム画像を目標画像グループ内の画像として決定するように構成される。
本出願の実施例の一可能な実現形態において、上記第3決定モジュール430は、具体的には、目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定するように構成される、各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される。
本出願の実施例の一可能な実現形態において、上記予め設定された手のひらの向き認識モデルは、手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するように構成される取得モジュールと、予め設定された手のひらの向き認識モデルを生成するように、訓練データセットを用いて、初期インターネットモデルを訓練する構成される訓練モジュールと、によって訓練される。
本出願の実施例の一つの可能な実現形態において、予め設定された手のひらの向き認識モデルを訓練するモジュールは、各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するように構成される第4決定モジュールをさらに備える。
本出願の実施例の一つの可能な実現形態において、当該装置は、目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するように構成される制御モジュールをさらに備える。
なお、ジェスチャー認識方法の実施例の上記説明は、当該実施例のジェスチャー認識装置にも適用するので、ここでは説明を省略する。
本出願の実施例のジェスチャー認識装置は、予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定し、各フレーム画像に手のひらの画像が含まれる確率に基づいて、目標ビデオフレームに含まれる目標画像グループを決定し、目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、目標ビデオフレームに対応する目標ジェスチャーを決定する。これにより、予め設定された手のひら向き認識モデルを用いて手のひらの法線ベクトルを直接出力することができ、そしてジェスチャーを決定することができ、アルゴリズムが簡単で、認識速度を速くすることができる。
上記実施例を実現するために、本出願の実施例は、プロセッサとメモリとを備える電子機器をさらに提供し、プロセッサが、メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、上記実施例に記載なジェスチャー認識方法を実現する。
図5は、本発明の実施形態の実施に適する例示的な電子機器のブロック図である。図5に示す電子機器12は、単に例示するものであり、本出願の実施例の機能及び使用範囲について一切限定しない。
図5に示すように、電子機器12は、汎用コンピューティング機器の形態で示されている。電子機器12の構成要素は、一つ又は複数のプロセッサ又は処理ユニット16と、システムメモリ28と、異なるシステム構成要素(システムメモリ28と処理ユニット16とを備える)を接続するバス18と、を備えることができるが、これらに限定されない。
バス18は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうちのいずれかのバス構造を使用するローカルバスを含む、複数種類のバス構造のうち一つ又は複数を表す。例を挙げると、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、以下ではISAと略する)バス、マイクロチャネルアーキテクチャMicro Channel Architecture、以下ではMACと略する)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standard Architecture、以下ではVESAと略する)ローカルバス、及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection、以下ではPCIと略する)バスを含むが、これらに限定されない。
電子機器12は、典型的には、複数種類のコンピュータシステム読み取り可能な媒体を備える。これらの媒体は、電子機器12がアクセスすることができる任意の使用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む。
システムメモリ28は、ランダムアクセスメモリ(Random Access Memory、以下ではRAMと略する)30及び/又はキャッシュメモリ32などの揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を備えてもよい。電子機器12は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに備えてもよい。単なる一例として、ストレージシステム34は、ノンリムーバブル、不揮発性磁気媒体(図5に示されていないが、通常「ハードドライブ」という)に対して読み出し及び書き込みをするために用いることができる。図5に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光ディスク(例えば、CDリードオンリーメモリ(Compact Disc Read Only Memory、以下ではCD−ROMと略する)、DVDリードオンリーメモリ(Digital Video Disc Read Only Memory、以下ではDVD−ROMと略する)、又は他の光媒体)に対して読み出し及び書き込みをするための光ディスクドライブを提供することができる。これらの場合、各ドライブは、一つ又は複数のデータメディアインターフェイスを介してバス18に接続することができる。システムメモリ28は、本発明の各実施例に記載の機能を実行するように構成される1セット(例えば、少なくとも一つ)のプログラムモジュールを有する少なくとも一つのプログラム製品を含んでもよい。
1セット(少なくとも一つ)のプログラムモジュール42を有するプログラム/ユーティリティ40は、例えば、システムメモリ28に記憶されてもよく、このようなプログラムモジュール42は、オペレーティングシステム、一つ又は複数のアプリケーションプログラム、他のプログラムモジュール、及びプログラムデータを含むがこれらに限定されない。これらの例のそれぞれ又は何らかの組み合わせには、ネットワーク環境の実装が含まれる可能性がある。プログラムモジュール42は、通常本発明に記載の実施例における機能及び/又は方法を実行する。
電子機器12は、一つ又は複数の外部デバイス14(例えば、キーボード、ポインティングデバイス、ディスプレイ24など)と通信することができるし、ユーザが電子機器12とインタラクションすることを可能にする一つ又は複数のデバイスと通信することもでき、及び/又は電子機器12が一つ又は複数の他のコンピューティング機器と通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することができる。そのような通信は、入力/出力(I/O)インターフェイス22を介して行うことができる。また、電子機器12は、ネットワークアダプタ20を介して、一つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図に示すように、ネットワークアダプタ20は、バス18を介して、電子機器12の他のモジュールと通信する。なお、図に示されていないが、マイクロコードやデバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、及びデータバックアップトレージシステムなどを含むがこれらに限定されない他のハードウェア及び/又はソフトウェアモジュールを、電子機器12と組み合わせて使用することができる。
処理ユニット16は、システムメモリ28に記憶されたプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば上記の実施例に係る方法を実現する。
上記の実施例を実現するために、本発明の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合に、上記の実施例に記載のジェスチャー認識方法が実現される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
本発明の説明において、「第1の」、「第2の」の用語は、単に説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはならない。よって、「第1の」、「第2の」が限定されている特徴は少なくとも一つの前記特徴を含むことを明示又は暗示するものである。本開示の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも二つ、例えば、二つ、三つなどを意味する。
フローチャート、又はここで他の方式で記載されるあらゆるプロセス又は方法の説明は、特定のロジック機能又はプロセスのステップを実現するための一つ又はそれ以上の実行可能な命令のコードを含むモジュール、セグメント又は部分と理解されてもよい。また、本発明の好ましい実施形態の範囲は、他の実現形態を含んでおり、示され又は議論された順序に従わなくてもよく、言及された機能が実質的に同時に、又は逆の順序に従って機能を実行することを含む。これは、本発明の実施例の当業者によって理解されるべきである。
フローチャートで示された、又は、ここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な媒体に具体的に実装されて、命令実行システム、装置又はデバイス(例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を取得して命令を実行するシステム)に利用されるか、又は、これらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意のデバイスであってもよい。コンピュータ読み取り可能な媒体のより具体的な例(非限定的なリスト)として、1つ又は複数の配線を備える電気接続部(電子デバイス)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ(CDROM)を含む。また、コンピュータ読み取り可能な媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理して前記プログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。
なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせで実現することができる。上記の実施形態では、複数のステップ又は方法は、メモリに記憶され適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアにより実現される場合は、他の実施形態と同じく、データ信号のロジック機能を実現するための論理ゲート回路を備えたディスクリート論理回路、適切な組み合わせ論理ゲート回路を備えた専用集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)など、本分野の周知技術の何れか一つ又はこれらの組み合わせで実現することができる。
当業者は、上記の実施例に係る方法に含まれている全部又は一部のステップが、プログラムにより関連するハードウェアを命令することにより完成できることを理解されたい。前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよく、当該プログラムが実行される場合、方法の実施例における一つのステップ又はその組み合わせを含む。
また、本発明の各実施形態に係る各機能ユニットは、一つの処理モジュールに集積されてもよいし、各ユニットが物理的に独立して存在してもよいし、二つ又は二つ以上のユニットが一つのモジュールに集積されてもよい。上記集積されたモジュールは、ハードウェアの形式により実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積されたモジュールがソフトウェア機能モジュールの形態で実現されて、独立した製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。
上記の記憶媒体は、読み出し専用メモリや磁気ディスク、光ディスクなどであってもよい。以上に本発明の実施例を示して説明したが、上記の実施例は、例示的なものであり、本発明を限定するものと理解してはならない。当業者は、本発明の範囲内に上記の実施例に対して変更、修正、置換及び変形を行うことができる。

Claims (14)

  1. 予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するステップと、
    各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップと、
    前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、を含むジェスチャー認識方法。
  2. 各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するステップが、
    第1フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、前記第1フレーム画像を目標画像グループ内の画像として決定するステップを含む請求項1に記載の方法。
  3. 前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップが、
    前記目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定するステップと、
    各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップと、
    を含む請求項1に記載の方法。
  4. 前記予め設定された手のひらの向き認識モデルが、
    手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するステップと、
    前記予め設定された手のひらの向き認識モデルを生成するように、前記訓練データセットを用いて、初期ネットワークモデルを訓練するステップと、
    によって訓練される請求項1に記載の方法。
  5. 訓練データセットを取得するステップの後に、
    各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するステップを含む請求項4に記載の方法。
  6. 前記目標ビデオフレームに対応する目標ジェスチャーを決定するステップの後、
    前記目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、前記いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するステップを含む請求項1から5のいずれか一項に記載の方法。
  7. 予め設定された手のひらの向き認識モデルを用いて、目標ビデオフレームの各画像を順次に認識処理し、各フレーム画像に手のひらの画像が含まれる確率及び各フレーム画像に対応する手のひらの法線ベクトルを決定するように構成される第1決定モジュールと、
    各フレーム画像に手のひらの画像が含まれる確率に基づいて、前記目標ビデオフレームに含まれる目標画像グループを決定するように構成される第2決定モジュールと、
    前記目標画像グループにおける各フレーム目標画像に対応する手のひらの法線ベクトルに基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される第3決定モジュールと、
    を備えるジェスチャー認識装置。
  8. 前記第2決定モジュールが、具体的には、
    第1フレーム画像に手のひらの画像が含まれる確率が閾値以上である場合に、前記第1フレーム画像を目標画像グループ内の画像として決定するように構成される請求項7に記載の装置。
  9. 前記第3決定モジュールが、具体的には、
    前記目標画像グループにおける各フレーム画像に対応する手のひらの法線ベクトルに基づいて、各フレーム目標画像内の手のひらの向きを決定し、
    各フレーム目標画像内の手のひらの向き及び各フレーム目標画像の収集順番に基づいて、前記目標ビデオフレームに対応する目標ジェスチャーを決定するように構成される請求項7に記載の装置。
  10. 前記予め設定された手のひらの向き認識モデルが、
    手のひらの画像、非手のひらの画像、及び各手のひらの画像に対応する手のひらの法線ベクトルを含む訓練データセットを取得するように構成される取得モジュールと、
    前記予め設定された手のひらの向き認識モデルを生成するように、前記訓練データセットを用いて、初期ネットワークモデルを訓練するように構成される訓練モジュールと、によって訓練される請求項7に記載の装置。
  11. 前記予め設定された手のひらの向き認識モデルを訓練するモジュールが、
    各手のひらの画像に対応する手のひらの法線ベクトルを正規化処理して、各手のひらの画像に対応する単位法線ベクトルを決定するように構成される第4決定モジュールを備える請求項10に記載の装置。
  12. 前記装置が、
    前記目標ジェスチャーがいずれかの予め設定されたジェスチャーとマッチングされる場合に、前記いずれかの予め設定されたジェスチャーに対応する制御命令に基づいて電子機器を制御するように構成される制御モジュールを含む請求項7から11のいずれか一項に記載の装置。
  13. プロセッサとメモリとを備える電子機器であって、
    前記プロセッサが、前記メモリに記憶されている実行可能なプログラムコードを読み出して、前記実行可能なプログラムコードに対応するプログラムを実行することにより、請求項1から6のいずれか一項に記載のジェスチャー認識方法を実現する電子機器。
  14. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサによって実行される場合に、請求項1から6のいずれか一項に記載のジェスチャー認識方法が実現されるコンピュータ読み取り可能な記憶媒体。
JP2020047334A 2019-03-19 2020-03-18 ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体 Active JP6941198B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910210038.4A CN109948542B (zh) 2019-03-19 2019-03-19 手势识别方法、装置、电子设备和存储介质
CN201910210038.4 2019-03-19

Publications (2)

Publication Number Publication Date
JP2020155129A JP2020155129A (ja) 2020-09-24
JP6941198B2 true JP6941198B2 (ja) 2021-09-29

Family

ID=67010343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020047334A Active JP6941198B2 (ja) 2019-03-19 2020-03-18 ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US10983596B2 (ja)
EP (1) EP3712805B1 (ja)
JP (1) JP6941198B2 (ja)
KR (1) KR102292028B1 (ja)
CN (1) CN109948542B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020209624A1 (en) * 2019-04-11 2020-10-15 Samsung Electronics Co., Ltd. Head mounted display device and operating method thereof
CN111738042A (zh) * 2019-10-25 2020-10-02 北京沃东天骏信息技术有限公司 识别方法、设备及存储介质
CN111191498A (zh) * 2019-11-07 2020-05-22 腾讯科技(深圳)有限公司 行为识别方法和相关产品
CN110889390A (zh) * 2019-12-05 2020-03-17 北京明略软件系统有限公司 姿势识别方法、装置、控制设备和机器可读存储介质
CN111898489B (zh) * 2020-07-15 2023-08-08 北京百度网讯科技有限公司 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN112000224A (zh) * 2020-08-24 2020-11-27 北京华捷艾米科技有限公司 一种手势交互方法及系统
CN112224304A (zh) * 2020-10-28 2021-01-15 北京理工大学 一种轮步复合移动平台及其手势、语音控制方法
CN112464758A (zh) * 2020-11-16 2021-03-09 深圳市优必选科技股份有限公司 用于手势识别的数据增强方法、装置、计算机设备及存储介质
CN114967905A (zh) * 2021-02-26 2022-08-30 广州视享科技有限公司 手势控制方法、装置、计算机可读存储介质和电子设备
CN113253847B (zh) * 2021-06-08 2024-04-30 北京字节跳动网络技术有限公司 终端的控制方法、装置、终端和存储介质
CN113486765B (zh) * 2021-06-30 2023-06-16 上海商汤临港智能科技有限公司 手势交互方法及装置、电子设备和存储介质
CN113537123B (zh) * 2021-07-28 2023-04-07 上海高德威智能交通系统有限公司 手势识别方法、装置、电子设备及可读存储介质
CN113326829B (zh) * 2021-08-03 2021-11-23 北京世纪好未来教育科技有限公司 视频中手势的识别方法、装置、可读存储介质及电子设备
CN114253395B (zh) * 2021-11-11 2023-07-18 易视腾科技股份有限公司 一种用于电视控制的手势识别系统及其识别方法
CN113934307B (zh) * 2021-12-16 2022-03-18 佛山市霖云艾思科技有限公司 一种根据手势和场景开启电子设备的方法
CN114900732B (zh) * 2022-04-25 2024-01-12 北京奇艺世纪科技有限公司 视频缓存方法、装置、电子设备及存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100027845A1 (en) * 2008-07-31 2010-02-04 Samsung Electronics Co., Ltd. System and method for motion detection based on object trajectory
JP2013016116A (ja) * 2011-07-06 2013-01-24 Sony Corp 情報処理装置、画像表示装置、および情報処理方法
JP2013080413A (ja) * 2011-10-05 2013-05-02 Sony Corp 入力装置、入力認識方法
US9536135B2 (en) * 2012-06-18 2017-01-03 Microsoft Technology Licensing, Llc Dynamic hand gesture recognition using depth data
JP6207240B2 (ja) * 2013-06-05 2017-10-04 キヤノン株式会社 情報処理装置及びその制御方法
CN103413080A (zh) * 2013-08-20 2013-11-27 苏州跨界软件科技有限公司 一种基于手势的密码保护实现方法
CN103760968B (zh) * 2013-11-29 2015-05-13 理光软件研究所(北京)有限公司 数字标牌显示内容选择方法和装置
JP6460862B2 (ja) * 2014-03-20 2019-01-30 国立研究開発法人産業技術総合研究所 ジェスチャ認識装置、システム及びそのプログラム
US20150370472A1 (en) * 2014-06-19 2015-12-24 Xerox Corporation 3-d motion control for document discovery and retrieval
CN106575150B (zh) * 2014-08-16 2020-03-03 谷歌有限责任公司 使用运动数据识别手势的方法和可穿戴计算设备
US20170068416A1 (en) * 2015-09-08 2017-03-09 Chian Chiu Li Systems And Methods for Gesture Input
CN106055091B (zh) * 2016-05-16 2019-08-06 电子科技大学 一种基于深度信息和校正方式的手部姿态估计方法
US10747324B2 (en) * 2016-11-02 2020-08-18 Panasonic Intellectual Property Management Co., Ltd. Gesture input system and gesture input method
US10488939B2 (en) * 2017-04-20 2019-11-26 Microsoft Technology Licensing, Llc Gesture recognition
KR101966384B1 (ko) * 2017-06-29 2019-08-13 라인 가부시키가이샤 영상 처리 방법 및 시스템
CN108131808B (zh) * 2017-12-08 2020-03-27 厦门瑞为信息技术有限公司 基于分级手势识别的空调控制装置及方法
CN108427871A (zh) * 2018-01-30 2018-08-21 深圳奥比中光科技有限公司 3d人脸快速身份认证方法与装置
CN108520247B (zh) * 2018-04-16 2020-04-28 腾讯科技(深圳)有限公司 对图像中的对象节点的识别方法、装置、终端及可读介质
CN108549490A (zh) * 2018-05-03 2018-09-18 林潼 一种基于Leap Motion设备的手势识别互动方法
CN109284698A (zh) * 2018-09-03 2019-01-29 深圳市尼欧科技有限公司 一种基于图像识别技术的疲劳驾驶行为检测方法

Also Published As

Publication number Publication date
KR102292028B1 (ko) 2021-08-19
KR20200111617A (ko) 2020-09-29
US10983596B2 (en) 2021-04-20
CN109948542B (zh) 2022-09-23
EP3712805B1 (en) 2023-05-03
US20200301514A1 (en) 2020-09-24
CN109948542A (zh) 2019-06-28
JP2020155129A (ja) 2020-09-24
EP3712805A1 (en) 2020-09-23

Similar Documents

Publication Publication Date Title
JP6941198B2 (ja) ジェスチャー認識方法、ジェスチャー認識装置、電子機器、及び記憶媒体
US10572072B2 (en) Depth-based touch detection
CN104350509B (zh) 快速姿势检测器
TWI484444B (zh) 用於面部特徵向量之建構之非暫時性電腦可讀媒體、電子器件、及電腦系統
CN110322500A (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
CN104516499B (zh) 利用用户接口的事件的设备和方法
TWI625680B (zh) 臉部表情辨識的方法及裝置
KR102179999B1 (ko) 인공신경망 기반 손동작 인식 방법 및 장치
CN112074798A (zh) 使用可穿戴式压力传感装置进行书写识别
CN110349212A (zh) 即时定位与地图构建的优化方法及装置、介质和电子设备
CN110717385A (zh) 一种动态手势识别方法
CN111460858B (zh) 图像中指尖点的确定方法、装置、存储介质及电子设备
CN110850982A (zh) 基于ar的人机交互学习方法、系统、设备及存储介质
JP2016071547A (ja) 情報処理装置とその制御方法、プログラム、記憶媒体
JP2021144359A (ja) 学習装置、推定装置、学習方法、及びプログラム
JP6273686B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN114821630A (zh) 静态手势识别方法及其系统和电子设备
Elboushaki et al. Improving articulated hand pose detection for static finger sign recognition in RGB-D images
US20220137712A1 (en) Information processing apparatus, information processing method, and program
JP6007496B2 (ja) 表示システム、表示プログラムおよび表示方法
WO2021075102A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2021075103A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Malathi et al. Virtual Handwriting Based Smart Board Using Deep Learning
Kansal et al. Volume Control feature for gesture recognition in Augmented and Virtual reality applications
Uke et al. Optimal video processing and soft computing algorithms for human hand gesture recognition from real-time video

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210903

R150 Certificate of patent or registration of utility model

Ref document number: 6941198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150