JP2021534482A - ジェスチャー認識方法、ジェスチャー処理方法及び装置 - Google Patents

ジェスチャー認識方法、ジェスチャー処理方法及び装置 Download PDF

Info

Publication number
JP2021534482A
JP2021534482A JP2021506277A JP2021506277A JP2021534482A JP 2021534482 A JP2021534482 A JP 2021534482A JP 2021506277 A JP2021506277 A JP 2021506277A JP 2021506277 A JP2021506277 A JP 2021506277A JP 2021534482 A JP2021534482 A JP 2021534482A
Authority
JP
Japan
Prior art keywords
finger
state
hand
gesture
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021506277A
Other languages
English (en)
Other versions
JP7266667B2 (ja
Inventor
ティアンウェン デュ,
チェン チィエン,
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー リミテッド
Publication of JP2021534482A publication Critical patent/JP2021534482A/ja
Application granted granted Critical
Publication of JP7266667B2 publication Critical patent/JP7266667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Abstract

本開示は、ジェスチャー認識方法、ジェスチャー処理方法及び装置に関する。前記ジェスチャー認識方法は、画像における手部の指の状態を検出することと、前記指の状態に基づいて前記手部の状態ベクトルを決定することと、前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定することと、を含む。本開示の実施例は、各指の状態に基づいて状態ベクトルを決定し、状態ベクトルに基づいてジェスチャーを特定することにより、認識効率が高く、より汎用性がある。【選択図】図1

Description

関連出願の相互参照
本願は、2018年8月17日に中国特許局に提出された、出願番号201810942882.1、発明の名称「ジェスチャー認識方法、ジェスチャー処理方法及び装置」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は、画像処理技術分野に関し、特に、ジェスチャー認識方法、ジェスチャー処理方法及び装置に関する。
非接触ヒューマン・マシン・ インタラクションのシーンの生活への適用はますます広くなってきている。ユーザは異なるジェスチャーにより異なるヒューマン・マシン・インタラクションコマンドを容易に表現することができる。
本開示は、ジェスチャー認識の技術的手段を提供する。
本開示の一方面によれば、画像における手部の指の状態を検出することと、前記指の状態に基づいて前記手部の状態ベクトルを決定することと、前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定することと、を含むジェスチャー認識方法を提供する。
本開示の一方面によれば、画像を取得することと、上記ジェスチャー認識方法を用いて前記画像に含まれる手部のジェスチャーを認識することと、ジェスチャーの認識結果に対応する制御操作を実行することと、を含むジェスチャー処理方法を提供する。
本開示の一方面によれば、画像における手部の指の状態を検出するための状態検出モジュールと、前記指の状態に基づいて前記手部の状態ベクトルを決定するための状態ベクトル取得モジュールと、前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定するためのジェスチャー特定モジュールと、を含むジェスチャー認識装置を提供する。
本開示の一方面によれば、画像を取得するための画像取得モジュールと、上記ジェスチャー認識装置を用いて前記画像に含まれる手部のジェスチャーを認識するためのジェスチャー取得モジュールと、ジェスチャーの認識結果に対応する制御操作を実行するための操作実行モジュールと、を含むジェスチャー処理装置を提供する。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは前記実行可能なコマンドを呼び出すことによって上記ジェスチャー認識方法及び/又はジェスチャー処理方法を実現する電子機器を提供する。
本開示の一方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記ジェスチャー認識方法及び/又はジェスチャー処理方法を実現させるコンピュータ読取可能記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードは、電子機器で実行されると、前記電子機器のプロセッサに上記ジェスチャー認識方法及び/又はジェスチャー処理方法を実行させるコンピュータプログラムを提供する。
本開示の実施例では、画像における手部の指の状態を検出し、前記指の状態に基づいて前記手部の状態ベクトルを決定し、決定された手部の状態ベクトルに基づいて手部のジェスチャーを特定する。本開示の実施例は、各指の状態に基づいて状態ベクトルを決定し、状態ベクトルに基づいてジェスチャーを特定することにより、認識効率が高く、より汎用性がある。
以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴及び方面は明瞭になる。
明細書の一部として組み込まれた図面は、明細書と共に本開示の例示的な実施例、特徴及び方面を示し、更に本開示の原理を解釈するために用いられる。
本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。 本開示の実施例に係るジェスチャー認識方法における指の状態の模式図を示す。 本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。 本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。 本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。 本開示の実施例に係るジェスチャー認識方法におけるニューラルネットワークのデータ処理のフローチャートを示す。 本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。 本開示の実施例に係るジェスチャー処理方法のフローチャートを示す。 本開示の実施例に係るジェスチャー認識装置のブロック図を示す。 本開示の実施例に係るジェスチャー処理装置のブロック図を示す。 例示的実施例に係る電子機器のブロック図を示す。 例示的実施例に係る電子機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号は同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明したいかなる実施例も他の実施例より好ましい又は優れたものと理解すべきではない。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的詳細を示す。当業者であれば、何らかの具体的詳細がなくても、本開示が同様に実施できるということを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路に対する詳細な説明を省略する。以下のいくつかの具体的な実施例は、相互に組み合わせてもよく、同様又は類似的な概念又はプロセスについての説明をある実施例において省略することがある。以下の実施例は、本開示の選択可能な実施形態に過ぎないものと理解すべきで、本開示の保護範囲を実質的に制限するものと理解すべきではない。当業者により以下の実施例に基づいて実現された他の実施形態は、全て本開示の保護範囲に含まれる。
図1は本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。前記ジェスチャー認識方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置、又はサーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記ジェスチャー認識方法は、プロセッサによりメモリに記憶されているコンピュータ読取可能コマンドを呼び出すことで実現されてもよい。
図1に示すように、前記方法は、以下のステップを含む。
ステップS10、画像における手部の指の状態を検出する。
可能な一実施形態では、画像は静的画像であってもよく、ビデオストリーム中のフレーム画像であってもよい。画像認識方法を用いて画像から手部の各指の状態を取得するようにしてもよい。手部の5本の指の状態を取得してもよく、例えば人差し指の状態のみを取得するように、指定された複数本又は1本の指の状態を取得してもよい。
可能な一実施形態では、前記指の状態は、前記指が前記手部の掌の根元部に対して伸ばされているか否か及び/又は伸ばされている度合の状態を示す。手部のジェスチャーが拳である場合に、各指は掌の根元部に対して伸ばしていない状態となる。指は掌の根元部に対して伸ばしている状態となる場合に、掌部に対する指の位置又は指自身の湾曲度合に基づいて指の状態を更に区分するようにしてもよい。例えば、指の状態は、伸ばしていない状態と伸ばしている状態という2つの状態に分けてもよく、伸ばしていない状態、半分伸ばしている状態、伸ばしている状態という3つの状態に分けてもよく、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態等の複数の状態に分けてもよい。
可能な一実施形態では、前記指の状態は、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態のうちの1つ又は複数を含む。ここで、指と掌部との位置関係及び指自身の湾曲度合に基づいて、手部が拳から5本の指が全て最大に伸ばす状態になる過程において、各指の状態を順に伸ばしていない状態、半分伸ばしている状態、曲がっている状態、伸ばしている状態としてもよい。必要に応じて、指ごとに状態の等級を区分してもよい。本開示は各指の状態の区分方式、数量及び使用順序を限定しない。
図2は本開示の実施例に係るジェスチャー認識方法における指の状態の模式図を示す。図2に示す画像において、親指の状態が伸ばしていない状態となり、人差し指の状態が伸ばしている状態となり、中指の状態が伸ばしている状態となり、薬指の状態が伸ばしていない状態となり、小指の状態が伸ばしていない状態となる。画像から5本の指の状態を取得してもよく、指定された指(例えば、人差し指と中指)の状態のみを取得してもよい。
ステップS20、前記指の状態に基づいて前記手部の状態ベクトルを決定する。
可能な一実施形態では、前記指の状態に基づいて前記手部の状態ベクトルを決定することは、前記指の状態に基づいて、指の状態ごとに異なる前記指の状態値を決定することと、前記指の状態値に基づいて前記手部の状態ベクトルを決定することと、を含む。
可能な一実施形態では、指の状態ごとに状態値を設定し、指の状態と状態値との対応関係を確立するようにしてもよい。指の状態値は、数字、英字又は符号の1つ又は任意の組合であってもよい。取得された指の状態及び確立された対応関係により指の状態値を特定し、更に指の状態値に基づいて手部の状態ベクトルを取得するようにしてもよい。手部の状態ベクトルは、アレー、リスト又は行列等の様々な形式を含んでもよい。
可能な一実施形態では、指の状態値を設定された指の順序で組み合わせて手部の状態ベクトルを取得するようにしてもよい。例えば、5本の指の状態値に基づいて手部の状態ベクトルを取得してもよい。親指、人差し指、中指、薬指、小指の順序で5本の指の状態値を組み合わせて手部の状態ベクトルを取得してもよい。また、任意に設定された他の順序で指の状態値を組み合わせて手部の状態ベクトルを取得してもよい。
例えば、図2に示す画像において、状態値Aで伸ばしていない状態を示し、状態値Bで伸ばしている状態を示してもよい。図2に示すように、親指の状態値がAとなり、人差し指の状態値がBとなり、中指の状態値がBとなり、薬指の状態値がAとなり、小指の状態値がAとなり、手部の状態ベクトルが(A,B,B,A,A)となる。
ステップS30、前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定する。
可能な一実施形態では、手部の各指の状態に基づいて手部のジェスチャーを特定するようにしてもよい。必要に応じて指の異なる状態を特定し、指の異なる状態に基づいて手部の状態ベクトルを決定し、更に手部の状態ベクトルに基づいて手部のジェスチャーを特定するようにしてもよい。指状態の認識プロセスが便利且つ信頼的であるので、ジェスチャーの特定プロセスもより便利且つ信頼的になる。手部の状態ベクトルとジェスチャーとの対応関係を確立し、状態ベクトルとジェスチャーとの対応関係を調整することにより、状態ベクトルに基づくジェスチャーの特定をより柔軟的に行うようにしてもよい。そのようにして、ジェスチャーの特定プロセスがより柔軟的になり、異なる応用環境に適応可能である。例えば、手部の状態ベクトル1がジェスチャー1に対応し、手部の状態ベクトル2がジェスチャー2に対応し、手部の状態ベクトル3がジェスチャー3に対応する。必要に応じて手部の状態ベクトルとジェスチャーとの対応関係を確立することができる。1つの手部の状態ベクトルを1つのジェスチャーに対応してもよく、複数の手部の状態ベクトルを1つのジェスチャーに対応してもよい。
可能な一実施形態では、例えば、図2に示す画像において、手部の状態ベクトルは(A,B,B,A,A)である。手部の状態ベクトルとジェスチャーとの対応関係において、(A,B,B,A,A)の状態ベクトルに対応するジェスチャーは「数字2」又は「勝利」であるようにしてもよい。
本実施例では、画像における手部の指の状態を検出し、前記指の状態に基づいて前記手部の状態ベクトルを決定し、決定された手部の状態ベクトルに基づいて手部のジェスチャーを特定する。本開示の実施例は、各指の状態に基づいて状態ベクトルを決定し、状態ベクトルに基づいてジェスチャーを特定することにより、認識効率が高く、より汎用性がある。
本実施例は、画像から各指の状態を認識する認識効率が高いので、ジェスチャー認識効率が高くなる。また、本実施例は、必要に応じて指の状態とジェスチャーとの対応関係を任意に調整できるので、同一な画像から、異なる需要に応じて定義された異なるジェスチャーを認識でき、特定されたジェスチャーがより汎用性がある。
可能な一実施形態では、前記指の状態は、伸ばしている状態又は伸ばしていない状態を含み、前記指の状態に基づいて前記手部の状態ベクトルを決定することは、指の状態が伸ばしている状態である場合に、前記指の状態値を第1の状態値に決定すること、又は、指の状態が伸ばしていない状態である場合に、前記指の状態値を第2の状態値に決定することと、前記指の状態値に基づいて前記手部の状態ベクトルを決定することと、を含む。
可能な一実施形態では、数字、英字又は符号のうちの1つ又は任意の組合により第1の状態値と第2の状態値を示すようにしてもよい。第1の状態値と第2の状態値は、反対の意味を示す2つの値であってもよく、例えば第1の状態値が有効であり、第2の状態値が無効であるようにしてもよい。第1の状態値と第2の状態値は、異なる数値の2つの数字であってもよく、例えば第1の状態値が1であり、第2の状態値が0であるようにしてもよい。図2に示す画像において、親指の状態値が0となり、人差し指の状態値が1となり、中指の状態値が1となり、薬指の状態値が0となり、小指の状態値が0となり、手部の状態ベクトルが(0,1,1,0,0)となる。
本実施例では、第1の状態値と第2の状態値に基づいて手部の状態ベクトルを決定できる。2つの状態値から構成される手部の状態ベクトルを用いて、手部の各指の状態を簡単且つ直感的に表現することができる。
図3は本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。図3に示すように、前記方法は、以下のステップを更に含む。
ステップS40、前記画像における手部の指の位置情報を検出する。
可能な一実施形態では、指の位置情報は画像における指の位置の情報を含むようにしてもよい。指の位置情報は画像における指の画素の座標位置の情報を含むようにしてもよい。画像をグリッドに分割して指の画素の所在するグリッドの位置情報を指の位置情報としてもよい。グリッドの位置情報はグリッドの番号を含んでもよい。
可能な一実施形態では、指の位置情報は画像における目標対象に対する指の位置情報を含むようにしてもい。例えば、一人がピアノを弾いている画像画面である場合に、画像における指の位置情報は鍵に対する指の位置情報を含んでもよい。例えば、指1の鍵からの距離が0であり、指2の鍵からの距離が3センチメートル等である。
可能な一実施形態では、指の位置情報は一次元又は多次元の位置情報を含むようにしてもよい。指の位置情報に基づいて、指同士の相対位置関係を取得することができる。
ステップS50、前記指の位置情報に基づいて前記手部の位置ベクトルを決定する。
可能な一実施形態では、設定された指の順序で、異なる指の位置情報を組み合わせて手部の位置ベクトルを取得するようにしてもよい。手部の位置ベクトルはアレー、リスト又は行列等の様々な形式を含んでもよい。
ステップS30は、前記手部の状態ベクトルと前記手部の位置ベクトルに基づいて前記手部のジェスチャーを特定するステップS31を含む。
可能な一実施形態では、手部の状態ベクトルに基づいて手部の指の状態を取得し、手部の位置ベクトルの指の位置と組み合わせて、より精確なジェスチャーを特定するようにしてもよい。例えば、図2に示す画像において、手部の状態ベクトルが(0,1,1,0,0)となり、位置ベクトルが(L1,L2,L3,L4,L5)となる。手部の状態ベクトルのみに基づいて、手部の人差し指と中指の状態が伸ばしている状態であり、他の指が伸ばしていない状態であり、手部のジェスチャーが「数字2」又は「勝利」であると特定できる。
手部の位置ベクトルと手部の状態ベクトルの組み合わせに基づいて、人差し指と中指が伸ばされ且つ一定の角度で離れていると特定される場合、図2に示すように、手部のジェスチャーは「数字2」又は「勝利」であり得る。手部の状態ベクトルと手部の位置ベクトルに基づいて、人差し指と中指が伸ばされ且つ揃っている(未図示)と特定される場合、手部のジェスチャーは「勝利」ではなく、「数字2」である。
必要に応じて手部の状態ベクトルと手部の位置ベクトルを組み合わせて、組合ベクトルを取得した後、組合ベクトルとジェスチャーとの対応関係を確立してもよい。同様な状態ベクトルと異なる位置ベクトルから構成される異なる組合ベクトルは、異なるジェスチャーに対応してもよいし、同じジェスチャーに対応してもよい。
本実施例では、手部の状態ベクトルと位置ベクトルに基づいて手部のジェスチャーを特定することができる。手部の位置ベクトルと状態ベクトルを組み合わせることにより、より精確なジェスチャーを取得することができる。
図4は本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。図4に示すように、前記方法におけるステップS40は、前記画像における前記手部の指のキーポイントを検出し、前記指のキーポイントの位置情報を取得するステップS41を含む。
可能な一実施形態では、前記キーポイントは指先及び/又は指の関節を含み、ここで、指の関節は中手指節関節又は指節間関節を含んでもよい。指の指先及び/又は指の関節の位置により指の位置情報を精確に示すことができる。例えば、図2に示す画像において、指のキーポイントが指先であり、各指の指先の位置情報を親指(X,Y)、人差し指(X,Y)、中指(X,Y)、薬指(X,Y)、小指(X,Y)のように決定するようにしてもよく、ここで、親指、薬指及び小指の指先の座標点は近接している。
ステップS50は、前記指のキーポイントの位置情報に基づいて前記手部の位置ベクトルを決定するステップS51を含む。
可能な一実施形態では、例えば、図2に示す画像において、手部の位置ベクトルは(X,Y,X,Y,X,Y,X,Y,X,Y)であるようにしてもよい。
手部の状態ベクトル(0,1,1,0,0)と手部の位置ベクトル(X,Y,X,Y,X,Y,X,Y,X,Y)に基づいて、手部の人差し指と中指が伸ばされており且つ指先に一定の距離の間隔があり、残りの3本の指が掌に位置しており、手部のジェスチャーが「勝利」であると特定できる。
本実施例では、手部の指のキーポイントの位置情報に基づいて手部の位置ベクトルを取得することができる。それにより、手部の位置ベクトルの決定プロセスがより簡単になる。
可能な一実施形態では、ステップS41は、前記画像における前記手部の、伸ばしていない状態以外の指のキーポイントを検出し、前記キーポイントの位置情報を取得することを含む。
可能な一実施形態では、ジェスチャーは伸ばしていない状態以外の指に基づいて特定されるので、画像において伸ばしていない状態以外の指のキーポイントを特定し、キーポイントの位置情報を取得するようにしてもよい。伸ばしていない状態の指のキーポイントの位置座標を、画像に位置しない座標値にしてもよい。例えば、画像の上縁部をX軸正方向とし、左側縁部をY軸正方向とし、無効座標を(−1,−1)にするようにしてもよい。
例えば、図2に示す画像において、画像の上縁部をX軸正方向とし、左側縁部をY軸正方向とし、指先を指のキーポイントとする場合、手部の状態ベクトル(0,1,1,0,0)に基づいて、親指(−1,−1)、人差し指(X,Y)、中指(X,Y)、薬指(−1,−1)、小指(−1,−1)のような指の指先の位置情報を画像から取得できる。この場合、手部の位置ベクトルは(−1,−1,X,Y,X,Y,−1,−1,−1,−1)となる。伸ばしていない状態の指のキーポイントの位置座標をゼロにするようにしてもよい。
手部の状態ベクトル(0,1,1,0,0)と手部の位置ベクトル(−1,−1,X,Y,X,Y,−1,−1,−1,−1)に基づいて、手部の人差し指と中指が伸ばされており且つ指先に一定の距離の間隔があり、残りの3本の指が掌に位置しており、手部のジェスチャーが「勝利」であると特定できる。
本実施例では、伸ばしていない状態以外の指のキーポイントの位置情報に基づいて手部の位置ベクトルを取得することができる。それにより、手部の位置ベクトルの決定プロセスがより効率的になる。
図5は本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。図5に示すように、前記方法におけるステップS10は、前記画像をニューラルネットワークに入力して、前記ニューラルネットワークにより前記画像における手部の指の状態を検出するステップS11を含む。
可能な一実施形態では、ニューラルネットワークは生物学的ニューラルネットワークの構造や機能を真似た数学モデル又は計算モデルである。ニューラルネットワークは入力層、中間層及び出力層を含んでもよい。入力層は、外部からの入力データを受信し、入力データを中間層に伝達するためのものである。中間層は、情報交換を行うためのものであり、情報変換能力の需要に応じて単一隠れ層又は多層隠れ層として設計されてもよい。出力層は、中間層から伝達された出力結果を更なる処理を行って、ニューラルネットワークの出力結果を取得する。入力層、中間層及び出力層はいずれも若干のニューロンを含んでもよく、各ニューロン同士は可変重み付き有向アークで接続されてもよい。ニューラルネットワークは、既知情報を用いて繰り返し学習してトレーニングされて、ニューロン同士を接続する有向アークの重みを逐次調整、変更することにより、入力出力間の関係を真似たモデルを確立する目的を達成する。トレーニングされたニューラルネットワークは、真似た入力出力間の関係モデルを用いて、入力情報を検出し、入力情報に対応する出力情報を提供することができる。例えば、ニューラルネットワークは畳み込み層、プーリング層及び全結合層等を含んでもよい。ニューラルネットワークを用いて画像の特徴を抽出し、抽出された特徴に基づいて画像の指の状態を特定してもよい。
本実施例では、ニューラルネットワークの強い処理能力により画像における手部の指の状態を高速且つ精確に特定することができる。
可能な一実施形態では、前記ニューラルネットワークは複数の状態分岐ネットワークを含み、ステップS11は、前記ニューラルネットワークの異なる状態分岐ネットワークにより前記画像における手部の異なる指の状態をそれぞれ検出することを含む。
可能な一実施形態では、ニューラルネットワークには、それぞれ画像から1つの指の状態を取得するために用いられる5つの状態分岐ネットワークを設置するようにしてもよい。
可能な一実施形態では、図6は本開示の実施例に係るジェスチャー認識方法におけるニューラルネットワークのデータ処理のフローチャートを示す。図6では、ニューラルネットワークは畳み込み層と全結合層を含んでもよい。ここで、畳み込み層は第1の畳み込み層、第2の畳み込み層、第3の畳み込み層及び第4の畳み込み層を含んでもよい。第1の畳み込み層は1層の畳み込み層「conv1_1」を含み、第2の畳み込み層〜第4の畳み込み層はそれぞれ2層の畳み込み層、例えば「conv2_1」〜「conv4_2」を有してもよい。第1の畳み込み層、第2の畳み込み層、第3の畳み込み層及び第4の畳み込み層は、画像の特徴を抽出するために用いられる。
全結合層は第1の全結合層「ip1_fingers」、第2の全結合層「ip2_fingers」及び第3の全結合層「ip3_fingers」を含んでもよい。第1の全結合層、第2の全結合層及び第3の全結合層は、指の状態を特定し、指の状態ベクトルを取得するために用いられる。ここで、「ip3_fingers」は、第1の状態分岐ネットワーク(loss_littlefinger)、第2の状態分岐ネットワーク(loss_ringfinger)、第3の状態分岐ネットワーク(loss_middlefinger)、第4の状態分岐ネットワーク(loss_forefinger)及び第5の状態分岐ネットワーク(loss_thumb)の5つの状態分岐ネットワークに分割されてもよい。各状態分岐ネットワークはそれぞれ1本の指に対応し、個別にトレーニングされてもよい。
可能な一実施形態では、前記全結合層は位置分岐ネットワークを更に含み、ステップS40は、前記ニューラルネットワークの前記位置分岐ネットワークにより前記画像における前記手部の指の位置情報を検出することを含んでもよい。
図6では、ニューラルネットワークは位置分岐ネットワークを更に含み、位置分岐ネットワークは第5の全結合層「ip1_points」、第6の全結合層「ip2_points」及び第7の全結合層「ip3_points」を含んでもよい。第5の全結合層、第6の全結合層及び第7の全結合層は、指の位置情報を取得するために用いられる。
また、図6では、畳み込み層は活性化関数(relu_conv)、プーリング層(pool)、損失関数(loss)等を更に含んでもよく、詳細な説明は割愛する。
本実施例では、位置分岐ネットワークにより画像から指の位置情報を特定し、及び、前記位置分岐ネットワークにより前記画像から前記指の位置情報を特定することができる。状態分岐ネットワークと位置分岐ネットワークにより、画像から指の状態情報と位置情報を高速且つ精確に取得することができる。
可能な一実施形態では、前記ニューラルネットワークは予めラベル情報を有するサンプル画像を用いてトレーニングされたものであり、前記ラベル情報は、前記指の状態を示す第1のラベル情報、及び/又は、前記指の位置情報又はキーポイントの位置情報を示す第2のラベル情報を含む。
可能な一実施形態では、サンプル画像のラベル情報は指の状態を示す第1のラベル情報を含んでもよい。ニューラルネットワークのトレーニングプロセスにおいて、検出された指の状態を第1のラベル情報と比較して、ジェスチャー予測結果の損失を決定してもよい。
可能な一実施形態では、サンプル画像のラベル情報は指の位置情報又はキーポイントの位置情報を示す第2のラベル情報を含んでもよい。第2のラベル情報に基づいて各指の位置又はキーポイントの位置を取得し、各指の位置又はキーポイントの位置に基づいて各指の状態を特定してもよい。ニューラルネットワークのトレーニングプロセスにおいて、検出された指の状態を、第2のラベル情報に基づいて特定された指の状態と比較して、ジェスチャー予測結果の損失を決定してもよい。
可能な一実施形態では、サンプル画像のラベル情報は第1のラベル情報と第2のラベル情報を含んでもよい。ニューラルネットワークのトレーニングプロセスにおいて、検出された指の状態を第1のラベル情報と比較し、検出された位置情報を第2のラベル情報と比較して、ジェスチャー予測結果の損失を決定してもよい。
可能な一実施形態では、前記第1のラベル情報は各指の状態を示す第1のマーク値から構成される状態ベクトルを含み、前記第2のラベル情報は各指の位置情報又はキーポイントの位置情報をマークする第2のマーク値から構成される位置ベクトルを含む。
可能な一実施形態では、前記サンプル画像において、伸ばしていない状態の指について第2のラベル情報が付けされない。伸ばしていない状態の指に対して無効である第2のマーク値、例えば(−1、−1)を設定してもよい。
可能な一実施形態では、指の状態の区分に応じて第1のラベル情報中のマーク値を決定してもよい。例えば、指の状態が伸ばしていない状態又は伸ばしている状態である場合に、第1のラベル情報中の第1のマーク値は0(伸ばしていない状態)又は1(伸ばしている状態)を含むようにしてもよい。指の状態は伸ばしていない状態、半分伸ばしている状態、曲がっている状態及び伸ばしている状態に区分される場合に、第1のマーク値は0(伸ばしていない状態)、1(半分伸ばしている状態)、2(曲がっている状態)、3(伸ばしている状態)を含むようにしてもよい。各指の第1のマーク値に基づいて手部の第1のラベル情報、例えば(0,1,1,0,0)を取得してもよい。
可能な一実施形態では、サンプル画像に対して画像座標系を確立し、確立された画像座標系により第2のラベル情報中の第2のマーク値を決定してもよい。各指の第2のマーク値により手部の第2のラベル情報、例えば(−1,−1,X,Y,X,Y,−1,−1,−1,−1)を取得してもよい。
図7は本開示の実施例に係るジェスチャー認識方法のフローチャートを示す。図7に示すように、前記ニューラルネットワークのトレーニングには、以下のステップを含む。
ステップS1、手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得する。
可能な一実施形態では、手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得することは、手部のサンプル画像をニューラルネットワークに入力して手部の指の状態と位置情報を取得することを含む。
可能な一実施形態では、手部のサンプル画像は指の状態と位置情報がラベル付けされた画像であってもよい。手部のサンプル画像をニューラルネットワークに入力し、ニューラルネットワークにより画像の特徴を抽出し、抽出された特徴に基づいて指の状態と位置情報を特定するようにしてもよい。後続のジェスチャー認識のステップにおいて、特定された指の状態と位置情報に基づいて、手部のジェスチャーを特定するようにしてもよい。
ステップS2、前記指の状態に基づいて指の位置重みを決定する。
可能な一実施形態では、指の異なる状態に対して異なる位置重みを設定するようにしてもよい。例えば、伸ばしている状態の指に対して高い位置重みを設定し、伸ばしていない状態の指に対して低い位置重みを設定してもよい。
可能な一実施形態では、前記指の状態に基づいて前記指の位置重みを決定することは、指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにすることを含む。
可能な一実施形態では、指の状態が伸ばしている状態である場合に、前記指の位置重みを非ゼロにし、指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにするようにしてもよい。
可能な一実施形態では、伸ばしている状態の指のキーポイントの位置情報を取得し、伸ばしている状態の指のキーポイントの位置情報に基づいて手部の位置情報を取得し、更に手部の位置情報と状態情報により手部のジェスチャーを特定するようにしてもよい。例えば、図2に示す画像において、手部の状態ベクトルが(0,1,1,0,0)となり、手部の位置ベクトルが(−1,−1,X,Y,X,Y,−1,−1,−1,−1)となる。手部の状態ベクトルに基づいて、人差し指と中指の位置重みを1とし、残りの3本の指の位置重みを0として、(0,0,1,1,1,1,0,0,0,0)のような手部の位置重みを取得する。
可能な一実施形態では、人差し指が伸ばされ且つ他の4本の指が揃っているジェスチャーは、手部の状態ベクトルが(0,1,0,0,0)であり、指先をキーポイントとする手部の位置ベクトルが(−1,−1,X,Y,−1,−1,−1,−1,−1,−1)であり、位置重みが(0,0,1,1,0,0,0,0,0,0)である。拳のジェスチャーは、手部の状態ベクトルが(0,0,0,0,0)であり、指先をキーポイントとする手部の位置ベクトルが(−1,−1,−1,−1,−1,−1,−1,−1,−1,−1)であり、位置重みが(0,0,0,0,0,0,0,0,0,0)である。中指、薬指及び小指が伸ばされ、親指と人差し指で丸を作る「OK」ジェスチャーは、手部の状態ベクトルが(0,0,1,1,1)であり、指先をキーポイントとする手部の位置ベクトルが(−1,−1,−1,−1,X,Y,X,Y,X,Y)であり、位置重みが(0,0,0,0,1,1,1,1,1,1)である。
ステップS3、前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定する。
可能な一実施形態では、前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定することは、前記指の状態、前記位置情報及び前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定することを含む。
ステップS4、前記ニューラルネットワークに前記損失を逆伝搬して、前記ニューラルネットワークのネットワークパラメータを調整する。
可能な一実施形態では、ニューラルネットワークへの逆伝搬において、指の位置ベクトルのうちの伸ばしていない状態の指の位置ベクトルの値は、ニューラルネットワークへの逆伝搬による損失関数の計算結果に影響を与える。例えば、指の状態と位置情報のみにより前記ニューラルネットワークへの逆伝搬を行う場合、例えば図2に示す画像において、手部の状態ベクトルを(0,1,1,0,0)とし、手部の位置ベクトルを(−1,−1,X,Y,X,Y,−1,−1,−1,−1)として、ニューラルネットワークへの逆伝搬を行う場合、親指、薬指及び小指の位置ベクトルが−1に近接するため、ニューラルネットワークへの逆伝搬にずれが発生してしまい、トレーニングされたニューラルネットワークによる認識結果が不精確になる。手部の位置重み(0,0,1,1,1,1,0,0,0,0)と組み合わせば、ニューラルネットワークへの逆伝搬において、親指、薬指及び小指の位置ベクトルが計算に使用されなく、トレーニングされたニューラルネットワークによる認識結果が精確になる。
本実施例では、指の状態、位置情報及び位置重みに基づいてニューラルネットワークに逆伝搬することで、指の位置情報における位置座標の値による不利な影響を減少して、トレーニングされたニューラルネットワークをより精確にすることができる。
図8は本開示の実施例に係るジェスチャー処理方法のフローチャートを示す。前記ジェスチャー処理方法は、ユーザ側装置(User Equipment、UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、、パーソナル・デジタル・アシスタント(Personal Digital Assistant、PDA)、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置、又は、サーバ等の電子機器により実行されてもよい。いくつかの可能な実施形態では、前記ジェスチャー処理方法は、プロセッサによりメモリに記憶されているコンピュータ読取可能コマンドを呼び出すことで実現されてもよい。
図8に示すように、前記方法は、画像を取得するステップS60と、上記のいずれか一項のジェスチャー認識方法を用いて前記画像に含まれる手部のジェスチャーを認識するステップS70と、ジェスチャーの認識結果に対応する制御操作を実行するステップS80と、を含む。
可能な一実施形態では、撮影装置により所望の画像を撮影してもよく、様々の受信方式により画像を直接に受信してもよい。本開示の実施例のいずれか一項に記載のジェスチャー認識方法により、取得された画像から画像に含まれる手部のジェスチャーを認識するようにしてもよい。画像から認識されたジェスチャーに応じて、対応の制御操作を行うようにしてもよい。
可能な一実施形態では、ステップS80は、予め設定されたジェスチャーと制御指令とのマッピング関係により、ジェスチャーの認識結果に対応する制御指令を取得することと、前記制御指令に基づいて、電子機器が対応する操作を実行するように制御することと、を含む。
可能な一実施形態では、必要に応じてジェスチャーと制御指令とのマッピング関係を確立するようにしてもよい。例えば、ジェスチャー1に対して「前へ進む」の制御指令を設定し、ジェスチャー2に対して「停止する」の制御指令を設定する。画像から手部のジェスチャーを特定した後、ジェスチャーと確立されたマッピング関係に基づいて、ジェスチャーに対応する制御指令を決定する。
可能な一実施形態では、特定されたジェスチャーの制御指令に基づいて、ロボット、機械設備、車両等の装置に配置される電子機器を制御して、ロボット、機械設備、車両等の装置の自動制御を実現するようにしてもよい。例えば、ロボットに配置される撮影装置を用いて制御者の手部画像を撮影した後、本開示の実施例のジェスチャー認識方法により撮影した画像からジェスチャーを認識し、ジェスチャーに応じて制御指令を決定して、最終的にロボットの自動制御を実現するようにしてもよい。本開示は、制御指令に基づいて制御される電子機器の種類を限定しない。
本実施例では、ジェスチャーに応じて制御指令を決定でき、必要に応じてジェスチャーと制御指令とのマッピング関係を確立することにより、画像に含まれるジェスチャーに対して豊富な制御指令を決定することができる。制御指令に基づいて電子機器を制御して、車両等の各種の装置を制御するという目的を達成することができる。
可能な一実施形態では、ステップS80は、予め設定されたジェスチャーと特殊効果とのマッピング関係により、ジェスチャーの認識結果に対応する特殊効果を特定することと、コンピュータグラフィックスにより前記画像に前記特殊効果を作成することと、を含む。
可能な一実施形態では、ジェスチャーと特殊効果とのマッピング関係を確立するようにしてもよい。特殊効果は、ジェスチャーの内容を強調したり、ジェスチャーの表現力を強化する等のために用いられる。例えば、ジェスチャーが「勝利」であると認識された場合に、花火を打ち上げるような特殊効果等を作成する。
可能な一実施形態では、コンピュータグラフィックスにより特殊効果を作成し、作成済み特殊効果を画像の内容と共に表示するようにしてもよい。特殊効果は、2次元ステッカー特殊効果、2次元画像特殊効果、3次元特殊効果、粒子特殊効果、部分画像変形特殊効果等を含んでもよい。本開示は特殊効果の内容、種類及び実施形態を限定しない。
可能な一実施形態では、コンピュータグラフィックスにより前記画像に前記特殊効果を作成することは、前記画像に含まれる手部又は手部の指のキーポイントに基づいて、コンピュータグラフィックスにより前記特殊効果を作成することを含む。
可能な一実施形態では、画像を再生する時に、手部の位置情報に基づいて、画像に文字、符号又は画像等の追加情報を追加するようにしてもよい。追加情報は、文字、画像、符号、英字、数字のいずれか1つ又は任意の組合せを含んでもよい。例えば、指の指先部位に「感嘆符」等の符号や「稲妻」等の画像情報を追加するように、編集者が表現又は強調しようとする情報を画像に追加し、画像の表現力を豊かにしてもよい。
本実施例では、ジェスチャーに応じてそれに対応する特殊効果を決定し、画像に特殊効果を追加することで、画像の表現力が豊かになる。
図9は本開示の実施例に係るジェスチャー認識装置のブロック図を示す。図9に示すように、前記ジェスチャー認識装置は、画像における手部の指の状態を検出するための状態検出モジュール10と、前記指の状態に基づいて前記手部の状態ベクトルを決定するための状態ベクトル取得モジュール20と、前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定するためのジェスチャー特定モジュール30と、を含む。
本実施例では、画像における手部の指の状態を検出し、前記指の状態に基づいて前記手部の状態ベクトルを決定し、決定された手部の状態ベクトルに基づいて手部のジェスチャーを特定する。本開示の実施例は、各指の状態に基づいて状態ベクトルを決定し、状態ベクトルに基づいてジェスチャーを特定することにより、認識効率が高く、より汎用性がある。
可能な一実施形態では、前記指の状態は、前記指が前記手部の掌の根元部に対して伸ばされているか否か及び/又は伸ばされている度合の状態を示す。手部のジェスチャーが拳である場合に、各指は掌の根元部に対して伸ばしていない状態となる。指は掌の根元部に対して伸ばしている状態となる場合に、掌部に対する指の位置又は指自身の湾曲度合に基づいて指の状態を更に区分するようにしてもよい。例えば、指の状態は、伸ばしていない状態と伸ばしている状態という2つの状態に分けてもよく、伸ばしていない状態、半分伸ばしている状態、伸ばしている状態という3つの状態に分けてもよく、更には、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態等の複数の状態に分けてもよい。
可能な一実施形態では、前記状態ベクトル取得モジュールは、前記指の状態に基づいて、指の状態ごとに異なる前記指の状態値を決定するための状態値取得サブモジュールと、前記指の状態値に基づいて前記手部の状態ベクトルを決定するための第1の状態ベクトル取得サブモジュールと、を含む。
可能な一実施形態では、指の状態ごとに状態値を設定し、指の状態と状態値との対応関係を確立するようにしてもよい。指の状態値は、数字、英字又は符号の1つ又は任意の組合であってもよい。取得された指の状態及び確立された対応関係により指の状態値を特定し、更に指の状態値に基づいて手部の状態ベクトルを取得するようにしてもよい。手部の状態ベクトルは、アレー、リスト又は行列等の様々な形式を含んでもよい。
可能な一実施形態では、前記指の状態は、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態のうちの1つ又は複数を含む。ここで、指と掌部との位置関係及び指自身の湾曲度合に基づいて、手部が拳から5本の指が全て最大に伸ばす状態になる過程において、各指の状態を順に伸ばしていない状態、半分伸ばしている状態、曲がっている状態、伸ばしている状態としてもよい。必要に応じて、指ごとに状態の等級を区分してもよい。本開示は各指の状態の区分方式、数量及び使用順序を限定しない。
可能な一実施形態では、前記装置は、前記画像における手部の指の位置情報を検出するための位置情報取得モジュールと、前記指の位置情報に基づいて前記手部の位置ベクトルを決定するための位置ベクトル取得モジュールと、を更に含み、前記ジェスチャー特定モジュールは、前記手部の状態ベクトルと前記手部の位置ベクトルに基づいて前記手部のジェスチャーを特定するための第1のジェスチャー特定サブモジュールを含む。
本実施例では、手部の状態ベクトルと位置ベクトルに基づいて手部のジェスチャーを特定することができる。手部の位置ベクトルと状態ベクトルを組み合わせて、より精確なジェスチャーを取得することができる。
可能な一実施形態では、前記位置情報取得モジュールは、前記画像における前記手部の指のキーポイントを検出し、前記指のキーポイントの位置情報を取得するためのキーポイント検出サブモジュールを含み、前記位置ベクトル取得モジュールは、前記指のキーポイントの位置情報に基づいて前記手部の位置ベクトルを決定するための第1の位置ベクトル取得サブモジュールを含む。
本実施例では、手部の指のキーポイントの位置情報に基づいて手部の位置ベクトルを取得することができる。それにより、手部の位置ベクトルの決定プロセスがより簡単になる。
可能な一実施形態では、前記キーポイント検出サブモジュールは、前記画像における前記手部の、伸ばしていない状態以外の指のキーポイントを検出し、前記キーポイントの位置情報を取得するために用いられる。
本実施例では、伸ばしていない状態以外の指のキーポイントの位置情報に基づいて手部の位置ベクトルを取得することができる。それにより、手部の位置ベクトルの決定プロセスがより効率的になる。
可能な一実施形態では、前記キーポイントは指先及び/又は指の関節を含む。ここで、指の関節は中手指節関節又は指節間関節を含んでもよい。指の指先及び/又は指の関節の位置により指の位置情報を精確に示すことができる。
可能な一実施形態では、前記状態検出モジュールは、前記画像をニューラルネットワークに入力して、前記ニューラルネットワークにより前記画像における手部の指の状態を検出するための第1の状態検出サブモジュールを含む。
本実施例では、ニューラルネットワークの強い処理能力により画像における手部の指の状態を高速且つ精確に特定することができる。
可能な一実施形態では、前記ニューラルネットワークは複数の状態分岐ネットワークを含み、前記第1の状態検出サブモジュールは、前記ニューラルネットワークの異なる状態分岐ネットワークにより前記画像における手部の異なる指の状態をそれぞれ検出するために用いられる。
可能な一実施形態では、ニューラルネットワークには、それぞれ画像から1つの指の状態を取得するために用いられる5つの状態分岐ネットワークを設置するようにしてもよい。
可能な一実施形態では、前記ニューラルネットワークは位置分岐ネットワークを更に含み、前記位置情報取得モジュールは、前記ニューラルネットワークの前記位置分岐ネットワークにより前記画像における前記手部の指の位置情報を検出するための第1の位置情報取得サブモジュールを含む。
本実施例では、位置分岐ネットワークにより画像から指の位置情報を特定し、前記位置分岐ネットワークにより前記画像から前記指の位置情報を特定することができる。状態分岐ネットワークと位置分岐ネットワークにより、画像から指の状態情報と位置情報を高速且つ精確に取得することができる。
可能な一実施形態では、前記ニューラルネットワークは、予めラベル情報を有するサンプル画像を用いてトレーニングされたものであり、前記ラベル情報は、前記指の状態を示す第1のラベル情報、及び/又は、前記指の位置情報又はキーポイントの位置情報を示す第2のラベル情報を含む。
可能な一実施形態では、前記サンプル画像において、伸ばしていない状態の指について第2のラベル情報が付けされない。伸ばしていない状態の指に対して無効の第2のマーク値を設定してもよい。
可能な一実施形態では、前記第1のラベル情報は各指の状態を示す第1のマーク値から構成される状態ベクトルを含み、前記第2のラベル情報は各指の位置情報又はキーポイントの位置情報をマークする第2のマーク値から構成される位置ベクトルを含む。
可能な一実施形態では、前記ニューラルネットワークは、トレーニングモジュールを含み、前記トレーニングモジュールは、手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得するための状態取得サブモジュールと、前記指の状態に基づいて指の位置重みを決定するための位置重み決定サブモジュールと、前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定するための損失決定サブモジュールと、前記ニューラルネットワークに前記損失を逆伝搬して、前記ニューラルネットワークのネットワークパラメータを調整するための逆伝搬サブモジュールと、を備える。
可能な一実施形態では、前記状態取得サブモジュールは、手部のサンプル画像をニューラルネットワークに入力して手部の指の状態と位置情報を取得するために用いられ、前記損失決定サブモジュールは、前記指の状態、前記位置情報及び前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定するために用いられる。
本実施例では、指の状態、位置情報及び位置重みに基づいてニューラルネットワークに逆伝搬することで、指の位置情報における位置座標の値による不利な影響を減少して、トレーニングされたニューラルネットワークをより精確にすることができる。
可能な実施形態では、前記位置重み決定サブモジュールは、指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにするために用いられる。
可能な一実施形態では、指の状態が伸ばしている状態である場合に、前記指の位置重みを非ゼロにし、指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにするようにしてもよい。
図10は本開示の実施例に係るジェスチャー処理装置のブロック図を示す。図10に示すように、前記装置は、画像を取得するための画像取得モジュール1と、上記ジェスチャー認識装置のいずれか一項に記載の装置を用いて前記画像に含まれる手部のジェスチャーを認識するためのジェスチャー取得モジュール2と、ジェスチャーの認識結果に対応する制御操作を実行するための操作実行モジュール3と、を含む。
可能な一実施形態では、撮影装置により所望の画像を撮影してもよく、様々の受信方式により直接に画像を受信してもよい。本開示の実施例のいずれか一項に記載のジェスチャー認識方法により、取得された画像から画像に含まれる手部のジェスチャーを認識するようにしてもよい。画像から認識されたジェスチャーに応じて対応の制御操作を行うようにしてもよい。
可能な一実施形態では、前記操作実行モジュールは、予め設定されたジェスチャーと制御指令とのマッピング関係により、ジェスチャーの認識結果に対応する制御指令を取得するための制御指令取得サブモジュールと、前記制御指令に基づいて電子機器が対応する操作を実行するように制御するための操作実行サブモジュールと、を含む。
本実施例では、ジェスチャーに応じて制御指令を決定でき、必要に応じてジェスチャーと制御指令とのマッピング関係を確立することにより、画像に含まれるジェスチャーに対して豊富な制御指令を決定することができる。制御指令に基づいて電子機器を制御して、車両等の各種の装置を制御するという目的を達成することができる。
可能な一実施形態では、前記操作実行モジュールは、予め設定されたジェスチャーと特殊効果とのマッピング関係により、ジェスチャーの認識結果に対応する特殊効果を特定するための特殊効果特定サブモジュールと、コンピュータグラフィックスにより前記画像に前記特殊効果を作成するための特殊効果実行サブモジュールと、を含む。
可能な一実施形態では、前記特殊効果実行サブモジュールは、前記画像に含まれる手部又は手部の指キーポイントに基づいて、コンピュータグラフィックスにより前記特殊効果を作成するために用いられる。
本実施例では、ジェスチャーに応じてそれに対応する特殊効果を決定し、画像に特殊効果を追加することで、画像の表現力が豊かになる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解され、紙数に限りがあるので、詳細な説明を省略する。
なお、本開示は上記装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、それらのいずれも本開示により提供されたジェスチャー認識方法及びジェスチャー処理方法のいずれか1つのを実現するために用いられ、対応する技術的手段及び説明は、方法についての対応的な記載を参照すればよく、詳細な説明を省略する。
本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法の実施例のいずれかを実現させるコンピュータ読取可能記憶媒体を更に提供する。コンピュータ読取可能記憶媒体は、不揮発性コンピュータ読取可能記憶媒体であってもよく、揮発性コンピュータ読取可能記憶媒体であってもよい。
本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、前記実行可能なコマンドを呼び出すことによって本開示の方法の実施例のいずれかを実現する電子機器を更に提供し、具体的な動作プロセス及び設置形態は本開示の上記の対応方法の実施例についての具体的な説明を参照すればよく、紙数に限りがあるので、詳細な説明を省略する。
本開示の実施例は、コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードは、電子機器において実行されると、前記電子機器のプロセッサに本開示のいずれか1つの方法の実施例を実行させるコンピュータプログラムを更に提供する。
図11は例示的実施例に係る電子機器800のブロック図である。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってもよい。
図11を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、命令を実行して上記方法の全てまたは一部のステップを実行するために、一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出することにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図12は例示的実施例により示された電子機器1900のブロック図である。例えば、電子機器1900はサーバとして提供されてもよい。図12を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークに接続するように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令が有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
コンピュータ読み取り可能記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することににより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。命令が記憶されているコンピュータ読み取り可能記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
論理に違反しない限り、本願の異なる実施例を相互に組み合わせることができ、異なる実施例において重点として説明されるものが異なって、重点として説明されていない部分については他の実施例の記載を参照できる。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (45)

  1. 画像における手部の指の状態を検出することと、
    前記指の状態に基づいて前記手部の状態ベクトルを決定することと、
    前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定することと、を含むことを特徴とするジェスチャー認識方法。
  2. 前記指の状態は、前記指が前記手部の掌の根元部に対して伸ばされているか否か及び/又は伸ばされている度合の状態を示すことを特徴とする請求項1に記載の方法。
  3. 前記指の状態に基づいて前記手部の状態ベクトルを決定することは、
    前記指の状態に基づいて、指の状態ごとに異なる前記指の状態値を決定することと、
    前記指の状態値に基づいて前記手部の状態ベクトルを決定することと、を含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記指の状態は、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態のうちの1つ又は複数を含むことを特徴とする請求項1〜3のいずれか一項に記載の方法。
  5. 前記画像における手部の指の位置情報を検出することと、
    前記指の位置情報に基づいて前記手部の位置ベクトルを決定することと、を更に含み、
    前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定することは、
    前記手部の状態ベクトルと前記手部の位置ベクトルに基づいて前記手部のジェスチャーを特定することを含むことを特徴とする請求項1〜4のいずれか一項に記載の方法。
  6. 前記画像における手部の指の位置情報を検出することは、
    前記画像における前記手部の指のキーポイントを検出し、前記指のキーポイントの位置情報を取得することを含み、
    前記指の位置情報に基づいて前記手部の位置ベクトルを決定することは、
    前記指のキーポイントの位置情報に基づいて前記手部の位置ベクトルを決定することを含むことを特徴とする請求項5に記載の方法。
  7. 前記画像における前記手部の指のキーポイントを検出し、前記指のキーポイントの位置情報を取得することは、
    前記画像における前記手部の、伸ばしていない状態以外の指のキーポイントを検出し、前記キーポイントの位置情報を取得することを含むことを特徴とする請求項6に記載の方法。
  8. 前記キーポイントは指先及び/又は指の関節を含むことを特徴とする請求項7に記載の方法。
  9. 画像における手部の指の状態を検出することは、
    前記画像をニューラルネットワークに入力して、前記ニューラルネットワークにより前記画像における手部の指の状態を検出することを含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
  10. 前記ニューラルネットワークは複数の状態分岐ネットワークを含み、前記ニューラルネットワークにより前記画像における手部の指の状態を検出することは、
    前記ニューラルネットワークの異なる状態分岐ネットワークにより前記画像における手部の異なる指の状態をそれぞれ検出することを含むことを特徴とする請求項9に記載の方法。
  11. 前記ニューラルネットワークは位置分岐ネットワークを更に含み、前記画像における手部の指の位置情報を検出することは、
    前記ニューラルネットワークの前記位置分岐ネットワークにより前記画像における前記手部の指の位置情報を検出することを含むことを特徴とする請求項9又は10に記載の方法。
  12. 前記ニューラルネットワークは、予めラベル情報を有するサンプル画像を用いてトレーニングされたものであり、前記ラベル情報は、前記指の状態を示す第1のラベル情報、及び/又は、前記指の位置情報又はキーポイントの位置情報を示す第2のラベル情報を含むことを特徴とする請求項9〜11のいずれか一項に記載の方法。
  13. 前記サンプル画像において、伸ばしていない状態の指について第2のラベル情報が付けされないことを特徴とする請求項12に記載の方法。
  14. 前記第1のラベル情報は各指の状態を示す第1のマーク値から構成される状態ベクトルを含み、
    前記第2のラベル情報は各指の位置情報又はキーポイントの位置情報をマークする第2のマーク値から構成される位置ベクトルを含むことを特徴とする請求項12又は13に記載の方法。
  15. 前記ニューラルネットワークのトレーニングには、
    手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得することと、
    前記指の状態に基づいて指の位置重みを決定することと、
    前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定することと、
    前記ニューラルネットワークに前記損失を逆伝搬して、前記ニューラルネットワークのネットワークパラメータを調整することと、を含むことを特徴とする請求項9〜14のいずれか一項に記載の方法。
  16. 手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得することは、
    手部のサンプル画像をニューラルネットワークに入力して手部の指の状態と位置情報を取得することを含み、
    前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定することは、
    前記指の状態、前記位置情報及び前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定することを含むことを特徴とする請求項15に記載の方法。
  17. 前記指の状態に基づいて前記指の位置重みを決定することは、
    指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにすることを含むことを特徴とする請求項15又は16に記載の方法。
  18. 画像を取得することと、
    請求項1〜17のいずれか一項に記載の方法を用いて前記画像に含まれる手部のジェスチャーを認識することと、
    ジェスチャーの認識結果に対応する制御操作を実行することと、を含むことを特徴とするジェスチャー処理方法。
  19. ジェスチャーの認識結果に対応する操作制御を実行することは、
    予め設定されたジェスチャーと制御指令とのマッピング関係により、ジェスチャーの認識結果に対応する制御指令を取得することと、
    前記制御指令に基づいて、電子機器が対応する操作を実行するように制御することと、を含むことを特徴とする請求項18に記載の方法。
  20. ジェスチャーの認識結果に対応する操作制御を実行することは、
    予め設定されたジェスチャーと特殊効果とのマッピング関係により、ジェスチャーの認識結果に対応する特殊効果を特定することと、
    コンピュータグラフィックスにより前記画像に前記特殊効果を作成することと、を含むことを特徴とする請求項18に記載の方法。
  21. コンピュータグラフィックスにより前記画像に前記特殊効果を作成することは、
    前記画像に含まれる手部又は手部の指のキーポイントに基づいて、コンピュータグラフィックスにより前記特殊効果を作成することを含むことを特徴とする請求項20に記載の方法。
  22. 画像における手部の指の状態を検出するための状態検出モジュールと、
    前記指の状態に基づいて前記手部の状態ベクトルを決定するための状態ベクトル取得モジュールと、
    前記手部の状態ベクトルに基づいて前記手部のジェスチャーを特定するためのジェスチャー特定モジュールと、を含むことを特徴とするジェスチャー認識装置。
  23. 前記指の状態は、前記指が前記手部の掌の根元部に対して伸ばされているか否か及び/又は伸ばされている度合の状態を示すことを特徴とする請求項22に記載の装置。
  24. 前記状態ベクトル取得モジュールは、
    前記指の状態に基づいて、指の状態ごとに異なる前記指の状態値を決定するための状態値取得サブモジュールと、
    前記指の状態値に基づいて前記手部の状態ベクトルを決定するための第1の状態ベクトル取得サブモジュールと、を含むことを特徴とする請求項22又は23に記載の装置。
  25. 前記指の状態は、伸ばしている状態、伸ばしていない状態、半分伸ばしている状態、曲がっている状態のうちの1つ又は複数を含むことを特徴とする請求項22〜24のいずれか一項に記載の装置。
  26. 前記画像における手部の指の位置情報を検出するための位置情報取得モジュールと、
    前記指の位置情報に基づいて前記手部の位置ベクトルを決定するための位置ベクトル取得モジュールと、を更に含み、
    前記ジェスチャー特定モジュールは、
    前記手部の状態ベクトルと前記手部の位置ベクトルに基づいて前記手部のジェスチャーを特定するための第1のジェスチャー特定サブモジュールを含むことを特徴とする請求項22〜25のいずれか一項に記載の装置。
  27. 前記位置情報取得モジュールは、
    前記画像における前記手部の指のキーポイントを検出し、前記指のキーポイントの位置情報を取得するためのキーポイント検出サブモジュールを含み、
    前記位置ベクトル取得モジュールは、
    前記指のキーポイントの位置情報に基づいて前記手部の位置ベクトルを決定するための第1の位置ベクトル取得サブモジュールを含むことを特徴とする請求項26に記載の装置。
  28. 前記キーポイント検出サブモジュールは、
    前記画像における前記手部の、伸ばしていない状態以外の指のキーポイントを検出し、前記キーポイントの位置情報を取得するために用いられることを特徴とする請求項27に記載の装置。
  29. 前記キーポイントは指先及び/又は指の関節を含むことを特徴とする請求項28に記載の装置。
  30. 前記状態検出モジュールは、
    前記画像をニューラルネットワークに入力して、前記ニューラルネットワークにより前記画像における手部の指の状態を検出するための第1の状態検出サブモジュールを含むことを特徴とする請求項22〜29のいずれか一項に記載の方法。
  31. 前記ニューラルネットワークは複数の状態分岐ネットワークを含み、前記第1の状態検出サブモジュールは、
    前記ニューラルネットワークの異なる状態分岐ネットワークにより前記画像における手部の異なる指の状態をそれぞれ検出するために用いられることを特徴とする請求項30に記載の装置。
  32. 前記ニューラルネットワークは位置分岐ネットワークを更に含み、前記位置情報取得モジュールは、
    前記ニューラルネットワークの前記位置分岐ネットワークにより前記画像における前記手部の指の位置情報を検出するための第1の位置情報取得サブモジュールを含むことを特徴とする請求項30又は31に記載の装置。
  33. 前記ニューラルネットワークは、予めラベル情報を有するサンプル画像を用いてトレーニングされたものであり、前記ラベル情報は、前記指の状態を示す第1のラベル情報、及び/又は、前記指の位置情報又はキーポイントの位置情報を示す第2のラベル情報を含むことを特徴とする請求項30〜32のいずれか一項に記載の装置。
  34. 前記サンプル画像において、伸ばしていない状態の指について第2のラベル情報が付けされないことを特徴とする請求項33に記載の装置。
  35. 前記第1のラベル情報は各指の状態を示す第1のマーク値から構成される状態ベクトルを含み、
    前記第2のラベル情報は各指の位置情報又はキーポイントの位置情報をマークする第2のマーク値から構成される位置ベクトルを含むことを特徴とする請求項33又は34に記載の装置。
  36. 前記ニューラルネットワークは、トレーニングモジュールを含み、前記トレーニングモジュールは、
    手部のサンプル画像をニューラルネットワークに入力して手部の指の状態を取得するための状態取得サブモジュールと、
    前記指の状態に基づいて指の位置重みを決定するための位置重み決定サブモジュールと、
    前記指の状態と前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定するための損失決定サブモジュールと、
    前記ニューラルネットワークに前記損失を逆伝搬して、前記ニューラルネットワークのネットワークパラメータを調整するための逆伝搬サブモジュールと、を備えることを特徴とする請求項30〜35のいずれか一項に記載の装置。
  37. 前記状態取得サブモジュールは、
    手部のサンプル画像をニューラルネットワークに入力して手部の指の状態と位置情報を取得するために用いられ、
    前記損失決定サブモジュールは、
    前記指の状態、前記位置情報及び前記位置重みに基づいて、前記ニューラルネットワークによるジェスチャー予測結果の損失を決定するために用いられることを特徴とする請求項36に記載の装置。
  38. 前記位置重み決定サブモジュールは、
    指の状態が伸ばしていない状態である場合に、前記指の位置重みをゼロにするために用いられることを特徴とする請求項36又は37に記載の装置。
  39. 画像を取得するための画像取得モジュールと、
    請求項22〜38のいずれか一項に記載の装置を用いて前記画像に含まれる手部のジェスチャーを認識するためのジェスチャー取得モジュールと、
    ジェスチャーの認識結果に対応する制御操作を実行するための操作実行モジュールと、を含むことを特徴とするジェスチャー処理装置。
  40. 前記操作実行モジュールは、
    予め設定されたジェスチャーと制御指令とのマッピング関係により、ジェスチャーの認識結果に対応する制御指令を取得するための制御指令取得サブモジュールと、
    前記制御指令に基づいて、電子機器が対応する操作を実行するように制御するための操作実行サブモジュールと、を含むことを特徴とする請求項39に記載の装置。
  41. 前記操作実行モジュールは、
    予め設定されたジェスチャーと特殊効果とのマッピング関係により、ジェスチャーの認識結果に対応する特殊効果を特定するための特殊効果特定サブモジュールと、
    コンピュータグラフィックスにより前記画像に前記特殊効果を作成するための特殊効果実行サブモジュールと、を含むことを特徴とする請求項39に記載の装置。
  42. 前記特殊効果実行サブモジュールは、
    前記画像に含まれる手部又は手部の指キーポイントに基づいて、コンピュータグラフィックスにより前記特殊効果を作成するために用いられることを特徴とする請求項41に記載の装置。
  43. プロセッサと、
    プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
    前記プロセッサは前記実行可能なコマンドを呼び出すことによって請求項1〜21のいずれか一項に記載の方法を実現することを特徴とする電子機器。
  44. コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、請求項1〜21のいずれか一項に記載の方法を実現させることを特徴とするコンピュータ読取可能記憶媒体。
  45. コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードは、電子機器で実行されると、前記電子機器のプロセッサに請求項1〜21のいずれか一項に記載の方法を実現するためのコマンドを実行させることを特徴とするコンピュータプログラム。
JP2021506277A 2018-08-17 2019-06-24 ジェスチャー認識方法、ジェスチャー処理方法及び装置 Active JP7266667B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810942882.1 2018-08-17
CN201810942882.1A CN110837766B (zh) 2018-08-17 2018-08-17 手势识别方法、手势处理方法及装置
PCT/CN2019/092559 WO2020034763A1 (zh) 2018-08-17 2019-06-24 手势识别方法、手势处理方法及装置

Publications (2)

Publication Number Publication Date
JP2021534482A true JP2021534482A (ja) 2021-12-09
JP7266667B2 JP7266667B2 (ja) 2023-04-28

Family

ID=69525088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506277A Active JP7266667B2 (ja) 2018-08-17 2019-06-24 ジェスチャー認識方法、ジェスチャー処理方法及び装置

Country Status (6)

Country Link
US (1) US20210158031A1 (ja)
JP (1) JP7266667B2 (ja)
KR (1) KR20210040435A (ja)
CN (1) CN110837766B (ja)
SG (1) SG11202101142PA (ja)
WO (1) WO2020034763A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527113A (zh) * 2020-12-09 2021-03-19 北京地平线信息技术有限公司 手势识别及手势识别网络的训练方法和装置、介质和设备
CN112947755A (zh) * 2021-02-24 2021-06-11 Oppo广东移动通信有限公司 手势控制方法与装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008530661A (ja) * 2005-02-08 2008-08-07 オブロング・インダストリーズ・インコーポレーテッド ジェスチャベースの制御システムのためのシステムおよび方法
JP2014182662A (ja) * 2013-03-19 2014-09-29 Stanley Electric Co Ltd 操作装置及び操作方法
CN105868715A (zh) * 2016-03-29 2016-08-17 苏州科达科技股份有限公司 一种手势识别方法、装置及手势学习系统
CN108229277A (zh) * 2017-03-31 2018-06-29 北京市商汤科技开发有限公司 手势识别、控制及神经网络训练方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577062B (zh) * 2008-12-30 2012-07-25 浙江工业大学 一种基于空间编码的手语运动信息与文本信息相互转换的实现方法
CN102368290B (zh) * 2011-09-02 2012-12-26 华南理工大学 一种基于手指高级特征的手势识别方法
JP6494926B2 (ja) * 2014-05-28 2019-04-03 京セラ株式会社 携帯端末、ジェスチャ制御プログラムおよびジェスチャ制御方法
CN106295612A (zh) * 2016-08-23 2017-01-04 广西科技大学 一种手部康复训练中手指运动的视觉监测方法
CN106709461B (zh) * 2016-12-28 2019-09-17 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN108230352B (zh) * 2017-01-24 2021-02-26 北京市商汤科技开发有限公司 目标对象的检测方法、装置和电子设备
CN107563494B (zh) * 2017-08-01 2020-08-18 华南理工大学 一种基于卷积神经网络和热图的第一视角指尖检测方法
CN107808143B (zh) * 2017-11-10 2021-06-01 西安电子科技大学 基于计算机视觉的动态手势识别方法
CN108227912B (zh) * 2017-11-30 2021-05-11 北京市商汤科技开发有限公司 设备控制方法和装置、电子设备、计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008530661A (ja) * 2005-02-08 2008-08-07 オブロング・インダストリーズ・インコーポレーテッド ジェスチャベースの制御システムのためのシステムおよび方法
JP2014182662A (ja) * 2013-03-19 2014-09-29 Stanley Electric Co Ltd 操作装置及び操作方法
CN105868715A (zh) * 2016-03-29 2016-08-17 苏州科达科技股份有限公司 一种手势识别方法、装置及手势学习系统
CN108229277A (zh) * 2017-03-31 2018-06-29 北京市商汤科技开发有限公司 手势识别、控制及神经网络训练方法、装置及电子设备

Also Published As

Publication number Publication date
SG11202101142PA (en) 2021-03-30
CN110837766B (zh) 2023-05-05
KR20210040435A (ko) 2021-04-13
US20210158031A1 (en) 2021-05-27
CN110837766A (zh) 2020-02-25
JP7266667B2 (ja) 2023-04-28
WO2020034763A1 (zh) 2020-02-20

Similar Documents

Publication Publication Date Title
JP6944051B2 (ja) キーポイント検出方法及び装置、電子機器並びに記憶媒体
CN110348524B (zh) 一种人体关键点检测方法及装置、电子设备和存储介质
WO2021135601A1 (zh) 辅助拍照方法、装置、终端设备及存储介质
US11383166B2 (en) Interaction method of application scene, mobile terminal, and storage medium
JP2022524262A (ja) 目標対象物の検出方法、目標対象物の検出装置、電子機器、記憶媒体及びコンピュータプログラム
KR20220053670A (ko) 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
CN110991327A (zh) 交互方法及装置、电子设备和存储介质
CN105320262A (zh) 操作虚拟世界里的电脑和手机的方法、装置以及使用其的眼镜
KR102321562B1 (ko) 동적 동작 검출 방법, 동적 동작 제어 방법 및 장치
CN110889382A (zh) 虚拟形象渲染方法及装置、电子设备和存储介质
JP2021531589A (ja) 目標対象の動作認識方法、装置及び電子機器
US20190384419A1 (en) Handheld controller, tracking method and system using the same
JP2022506637A (ja) 画像処理方法および装置、ネットワークトレーニング方法および装置
US20210158031A1 (en) Gesture Recognition Method, and Electronic Device and Storage Medium
CN112540696A (zh) 屏幕触控管理方法、智能终端、装置及可读存储介质
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN110929616B (zh) 一种人手识别方法、装置、电子设备和存储介质
WO2022111458A1 (zh) 图像拍摄方法和装置、电子设备及存储介质
JP2023511156A (ja) 撮影方法及び電子機器
CN110135329B (zh) 从视频中提取姿势的方法、装置、设备及存储介质
CN113642551A (zh) 指甲关键点检测方法、装置、电子设备及存储介质
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN114821799A (zh) 基于时空图卷积网络的动作识别方法、装置和设备
CN114266305A (zh) 对象识别方法及装置、电子设备和存储介质
CN117555412A (zh) 交互方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230208

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230208

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230228

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230418

R150 Certificate of patent or registration of utility model

Ref document number: 7266667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150