JP2024508102A - ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体 - Google Patents
ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2024508102A JP2024508102A JP2023544411A JP2023544411A JP2024508102A JP 2024508102 A JP2024508102 A JP 2024508102A JP 2023544411 A JP2023544411 A JP 2023544411A JP 2023544411 A JP2023544411 A JP 2023544411A JP 2024508102 A JP2024508102 A JP 2024508102A
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- target
- information
- interaction
- depth image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 27
- 210000000707 wrist Anatomy 0.000 claims description 12
- 238000009966 trimming Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 26
- 210000003811 finger Anatomy 0.000 description 144
- 238000012545 processing Methods 0.000 description 26
- 238000001514 detection method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 210000001145 finger joint Anatomy 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 210000003857 wrist joint Anatomy 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004932 little finger Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本開示は、ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体に関する。上記ジェスチャーインタラクション方法は、ジェスチャーが含まれる深度画像を取得することと、前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることと、前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定することと、を含む。【選択図】図1
Description
本開示は、2021年6月30日に中国特許庁に提出された、出願番号202110738953.8、発明の名称「ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示は、画像処理の技術分野に関し、特にジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体に関する。
ジェスチャーインタラクションは、コンピュータビジョンに基づく重要なインタラクション方式であり、ユーザがジェスチャーによって命令を発行して各種の機器とのインタラクションを実現し、ユーザ体験を向上させることができる。
本開示は、ジェスチャーインタラクション技術を提供する。
本開示の一方面によれば、ジェスチャーが含まれる深度画像を取得することと、前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることと、前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定することと、を含むジェスチャーインタラクション方法を提供する。
可能な一実施形態では、前記した、前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることは、前記深度画像に基づいて手のキーポイントの位置決めを行って手部キーポイントの情報を得ることと、前記深度画像に対してジェスチャー分類を行って、前記目標ジェスチャーを得ることと、前記目標ジェスチャーに対応する目標手部キーポイントを特定することと、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して、前記目標ジェスチャーの向き情報を得ることと、を含む。
可能な一実施形態では、前記目標ジェスチャーは、一部の指が伸ばし状態にある指ジェスチャー及び/又は全ての指が伸ばし状態にある掌ジェスチャーを含み、前記した、前記目標ジェスチャーに対応する目標手部キーポイントを特定することは、前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、伸ばし状態にある少なくとも1本の指のキーポイントを含むこと、及び/又は前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、各指と掌との接続位置のキーポイントを含むこと、を含む。
可能な一実施形態では、前記目標手部キーポイントは、手首のキーポイントをさらに含む。
可能な一実施形態では、前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、前記した、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出することは、前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記指ジェスチャーにおいて伸ばし状態にある少なくとも1本の目標指の、少なくとも2つの目標手部キーポイントの3次元位置に基づいて、前記目標指の向き情報を、前記目標ジェスチャーの向き情報として特定することを含む。
可能な一実施形態では、前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、前記した、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出することは、前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記掌ジェスチャーにおける少なくとも3つの目標手部キーポイントの3次元位置に基づいて、前記掌ジェスチャーにおいて掌が位置する平面の向き情報を、前記目標ジェスチャーの向き情報として特定することを含む。
可能な一実施形態では、前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、前記深度画像を第1のニューラルネットワークに入力して、前記第1のニューラルネットワークから出力される手部キーポイントの情報及び前記目標ジェスチャーを得ることと、前記目標ジェスチャーに対応する目標手部キーポイントを特定することと、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して、前記目標ジェスチャーの向き情報を得ることと、を含む。
可能な一実施形態では、上記方法は、前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得る前に、前記深度画像を第2のニューラルネットワークに入力して、前記深度画像における前記ジェスチャーの位置を示す位置情報を特定することと、前記位置情報に基づいて前記深度画像をトリミングして、トリミングされた深度画像を得ることと、をさらに含み、前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、前記トリミングされた深度画像に基づいてジェスチャーを認識して前記ジェスチャー認識結果を得ることを含む。
可能な一実施形態では、前記した、前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定することは、前記3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、前記向き情報が示す方向におけるインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとして特定することを含む。
可能な一実施形態では、前記した、前記3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、前記向き情報が示す方向におけるインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとして特定することは、前記3次元空間に基づいて構築された3次元空間座標系において、少なくとも1つのインタラクション用のオブジェクトの位置する平面の平面情報を、前記空間情報として取得することと、前記3次元空間座標系において前記向き情報に対応する3次元直線の情報を特定することと、前記3次元直線の情報との共通部分を持つ平面情報に対応するインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとすることと、を含む。
可能な一実施形態では、前記3次元空間は車室空間を含み、前記目標インタラクションオブジェクトは前記車室空間内の1つ又は複数のオブジェクトを含む。
本開示の一方面によれば、ジェスチャーが含まれる深度画像を取得する画像取得モジュールと、前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得るジェスチャー認識モジュールと、前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定するオブジェクト特定モジュールと、を含むジェスチャーインタラクション装置を提供する。
可能な一実施形態では、前記ジェスチャー認識モジュールは、前記深度画像に基づいて手のキーポイントの位置決めを行って手部キーポイントの情報を得、前記深度画像に対してジェスチャー分類を行って前記目標ジェスチャーを得、前記目標ジェスチャーに対応する目標手部キーポイントを特定し、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して前記目標ジェスチャーの向き情報を得るために用いられる。
可能な一実施形態では、前記目標ジェスチャーは、一部の指が伸ばし状態にある指ジェスチャー及び/又は全ての指が伸ばし状態にある掌ジェスチャーを含み、前記ジェスチャー認識モジュールはさらに、前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、伸ばし状態にある少なくとも1本の指のキーポイントを含み、及び/又は、前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、各指と掌との接続位置のキーポイントを含むために用いられる。
可能な一実施形態では、前記目標手部キーポイントは、手首のキーポイントをさらに含む。
可能な一実施形態では、前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、前記ジェスチャー認識モジュールはさらに、前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記指ジェスチャーにおいて伸ばし状態にある少なくとも1本の目標指の、少なくとも2つの目標手部キーポイントの3次元位置に基づいて、前記目標指の向き情報を、前記目標ジェスチャーの向き情報として特定するために用いられる。
可能な一実施形態では、前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、前記ジェスチャー認識モジュールはさらに、前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記掌ジェスチャーにおける少なくとも3つの目標手部キーポイントの3次元位置に基づいて、前記掌ジェスチャーにおいて掌が位置する平面の向き情報を、前記目標ジェスチャーの向き情報として特定するために用いられる。
可能な一実施形態では、前記ジェスチャー認識モジュールは、前記深度画像を第1のニューラルネットワークに入力して、前記第1のニューラルネットワークから出力される手部キーポイントの情報及び前記目標ジェスチャーを得、前記目標ジェスチャーに対応する目標手部キーポイントを特定し、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して前記目標ジェスチャーの向き情報を得るために用いられる。
可能な一実施形態では、前記ジェスチャー認識モジュールによる動作の前に、前記装置はさらに、前記深度画像を第2のニューラルネットワークに入力して、前記深度画像における前記ジェスチャーの位置を示す位置情報を特定し、前記位置情報に基づいて前記深度画像をトリミングして、トリミングされた深度画像を得るために用いられ、前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、前記トリミングされた深度画像に基づいてジェスチャーを認識して、前記ジェスチャー認識結果を得ることを含む。
可能な一実施形態では、前記オブジェクト特定モジュールは、前記3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、前記向き情報が示す方向におけるインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとして特定するために用いられる。
可能な一実施形態では、前記オブジェクト特定モジュールはさらに、前記3次元空間に基づいて構築された3次元空間座標系において、少なくとも1つのインタラクション用のオブジェクトの位置する平面の平面情報を、前記空間情報として取得し、前記3次元空間座標系において前記向き情報に対応する3次元直線の情報を特定し、前記3次元直線の情報との共通部分を持つ平面情報に対応するインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとするために用いられる。
可能な一実施形態では、前記3次元空間は車室空間を含み、前記目標インタラクションオブジェクトは前記車室空間内の1つ又は複数のオブジェクトを含む。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサが、前記メモリに記憶された命令を呼び出して、上記ジェスチャーインタラクション方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、上記ジェスチャーインタラクション方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサが上記方法を実現させるための命令を実行するコンピュータプログラムを提供する。
本開示の実施例では、ジェスチャーが含まれる深度画像を取得し、深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることによって、向き情報に基づいて、3次元空間において目標ジェスチャーが指す目標インタラクションオブジェクトを特定する。本開示の実施例によれば、深度画像の深度情報を利用して目標ジェスチャー及び3次元空間における目標ジェスチャーの向き情報を特定し、3次元空間における物体との実質的なインタラクションを実現することができ、ジェスチャーインタラクションの交互性及び多様性を向上させることができる。
以上の一般な説明と以下の詳細な説明は、例示的や解釈的なものに過ぎず、本開示を制限するものではないと理解すべきである。
以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴および方面は明確になる。
明細書の一部として含まれる図面は、本開示の実施例を示し、明細書と共に本開示の技術的手段を説明するものである。
本開示の実施例に係るジェスチャーインタラクション方法を示すフローチャートである。
本開示の実施例に係る指ジェスチャーを示す概念図である。
本開示の実施例に係る掌ジェスチャーを示す概念図である。
本開示の実施例に係るジェスチャーインタラクション方法を示すフローチャートである。
本開示の実施例に係る手部キーポイントを示す概念図である。
本開示の実施例に係るジェスチャーインタラクション装置を示すブロック図である。
本開示の一応用例を示す概念図である。
本開示の実施例に係る電子機器800を示すブロック図である。
本開示の実施例に係る電子機器1900を示すブロック図である。
以下、図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面において、同じ符号は、機能が同じまたは類似する要素を表す。図面において実施例の様々な態様を示したが、特に明記されていない限り、図面は、必ずしも原寸に比例しているとは限らない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は、必ずしも他の実施例より好ましい又は優れたものであると解釈されるとは限らない。
本明細書において、用語の「及び/又は」は、関連対象の関連関係を記述するのものに過ぎず、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBが同時に存在し、Bのみが存在するという3つの場合を示すことができる。また、本明細書において、用語の「少なくとも1つ」は複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B及びCのうちの少なくとも1つを含むということは、A、B及びCで構成される集合から選択されたいずれか1つ又は複数の要素を含むことを示すことができる。
また、本開示をより良く説明するために、以下の具体的な実施形態には多くの具体的な細部が示されている。当業者であれば、何らかの具体的な細部がなくても、本開示は同様に実施できることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者によく知られている方法、手段、素子および回路について、詳細な説明を行わない。
図1は、本開示の一実施例に係るジェスチャーインタラクション方法を示すフローチャートである。該方法は、ジェスチャーインタラクション装置に適用可能である。ジェスチャーインタラクション装置として、端末装置、サーバ又は他の処理装置などが挙げられる。端末装置として、ユーザ機器(User Equipment,UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant,PDA)、手持ち装置、計算装置、車載装置、ウェアラブル装置などが挙げられる。
いくつかの可能な実施形態では、該ジェスチャーインタラクション方法は、プロセッサがメモリに記憶されているコンピュータ読み取り可能な命令を呼び出すことにより実施してもよい。
図1に示すように、可能な一実施形態では、前記ジェスチャーインタラクション方法は、ステップS11~ステップS13を含む。
ステップS11において、ジェスチャーが含まれる深度画像を取得する。
ジェスチャーは、インタラクションを実現するために作り出される任意のジェスチャーであってもよい。例えば、勝利(V)のジェスチャーやOKのジェスチャーなどの静的ジェスチャー、又は人差し指の周回や指のクリックなどの動的ジェスチャーなどが挙げられる。
ジェスチャーが含まれる深度画像における各画素点の画素値は、各画素点とキャプチャデバイスとの距離(深度情報)に基づいて特定することができる。キャプチャデバイスは、深度画像をキャプチャするためのものであってもよい。深度画像は、画像中のジェスチャー可視表面の幾何形状を反映することができる。
本開示の実施例では、ジェスチャーが含まれる深度画像を取得する方法は限定されない。いくつかの可能な実施形態では、キャプチャデバイスから深度画像を直接取得してもよい。キャプチャデバイスは、ジェスチャーに対して画像キャプチャを行い、かつジェスチャーと同一の空間にある例えばステレオカメラ又はTOF(Time of Flight)カメラなどの任意の装置であってもよい。該キャプチャデバイスは、ジェスチャーインタラクション装置に備えられるものであってもよい。いくつかの可能な実施形態では、ジェスチャーインタラクション装置とは別体のものであってもよい。この場合、ジェスチャーインタラクション装置は、キャプチャデバイスから深度画像を読み取ることができる。
本開示の実施例では、取得された深度画像の数は限定されず、1枚でもよく複数枚でもよい。複数枚の深度画像を取得する場合に、複数枚の深度画像に含まれるジェスチャーに基づいて全体的な動的ジェスチャーを特定することができる。
ステップS12において、深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び目標ジェスチャーの向き情報を含むジェスチャー認識結果を得る。
ジェスチャー認識は、ジェスチャー分類と向き検出とを含んでいてもよい。ジェスチャー分類によって、認識された目標ジェスチャーを特定することができる。目標ジェスチャーに含まれるジェスチャー種別は、実際の状況に応じて柔軟に設定すればよく、以下の各開示の実施例に限定されない。可能な一実施形態では、目標ジェスチャーは、指ジェスチャー及び/又は掌ジェスチャーを含んでいてもよい。
指ジェスチャーは、一部の指が伸ばし状態にある1種又は複数種のジェスチャーを含んでいてもよい。いくつかの可能な実施形態では、指ジェスチャーは、1本の指が伸ばしているジェスチャー、例えば人差し指、小指又は親指など何れか1本の指の指差しジェスチャーであってもよい。いくつかの可能な実施形態では、指ジェスチャーは、複数本の指が伸ばしているジェスチャー、例えば人差し指及び中指が伸ばしている勝利のジェスチャー、又は中指、薬指及び小指が伸ばしているOKのジェスチャーなどであってもよい。
図2は、本開示の一実施例に係る指ジェスチャーを示す概念図である。図2に示すように、一例では、指ジェスチャーは、人差し指が伸ばし状態にある人差し指ジェスチャーを含む。
掌ジェスチャーは、全ての指が伸ばし状態にあるジェスチャーを含んでいてもよい。いくつかの可能な実施形態では、掌ジェスチャーの全ての指の伸ばし程度は同じでもよく、異なっていてもよい。掌ジェスチャーにおいて異なる指は互いに近接してもよく、距離をおいてもよい。
図3は、本開示の一実施例に係る掌ジェスチャーを示す概念図である。図3に示すように、一例では、掌ジェスチャーは、5本の指が離れておりかつ全て伸ばし状態にある掌ジェスチャーを含む。
ジェスチャー分類の方法は、実際の状況に応じて柔軟に決めればよい。例えば、目標ジェスチャーを特定するために、関連するニューラルネットワーク又は分類アルゴリズムなどによって深度画像を処理してもよい。詳細な説明は、以下の各開示の実施例を参照すればよく、ここでは省略する。
向き検出によって、目標ジェスチャーの向き情報を特定することができる。向き情報は、目標ジェスチャーによって柔軟に変化可能であり、例えば、目標ジェスチャーの一部の指の向きであってもよく、掌の位置する平面の方向や掌の位置する平面の法線ベクトル、又は指と掌の位置する平面との両方に基づいて特定された向きなどであってもよい。
向き検出の方法は同様に、実際の状況に応じて柔軟に決めればよい。いくつかの可能な実施形態では、向き検出の方法は、目標ジェスチャーの種別によって変化可能である。詳細な説明は、同様に以下の各開示の実施例を参照すればよく、ここでは省略する。
ステップS13において、向き情報に基づいて、3次元空間において目標ジェスチャーが指す目標インタラクションオブジェクトを特定する。
3次元空間は、目標ジェスチャーが位置する3次元空間であってもよい。該3次元空間は、現実のシーン内の空間であってもよく、仮想的に構築された3次元シーン内の空間などであってもよい。可能な一実施形態では、本開示の実施例に係る方法は、車室インタラクションのインテリジェント分野に用いられることができる。この場合に、該3次元空間は、車室空間、例えば自動車、貨車又はバスなど種々の現実の3次元車室空間を含んでいてもよい。
目標インタラクションオブジェクトは、3次元空間内の1つ又は複数のインタラクションが選択可能なオブジェクトであってもよい。該オブジェクトは、3次元空間内の物体オブジェクトであってもよく、3次元空間内の人物又は動物オブジェクトなどであってもよい。いくつかの可能な実施形態では、3次元空間が車室空間を含む場合に、目標インタラクションオブジェクトは、車室空間内の1つ又は複数のオブジェクトを含んでいてもよい。例えば、車室内のサンルーフ、車載インフォテインメントスクリーン又は車の窓など車室に固定されている物体オブジェクトを含んでいてもよく、車室内に置かれる携帯電話など車室内での位置が一定でない物体オブジェクトを含んでいてもよく、運転者、運転助手又は後部座席乗員など車室内の人物オブジェクトなどを含んでいてもよい。
3次元空間が車室空間を含む場合に、キャプチャデバイスは車室空間内に固定されていてもよい。例えば、キャプチャデバイスは、車内に配置されている車載カメラ又はカメラヘッドなどであってもよい。いくつかの可能な実施形態では、キャプチャデバイスは、車室内に置かれる非固定装置、例えば運転台又は後部座席に置かれるカメラ又はカメラヘッドなどであってもよい。
3次元空間及び目標インタラクションオブジェクトの種別によって、ステップS13の実施形態は柔軟に変化可能である。詳細な説明は、以下の各開示の実施例を参照すればよく、ここでは省略する。
本開示の実施例では、ジェスチャーが含まれる深度画像を取得し、深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることによって、向き情報に基づいて、3次元空間において目標ジェスチャーが指す目標インタラクションオブジェクトを特定する。本開示の実施例によれば、深度画像の深度情報を利用して目標ジェスチャー及び3次元空間における目標ジェスチャーの向き情報を特定し、3次元空間における物体との実質的なインタラクションを実現することができ、ジェスチャーインタラクションの交互性及び多様性を向上させることができる。
図4は、本開示の一実施例に係るジェスチャーインタラクション方法を示すフローチャートである。図4に示すように、可能な一実施形態では、ステップS12は、深度画像に基づいて手のキーポイントの位置決めを行って手部キーポイントの情報を得るステップS121と、深度画像に対してジェスチャー分類を行って、目標ジェスチャーを得るステップS122と、目標ジェスチャーに対応する目標手部キーポイントを特定するステップS123と、目標手部キーポイントの情報に基づいて目標ジェスチャーの向きを検出して、目標ジェスチャーの向き情報を得るステップS124と、を含む。
ステップS121では、手部キーポイントに含まれるキーポイントの数及び種別のいずれも、実際の状況に応じて柔軟に決めればよく、以下の各開示の実施例に限定されない。いくつかの可能な実施形態では、手部キーポイントの数は2~30個などであってもよい。これらの手部キーポイントは、異なる指の1つ又は複数の指関節、掌の表面、指と掌との接続位置又は手首などに位置する。
図5は、本開示の一実施例に係る手部キーポイントを示す概念図である。図5に示すように、一例では、得られた手部キーポイントは21個あり、指と掌との接続位置の5つの手部キーポイント、手首の2つのキーポイント、親指の関節の2つのキーポイント及び他の4本の指(人差し指、中指、薬指、小指)の関節の12個のキーポイント(1本の指の関節に対応する3つある)を含む。
手部キーポイントの情報は、手部キーポイントの3次元位置を含んでいてもよい。可能な一実施形態では、該3次元位置は、深度画像における手部キーポイントの2次元座標及び対応する深度情報の両方に基づいて特定してもよい。例えば、手のキーポイントの位置決めによって、深度画像における手部キーポイントの2次元座標(dx,yx)を特定し、深度画像における手部キーポイントに対応する深度情報depthを参照し、キャプチャデバイスの内部パラメータマトリックスと焦点距離情報などを利用して、キャプチャデバイスの座標系における手部キーポイントの3次元空間位置情報(x,y,z)を手部キーポイントの3次元位置として算出する。
手のキーポイントの位置決めの方法は、実際の状況に応じて柔軟に選択すればよく、以下の各開示の実施例に限定されない。可能な一実施形態では、手のキーポイントの位置決めを実現するために、キーポイント認識機能を有する任意のニューラルネットワーク又はキーポイント検出の関連アルゴリズムによって深度画像を処理してもよい。
ステップS122のいくつかの可能な実施形態は、実際の状況に応じて柔軟に決めればよく、ここでは重複説明を省略する。
ステップS123では、目標手部キーポイントは、目標ジェスチャーの向きを特定するための1つ又は複数の手部キーポイントであってもよい。目標手部キーポイントの選択根拠は、実際の状況に応じて柔軟に設定すればよく、以下の各開示の実施例に限定されない。
可能な一実施形態では、目標ジェスチャーが指ジェスチャーを含む場合に、対応する目標手部キーポイントは、伸ばし状態にある少なくとも1本の指のキーポイントを含む。
上述した開示の実施例に記載されているように、指ジェスチャーは、1本又は複数本の伸ばしている指を含んでいてもよい。1本の伸ばしている指を含む場合に、該1本の指の1つ又は複数のキーポイントを目標手部キーポイントとすることができる。複数本の伸ばしている指を含む場合に、複数本の伸ばしている指の1つ又は複数のキーポイントを全て目標手部キーポイントとしてもよいし、伸ばしている複数の指のうちの一部の指の1つ又は複数のキーポイントを目標手部キーポイントとしてもよい。
可能な一実施形態では、目標ジェスチャーが掌ジェスチャーを含む場合に、対応する目標手部キーポイントは、各指と掌との接続位置のキーポイントを含む。
各指と掌との接続位置のキーポイントは、5本の指のそれぞれと掌との接続位置の5つのキーポイントであってもよく、一部の指と掌との接続位置の1~4つのキーポイントであってもよく、実際の状況に応じて柔軟に選択すればよく、本開示の実施例において限定されない。
いくつかの可能な実施形態では、目標手部キーポイントは手首のキーポイントをさらに含んでいてもよい。例えば、手首の1つ又は複数のキーポイントを目標手部キーポイントとして選択してもよい。選択された手首のキーポイントは、目標ジェスチャーが指ジェスチャー及び/又は掌ジェスチャーを含む場合の目標手部キーポイントとして利用できる。
本開示の実施例によれば、目標ジェスチャーが指ジェスチャー及び/又は掌ジェスチャーを含む場合に、異なる手部キーポイントを目標手部キーポイントとして柔軟に選択することができる。異なる目標ジェスチャーに対して、適切で一致するキーポイントを選択してより正確な向き情報を特定することができるので、ジェスチャー認識の精度を向上させ、ジェスチャーインタラクションの確実性及びインタラクション効果を向上させることができる。
ステップS124では、目標ジェスチャーの向きを検出する方法は、目標ジェスチャーによって柔軟に変化可能である。例えば、目標ジェスチャーの指の向きを検出すること、目標ジェスチャーの掌の向きを検出すること、又は目標ジェスチャーの指と掌によって形成される向きなどを検出することにしてもよい。詳細な説明は、以下の各開示の実施例を参照すればよく、ここでは省略する。
本開示の実施例によれば、目標ジェスチャーに対応する目標手部キーポイントに基づいて、対応する方法を用いて目標ジェスチャーの向き検出を実現して向き情報を得ることができるので、ジェスチャー認識の柔軟性及び精度を向上させ、ジェスチャーインタラクションの交互方式が多様化になり、インタラクション効果を向上させることができる。
いくつかの可能な実施形態では、上記した開示の実施例で言及したステップS121及びステップS122の実現順序は、実際の状況に応じて柔軟に決めればよい。例えば、一定の順序で実現してもよいし、同時に実現してもよい。従って、可能な一実施形態では、ステップS12は、深度画像を第1のニューラルネットワークに入力して、第1のニューラルネットワークから出力される手部キーポイントの情報及び目標ジェスチャーを得ることと、目標ジェスチャーに対応する目標手部キーポイントを特定することと、目標手部キーポイントの情報に基づいて目標ジェスチャーの向きを検出して、目標ジェスチャーの向き情報を得ることと、を含む。
第1のニューラルネットワークは、手のキーポイントの位置決め機能とジェスチャー分類機能を有する任意のニューラルネットワークであってもよい。第1のニューラルネットワークの構造は、柔軟に選択すればよく、以下の各開示の実施例に限定されない。一例では、第1のニューラルネットワークは、特徴抽出モジュールと、キーポイント認識モジュールと、分類モジュールとを含む。特徴抽出モジュールは、入力された深度画像の特徴情報を抽出し、抽出した特徴情報をキーポイント認識モジュール及び分類モジュールのそれぞれに入力することによって、キーポイント認識モジュールから出力される手部キーポイントの情報及び分類モジュールから出力される目標ジェスチャーを得ることができる。
目標ジェスチャーに対応する目標手部キーポイントを特定する方法、及び目標手部キーポイントの情報に基づいて目標ジェスチャーの向きを検出する方法については、本開示の実施例のステップS123及びステップS124の種々の実施形態を参照すればよく、ここでは重複説明を省略する。
本開示の実施例によれば、第1のニューラルネットワークによって深度画像の手のキーポイントの位置決めとジェスチャー分類を同時に実現することができるので、ジェスチャー認識の効率を効果的に向上させ、データの処理量を軽減させることができ、ジェスチャーインタラクションの効率及び利便度を向上させることができる。
可能な一実施形態では、ステップS124は、目標ジェスチャーが指ジェスチャーを含む場合に、指ジェスチャーにおいて伸ばし状態にある少なくとも1本の目標指の、少なくとも2つの目標手部キーポイントの3次元位置に基づいて、目標指の向き情報を、目標ジェスチャーの向き情報として特定することを含む。
目標指は、指ジェスチャーの伸ばし状態にある1本又は複数本の指であってもよい。指ジェスチャーが1本の伸ばしている指を含む場合に、該1本の伸ばしている指を目標指とすることができる。指ジェスチャーが複数本の伸ばしている指を含む場合に、複数本の指をいずれも目標指としてもよいし、複数本の指の一部を目標指としてもよい。例えば、2本の伸ばしている指の1本を目標指としてもよいし、2本の伸ばしている指をいずれも目標指としてもよいし、3本の伸ばしている指のうちの中間に位置する指を目標指としてもよい。
1本の目標指を含む場合に、該1本の目標指から2つ以上の手部キーポイントを目標手部キーポイントとしてランダムに選択してもよい。複数本の目標指を含む場合に、各々の目標指から2つ以上の手部キーポイントを目標手部キーポイントとしてランダムに選択してもよい。2つの点によって1本の直線が決められるので、同一の目標指の少なくとも2つのキーポイントの3次元位置に基づいて、該目標指が位置する直線の方程を該目標指の向き情報として特定することができる。該3次元位置の特定方法については、上記の各開示の実施例を参照すればよく、ここでは重複説明を省略する。
1本の目標指を含む場合に、該1本の目標指の向き情報を目標ジェスチャーの向き情報とすることができる。複数本の目標指を含む場合に、複数本の目標指の向き情報からある向きを目標ジェスチャーの向き情報としてランダムに選択してもよいし、複数本の指の向き情報のうち中間に位置する目標指の向き情報を目標ジェスチャーの向き情報として選択してもよいし、又は複数本の指の向き情報によって特定される平面向きを目標ジェスチャーの向き情報として選択してもよい。どのように選択するかは、実際の状況に応じて柔軟に設定すればよく、本開示の実施例において限定されない。
同一の指の、少なくとも2つのキーポイントの3次元位置に基づいて、目標指が位置する直線の方程を特定する方法は、実際の状況に応じて柔軟に選択すればよい。空間点の3次元座標に基づいて直線方程を特定するいずれの方法も、本開示の実施例に適用可能である。
一例では、同一の目標指の4つのキーポイントのキャプチャデバイスの座標系での3次元空間位置座標(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3)、(x4,y4,z4)に基づいて、最小二乗推定法を用いて該目標指が位置する直線の直線方程を得ることができる。この直線方程は、以下の式(1)によって表すことができる。
C(t)は目標指が位置する直線の直線方程であり、tは目標指が位置する直線上の何れか1つの点であり、Pは目標指が位置する直線上のサンプリング点であり、Dは目標指が位置する直線の単位方向ベクトルである。
本開示の実施例によれば、目標ジェスチャーが指ジェスチャーを含む場合に、伸ばし状態にある1本又は複数本の目標指の向きに基づいて目標ジェスチャーの向き情報を特定することができるので、目標ジェスチャーの指の実際の伸ばし状況を効果的に利用することができる。目標ジェスチャーの向き情報を利便な方法で正確に特定することによって、ジェスチャーインタラクションの確実性及び利便性を向上させることができる。
可能な一実施形態では、ステップS124は、目標ジェスチャーが掌ジェスチャーを含む場合に、掌ジェスチャーにおける少なくとも3つの目標手部キーポイントの3次元位置に基づいて、掌ジェスチャーにおいて掌が位置する平面の向き情報を、目標ジェスチャーの向き情報として特定することを含む。
少なくとも3つの目標手部キーポイントは、実際の状況に応じて柔軟に選択すればよい。例えば、指と掌との接続位置のキーポイントのみから少なくとも3つを選択してもよいし、又は指と掌との接続位置のキーポイント及び手首のキーポイントから少なくとも3つを選択してもよい。3つの点によって平面が決められるので、少なくとも3つの目標手部キーポイントの3次元位置に基づいて、掌が位置する平面の向き情報を目標ジェスチャーの向き情報として特定することができる。該3次元位置の特定方法については、上記の各開示の実施例を参照すればよく、ここでは重複説明を省略する。いくつかの可能な実施形態では、掌が位置する平面の向き情報は、掌が位置する平面の方向であってもよく、掌が位置する平面の法線ベクトル方向であってもよい。どの方向を目標ジェスチャーの向き情報として選択するかは、同様に実際の状況に応じて柔軟に選択すればよい。
掌ジェスチャーにおける少なくとも3つの目標手部キーポイントの3次元位置に基づいて、掌が位置する平面の向き情報を特定する方法は、実際の状況に応じて柔軟に選択すればよい。空間点の3次元座標に基づいて平面方程を特定するいずれの方法も、本開示の実施例に適用可能である。
一例では、5本の指のそれぞれと掌との接続位置の5つのキーポイント及び手首の2つのキーポイント、合計7つの目標手部キーポイントの、キャプチャデバイスの座標系での3次元空間位置座標(x5,y5,z5)、(x6,y6,z6)、(x7,y7,z7)、(x8,y8,z8)、(x9,y9,z9)、(x10,y10,z10)、(x11,y11,z11)に基づいて、最小二乗推定法を用いて掌が位置する平面の法線ベクトルを求め、該7つの目標手部キーポイントに基づいて掌の中心点の3次元空間位置座標(x0,y0,z0)を得る。これにより、法線ベクトル及び掌の中心点の両方に基づいて掌が位置する平面の平面方程を特定することができる。この平面方程は、以下の式(2)によって表すことができる。
本開示の実施例によれば、目標ジェスチャーが掌ジェスチャーを含む場合に、指と掌との境界点及び手首のキーポイントなどに基づいて目標ジェスチャーの向き情報を特定することができるので、掌平面上の認識され難いキーポイントの取得回数を減少させ、向き情報の特定精度及び効率を向上させることができ、ジェスチャーインタラクションの確実性及び効率を向上させることができる。
いくつかの可能な実施形態では、複数枚の深度画像を取得する場合に、各々の深度画像に含まれる目標ジェスチャーに基づいて、全体的な動的ジェスチャーを特定し、各々の深度画像に含まれる目標ジェスチャーの向き情報をまとめて全体的な向き情報を得るようにしてもよい。例えば、一例では、2枚の深度画像(1枚目は掌ジェスチャーの深度画像、2枚目は人差し指ジェスチャーの深度画像)を取得すれば、動的ジェスチャーが掌から指への指向ジェスチャーであると特定することができる。この場合には、上記した開示の実施例に係る方法に従って、1枚目の深度画像における掌の位置する平面の方程、及び2枚目の深度画像における人差し指の位置する直線の方程を決定し、平面方程と直線方程との両方に基づいて向き情報を決定することができる。例えば、直線方程により特定された直線が平面方程における平面と平行する場合は、平面方程を向き情報とし、直線方程により特定された直線が平面方程における平面と交差する場合は、直線と平面がなす角度に基づいて向き情報等を特定する。
可能な一実施形態では、ステップS12の前に、本開示の実施例に係る方法は、深度画像を第2のニューラルネットワークに入力して、深度画像におけるジェスチャーの位置を示す位置情報を特定することと、位置情報に基づいて深度画像をトリミングして、トリミングされた深度画像を得ることと、をさらに含む。
第2のニューラルネットワークは、ジェスチャー位置を検出する任意のニューラルネットワークであってもよく、本開示の実施例では、その実施形態は限定されない。可能な一実施形態では、RCNN又はFaster RCNNなど目標検出機能を有するニューラルネットワークを第2のニューラルネットワークの実施形態としてもよい。
深度画像におけるジェスチャーの位置を示す位置情報の実施形態は、実際の状況に応じて柔軟に決定すればよい。例えば、該位置情報は、ジェスチャーの位置する検出枠の各頂点の、深度画像における位置座標を含むものであってもよく、ジェスチャーの位置する検出枠の中心点の、深度画像における位置座標及び検出枠の形状情報などを含むものであってもよい。
いくつかの可能な実施形態では、第2のニューラルネットワークから出力される位置情報を得るために、深度画像を第2のニューラルネットワークに直接入力してもよい。いくつかの可能な実施形態では、深度画像に対応する赤外画像を第2のニューラルネットワークに入力し、赤外線画像におけるジェスチャーの初期位置情報を特定し、赤外画像と深度画像との座標対応関係に基づいて該初期位置情報を深度画像における情報へ変換し、深度画像におけるジェスチャーの位置を示す位置情報を得るようにしてもよい。
位置情報に基づいて、深度画像におけるジェスチャーの領域をトリミングして、トリミングされた深度画像としてもよい。このトリミングされた深度画像は、ステップS12におけるジェスチャー認識のための深度画像として利用できる。
本開示の実施例によれば、ジェスチャー認識期間に処理するデータ量を軽減させることができるので、認識精度及び効率を向上させることができ、ジェスチャーインタラクションの確実性及び効率を向上させることができる。
可能な一実施形態では、ステップS13は、3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、向き情報が示す方向におけるインタラクション用のオブジェクトを目標インタラクションオブジェクトとして特定することを含む。
インタラクション用のオブジェクトは、3次元空間において目標ジェスチャーとのインタラクションが生じ得る任意のオブジェクトであってもよい。その実施形態は、上記した開示の実施例における目標インタラクションオブジェクトの例を参照すればよく、ここでは重複説明を省略する。
インタラクション用のオブジェクトの空間情報は、インタラクション用のオブジェクトの位置する平面の平面情報であってもよく、インタラクション用のオブジェクトの位置する直線の直線情報であってもよく、インタラクション用のオブジェクトの形状に応じて柔軟に決定される。例えば、インタラクション用のオブジェクトがサンルーフ、車載インフォテインメントスクリーン又は車の窓などの平面状のオブジェクトを含む場合に、空間情報には平面情報が含まれていてもよく、インタラクション用のオブジェクトがハンドブレーキなどの線状構造を含む場合に、空間情報には直線情報が含まれていてもよい。
本開示の実施例では、インタラクション用のオブジェクトの空間情報を取得する方法は限定されず、3次元空間自体の構造に基づいてインタラクション用のオブジェクトの空間情報を予め特定してもよく、該インタラクション用のオブジェクトを含む深度画像に対してオブジェクト認識して、深度画像におけるインタラクション用のオブジェクトの位置を特定し、さらに3次元空間におけるインタラクション用のオブジェクトの空間情報を特定してもよい。深度画像に対してオブジェクト認識してインタラクションオブジェクトの位置を特定する方法は、上記した開示の実施例におけるジェスチャー認識の方法を参照すればよく、ここでは重複説明を省略する。
少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、目標ジェスチャーの向き情報が示す方向にインタラクション用のオブジェクトが存在するか否かを特定することができる。インタラクション用のオブジェクトが存在する場合に、該インタラクション用のオブジェクトを目標インタラクションオブジェクトとして特定することができる。
本開示の実施例によれば、インタラクション用のオブジェクトの空間情報と目標ジェスチャーの向き情報との両方に基づいて目標インタラクションオブジェクトを特定することによって、向き情報を3次元空間における情報へ変換し、3次元空間における1つ又は複数のオブジェクトとの実質的なインタラクションを実現することができ、ジェスチャーインタラクションの交互性及び多様性を向上させることができる。
上記した開示の実施例では、向き情報はキャプチャデバイスの座標系に属するものであってもよく、空間情報は3次元空間におけるインタラクション用のオブジェクトの情報であると説明したので、向き情報の属する座標系は空間情報と異なる可能性がある。故に、いくつかの可能な実施形態では、向き情報を空間情報の属する座標系における情報へ変換する、又は空間情報をキャプチャデバイスの座標系における情報へ変換することによって、目標インタラクションオブジェクトを特定することができる。
従って、可能な一実施形態では、3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、向き情報が示す方向におけるインタラクション用のオブジェクトを、目標インタラクションオブジェクトとして特定することは、3次元空間に基づいて構築された3次元空間座標系において、少なくとも1つのインタラクション用のオブジェクトの位置する平面の平面情報を、空間情報として取得することと、3次元空間座標系において、向き情報に対応する3次元直線の情報を特定することと、3次元直線の情報との共通部分を持つ平面情報に対応するインタラクション用のオブジェクトを、目標インタラクションオブジェクトとすることと、を含む。
3次元空間座標系の構築方法は、3次元空間の空間状況に応じて柔軟に決定すればよい。一例では、3次元空間が車室空間を含む場合に、車室の設計中に構築された3次元モデルに基づいて、車室空間の車載インフォテインメント座標系を3次元空間座標系として構築してもよい。それに応じて、3次元空間座標系において、インタラクション用のオブジェクトの位置する平面の平面情報は、車室の3次元モデルに基づいて特定してもよい。例えば、3次元モデルにおける車の窓の位置に基づいて車の窓の平面情報を特定してもよい。
3次元空間座標系を構築すると同時に、3次元空間におけるキャプチャデバイスの位置に基づいて、キャプチャデバイスの座標系と3次元空間座標系との変換関係を特定してもよい。例えば、キャプチャデバイスが車室内に固定されているカメラヘッドである場合に、キャプチャデバイスの固定位置及びキャプチャデバイスの内部パラメータなどに基づいて、キャプチャデバイスの座標系と3次元空間座標系との変換マトリックスを得るようにしてもよい。
この変換関係に基づいて、キャプチャデバイスの座標系における向き情報の直線方程及び/又は平面方程などを車載インフォテインメント座標系における直線方程及び/又は平面方程に変換して、3次元空間座標系において、向き情報に対応する3次元直線の情報とすることができる。
3次元直線の情報と平面情報とが交差する場合に、該平面情報に対応するインタラクション用のオブジェクトを目標ジェスチャーが指す方向にあると判定できるので、該インタラクション用のオブジェクトを目標インタラクションオブジェクトとすることができる。
本開示の実施例によれば、3次元空間座標系と、深度画像をキャプチャするためのキャプチャデバイスの座標系との座標対応関係を利用して、向き情報を現実の3次元空間における情報へ変換することによって、目標ジェスチャーと3次元空間内の物体との実質的なインタラクションを実現することができ、インタラクションの適用範囲及び多様性を向上させることができ、さらにインタラクション体験を向上させることができる。
図6は、本開示の実施例に係るジェスチャーインタラクション装置20を示すブロック図である。図6に示すように、上記装置は、ジェスチャーが含まれる深度画像を取得する画像取得モジュール21と、深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び目標ジェスチャーの向き情報を含むジェスチャー認識結果を得るジェスチャー認識モジュール22と、向き情報に基づいて、3次元空間において目標ジェスチャーが指す目標インタラクションオブジェクトを特定するオブジェクト特定モジュール23と、を含む。
可能な一実施形態では、ジェスチャー認識モジュールは、深度画像に基づいて手のキーポイントの位置決めを行って手部キーポイントの情報を得、深度画像に対してジェスチャー分類を行って目標ジェスチャーを得、目標ジェスチャーに対応する目標手部キーポイントを特定し、目標手部キーポイントの情報に基づいて目標ジェスチャーの向きを検出して目標ジェスチャーの向き情報を得るために用いられる。
可能な一実施形態では、目標ジェスチャーは、一部の指が伸ばし状態にある指ジェスチャー及び/又は全ての指が伸ばし状態にある掌ジェスチャーを含み、ジェスチャー認識モジュールはさらに、目標ジェスチャーが指ジェスチャーを含む場合に、対応する目標手部キーポイントが、伸ばし状態にある少なくとも1本の指のキーポイントを含み、及び/又は、目標ジェスチャーが掌ジェスチャーを含む場合に、対応する目標手部キーポイントが、各指と掌との接続位置のキーポイントを含むために用いられる。
可能な一実施形態では、目標手部キーポイントは、手首のキーポイントをさらに含む。
可能な一実施形態では、手部キーポイントの情報は、手部キーポイントの3次元位置を含み、ジェスチャー認識モジュールはさらに、目標ジェスチャーが指ジェスチャーを含む場合に、指ジェスチャーにおいて伸ばし状態にある少なくとも1本の目標指の、少なくとも2つの目標手部キーポイントの3次元位置に基づいて、目標指の向き情報を、目標ジェスチャーの向き情報として特定するために用いられる。
可能な一実施形態では、手部キーポイントの情報は、手部キーポイントの3次元位置を含み、ジェスチャー認識モジュールはさらに、目標ジェスチャーが掌ジェスチャーを含む場合に、掌ジェスチャーの少なくとも3つの目標手部キーポイントの3次元位置に基づいて、掌ジェスチャーにおいて掌が位置する平面の向き情報を、目標ジェスチャーの向き情報として特定するために用いられる。
可能な一実施形態では、ジェスチャー認識モジュールは、深度画像を第1のニューラルネットワークに入力して、第1のニューラルネットワークから出力される手部キーポイントの情報及び目標ジェスチャーを得、目標ジェスチャーに対応する目標手部キーポイントを特定し、目標手部キーポイントの情報に基づいて目標ジェスチャーの向きを検出して、目標ジェスチャーの向き情報を得るために用いられる。
可能な一実施形態では、装置はジェスチャー認識モジュールによる動作の前に、さらに、深度画像を第2のニューラルネットワークに入力して、深度画像におけるジェスチャーの位置を示す位置情報を特定し、位置情報に基づいて深度画像をトリミングして、トリミングされた深度画像を得るために用いられ、深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、トリミングされた深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることを含む。
可能な一実施形態では、オブジェクト特定モジュールは、3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、向き情報が示す方向におけるインタラクション用のオブジェクトを、目標インタラクションオブジェクトとして特定するために用いられる。
可能な一実施形態では、オブジェクト特定モジュールはさらに、3次元空間に基づいて構築された3次元空間座標系において、少なくとも1つのインタラクション用のオブジェクトの位置する平面の平面情報を、空間情報として取得し、3次元空間座標系において、向き情報に対応する3次元直線の情報を特定し、3次元直線の情報との共通部分を持つ平面情報に対応するインタラクション用のオブジェクトを、目標インタラクションオブジェクトとするために用いられる。
可能な一実施形態では、3次元空間は車室空間を含み、目標インタラクションオブジェクトは車室空間内の1つ又は複数のオブジェクトを含む。
いくつかの実施例では、本開示の実施例で提供された装置に備えられる機能又はモジュールは、上記の方法実施例に記載の方法を実行するために用いられ、具体的な実施形態については、上記の方法実施例の説明を参照すればよく、簡潔化のために、ここでは重複説明を省略する。
図7は、本開示の一応用例を示す概念図である。図7に示すように、本開示の実施例は、以下のプロセスを含み得るジェスチャーインタラクション方法を提供する。
TOFカメラでジェスチャーの画像を取得することによって、ジェスチャーが含まれる深度画像depth-imageであって、各画素点の数値が該画素点の深度を表わす階調画像である該深度画像を得る。
depth-imageを人手検出用のニューラルネットワーク(hand-detnet)に入力して、深度画像におけるジェスチャーの位置枠を得、位置枠を利用して深度画像におけるジェスチャー領域をトリミングしてジェスチャー画像(hand-depth-image)を得る。
hand-depth-imageをジェスチャー分類及び手のキーポイントの検出用のニューラルネットワーク(hand-cls-keypoints-net)に入力して、手部キーポイント情報及びジェスチャーの分類結果を得る。上記した開示の実施例の図5に示すように、手部キーポイント情報は19個の指関節ポイントと2つの手首関節ポイントを含む。
ジェスチャーの分類結果に人差し指ジェスチャー又は掌ジェスチャーなどの目標ジェスチャーが含まれる場合に、目標ジェスチャーに対応するキーポイントに基づいて目標ジェスチャーの向き情報を特定してもよい。
人差し指ジェスチャーに基づいて向き情報を算出する。
人差し指の4つの人差し指関節ポイントを目標手部キーポイントとし、手部キーポイント情報に基づいて、深度画像における目標手部キーポイントの座標及び対応する深度情報を特定する。特定された結果は以下のとおりである。
(dx1,dy1,depth1)、(dx2,dy2,depth2)、(dx3,dy3,depth3)、(dx4,dy4,depth4)
カメラの内部パラメータマトリックスと焦点距離情報を利用して、カメラ座標系における4つの人差し指キーポイントの3次元座標を算出する。
(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3)、(x4,y4,z4)
上記の3次元座標に基づいて、最小二乗推定法を用いて人差し指が指す直線の方程finger_lineを推定する。該直線方程の形式は、上記の式(1)を参照すればよい。
指と掌との境界における5つの関節ポイント、及び2つの手首関節ポイントを、目標手部キーポイントとし、手部キーポイント情報に基づいて、深度画像における目標手部キーポイントの座標及び対応する深度情報を特定する。特定された結果は以下のとおりである。
(dx5,dy5,depth5)、(dx6,dy6,depth6)、(dx7,dy7,depth7)、(dx8,dy8,depth8)、(dx9,dy9,depth9)、(dx10,dy10,depth10)、(dx11,dy11,depth11)
カメラの内部パラメータマトリックスと焦点距離情報を利用して、カメラ座標系における7つの目標手部キーポイントの3次元座標を算出する。
(x5,y5,z5)、(x6,y6,z6)、(x7,y7,z7)、(x8,y8,z8)、(x9,y9,z9)、(x10,y10,z10)、(x11,y11,z11)
上記の3次元座標に基づいて、最小二乗推定法を用いて掌の向きの平面方程法線ベクトルを推定し、次に7つの目標手部キーポイントの平均位置に基づいて掌の中心点の3次元位置座標palm_centerを得、法線ベクトル及び掌の中心点の3次元位置座標に基づいて、掌が位置する平面の平面方程palm_lineを得る。該平面方程の形式は、上記の式(2)を参照すればよい。
車室の構造に基づいて車室の3次元区間の車載インフォテインメント座標系を構築するとともに、車室内のサンルーフ、車載インフォテインメントスクリーン及び車の窓などのインタラクション用のオブジェクトの、車載インフォテインメント座標系における空間平面表現を空間情報として取得する。
カメラ座標系と車載インフォテインメント座標系との変換マトリックスによって、finger_lineとpalm_lineを車載インフォテインメント座標系における3次元直線の情報へ変換する。
3次元直線の情報と、サンルーフ、車載インフォテインメントスクリーン及び車の窓などのインタラクション用のオブジェクトの空間平面表現とが交差する場合に、指又は掌が該インタラクション用のオブジェクトへ指すと判定する。
depth-imageを人手検出用のニューラルネットワーク(hand-detnet)に入力して、深度画像におけるジェスチャーの位置枠を得、位置枠を利用して深度画像におけるジェスチャー領域をトリミングしてジェスチャー画像(hand-depth-image)を得る。
hand-depth-imageをジェスチャー分類及び手のキーポイントの検出用のニューラルネットワーク(hand-cls-keypoints-net)に入力して、手部キーポイント情報及びジェスチャーの分類結果を得る。上記した開示の実施例の図5に示すように、手部キーポイント情報は19個の指関節ポイントと2つの手首関節ポイントを含む。
ジェスチャーの分類結果に人差し指ジェスチャー又は掌ジェスチャーなどの目標ジェスチャーが含まれる場合に、目標ジェスチャーに対応するキーポイントに基づいて目標ジェスチャーの向き情報を特定してもよい。
人差し指ジェスチャーに基づいて向き情報を算出する。
人差し指の4つの人差し指関節ポイントを目標手部キーポイントとし、手部キーポイント情報に基づいて、深度画像における目標手部キーポイントの座標及び対応する深度情報を特定する。特定された結果は以下のとおりである。
(dx1,dy1,depth1)、(dx2,dy2,depth2)、(dx3,dy3,depth3)、(dx4,dy4,depth4)
カメラの内部パラメータマトリックスと焦点距離情報を利用して、カメラ座標系における4つの人差し指キーポイントの3次元座標を算出する。
(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3)、(x4,y4,z4)
上記の3次元座標に基づいて、最小二乗推定法を用いて人差し指が指す直線の方程finger_lineを推定する。該直線方程の形式は、上記の式(1)を参照すればよい。
指と掌との境界における5つの関節ポイント、及び2つの手首関節ポイントを、目標手部キーポイントとし、手部キーポイント情報に基づいて、深度画像における目標手部キーポイントの座標及び対応する深度情報を特定する。特定された結果は以下のとおりである。
(dx5,dy5,depth5)、(dx6,dy6,depth6)、(dx7,dy7,depth7)、(dx8,dy8,depth8)、(dx9,dy9,depth9)、(dx10,dy10,depth10)、(dx11,dy11,depth11)
カメラの内部パラメータマトリックスと焦点距離情報を利用して、カメラ座標系における7つの目標手部キーポイントの3次元座標を算出する。
(x5,y5,z5)、(x6,y6,z6)、(x7,y7,z7)、(x8,y8,z8)、(x9,y9,z9)、(x10,y10,z10)、(x11,y11,z11)
上記の3次元座標に基づいて、最小二乗推定法を用いて掌の向きの平面方程法線ベクトルを推定し、次に7つの目標手部キーポイントの平均位置に基づいて掌の中心点の3次元位置座標palm_centerを得、法線ベクトル及び掌の中心点の3次元位置座標に基づいて、掌が位置する平面の平面方程palm_lineを得る。該平面方程の形式は、上記の式(2)を参照すればよい。
車室の構造に基づいて車室の3次元区間の車載インフォテインメント座標系を構築するとともに、車室内のサンルーフ、車載インフォテインメントスクリーン及び車の窓などのインタラクション用のオブジェクトの、車載インフォテインメント座標系における空間平面表現を空間情報として取得する。
カメラ座標系と車載インフォテインメント座標系との変換マトリックスによって、finger_lineとpalm_lineを車載インフォテインメント座標系における3次元直線の情報へ変換する。
3次元直線の情報と、サンルーフ、車載インフォテインメントスクリーン及び車の窓などのインタラクション用のオブジェクトの空間平面表現とが交差する場合に、指又は掌が該インタラクション用のオブジェクトへ指すと判定する。
本開示の応用例に係るジェスチャーインタラクション方法は、ジェスチャーの3D視覚情報をTOFカメラヘッドで取得することによって、ジェスチャーの3次元モデルを得ることができ、さらに視覚アルゴリズムによって指の向き、掌の向きなど重要なインタラクション情報を取得し、次に車室空間の3次元情報を利用して指又は掌の向きが指す物体情報を得ることができるので、ユーザによるインタラクション体験を大幅に向上させることができる。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。具体的な実施形態に係る上記の方法において、各ステップの実行順序はその機能と可能な内在的論理に依存することが当業者に理解される。
本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体をさらに提供する。コンピュータ読み取り可能な記憶媒体は、非揮発性コンピュータ読み取り可能な記憶媒体であってもよい。
本開示の実施例は、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサが、前記メモリに記憶された命令を呼び出して、上記方法を実行するように構成される電子機器をさらに提供する。
本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラム製品であって、前記コンピュータ読み取り可能なコードが機器において動作すると、機器におけるプロセッサが上記のいずれかの実施例に係るジェスチャーインタラクション方法を実現させるための命令を実行するコンピュータプログラム製品をさらに提供する。
本開示の実施例は、コンピュータプログラム命令が記憶されているコンピュータプログラム製品であって、前記コンピュータプログラム命令が実行されると、コンピュータに上記のいずれかの実施例に係るジェスチャーインタラクション方法の操作を実行させる別のコンピュータプログラム製品をさらに提供する。
本開示の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサが上記方法を実行させるコンピュータプログラムをさらに提供する。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図8は、本開示の実施例に係る電子機器800を示すブロック図である。例えば、装置800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってよい。
図8参照すると、、電子機器800は処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作及び記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、及び電子機器800のための電力生成、管理及び配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)及びタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライド及びタッチパネルでのジェスチャを検出するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検出するのみならず、前記タッチまたはスライド操作に関する持続時間及び圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラ及び/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラ及び/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラ及び背面カメラは、固定された光学レンズ系、または焦点距離及び光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力及び/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードまたは音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各面の状態評価のための一つ以上のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、例えば電子機器800の表示装置及びキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速及び電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含む。センサコンポーネント814はさらに、CMOS又はCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWi-Fi、2G、3G、4G/LTE、5G又はそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行されると、上記方法を実行させることができる。
図9は、本開示の実施例に係る電子機器1900を示すブロック図である。例えば、電子機器1900はサーバとして提供されてもよい。図9を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、及び、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源をさらに含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は、命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、及び入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似するものに基づいて動作できる。
いくつかの可能な実施形態では、ジェスチャーインタラクション装置20に含まれる各モジュールは、端末、サーバ又は他の形態の機器として提供される電子機器に含まれる各ハードウェアモジュールに対応する。対応形式は、電子機器の機器形態に応じて柔軟に決定してもよく、以下の各開示の実施例に限定されない。例えば、一例では、ジェスチャーインタラクション装置20に含まれる各モジュールは、端末形態の電子機器の処理コンポーネント802に対応してもよい。一例では、ジェスチャーインタラクション装置20に含まれる各モジュールは、サーバ形態の電子機器の処理コンポーネント1922に対応してもよい。
例示的な実施例では、さらに、不揮発性のコンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されると、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令を有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ読み取り可能な記憶媒体コンピュータ可読記憶媒体は、命令実行装置に使用される命令を保存及び記憶可能な実体のある装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらなる具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去・プログラマブル可能な読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、及び上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、一時的な信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号であると解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令はコンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワーク及び/または無線ネットワークを経由して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータ及び/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ読取可能プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語及び「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャート及び/またはブロック図の各ブロック、及びフローチャート及び/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現させるように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置及び/または他の機器を決定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施可能なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャート及び/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能な命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なる順序で実現してもよい。例えば、連続的な二つのブロックは実質的に並行に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図及び/またはフローチャートにおける各ブロック、及びブロック図及び/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
該コンピュータプログラム製品は、具体的に、ハードウェア、ソフトウェアまたはそれらの組み合わせによって実現できる。可能な一実施例では、前記コンピュータプログラム製品は、具体的にコンピュータ記憶媒体であってもよい。別の可能な一実施例では、コンピュータプログラム製品は、具体的に例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品であってもよい。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲及び精神から逸脱することなく、様々な修正及び変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または従来技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。
Claims (15)
- ジェスチャーが含まれる深度画像を取得することと、
前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることと、
前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定することと、を含むことを特徴とするジェスチャーインタラクション方法。 - 前記した、前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得ることは、
前記深度画像に基づいて手のキーポイントの位置決めを行って手部キーポイントの情報を得ることと、
前記深度画像に対してジェスチャー分類を行って、前記目標ジェスチャーを得ることと、
前記目標ジェスチャーに対応する目標手部キーポイントを特定することと、
前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して、前記目標ジェスチャーの向き情報を得ることと、を含むことを特徴とする請求項1に記載のジェスチャーインタラクション方法。 - 前記目標ジェスチャーは、一部の指が伸ばし状態にある指ジェスチャー及び/又は全ての指が伸ばし状態にある掌ジェスチャーを含み、
前記した、前記目標ジェスチャーに対応する目標手部キーポイントを特定することは、
前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、伸ばし状態にある少なくとも1本の指のキーポイントを含むこと、及び/又は
前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記対応する目標手部キーポイントが、少なくとも1つの指と掌との接続位置のキーポイントを含むこと、
を含むことを特徴とする請求項2に記載のジェスチャーインタラクション方法。 - 前記目標手部キーポイントは、手首のキーポイントをさらに含むことを特徴とする請求項3に記載のジェスチャーインタラクション方法。
- 前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、
前記した、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出することは、
前記目標ジェスチャーが前記指ジェスチャーを含む場合に、前記指ジェスチャーにおいて伸ばし状態にある少なくとも1本の目標指の、少なくとも2つの目標手部キーポイントの3次元位置に基づいて、前記目標指の向き情報を、前記目標ジェスチャーの向き情報として特定することを含むことを特徴とする請求項3又は4に記載のジェスチャーインタラクション方法。 - 前記手部キーポイントの情報は、手部キーポイントの3次元位置を含み、
前記した、前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出することは、
前記目標ジェスチャーが前記掌ジェスチャーを含む場合に、前記掌ジェスチャーにおける少なくとも3つの目標手部キーポイントの3次元位置に基づいて、前記掌ジェスチャーにおいて掌が位置する平面の向き情報を、前記目標ジェスチャーの向き情報として特定することを含むことを特徴とする請求項3又は4に記載のジェスチャーインタラクション方法。 - 前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、
前記深度画像を第1のニューラルネットワークに入力して、前記第1のニューラルネットワークから出力される手部キーポイントの情報及び前記目標ジェスチャーを得ることと、
前記目標ジェスチャーに対応する目標手部キーポイントを特定することと、
前記目標手部キーポイントの情報に基づいて前記目標ジェスチャーの向きを検出して、前記目標ジェスチャーの向き情報を得ることと、を含むことを特徴とする請求項1~6のいずれか一項に記載のジェスチャーインタラクション方法。 - 前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得る前に、
前記深度画像を第2のニューラルネットワークに入力して、前記深度画像における前記ジェスチャーの位置を示す位置情報を特定することと、
前記位置情報に基づいて前記深度画像をトリミングして、トリミングされた深度画像を得ることと、をさらに含み、
前記した、前記深度画像に基づいてジェスチャーを認識して、ジェスチャー認識結果を得ることは、
前記トリミングされた深度画像に基づいてジェスチャーを認識して、前記ジェスチャー認識結果を得ることを含むことを特徴とする請求項1~7のいずれか一項に記載のジェスチャーインタラクション方法。 - 前記した、前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定することは、
前記3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、前記向き情報が示す方向におけるインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとして特定することを含むことを特徴とする請求項1~8のいずれか一項に記載のジェスチャーインタラクション方法。 - 前記した、前記3次元空間における少なくとも1つのインタラクション用のオブジェクトの空間情報に基づいて、前記向き情報が示す方向におけるインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとして特定することは、
前記3次元空間に基づいて構築された3次元空間座標系において、少なくとも1つのインタラクション用のオブジェクトの位置する平面の平面情報を、前記空間情報として取得することと、
前記3次元空間座標系において前記向き情報に対応する3次元直線の情報を特定することと、
前記3次元直線の情報との共通部分を持つ平面情報に対応するインタラクション用のオブジェクトを、前記目標インタラクションオブジェクトとすることと、を含むことを特徴とする請求項9に記載のジェスチャーインタラクション方法。 - 前記3次元空間は車室空間を含み、前記目標インタラクションオブジェクトは前記車室空間内の1つ又は複数のオブジェクトを含むことを特徴とする請求項1~10のいずれか一項に記載のジェスチャーインタラクション方法。
- ジェスチャーが含まれる深度画像を取得する画像取得モジュールと、
前記深度画像に基づいてジェスチャーを認識して、認識された目標ジェスチャー及び前記目標ジェスチャーの向き情報を含むジェスチャー認識結果を得るジェスチャー認識モジュールと、
前記向き情報に基づいて、3次元空間において前記目標ジェスチャーが指す目標インタラクションオブジェクトを特定するオブジェクト特定モジュールと、を含むことを特徴とするジェスチャーインタラクション装置。 - プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、請求項1~11のいずれか一項に記載のジェスチャーインタラクション方法を実行するように構成されることを特徴とする電子機器。 - コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行されると、請求項1~11のいずれか一項に記載のジェスチャーインタラクション方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
- コンピュータ読み取り可能なコードを含むコンピュータプログラムであって、前記コンピュータ読み取り可能なコードが電子機器において動作すると、前記電子機器におけるプロセッサが請求項1~11のいずれか一項に記載のジェスチャーインタラクション方法を実現させるための命令を実行することを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110738953.8 | 2021-06-30 | ||
CN202110738953.8A CN113486765B (zh) | 2021-06-30 | 2021-06-30 | 手势交互方法及装置、电子设备和存储介质 |
PCT/CN2021/126896 WO2023273061A1 (zh) | 2021-06-30 | 2021-10-28 | 手势交互方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024508102A true JP2024508102A (ja) | 2024-02-22 |
Family
ID=77937133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023544411A Pending JP2024508102A (ja) | 2021-06-30 | 2021-10-28 | ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2024508102A (ja) |
CN (1) | CN113486765B (ja) |
WO (1) | WO2023273061A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486765B (zh) * | 2021-06-30 | 2023-06-16 | 上海商汤临港智能科技有限公司 | 手势交互方法及装置、电子设备和存储介质 |
CN113936233A (zh) * | 2021-12-16 | 2022-01-14 | 北京亮亮视野科技有限公司 | 一种手指指定目标的识别方法及装置 |
CN114384848A (zh) * | 2022-01-14 | 2022-04-22 | 北京市商汤科技开发有限公司 | 交互方法、装置、电子设备及存储介质 |
CN114581535B (zh) * | 2022-03-03 | 2023-04-18 | 北京深光科技有限公司 | 图像中用户骨关键点标注方法、装置、存储介质及设备 |
CN115344121A (zh) * | 2022-08-10 | 2022-11-15 | 北京字跳网络技术有限公司 | 用于处理手势事件的方法、装置、设备和存储介质 |
CN116185205B (zh) * | 2023-04-25 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 非接触手势交互方法和装置 |
CN117170543B (zh) * | 2023-11-03 | 2024-01-26 | 博泰车联网(南京)有限公司 | 多屏联动方法、装置、设备和计算机可读存储介质 |
CN117316158B (zh) * | 2023-11-28 | 2024-04-12 | 科大讯飞股份有限公司 | 一种交互方法、装置、控制设备及存储介质 |
CN117373135B (zh) * | 2023-12-07 | 2024-03-15 | 湖北星纪魅族集团有限公司 | 基于视觉的滑动手势识别方法、系统及相关设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110219340A1 (en) * | 2010-03-03 | 2011-09-08 | Pathangay Vinod | System and method for point, select and transfer hand gesture based user interface |
US9734435B2 (en) * | 2015-12-31 | 2017-08-15 | Microsoft Technology Licensing, Llc | Recognition of hand poses by classification using discrete values |
CN108229318A (zh) * | 2017-11-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 手势识别和手势识别网络的训练方法及装置、设备、介质 |
CN108780361A (zh) * | 2018-02-05 | 2018-11-09 | 深圳前海达闼云端智能科技有限公司 | 人机交互方法、装置、机器人及计算机可读存储介质 |
CN108776773B (zh) * | 2018-05-04 | 2022-03-29 | 华南理工大学 | 一种基于深度图像的三维手势识别方法及交互系统 |
CN109044651B (zh) * | 2018-06-09 | 2020-06-16 | 苏州大学 | 未知环境中基于自然手势指令的智能轮椅控制方法及系统 |
CN109948542B (zh) * | 2019-03-19 | 2022-09-23 | 北京百度网讯科技有限公司 | 手势识别方法、装置、电子设备和存储介质 |
CN110209273B (zh) * | 2019-05-23 | 2022-03-01 | Oppo广东移动通信有限公司 | 手势识别方法、交互控制方法、装置、介质与电子设备 |
CN113486765B (zh) * | 2021-06-30 | 2023-06-16 | 上海商汤临港智能科技有限公司 | 手势交互方法及装置、电子设备和存储介质 |
-
2021
- 2021-06-30 CN CN202110738953.8A patent/CN113486765B/zh active Active
- 2021-10-28 WO PCT/CN2021/126896 patent/WO2023273061A1/zh active Application Filing
- 2021-10-28 JP JP2023544411A patent/JP2024508102A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023273061A1 (zh) | 2023-01-05 |
CN113486765A (zh) | 2021-10-08 |
CN113486765B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2024508102A (ja) | ジェスチャーインタラクション方法及び装置、電子機器並びに記憶媒体 | |
JP7089106B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラム | |
JP7238141B2 (ja) | 顔と手を関連付けて検出する方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
JP7262659B2 (ja) | 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体 | |
JP6986167B2 (ja) | 画像生成方法および装置、電子機器並びに記憶媒体 | |
AU2019455811B2 (en) | Method and apparatus for recognizing sequence in image, electronic device, and storage medium | |
US11513608B2 (en) | Apparatus, method and recording medium for controlling user interface using input image | |
JP2021517649A (ja) | 位置姿勢推定方法、装置、電子機器及び記憶媒体 | |
CN114019473A (zh) | 对象检测方法及装置、电子设备和存储介质 | |
JP2021516838A (ja) | キーポイント検出方法、装置、電子機器及び記憶媒体 | |
JP2021526698A (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
CN111563138B (zh) | 定位方法及装置、电子设备和存储介质 | |
CN112767288B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
JP2021517282A (ja) | ネットワークモジュール、割り当て方法及び装置、電子機器並びに記憶媒体 | |
CN110706339A (zh) | 三维人脸重建方法及装置、电子设备和存储介质 | |
CN111626183A (zh) | 一种目标对象展示方法及装置、电子设备和存储介质 | |
CN113139471A (zh) | 目标检测方法及装置、电子设备和存储介质 | |
CN112860061A (zh) | 场景图像展示方法及装置、电子设备和存储介质 | |
CN111882558A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN113486759B (zh) | 危险动作的识别方法及装置、电子设备和存储介质 | |
CN111652107A (zh) | 对象计数方法及装置、电子设备和存储介质 | |
CN111435422B (zh) | 动作识别方法、控制方法及装置、电子设备和存储介质 | |
CN111339880A (zh) | 一种目标检测方法及装置、电子设备和存储介质 | |
US20210158031A1 (en) | Gesture Recognition Method, and Electronic Device and Storage Medium | |
CN110213205B (zh) | 验证方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230721 |