JP2019071048A - 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 - Google Patents

一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 Download PDF

Info

Publication number
JP2019071048A
JP2019071048A JP2018167317A JP2018167317A JP2019071048A JP 2019071048 A JP2019071048 A JP 2019071048A JP 2018167317 A JP2018167317 A JP 2018167317A JP 2018167317 A JP2018167317 A JP 2018167317A JP 2019071048 A JP2019071048 A JP 2019071048A
Authority
JP
Japan
Prior art keywords
hand
user
lstm
network
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018167317A
Other languages
English (en)
Other versions
JP6716650B2 (ja
Inventor
スグナナ ムールティー ヘバラガップ ラミヤー
Sugnana Murthy Hebbalaguppe Ramya
スグナナ ムールティー ヘバラガップ ラミヤー
ペルラ ラーマクリシュナ
Perla Ramakrishna
ペルラ ラーマクリシュナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2019071048A publication Critical patent/JP2019071048A/ja
Application granted granted Critical
Publication of JP6716650B2 publication Critical patent/JP6716650B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Abstract

【課題】ハンドジェスチャー認識のためのシステムおよび方法を提供する。【解決手段】方法は、ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程を含む。シーンは、ユーザーによって実行された動的なハンドジェスチャーを含む。動的なハンドジェスチャーに関連付けられた時間情報が、ディープラーニングモデルを用いて、RGB画像データから推定される。推定された時間情報は、ユーザーのハンドポーズに関連付けられ、さらに、複数のフレーム内のユーザーの手の上において特定される複数のキーポイントを含む。多層LSTM分類ネットワークを用いて、複数のキーポイントの時間情報に基づいて、動的なハンドジェスチャーが、少なくとも1つの事前定義されたジェスチャーに分類される。【選択図】図4

Description

関連出願に対する相互参照および優先権
本出願は、2017年10月7日付けでインドにおいて出願されたインド国特許出願第201721035650号(発明の名称:一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法)に基づく優先権を主張する。
本発明は、一般に、ハンドジェスチャーの検出に関し、より具体的には、ヘッドマウントデバイスのような簡易な拡張現実(AR)デバイスを用いて、3次元の動的なハンドジェスチャーによるインタラクション(interaction:利用者とデバイスとのやり取り)を検出するためのシステムおよび方法に関する。
ウェアラブル拡張現実(AR:Augmented Reality)デバイスは、近年、非常に人気があるものとなっている。そのようなデバイスにおいて用いられるユーザーインタラクションの様態(user interaction modalities)は、ハンドジェスチャーがAR/VR(仮想現実)アプリケーションにおけるインタラクションの直感的手段を形成しているという事実を示している。これらデバイスは、テクノロジーを複雑かつ高価なハードウェアに結び付けることが多い様々なオンボードセンサーおよびカスタマイズされた処理チップを用いる。これらデバイスは、特定の機能を実行するために特注され、多くの場合において、それらの途方もない価格のために、容易には使用可能とならない。
従来の包括的なプラットフォーム、例えば、マイクロソフトキネクト(商標)およびリープモーション(商標)コントローラーは、切望されている抽象化(abstraction)を提供する。本発明者らは、そのような従来のシステムにおけるいくつかの技術的課題を、以下に説明するように認識している。このような従来のプラットフォーム/デバイスは、直射日光、白色光、および、赤外照射の存在による屋外環境、厚いガラスや水面のような反射面の存在のような光の状況が変化する場合に不完全な動作を行う。
以下の記述は、本実施形態の基本的な理解を提供するために、本発明のいくつかの実施形態の簡略化された概要を提供する。本概要は、実施形態の詳細な概説ではない。本概要は、実施形態の重要/決定的な要素を特定したり、本発明の範囲を正確に記述したりするためのものではない。本概要の唯一つの目的は、以下に提供されるより詳細な説明の前段階として、簡略化された様態のいくつかの実施形態を提供することにある。
前述の事項を参照すると、1つの実施形態は、ハンドジェスチャー認識のための方法およびシステムを提供する。ハンドジェスチャー認識のための方法は、1つ以上のハードウェアプロセッサーによって、ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV:First Person View)から取得されたシーンのメディアストリームの複数のフレームを受信する工程を含む。メディアストリームは、シーンの複数のフレームに関連付けられたRGB画像データを含む。シーンは、ユーザーによって実行された動的なハンドジェスチャーを含む。さらに、方法は、1つ以上のハードウェアプロセッサーによって、ディープラーニングモデル(deep learning model)を用いることにより、RGB画像データから、動的なハンドジェスチャーに関連付けられた時間情報(temporal information)を推定する工程を含む。推定された時間情報は、ユーザーのハンドポーズ(手の姿勢)に関連付けられ、複数のフレーム内のユーザーの手の上において特定される複数のキーポイントを含む。さらに、方法は、1つ以上のハードウェアプロセッサーによって、多層ロングショートタームメモリー(LSTM:Long Short Term Memory)分類ネットワークを用いて、複数のキーポイントの時間情報に基づいて、動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程を含む。
異なる態様において、ジェスチャー認識のためのシステムが提供される。システムは、1つ以上のメモリーと、1つ以上のメモリーに接続された1つ以上のハードウェアプロセッサーと、を含み、1つ以上のプロセッサーは、前記1つ以上のメモリー内に保存されているプログラム命令を実行することにより、ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点から取得されたシーンのメディアストリームの複数のフレームを受信することができる。メディアストリームは、シーンの複数のフレームに関連付けられたRGB画像データを含む。シーンは、ユーザーによって実行された動的なハンドジェスチャーを含む。さらに、1つ以上のハードウェアプロセッサーは、命令によって、ディープラーニングモデルを用いることにより、RGB画像データから、動的なハンドジェスチャーに関連付けられた時間情報を推定するよう構成されている。推定された時間情報は、ユーザーのハンドポーズに関連付けられ、複数のフレーム内のユーザーの手の上において特定される複数のキーポイントを含む。さらに、1つ以上のハードウェアプロセッサーは、命令によって、多層LSTM分類ネットワークを用いて、複数のキーポイントの時間情報に基づいて、動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する。
さらに別の態様において、ジェスチャー認識のための方法を実行するための、内部において具体化された(embodied)コンピュータープログラムを有する非一時的コンピューター可読媒体(non-transitory computer readable medium)が提供される。方法は、ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程を含む。メディアストリームは、シーンの複数のフレームに関連付けられたRGB画像データを含む。シーンは、ユーザーによって実行された動的なハンドジェスチャーを含む。さらに、方法は、ディープラーニングモデルを用いることにより、RGB画像データから、動的なハンドジェスチャーに関連付けられた時間情報を推定する工程を含む。推定された時間情報は、ユーザーのハンドポーズに関連付けられ、複数のフレーム内のユーザーの手の上において特定される複数のキーポイントを含む。さらに、方法は、多層LSTM分類ネットワークを用いて、複数のキーポイントの時間情報に基づいて、動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程を含む。
詳細な説明が、添付の図面を参照して記述される。各図において、参照番号の左端の桁は、その参照番号が最初に現れる図面の番号を示している。各図を通して、同様の特徴およびモジュールを参照するために同じ番号が用いられている。
図1A〜1Dは、本発明の例示的な実施形態に係る、動的なハンドジェスチャーの様々な例を示している。
図2は、本発明の実施形態に係る、ディープラーニングを用いたジェスチャー認識のための例示的なシステムアーキテクチャを示している。
図3は、本発明の実施形態に係る、ディープラーニングを用いたジェスチャー認識のためのシステムのネットワーク実施を示している。
図4は、本発明の例示的な実施形態に係る、ディープラーニングを用いたジェクチャー認識のための代表的な処理フローを示している。
図5は、本発明の例示的な実施形態に係る、動的なハンドジェスチャーに関連付けられた時間情報を推定するための処理フローを示している。
図6は、本発明の例示的な実施形態に係る、ジェスチャー分類のための例示的な多層LSTMネットワークを示している。
図7は、本発明の例示的な実施形態に係る、入力画像上の重複物として、ハンドポーズ検出モジュールによって検出される複数のキーポイントを示している。
図8は、本発明に従う実施形態を実施するための例示的なコンピューターシステムのブロック図である。
本分野における当業者であれば、本発明の原理を具体化するシステムおよびデバイスを示す本明細書の概念的な概要を表す任意のブロック図を適切に理解できるであろう。同様に、コンピューター可読媒体内において実質的に表され、明示または明示しないコンピューターまたはプロセッサーによって実行される様々な処理を表す任意のフローチャート、フロー図等が、適切に理解されるであろう。
拡張現実(Augmented Reality)は、音、テキスト、画像、またはビデオのようなコンピューターによって生成された感覚入力によって、物理的な実世界の複数の要素が拡張された環境の視界を表現することを意味する。ARは、医療、教育、エンターテイメント、軍事等の様々な用途において有用である。マイクロソフトHololens(商標)、Dagriスマートヘルメット(商標)、メタグラス(商標)のようなウェアラブルAR/VRデバイスは、近年、非常に人気があるものとなっている。
このようなデバイスで用いられるユーザーインタラクションの様態(user interaction modalities)は、ハンドジェスチャーがAR/VRアプリケーションにおけるインタラクションの直感的手段を形成しているという事実を示している。これらデバイスは、テクノロジーを複雑かつ高価なハードウェアに結び付けることが多い様々なオンボードセンサーおよびカスタマイズされた処理チップを用いる。これらデバイスは、特定の機能を実行するために特注され、多くの場合において、それらの途方もない価格のために、容易には使用可能とならない。マイクロソフトキネクト(商標)やリープモーション(商標)コントローラーのような包括的なプラットフォームは、切望されている抽象化を提供するが、直射日光、白色光、および、赤外照射の存在による屋外環境、厚いガラスや水面のような反射面の存在のような光の状況が変化する場合に不完全な動作を行う
近年のスマートモバイル電子デバイスにおける高性能なプロセッサーおよび高品質な光学系の進歩によって、このようなデバイスは、AR/VRアプリケーション用の魅力的で容易に利用可能なプラットフォームとしての人気を得つつある。例えば、グーグルカードボード(商標)およびWearalityのようなデバイスは、没入型VR体験(immersive VR experience)を提供するためのビデオシースルー(video-see-through)デバイスである。
ステレオレンダリングされたカメラフィードおよび重ね撮り画像(stereo-rendered camera feed and overlaid images)、音声、およびテキストを用いて、これらのデバイスも、ARアプリケーション用に拡張可能である。これらの簡易なヘッドセット(アンドロイドスマートフォンと共に用いられるWearalityまたはグーグルカードボード)を使用することの主たる動機は、経済的な実行可能性、携帯性、および大規模な市場への容易な拡張性にある。しかしながら、これらのヘッドマウントデバイス(HMDs)のセンサーのアクセス性は、取り付けられたスマートフォンのセンサー利用性に限定されてしまう。現在のバージョンは、単一のイベントを起こすための磁気トリガーまたは導電性レバーを用いているため、可能なユーザーのインタラクションの豊富さが抑えられている。
さらに、磁気トリガーおよび導電性レバーの頻繁な使用は、デバイスの着脱に繋がる。さらに加えて、そのようなデバイスにおける頭追跡(head tracking)は不便なものであり、ユーザーの視野(FoV:Field of View)における興味のある対象から焦点を外すことになる。さらに加えて、そのようなデバイスは、産業的な屋外セッティングにおいては、周辺雑音のため、不正確なスピーチ認識を提供してしまう。従来のデバイスにおける上述の技術的問題に基づくと、ハンドジェスチャーは、典型的には、人の手間を省き、周辺環境とのインタラクションにおいて効果的であるため、インタラクションの好適な態様である。しかしながら、一人称視点(FPV:First Person View)におけるハンドジェスチャー認識のための現在の方法は、特定の使用ケースに制限されたものであり、肌の色への依存性のために、現実的な状況下でのロバスト性(堅牢性)に欠ける。
以下に開示される様々な実施形態は、ジェスチャー検出、特に、動的なハンドジェスチャー検出における上述の技術的課題に対する、ディープラーニングアプローチを用いた技術的解決を提供する方法およびシステムを提供する。ディープラーニングアプローチを用いることにより、イントラクラスバリエーション(intra class variations)に対してロバストであり、検出および分類タスクを実行する際の人間の能力をしばしば上回るコンピュータービジョンモデル(computer vision models)を構築することができる。1つの実施形態において、組み込み奥行センサーを有さない単一のRGBカメラ入力を含むARアプリケーション用のFPVにおけるブルーム(bloom)、クリック、ズームイン、ズームアウトのような複雑なハンドジェスチャーを検出および分類するためのシステムが提供される。上述のハンドジェスチャーが、理解を容易にするために、図1A〜1Dに示されている。ハンドジェスチャー検出のためにディープラーニングアプローチを用いることにより、開示の方法およびシステムは、既存の技術における限界を克服し、さらに、簡易なデバイスにおける豊富なユーザーのインタラクションのための道を切り開くことができる。
図1A〜1Dを参照すると、様々な動的なハンドジェスチャーが示されている。例えば、図1Aは、「ブルーム」の動的なハンドジェスチャーを示しており、図1Bは、「クリック」の動的なハンドジェスチャーの様々な段階を示しており、図1Cは、「ズームイン」の動的なハンドジェスチャーの様々な段階を示しており、図1Dは、「ズームアウト」の動的なハンドジェスチャーの様々な段階を示している。ここで、用語「動的な」3Dハンドジェスチャーは、静的ではなく、動的なモーションを必要とするハンドジェスチャーを意味する。本明細書で検討される、ブルーム、クリック、ズームイン、およびズームアウトのような動的なハンドジェスチャーは、それぞれ示されている複数の段階を含んでいる。例えば、図1Aに示されているハンドジェスチャー「ブルーム」は、段階110、段階112、段階114の順で実行される。ブルームのハンドジェスチャーは、事前タスク、例えば、メニュー表示操作を実行するために実行可能である。同様に、図1Bは、クリックのハンドジェスチャーを実行/実演するための手の動きの複数の段階(段階120、段階122、段階124の順)を示している。クリックのハンドジェスチャーは、選択/保持動作のような事前定義されたタスクを実行するために実行可能である。また、図1Cは、ズームインのハンドジェスチャーを実行するための手の動きの複数の段階(段階130、段階132、段階134の順)を示している。ズームインのハンドジェスチャーは、ディスプレイにおけるズーム、例えば、シーンのズームのために実行可能である。ハンドジェスチャー「ズームアウト」の実行/実演が図1Dに示されており、段階140の手の動き、次に段階142の手の動き、最後に段階144の手の動きの順となる。ズームアウトのハンドジェスチャーは、例えば、表示されているシーンのズームアウトのような事前定義されたタスクを実行するために実行可能である。
ここで、上述のハンドジェスチャーは、例示の目的のために提供されたものであり、本明細書に開示される実施形態を限定する意図はないことに留意されたい。様々な区別可能なアプリケーションおよびデバイスは、様々な実施形態と共に記述される演算を用いて、複数の区別可能なハンドジェスチャーを利用することにより、様々な機能を実行することができる。さらに、ここで、動的なハンドジェスチャーは、2Dハンドジェスチャーおよび3Dハンドジェスチャーの1つに対応していてもよい。
本明細書で開示される実施形態は、図1A〜1Dに記述および示されているような、単一のRGBカメラを含むARアプリケーション用の一人称視点(FPV)における複雑な動的なハンドジェスチャーを検出するための方法およびシステムを提供する。システムは、如何なる奥行情報も必要とせず、単一のRGBカメラから入力として受信されたRGB画像データを用いるため、追加的な高機能の奥行センサーの必要性を排除し、さらに、既存の技術の限界を克服することができる。本発明の様々な実施形態に係るジェスチャー検出のための高レベルの例示的なシステムアーキテクチャが図2を参照して提供される。
本方法およびシステムは、本明細書に記述される特定の実施形態に限定されない。さらに、本方法およびシステムは、本明細書に記述される他のモジュールおよび方法とは独立および別個に実施可能である。各デバイス要素/モジュールおよび方法は、他の要素/モジュールおよび他の方法と組み合わせて使用可能である。
ヘッドマウントデバイスを用いた興味のある領域(ROI:Region of Interest)マーキングのためのシステムおよび方法が実施される様態が、図1〜5を参照して詳細に説明される。ヘッドマウントデバイスを用いたROIマーキングのための記述される方法およびシステムの態様が任意の数の異なるシステム、実行環境、および/または設定において実施可能であるが、実施形態は、以下の例示的なシステムの文脈において記述される。
図2を参照すると、本発明の様々な実施形態に係るディープラーニングを用いたジェスチャー検出のための例示的なシステムアーキテクチャ200が記述されている。システムアーキテクチャは、ユーザーの一人称視点でのメディアストリームを取得するためのデバイスを備えるように示されている。シンプルな形態では、開示のデバイス202は、(1)例えば、スマートフォンのような携帯通信デバイス内に組み込まれている単一のRGBカメラと、(2)例えば、ヘッドマウントARデバイスのようなARウェアラブルとを備え得る。そのようなARウェアラブルの例としては、グーグルカードボードを挙げることができる。RGBカメラによってユーザーのFPVで取得されるメディアストリーム(メディアストリームの取得は、ARウェアラッブルによって容易となっている)は、ジェスチャー検出のためにシステム204に送信される。1つの実施形態において、システムは、リモートサーバー内において実施されてもよい。1つの実施形態において、メディアストリームは、遠隔サーバーに送信される前に、ダウンスケール(縮小)されてもよい。システム204は、ジェスチャーを認識するために、メディアストリーム内の実行されたジェスチャーを分類するよう構成されている。ジェスチャーを認識すると、システム204は、携帯通信デバイスに結果を送り返すよう通信を実行する。
図3を参照すると、本発明の実施形態に係る、ジェスチャー検出のためのシステム302のネットワーク実施300が示されている。システムは、事前定義されたタスクを実行するために行われている動的なハンドジェスチャーを有するメディアストリームを受信するよう構成されている。ここで、メディアストリームは、ユーザーのFPVにおいて取得される。様々なハンドジェスチャーおよび対応する事前定義されたタスクが図1A〜1Dを参照して記述される。システム302は、動的なハンドジェスチャーを検出することができる。1つの例示的な実施形態において、動的なハンドジェスチャーの検出は、ハンドポーズにおける不動の手の存在(a presence of a stable hand)の検出を含み、不動の手の状態の後、事前適宜されたタスクを実行するための特定の様態での手の動きが実行される。
本発明は、手に取り付けられたデバイスを用いてジェスチャー検出を実行するための、システム302が実施されるものとして説明されるが、システム302は如何なる特定の機械または環境に限定されないことは理解されるであろう。システム302は、タスクの実行のためのジェスチャーの検出が判別される様々な領域において利用可能である。システム302は、ラップトップコンピューター、デスクトップコンピューター、ノートパソコン、ワークステーション、メインフレームコンピューター、サーバー、ネットワークサーバー等のような様々な演算システムにおいて実施することができる。
ここで、システム302は、例えば、複数のデバイスおよび/または機械304−1、304−2、...304−N(以下、集合的にデバイス304という)を用いて、複数のビデオおよび/または画像を取得する。デバイスのそれぞれは、ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを備えている。RGBセンサーは、携帯型電子デバイス、携帯電話、スマートフォン、ポータブルコンピューター、PDA等のようなメディア取得デバイス内に実装されていてもよい。1つの実施形態において、デバイスは、RGBセンサーに加えて、VRカメラを実装していてもよい。代替的に、RGBセンサーを実装しているデバイスは、ウェアラブルARデバイスに通信可能に接続され、メディア取得デバイスを保持し、さらに、ウェアラブルARデバイスを装着しているユーザーの一人称視点(FPV)でのメディアストリームの取得を可能としていてもよい。ここで、ARデバイスは、AR技術を実現するデバイスである。AR技術は、ユーザーの知覚を強化し、ユーザーが、様々な方法で、環境を視認し、聴き取り、さらに、感じることを補助する。デバイス304は、ネットワーク306を介してシステム302に通信可能に接続されており、取得されたメディアストリームを、システム302へ送信することができる。
1つの実施形態において、ネットワーク306は、無線ネットワーク、有線ネットワーク、またはこれらの組み合わせであってもよい。ネットワーク306は、異なるタイプのネットワーク(例えば、イントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット等)の1つとして実施することができる。ネットワーク306は、専用ネットワークであっても、共有ネットワークであってもよい。共有ネットワークは、様々なタイプのプロトコル(例えば、ハイパーテキストトランスファープロトコル(HTTP)、トランスミッションコントロールプロトコル/インターネットプロトコル(TCP/IP)、ワイヤレスアプリケーションプロトコル(WAP)等)を用いて、互いに通信を行う異なるタイプのネットワークの接続を意味する。さらに、ネットワーク306は、様々なネットワークデバイス(ルーター、ブリッジ、サーバー、演算デバイス、ストレージデバイス等)を含んでいてもよい。
1つの実施形態において、システム302は、演算デバイス310内に実装される。演算デバイス310の例としては、これに限られないが、デスクトップパソコン(PC)、ノートパソコン、ラップトップ、携帯型コンピューター、スマートフォン、タブレット等が挙げられる。また、システム302は、メディストリームを保存するためのデータレポジトリ312に関連付けられている。追加的、または、代替的に、データレポジトリ312は、メディアストリーム中で、ジェスチャー認識の間に生成されたデータおよび/または情報を保存するよう構成されていてもよい。レポジトリ312は、システム302を実現する演算デバイス310の外側に構成され、演算デバイス310と通信可能に接続されていてもよい。代替的に、データポレジトリ312は、システム302内において構成されていてもよい。メディアストリームにおけるジェスチャー認識のためのシステム302の例示的な実施が、図4を参照してさらに記述される。
図4は、本発明のいくつかの実施形態に係る、ハンドジェスチャー認識のための方法400のフロー図を示している。方法400は、コンピューター実行可能命令の一般的な文脈において説明される。一般的に、コンピューター可読命令は、特定の機能を実行、または特定の抽象データ型(abstract data type)を実施するルーティーン(routines)、プログラム、オブジェクト、コンポーネント、データ構造体、プロシージャー(procedures)、モジュール、関数等を含み得る。また、方法400は、通信ネットワークを介してリンクされた複数の遠隔演算デバイスによって機能が実行される分散型演算環境(distributed computing environment)内において実施されてもよい。ここで説明される方法400の順番は、限定を構成する意図はなく、任意の数の説明される方法ブロックが、任意の順番で組み合され、方法400または代替的方法を実施してもよい。さらに、方法400は、任意の適切なハードウェア、ソフトウェア、ファームフェア、およびこれらの組み合わせにおいて実施することができる。1つの実施形態において、フローチャートに示されている方法400は、システム、例えば、図3のシステム302によって実行され得る。1つの実施形態において、システム302は、例示的なコンピューターシステム、例えば、例示的なコンピューターシステム801(図7)において実装することができる。図4の方法400は、以下の図4〜7を参照して、より詳細に説明される。
図4を参照すると、図示の実施形態においては、402において、ユーザーがウェアラブルARデバイス404に通信可能に接続されたRGBセンサーを用いて、メディアストリームを取得したときに、方法400が開始される。RGBセンサーを実装しているデバイス406の例としては、これに限定されないが、スマートフォン、PDA、携帯型コンピューター等が挙げられる。ウェアラブルARデバイス404は、AR関連機能を実行するためのARアプリケーションをホスティングするよう集合的に構成されたハードウェアおよびソフトウェアを含む。説明の簡略化のために、ARアプリケーションを実行するデバイスと共にRGBセンサーを組み込んでいるデバイス406(または、ウェアラブルARデバイス404)は、以下、集合的にデバイス408と称される。デバイス408は、ユーザーによって実行される一人称視点(FPV)での動的なジェスチャー、例えば、図1A〜1Dに示されているようなジェスチャーのメディアストリームを取得する。1つの実施形態において、ハンドジェスチャーは、動的なハンドジェスチャーを含む。1つの実施形態において、動的なハンドジェスチャーは、2Dハンドジェスチャーおよび3Dハンドジェスチャーの1つであってもよい。一人称視点(FPV)で取得されたメディアストリームの複数のフレームは、410において、ジェスチャー認識システム(例えば、図3のシステム302)で処理するために、ストリーミング送信される。1つの実施形態において、デバイス408から取得された複数のフレームは、最初に、質の面で妥協することなく演算時間を減少させてリアルタイム性能を実現するために、ダウンスケール、例えば、解像度が320x240等になるようダウンスケールされる。1つの実施形態において、デバイス408は、例えば、25FPSで、複数のフレームをジェスチャー認識システムにストリーミング送信する。
工程412において、ジェスチャー認識システムは、メディアストリームの複数のフレームを受信する。複数のフレームは、デバイス408から取得された複数のRGBフレームである。複数のRGBフレームは、シーンの複数のフレームに関連付けられたRGB画像データを含む。ここで、RGB画像データは、複数のフレームに関連付けられた赤色、緑色、および青色に対応するデータを意味する。
414において、ディープラーニングモデルを用いることにより、動的なハンドジェスチャーに関連付けられた時間情報が、RGB画像データから推定される。1つの実施形態において、ジェスチャー認識システムは、動的なハンドジェスチャーに関連付けられた時間情報を推定する。推定された時間情報は、ユーザーのハンドポーズに関連付けられ、さらに、複数のフレームにおけるユーザーの手の上において特定された複数のキーポイントを含む。動的なハンドジェスチャーを実行している間のユーザーの様々なハンドポーズ(または、動的なハンドジェスチャーの複数の段階)が、図1A〜1Dを参照して記述される。時間情報の推定の詳細な説明が、図5を参照して、さらに記述される。
図5を参照すると、動的なハンドジェスチャーに関連付けられた時間情報を推定するためのプロセスが示されている。ここで、時間情報の推定は、ハンドポーズ推定モジュール502によって実行される。ハンドポーズ推定モジュール502は、単一のRGB画像から3Dハンドポーズを推定するディープラーニングアプローチに基づいて、時間情報を推定することを容易にし、これにより、従来のシステムにおける奥行情報の入手困難さによって生じる課題を克服する。1つの実施形態において、ディープラーニングネットワークは、RGB画像データを利用し、時間情報を推定する。上述のように、時間情報は、複数のフレームにおけるユーザーの視野(FoV)内に存在する手の上の複数のキーポイントを含む。1つの実施形態において、複数のキーポイントは、指1つ当たり4個のキーポイントおよびユーザーの手の手首付近の1個のキーポイントを含む21個の手のキーポイントを含む。ジェスチャー認識システムは、複数のキーポイントを検出し、さらに、ディープラーニングネットワークを用いて、複数のサンプルRGB画像から、サンプルのユーザーの手の複数のキーポイントを有する複数の潜在的ネットワーク3Dアーティキュレーション履歴(network-implicit 3D articulation priors)を学習/推定する。複数の潜在的ネットワーク3Dアーティキュレーション履歴は、ユーザーの手の複数のトレーニングサンプルRGB画像から判別された複数のキーポイントを含む。複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、ハンドポーズ推定モジュール502は、複数のフレーム(または、複数のRGB画像)内におけるユーザーの手の複数のキーポイントを検出する。RGB画像内におけるユーザーの手の複数のキーポイントを検出するための詳細なプロセスが、図5に示されている。例えば、画像130、132、134のような複数のRGB画像が、502において、ジェスチャー認識システムで受信される。ジェスチャー認識システムは、動的なハンドジェスチャーに関連付けられた時間情報を推定するためのハンドポーズ推定モジュール502を含む。ハンドポーズ推定モジュール502は、これに限定されないが、以下に述べるような、HandSegNetネットワーク、PoseNetネットワーク、およびPosePriorネットワークを含むディープラーニングネットワークの助けを借りて、時間情報を推定する。
HandSegNetネットワーク(508が付されている):HandSegNetネットワークは、画像/フレーム内において手の位置を特定するためのセグメンテーションネットワークである。
PoseNet(510が付されている):セグメント化された手のマスクが入力として与えられると、PoseNetは、各キーポイントの2次元スコアマップを推定することにより、それぞれの空間位置についての尤度情報(likelihood information)を含む21個のキーポイントの位置を特定する。
PosePrior(512が付されている):PosePriorネットワークは、PoseNetから得られたスコアマップを条件とする最も可能性の高い3Dの手の構造を推定する。
1つの例示的な実施形態において、上述のディープラーニングネットワークは、複数のキーポイントを推定するために、事前トレーニングされていてもよい。例えば、1つの実施形態において、複数のキーポイントは、ユーザーの手の21個のキーポイントを含んでいてもよい。これらのネットワークは、合成の手のモデルに基づいて、複数のトレーニングサンプルRGB画像を有する大規模3Dハンドポーズデータセットを用いて、トレーニングされる。データセットは、複数のユニークアクションを実行する複数の異なる対象の膨大な量のフォトリアリスティックレンダリング(photo-realistic renderings)を含む。データセットを構築するために、データセット内に存在する全てのユーザーの手のビデオが、最適な範囲、例えば、FPVユースケースに理想的な、カメラ中心から40cmから65cmの範囲で準備される。照明の位置および強度はランダム化され、さらに、最大40%の損失を伴う不可逆のJPEG圧縮を用いて、複数の画像が保存される。背景は、様々な画像からランダムに選択され、カメラ位置は、外部要因に対するモデルのロバスト性(堅牢性)を確保するために、各フレームにおいて手を囲む球形領域においてランダムに選択される。上述のように、ディープラーニングネットワークを用いて、ハンドポーズ推定モジュール502は、複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、複数のフレーム内のユーザーの手の上の複数のキーポイントを検出する。ネットワークによって検出される21個のキーポイントは、514において示すように、図5の入力ビデオフレーム516(例えば、ビデオフレーム518、520、522)上における重複物(overlay)として示されている。
ハンドポーズ推定モジュール502は、ユーザーの手の上において検出された21個のキーポイントのそれぞれの座標値を出力する(これを、時間情報とも称する)。時間情報は、ジェスチャー分類ネットワークに対する入力である。ジェスチャー分類ネットワークは、LSTMネットワークを含む。図4および6を参照して以下にさらに説明されるように、LSTMネットワークは、複数のキーポイントに基づいて、動的なハンドジェスチャーを、少なくとも1つの事前定義されたジェスチャークラスに分類する。
再度図4を参照すると、416において、多層LSTM分類ネットワークを用いることにより、動的なジェスチャーが、複数のキーポイントの時間情報に基づいて、少なくとも1つの事前定義されたジェスチャークラスに分類される。1つの実施形態において、多層LSTMネットワークは、第1の層と、第2の層と、第3の層と、を含む。第1の層は、ユーザーの手の上において検出された21個のキーポイントの3D座標シーケンス(3D coordinates sequence)における長期の依存性およびパターン(long-term dependencies and patterns)を学習するための複数のLSTMセルから構成されたLSTM層を含む。第2の層は、時間的データを1次元にする平滑化層(flattening layer)を含み、第3の層は、3Dの動的なハンドジェスチャーのそれぞれに対応する出力スコアを用いる完全接続層(fully connected layer)を含む。出力スコアは、少なくとも1つの事前定義されたジェスチャークラスへの分類のための、動的なハンドジェスチャーのそれぞれに対応する事後確率(posterior probability)を示す。例えば、本実施形態において、動的なハンドジェスチャーを4つのクラス(例えば、図1A〜1Dに規定されている動的なハンドジェスチャー)に分類するようトレーニングされている場合、第3の層によって判別された4つの出力スコアが存在することになる。代替的な実施形態において、出力スコアの数は、ジェスチャークラスの数に応じて変化可能である。ここで、シーケンシャルデータの長期依存性の学習においてのLSTMニューラルネットワークの能力および効率は、ビデオフレームにおける手の複数のキーポイントの空間的な位置を用いて、LSTMネットワークベースのアーキテクチャーがジェスチャー分類のタスクの実行することを容易にすることに留意されたい。動的なジェスチャー認識に対する開示の実施形態の重要な貢献は、開示の実施形態において、複数のフレームに渡る複数のキーポイントの変動をモデル化する際にハンドポーズの3D座標値のみを入力することにより、演算コストを減少させることができ、フレームワークのリアルタイム性能の実現に有用であるということである。動的なジェスチャーの少なくとも1つの事前定義されたクラスへの分類の例が、図6を参照して記述される。
図6を参照して、全ての層の後に出力形状を表示するジェスチャー分類タスクのための多層LSTMネットワーク600が記述される。LSTMネットワーク600は、3つの層、すなわち、LSTM層を含む第1の層602と、平滑化層を含む第2の層604と、完全接続層を含む第3の層606とを含むよう示されている。各ジェスチャー入力は、LSTMネットワーク600へ供給するための期間、100フレームスプレッドに等しくサンプリングされ、図6に示すように、LSTM層602へのサイズ63x100の入力(21個のキーポイントのそれぞれの3つの座標値)が作成される。200個のLSTMセルから構成されるLSTM層602は、ネットワークトレーニングの間、座標のシーケンスにおける長期の依存性およびパターンを学習するよう試みる。LSTM層602は、データを1次元にする平滑化層604の前に存在する。平滑化層604の後には、4つのジェスチャーのそれぞれに対応する4つの出力スコアを用いる完全接続層606が存在する。
1つの実施形態において、LSTMモデルは、softmaxアクティベーション機能(softmax activation function)を用いて、複数の動的なハンドジェスチャーのうちの動的なハンドジェスチャーを分類するためにトレーニングされる。ジェスチャー分類モジュールは、softmaxアクティベーション機能を用いて、出力スコアを、非正規化ログ確率(un-normalized long probabilities)として解釈し、さらに、出力スコアを、以下の式を用いて、0から1の範囲に圧縮する。
Figure 2019071048
ここで、Kはクラスの数を示し、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスであり、σ(s)は各ジェスチャーに関連付けられた事後確率を示すKx1出力ベクトルである。
1つの実施形態において、LSTMネットワークは、動的なジェスチャーを、ジェスチャークラスの1つに分類するためにトレーニングされる。1つの実施形態において、LSTMネットワークのトレーニングは、以下の式を用いて、バッチのi番目のトレーニングサンプルのクロスエントロピー損失Lを算出する工程を含む。
=−h*log(σ(s)
ここで、hは、入力のワンホットラベル(one-hot label)を示す1xKベクトルであり、さらに、Lの平均は、バッチのトレーニング例全体から算出され、トレーニング中においてLSTMモデルを微調整するために、LSTMネットワークに送り返される。
図4を参照すると、416において、動的なジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類すると、ジェスチャー認識システムは、分類された少なくとも1つの事前定義されたジェスチャークラスを、デバイス408に送信し、これにより、デバイス408が、ARアプリケーションにおける事前定義されたタスクを開始することが可能となる。
開示の実施形態に基づくジェスチャー分類を説明するための例示的なシナリオが、本記述においてさらに述べられる。
例示的なシナリオ
本明細書における実施形態は、自己中心の視点(egocentric view)で取得されたブルーム、クリック、ズームイン、ズームアウトの動的なハンドジェスチャーのデータセットを利用する。データセットは、トレーニングセットにおいて1つのジェスチャー当たり100個のビデオと、テストセットにおいて1つのジェスチャー当たり20個のビデオと、を含む480個のビデオを含む。データセット内のデータビデオは、320x240の解像度および30FPSで取得された高品質のビデオである。異なる肌の色を有し、年齢が21〜55歳の範囲にある6人のユーザーがデータ集合に含まれている。色の組み合わせ、照明の状態、および動的な背景シーンにおける最大変動を収集するために、ビデオは、複数の異なる場所(屋外、屋内、リビングルーム、オフィス環境、カフェテリア)で記録される。各ジェスチャーは、平均で4.1秒間続き、最も複雑なブルームは、平均5秒を要し、最も単純なズームジェスチャーは、平均で3.5秒を要する。
ハンドポーズ検出モジュール(図4を参照して記述された)は、手の21個のキーポイントを検出することにより、ハンドポーズを推定するために利用される。ハンドポーズ検出モジュールによって検出される複数のキーポイントが、図7に示されている。
図7に示されているように、ジェスチャー認識システムのテストの間、ハンドポーズ検出モジュールによって検出される21個のキーポイントは、入力画像上における重複物として示されている。これら21個のキーポイントの3D座標値は、その後、ジェスチャー分類のためにLSTMネットワークに送られる。
ジェスチャー分類システムは、LSTM分類ネットワークをトレーニングおよびテストするために、420個のビデオのデータセットを利用する。トレーニングの間、トレーニングセットの400個のビデオのそれぞれが、LSTMネットワークへ供給されている期間、100フレームスプレッドに等しくサンプリングされる。バッチサイズ5および有効化スプリット70.30で、LSTMネットワークがGPUセットアップにおいて約11時間要する300エポック(epochs)の間、トレーニングされる。ネットワークをトレーニングする間に、有効化スプリットにおいて91%の精度が達成される。さらに、モデルは、80個のビデオのテストセットによってテストされる。表1は、実験のための混合マトリクスを示している。80個のうち、9件の分類ミスがあり、87.5%の精度であった。動的なハンドジェスチャーの存在は、以下の式を用いた動的なハンドジェスチャーの確率が85%を超えた場合に、検出される。
Figure 2019071048
ここで、σ(s)は、i番目のクラス用の予測確率である。認識された動的なハンドジェスチャーは、スマートフォンに送信される。ジェスチャーが検出されなかった場合、ジェスチャー検出が為されなかったことが報告される。以下の表1は、80個のうち、9件の分類ミスがあった精度87.5%を得たジェスチャー認識システム用の混合マトリクスを示している。
Figure 2019071048
開示されたLSTMのみのアーキテクチャーは、GPU実装上において、最大107のフレームレートで伝達を行うことができる。しかしながら、ハンドポーズ推定ネットワークは、9FPSで動作する。組み合わされたフレームワークの最大スループットを確保するために、ハンドポーズ推定ネットワークは、フレーム数を低下させることを許可されている。サーバーにおいて受信される最後のフレームは、ネットワークに供給される。LESTMネットワークに供給される前に3D座標値が挿入され、100個のデータポイントが取得される。これにより、フレームワークが、動的にGPU性能に応じて適応することが可能となり、そのため、ジェスチャーの実行が完了した後の認識時間を最小化することができる。その結果、提案のフレームワークの平均応答時間が、GPU設定上において、0.8sになることがわかった。実施形態を実施するための例示的なコンピューターシステム801のブロック図が示されている。
図8は、本発明と一致する実施形態を実施するための例示的なコンピューターシステム801のブロック図である。コンピューターシステム801は、単独で実施されてもよいし、システム302(図3)の複数のコンポーネントと組み合わせて実施されてもよい。コンピューターシステム801のバリエーションを、本開示に含まれるデバイスを実施するために用いてもよい。コンピューターシステム801は、中央処理ユニット(「CPU」または「ハードウェアプロセッサー」)802を含む。ハードウェアプロセッサー802は、ユーザーまたはシステムによって生成されたリクエストを実行するためのプログラムコンポーネントを実行する少なくとも1つのデータプロセッサーを含む。プロセッサーは、統合システム(バス)コントローラー、メモリー管理コントロールユニット、浮動小数点ユニット、画像処理ユニット、デジタル信号処理ユニット等のような特注の処理ユニットを含む。プロセッサーは、AMD Athlon(商標)、Duron(商標)、Opteron(商標)のようなマイクロプロセッサー、ARM‘sアプリケーション、組み込みまたはセキュアプロセッサー、IBM PowerPCTM、インテルコア、Itanium(商標)、Xeon(商標)、Celeron(商標)、または他のプロセッサー等を含む。プロセッサー802は、メインフレーム、分散プロセッサー、マルチコア、パラレル、グリッド、または他のアーキテクチャーを用いて実施されてもよい。いくつの実施形態は、特定用途向け集積回路(ASICs)、デジタル信号プロセッサー(DSPs)、フィールドプログラマブルゲートアレイ(FPGAs)等のような実装技術を利用してもよい。
プロセッサー802は、I/Oインターフェース803を介して、1つ以上の入力/出力(I/O)デバイスと通信を行うよう配置されている。I/Oインターフェース803は、これに限定されないが、音声、アナログ、デジタル、モノラル、RCA、ステレオ、IEEE−1394、シリアルバス、ユニバーサルシリアルバス(USB)、赤外、PS/2、BNC、共軸、コンポーネント、複合、デジタルビジュアルインターフェース(DVI)、高解像度マルチメディアインターフェース(HDMI)(登録商標)、RFアンテナ、S−ビデオ、VGA、IEEE802.11a/b/g/n/x、ブルートゥース(登録商標)、セルラー(例えば、符号分割多重アクセス方式(CDMA)や高速度パケットアクセス(HSPA+)、グローバルシステムフォーモバイルコミュニケーション(GSM)(登録商標)、ロングタームエボリューション(LTE)、WiMax等)等のような通信プロトコル/方法を採用してもよい。
I/Oインターフェース803を用いて、コンピューターシステム801は、1つ以上のI/Oデバイスと通信を行う。例えば、入力デバイス804は、アンテナ、キーボード、マウス、ジョイスティック、(赤外線)リモートコントロール、カメラ、カードリーダー、ファックス機、ドングル、生体リーダー、マイク、タッチスクリーン、タッチパッド、トラックボール、センサー(例えば、加速度計、光センサー、GPS、ジャイロスコープ、近接センサー等)、スタイラス、スキャナー、ストレージデバイス、トランシーバー、ビデオデバイス/ソース、バイザー等であってもよい。
出力デバイス805は、プリンター、ファックス機、ビデオディスプレイ(例えば、カソードレイチューブ(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、プラズマ等)、音声スピーカー等であってもよい。いくつかの実施形態において、トランシーバー806が、プロセッサー802と通信可能に配置されている。トランシーバーは、様々なタイプの無線伝送または受信を容易にする。例えば、トランシーバーは、トランシーバーチップ(例えば、テキサスインスツルメンツWiLink WL1283、ブロードコムBCM4750IUB8、インフィニオンテクノロジーズX−Gold 618−PMB9800等)に動作可能に接続されたアンテナを含み、これにより、IEEE802.11a/b/g/n、ブルートゥース、FM、グローバルポジショニングシステム(GPS)、2G/3G HSDPA/HSUPA通信等を提供することができる。
いくつかの実施形態において、プロセッサー802は、ネットワークインターフェース807を介して、通信ネットワーク808と通信可能に配置されている。ネットワークインターフェース807は、通信ネットワーク808と通信を行う。ネットワークインターフェースは、これに限定されないが、直接接続、イーサネット(登録商標)(例えば、ツイストペア10/100/1000ベースT)、トランスミッションコントロールプロトコル/インターネットプロトコル(TCP/IP)、トークンリング、IEEE802.11a/b/g/n/x等であってもよい。通信ネットワーク808は、これに限定されないが、直接相互接続、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、無線ネットワーク(例えば、ワイヤレスアプリケーションプロトコルを用いたもの)、インターネット等であってもよい。ネットワークインターフェース807および通信ネットワーク808を用いることにより、コンピューターシステム801は、デバイス809および810と通信を行うことができる。これらデバイスは、これに限定されないが、パーソナルコンピューター、サーバー、ファックス機、プリンター、スキャナー、携帯電話、スマートフォン(例えば、アップルiPhone(登録商標)、ブラックベリー、アンドロイドベースのスマートフォン等)、タブレットコンピューター、eBookリーダー(アマゾンキンドル、Nook等)の様々な携帯デバイス、ラップトップコンピューター、ノートパソコン、ゲームコンソール(マイクロソフトXbox、任天堂DS、ソニープレイステーション等)等を含む。いくつかの実施形態において、コンピューターシステム801は、それ自身が、1つ以上のこれらのデバイスを具体化するものであってもよい。
いくつかの実施形態において、プロセッサー802は、ストレージインターフェース812を介して、1つ以上のメモリーデバイス(例えば、RAM713、ROM714等)と通信可能に配置されている。ストレージインターフェースは、これに限定されないが、シリアルアドバンスドテクノロジーアッタチメント(SATA)、統合デバイスエレクトロニクス(IDE)、IEEE−1394、ユニバーサルシリアルバス(USB)、ファイバーチャンネル、スマートコンピューターシステムインターフェース(SCSI)等の接続プロトコルを採用する、メモリードライブ、リムーバブルディスクドライブ等のメモリーデバイスに接続される。さらに、メモリーデバイスは、ドラム、磁気ディスクドライブ、光磁気ドライブ、光ドライブ、独立性ディスクの冗長アレイ(RAID)、ソリッドメモリーデバイス、ソリッドステートドライブ等を含んでいてもよい。メモリーデバイスのバリエーションが、例えば、本開示において利用される任意のデータベースを実施するために用いられてもよい。
メモリーデバイスは、これに限定されないが、オペレーティングシステム816、ユーザーインターフェースアプリケーション817、ユーザー/アプリケーションデータ818(例えば、本開示において議論された任意のデータ変数またはデータ記録)等を含むプログラムまたはデータベースコンポーネントの集合を保存する。オペレーティングシステム816は、コンピューターシステム801のリソース管理および動作を容易にする。オペレーティングシステムの例としては、これに限定されないが、アップルマッキントッシュOSX、ユニックス、ユニックス風システムディストリビューション(例えば、Berkeley Software Distribution(BSD)、FreeBSD,NetBSD,OpenBSD等)、リナックス(登録商標)ディストリビューション(例えば、Red Hat、Ubuntu、Kubuntu等)、IBM OS/2、マイクロソフトウィンドウズ(登録商標)(XP、Vista/7/8等)、アップルiOS、グーグルアンドロイド、ブラックベリーOS等を挙げることができる。ユーザーインターフェース817は、テキストまたは画像のファシリティを介して、プログラムコンポーネントの表示、実行、インタラクション、操作、または動作を容易にする。例えば、ユーザーインターフェースは、コンピューターシステム801に動作可能に接続された表示システム上のコンピューターインタラクションインターフェース要素(これに限定されないが、カーソル、アイコン、チェックボックス、メニュー、スクロール、ウィンドウ、ウィジェット等)を提供する。グラフィカルユーザーインターフェース(GUIs)は、これに限定されないが、アップルマッキントッシュオペレーティングシステムのAqua、IBS OS/2、マイクロソフトウィンドウズ(例えば、Aero、Metro等)、ユニックスX−Windows、ウェブインターフェースライブラリ(例えば、ActiveX、Java(登録商標)、Javascript,AJAX、HTML、Adobe Flash等)等を含む。
いくつかの実施形態において、コンピューターシステム801は、データ、変数、記録等の本開示において記述されたようなユーザー/アプリケーションデータ818を保存する。このようなデータベースは、OracleまたはSybaseのようなフォールトトレラント、リレーショナル、スケーラブル、セキュアデータベースとして実施されてもよい。代替的に、そのようなデータベースは、アレイ、ハッシュ、連結リスト、構造化テキストファイル(例えば、XML)、テーブル、またはオブジェクト指向データベース(例えば、ObjectStore、Poet、Zope等を用いたもの)のような標準化データベースを用いて実施されてもよい。このようなデータベースは、本開示において上で述べられた様々なコンピューターシステム間で分散または統合されていてもよい。任意のコンピューターまたはデータベースコンポーネントの構造および動作は、任意の動作組み合わせによって、組み合わせ、統合、または分散されていてもよい。
さらに、いくつかの実施形態において、送受信されるサーバーのメッセージおよび命令は、オペレーティングシステムを含むハードウェアおよびクラウド実施に常駐するプログラムコード(すなわち、アプリケーションコード)から発せられる。さらに、本明細書において提供される1つ以上のシステムおよび方法が、クラウドベースの実施に好適であり得ることは留意されるべきである。例えば、いくつかの実施形態において、本開示の方法において用いられるデータのいくつかまたは全てが、任意のクラウド演算プラットフォーム上から得られるもの、または、任意のクラウド演算プラットフォーム上に保存されるものであってもよい。
様々な実施形態は、ディープラーニングアプローチを用いた自己中心のビデオにおけるジェスチャー認識のためのマーカーレス(marker-less)の動的なハンドジェスチャー認識方法およびシステムを開示する。開示のシステムは、RGB画像データのみを用いて動作するので、奥行情報の必要性を排除することができる。これにより、ARアプリケーション用の簡易なデバイスの選択肢を広げることができる。LSTMネットワークは、リアルタイムでの4つの直感的なハンドジェスチャー(花、クリック、ズームイン、およびズームアウト)を認識することができ、さらに、より現実的なハンドジェスチャーデータを用いてモデルを微調整することにより、より複雑な認識タスクに拡張可能なポテンシャルを有している。例示的なシナリオを参照して記述されたように、開示のシステムは、ターンアラウンドタイムの減少させることができ、さらに、ジェスチャー認識の精度を向上させることができる。
本発明の実施形態は、ハードウェアおよびソフトウェア要素を含み得る。ソフトウェアにおいて実施される実施形態は、これに限定されないが、ファームウェア、常駐ソフトウェア、マイクロコード等を含む。本明細書において記述された様々なモジュールによって実行される機能は、他のモジュールまたは他のモジュールの組み合わせにおいて実施されていてもよい。記述の目的のため、コンピューター使用可能またはコンピューター可読媒体は、命令実行システム、装置、またはデバイスによって使用、または、それらと通信されるプログラムを包含、保存、通信、伝搬、または送信可能な任意の装置であってもよい。
媒体は、電子、磁気、光、電磁気、赤外、若しくは、半導体システム(または、装置、デバイス)、または、伝搬媒体であってもよい。コンピューター可読媒体の例としては、半導体またはソリッドステートメモリー、磁気テープ、リムーバブルコンピューターディスケット、ランダムアクセスメモリー(RAM)、リードオンリーメモリー(ROM)、剛性磁気ディスク、および光ディスクが挙げられる。光ディスクの最近の例としては、コンピューターディスクリードオンリーメモリー(CD−ROM)、コンパクトディスクリード/ライト(CD−R/W)、およびDVDが挙げられる。

Claims (15)

  1. ハンドジェスチャー認識のためのプロセッサー実施方法であって、
    1つ以上のハードウェアプロセッサーによって、ウェアラブル拡張現実(AR)デバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程であって、
    前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含む、前記メディアストリームの前記複数のフレームを受信する前記工程と、
    前記1つ以上のハードウェアプロセッサーによって、ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定する工程であって、
    前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
    前記複数のキーポイントは、21個の手のキーポイントを含み、
    前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含む、前記時間情報を推定する前記工程と、
    前記1つ以上のハードウェアプロセッサーによって、多層ロングショートタームメモリー(LSTM)分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程と、を含むことを特徴とするプロセッサー実施方法。
  2. 前記メディアストリームを取得した際に、前記複数のフレームをダウンスケールする工程をさらに含む請求項1に記載のプロセッサー実施方法。
  3. 前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定する前記工程は、
    前記ディープラーニングネットワークを用いて、複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する工程であって、
    前記複数の潜在的ネットワーク3Dアーティキュレーション履歴は、前記ユーザーの前記手の複数のトレーニングサンプルRGB画像から判別された前記複数のキーポイントを含む、前記複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定する前記工程と、
    前記複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、前記複数のフレーム内の前記ユーザーの前記手の前記複数のキーポイントを検出する工程と、を含む請求項2に記載のプロセッサー実施方法。
  4. 前記多層LSTM分類ネットワークは、
    前記ユーザーの前記手の上において検出された前記複数のキーポイントの3D座標シーケンスにおける長期の依存性およびパターンを学習するための複数のLSTMセルから構成されるLSTM層を含む第1の層と、
    前記時間情報を1次元にする平滑化層を含む第2の層と、
    前記動的なハンドジェスチャーのそれぞれに対応する出力スコアを用いる完全接続層を含む第3の層であって、
    前記出力スコアは、前記少なくとも1つの事前定義されたジェスチャークラスへの分類用の前記動的なハンドジェスチャーのそれぞれに対応する事後確率を示している、前記第3の層と、を含む請求項3に記載のプロセッサー実施方法。
  5. 複数の前記動的なハンドジェスチャーのうちの前記動的なハンドジェスチャーを分類するための前記LSTM分類ネットワークをテストする工程をさらに含み、
    前記LSTM分類ネットワークをテストする前記工程は、
    softmaxアクティベーション機能を用いることにより、前記出力スコアを、非正規化ログ確率として解釈し、さらに、以下の式を用いて、前記出力スコアを0から1の範囲に圧縮する工程を含み、
    Figure 2019071048
    ここで、Kはクラスの数であり、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスあり、σ(s)は前記複数の動的なハンドジェスチャーのそれぞれに関連付けられた前記事後確率を示すKx1出力ベクトルである請求項4に記載のプロセッサー実施方法。
  6. 前記LSTM分類ネットワークをトレーニングする工程をさらに含み、
    前記LSTM分類ネットワークをトレーニングする前記工程は、
    以下の式を用いて、前記複数のトレーニングサンプルRGB画像のi番目のトレーニングサンプルのクロスエントロピー損失Lを算出する工程であって、
    =−h*log(σ(s)
    ここで、hは前記複数のトレーニングサンプルRGB画像を含む入力のワンホットラベルを示す1xKベクトルである、前記i番目のトレーニングサンプルの前記クロスエントロピー損失Lを算出する前記工程と、
    前記複数のトレーニングサンプルRGB画像のLの平均を算出し、さらに、前記トレーニングにおいて、前記LSTM分類ネットワークを微調整するために、前記LSTM分類ネットワークへ送り返す工程と、を含む請求項4に記載のプロセッサー実施方法。
  7. 3Dの前記動的なハンドジェスチャーを前記少なくとも1つの事前定義されたジェスチャークラスへ分類した際に、分類された前記少なくとも1つの事前定義されたジェスチャークラスを、前記少なくとも1つのRGBセンサーを実装しているデバイスおよび前記ウェアラブルARデバイスの少なくとも一方に送信する工程と、
    前記デバイスに事前定義されたタスクを実行させる工程と、を含む請求項1に記載のプロセッサー実施方法。
  8. ハンドジェスチャー認識のためのシステムであって、
    1つ以上のメモリーと、
    前記1つ以上のメモリーに接続された1つ以上のハードウェアプロセッサーと、を含み、
    前記1つ以上のハードウェアプロセッサーは、前記1つ以上のメモリー内に保存されているプログラム命令を実行することにより、
    ウェアラブルARデバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信することができ、
    前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含み、
    さらに、前記1つ以上のハードウェアプロセッサーは、前記命令を実行することにより、
    ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定することができ、
    前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
    前記複数のキーポイントは、21個の手のキーポイントを含み、
    前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含み、
    さらに、前記1つ以上のハードウェアプロセッサーは、前記命令を実行することにより、
    多層LSTM分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類することができることを特徴とするシステム。
  9. 前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記メディアストリームを取得した際に、前記複数のフレームをダウンスケールするよう、さらに構成されている請求項8に記載のシステム。
  10. 前記動的なハンドジェスチャーに関連付けられた前記時間情報を推定するために、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
    前記ディープラーニングネットワークを用いて、複数の潜在的ネットワーク3Dアーティキュレーション履歴を推定するよう、さらに構成されており、
    前記複数の潜在的ネットワーク3Dアーティキュレーション履歴は、前記ユーザーの前記手の複数のトレーニングサンプルRGB画像から判別された前記複数のキーポイントを含み、
    さらに、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
    前記複数の潜在的ネットワーク3Dアーティキュレーション履歴に基づいて、前記複数のフレーム内の前記ユーザーの前記手の前記複数のキーポイントを検出するよう、構成されている請求項9に記載のシステム。
  11. 前記多層LSTM分類ネットワークは、
    前記ユーザーの前記手の上において検出された前記複数のキーポイントの3D座標シーケンスにおける長期の依存性およびパターンを学習するための複数のLSTMセルから構成されるLSTM層を含む第1の層と、
    前記時間情報を1次元にする平滑化層を含む第2の層と、
    前記動的なハンドジェスチャーのそれぞれに対応する出力スコアを用いる完全接続層を含む第3の層であって、
    前記出力スコアは、前記少なくとも1つの事前定義されたジェスチャークラスへの分類用の前記動的なハンドジェスチャーのそれぞれに対応する事後確率を示している、前記第3の層と、を含む請求項10に記載のシステム。
  12. 前記1つ以上のハードウェアプロセッサーは、前記命令によって、複数の前記動的なハンドジェスチャーのうちの前記動的なハンドジェスチャーを分類するための前記LSTM分類ネットワークをテストするよう、さらに構成されており、
    前記LSTM分類ネットワークをテストするために、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
    softmaxアクティベーション機能を用いることにより、前記出力スコアを、非正規化ログ確率として解釈し、さらに、以下の式を用いて、前記出力スコアを0から1の範囲に圧縮するよう、さらに構成されており、
    Figure 2019071048
    ここで、Kはクラスの数であり、sはsoftmax機能への入力、スコアのKx1ベクトルであり、jは0からK−1の間で変化するインデックスあり、σ(s)は前記複数の動的なハンドジェスチャーのそれぞれに関連付けられた前記事後確率を示すKx1出力ベクトルである請求項11に記載のシステム。
  13. 前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記LSTM分類ネットワークをトレーニングするよう、さらに構成されており、
    さらに、前記LSTM分類ネットワークをトレーニングするために、前記1つ以上のハードウェアプロセッサーは、前記命令によって、
    以下の式を用いて、前記複数のトレーニングサンプルRGB画像のi番目のトレーニングサンプルのクロスエントロピー損失Lを算出するよう、構成されており、
    =−h*log(σ(s)
    ここで、hは前記複数のトレーニングサンプルRGB画像を含む入力のワンホットラベルを示す1xKベクトルであり、
    さらに、前記1つ以上のハードウェアプロセッサーは、前記命令によって、前記複数のトレーニングサンプルRGB画像のLの平均を算出し、さらに、前記トレーニングにおいて、前記LSTM分類ネットワークを微調整するために、前記LSTM分類ネットワークへ伝達するよう、構成されている請求項11に記載のシステム。
  14. 3Dの前記動的なハンドジェスチャーを前記少なくとも1つの事前定義されたジェスチャークラスへ分類した際に、前記1つ以上のハードウェアプロセッサーは、前記命令によって、分類された前記少なくとも1つの事前定義されたジェスチャークラスを、前記少なくとも1つのRGBセンサーを実装しているデバイスおよび前記ウェアラブルARデバイスの少なくとも一方に送信し、前記デバイスが事前定義されたタスクを実行することを可能にする請求項8に記載のシステム。
  15. ジェスチャー認識のための方法を実行するための、内部において具体化されたコンピュータープログラムを有する非一時的コンピューター可読媒体であって、
    前記方法は、
    1つ以上のハードウェアプロセッサーによって、ウェアラブル拡張現実(AR)デバイスに通信可能に接続された少なくとも1つのRGBセンサーを用いて、ユーザーの一人称視点(FPV)から取得されたシーンのメディアストリームの複数のフレームを受信する工程であって、
    前記メディアストリームは、前記シーンの前記複数のフレームに関連付けられたRGB画像データを含み、前記シーンは、前記ユーザーによって実行された動的なハンドジェスチャーを含む、前記メディアストリームの前記複数のフレームを受信する前記工程と、
    前記1つ以上のハードウェアプロセッサーによって、ディープラーニングモデルを用いることにより、前記RGB画像データから、前記動的なハンドジェスチャーに関連付けられた時間情報を推定する工程であって、
    前記推定された時間情報は、前記ユーザーのハンドポーズに関連付けられ、さらに、前記複数のフレーム内の前記ユーザーの手の上において特定される複数のキーポイントを含み、
    前記複数のキーポイントは、21個の手のキーポイントを含み、
    前記21個のキーポイントの各キーポイントは、指1つ当たり4個のキーポイントと、前記ユーザーの前記手の手首付近の1個のキーポイントを含む、前記時間情報を推定する前記工程と、
    前記1つ以上のハードウェアプロセッサーによって、多層ロングショートタームメモリー(LSTM)分類ネットワークを用いて、前記複数のキーポイントに関連付けられた前記時間情報に基づいて、前記動的なハンドジェスチャーを少なくとも1つの事前定義されたジェスチャークラスに分類する工程と、を含むことを特徴とする非一時的コンピューター可読媒体。
JP2018167317A 2017-10-07 2018-09-06 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法 Active JP6716650B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201721035650 2017-10-07
IN201721035650 2017-10-07

Publications (2)

Publication Number Publication Date
JP2019071048A true JP2019071048A (ja) 2019-05-09
JP6716650B2 JP6716650B2 (ja) 2020-07-01

Family

ID=62904241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167317A Active JP6716650B2 (ja) 2017-10-07 2018-09-06 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法

Country Status (6)

Country Link
US (1) US10429944B2 (ja)
EP (1) EP3467707B1 (ja)
JP (1) JP6716650B2 (ja)
CN (1) CN109635621B (ja)
CA (1) CA3016921C (ja)
IL (1) IL261580B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089761A (ja) * 2020-02-14 2021-06-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. ジェスチャによる電子機器の制御方法及び装置
EP4250065A1 (en) 2022-03-22 2023-09-27 Canon Kabushiki Kaisha Gesture recognition apparatus, head-mounted-type display apparatus, gesture recognition method, program, and computer readable medium

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN108229391B (zh) * 2018-01-02 2021-12-24 京东方科技集团股份有限公司 手势识别装置及其服务器、手势识别系统、手势识别方法
US10783712B2 (en) * 2018-06-27 2020-09-22 Facebook Technologies, Llc Visual flairs for emphasizing gestures in artificial-reality environments
US10712901B2 (en) 2018-06-27 2020-07-14 Facebook Technologies, Llc Gesture-based content sharing in artificial reality environments
US10635895B2 (en) 2018-06-27 2020-04-28 Facebook Technologies, Llc Gesture-based casting and manipulation of virtual content in artificial-reality environments
CN108921101A (zh) * 2018-07-04 2018-11-30 百度在线网络技术(北京)有限公司 基于手势识别控制指令的处理方法、设备及可读存储介质
KR20200101207A (ko) * 2019-02-19 2020-08-27 삼성전자주식회사 복수의 카메라들을 이용하여 이미지의 배율을 변경하기 위한 전자 장치 및 방법
CN110070063B (zh) * 2019-04-29 2020-06-30 北京字节跳动网络技术有限公司 目标对象的动作识别方法、装置和电子设备
CN110109547A (zh) * 2019-05-05 2019-08-09 芋头科技(杭州)有限公司 基于手势识别的命令激活方法和系统
CN110222580B (zh) * 2019-05-09 2021-10-22 中国科学院软件研究所 一种基于三维点云的人手三维姿态估计方法和装置
US11176699B2 (en) * 2019-05-24 2021-11-16 Tencent America LLC Augmenting reliable training data with CycleGAN for hand pose estimation
CN110286749B (zh) * 2019-05-27 2022-11-15 华中师范大学 基于深度数据的手部姿势估计和追踪方法
US11543888B2 (en) * 2019-06-27 2023-01-03 Google Llc Intent detection with a computing device
CN110321566B (zh) * 2019-07-10 2020-11-13 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
US11488320B2 (en) 2019-07-31 2022-11-01 Samsung Electronics Co., Ltd. Pose estimation method, pose estimation apparatus, and training method for pose estimation
CN110543916B (zh) * 2019-09-06 2022-02-01 天津大学 一种缺失多视图数据的分类方法及系统
US11170576B2 (en) 2019-09-20 2021-11-09 Facebook Technologies, Llc Progressive display of virtual objects
US11086406B1 (en) * 2019-09-20 2021-08-10 Facebook Technologies, Llc Three-state gesture virtual controls
US10991163B2 (en) 2019-09-20 2021-04-27 Facebook Technologies, Llc Projection casting in virtual environments
US11176745B2 (en) 2019-09-20 2021-11-16 Facebook Technologies, Llc Projection casting in virtual environments
US11189099B2 (en) 2019-09-20 2021-11-30 Facebook Technologies, Llc Global and local mode virtual object interactions
CN112686084A (zh) * 2019-10-18 2021-04-20 宏达国际电子股份有限公司 图像标注系统
CN112767300A (zh) * 2019-10-18 2021-05-07 宏达国际电子股份有限公司 自动生成手部的标注数据的方法和计算骨骼长度的方法
CN110865704B (zh) * 2019-10-21 2021-04-27 浙江大学 一种用于360°悬浮光场三维显示系统的手势交互装置和方法
US11086476B2 (en) * 2019-10-23 2021-08-10 Facebook Technologies, Llc 3D interactions with web content
WO2021098543A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 一种姿势识别方法及装置、存储介质
US11175730B2 (en) 2019-12-06 2021-11-16 Facebook Technologies, Llc Posture-based virtual space configurations
US11475639B2 (en) 2020-01-03 2022-10-18 Meta Platforms Technologies, Llc Self presence in artificial reality
CN111444771B (zh) * 2020-02-27 2022-06-21 浙江大学 一种基于循环神经网络的手势前置实时识别方法
US11227151B2 (en) * 2020-03-05 2022-01-18 King Fahd University Of Petroleum And Minerals Methods and systems for computerized recognition of hand gestures
CN111523380B (zh) * 2020-03-11 2023-06-30 浙江工业大学 一种基于人脸和姿态识别的口罩佩戴情况监测方法
CN111444820B (zh) * 2020-03-24 2021-06-04 清华大学 一种基于成像雷达的手势识别方法
US11257280B1 (en) 2020-05-28 2022-02-22 Facebook Technologies, Llc Element-based switching of ray casting rules
US11256336B2 (en) 2020-06-29 2022-02-22 Facebook Technologies, Llc Integration of artificial reality interaction modes
US11227445B1 (en) 2020-08-31 2022-01-18 Facebook Technologies, Llc Artificial reality augments and surfaces
US11176755B1 (en) 2020-08-31 2021-11-16 Facebook Technologies, Llc Artificial reality augments and surfaces
CN112199994B (zh) * 2020-09-03 2023-05-12 中国科学院信息工程研究所 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
US11178376B1 (en) 2020-09-04 2021-11-16 Facebook Technologies, Llc Metering for display modes in artificial reality
US11514605B2 (en) 2020-09-29 2022-11-29 International Business Machines Corporation Computer automated interactive activity recognition based on keypoint detection
CN114510142B (zh) * 2020-10-29 2023-11-10 舜宇光学(浙江)研究院有限公司 基于二维图像的手势识别方法及其系统和电子设备
US11113893B1 (en) 2020-11-17 2021-09-07 Facebook Technologies, Llc Artificial reality environment with glints displayed by an extra reality device
CN114515146B (zh) * 2020-11-17 2024-03-22 北京机械设备研究所 基于电学测量的智能手势识别方法及系统
US11409405B1 (en) 2020-12-22 2022-08-09 Facebook Technologies, Llc Augment orchestration in an artificial reality environment
US11461973B2 (en) 2020-12-22 2022-10-04 Meta Platforms Technologies, Llc Virtual reality locomotion via hand gesture
US11294475B1 (en) 2021-02-08 2022-04-05 Facebook Technologies, Llc Artificial reality multi-modal input switching model
WO2022197367A1 (en) * 2021-03-17 2022-09-22 Qualcomm Technologies, Inc. Keypoint-based sampling for pose estimation
US11804040B2 (en) 2021-03-17 2023-10-31 Qualcomm Incorporated Keypoint-based sampling for pose estimation
CN113010018B (zh) * 2021-04-20 2022-09-20 歌尔股份有限公司 交互控制方法、终端设备及存储介质
CN113378641B (zh) * 2021-05-12 2024-04-09 北京工业大学 基于深度神经网络和注意力机制的手势识别方法
CN113239824B (zh) * 2021-05-19 2024-04-05 北京工业大学 一种基于3D-Ghost模块的多模态训练单模态测试的动态手势识别方法
CN113296604B (zh) * 2021-05-24 2022-07-08 北京航空航天大学 一种基于卷积神经网络的真3d手势交互方法
US11757951B2 (en) 2021-05-28 2023-09-12 Vizio, Inc. System and method for configuring video watch parties with gesture-specific telemojis
US11762952B2 (en) 2021-06-28 2023-09-19 Meta Platforms Technologies, Llc Artificial reality application lifecycle
US11295503B1 (en) 2021-06-28 2022-04-05 Facebook Technologies, Llc Interactive avatars in artificial reality
US11748944B2 (en) 2021-10-27 2023-09-05 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
US11798247B2 (en) 2021-10-27 2023-10-24 Meta Platforms Technologies, Llc Virtual object structures and interrelationships
CN114185429B (zh) * 2021-11-11 2024-03-26 杭州易现先进科技有限公司 手势关键点定位或姿态估计的方法、电子装置和存储介质
WO2023122543A1 (en) * 2021-12-20 2023-06-29 Canon U.S.A., Inc. Apparatus and method for gesture recognition stabilization
CN114979302A (zh) * 2022-04-22 2022-08-30 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及系统
CN115079818A (zh) * 2022-05-07 2022-09-20 北京聚力维度科技有限公司 一种手部捕捉方法和系统
CN114882443A (zh) * 2022-05-31 2022-08-09 江苏濠汉信息技术有限公司 应用于电缆附件施工的边缘计算系统
US11947862B1 (en) 2022-12-30 2024-04-02 Meta Platforms Technologies, Llc Streaming native application content to artificial reality devices
CN117687517A (zh) * 2024-02-02 2024-03-12 北京思路智园科技有限公司 一种用于化工教培的增强现实教学改进方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150177842A1 (en) * 2013-12-23 2015-06-25 Yuliya Rudenko 3D Gesture Based User Authorization and Device Control Methods
US9720515B2 (en) * 2015-01-02 2017-08-01 Wearable Devices Ltd. Method and apparatus for a gesture controlled interface for wearable devices
US9953216B2 (en) * 2015-01-13 2018-04-24 Google Llc Systems and methods for performing actions in response to user gestures in captured images
KR101745406B1 (ko) * 2015-09-03 2017-06-12 한국과학기술연구원 깊이 영상 기반의 손 제스처 인식 장치 및 방법
CN106325509A (zh) * 2016-08-19 2017-01-11 北京暴风魔镜科技有限公司 三维手势识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089761A (ja) * 2020-02-14 2021-06-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. ジェスチャによる電子機器の制御方法及び装置
JP7146977B2 (ja) 2020-02-14 2022-10-04 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ジェスチャによる電子機器の制御方法及び装置
EP4250065A1 (en) 2022-03-22 2023-09-27 Canon Kabushiki Kaisha Gesture recognition apparatus, head-mounted-type display apparatus, gesture recognition method, program, and computer readable medium

Also Published As

Publication number Publication date
IL261580A (en) 2019-02-28
US10429944B2 (en) 2019-10-01
EP3467707C0 (en) 2024-03-13
CA3016921C (en) 2023-06-27
CN109635621B (zh) 2023-04-14
CA3016921A1 (en) 2019-04-07
US20190107894A1 (en) 2019-04-11
IL261580B (en) 2021-06-30
CN109635621A (zh) 2019-04-16
EP3467707B1 (en) 2024-03-13
EP3467707A1 (en) 2019-04-10
JP6716650B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
JP6716650B2 (ja) 一人称視点でのディープラーニングベースのハンドジェスチャー認識のためのシステムおよび方法
WO2020253663A1 (zh) 基于人工智能的图像区域识别方法、模型训练方法及装置
US11233952B2 (en) Selective identification and order of image modifiers
WO2020177582A1 (zh) 视频合成的方法、模型训练的方法、设备及存储介质
WO2020244373A1 (zh) 基于人工智能的图像识别方法以及相关装置
CN109716781B (zh) 用于视频流的实时绘制的系统、装置、介质和方法
US11636644B2 (en) Output of virtual content
KR20190108181A (ko) 구면 비디오 편집
CN109219955A (zh) 视频按入
EP3090424A1 (en) Assigning virtual user interface to physical object
US9830395B2 (en) Spatial data processing
US20160049006A1 (en) Spatial data collection
US9536161B1 (en) Visual and audio recognition for scene change events
CN109154862B (zh) 用于处理虚拟现实内容的装置、方法和计算机可读介质
US10915778B2 (en) User interface framework for multi-selection and operation of non-consecutive segmented information
US20150278586A1 (en) System and method for guided continuous body tracking for complex interaction
US20180160133A1 (en) Realtime recording of gestures and/or voice to modify animations
US11321927B1 (en) Temporal segmentation
JP6858159B2 (ja) 頭部装着装置を使用して関心領域を標識するテレプレゼンスのフレームワーク
US20230410441A1 (en) Generating user interfaces displaying augmented reality graphics
US20240020920A1 (en) Incremental scanning for custom landmarkers
US20240056761A1 (en) Three-dimensional (3d) sound rendering with multi-channel audio based on mono audio input
WO2024050245A1 (en) Multi-perspective augmented reality experience
WO2022245831A1 (en) Automatic media capture using biometric sensor data
CN114630085A (zh) 图像投影方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200610

R150 Certificate of patent or registration of utility model

Ref document number: 6716650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250