JP7351130B2 - 深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム - Google Patents

深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム Download PDF

Info

Publication number
JP7351130B2
JP7351130B2 JP2019138269A JP2019138269A JP7351130B2 JP 7351130 B2 JP7351130 B2 JP 7351130B2 JP 2019138269 A JP2019138269 A JP 2019138269A JP 2019138269 A JP2019138269 A JP 2019138269A JP 7351130 B2 JP7351130 B2 JP 7351130B2
Authority
JP
Japan
Prior art keywords
interaction
learning algorithm
deep learning
user interface
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019138269A
Other languages
English (en)
Other versions
JP2020027647A (ja
Inventor
チィーウ パトリック
チョルファン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2020027647A publication Critical patent/JP2020027647A/ja
Application granted granted Critical
Publication of JP7351130B2 publication Critical patent/JP7351130B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/48Details of cameras or camera bodies; Accessories therefor adapted for combination with other photographic or optical apparatus
    • G03B17/54Details of cameras or camera bodies; Accessories therefor adapted for combination with other photographic or optical apparatus with projector
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B21/00Projectors or projection-type viewers; Accessories therefor
    • G03B21/14Details
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B21/00Projectors or projection-type viewers; Accessories therefor
    • G03B21/14Details
    • G03B21/26Projecting separately subsidiary matter simultaneously with main image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/042Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means
    • G06F3/0425Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by opto-electronic means using a single imaging device like a video camera for tracking the absolute position of a single or a plurality of objects with respect to an imaged reference surface, e.g. video camera imaging a display or a projection screen, a table or a wall surface, on which a computer generated image is displayed or projected
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Physiology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本開示は、全体としてジェスチャ検出に関し、より詳細には、投影システムにおけるジェスチャ検出に関する。
プロジェクタ-カメラシステムは、卓上(tabletop)及び壁などのいかなる表面も対話型ディスプレイに変えることができる。当該システムの基本的な課題は、投影されたユーザインターフェース(UI)ウィジェット上のジェスチャ動作を認識することである。指モデル又は遮蔽パターンを使用する従来技術の手法は、明るさの問題及び反射を有する環境照明条件、投影されるビデオ画像内のアーチファクト及びノイズ、及び深度カメラに伴う不正確さを含む、いくつかの課題を有する。
米国特許第9317171号明細書
BORKOWSKI et al, User-Centric Design of a Vision System for Interactive Applications, Proceedings of the Fourth IEEE International Conference on Computer Vision Systems (ICVS 2006), 2006年7月 FARNEBACK, Gunnar, Two-Frame Motion Estimation Based on Polynomial Expansion, Computer Vision Laboratory, Linkoping University, スウェーデン国リンシェーピング、2003年 HARRISON et al, OmniTouch: Wearable Multitouch Interaction Everywhere, UIST'11, 2011年10月19日、米国カリフォルニア州サンタバーバラ KANE et al, Bonfire: A Nomadic System for Hybrid Laptop-Tabletop Interaction, UIST'09, 2009年10月7日, pp. 129-138、カナダ国ブリティッシュコロンビア州ビクトリア KJELDSEN et al, Interacting with Steerable Projected Displays, Proceedings of 5th International Conference on Automatic Face and Gesture Recognition (FG'02), 2002年5月21日, 米国ワシントンDC LECUN et al, Deep Learning, NATURE, 2015年5月28日, Vol 521, pp. 426-444, Macmillan Publishers Limited. LAO et al, FACT: Fine-grained Cross-media Interaction with Documents via a Portable Hybrid Paper-Laptop Interface, MM'10, 2010年10月29日, イタリア国フィレンツェ PINHANEZ et al, Creating Touch-Screens Anywhere with Interactive Projected Displays, MM'03, 2003年11月8日, 米国カリフォルニア州バークレイ SIMONYAN et al, Two-Stream Convolutional Networks for Action Recognition in Videos, Visual Geometry Group, University of Oxford, 2014年 TANG et al., GESTURE VIEWPORT: INTERACTING WITH MEDIA CONTENT USING FINGER GESTURES ON ANY SURFACE, FX Palo Alto Laboratory, Inc., 2014年 WELLNER, Pierre, The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display, UIST'91, 1991年11月13日, pp. 27-33 Willow Garage, OpenCV, from http://www.willowgarage.com/pages/software/opencv, 2018年8月8日ダウンロード WILSON, Andrew D., Using a Depth Camera as a Touch Sensor, ITS 2010: Devices & Algorithms, 2010年11月10日, ドイツ国ザールブリュッケン XIAO et al., WorldKit: Rapid and Easy Creation of Ad-hoc Interactive Applications on Everyday Surfaces, CHI 2013, 2013年5月2日, フランス国パリ
本開示では、本明細書に記載される例示的な実装形態は、深度カメラと深層ニューラルネット手法を採用することで、よりロバストな認識装置及びシステムを提供する。
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、を含む。
前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された前記対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
前記プロセッサが、前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
前記プロジェクタシステムが、卓上又は壁面に前記UIを投影するように構成されてもよい。
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するための手段と、を含む。
本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース(UI)を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定することを含む。
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されたプロセッサと、を含んでもよい。
前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成されてもよい。
前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成されてもよい。
本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース(UI)を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算するための手段と、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識するための手段であって、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練された、手段と、並びに認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するための手段と、を含んでもよい。
本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース(UI)を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行することを含んでもよい。
本開示の態様は、ユーザインターフェース(UI)を投影するように構成されたプロジェクタシステムと、前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、を備え、前記専用ハードウェアプロセッサが、対話を検出しない場合、前記深層学習アルゴリズムを適用せず、対話を検出した場合、前記深層学習アルゴリズムの適用に基づいて動作コマンドの実行を決定するように構成される、装置であってもよい。
前記専用ハードウェアプロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。
前記専用ハードウェアプロセッサが、前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。
前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)であってもよい。
前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成されてもよい。
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。
例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図である。 例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図である。 例示的な実装形態による、プロジェクタシステム及びカメラシステムについての例示的なサンプルフレームを示す図である。 従来技術によって利用される技術に関する例示的な課題の表である。 例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的データベースを示す図である。 例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図である。 例示的な実装形態による、例示的な全体フローを示す図である。 本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す図である。
以下の発明を実施するための形態は、本出願の図及び例示的な実装形態のさらなる詳細を提供する。図の間で重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体にわたって使用される用語は例として提供され、限定を意図するものではない。たとえば、「自動」という用語の使用は、本出願の実装形態を実施する当業者の所望の実装形態に応じて、実装形態のいくつかの態様に対するユーザ又は管理者の制御を含む、全自動又は半自動の実装形態を含んでもよい。選択は、ユーザインターフェース若しくは他の入力手段を介してユーザによって行ってもよく、所望のアルゴリズムを介して実施することもできる。本明細書に記載される例示的な実装形態は、単独で又は組み合わせて利用することができ、例示的な実装形態の機能は、所望の実装形態に応じて任意の手段により実装することができる。
例示的な実装形態は、機械学習ベースのアルゴリズムの利用に関する。従来技術では、広範囲の機械学習ベースのアルゴリズムが、他の自動車の障害物若しくは交通標識の認識、又は特定の訓練に基づく要素の分類などの、画像又はパターン認識に適用されてきた。電力計算における進歩に鑑みて、機械学習は、投影されたUIインターフェース上でのジェスチャの検出及び生成に対してより適用可能になっている。
例示的な実装形態は、色チャネル及び深度チャネルから計算されたオプティカルフローを有する畳み込みニューラルネットワーク(convolutional neural network:CNN)を利用する。例示的な実装形態は、ディスプレイ表面の近くの活動がないフレームを除外する処理パイプラインを含み、それにより、計算サイクル及びエネルギーが節約される。本明細書に記載された例示的な実装形態のラベル付きデータセットを利用したテストでは、高い精度(たとえば、約95%の精度)が達成された。
プロジェクタ-カメラシステムは、卓上及び壁などのいかなる表面も対話型ディスプレイに変えることができる。UIウィジェットを表面に投影することにより、ユーザはボタンなどの使い慣れたグラフィカルユーザインターフェース要素と対話することができる。ウィジェット上の指の動作(たとえば、押下ジェスチャ、スワイプジェスチャ)を認識するために、画像認識(computer vision)方法を適用することができる。色チャネル及び深度チャネルを有する深度カメラも、3D情報を有するデータを提供するために採用することができる。図1A及び図1Bは、本明細書に記載された例示的な実装形態による、例示的なプロジェクタ-カメラシステムを示す。
図1Aは、例示的な実装形態による、プロジェクタ-カメラ構成を含むシステムの例示的なハードウェア図を示す。システム100は、ジェスチャ/UI対話キャプチャ用のカメラシステム101、プロジェクタ102、プロセッサ103、メモリ104、ディスプレイ105、及びインターフェース(I/F)106を含んでいてよい。システム100は、プロジェクタ102によって卓上110上にUI111が投影されている卓上110を監視するように構成される。卓上110は、所望の実装形態に応じて、スマートデスク、会議テーブル、調理台などの形態であってよい。あるいは、壁面、建物の柱、又はUI111が投影され得る任意の他の物理的表面などの他の表面が利用されてもよい。
カメラシステム101は、所望の実装形態に応じて、ビデオ画像及び深度画像を撮影するように構成された任意の形態であってもよい。例示的な実装形態では、プロセッサ103はカメラシステムを利用して、卓上110に投影されたUI111で発生した対話の画像を撮影することができる。プロジェクタ102は、UI111を卓上110に投影するように構成されてもよく、所望の実装形態に応じて任意のタイプのプロジェクタであってもよい。例示的な実装形態では、プロジェクタ102は、UIを自由空間に投影するためのホログラフィックプロジェクタであってもよい。
ディスプレイ105は、所望の実装形態に従って、ビデオ会議用又はコンピュータ装置の結果を表示するためのタッチスクリーン又は任意の他のディスプレイの形態であってよい。ディスプレイ105はまた、所望の実装形態に従って、会議参加者又はロードされた文書を示す中央コントローラを有する1セットのディスプレイを含んでもよい。I/F106は、所望の実装形態に応じて、ディスプレイ105用のキーボード、マウス、タッチパッド、又は他の入力デバイスなどのインターフェース装置を含んでもよい。
例示的な実装形態では、プロセッサ103は、物理ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組合せを含む、中央処理装置(CPU)の形態であってよい。プロセッサ103は、投影されたUI111上で検出されたジェスチャ又は対話に関するカメラ101からのカメラ画像を含んでもよい、システムへの入力を取り込むように構成される。プロセッサ103は、本明細書に記載されたように、深層学習認識アルゴリズムを利用してジェスチャ又は対話を処理することができる。所望の実装形態に応じて、プロセッサ103は、深層学習アルゴリズムに従って認識のために画像を処理するように構成された専用グラフィック処理ユニット(Graphics Processing Unit:GPU)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)などの深層学習認識の実装を容易にする専用ハードウェアと置き換えることができ、又はそうでない場合、所望の実装形態に従うことができる。さらに、システムは、所望の実装形態を容易にするために、コンピュータプロセッサと、GPU及びFPGAなどの専用ハードウェアプロセッサとを混在させて利用することができる。
図1Bは、例示的な実装形態による、別の例示的なハードウェア構成を示す。例示的な実装形態では、システム120は、(たとえば、ロボット、ウェアラブルデバイス、ドローンなどの)他の装置と統合され、スタンドアローン装置として持ち運ばれてもよく、或いは所望の実装形態に従うことができるポータブル装置であってもよい。このような例示的な実装形態では、カメラ画像のより高速な処理及び深層アルゴリズム専用の実行を組み込むためにGPU123又はFPGAが利用されてもよい。このような専用ハードウェアは、認識のためにより高速な画像処理を可能にすることができると共に、独立型プロセッサよりも効率的な機能性を促進するために、深層学習アルゴリズムの実行に特化して構成されてもよい。さらに、図1Bのシステムは、汎用コンピュータ機能を行う汎用中央処理装置(CPU)を、本明細書に記載された画像認識及び深層学習アルゴリズムの実行に特化して構成されたGPU又はFPGAと統合することもできる。
スマートデスク又はスマート会議室を含む例示的な実装形態では、システム100は、図1Aに示されたように、卓上110と共に利用され、卓上110に取り付けられるか、或いは卓上110に関連付けられてもよく、プロジェクタシステム102は、任意の所望の実装形態に応じて、卓上110の所望の位置及び所望の向きにUI111を投影するように構成される。そのような実装形態におけるプロジェクタシステム102は、所望の実施形態に応じて、モバイルプロジェクタ、ホログラフィックプロジェクタ、大画面プロジェクタなどの形態であってもよい。カメラシステム101は、本明細書に記載されたように、深度情報及び色情報を記録して動作をキャプチャするように構成されたカメラを含むことができる。例示的な実装形態では、カメラシステム101はまた、他の場所に対して行われ、ディスプレイ105を介して視覚化された電話会議について卓上近くの人々を記録するための、1つ又は複数の追加のカメラを含んでもよく、それらの接続、制御、及び対話は、投影されたUI111により容易にすることができる。追加のカメラはまた、投影されたUI111を介してコマンドを受信すると、卓上110に置かれた文書をスキャンするように構成されてもよい。他のスマートデスク又はスマート会議室機能も、投影されたUI111により容易にすることができ、本開示はいかなる特定の実装形態にも限定されない。
ユーザインターフェース111を表面上に、又は任意の所望の場所にホログラフィックに投影するためのシステム120を含む例示的な実装形態では、システム120は、投影されたUI111上の動作を認識するための深層学習アルゴリズムの専用機能を行うように構成されたGPU123又はFPGAを用いて構成されたポータブル装置の形態であってもよい。そのような例示的な実施形態では、UIは任意の所望の場所に投影されることができ、その結果、認識されたコマンドは、その場所のコンテキスト及び投影されたUI111に基づいて、I/F106を介して制御システムに遠隔送信される。たとえば、いくつかの製造プロセスを含むスマート工場などの状況では、装置のユーザはスマート工場内のプロセスにアプローチし、プロジェクタシステム102を介してUI111を自由空間にホログラフィックに、又はプロセスに関連付けられた表面に投影することにより、プロセスを修正することができる。システム120は、遠隔制御システム又は制御サーバと通信してユーザの位置を識別し、投影されるべきUIのコンテキストを決定することができ、その結果、UIが投影システム102から投影される。したがって、システム120のユーザは、スマート工場内のプロセス固有のUIを提示させ、投影されたユーザインターフェース111を介してプロセスに修正を加えることができる。別の例示的な実装形態では、ユーザは、投影されたユーザインターフェース111を介して所望のインターフェースを選択し、スマート工場内にいる間に任意の所望のプロセスを遠隔に制御することができる。さらに、このような実装形態はスマート工場に限定されず、所望の実装形態に応じて、セキュリティチェックポイント、建物用のドアアクセスなどの所与のコンテキストに対してUIを提示することができる任意の実装形態に拡張することができる。
ポータブル装置としてシステム120を含む別の例示的な実装形態では、法執行機関は、ボディカメラ並びに本明細書に記載された動作を撮影するために利用されるカメラを含むカメラシステム101をシステム120に装備することができる。そのような例示的な実施形態では、所望の実装形態に応じて、交通違反取締中に運転者に関する情報を呼び出すためにUIがホログラフィックに又は表面に投影されて、法執行機関が文書を提供するためのインターフェースが提供されてもよい。情報又はデータベースへのアクセスは、遠隔サーバに装置を接続するI/F106により容易にすることができる。
従来技術の1つの課題は、UIウィジェット上のジェスチャ動作を認識する能力である。図2Aは、例示的な実装形態による、プロジェクタ及びカメラシステムに関する例示的なサンプルフレームを示す。従来技術のシステムでは、様々なコンピュータビジョン及び画像処理技法が開発されてきた。従来技術の手法は指又は腕をモデル化することを含み、それは通常、何らかの形のテンプレートマッチングを含む。別の従来技術の手法は、指によって生じる遮蔽パターンを使用することである。しかしながら、このような手法は、プロジェクタ-カメラシステム及び環境条件に伴ういくつかの問題によって引き起こされる課題を有する。従来技術の手法における1つの問題は環境内の照明である。明るさ及び反射は、ビデオ品質に影響を及ぼし、認識できない事象を引き起こす可能性がある。図2Aに示されたように、本明細書に記載された例示的な実装形態は、照明が低いとき200には検出201を行うことができ、照明が高いとき202には検出203を行うことができるように動作する。カメラが投影画像に向けられるプロジェクタ-カメラシステムでは、ビデオフレーム内に現れるローリングバンド又はブロックなどのアーチファクト(たとえば、深度画像203の中の指に隣接する黒い領域)が存在する可能性があり、それらは、認識できない事象又はファントム(幻影)事象を引き起こし得る。標準的なカメラ(たとえば、深度情報がない画像)だけでは、すべてのビデオフレームを大量に処理する必要があり、CPU/GPUサイクル及びエネルギーを使い果たすことになる。深度チャネルでは、不正確さ及びノイズがあり、それらが誤認識事象を引き起こす可能性がある。これらの問題及び課題は、それらによって影響を受ける方法と共に、図2Bにまとめられている。
例示的な実装形態は、深層ニューラルネット手法を利用することによって従来技術における課題に対処する。深層学習は、コンピュータビジョンの課題を含む様々な人工知能(AI)の課題について成果を達成した最先端の方法である。本明細書に記載された例示的な実装形態は、本明細書で詳細に記載されたように、色ビデオチャネル及び深度ビデオチャネルから計算された高密度オプティカルフロー画像を有するCNNを使用する深層ニューラルネットアーキテクチャを含む。
例示的な実装形態は、色及び深度を用いてビデオを検知するように構成されたRGB-D(赤緑青深度)カメラを使用してテストされた。対話イベントを記録するために特殊なタッチスクリーン面を有するプロジェクタ-カメラ構成を介してラベル付きデータが収集され、ボタンUIウィジェットと対話するユーザからジェスチャデータの小さいセット(たとえば、押下、スワイプ、他)が収集された。データがラベル付けされ、データセットに対して深層学習が行われると、深層学習方法から生成された例示的な実装形態のジェスチャ/対話検出アルゴリズムが、高いロバスト性(たとえば、意図するジェスチャ/対話を正確に検出する際、95%の精度)で実行される。データに対して訓練された深層学習モデルを使用して、(データ収集用の特殊なタッチスクリーンデバイスなしに)プロジェクタ-カメラシステムを展開することができる。
本明細書に記載されたように、図1A及び図1Bは例示的なハードウェア構成を示し、記録され得る例示的なフレームが図2Aに示される。図3は、例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図を示す。300において、フレームがRGB-Dカメラから読み出される。
301において、パイプラインの第1の部分が、カメラからの深度情報を使用して、UIウィジェット(たとえば、ボタン)の周りの領域R上の表面の近くに何かがあるかどうかを確認する。302において、R内のピクセル{Pi}の小さいサブサンプルのz値は、それらが表面より上にあり、かつ表面のz値に対してある閾値内にあるかどうかを確認することができる。そうである場合(yes)、フローは303に進み、そうでない場合(no)、さらなる処理は不要であり、フローは300に戻る。このような例示的な実装形態により、不要な処理サイクル及びエネルギー消費が節約される。
303において、領域Rにわたって、色チャネル及び深度チャネルの高密度オプティカルフローが計算される。オプティカルフローを使用する1つの動機は、それが様々な背景シーンに対してロバストであることであり、様々なユーザインターフェース設計及び外観にわたるジェスチャ/対話を例示的な実装形態が認識することを容易にするのに役立つからである。別の動機は、それが指をモデル化するか又は遮蔽パターンに基づく従来技術の手法よりも画像アーチファクト及びノイズに対してよりロバストであり得ることである。オプティカルフロー手法は、ビデオ内の動作認識でうまく機能することが確認されている。オプティカルフローを計算するために、OpenCV(登録商標)コンピュータビジョンライブラリ内のFarnebackアルゴリズムなどの、当技術分野で知られている任意の技法が利用されてもよい。オプティカルフロー処理は、チャネルごとにx成分画像及びy成分画像を生成する。
UIウィジェットを用いてジェスチャ動作を認識するための深層ニューラルネットワークの例示的な実装形態は、オペレーティングシステム上の対話型アプリケーションと適切に統合できるCognitive Toolkit(CNTK)を含んでもよいが、これに限定されず、他の深層学習ツールキット(たとえば、TensorFlow(登録商標))も所望の実装形態に応じて利用されてもよい。深層学習ツールキットを使用して、2つの交互の畳み込み層及び最大プーリング層を有する標準CNNアーキテクチャが、オプティカルフロー画像入力に利用されることができる。
したがって、304において、深層ニューラルネットワークから生成されたCNNアーキテクチャに対してオプティカルフローが評価される。305において、ジェスチャ動作が認識されたかどうか判定が行われる。認識された場合(Yes)、フローは306に進んで動作コマンドを実行し、認識されない場合(No)、フローは300に戻る。
ネットワークを訓練しテストするための例示的な実装形態では、プロジェクタ-カメラシステム、及び、ユーザインターフェースが投影される、紙で覆われたタッチスクリーンを含む構成を使用して、ラベル付きデータを収集することができる。タッチスクリーンは紙を介してタッチイベントを検知することができ、各タッチイベントのタイムスタンプ及び位置を記録することできる。タッチイベントに対応するタイムスタンプ付きフレームは、事前に記述されたタスクの名前に従ってラベル付けされ、位置と交差するウィジェットの周りの領域が抽出される。カメラシステムから、色チャネルと深度チャネルの両方について毎秒約35~45フレームのフレームレートを得ることができ、フレームは時間的に同期され、空間的に整列される。
3人のユーザが各々3つのセッションに亘ってタスクを実行する、小さいデータセット(1.9GB)で概念実証テストが行われた。タスクには、投影されたボタンに対してジェスチャを実行することが含まれていた。ジェスチャはクラス{Press,Swipe,Other}に分割された。Press(押下)ジェスチャ及びSwipe(スワイプ)ジェスチャは指を用いて実行される。Other(その他)ジェスチャの場合、ジェスチャを実行するために手のひらが使用された。手のひらを使用することは、一般的な「悪い」イベントのタイプを得る方法であり、これは、卓上タッチスクリーン及びペンタブレットの「手のひら拒否(palm rejection)」機能と同様である。表面近くで活動がないフレームは処理されず、図3に示されたように除去される。
ユーザ及びセッションの順序の間でバランスの取れた2/3のデータ(581フレーム)を使用して、ネットワークが訓練された。残りの1/3のデータ(283フレーム)を使用して、ネットワークがテストされた。実験結果は、オプティカルフローストリーム(色、x成分)に対して約5%の誤り率(又は約95%の正解率)を示した。
さらに、本明細書に記載された例示的な実装形態は、所望の実装形態に従って、精度を高めるために補完されてもよい。そのような実装形態は、所望の実装形態に従って、オプティカルフローストリームの融合、ジェスチャが起こり得る連続的な間隔(たとえば、200msの間隔)内のフレームによる投票、フレームのシーケンスの使用、アーキテクチャを拡張してリカレントニューラルネットワーク(RNN)を採用すること、及びフレームから空間情報を組み込むことの少なくとも一つを含んでもよい。
図2Cは、例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的なデータベースを示す。オプティカルフローは、深度チャネル情報並びに色情報を含み得るビデオ画像又はビデオフレームの形態であってもよい。動作は、オプティカルフローに関連付けられた認識されたジェスチャである。このデータベースを介して、上述されたような深層学習の実装形態を、実装用の深層学習アルゴリズムを生成するために利用することができる。データベースの使用により、任意の所望のジェスチャ動作又は動作(たとえば、2本指のスワイプ、手のひらの押下など)が、所望の実装形態に従って認識用に構成されてもよい。
図4Aは、例示的な実装形態による、例示的な全体フローを示す。図1A及び図1Bによる例示的な実装形態では、図3のフロー図の実行を通して、システムが存在してもよく、当該システムは、401においてユーザインターフェース(UI)を投影するように構成されたプロジェクタシステム102と、402において投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステム101と、403においてカメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサ103/123と、を含む。
例示的な実装形態では、プロセッサ103/123は、図3の300から302のフローに示されたように、カメラシステムからの深度情報から、投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定することにより、カメラシステムによって記録された対話の検出を行うように構成されてもよい。投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したと判定された場合、プロセッサ103/123は対話が検出されたと判定し、深層学習アルゴリズムの適用に基づいて動作コマンドの実行の決定を行い、図3のフローに示されたように、深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行する。投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生していないと判定された場合、302でのフローに示されたように、対話は検出されず、深層学習アルゴリズムの適用を行わないと決定する。このような例示的な実装形態により、動作が検出された場合にのみ深層学習アルゴリズムを稼動させることによって処理サイクルを節約することができ、これは、たとえば、バッテリを保存する必要があるバッテリシステム上で動作するポータブル装置にとって重要であり得る。
例示的な実装形態では、プロセッサ103/123は、図3の303から305のフローに示されたように、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、カメラによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される。
所望の実装形態に応じて、プロセッサ103/123は、深層学習アルゴリズムの適用を実行するように構成された、図1Bに示されたグラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)の形態であってもよい。
図1Aに示されたように、プロジェクタシステム102は、所望の実装形態に応じてシステム100に取り付けることができる卓上110にUIを投影するように構成されてもよい。本開示のシステムにおいては、前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される。オプティカルフローは、所望の実装形態に応じてビデオフレームに関連付けられた動作を含んでもよい。
例示的な実装形態では、プロセッサ103/123は、303から305のフローに示されたように、カメラシステムによって記録された対話を検出すると、投影されたUI内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されてもよい。
さらに、本明細書に記載され、図1A及び図1Bに実装されたような例示的な実装形態は、所望の実装形態に従って、スタンドアローン装置として実装されてもよい。
図4Bは、本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す。411において、図2Cに示されたように、ラベル付き動作に関連付けられたオプティカルフローのデータベースが生成される。412において、深層学習方法によりデータベース上で機械学習訓練が実行される。413において、図1A及び図1Bのシステムに組み込むために、訓練から深層学習アルゴリズムが生成される。
発明を実施するための形態のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び象徴的表現の観点で提示される。これらのアルゴリズム的記述及び象徴的表現は、データ処理技術分野の当業者がイノベーションの本質を他の当業者に伝達するために使用する手段である。アルゴリズムは、所望の最終状態又は最終結果に導く、一連の定義された工程である。例示的な実装形態では、実行される工程は、具体的な結果を達成するための具体的な数量の物理操作を必要とする。
特に断りのない限り、説明から明らかなように、説明全体を通して、「処理」、「計算」、「算出」、「決定」、「表示」、などの用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理(電気)量として表されるデータを操作し、コンピュータシステムのメモリ又はレジスタ又は他の情報を記憶、伝送、若しくは表示する装置内の物理量として同様に表される他のデータに変換する、コンピュータシステム又は他の情報処理装置の動作及び処理を含んでもよいことを理解されたい。
例示的な実装形態は、本明細書の動作を実行するための装置に関してもよい。この装置は、必要な目的のために特別に構築されてもよく、1又は複数のコンピュータプログラムによって選択的に作動若しくは再構成された、1又は複数の汎用コンピュータを含んでもよい。このようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に記憶されてもよい。コンピュータ可読記憶媒体には、光ディスク、磁気ディスク、読取り専用メモリ、ランダムアクセスメモリ、半導体デバイス及び半導体ドライブ、又は、電子情報を記憶することに適した任意の他のタイプの有形又は非一時的媒体などの、有形媒体が含まれてもよいが、これらに限定されない。コンピュータ可読信号媒体には、搬送波などの媒体が含まれてもよい。本明細書に提示されたアルゴリズム及び表示は、本質的に、いかなる特定のコンピュータ又は他の装置にも関係しない。コンピュータプログラムは、所望の実装形態の動作を実行する命令を含む、純粋なソフトウェア実装形態を含んでもよい。
様々な汎用システムが、本明細書の例によるプログラム及びモジュールと共に使用されてもよく、又は所望の方法工程を実行するためにより専門化された装置を構築することが便利であるとわかる場合もある。加えて、例示的な実装形態は、いかなる特定のプログラミング言語をも参照して記載されていない。本明細書に記載された例示的な実装形態の教示を実装するために、様々なプログラミング言語が使用されてもよいことを理解されたい。プログラミング言語の命令は、1又は複数の処理装置、たとえば、中央処理装置(CPU)、プロセッサ、又はコントローラによって実行されてもよい。
当技術分野で知られているように、上述された動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの何らかの組合せによって実行されてもよい。例示的な実装形態の様々な態様は、回路及び論理デバイス(ハードウェア)を使用して実装されてもよいが、他の態様は、機械可読媒体に記憶された命令(ソフトウェア)を使用して実装されてもよく、命令は、プロセッサによって実行されると、方法を実行して本出願の実装形態を遂行することをプロセッサに行わせる。さらに、本出願のいくつかの例示的な実装形態は、ハードウェアでのみ実行されてもよいが、他の例示的な実装形態は、ソフトウェアでのみ実行されてもよい。その上、記載された様々な機能は、単一のユニットで実行することができ、任意の方法でいくつかの構成要素にわたって展開することができる。ソフトウェアによって実行されるとき、コンピュータ可読媒体に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって方法が実行されてもよい。必要な場合、命令は、圧縮及び暗号化の少なくとも一方がなされたフォーマットで媒体に記憶することができる。
さらに、当業者には本出願の明細書の考察及び教示の実践から、本出願の他の実装形態が明らかであろう。記載された例示的な実装形態の様々な態様及び構成要素は、単独で、又は任意の組合せで使用されてもよい。明細書及び例示的な実装形態は例としてのみ見なされるものであり、本出願の真の範囲及び趣旨は、以下の特許請求の範囲によって示される。

Claims (15)

  1. ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
    前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
    前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、
    を備え
    前記プロセッサが、
    前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
    ように構成される、システム。
  2. 前記プロセッサが、
    前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
    前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
    により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
    請求項1に記載のシステム。
  3. 前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項1に記載のシステム。
  4. 前記プロジェクタシステムが、卓上又は壁面に前記UIを投影するように構成される、請求項1に記載のシステム。
  5. 前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項1に記載のシステム。
  6. ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
    前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
    プロセッサであって、
    前記カメラシステムによって記録された対話を検出すると、
    前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
    前記オプティカルフローに深層学習アルゴリズムを適用してUIウィジェットでジェスチャ動作を認識し、前記深層学習アルゴリズムが前記オプティカルフローからジェスチャ動作を認識するように訓練されており、
    認識されたジェスチャ動作に対して、前記認識されたジェスチャ動作及び前記UIウィジェットに対応するコマンドを実行する
    ように構成されたプロセッサと、
    を備え
    前記プロセッサが、
    前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したかどうかを判定し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
    ように構成される、システム。
  7. 前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項に記載のシステム。
  8. 前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成される、請求項に記載のシステム。
  9. 前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項に記載のシステム。
  10. 前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成される、請求項に記載のシステム。
  11. ユーザインターフェース(UI)を表面に投影するように構成されたプロジェクタシステムと、
    前記投影されたユーザインターフェース上の対話を深度情報と共に記録するように構成されたカメラシステムと、
    前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、
    を備え、前記専用ハードウェアプロセッサが、
    前記投影されたユーザインターフェースのUIウィジェットの近傍の領域におけるピクセルの深度情報を表すz値が、前記表面より上にあり、かつ、前記表面の深度情報を表すz値に対して所定の閾値内にあるか否かを判定することにより、前記投影されたユーザインターフェースのUIウィジェットの近傍で対話が発生したかどうかを判定し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
    前記投影されたユーザインターフェースの前記UIウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
    ように構成される、装置。
  12. 前記専用ハードウェアプロセッサが、
    前記投影されたUI内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
    前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
    により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
    請求項11に記載の装置。
  13. 前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット(GPU)又はフィールドプログラマブルゲートアレイ(FPGA)である、請求項11に記載の装置。
  14. 前記プロジェクタシステムが、前記UIを卓上又は壁面に投影するように構成される、請求項11に記載の装置。
  15. 前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項11に記載の装置。
JP2019138269A 2018-08-09 2019-07-26 深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム Active JP7351130B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/059,659 US20200050353A1 (en) 2018-08-09 2018-08-09 Robust gesture recognizer for projector-camera interactive displays using deep neural networks with a depth camera
US16/059659 2018-08-09

Publications (2)

Publication Number Publication Date
JP2020027647A JP2020027647A (ja) 2020-02-20
JP7351130B2 true JP7351130B2 (ja) 2023-09-27

Family

ID=69407188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019138269A Active JP7351130B2 (ja) 2018-08-09 2019-07-26 深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム

Country Status (3)

Country Link
US (1) US20200050353A1 (ja)
JP (1) JP7351130B2 (ja)
CN (1) CN110825218A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10802287B2 (en) * 2019-01-14 2020-10-13 Valve Corporation Dynamic render time targeting based on eye tracking
US10911775B1 (en) * 2020-03-11 2021-02-02 Fuji Xerox Co., Ltd. System and method for vision-based joint action and pose motion forecasting
EP4386522A1 (en) * 2021-08-13 2024-06-19 Anhui Easpeed Technology Co., Ltd. Positioning sensing method, positioning sensing apparatus, and input terminal device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018107642A (ja) 2016-12-27 2018-07-05 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802220A (en) * 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
US8491135B2 (en) * 2010-01-04 2013-07-23 Microvision, Inc. Interactive projection with gesture recognition
US8503539B2 (en) * 2010-02-26 2013-08-06 Bao Tran High definition personal computer (PC) cam
US20110304541A1 (en) * 2010-06-11 2011-12-15 Navneet Dalal Method and system for detecting gestures
US8395659B2 (en) * 2010-08-26 2013-03-12 Honda Motor Co., Ltd. Moving obstacle detection using images
US9104239B2 (en) * 2011-03-09 2015-08-11 Lg Electronics Inc. Display device and method for controlling gesture functions using different depth ranges
WO2012139241A1 (en) * 2011-04-11 2012-10-18 Intel Corporation Hand gesture recognition system
CN102841733B (zh) * 2011-06-24 2015-02-18 株式会社理光 虚拟触摸屏系统以及自动切换交互模式的方法
WO2013018099A2 (en) * 2011-08-04 2013-02-07 Eyesight Mobile Technologies Ltd. System and method for interfacing with a device via a 3d display
US20160140766A1 (en) * 2012-12-12 2016-05-19 Sulon Technologies Inc. Surface projection system and method for augmented reality
WO2014209328A1 (en) * 2013-06-27 2014-12-31 Intel Corporation Device for adaptive projection
EP2843621A1 (en) * 2013-08-26 2015-03-04 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Human pose calculation from optical flow data
US9860517B1 (en) * 2013-09-24 2018-01-02 Amazon Technologies, Inc. Power saving approaches to object detection
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9870058B2 (en) * 2014-04-23 2018-01-16 Sony Corporation Control of a real world object user interface
US9880267B2 (en) * 2015-09-04 2018-01-30 Microvision, Inc. Hybrid data acquisition in scanned beam display
US10157309B2 (en) * 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
CN106227341A (zh) * 2016-07-20 2016-12-14 南京邮电大学 基于深度学习的无人机手势交互方法及系统
US20180052520A1 (en) * 2016-08-19 2018-02-22 Otis Elevator Company System and method for distant gesture-based control using a network of sensors across the building
US11347054B2 (en) * 2017-02-16 2022-05-31 Magic Leap, Inc. Systems and methods for augmented reality
US11049018B2 (en) * 2017-06-23 2021-06-29 Nvidia Corporation Transforming convolutional neural networks for visual sequence learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018107642A (ja) 2016-12-27 2018-07-05 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Pradyumna NARAYANA et al.,"Gesture Recognition: Focus on the Hands",2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018年06月,DOI: 10.1109/CVPR.2018.00549

Also Published As

Publication number Publication date
CN110825218A (zh) 2020-02-21
US20200050353A1 (en) 2020-02-13
JP2020027647A (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
US10488939B2 (en) Gesture recognition
JP7351130B2 (ja) 深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ-カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム
US6594616B2 (en) System and method for providing a mobile input device
US9619042B2 (en) Systems and methods for remapping three-dimensional gestures onto a finite-size two-dimensional surface
JP2015531526A (ja) タッチレス入力
US9317171B2 (en) Systems and methods for implementing and using gesture based user interface widgets with camera input
CN103440033B (zh) 一种基于徒手和单目摄像头实现人机交互的方法和装置
JP2004246578A (ja) 自己画像表示を用いたインタフェース方法、装置、およびプログラム
Yin et al. Toward natural interaction in the real world: Real-time gesture recognition
Osunkoya et al. Gesture-based human-computer-interaction using Kinect for windows mouse control and powerpoint presentation
JP2016525235A (ja) 文字入力のための方法及びデバイス
CN106547339B (zh) 计算机设备的控制方法和装置
KR101360322B1 (ko) 다양한 손모양 검출 및 추적을 기반으로 한 원격 전자칠판 제어 장치 및 그 방법
JP6699406B2 (ja) 情報処理装置、プログラム、位置情報作成方法、情報処理システム
Suriya et al. An Efficient Artificial Intelligence based Human-Machine Interaction System
KR20140046197A (ko) 동작인식 장치 및 방법, 그리고 프로그램을 저장한 컴퓨터로 판독 가능한 기록매체
Khandagale et al. Jarvis-AI Based Virtual Mouse
Tran et al. A hand gesture recognition library for a 3D viewer supported by kinect's depth sensor
Baraldi et al. Natural interaction on tabletops
TWI554910B (zh) Medical image imaging interactive control method and system
Bharath et al. Precision Pointing: AI Virtual Mouse for Accurate Control
WO2021075103A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US12014008B2 (en) Information processing apparatus, information processing method, and program
Mukhopadhyay et al. Hand Gesture Based Recognition System
Kolagani Gesture Based Human-Computer Interaction with Natural User Interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230828

R150 Certificate of patent or registration of utility model

Ref document number: 7351130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150