JP2020027647A

JP2020027647A - 深度カメラ及び深層ニューラルネットワークを使用する、プロジェクタ−カメラ対話型ディスプレイ用のロバストなジェスチャ認識装置及びシステム

Info

Publication number: JP2020027647A
Application number: JP2019138269A
Authority: JP
Inventors: パトリック　チィーウ; Patrick Chiu; チィーウパトリック; チョルファンキム; Kim Chul-Hwan
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-08-09
Filing date: 2019-07-26
Publication date: 2020-02-20
Anticipated expiration: 2039-07-26
Also published as: JP7351130B2; CN110825218A; US20200050353A1

Abstract

【課題】よりロバストな、ユーザインターフェース（ＵＩ）ウィジェット上のジェスチャ認識装置及びシステムを提供する。【解決手段】本明細書に記載されたシステム及び方法は、深層学習アルゴリズムを利用して、プロジェクタによって提供される投影されたユーザインターフェース上のジェスチャ及び他の動作を認識する。深層情報及び色情報を組み込むカメラは、投影されたユーザインターフェース上で検出されたジェスチャ及び動作を記録する。深層学習アルゴリズムは、ハードウェアシステム用の処理サイクルを節約するために、動作が検出されたときに稼動するように構成されてもよい。【選択図】図３

Description

本開示は、全体としてジェスチャ検出に関し、より詳細には、投影システムにおけるジェスチャ検出に関する。

プロジェクタ−カメラシステムは、卓上（ｔａｂｌｅｔｏｐ）及び壁などのいかなる表面も対話型ディスプレイに変えることができる。当該システムの基本的な課題は、投影されたユーザインターフェース（ＵＩ）ウィジェット上のジェスチャ動作を認識することである。指モデル又は遮蔽パターンを使用する従来技術の手法は、明るさの問題及び反射を有する環境照明条件、投影されるビデオ画像内のアーチファクト及びノイズ、及び深度カメラに伴う不正確さを含む、いくつかの課題を有する。

米国特許第９３１７１７１号明細書

BORKOWSKI et al, User-Centric Design of a Vision System for Interactive Applications, Proceedings of the Fourth IEEE International Conference on Computer Vision Systems (ICVS 2006), ２００６年７月 FARNEBACK, Gunnar, Two-Frame Motion Estimation Based on Polynomial Expansion, Computer Vision Laboratory, Linkoping University, スウェーデン国リンシェーピング、２００３年 HARRISON et al, OmniTouch: Wearable Multitouch Interaction Everywhere, UIST'11, ２０１１年１０月１９日、米国カリフォルニア州サンタバーバラ KANE et al, Bonfire: A Nomadic System for Hybrid Laptop-Tabletop Interaction, UIST'09, ２００９年１０月７日, pp. 129-138、カナダ国ブリティッシュコロンビア州ビクトリア KJELDSEN et al, Interacting with Steerable Projected Displays, Proceedings of 5th International Conference on Automatic Face and Gesture Recognition (FG'02), ２００２年５月２１日, 米国ワシントンＤＣ LECUN et al, Deep Learning, NATURE, ２０１５年５月２８日, Vol 521, pp. 426-444, Macmillan Publishers Limited. LAO et al, FACT: Fine-grained Cross-media Interaction with Documents via a Portable Hybrid Paper-Laptop Interface, MM'10, ２０１０年１０月２９日, イタリア国フィレンツェ PINHANEZ et al, Creating Touch-Screens Anywhere with Interactive Projected Displays, MM'03, ２００３年１１月８日, 米国カリフォルニア州バークレイ SIMONYAN et al, Two-Stream Convolutional Networks for Action Recognition in Videos, Visual Geometry Group, University of Oxford, ２０１４年 TANG et al., GESTURE VIEWPORT: INTERACTING WITH MEDIA CONTENT USING FINGER GESTURES ON ANY SURFACE, FX Palo Alto Laboratory, Inc., ２０１４年 WELLNER, Pierre, The DigitalDesk Calculator: Tangible Manipulation on a Desk Top Display, UIST'91, １９９１年１１月１３日, pp. 27-33 Willow Garage, OpenCV, from http://www.willowgarage.com/pages/software/opencv, ２０１８年８月８日ダウンロード WILSON, Andrew D., Using a Depth Camera as a Touch Sensor, ITS 2010: Devices & Algorithms, ２０１０年１１月１０日, ドイツ国ザールブリュッケン XIAO et al., WorldKit: Rapid and Easy Creation of Ad-hoc Interactive Applications on Everyday Surfaces, CHI 2013, ２０１３年５月２日, フランス国パリ

本開示では、本明細書に記載される例示的な実装形態は、深度カメラと深層ニューラルネット手法を採用することで、よりロバストな認識装置及びシステムを提供する。

本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、を含む。

前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された前記対話を検出し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。

前記プロセッサが、前記投影されたＵＩ内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。

前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）であってもよい。

前記プロジェクタシステムが、卓上又は壁面に前記ＵＩを投影するように構成されてもよい。

前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。

本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース（ＵＩ）を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するための手段と、を含む。

本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース（ＵＩ）を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定することを含む。

本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、カメラシステムによって記録された対話を検出すると、投影されたＵＩ内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されたプロセッサと、を含んでもよい。

前記プロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。

前記プロジェクタシステムが、前記ＵＩを卓上又は壁面に投影するように構成されてもよい。

前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練されてもよい。

前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成されてもよい。

本開示の態様はシステムを含んでもよく、当該システムは、ユーザインターフェース（ＵＩ）を投影するための手段と、投影されたユーザインターフェース上の対話を記録するための手段と、記録された対話を検出すると、投影されたＵＩ内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算するための手段と、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識するための手段であって、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練された、手段と、並びに認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するための手段と、を含んでもよい。

本開示の態様は方法を含んでもよく、当該方法は、ユーザインターフェース（ＵＩ）を投影し、投影されたユーザインターフェース上の対話を記録し、カメラシステムによって記録された対話を検出すると、投影されたＵＩ内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行することを含んでもよい。

本開示の態様は、ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、を備え、前記専用ハードウェアプロセッサが、対話を検出しない場合、前記深層学習アルゴリズムを適用せず、対話を検出した場合、前記深層学習アルゴリズムの適用に基づいて動作コマンドの実行を決定するように構成される、装置であってもよい。

前記専用ハードウェアプロセッサが、前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定するように構成されてもよい。

前記専用ハードウェアプロセッサが、前記投影されたＵＩ内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されてもよい。

前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）であってもよい。

例示的な実装形態による、プロジェクタ−カメラ構成を含むシステムの例示的なハードウェア図である。例示的な実装形態による、プロジェクタ−カメラ構成を含むシステムの例示的なハードウェア図である。例示的な実装形態による、プロジェクタシステム及びカメラシステムについての例示的なサンプルフレームを示す図である。従来技術によって利用される技術に関する例示的な課題の表である。例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的データベースを示す図である。例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図である。例示的な実装形態による、例示的な全体フローを示す図である。本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す図である。

以下の発明を実施するための形態は、本出願の図及び例示的な実装形態のさらなる詳細を提供する。図の間で重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体にわたって使用される用語は例として提供され、限定を意図するものではない。たとえば、「自動」という用語の使用は、本出願の実装形態を実施する当業者の所望の実装形態に応じて、実装形態のいくつかの態様に対するユーザ又は管理者の制御を含む、全自動又は半自動の実装形態を含んでもよい。選択は、ユーザインターフェース若しくは他の入力手段を介してユーザによって行ってもよく、所望のアルゴリズムを介して実施することもできる。本明細書に記載される例示的な実装形態は、単独で又は組み合わせて利用することができ、例示的な実装形態の機能は、所望の実装形態に応じて任意の手段により実装することができる。

例示的な実装形態は、機械学習ベースのアルゴリズムの利用に関する。従来技術では、広範囲の機械学習ベースのアルゴリズムが、他の自動車の障害物若しくは交通標識の認識、又は特定の訓練に基づく要素の分類などの、画像又はパターン認識に適用されてきた。電力計算における進歩に鑑みて、機械学習は、投影されたＵＩインターフェース上でのジェスチャの検出及び生成に対してより適用可能になっている。
例示的な実装形態は、色チャネル及び深度チャネルから計算されたオプティカルフローを有する畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ：ＣＮＮ）を利用する。例示的な実装形態は、ディスプレイ表面の近くの活動がないフレームを除外する処理パイプラインを含み、それにより、計算サイクル及びエネルギーが節約される。本明細書に記載された例示的な実装形態のラベル付きデータセットを利用したテストでは、高い精度（たとえば、約９５％の精度）が達成された。

プロジェクタ−カメラシステムは、卓上及び壁などのいかなる表面も対話型ディスプレイに変えることができる。ＵＩウィジェットを表面に投影することにより、ユーザはボタンなどの使い慣れたグラフィカルユーザインターフェース要素と対話することができる。ウィジェット上の指の動作（たとえば、押下ジェスチャ、スワイプジェスチャ）を認識するために、画像認識（ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ）方法を適用することができる。色チャネル及び深度チャネルを有する深度カメラも、３Ｄ情報を有するデータを提供するために採用することができる。図１Ａ及び図１Ｂは、本明細書に記載された例示的な実装形態による、例示的なプロジェクタ−カメラシステムを示す。

図１Ａは、例示的な実装形態による、プロジェクタ−カメラ構成を含むシステムの例示的なハードウェア図を示す。システム１００は、ジェスチャ／ＵＩ対話キャプチャ用のカメラシステム１０１、プロジェクタ１０２、プロセッサ１０３、メモリ１０４、ディスプレイ１０５、及びインターフェース（Ｉ／Ｆ）１０６を含んでいてよい。システム１００は、プロジェクタ１０２によって卓上１１０上にＵＩ１１１が投影されている卓上１１０を監視するように構成される。卓上１１０は、所望の実装形態に応じて、スマートデスク、会議テーブル、調理台などの形態であってよい。あるいは、壁面、建物の柱、又はＵＩ１１１が投影され得る任意の他の物理的表面などの他の表面が利用されてもよい。

カメラシステム１０１は、所望の実装形態に応じて、ビデオ画像及び深度画像を撮影するように構成された任意の形態であってもよい。例示的な実装形態では、プロセッサ１０３はカメラシステムを利用して、卓上１１０に投影されたＵＩ１１１で発生した対話の画像を撮影することができる。プロジェクタ１０２は、ＵＩ１１１を卓上１１０に投影するように構成されてもよく、所望の実装形態に応じて任意のタイプのプロジェクタであってもよい。例示的な実装形態では、プロジェクタ１０２は、ＵＩを自由空間に投影するためのホログラフィックプロジェクタであってもよい。

ディスプレイ１０５は、所望の実装形態に従って、ビデオ会議用又はコンピュータ装置の結果を表示するためのタッチスクリーン又は任意の他のディスプレイの形態であってよい。ディスプレイ１０５はまた、所望の実装形態に従って、会議参加者又はロードされた文書を示す中央コントローラを有する１セットのディスプレイを含んでもよい。Ｉ／Ｆ１０６は、所望の実装形態に応じて、ディスプレイ１０５用のキーボード、マウス、タッチパッド、又は他の入力デバイスなどのインターフェース装置を含んでもよい。

例示的な実装形態では、プロセッサ１０３は、物理ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組合せを含む、中央処理装置（ＣＰＵ）の形態であってよい。プロセッサ１０３は、投影されたＵＩ１１１上で検出されたジェスチャ又は対話に関するカメラ１０１からのカメラ画像を含んでもよい、システムへの入力を取り込むように構成される。プロセッサ１０３は、本明細書に記載されたように、深層学習認識アルゴリズムを利用してジェスチャ又は対話を処理することができる。所望の実装形態に応じて、プロセッサ１０３は、深層学習アルゴリズムに従って認識のために画像を処理するように構成された専用グラフィック処理ユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）などの深層学習認識の実装を容易にする専用ハードウェアと置き換えることができ、又はそうでない場合、所望の実装形態に従うことができる。さらに、システムは、所望の実装形態を容易にするために、コンピュータプロセッサと、ＧＰＵ及びＦＰＧＡなどの専用ハードウェアプロセッサとを混在させて利用することができる。

図１Ｂは、例示的な実装形態による、別の例示的なハードウェア構成を示す。例示的な実装形態では、システム１２０は、（たとえば、ロボット、ウェアラブルデバイス、ドローンなどの）他の装置と統合され、スタンドアローン装置として持ち運ばれてもよく、或いは所望の実装形態に従うことができるポータブル装置であってもよい。このような例示的な実装形態では、カメラ画像のより高速な処理及び深層アルゴリズム専用の実行を組み込むためにＧＰＵ１２３又はＦＰＧＡが利用されてもよい。このような専用ハードウェアは、認識のためにより高速な画像処理を可能にすることができると共に、独立型プロセッサよりも効率的な機能性を促進するために、深層学習アルゴリズムの実行に特化して構成されてもよい。さらに、図１Ｂのシステムは、汎用コンピュータ機能を行う汎用中央処理装置（ＣＰＵ）を、本明細書に記載された画像認識及び深層学習アルゴリズムの実行に特化して構成されたＧＰＵ又はＦＰＧＡと統合することもできる。

スマートデスク又はスマート会議室を含む例示的な実装形態では、システム１００は、図１Ａに示されたように、卓上１１０と共に利用され、卓上１１０に取り付けられるか、或いは卓上１１０に関連付けられてもよく、プロジェクタシステム１０２は、任意の所望の実装形態に応じて、卓上１１０の所望の位置及び所望の向きにＵＩ１１１を投影するように構成される。そのような実装形態におけるプロジェクタシステム１０２は、所望の実施形態に応じて、モバイルプロジェクタ、ホログラフィックプロジェクタ、大画面プロジェクタなどの形態であってもよい。カメラシステム１０１は、本明細書に記載されたように、深度情報及び色情報を記録して動作をキャプチャするように構成されたカメラを含むことができる。例示的な実装形態では、カメラシステム１０１はまた、他の場所に対して行われ、ディスプレイ１０５を介して視覚化された電話会議について卓上近くの人々を記録するための、１つ又は複数の追加のカメラを含んでもよく、それらの接続、制御、及び対話は、投影されたＵＩ１１１により容易にすることができる。追加のカメラはまた、投影されたＵＩ１１１を介してコマンドを受信すると、卓上１１０に置かれた文書をスキャンするように構成されてもよい。他のスマートデスク又はスマート会議室機能も、投影されたＵＩ１１１により容易にすることができ、本開示はいかなる特定の実装形態にも限定されない。

ユーザインターフェース１１１を表面上に、又は任意の所望の場所にホログラフィックに投影するためのシステム１２０を含む例示的な実装形態では、システム１２０は、投影されたＵＩ１１１上の動作を認識するための深層学習アルゴリズムの専用機能を行うように構成されたＧＰＵ１２３又はＦＰＧＡを用いて構成されたポータブル装置の形態であってもよい。そのような例示的な実施形態では、ＵＩは任意の所望の場所に投影されることができ、その結果、認識されたコマンドは、その場所のコンテキスト及び投影されたＵＩ１１１に基づいて、Ｉ／Ｆ１０６を介して制御システムに遠隔送信される。たとえば、いくつかの製造プロセスを含むスマート工場などの状況では、装置のユーザはスマート工場内のプロセスにアプローチし、プロジェクタシステム１０２を介してＵＩ１１１を自由空間にホログラフィックに、又はプロセスに関連付けられた表面に投影することにより、プロセスを修正することができる。システム１２０は、遠隔制御システム又は制御サーバと通信してユーザの位置を識別し、投影されるべきＵＩのコンテキストを決定することができ、その結果、ＵＩが投影システム１０２から投影される。したがって、システム１２０のユーザは、スマート工場内のプロセス固有のＵＩを提示させ、投影されたユーザインターフェース１１１を介してプロセスに修正を加えることができる。別の例示的な実装形態では、ユーザは、投影されたユーザインターフェース１１１を介して所望のインターフェースを選択し、スマート工場内にいる間に任意の所望のプロセスを遠隔に制御することができる。さらに、このような実装形態はスマート工場に限定されず、所望の実装形態に応じて、セキュリティチェックポイント、建物用のドアアクセスなどの所与のコンテキストに対してＵＩを提示することができる任意の実装形態に拡張することができる。

ポータブル装置としてシステム１２０を含む別の例示的な実装形態では、法執行機関は、ボディカメラ並びに本明細書に記載された動作を撮影するために利用されるカメラを含むカメラシステム１０１をシステム１２０に装備することができる。そのような例示的な実施形態では、所望の実装形態に応じて、交通違反取締中に運転者に関する情報を呼び出すためにＵＩがホログラフィックに又は表面に投影されて、法執行機関が文書を提供するためのインターフェースが提供されてもよい。情報又はデータベースへのアクセスは、遠隔サーバに装置を接続するＩ／Ｆ１０６により容易にすることができる。

従来技術の１つの課題は、ＵＩウィジェット上のジェスチャ動作を認識する能力である。図２Ａは、例示的な実装形態による、プロジェクタ及びカメラシステムに関する例示的なサンプルフレームを示す。従来技術のシステムでは、様々なコンピュータビジョン及び画像処理技法が開発されてきた。従来技術の手法は指又は腕をモデル化することを含み、それは通常、何らかの形のテンプレートマッチングを含む。別の従来技術の手法は、指によって生じる遮蔽パターンを使用することである。しかしながら、このような手法は、プロジェクタ−カメラシステム及び環境条件に伴ういくつかの問題によって引き起こされる課題を有する。従来技術の手法における１つの問題は環境内の照明である。明るさ及び反射は、ビデオ品質に影響を及ぼし、認識できない事象を引き起こす可能性がある。図２Ａに示されたように、本明細書に記載された例示的な実装形態は、照明が低いとき２００には検出２０１を行うことができ、照明が高いとき２０２には検出２０３を行うことができるように動作する。カメラが投影画像に向けられるプロジェクタ−カメラシステムでは、ビデオフレーム内に現れるローリングバンド又はブロックなどのアーチファクト（たとえば、深度画像２０３の中の指に隣接する黒い領域）が存在する可能性があり、それらは、認識できない事象又はファントム（幻影）事象を引き起こし得る。標準的なカメラ（たとえば、深度情報がない画像）だけでは、すべてのビデオフレームを大量に処理する必要があり、ＣＰＵ／ＧＰＵサイクル及びエネルギーを使い果たすことになる。深度チャネルでは、不正確さ及びノイズがあり、それらが誤認識事象を引き起こす可能性がある。これらの問題及び課題は、それらによって影響を受ける方法と共に、図２Ｂにまとめられている。

例示的な実装形態は、深層ニューラルネット手法を利用することによって従来技術における課題に対処する。深層学習は、コンピュータビジョンの課題を含む様々な人工知能（ＡＩ）の課題について成果を達成した最先端の方法である。本明細書に記載された例示的な実装形態は、本明細書で詳細に記載されたように、色ビデオチャネル及び深度ビデオチャネルから計算された高密度オプティカルフロー画像を有するＣＮＮを使用する深層ニューラルネットアーキテクチャを含む。

例示的な実装形態は、色及び深度を用いてビデオを検知するように構成されたＲＧＢ−Ｄ（赤緑青深度）カメラを使用してテストされた。対話イベントを記録するために特殊なタッチスクリーン面を有するプロジェクタ−カメラ構成を介してラベル付きデータが収集され、ボタンＵＩウィジェットと対話するユーザからジェスチャデータの小さいセット（たとえば、押下、スワイプ、他）が収集された。データがラベル付けされ、データセットに対して深層学習が行われると、深層学習方法から生成された例示的な実装形態のジェスチャ／対話検出アルゴリズムが、高いロバスト性（たとえば、意図するジェスチャ／対話を正確に検出する際、９５％の精度）で実行される。データに対して訓練された深層学習モデルを使用して、（データ収集用の特殊なタッチスクリーンデバイスなしに）プロジェクタ−カメラシステムを展開することができる。

本明細書に記載されたように、図１Ａ及び図１Ｂは例示的なハードウェア構成を示し、記録され得る例示的なフレームが図２Ａに示される。図３は、例示的な実装形態による、ビデオフレーム処理パイプラインについての例示的なフロー図を示す。３００において、フレームがＲＧＢ−Ｄカメラから読み出される。

３０１において、パイプラインの第１の部分が、カメラからの深度情報を使用して、ＵＩウィジェット（たとえば、ボタン）の周りの領域Ｒ上の表面の近くに何かがあるかどうかを確認する。３０２において、Ｒ内のピクセル｛Ｐｉ｝の小さいサブサンプルのｚ値は、それらが表面より上にあり、かつ表面のｚ値に対してある閾値内にあるかどうかを確認することができる。そうである場合（ｙｅｓ）、フローは３０３に進み、そうでない場合（ｎｏ）、さらなる処理は不要であり、フローは３００に戻る。このような例示的な実装形態により、不要な処理サイクル及びエネルギー消費が節約される。

３０３において、領域Ｒにわたって、色チャネル及び深度チャネルの高密度オプティカルフローが計算される。オプティカルフローを使用する１つの動機は、それが様々な背景シーンに対してロバストであることであり、様々なユーザインターフェース設計及び外観にわたるジェスチャ／対話を例示的な実装形態が認識することを容易にするのに役立つからである。別の動機は、それが指をモデル化するか又は遮蔽パターンに基づく従来技術の手法よりも画像アーチファクト及びノイズに対してよりロバストであり得ることである。オプティカルフロー手法は、ビデオ内の動作認識でうまく機能することが確認されている。オプティカルフローを計算するために、ＯｐｅｎＣＶ（登録商標）コンピュータビジョンライブラリ内のＦａｒｎｅｂａｃｋアルゴリズムなどの、当技術分野で知られている任意の技法が利用されてもよい。オプティカルフロー処理は、チャネルごとにｘ成分画像及びｙ成分画像を生成する。

ＵＩウィジェットを用いてジェスチャ動作を認識するための深層ニューラルネットワークの例示的な実装形態は、オペレーティングシステム上の対話型アプリケーションと適切に統合できるＣｏｇｎｉｔｉｖｅＴｏｏｌｋｉｔ（ＣＮＴＫ）を含んでもよいが、これに限定されず、他の深層学習ツールキット（たとえば、ＴｅｎｓｏｒＦｌｏｗ（登録商標））も所望の実装形態に応じて利用されてもよい。深層学習ツールキットを使用して、２つの交互の畳み込み層及び最大プーリング層を有する標準ＣＮＮアーキテクチャが、オプティカルフロー画像入力に利用されることができる。

したがって、３０４において、深層ニューラルネットワークから生成されたＣＮＮアーキテクチャに対してオプティカルフローが評価される。３０５において、ジェスチャ動作が認識されたかどうか判定が行われる。認識された場合（Ｙｅｓ）、フローは３０６に進んで動作コマンドを実行し、認識されない場合（Ｎｏ）、フローは３００に戻る。

ネットワークを訓練しテストするための例示的な実装形態では、プロジェクタ−カメラシステム、及び、ユーザインターフェースが投影される、紙で覆われたタッチスクリーンを含む構成を使用して、ラベル付きデータを収集することができる。タッチスクリーンは紙を介してタッチイベントを検知することができ、各タッチイベントのタイムスタンプ及び位置を記録することできる。タッチイベントに対応するタイムスタンプ付きフレームは、事前に記述されたタスクの名前に従ってラベル付けされ、位置と交差するウィジェットの周りの領域が抽出される。カメラシステムから、色チャネルと深度チャネルの両方について毎秒約３５〜４５フレームのフレームレートを得ることができ、フレームは時間的に同期され、空間的に整列される。

３人のユーザが各々３つのセッションに亘ってタスクを実行する、小さいデータセット（１．９ＧＢ）で概念実証テストが行われた。タスクには、投影されたボタンに対してジェスチャを実行することが含まれていた。ジェスチャはクラス｛Ｐｒｅｓｓ，Ｓｗｉｐｅ，Ｏｔｈｅｒ｝に分割された。Ｐｒｅｓｓ（押下）ジェスチャ及びＳｗｉｐｅ（スワイプ）ジェスチャは指を用いて実行される。Ｏｔｈｅｒ（その他）ジェスチャの場合、ジェスチャを実行するために手のひらが使用された。手のひらを使用することは、一般的な「悪い」イベントのタイプを得る方法であり、これは、卓上タッチスクリーン及びペンタブレットの「手のひら拒否（ｐａｌｍｒｅｊｅｃｔｉｏｎ）」機能と同様である。表面近くで活動がないフレームは処理されず、図３に示されたように除去される。

ユーザ及びセッションの順序の間でバランスの取れた２／３のデータ（５８１フレーム）を使用して、ネットワークが訓練された。残りの１／３のデータ（２８３フレーム）を使用して、ネットワークがテストされた。実験結果は、オプティカルフローストリーム（色、ｘ成分）に対して約５％の誤り率（又は約９５％の正解率）を示した。

さらに、本明細書に記載された例示的な実装形態は、所望の実装形態に従って、精度を高めるために補完されてもよい。そのような実装形態は、所望の実装形態に従って、オプティカルフローストリームの融合、ジェスチャが起こり得る連続的な間隔（たとえば、２００ｍｓの間隔）内のフレームによる投票、フレームのシーケンスの使用、アーキテクチャを拡張してリカレントニューラルネットワーク（ＲＮＮ）を採用すること、及びフレームから空間情報を組み込むことの少なくとも一つを含んでもよい。

図２Ｃは、例示的な実装形態による、ラベル付き動作に関連付けられたオプティカルフローの例示的なデータベースを示す。オプティカルフローは、深度チャネル情報並びに色情報を含み得るビデオ画像又はビデオフレームの形態であってもよい。動作は、オプティカルフローに関連付けられた認識されたジェスチャである。このデータベースを介して、上述されたような深層学習の実装形態を、実装用の深層学習アルゴリズムを生成するために利用することができる。データベースの使用により、任意の所望のジェスチャ動作又は動作（たとえば、２本指のスワイプ、手のひらの押下など）が、所望の実装形態に従って認識用に構成されてもよい。

図４Ａは、例示的な実装形態による、例示的な全体フローを示す。図１Ａ及び図１Ｂによる例示的な実装形態では、図３のフロー図の実行を通して、システムが存在してもよく、当該システムは、４０１においてユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステム１０２と、４０２において投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステム１０１と、４０３においてカメラシステムによって記録された対話を検出すると、カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサ１０３／１２３と、を含む。

例示的な実装形態では、プロセッサ１０３／１２３は、図３の３００から３０２のフローに示されたように、カメラシステムからの深度情報から、投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、カメラシステムによって記録された対話の検出を行うように構成されてもよい。投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したと判定された場合、プロセッサ１０３／１２３は対話が検出されたと判定し、深層学習アルゴリズムの適用に基づいて動作コマンドの実行の決定を行い、図３のフローに示されたように、深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行する。投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生していないと判定された場合、３０２でのフローに示されたように、対話は検出されず、深層学習アルゴリズムの適用を行わないと決定する。このような例示的な実装形態により、動作が検出された場合にのみ深層学習アルゴリズムを稼動させることによって処理サイクルを節約することができ、これは、たとえば、バッテリを保存する必要があるバッテリシステム上で動作するポータブル装置にとって重要であり得る。

例示的な実装形態では、プロセッサ１０３／１２３は、図３の３０３から３０５のフローに示されたように、投影されたＵＩ内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識することにより、カメラによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される。

所望の実装形態に応じて、プロセッサ１０３／１２３は、深層学習アルゴリズムの適用を実行するように構成された、図１Ｂに示されたグラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）の形態であってもよい。

図１Ａに示されたように、プロジェクタシステム１０２は、所望の実装形態に応じてシステム１００に取り付けることができる卓上１１０にＵＩを投影するように構成されてもよい。本開示のシステムにおいては、前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される。オプティカルフローは、所望の実装形態に応じてビデオフレームに関連付けられた動作を含んでもよい。

例示的な実装形態では、プロセッサ１０３／１２３は、３０３から３０５のフローに示されたように、カメラシステムによって記録された対話を検出すると、投影されたＵＩ内の領域について、カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、オプティカルフローに深層学習アルゴリズムを適用してジェスチャ動作を認識し、深層学習アルゴリズムがオプティカルフローからジェスチャ動作を認識するように訓練されており、認識されたジェスチャ動作に対して、認識されたジェスチャ動作に対応するコマンドを実行するように構成されてもよい。

さらに、本明細書に記載され、図１Ａ及び図１Ｂに実装されたような例示的な実装形態は、所望の実装形態に従って、スタンドアローン装置として実装されてもよい。

図４Ｂは、本開示に記載された深層学習アルゴリズムを生成する例示的なフローを示す。４１１において、図２Ｃに示されたように、ラベル付き動作に関連付けられたオプティカルフローのデータベースが生成される。４１２において、深層学習方法によりデータベース上で機械学習訓練が実行される。４１３において、図１Ａ及び図１Ｂのシステムに組み込むために、訓練から深層学習アルゴリズムが生成される。

発明を実施するための形態のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び象徴的表現の観点で提示される。これらのアルゴリズム的記述及び象徴的表現は、データ処理技術分野の当業者がイノベーションの本質を他の当業者に伝達するために使用する手段である。アルゴリズムは、所望の最終状態又は最終結果に導く、一連の定義された工程である。例示的な実装形態では、実行される工程は、具体的な結果を達成するための具体的な数量の物理操作を必要とする。

特に断りのない限り、説明から明らかなように、説明全体を通して、「処理」、「計算」、「算出」、「決定」、「表示」、などの用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理（電気）量として表されるデータを操作し、コンピュータシステムのメモリ又はレジスタ又は他の情報を記憶、伝送、若しくは表示する装置内の物理量として同様に表される他のデータに変換する、コンピュータシステム又は他の情報処理装置の動作及び処理を含んでもよいことを理解されたい。

例示的な実装形態は、本明細書の動作を実行するための装置に関してもよい。この装置は、必要な目的のために特別に構築されてもよく、１又は複数のコンピュータプログラムによって選択的に作動若しくは再構成された、１又は複数の汎用コンピュータを含んでもよい。このようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に記憶されてもよい。コンピュータ可読記憶媒体には、光ディスク、磁気ディスク、読取り専用メモリ、ランダムアクセスメモリ、半導体デバイス及び半導体ドライブ、又は、電子情報を記憶することに適した任意の他のタイプの有形又は非一時的媒体などの、有形媒体が含まれてもよいが、これらに限定されない。コンピュータ可読信号媒体には、搬送波などの媒体が含まれてもよい。本明細書に提示されたアルゴリズム及び表示は、本質的に、いかなる特定のコンピュータ又は他の装置にも関係しない。コンピュータプログラムは、所望の実装形態の動作を実行する命令を含む、純粋なソフトウェア実装形態を含んでもよい。

様々な汎用システムが、本明細書の例によるプログラム及びモジュールと共に使用されてもよく、又は所望の方法工程を実行するためにより専門化された装置を構築することが便利であるとわかる場合もある。加えて、例示的な実装形態は、いかなる特定のプログラミング言語をも参照して記載されていない。本明細書に記載された例示的な実装形態の教示を実装するために、様々なプログラミング言語が使用されてもよいことを理解されたい。プログラミング言語の命令は、１又は複数の処理装置、たとえば、中央処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実行されてもよい。

当技術分野で知られているように、上述された動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアとの何らかの組合せによって実行されてもよい。例示的な実装形態の様々な態様は、回路及び論理デバイス（ハードウェア）を使用して実装されてもよいが、他の態様は、機械可読媒体に記憶された命令（ソフトウェア）を使用して実装されてもよく、命令は、プロセッサによって実行されると、方法を実行して本出願の実装形態を遂行することをプロセッサに行わせる。さらに、本出願のいくつかの例示的な実装形態は、ハードウェアでのみ実行されてもよいが、他の例示的な実装形態は、ソフトウェアでのみ実行されてもよい。その上、記載された様々な機能は、単一のユニットで実行することができ、任意の方法でいくつかの構成要素にわたって展開することができる。ソフトウェアによって実行されるとき、コンピュータ可読媒体に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって方法が実行されてもよい。必要な場合、命令は、圧縮及び暗号化の少なくとも一方がなされたフォーマットで媒体に記憶することができる。

さらに、当業者には本出願の明細書の考察及び教示の実践から、本出願の他の実装形態が明らかであろう。記載された例示的な実装形態の様々な態様及び構成要素は、単独で、又は任意の組合せで使用されてもよい。明細書及び例示的な実装形態は例としてのみ見なされるものであり、本出願の真の範囲及び趣旨は、以下の特許請求の範囲によって示される。

Claims

ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、
前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成されたプロセッサと、
を備える、システム。
前記プロセッサが、
前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された前記対話を検出し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムにより決定された、認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、請求項１に記載のシステム。
前記プロセッサが、
前記投影されたＵＩ内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
請求項１に記載のシステム。
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）である、請求項１に記載のシステム。
前記プロジェクタシステムが、卓上又は壁面に前記ＵＩを投影するように構成される、請求項１に記載のシステム。
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項１に記載のシステム。
ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、
プロセッサであって、
前記カメラシステムによって記録された対話を検出すると、
前記投影されたＵＩ内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに深層学習アルゴリズムを適用してＵＩウィジェットでジェスチャ動作を認識し、前記深層学習アルゴリズムが前記オプティカルフローからジェスチャ動作を認識するように訓練されており、
認識されたジェスチャ動作に対して、前記認識されたジェスチャ動作及び前記ＵＩウィジェットに対応するコマンドを実行する
ように構成されたプロセッサと、
を備える、システム。
前記プロセッサが、
前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、請求項７に記載のシステム。
前記プロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）である、請求項７に記載のシステム。
前記プロジェクタシステムが、前記ＵＩを卓上又は壁面に投影するように構成される、請求項７に記載のシステム。
前記深層学習アルゴリズムが、ビデオフレームに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項７に記載のシステム。
前記カメラシステムが、色チャネル及び深度チャネルを記録するように構成される、請求項７に記載のシステム。
ユーザインターフェース（ＵＩ）を投影するように構成されたプロジェクタシステムと、
前記投影されたユーザインターフェース上の対話を記録するように構成されたカメラシステムと、
前記カメラシステムによって記録された対話を検出すると、前記カメラシステムによって記録された対話からジェスチャ動作を認識するように訓練された深層学習アルゴリズムを適用するように構成された専用ハードウェアプロセッサと、
を備え、前記専用ハードウェアプロセッサが、
対話を検出しない場合、前記深層学習アルゴリズムを適用せず、
対話を検出した場合、前記深層学習アルゴリズムの適用に基づいて動作コマンドの実行を決定する
ように構成される、装置。
前記専用ハードウェアプロセッサが、
前記カメラシステムからの深度情報から、前記投影されたユーザインターフェースのＵＩウィジェットの近傍で対話が発生したかどうかを判定することにより、前記カメラシステムによって記録された対話を検出し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生したと判定した場合、対話が検出されたと判定し、前記深層学習アルゴリズムの前記適用に基づいて動作コマンドの実行を決定し、前記深層学習アルゴリズムから決定された認識されたジェスチャ動作に対応する動作コマンドを実行し、
前記投影されたユーザインターフェースの前記ＵＩウィジェットの近傍で対話が発生していないと判定した場合、対話が検出されず、前記深層学習アルゴリズムの適用を行わないと決定する
ように構成される、請求項１３に記載の装置。
前記専用ハードウェアプロセッサが、
前記投影されたＵＩ内の領域について、前記カメラシステムの色チャネル及び深度チャネルのオプティカルフローを計算し、
前記オプティカルフローに前記深層学習アルゴリズムを適用してジェスチャ動作を認識すること
により、前記カメラシステムによって記録された前記対話からジェスチャ動作を認識するように訓練された前記深層学習アルゴリズムの適用に基づいて、動作コマンドの実行を決定するように構成される、
請求項１３に記載の装置。
前記専用ハードウェアプロセッサが、前記深層学習アルゴリズムの適用を実行するように構成された、グラフィックプロセッサユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）である、請求項１３に記載の装置。
前記プロジェクタシステムが、前記ＵＩを卓上又は壁面に投影するように構成される、請求項１３に記載の装置。
前記深層学習アルゴリズムが、オプティカルフローに関連付けられたラベル付きジェスチャ動作を含むデータベースに対して訓練される、請求項１３に記載の装置。