JP2020067999A

JP2020067999A - ジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法および関係した装置

Info

Publication number: JP2020067999A
Application number: JP2018226573A
Authority: JP
Inventors: 永明周; yong ming Zhou; 峰森朱; feng sen Zhu; ▲彦▼宏林; yan hong Lin; 士豪柯; Shi Hao Ke; 瑞傑陳; Rui Jie Chen
Original assignee: XRspace Co Ltd
Current assignee: XRspace Co Ltd
Priority date: 2018-10-21
Filing date: 2018-12-03
Publication date: 2020-04-30
Also published as: TWI694357B; CN111077987A; EP3640768A1; US20200125176A1; TW202016696A; US10678342B2

Abstract

【課題】ジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法および装置を提供する。【解決手段】複数の画像において二つの手を検出し、それぞれの手のジェスチャーを認識し、一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェースを投影し、ポイント・ジェスチャーの手の人差し指の先端を追跡し、ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定し、ポイント・ジェスチャーの手の人差し指の先端がオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈し、仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成する。【選択図】図２

Description

本発明は、ユーザー・インターフェース・ディスプレイの方法および装置に、より詳細にはジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法および装置に関する。

たいていの仮想現実感（VR）システムは、ユーザーの動きを、ユーザーが携行するヒューマン・インターフェース装置から追跡できる。ヒューマン・インターフェース装置（たとえばジョイスティック、コントローラー、タッチパッドなど）は、ユーザーが、コンピューティング装置によって実行されるソフトウェア・システム、たとえばVRゲームと対話するために使われる。さらに、ユーザーが装着するヘッドマウントディスプレイ（HMD）が、コンピューティング装置によって生成された対話用画像をVR経験のためにユーザーに対して表示するために使われる。

ユーザーがますます進んでVR没入を経験するよう、新たなユーザー経験を作り出すための仮想ユーザー・インターフェースが提案されている。しかしながら、ジェスチャー認識による仮想キーボード対話のための規格はない。よって、通常の人間用ユーザー・インターフェースはいまだ、リモコンまたはジョイスティックにより実装されている。

よって、対話システムのためのジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法および装置を提供することが、本発明の目的である。

本発明は、対話システムのためのジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法を開示する。本方法は、複数の画像において二つの手を検出し、該二つの手が検出されるときにそれぞれの手のジェスチャーを認識し、一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェース・オブジェクトを投影し、ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端を追跡し、ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定し、ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈し、該クリック・コマンドに応答して、前記相対位置に基づいて仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成することを含む。

本発明は、ジェスチャー認識に基づく仮想ユーザー・インターフェース対話のための対話システムの電子装置を開示する。本電子装置は、プログラムを実行するための処理装置と、前記プログラムを記憶するための前記処理装置に結合されたメモリ装置とを有しており；前記プログラムは、前記処理装置に下記の段階を実行するよう命令する：複数の画像において二つの手を検出し、該二つの手が検出されるときにそれぞれの手のジェスチャーを認識し、一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェース・オブジェクトを投影し、ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端を追跡し、ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定し、ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈し、該クリック・コマンドに応答して、前記相対位置に基づいて仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成する。

本発明のこれらおよび他の目的は、さまざまな図面に示される好ましい実施形態の下記の詳細な説明を読んだあとには、当業者には明白となるに違いない。

本開示のある実施形態に基づく対話システムの概略図である。

本開示のある実施形態に基づく対話プロセスのフローチャートである。

本開示のある実施形態に基づく手のジェスチャーの検出をもつ画像の概略図である。

本開示のある実施形態に基づく対話ディスプレイ画像の概略図である。

図１は、本開示のある実施形態に基づく対話システム１の概略図である。対話システム１は、電子装置１０，イメージセンサー１０００および表示装置２０００を含む。電子装置１０は処理ユニット１００、たとえばマイクロプロセッサまたは特定用途向け集積回路（ASIC）、記憶ユニット１１０および通信インターフェース・ユニット１２０を含む。記憶ユニット１１０は、処理ユニット１００によるアクセスのためにプログラム・コード１１４を記憶できるいかなるデータ記憶装置であってもよい。記憶ユニット１１０の例は、加入者識別情報モジュール（SIM）、読み出し専用メモリ（ROM）、フラッシュメモリ、ランダムアクセスメモリ（RAM）、CD-ROM、磁気テープ、ハードディスクおよび光データ記憶デバイスを含むがそれに限られない。通信インターフェース・ユニット１２０は、対話システム１の他の装置（たとえばイメージセンサー１０００）と信号を交換するために有線または無線通信を適用される。

図２を参照する。本開示のある実施形態に基づく対話プロセス２０のフローチャートが示されている。対話プロセス２０は、図１の電子装置１０において利用されることができる。対話プロセス２０は、記憶ユニット１１０に記憶されるプログラム・コード１１４にコンパイルされてもよく、以下の段階を含んでいてもよい。

段階２０１：複数の画像において二つの手を検出する。

段階２０２：該二つの手が検出されるときにそれぞれの手のジェスチャーを認識する。

段階２０３：一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェース・オブジェクトを投影する。

段階２０４：ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端を追跡する。

段階２０５：ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定する。

段階２０６：ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈する。

段階２０７：該クリック・コマンドに応答して、前記相対位置に基づいて仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成する。

対話プロセス２０によれば、電子装置１０は、図３に示されるように画像IMG₀〜IMG_nにおいて二つの手を検出し、次いで、画像IMG₀〜IMG_nにおいて手のジェスチャーを判別する。ある実施形態では、前記複数の画像IMG₀〜IMG_nは、構造化光（SL: structured light）カメラまたは飛行時間（ToF: time of flight）カメラでありうるイメージセンサー１０００によって生成され、処理ユニット２００が処理して対話のために表示装置２０００に対して処理結果を生成するために、通信インターフェース・ユニット２２０によって受領される。

詳細には、手の検出は以下の段階によって実現される：
１．画像IMG₀〜IMG_nの、ある作業距離をもつ奥行きピクセルを抽出する；
２．すべての上記ピクセルを可能な左手グループおよび右手グループに分類するためにランダム決定フォレスト（RDF: Random Decision Forest）を使う。
３．調べられるピクセルのまわりの奥行きコンテキストの集合をRDFでの入力参照として取り、調べられるピクセルの可能なグループを出力する。
４．左／右手のグループをフレームにおける接続されたオブジェクトにマッチさせる。
５．左／右手の輪郭半径（contour radius）を計算する。
６．左／右手のシルエットをクロッピングする。
７．左／右手のシルエットに従って左／右手の奥行き情報を抽出する。

手が検出されないまたは図３の画像IMG₀に示されるように一つの手しか検出されない場合には、電子装置１０は、二つの手が検出されるまで、手の検出を実行し続けるべきである。他方、図３の画像IMG_rに示されるように二つの手が両方とも検出される場合、電子装置１０は下記の段階によってジェスチャー認識を実行する：
１．手のサブフレームを抽出し；
２．RDFを使ってサブフレーム・ピクセルをジェスチャー・グループに分類し；
３．多数派グループをジェスチャー結果として設定し、二次グループをジェスチャー参照として使う。

ジェスチャー認識は、画像のデータセットによってトレーニングされる機械学習によって実行されてもよいことを注意しておく。当業者にはよく知られているので、ここでは割愛する。さらに、二つの手のジェスチャーが認識された後、電子装置１０は一方の手（たとえば右手）がポイント・ジェスチャーにあり、他方の手（たとえば左手）がオープン・ジェスチャーにあるかどうかを判定するべきである。図３の画像IMG_xに示されるようにポイント・ジェスチャーの手およびオープン・ジェスチャーの手が検出される場合、電子装置はさらに、オープン・ジェスチャーの手があらかじめ定義された角度内である（たとえばてのひらが内側を向いている、まっすぐである）かどうかおよび／またはオープン・ジェスチャーの手がポイント・ジェスチャーの手の横にあるかどうかを判定する。オープン・ジェスチャーの手が電子装置１０の記憶ユニット１１０において定義されている何らかの所定の規則に合致する場合、電子装置１０はオープン・ジェスチャーの手を、不動のオブジェクトと考える。所定の規則については、当業者はしかるべく修正および変更を行なってもよく、それは限定されない。

オープン・ジェスチャーの手を不動のオブジェクトと考える際、電子装置は、オープン・ジェスチャーの手の位置に投影された仮想ユーザー・インターフェース（UI）オブジェクトをもつ画像データを生成する。それは、図４の画像IMG_m'およびIMG_n'に示されるように、ユーザーのために表示装置２０００によって表示される。ある実施形態では、仮想UIオブジェクトは仮想キーボードまたは仮想数字パッドであってもよい。一方、電子装置１０は、ポイント・ジェスチャーの手の人差し指の先端とオープン・ジェスチャーの手との相対位置を得るために、図３の画像IMG_yに示されるように、ポイント・ジェスチャーの手の人差し指の先端の動きを追跡する。そのようにして、電子装置１０は、ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則（たとえばあらかじめ定義された距離）内でオープン・ジェスチャーの手に近いかどうかを判定することができる。図３の画像IMG_nに示されるようにポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された距離内でオープン・ジェスチャーの手に近ければ、電子装置１０はポイント・ジェスチャーの手の人差し指の先端の動きを「クリック」コマンドとして解釈する。このようにして、電子装置１０は、前記相対位置に基づいて仮想UIオブジェクトのキャラクター・オブジェクトをもつ画像データを生成し、該キャラクター・オブジェクトをユーザーに対して表示するために該画像データを表示装置２０００に送信する。

電子装置１０がオープン・ジェスチャーの手が動くことを検出する場合、仮想UIオブジェクト投影は取り消されることを注意しておく。すなわち、電子装置１０は、イメージセンサー１０００から受領された画像に基づく仮想UIオブジェクトなしに画像データを、表示装置２０００が表示するために、生成する。

図４は、本発明のある実施形態に基づく、対話表示画像を示している。表示装置２０００によって表示される画像IMG_Mは、仮想UIオブジェクトがオープン・ジェスチャーの手に投影されることを示している。該オブジェクトは、認識されたジェスチャーに基づいて電子装置１０の処理ユニット１００によって生成される。すなわち、上述したように、電子装置１０がポイント・ジェスチャーをもつ一方の手およびオープン・ジェスチャーをもつ他方の手を判別した後、電子装置１０は仮想UIオブジェクトをもつ画像データを生成し、画像IMG_m'をユーザーに対して表示するために、該画像データを表示装置１３に送信する。画像IMG_n'は、ポイント・ジェスチャーの手のクリック動きを示している。画像IMGは、ポイント・ジェスチャーの手によってクリックされる諸キャラクター・オブジェクト（たとえば数字「2」、「3」、「8」、「0」）を示している。したがって、ユーザーは、いかなるユーザー入力装置への物理的な接触もなしに、仮想UIオブジェクトと対話しうる。

提案される段階を含むプロセスの上述された段階は、ハードウェア、ハードウェア装置とコンピュータ命令の組み合わせとして知られているファームウェアおよび前記ハードウェア装置または電子システム上の読み出し専用ソフトウェアとして存在するデータでありうる手段によって実現されることができる。ハードウェアの例は、アナログ、デジタルおよび混合回路を含むことができる。これらはマイクロ回路、マイクロチップまたはシリコンチップとして知られている。電子システムの例はシステムオンチップ（SOC）、システムインパッケージ（SiP）、コンピュータオンモジュール（COM）および電子装置１０を含むことができる。

まとめると、本発明は、ユーザーが仮想UIオブジェクト投影を介して対話システムと対話するための対話プロセスであって、ジェスチャー認識およびジェスチャー動き検出によって実現されるものを提案する。

当業者は、本発明の教示を保持しつつ装置および方法の数多くの修正および変更がなされうることを容易に観察するであろう。よって、上記の開示は、付属の請求項の外縁によってのみ限定されると解釈されるべきである。

１００処理ユニット
１１０記憶ユニット
１１４プログラム・コード
１２０通信インターフェース・ユニット
１０００イメージセンサー
２０００表示装置

２０１複数の画像において二つの手を検出
２０２該二つの手が検出されるときにそれぞれの手のジェスチャーを認識
２０３一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェースを投影
２０４ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端の動きを追跡
２０５ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定
２０６ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈
２０７該クリック・コマンドに応答して、前記相対位置に対応する仮想ユーザー・インターフェースのキャラクターをもつ画像を生成

Claims

対話システムのためのジェスチャー認識に基づく仮想ユーザー・インターフェース対話の方法であって：
複数の画像において二つの手を検出し；
該二つの手が検出されるときにそれぞれの手のジェスチャーを認識し；
一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェースを投影し；
ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端を追跡し；
ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定し；
ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈し；
該クリック・コマンドに応答して、前記相対位置に基づいて前記仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成することを含む、
方法。
前記あらかじめ定義された規則は、あらかじめ決定された角度またはあらかじめ決定された距離を含む、請求項１記載の方法。
前記オープン・ジェスチャーの手を不動のオブジェクトと考え；
前記オープン・ジェスチャーの手が動く場合に、前記仮想キーボード投影をキャンセルすることをさらに含む、
請求項１記載の方法。
前記オープン・ジェスチャーの手があらかじめ定義された角度内にあるかどうかまたは前記オープン・ジェスチャーの手が前記ポイント・ジェスチャーの手の或る側にあるかどうかを判定することをさらに含む、
請求項１記載の方法。
前記オープン・ジェスチャーの手が前記あらかじめ定義された角度内にあるまたは前記オープン・ジェスチャーの手が前記ポイント・ジェスチャーの手の前記側にあると判定するときに、前記オープン・ジェスチャーの手を不動のオブジェクトと考えることをさらに含み、
前記投影する段階が、一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、前記仮想ユーザー・インターフェースを、前記不動のオブジェクトに対応する位置に投影することを含む、
請求項４記載の方法。
前記検出する段階が：
ある作業距離以内にユーザーの手がある画像の奥行きピクセルを抽出し；
ランダム決定フォレスト（RDF）を用いて前記奥行きピクセルを可能な左手グループおよび右手グループに分類し；
調べられるピクセルのまわりの奥行きコンテキストの集合を前記RDFによる入力参照として取り、前記調べられるピクセルの前記可能なグループを出力し；
前記左／右手のグループをフレームにおける接続されたオブジェクトにマッチさせ；
左／右手の輪郭半径を計算し；
左／右手のシルエットをクロッピングし；
前記左／右手のシルエットに従って左／右手の奥行き情報を抽出することを含む、
請求項１記載の方法。
前記認識する段階が：
手のサブフレームを抽出し；
前記RDFを用いて前記手のサブフレームのピクセルをジェスチャー・グループに分類し；
多数派グループをジェスチャー結果として設定し；
二次グループをジェスチャー参照として使うことを含む、
請求項６記載の方法。
前記仮想ユーザー・インターフェースが仮想キーボードまたは仮想数字パッドを含む、請求項１記載の方法。
ジェスチャー認識に基づく仮想ユーザー・インターフェース対話のための対話システムの電子装置であって、当該装置は：
プログラムを実行するための処理装置と；
前記プログラムを記憶するための前記処理装置に結合されたメモリ装置とを有しており；前記プログラムは、前記処理装置に下記の段階、すなわち：
複数の画像において二つの手を検出する段階と；
該二つの手が検出されるときにそれぞれの手のジェスチャーを認識する段階と；
一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、オープン・ジェスチャーの手の上に仮想ユーザー・インターフェースを投影する段階と；
ポイント・ジェスチャーの手の人差し指の先端およびオープン・ジェスチャーの手の相対位置を得るためにポイント・ジェスチャーの手の人差し指の先端を追跡する段階と；
ポイント・ジェスチャーの手の人差し指の先端があらかじめ定義された規則内でオープン・ジェスチャーの手に近いかどうかを判定する段階と；
ポイント・ジェスチャーの手の人差し指の先端が前記あらかじめ定義された規則内でオープン・ジェスチャーの手に近いとき、ポイント・ジェスチャーの手の人差し指の先端の動きをクリック・コマンドとして解釈する段階と；
該クリック・コマンドに応答して、前記相対位置に基づいて前記仮想ユーザー・インターフェース・オブジェクトのキャラクター・オブジェクトをもつ画像データを生成する段階とを実行するよう命令するものである、
装置。
前記あらかじめ定義された規則は、あらかじめ決定された角度またはあらかじめ決定された距離を含む、請求項９記載の装置。
前記プログラムがさらに前記処理手段に、下記の段階、すなわち：
前記オープン・ジェスチャーの手を不動のオブジェクトと考える段階と；
前記オープン・ジェスチャーの手が動く場合に、前記仮想キーボード投影をキャンセルする段階とを実行するよう命令するものである、
請求項９記載の装置。
前記プログラムがさらに前記処理手段に、下記の段階、すなわち：
前記オープン・ジェスチャーの手があらかじめ定義された角度内にあるかどうかまたは前記オープン・ジェスチャーの手が前記ポイント・ジェスチャーの手の或る側にあるかどうかを判定する段階を実行するよう命令するものである、
請求項９記載の装置。
前記プログラムがさらに前記処理手段に、下記の段階、すなわち：
前記オープン・ジェスチャーの手が前記あらかじめ定義された角度内にあるまたは前記オープン・ジェスチャーの手が前記ポイント・ジェスチャーの手の前記側にあると判定するときに、前記オープン・ジェスチャーの手を不動のオブジェクトと考える段階を実行するよう命令するものであり、
前記投影する段階が、一方の手がポイント・ジェスチャーをもって認識され、他方の手がオープン・ジェスチャーをもって認識されるときに、前記仮想ユーザー・インターフェースを、前記不動のオブジェクトに対応する位置に投影することを含む、
請求項１２記載の装置。
前記検出する段階が：
ある作業距離以内にユーザーの手がある画像の奥行きピクセルを抽出し；
ランダム決定フォレスト（RDF）を用いて前記奥行きピクセルを可能な左手グループおよび右手グループに分類し；
調べられるピクセルのまわりの奥行きコンテキストの集合を前記RDFによる入力参照として取り、前記調べられるピクセルの前記可能なグループを出力し；
前記左／右手のグループをフレームにおける接続されたオブジェクトにマッチさせ；
左／右手の輪郭半径を計算し；
左／右手のシルエットをクロッピングし；
前記左／右手のシルエットに従って左／右手の奥行き情報を抽出することを含む、
請求項９記載の装置。
前記認識する段階が：
手のサブフレームを抽出し；
前記RDFを用いて前記手のサブフレームのピクセルをジェスチャー・グループに分類し；
多数派グループをジェスチャー結果として設定し；
二次グループをジェスチャー参照として使うことを含む、
請求項１４記載の装置。
前記仮想ユーザー・インターフェースが仮想キーボードまたは仮想数字パッドを含む、請求項９記載の装置。