JP6771996B2

JP6771996B2 - ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法

Info

Publication number: JP6771996B2
Application number: JP2016160941A
Authority: JP
Inventors: ナンディタエム．ナヤック，; ガッセムトフィギ，; ハイソング，
Original assignee: コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド
Priority date: 2015-08-31
Filing date: 2016-08-19
Publication date: 2020-10-21
Anticipated expiration: 2036-08-19
Also published as: CN106484098A; EP3136203A1; JP2017084335A; US9703387B2; US20170060250A1; EP3136203B1; CN106484098B

Description

本開示は、ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法に関し、特に、ポインティング操作を認識し、ユーザーの画面に対する位置を確認し、フィードバックとして用いられるユーザーの手の位置を追跡して、ユーザーがポインティングしている画面上の位置又はターゲットを正確に特定するシステム及び方法に関する。

ジェスチャーベースのユーザーインタフェースを離れた場所から操作することは、骨の折れるタスクである。例えば、ユーザーは、視差により、画面上のポインティングしたい位置やターゲットを正確にポインティング出来ないことがよくある。また、既存のシステム側も、ポインティングを正確に認識することに関して、技術的限界がある。

現状、例えば、ユーザーが約３ｍよりも離れた場所からジェスチャーを用いてユーザーインターフェースを操作することを可能とし、ユーザーからのフィードバックをインタラクティブに取得してポインティングの正確性を高め、ターゲット位置候補を用いてユーザーを素早く正確なポインティングへと導くシステムは、ほぼない。

上記問題点に鑑みて、ポインティング操作を認識し、ユーザーの画面に対する位置を確認し、フィードバックとして用いられるユーザーの手の位置を追跡して、ユーザーがポインティングしている画面上の位置又はターゲットを正確に特定するシステム及び方法が望まれている。

一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、を備える方法が開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、を備える方法が開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、を備える方法が開示される。

一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、対象者の三次元（３Ｄ）データを取り込み、前記３Ｄデータから、前記対象者によるポインティング動作を検出し、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、を備え、前記プロセッサーは、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小し、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大するように構成されていることを特徴とするシステムが開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、対象者の三次元（３Ｄ）データを取り込み、前記３Ｄデータから、前記対象者によるポインティング動作を検出し、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、を備え、前記プロセッサーは、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大するように構成されていることを特徴とするシステムが開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、対象者の三次元（３Ｄ）データを取り込み、前記３Ｄデータから、前記対象者によるポインティング動作を検出し、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、を備え、前記プロセッサーは、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小し、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大し、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大するように構成されていることを特徴とするシステムが開示される。

一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、前記処理は、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、を備えるコンピュータープログラムが開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、前記処理は、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、を備えるコンピュータープログラムが開示される。
また、一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、前記処理は、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、を備えるコンピュータープログラムが開示される。

一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出して、ポインティングオペレーションを開始する工程と、前記ポインティング動作の実画面上の交点を決定する工程と、前記実画面上の算出された点を中心とする所定の半径以内に一以上のターゲットがあるか判定する工程と、少なくとも一のターゲットがある場合、ターゲット数が１であるか１を超えるか判定し、前記ターゲット数が１の場合、ターゲットを選択し、前記ターゲット数が１を超える場合、ターゲットが一つになるまで前記所定の半径を縮小して前記所定の半径以内の前記ターゲット数を減らす工程と、前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、前記拡大した所定の半径以内のターゲットを含めるように前記所定の半径以内の前記ターゲット数を更新する工程と、前記所定の半径以内でターゲットが一つだけ特定されるまで、前記拡大した所定の半径を縮小し、前記所定の半径を拡大する工程と、を備える方法が開示される。

上記の概略的な説明と下記の詳細な説明は共に例示的かつ解説的なものであり、特許請求の範囲で請求される本発明の更なる説明を提供することを意図していると理解すべきである。

一例示的実施形態に係るユーザーインターフェースのリアルタイムインタラクティブ操作のためのシナリオを示す図である。一例示的実施形態に係る集会シナリオのための例示的ユーザーインターフェースシステムの概観を示す図である。一例示的実施形態に係る特徴を導き出すために用いられる関節の三次元（３Ｄ）位置を示す。一例示的実施形態に係るジェスチャーを認識するためにシステムで用いられる特徴を示す。一例示的実施形態に係る一連のフレームを異なるジェスチャーに分割した例を示し、当該異なるジェスチャーは、異なる色及び／又は背景で表示されている。一例示的実施形態に係る仮想画面マッピングを用いて得られる画面上のポインティング位置の推定値の例を示す。一例示的実施形態に係るインタラクティブターゲット選択のフローチャートである。一例示的実施形態に係る実物体を用いたインタラクティブターゲット選択の一段階を示す。一例示的実施形態に係る実物体を用いたインタラクティブターゲット選択の一段階を示す。一例示的実施形態に係る実物体を用いたインタラクティブターゲット選択の一段階を示す。

本発明の好ましい実施形態の詳細を記す。また、本発明の例を添付の図面に示す。可能な限り、図面と明細書で同じ参照符号を用いて、同じ又は同様の部分を参照する。

会議１００等の複数人による情報共有を伴うアプリケーションにおいて、又、大型画面／モニター１２２等のユーザーインターフェース１２０のジェスチャーベース操作において、例えば３ｍを超える距離１５０からのユーザー１００による操作が可能であれば、非常に有用であり、使い勝手もよい。その例示的シナリオの図を、図１に示す。画面／モニター１２２上のターゲット位置候補を用いて検索を行い、ユーザー１１０からリアルタイムのジェスチャーベースのフィードバックを取得してオブジェクトの位置を特定することは、上記難題の克服に有用である。また、画面１２２に対するユーザー１１０の距離や角度をマッピングすることで、図２００に示すような異なる位置に立つ複数のユーザー１１２、１１４、１１６によるユーザーインターフェース（ＵＩ）１２０の操作が可能となる。

図１に示すように、会議（又は会議室）１００は、ユーザーインターフェース１２０を備える。ユーザーインターフェース１２０は、例えば、壁や画面に投影像を表示するための投影（言い換えれば、実画面）、テレビ画面、タッチスクリーン、ビデオモニター、及び／又は、ビデオ画面１２２である。また、会議／会議室１００は、例えば、一以上のデータ入力装置１３０を備える。データ入力装置１３０は、動き及び／又は深度センサーカメラ１３２を備える。動き及び／又は深度センサーカメラ１３２は、例えば、深度又は距離測定機能を備えた、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の色空間を有するＲＧＢ−Ｄカメラである。これを用いて、カラー画像（ＲＧＢ色空間）や、各画像における対象者／ユーザー１１０、１１２、１１４、１１６の深度又は距離を取得する。より好ましくは、動き及び／又は深度センサーカメラ１３２は、例えば、各画像における対象者／ユーザー１１０、１１２、１１４、１１６の深度及び／又は距離を取り込むことができる動き及び深度センサーカメラである。

一例示的実施形態によれば、一以上のデータ入力装置１３０は、各々、メモリー、プロセッサー、オペレーティング・システム、及び、ここに開示するモジュール２１０、２２０、２３０、２４０、２５０（図２）の処理又はアルゴリズムを実行するための一以上のソフトウェエアアプリケーションを備える。

また、一例示的実施形態によれば、会議室は、メモリー、プロセッサー、オペレーティング・システム、及び、ここに開示するモジュール２１０、２２０、２３０、２４０、２５０（図２）の処理又はアルゴリズムを実行するための一以上のソフトウェエアアプリケーションを有するコンピューター／処理装置１４０を備える。コンピューター／処理装置１４０は、ディスプレイ／グラフィカルユーザーインタフェース（ＧＵＩ）１４２を備える。ディスプレイ１４２は、スタンドアローンコンピューターの一部であっても、一以上のコンピューター／処理装置内に含まれていてもよい。

一例示的実施形態によれば、一以上のデータ入力装置１３０は、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（広域ネットワーク）等のインターネット／ネットワーク接続、及び／又は、無線周波数（ＲＦ）、ブルートゥース（登録商標）、赤外線（ＩＲ）通信等を含む無線技術を介して、コンピューター／処理装置１４０に接続される。

図２は、会議／集会シナリオにおけるユーザーインターフェースの操作に適用されるシステム２００の絵画図である。集会は、例えば、複数の参加者１１０、１１２、１１４、１１６によって構成され、その中の誰かが操作者１１０となり、その他が受動的参加者となる。一例示的実施形態によれば、インタラクティブユーザーインターフェース１２０は、特徴抽出モジュール２１０、操作者特定モジュール２２０、ジェスチャー分割及び認識モジュール２３０、ターゲット領域マッピング及び推定モジュール２４０、及び、インタラクションモジュール２５０を備える。インタラクションモジュール２５０は、手追跡を行い、ユーザーの手の動きに基づいて、選択された領域を縮小することができる。

一例示的実施形態によれば、リアルタイム骨格抽出機能を有するコスト効果の高い深度センサーの導入により、人間のジェスチャーを認識することに関心が寄せられるようになってきた。一例示的実施形態によれば、例えば、動き及び深度センサー１３２からの骨格データのストリームを入力として用いる。一例示的実施形態によれば、動き及び深度センサー１３２を、例えば、図１に示すように、全てのユーザー１１０、１１２、１１４、１１６が視界に入る位置に設置する。

図３は、一例示的実施形態に係る特徴を導き出すために用いられる骨格関節３００とこれに対応する三次元（３Ｄ）位置を示す図である。図３に示すように、人間の骨格システムの主な関節、例えば、１６の関節の３Ｄ位置を、深度カメラ及び動きセンサー１３２を用いて検出することが好ましい。しかし、一例示的実施形態によれば、全てが必須な訳ではなく、１６未満の関節を用いてもよい。例えば、一例示的実施形態によれば、左右の臀部と、その上の、例えば、上部胴体と頭の関節のみを用いてもよい。一例示的実施形態によれば、脚の関節は、手のジェスチャーを認識するためには余分と考えられている。
＜特徴抽出モジュール＞

一例示的実施形態によれば、特徴抽出モジュール２１０は、ユーザー状態検出、操作者特定、動作分割、及び、動作認識のため、骨格データ３００に基づいて、図４に示すような特徴４００を抽出する。Ｔ枚のフレームと、各フレーム内にＮ個の関節と、を有する動作ビデオは、３Ｄ点のシーケンスのセットとして、次のように記述される。

一例示的実施形態によれば、一例示的システムでは、Ｎ＝１５であり、Ｔはシーケンスによって変化する。特徴抽出の第１の工程は、各フレームについて基本的特徴を算出することである。基本的特徴は、各フレームにおける各関節の姿勢、速度及び動きの情報を表す。

姿勢の特徴４１０は、フレームｔにおける関節ｎと他の各関節との相対的位置を表し、次のように記述される。

したがって、Ｎ個の関節各々について、各フレームに（Ｎ−１）の寸法要素（減算結果）を有するＴ長のシーケンスが存在する。一例示的実施形態によれば、姿勢の特徴４１０は、各フレームにおける身体の姿勢を表している。

速度の特徴４２０は、フレームｔにおける関節ｎとその前のフレーム（ｔ−ｋ）における各関節との相対的位置を表す。ｋは、速度推定ステップサイズのパラメーターである。このパラメーターは、記録された動作ビデオのフレームレートに依存し、フレーム（ｔ−ｋ）とフレームｔの最小間隔であって、関節ｎがその期間に有意な活動度を有する場合に、その明らかな動きを示す。したがって、速度の特徴は次のように記述される。

名称が暗示するように、速度の特徴４２０は、各フレームにおける身体の動きの速さを示す情報を提供する。

動きの特徴４３０は、フレームｔにおける関節ｎと１枚目のフレームにおける各関節との相対的位置を表し、次のように記述される。

良好に分割又は整列された動作ビデオであれば、開始フレームは常に最初は静止状態のはずである。動きの特徴４３０は、初期状態と比較しての各フレームにおける身体の動きを表している。図４は、上記三つの基本的特徴を示す。基本的特徴は、姿勢の特徴４１０、速度の特徴４２０、及び、動きの特徴４３０を含む。

一例示的実施形態によれば、特徴４１０、４２０、４３０を球面座標に変換することで、特徴４１０、４２０、４３０の同心球ビン表現を算出することができる。最終的な記述子は、これらの特徴のＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）である。
＜ユーザー状態検出及び操作者特定モジュール＞

複数の人１１０、１１２、１１４、１１６がカメラ１３２の視界に入るシナリオにおいては、多くて一人が操作者であり、その他の人は受動的参加者である。ユーザー状態検出及び操作者特定モジュール２２０は、参加者の状態をアクティブ／アイドルとして特定する。モジュール２２０は、骨格情報及び抽出した特徴を用いて、立位の人を特定する。例えば、一例示的実施形態によれば、手を挙げた人が操作者と見なされる。動作分割及び認識モジュールで定義される処理と同じ処理を用いて、手を挙げるジェスチャーを認識する。特定された（ＩＤ）人は、操作者１１０として表示され、その他の人は、手を挙げるまで、受動的参加者１１２、１１４、１１６と見なされる。
＜動作分割及び認識モジュール＞

一例示的実施形態によれば、長時間に亘り連続的な動作が行われているシステムにおいては、意味のある異なる動作を特定（又は分割）し、無意味な動作を無視し、各意味のある動作について要求されたタスクを実行する必要がある。一例示的実施形態によれば、これらのタスクは、動作分割及び認識モジュール（又はジェスチャー分割及び認識モジュール）２３０によって行われる。図５は、異なるジェスチャーに分割された一連のフレーム５００を示す図であり、当該異なるジェスチャーは、異なる色（又は背景）で表示されている。

動作分割は、次の三つの工程からなる。第１の工程は、ＭａｘｉｍｕｍＭｅａｎＤｉｓｃｒｅｐａｎｃｙ（ＭＭＤ）基準を適用して、連続的なジェスチャーの間に変化する点を、ジェスチャーの変わり目の初期推定切れ目として検出すること、第２の工程は、運動学的拘束を用いて、初期推定切れ目を正確なジェスチャー変わり目位置に修正すること、そして、最後の第３の工程は、確率密度推定を用いて、二つの切れ目の間における手の動きを推定し、無意識の動きと無ジェスチャーのセグメントを取り除くことである。

分割が実行されると、意味のあるジェスチャーを認識することができる。一例示的実施形態によれば、数人の演者によって行われた同一の意味のあるジェスチャーのセットにより構成されるトレーニングセットを用いて、特徴を抽出し、サポートベクターマシン（ＳＶＭ分類器）を訓練する。抽出されたセグメントからの特徴をＳＶＭに供給して、動作を認識する。
＜ポインティングに対する画面上の初期領域の推定＞

図６は、ターゲット領域マッピング及び推定モジュール２４０を用いた、一例示的実施形態に係る仮想画面マッピング６００による画面１２２上のポインティング位置の推定を示す。ポインティング動作検出後、ポインティングしている手（手首）とこれに対応する肩の三次元（３Ｄ）座標を用いて、骨格データから、ユーザーがポインティングしている位置の初期推定値を取得する。例えば、一例示的実施形態によれば、深度座標はミリメートル（ｍｍ）単位である。手の３Ｄ座標を、例えば、（Ｘ_ｈ，Ｙ_ｈ，Ｚ_ｈ）とする。まず、画面又は仮想画面に対するカメラの深度オフセットを、肩と手の深度座標から減算する。

現在のフレームとその前のフレームにおける肩の点のユークリッド距離を、正確性の測定値として用いることができる。オクルージョンの場合、肩の点は不正確となり、前のフレームにおける位置に変換する必要が生じる。

一定のサイズの仮想画面６１０を、人の中心に、当該人に並行に、そして、当該人から腕の長さ分だけ離れた位置に、作成する。仮想画面６１０に、ポインティングライン６２０が投影される。

そして、仮想点６１２を拡大／縮小し、実投影画面／壁１２２に再配置して、ポインティングの実座標６１４を取得する。一例示的実施形態によれば、ポインティングの実座標６１４は、ターゲット６１６に対応する。

手（肩及び手首）の開始点を下付きのｓとし、終了点を下付きのｅとすると、ポインティングラインは、次のように表される。

向きは変化しないものとして、画面に対するセンサーの深度を、骨格の深度座標から減算する。そして、理論画素座標を交点から算出する。

ここで、ＷとＨは、各々、画面の実際の幅と高さであり、ｘ_ｒｅｓとｙ_ｒｅｓは、画面の空間解像度である。
＜インタラクションモジュール＞

ユーザーがポインティングしている位置の初期推定値算出後、インタラクションモジュール２５０は、ユーザーからリアルタイムのフィードバックを取得し、ユーザーがポインティングしたい正確な位置を取得する。

初期推定値に基づいて、ユーザーのために、画面の当該初期推定値付近の部分を強調表示する。ユーザーは引き続き手を動かす。手追跡を行って、手の動きの方向を取得する。この動きに基づいて、画面上の強調表示された領域を連続的に修正する。各イテレーションにおいて、強調表示された領域は、動きの方向に基づいて、一定の率で拡大、縮小又は移動する。一例示的実施形態によれば、これは、ユーザー１１０が手を下げてキャンセル操作を合図するまで、又は、上記領域が一点に縮小するまで、すなわち、要求された位置に到達したことを示すまで、続く。

一例示的実施形態によれば、インタラクションモジュール２５０は、以下のように機能する。
システムがポインティングを認識して最初に推定した実画面上の点ｃ（ｘ_ｓ，ｙ_ｓ）６１４について、ｃを中心とする、事前に設定（又は定義）された半径ｒを有する円を構築する。

その人が、有意な動きをすることなくポインティングし続けた場合、円は、その中心に向って一定の割合で縮小する。

その人が、特定の方向に手を動かした場合、システムは、その人の手が依然として円の中にあるのか、若しくは、既に円の外に出たのかを検出する。
手が円の中にある場合、円は縮小を止め、動きの方向ｄに、動きの速度ｖ_ｍに比例する割合で移動する。

手が円の外にある場合、円は動きの速度に比例する割合で拡大し、その中心は動きの速度に比例する割合で移動する。

ここに開示するシステム及び方法は、例えば、ユーザーがポインティングを行っており、その手が小刻みに揺れたり動いたりする状況において、ポインティングしている点又は領域が小刻みに揺れたり連続的に動いたりすることを防ぐという効果を得ることができる。

多くのターゲットの中からターゲットを選択することを伴うタスクの場合、以下で説明するようなインタラクティブターゲット選択を行う。
＜インタラクティブターゲット選択＞

図７は、一例示的実施形態に係るインタラクティブターゲット選択７００のフローチャートである。画面上の既知の数のターゲットから、ポインティングにより、ターゲットを一つ選択するシナリオにおいて、上記と同様のシステムを用いて、インタラクティブターゲット選択を行う。図７に示すように、ステップ７１０において、特徴抽出モジュール２１０と操作者特定モジュール２２０は、話者及び／又はユーザー１１０の検出、及び／又は、操作者の特定を行う。

ステップ７２０において、ジェスチャー認識モジュール２３０は、ポインティングジェスチャーを特定する。ステップ７３０、７３２において、仮想画面を作成し（７３０）、ポインティングラインと仮想画面の交点を求める（７３２）。ステップ７４０において、ポインティング方向と画面マッピングを用いて、画面上で初期ターゲットセットを特定する。ステップ７５０において、算出された点を中心とする一定の半径の円の中にある全てのターゲットを求める及び／又は特定する。ステップ７６０において、ターゲットが少なくとも一つあるか判定する。ステップ７７０において、ターゲット数が１であるか判定する。ステップ７７０においてターゲット数が１である場合、当該ターゲットを選択する。ステップ７７０においてターゲット数が１でない場合、処理をステップ７７４に進める。ステップ７６０においてターゲット数が０の場合、処理をステップ７６２に進め、ポインティングオペレーションをキャンセルする。

ステップ７７４において、ユーザー１１０が依然ポインティングしていると判定された場合、ステップ７７６において、アルゴリズムは、ポインティングしている手を引き続き追跡し、ステップ７７８において、手が依然円の中にあるか判定する。ステップ７８２において、手が有意な動きを示していない場合、円は一定のペースで連続的に縮小して、選択されたターゲットの数を減らす。手が指定された円の中で動く場合、円の中心が手の動きの方向に移動する。円の外に移動したターゲットを排除し、円の中のターゲットを含めるように、前記特定されたターゲットセットを更新する。手の位置が円の外である場合、ステップ７８０において、円は、当該手を収容するように拡大し始め、手の方向に移動し始める。現在の円の中の全てのターゲットを含めるように、ターゲットを更新する。拡大及び縮小処理は、ターゲットが一つだけになるまで（ステップ７７０）、又は、人が操作をキャンセルするまで（ステップ７６２）続く。一のターゲットを特定次第（すなわち、ターゲット数が１になり次第）、ステップ７７２において、当該ターゲットを選択する。処理（又はアルゴリズム）は、画面上のターゲットの既知の位置を利用して、ポインティング処理をスピードアップさせることができる。ステップ７９０において、ユーザーの手の動きがシステムへの入力となり、画面上で特定されたターゲットがユーザーにフィードバックを提供する。

一例示的実施形態によれば、例えば、線描や書込み等の他の操作について、システムは、ユーザーによって行われるタスクに関する知識を用いることで、処理の加速化及びシステムの正確性向上を図ることができる。例えば、人が幾何学的図形を線描している場合、カーソルは、ユーザーが強調表示された領域の中に線描しようとしている幾何学的図形に最も近い軌道をたどる。また、ユーザーが既知のスクリプトに書き込もうとしている場合、システムは、当該スクリプトを検出し、カーソルをインテリジェントに動かして、ユーザーが判読可能に書き込みをする手助けをする。
＜実物体のためのインタラクティブターゲット選択＞

一例示的実施形態によれば、既知の数の物体８１０の中から、ポインティングにより、実物体８１１を一つ選択するシナリオにおいて、ここに開示するようなシステムを用いて、インタラクティブターゲット選択８００を行う。本シナリオでは、例えば、図８Ａ〜図８Ｃに示すように、３Ｄ空間におけるポインティングに対する初期領域推定の処理と同様の処理を用いることができる。

上に開示したように、ジェスチャー分割及び認識モジュール２３０は、ポインティングジェスチャーを特定する。例えば、消費財８１２等の実物体８１０の初期セットを空間において特定し、操作者（又はユーザー）１１０は、フィードバックを受け取って、どの物体８１０が初期推定の中にあるのか把握する。物体が一つのみの場合、その物体８１０に対してポインティングを行うことにより、当該物体８１０を選択することができる。

複数の物体８１０が互いに近くにある場合、例えば、図８Ａに示すように、初期推定は、初期推定点を中心とする仮想円８２０の中にある物体８１０のセットである。各物体は、選択の候補であるか否かを示すインジケーター８１４を備える。例えば、図８Ａに示すように、最初に推定された円の中にある候補物体８１０のインジケーター８１４は、当該インジケーターが、例えば、赤色に変わることによって、選択できるようになる。システムのポインティング動作は、操作者１１０に、当該操作者のポインティング動作に基づく初期推定を提供する。

処理（又はアルゴリズム）は、ポインティングしている手を引き続き追跡し、選択された物体８１０のセットを修正する。例えば、操作者１１０の手が有意な動きを示していない場合、候補物体の数は一定のペースで連続的に減少する。手が指定された円の中で動く場合、円の中心が手の動きの方向に移動する。手の位置が円の外である場合、円は、当該手を収容するように拡大し始め、手の方向に移動し始める。一例示的実施形態によれば、例えば、現在の円の中の全ての物体８１０を含めて、そうでない物体を排除するように、物体インジケーター８１４を更新する。拡大及び縮小処理は、ターゲット（又は物体）が一つだけになるまで、又は、人が操作をキャンセルするまで、図８Ｂ及び図８Ｃに示すように続く。一の物体８１１（図８Ｃ）を特定次第、当該物体８１１を選択し、そのインジケーターが、操作者（又はユーザー）１１０に、最終的な選択についてフィードバックを与える。

図８Ｂは、仮想円８２０が手の動きに基づいて縮小する例を示す。一例示的実施形態によれば、例えば、操作者１１０が手を仮想円８２０の中でわずかに動かした場合、仮想円は縮小し、システムは、操作者１１０の手の動きを引き続き追跡する。インジケーター８１４は、システムによる検出と操作者のポインティング動作に基づいて、例えば、緑色に変わって、操作者１１０にフィードバックを与える。

図８Ｃに示すように、インジケーター８１４の色が、例えば、緑色に変わった後、操作者１１０が、例えば、その一の物体８１１をポインティングし続けると、システムは、操作者１１０は物体８１１の選択に満足していると判定する。この時、他のインジケーター８１２はオフとなり、選択された物体８１１のインジケーターは、例えば、緑色のままである。

一例示的実施形態によれば、例えば、多くの棚や商品を有する主流のスーパーマーケットでの買い物を、上記のようにして行うことができる。各商品は、選択インジケーターとしてＬＥＤを有する。客が或る位置をポインティングすると、初期ポインティング推定を中心とする仮想円の中のＬＥＤがオンになる。客の手を追跡し、選択された物体を更新する。一の商品を特定次第、その選択された商品（又は消費財）以外の全ての商品のインジケーターはオフとなり、その最終的な選択を客に示す。なお、インジケーターシステムは、各商品の位置にＬＥＤを用いることに限定されるものではない。

一例示的実施形態によれば、ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、前記処理は、対象者の三次元（３Ｄ）データを取り込む工程と、前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、を備えるコンピュータープログラムが開示される。

コンピュータープログラムは、コンピューター読取可能記憶媒体に格納される。コンピューター読取可能記憶媒体は、磁気記憶媒体、光磁気記憶媒体、又は、将来開発される如何なる記憶媒体であってもよく、これらは全て上記と同様に本発明に適用可能である。このような媒体の複製品、例えば、一次複製品や二次複製品等は、疑いもなく上記媒体の均等物である。また、本発明の実施形態がソフトウェアとハードウェアの組み合わせである場合も、本発明のコンセプトから逸脱するものでは全くない。本発明は、そのソフトウェア部分が事前に記憶媒体に書き込まれ、起動中に必要に応じて読み出されることで実施されてもよい。

当業者にとっては、本発明の範囲や趣旨から逸脱しない範囲で、本発明の構成に様々な改良や変更を行うことが可能であることは明らかであろう。上記に鑑みて、本発明は、以下の特許請求の範囲やその均等物の範囲内となる改良や変更を包含するものである。

添付の図面は、本発明の更なる理解を提供するために含まれ、本明細書に組み込まれて当該明細書の一部を構成する。図面は本発明の実施形態を図示し、本明細書と共に、本発明の原理を説明することに寄与する。

Claims

ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、
を備える方法。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、
を備える方法。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、
を備える方法。
ユーザーの前記ポインティング動作の動きが前記所定の半径以内と検出され、前記所定の半径の前記中心点に相対した前記ポインティング動作の変化が検出された場合、前記所定の半径の前記中心点を移動させる工程を備える請求項１〜３の何れか一項に記載の方法。
前記ターゲット領域内でターゲットを選択する工程を備え、
前記ターゲットを選択する工程は、
前記所定の半径以内に一以上のターゲットがあるか判定する工程と、
少なくとも一のターゲットがある場合、ターゲット数が１であるか１を超えるか判定し、前記ターゲット数が１の場合、ターゲットを選択し、前記ターゲット数が１を超える場合、ターゲットが一つになるまで前記所定の半径を縮小して前記所定の半径以内の前記ターゲット数を減らす工程と、
を備える請求項１〜３の何れか一項に記載の方法。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、
対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、
対象者の三次元（３Ｄ）データを取り込み、
前記３Ｄデータから、前記対象者によるポインティング動作を検出し、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、
を備え、
前記プロセッサーは、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小し、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大するように構成されていることを特徴とするシステム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、
対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、
対象者の三次元（３Ｄ）データを取り込み、
前記３Ｄデータから、前記対象者によるポインティング動作を検出し、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、
を備え、
前記プロセッサーは、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大するように構成されていることを特徴とするシステム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するシステムであって、
対象者の三次元（３Ｄ）データを取り込むための動き及び深度センサーと、
対象者の三次元（３Ｄ）データを取り込み、
前記３Ｄデータから、前記対象者によるポインティング動作を検出し、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出し、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行うように構成されたプロセッサーと、
を備え、
前記プロセッサーは、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小し、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大し、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大するように構成されていることを特徴とするシステム。
前記プロセッサーは、
ユーザーの前記ポインティング動作の動きが前記所定の半径以内と検出され、前記所定の半径の前記中心点に相対した前記ポインティング動作の変化が検出された場合、前記所定の半径の前記中心点を移動させるように構成されていることを特徴とする請求項６〜８の何れか一項に記載のシステム。
前記プロセッサーは、
前記ターゲット領域内でターゲットを選択し、
前記ターゲットを選択する際には、
前記所定の半径以内に一以上のターゲットがあるか判定し、
少なくとも一のターゲットがある場合、ターゲット数が１であるか１を超えるか判定し、前記ターゲット数が１の場合、ターゲットを選択し、前記ターゲット数が１を超える場合、ターゲットが一つになるまで前記所定の半径を縮小して前記所定の半径以内の前記ターゲット数を減らすように構成されていることを特徴とする請求項６〜８の何れか一項に記載のシステム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、
前記処理は、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、
を備えるコンピュータープログラム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、
前記処理は、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、
を備えるコンピュータープログラム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識するためのコンピューター読取可能コードを有し、コンピューターによって実行されることで当該コンピューターに処理を行わせるコンピュータープログラムであって、
前記処理は、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出する工程と、
前記ポインティング動作から、中心点を中心とする所定の半径を有するターゲット領域の初期推定値を算出する工程と、
前記対象者の前記ポインティング動作を追跡し、前記検出されたポインティング動作に基づいて前記ターゲット領域の前記所定の半径が変化する一連のイテレーションを行う工程と、
前記ポインティング動作が前記ターゲット領域の前記所定の半径以内にある場合、前記所定の半径を縮小する工程と、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、
前記所定の半径を、一定の割合及び前記対象者の前記ポインティング動作の動きの速度に比例する割合で、縮小及び拡大する工程と、
を備えるコンピュータープログラム。
前記処理は、
ユーザーの前記ポインティング動作の動きが前記所定の半径以内と検出され、前記所定の半径の前記中心点に相対した前記ポインティング動作の変化が検出された場合、前記所定の半径の前記中心点を移動させる工程を備えることを特徴とする請求項１１〜１３の何れか一項に記載のコンピュータープログラム。
前記処理は、
前記ターゲット領域内でターゲットを選択する工程を備え、
前記ターゲットを選択する工程は、
前記所定の半径以内に一以上のターゲットがあるか判定する工程と、
少なくとも一のターゲットがある場合、ターゲット数が１であるか１を超えるか判定し、前記ターゲット数が１の場合、ターゲットを選択し、前記ターゲット数が１を超える場合、ターゲットが一つになるまで前記所定の半径を縮小して前記所定の半径以内の前記ターゲット数を減らす工程と、
を備えることを特徴とする請求項１１〜１３の何れか一項に記載のコンピュータープログラム。
ユーザーインターフェースを用いたリアルタイムインタラクションのためにジェスチャーを認識する方法であって、
対象者の三次元（３Ｄ）データを取り込む工程と、
前記３Ｄデータから、前記対象者によるポインティング動作を検出して、ポインティングオペレーションを開始する工程と、
前記ポインティング動作の実画面上の交点を決定する工程と、
前記実画面上の算出された点を中心とする所定の半径以内に一以上のターゲットがあるか判定する工程と、
少なくとも一のターゲットがある場合、ターゲット数が１であるか１を超えるか判定し、前記ターゲット数が１の場合、ターゲットを選択し、前記ターゲット数が１を超える場合、ターゲットが一つになるまで前記所定の半径を縮小して前記所定の半径以内の前記ターゲット数を減らす工程と、
前記対象者による前記ポインティング動作が前記所定の半径外にある場合、前記所定の半径を拡大する工程と、
前記拡大した所定の半径以内のターゲットを含めるように前記所定の半径以内の前記ターゲット数を更新する工程と、
前記所定の半径以内でターゲットが一つだけ特定されるまで、前記拡大した所定の半径を縮小し、前記所定の半径を拡大する工程と、
を備える方法。
前記対象者による前記ポインティング動作の仮想画面上の前記交点が変化した場合、前記所定の半径の中心を移動させる工程と、
前記所定の半径外のターゲットを除き、前記所定の半径以内のターゲットを含めることで、前記所定の半径以内の前記ターゲット数を更新する工程と、
を備える請求項１６に記載の方法。
動き及び深度センサーを用いて前記３Ｄデータを取り込む工程を備え、
前記実画面は投影画面又はビデオ画面であることを特徴とする請求項１６に記載の方法。
前記実画面は複数の選択インジケーターであり、
前記複数の選択インジケーターは各々消費財に対応することを特徴とする請求項１８に記載の方法。