JP2016510144A

JP2016510144A - ナチュラルユーザインプットの関与の検出

Info

Publication number: JP2016510144A
Application number: JP2015557043A
Authority: JP
Inventors: シュヴェジンガー，マーク; ラフォ，エデュアードエスカード; ムリーリョ，オスカー; バスティアン，デイビット; エイチ．アーン，マシュー; ジュスティ，マウロ; エンドレス，ケビン; クライン，クリスチャン; シュヴァルツ，ジュリア; クラウディウスマレー，チャールズ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2013-02-11
Filing date: 2014-02-06
Publication date: 2016-04-04
Also published as: US9785228B2; AU2014214950A1; RU2015133527A; KR102223693B1; CN105122183B; KR20150116897A; CA2898088A1; US20140225820A1; CN105122183A; WO2014124065A1; BR112015018499A2; MX2015010382A

Abstract

【解決手段】ユーザ入力をコンピュータシステムに提供するＮＵＩシステムである。ＮＵＩシステムは、論理マシンおよび命令記憶マシンを具備する。命令記憶マシンは、論理マシンにより実行された場合に、対象者からの関与ジェスチャの検出または対象者の関与の程度を反映した関与測定基準の演算を論理マシンに行わせる命令を保持する。また、これらの命令は、関与ジェスチャが検出されるか、または関与測定基準が閾値を超え次第、対象者からのジェスチャに基づくユーザ入力のコンピュータシステムへの移動を論理マシンに行わせる。【選択図】図１

Description

[0001] ナチュラルユーザインプット（NUI）技術は、コンピュータシステムと人間との間の直観的な対話モードを提供することを目的とする。このようなモードの例としては、ジェスチャおよび／または言語認識が挙げられる。適切に構成された視覚および／または聴覚システムが、様々なコンピュータアプリケーションに関して、キーボード、マウス、タッチスクリーン、ゲームパッド、またはジョイスティックコントローラ等の従来のインタフェースハードウェアにますます置き換わる可能性がある。

[0002] 任意のユーザ入力技術の機能は、ユーザの関与すなわちユーザが入力を所望する状態を検出することである。従来のインタフェースハードウェアにおいて、ユーザの関与を検出することは容易である。キー押下、スクリーンタッチ、またはマウスもしくはジョイスティックの移動はすべて、ユーザが入力を所望していることを示す。しかし、ＮＵＩ技術では、ユーザの関与の検出が容易ではない場合が多い。

[0003] 本開示の一実施形態は、ユーザ入力をコンピュータシステムに提供するＮＵＩシステムを提示する。ＮＵＩシステムは、論理マシンおよび命令記憶マシンを具備する。命令記憶マシンは、論理マシンにより実行された場合に、対象者の奥行き映像から導出されたその対象者の姿勢情報を論理マシンに受信させる命令を保持する。また、これらの命令は、論理マシンに姿勢情報を解析させて、ユーザがコンピュータシステムへの関与を望むことを示すことが増大するにつれて上昇し、ユーザがコンピュータシステムへの関与を望むことを示すことが減少するにつれて低下する対象者の関与測定基準を演算させる。また、これらの命令は、関与測定基準に基づいて、姿勢情報をコンピュータシステムへのユーザ入力として処理するか否かを論理マシンに判定させる。

[0004] 別の実施形態において、命令記憶マシンに保持された命令は、論理マシンに姿勢情報を解析させて、対象者からの関与ジェスチャを検出させる。これらの命令は、関与ジェスチャが検出され次第、論理マシンにコンピュータシステムへのユーザ入力として姿勢情報を処理させるが、関与ジェスチャが検出されるまでは、コンピュータシステムへのユーザ入力としての姿勢情報の処理を控えさせる。

[0005] 本概要は、発明を実施するための形態においてさらに後述する種々概念を簡単な形態で導入するために提供される。本概要は、特許請求の範囲に係る主題の重要な特徴または本質的な特徴を特定するものでもなければ、特許請求の範囲に係る主題の範囲を限定するためのものでもない。さらに、特許請求の範囲に係る主題は、本開示の任意の部分に記載の任意またはすべての不利益を解消する実施態様に限定されない。

[0006]本開示の一実施形態に係る、ＮＵＩを用いてコンピュータまたはゲームシステムを制御する例示的な環境の態様を示す図である。 [0007]本開示の一実施形態に係る、コンピュータシステムおよびＮＵＩインタフェースシステムの態様を示す図である。 [0008]本開示の一実施形態に係る、ユーザ入力をコンピュータシステムに提供する例示的な方法を示す図である。 [0009]本開示の一実施形態に係る、例示的な仮想スケルトンの態様を示す図である [0010]本開示の一実施形態に係る、例示的な関与ジェスチャの態様を示す図である。 [0011]本開示の一実施形態に係る、ユーザ入力をコンピュータシステムに提供する別の例示的な方法を示す図である。

[0012] 以下、上掲の図示実施形態を参照して、本開示の態様を一例として説明する。１つまたは複数の実施形態において実質的に同一となり得る構成要素、プロセス工程等の要素については、協調的に識別し、繰り返しが最小限となるように説明する。しかし、協調的に識別した要素であっても、ある程度は異なる場合もあることに留意されたい。さらに、本開示に含まれる図面は概略的なものであり、一般に、原寸に比例して示されていないことにも留意されたい。寧ろ、図面に示す様々な図面縮尺、アスペクト比、および構成要素数は、特定の特徴または関係が見やすいように、意図的に変形されている場合がある。

[0013] 図１は、例示的な環境１０の態様を示している。図示の環境は、個人宅のリビングルームまたはファミリルームである。しかし、本明細書に記載の手法は、小売店および売店、レストラン、案内所、公共サービス環境等の他の環境においても等しく適用可能である。図１の環境においては、家庭用娯楽システム１２が設置されている。家庭用娯楽システムは、いずれもコンピュータシステム１８に対して動作可能に結合された大画面ディスプレイ１４およびスピーカ１６を具備する。図示の実施形態において、ディスプレイは、コンピュータ生成画像（静止画、映像、グラフィカルユーザインタフェース要素等）を表示面２０に提示している。ヘッドマウントディスプレイとしての変形等の他の実施形態において、表示面は、ディスプレイのハードウェアに対して異なる位置にあってもよい。いくつかの実施形態において、コンピュータシステムは、ビデオゲームシステムであってもよい。いくつかの実施形態において、コンピュータシステムは、音楽および／または映像を再生するように構成されたマルチメディアシステムであってもよい。いくつかの実施形態において、コンピュータシステムは、例えばインターネット閲覧およびワードプロセッサまたはスプレッドシートアプリケーション等の生産性アプリケーションに用いられる汎用コンピュータシステムであってもよい。一般的に、コンピュータシステム１８は、本開示の範囲から逸脱することなく、特に上記目的のうちのいずれかまたはすべてを対象として構成されてもよい。

[0014] コンピュータシステム１８は、様々な形態のユーザ入力を受け入れるように構成されてもよい。このため、コンピュータシステムには、キーボード、マウス、タッチスクリーン、ゲームパッド、またはジョイスティックコントローラ等、従来のユーザ入力装置（図面には示さず）が動作可能に結合されてもよい。また、コンピュータシステム１８は、従来のユーザ入力様式に対応しているか否かに関わらず、少なくとも１人のユーザ２２からの所謂ナチュラルユーザインプット（NUI）を受け入れるように構成されている。図１に表すシナリオにおいて、ユーザはソファに着座しているが、他のシナリオにおいて、ユーザは、この場合も本開示の範囲から逸脱することなく、平臥していてもよく、起立していてもよい。ＮＵＩの様々な態様を捕捉して対応する入力をコンピュータシステム１８に提供するため、そのコンピュータシステムには、ＮＵＩインタフェースシステム２４が動作可能に結合されている。コンピュータおよびＮＵＩインタフェースシステムは、図面に示すように有線通信リンクを介して結合されてもよく、その他任意の適切な様態で結合されてもよい。図１では、ＮＵＩインタフェースシステム２４および関連するセンサハードウェアがディスプレイ１４上且つ実質的に表示面２０内に配置されているが、他の様々な配置も同様に考えられる。例えば、ＮＵＩインタフェースシステムは、天井に取り付けることも可能である。

[0015] 図２は、例示的な一実施形態における、コンピュータシステム１８、ＮＵＩインタフェースシステム２４、および関連する構成要素の相互運用性を示す高水準概略図である。コンピュータシステムは、ソフトウェアおよび／またはファームウェアにて例示化し得るオペレーティングシステム２６を具備する。あるいは、オペレーティングシステムは、少なくとも一部がハードウェア、例えばシステムオンチップアーキテクチャにて例示化されていてもよい。また、コンピュータシステムは、例えばビデオゲームアプリケーション、デジタルメディアプレーヤ、インターネットブラウザ、フォトエディタ、ワードプロセッサ、および／またはスプレッドシートアプリケーション等の１つまたは複数のアプリケーション２８を具備してもよい。当然のことながら、コンピュータシステムは、オペレーティングシステムおよびアプリケーションへの対応の必要に応じて、適切なデータストレージ、命令ストレージ、および論理ハードウェアを具備してもよい。図２の実施形態において、コンピュータシステム１８は、ディスプレイ１４およびスピーカ１６に対して動作可能に結合されて、マルチメディア出力を提供する。

[0016] 上述の通り、ＮＵＩインタフェースシステム２４は、ユーザ入力をコンピュータシステム１８に提供するように構成されている。この目的のため、ＮＵＩインタフェースシステムは、論理マシン３０および命令記憶マシン３２を具備する。ＮＵＩインタフェースシステムは、ユーザ入力を検出するため、１つまたは複数の奥行きカメラ３４、マイクロホン３６、およびカメラ３８を含み得るセンサ構成要素アレイからの低レベル入力（すなわち、信号）を受信する。また、図示の実施形態において、センサ構成要素は、任意選択としての凝視トラッカ４０を具備する。ＮＵＩインタフェースシステムは、センサ構成要素からの低レベル入力を処理して、すぐに使用可能なコンピュータシステム１８への高レベル入力を生成する。例えば、ＮＵＩインタフェースシステムは、マイクロホン３６からの音響入力に対して、音声または言語認識を実行してもよい。このような動作によって、コンピュータシステム１８で受信されるテキストベースの対応するユーザ入力または他の高レベルコマンドが生成されてもよい。いくつかの実施形態において、ＮＵＩインタフェースシステムおよびセンサ構成要素は、少なくとも一部が統合されていてもよい。他の実施形態において、ＮＵＩインタフェースシステムは、コンピュータシステムと一体化されて、周辺のセンサ構成要素からの低レベル入力を受信してもよい。

[0017] 引き続き図２において、各奥行きカメラ３４は、視野内の１人または複数人の対象者の時間分解奥行きマップ列を取得するように構成された撮像システムを備えていてもよい。本明細書において、用語「奥行きマップ」は、撮像シーンの対応する領域（X_i, Y_i）に登録され、各画素に対して、奥行き値Ｚ_ｉが対応する領域の奥行きを示す画素アレイを表す。「奥行き」は、奥行きカメラからの距離の増大に伴って大きくなる奥行きカメラの後軸に平行な座標として規定される。運用上、奥行きカメラは、下流処理によって奥行きマップが得られる２次元画像データを取得するように構成されてもよい。

[0018] 一般的に、奥行きカメラ３４の性質は、本開示の種々実施形態において異なっていてもよい。例えば、奥行きカメラは、静止していること、移動していること、または可動式であることが可能である。任意の非定常奥行きカメラは、広範な視点から環境を撮像可能であってもよい。一実施形態において、奥行きカメラの２つの立体配向撮像アレイからの輝度および色データは、重ね合わせて使用することにより、奥行きマップを構成してもよい。他の実施形態において、奥行きカメラは、多くの離散的特徴、例えばラインまたはドットを含む構造化赤外線（IR）照明パターンを対象者に投射するように構成されてもよい。奥行きカメラの撮像アレイは、対象者から反射して戻る構造化照明を撮像するように構成されてもよい。撮像された対象者の様々な領域における隣接特徴間の間隔に基づいて、対象者の奥行きマップが構成されてもよい。さらに他の実施形態において、奥行きカメラは、対象者に対してパルス赤外線照明を投射してもよい。奥行きカメラの一対の撮像アレイは、対象者から反射して戻るパルス照明を検出するように構成されてもよい。両アレイは、パルス照明と同期した電子シャッタを具備してもよい。しかし、照明源から対象者ひいてはアレイまでのパルス照明の画素分解飛行時間が、２つのアレイの対応する要素で受信される相対的な光量に基づいて識別できるように、アレイの積分時間は異なっていてもよい。

[0019] カラーカメラ３８を備える場合、それぞれは、観測シーンからの可視光を複数のチャンネル（例えば、赤、緑、青等）で撮像し、この撮像した光を画素アレイにマッピングしてもよい。あるいは、グレースケールの光を撮像するモノクロカメラが備わっていてもよい。すべての画素の色または輝度値は全体として、デジタルカラー画像を構成する。一実施形態において、奥行きカメラおよびカラーカメラの解像度は、同じであってもよい。解像度が異なる場合であっても、カラーカメラの画素は、奥行きカメラの画素に登録されてもよい。このように、観測シーンの各部分に対して、色および奥行きの両情報が評価されてもよい。マイクロホン３６を備える場合、それぞれは、観測対象の対象者からの指向性および／もしくは無指向性の音声または環境１０中の他の音声を拾ってもよい。ＮＵＩインタフェースシステム２４を通して取得されたセンサデータは、時間分解デジタル音響データに加えて、奥行きカメラが撮像した全画素のＸ、Ｙ、Ｚ座標、カラーカメラが撮像した全画素の赤、緑、および青チャンネル値を含む１つまたは複数のマトリクス等、任意の適切なデータ構造の形態であってもよいことに留意されたい。

[0020] 上述の通り、奥行きカメラ３４は当然、人々の観測に適用可能である。これは部分的に、対象者が移動しており、対象者（または、対象者の任意の部分）の動作がカメラの光軸に平行であっても、対象者の輪郭を解像可能であることに起因する。この能力は、ＮＵＩインタフェースシステム２４の専用論理アーキテクチャによってサポートされ、増幅され、拡張される。

[0021] 上述の構成によれば、ユーザ入力をコンピュータシステムに提供する様々な方法が可能となる。以下、上記構成を引き続き参照して、このような方法をいくつか一例として説明する。しかし、ここに説明する方法および本開示の範囲内の他の方法は、異なる構成でも同様に可能となり得ることを理解されたい。日常生活を送る人々の観測を伴うこれらの方法は、個人のプライバシを最大限に尊重して規定してもよく、また、規定すべきである。したがって、本明細書に提示する方法は、観測対象の個人のオプトイン参加に完全に対応している。個人データがローカルシステム上で収集され、リモートシステムに送信されて処理される実施形態において、これらのデータは、既知の様態で匿名化可能である。他の実施形態においては、個人データがローカルシステムに閉じ込められ、非個人的な要約データのみがリモートシステムに送信されてもよい。

[0022] 図３は、ユーザ入力をコンピュータシステムに提供する例示的な方法４２を示している。方法４２の工程４４においては、ユーザ入力を提供するために対象者を選択する。この目的のため、ＮＵＩインタフェースシステム２４は、接続された１つまたは複数の奥行きカメラからの奥行き映像を解析し、１人もしくは複数人の対象者候補または対象者候補が存在した奥行き映像の部分を識別するように構成されてもよい。

[0023] 適切な奥行き画像処理によって、奥行きマップの所与の軌跡を（例えば、家具、壁紙、猫等の何か別の物とは対照的な）対象者に属するものと認識することができる。一実施形態において、対象者に属する画素は、適切な時間スケールにわたって閾値を超える動作を示す奥行きデータの部分を区分し、人間の一般化幾何モデルに対するその部分の適合を試みることによって識別される。適切な適合が得られる場合は、その部分の画素が対象者の画素として認識される。他の実施形態において、対象者は、動作に関係なく、輪郭のみで識別されてもよい。

[0024] 特定の一実施形態において、ＮＵＩインタフェースシステム２４は、奥行きデータを解析し、非対象者および背景から対象者を区別してもよい。この目的のため、奥行きマップの各画素には、その画素が特定の対象者または人間以外の要素に属するものと識別する個人指標が割り当てられてもよい。一例として、第１の個人に対応する画素には、１に等しい個人指標を割り当て可能であり、第２の個人に対応する画素には、２に等しい個人指標を割り当て可能であり、対象者に対応していない画素には、０に等しい個人指標を割り当て可能である。個人指標の決定、割り当て、および保存は、任意の適切な様態で行われてもよい。

[0025] 接続された奥行きカメラそれぞれの視野（FOV）においてすべての対象者候補が識別された後、ＮＵＩインタフェースシステム２４は、ユーザ入力をコンピュータシステム１８に提供する１人または複数人の対象者に関する判定を行ってもよい。一実施形態において、対象者は、表示面２０との近接性に基づいて選択されてもよい。この選定は、対象ユーザが制御を試行中であり得るコンピュータシステム１８のユーザインタフェースの様々な要素をディスプレイ１４が表示面上に提示してもよいことを前提とすれば妥当である。より詳細な実施形態において、対象者は、奥行きカメラ３４との近接性および／または奥行きカメラの視野中の位置に基づいて選択されてもよい。より具体的に、選択された対象者は、表示面または奥行きカメラに最も近い対象者であってもよく、奥行きカメラのＦＯＶの中心に最も近い対象者であってもよい。また、いくつかの実施形態において、ＮＵＩインタフェースシステムは、ユーザ入力を提供する対象者として選択するか否かの判定において、その対象者の並進動作、例えば対象者の重心の動作の程度を考慮してもよい。例えば、奥行きカメラのＦＯＶを横切って移動（常に移動、閾値速度を超えて移動等）している対象者は、ユーザ入力を提供する対象者から除外されてもよい。この判定は、ＮＵＩインタフェースシステムへの関与を望む個人がカメラのＦＯＶを通って移動しているのではなく、表示面または奥行きカメラの前で起立または着座しているとの推定に基づく。しかし、当然ながら、システムへの関与を望む個人は、ある程度は移動し続けていてもよい。

[0026] 方法４２の工程４６においては、選択された対象者の姿勢情報をＮＵＩインタフェースシステム２４が受信する。この姿勢情報は、奥行きカメラ３４で取得された奥行き映像から演算により導出されたものであってもよい。この実行段階においては、別のセンサ入力、例えばカラーカメラ３８からの画像データまたはマイクロホン３６からの音響データを同様に受信し、姿勢情報と併せて用いることにより、対象者の関与を評価してもよい。ここで、対象者の姿勢情報を取得する例示的なモードを説明する。

[0027] 一実施形態において、ＮＵＩインタフェースシステム２４は、対象者を明らかにする奥行きマップの画素を解析し、各画素が対応する対象者の身体の部分を決定するように構成されてもよい。この目的のため、多様な身体部分割り当て技術を使用可能である。一例において、適切な個人指標（上記参照）を備えた奥行きマップの各画素には、身体部分指標が割り当てられてもよい。身体部分指標は、その画素が対応する可能性がある１つまたは複数の身体部分を示す離散的識別子、信頼値、および／または身体部分確率分布を含んでいてもよい。身体部分指標の決定、割り当て、および保存は、任意の適切な様態で行われてもよい。

[0028] 一例においては、機械学習を用いることによって、各画素に身体部分指標および／または身体部分確率分布を割り当てるようにしてもよい。機械学習手法では、既知の姿勢の事前トレーニング集合から学習した情報を用いて対象者を解析する。例えば、管理下トレーニング段階においては、多様な姿勢の多様な対象者が観測される。トレーナは、様々な機械学習分類子を標識化したグランドトゥルースアノテーションを観測データに提供する。そして、観測データおよびアノテーションを用いることによって、入力（例えば、奥行きカメラからの観測データ）を所望の出力（例えば、関連画素の身体部分指標）にマッピングする１つまたは複数の機械学習アルゴリズムを生成する。

[0029] いくつかの実施形態においては、対象者に対応する奥行きデータの画素に仮想スケルトンを適合させる。図４は、一実施形態における、例示的な仮想スケルトン５０を示している。仮想スケルトンは、複数の関節５４で枢軸結合された複数の骨格セグメント５２を含む。いくつかの実施形態において、各骨格セグメントおよび／または各関節には、身体部分指定が割り当てられてもよい。図４において、各骨格セグメント５２の身体部分指定は、頭がＡ、鎖骨がＢ、上腕がＣ、前腕がＤ、手がＥ、胴体がＦ、骨盤がＧ、大腿がＨ、下腿がＪ、および足がＫという補足文字で表される。同様に、各関節５４の身体部分指定は、首がＡ、肩がＢ、肘がＣ、手首がＤ、腰がＥ、臀部がＦ、膝がＧ、および足首がＨという補足文字で表される。当然ながら、図４に示す骨格セグメントおよび関節の配置は、何ら限定的なものではない。本開示と整合する仮想スケルトンは、任意の種類および任意の数の骨格セグメントおよび関節を仮想的に含んでいてもよい。

[0030] 一実施形態において、各関節には、様々なパラメータ、例えば関節の位置を指定するデカルト座標、関節の回転を指定する角度、および対応する身体部分の形態（平手、握り拳等）を指定する他のパラメータが割り当てられてもよい。仮想スケルトンは、各関節のこれらパラメータのいずれか、一部、またはすべてを含むデータ構造の形態であってもよい。このように、仮想スケルトンを規定する測定データ、そのサイズ、形状、ならびに奥行きカメラに対する位置および方向が関節に割り当てられてもよい。

[0031] 骨格セグメントの長さならびに関節の位置および回転角は、任意の適切な最小化手法によって、奥行きマップの様々な輪郭と一致するように調整されてもよい。このプロセスでは、撮像された対象者の位置および姿勢を規定してもよい。一部の骨格適合アルゴリズムでは、カラー画像データおよび／または画素のある軌跡が別の軌跡に対してどのように移動するかを示す動的データ等の他の情報と組み合わせて、奥行きデータを使用してもよい。上述の通り、身体部分指標は、最小化に先立って割り当てられてもよい。また、身体部分指標を用いて適合手順の配分、通知、またはバイアス印加を行うことにより、収束率を向上させてもよい。例えば、画素の所与の軌跡が対象者の頭として指定されている場合、適合手順では、単一の関節すなわち首に枢軸結合された骨格セグメントをその軌跡に適合させてもよい。この軌跡が前腕として指定されている場合、適合手順では、セグメントの各端部に１つずつ、２つの関節に結合された骨格セグメントを適合させてもよい。さらに、所与の軌跡が対象者のいずれかの身体部位に対応している可能性が低いと判定された場合、その軌跡は、マスキングするか、あるいは後続の骨格適合から除外してもよい。いくつかの実施形態において、仮想スケルトンは、奥行き映像の一連のフレームそれぞれに適合していてもよい。また、様々な関節および／または骨格セグメントの位置変化を解析し、撮像された対象者の対応する動き、例えばジェスチャ、動作、挙動パターンを判定してもよい。

[0032] 以上の説明は、仮想スケルトンの構成に使用可能な手法の範囲を限定するものと解釈されるべきではない。仮想スケルトンは、本開示の範囲から逸脱することなく、任意の適切な様態で奥行きマップから導出されてもよいためである。さらに、仮想スケルトンを用いて対象者をモデリングするという利点にも関わらず、この態様は全く必要ではない。仮想スケルトンの代わりに、生のポイントクラウドデータを直接用いることによって、適切な姿勢情報を提供してもよい。

[0033] ここで図３に戻って、工程４８においては、姿勢情報を解析し、選択された対象者からの所謂「関与ジェスチャ」を検出する。関与ジェスチャは、コンピュータシステム１８へのユーザ入力の提供を望む対象者からの信号である。解析する関与ジェスチャは、以下の動作のうちのいずれか、一部、またはすべてを含んでいてもよく、対象者の腰より高い、対象者の胴体と表示面２０との間のゾーンへの対象者の挙手が挙げられる。ここで再度、表示面は、コンピュータシステム１８の様々なユーザインタフェース要素の提示軌跡であってもよいため、対象ユーザがその関与を表示面に向けるのが自然である。関与ジェスチャにおいては、対象者の挙手の後に、手が静止する一時停止が続いてもよい。この関与ジェスチャの態様を一例として図５に示す。一実施形態において、手を挙げるゾーン５６は、対象者の頭の上方、起立している対象者の場合は頭の直上、対象者が着座または平臥している場合はそれより高くに延びていてもよい。また、このゾーンは、対象者の両側で一方の腕の長さ周りに延びていてもよい。

[0034] 一実施形態においては、関与ジェスチャにおける対象者の挙手の直後に一時停止が続いてもよい。本実施形態および他の実施形態において、一時停止は、１秒、１／２秒、１／４秒以下にわたって持続してもよい。一実施形態において、一時停止は、関与ジェスチャの最後の動作であってもよい。このため、検出された関与ジェスチャには、反復的な左右方向の動作すなわち手を振る動作等、任意の実質的な手の左右方向の動作がなくてもよい。さらに、関与ジェスチャは、ジェスチャを行っている手が対象者の身体のその他任意の部分、例えば顔、髪、胸、または臀部にもその他任意の物体にも接触していないものであってもよい。

[0035] 一実施形態において、関与ジェスチャは、図５に示すように、掌を開くジェスチャであってもよい。さらに、関与ジェスチャは、ジェスチャを行う手の掌が表示面２０を向くものであってもよい。本実施形態および他の実施形態において、関与ジェスチャは、対象者の胴体が表示面を向くものであってもよい。別の実施形態において、関与ジェスチャは、ジェスチャを行う手の指が表示面または奥行きカメラの方を指さすものであってもよい。

[0036] いくつかの実施形態において、対象者から検出された明白な関与ジェスチャは、その対象者が奥行きカメラのＦＯＶを通って移動、例えば歩行している場合には無視してもよい。対象者がＦＯＶを通って移動しているか否かを効率的に判定するため、奥行き映像の連続フレームを通して対象者の重心を位置決めし、追跡してもよい。したがって、関与ジェスチャは、検出された場合であっても、対象者の重心が静止しているか、または静止に近い状態でなければ無視されてもよい。さらに、関与ジェスチャは、対象者の顔が表示面２０の方を向いていなければ無視されてもよい。ＮＵＩインタフェースシステム２４が奥行き撮像に加えて凝視追跡を行う実施形態において、関与ジェスチャは、対象者の凝視が表示面の方向でなければ無視されてもよい。

[0037] このようなジェスチャは、仮想スケルトンの仮想関節の相対的な位置、回転、速度、および加速度に基づいて検出されてもよい。例えば、対象者の手がその腰より高い、胴体と表示面との間にあるか否かを判定する場合は、手関節の高さを股関節の高さと比較し、手関節の奥行きを肩関節の奥行きと比較してもよい。

[0038] 再び図３に戻って、方法４２の工程５８においては、適切な関与ジェスチャが検出されたか否かを判定する。一般に、関与ジェスチャが検出されたか否かの「はい」／「いいえ」判定が上記に示す条件のいずれか、一部、またはすべてに重なっていてもよい。一実施形態において、「はい」／「いいえ」判定は、これら条件のいずれか、一部、またはすべてのファジー論理評価の結果であってもよい。他の実施形態において、これら条件のいずれか、一部、またはすべては、様々に組み合わせてユーザの関与を示すことが可能な独立した分類子として出力されてもよい。これらの変形例については、図６との関連で以下に詳述する。

[0039] さらに図３の続きとして、関与ジェスチャが検出された場合には、方法が工程６０に進んで、対象者の姿勢情報がコンピュータシステム１８へのユーザ入力として処理される。関与ジェスチャが検出されていない場合には、方法が工程４６に戻る。いくつかの実施形態において、ＮＵＩインタフェースシステム２４は、（例えば、ディスプレイ14またはスピーカ16を介して）フィードバックを提供することにより、関与する対象者がＮＵＩをコンピュータシステムに提供中であることをその対象者に示すようにしてもよい。

[0040] 一実施形態において、ＮＵＩインタフェースシステム２４は、関与ジェスチャが検出され次第、コンピュータシステム１８へのユーザ入力として姿勢情報を処理するが、関与ジェスチャが検出されるまでは、ユーザ入力としての姿勢情報の処理を控えるようにしてもよい。このように、コンピューティングシステムの制御を対象としていないユーザの動きは、意図せぬ演算結果とはならない。

[0041] 関与ジェスチャが手の一時停止で終わる実施形態において、姿勢情報は、一時停止が検出された直後にユーザ入力として処理されてもよい。対象者からの関与ジェスチャが検出されるまではＮＵＩインタフェースシステムがその対象者の姿勢情報の処理を控えるシナリオにおいて、未処理の映像は、保存して後続の処理に用いるか、または単に無視してもよい。関与ジェスチャの検出に先立って未処理の映像が保存される実施形態において、このような映像は、関与ジェスチャが後で検出された場合に、遡及的に処理されてもよい。この特徴は、ユーザがＮＵＩインタフェースシステムに未関与であることに気付いておらず、コンピュータシステムを制御するための一連のジェスチャコマンドを無意識に発行してしまうシナリオにおいて役立つ場合がある。この場合、ユーザは、関与ジェスチャを提供しさえすればよく、事前に発行したコマンドの一部またはすべてが有効となる。当然ながら、処理するユーザ入力の待ち時間を制限するため、時間制限が強制されてもよい。

[0042] 一般的に、姿勢情報は、コンピュータシステム１８の任意の構成要素、例えばオペレーティングシステム２６またはそのオペレーティングシステムが起動する任意のアプリケーション２８へのユーザ入力として処理されてもよい。例示的なシナリオにおいては、ユーザ入力がオペレーティングシステムにより受信され、特定のアプリケーションをそのオペレーティングシステムに起動させてもよい。例えば、手を耳に置くことによって、メディアプレーヤアプリケーションをオペレーティングシステムに起動させてもよい。他のシナリオにおいて、ユーザ入力は、コンピュータシステム上で既に動作しているアプリケーションによって受信されてもよく、この場合は、アプリケーションの特定の動作または機能を指示してもよい。例えば、メディアプレーヤアプリケーションの内部から、指を回すジェスチャによって、直前に再生された歌曲を改めて再生するように命令してもよい。

[0043] 方法４２の態様は、限定的な意味で解釈されるべきではない。多くの変形例および展開例もまた、本開示の主旨および範囲内に存するためである。例えば、上記した「奥行きカメラ３４」は、同じ環境１０に設置された複数の奥行きカメラのうちの１つであってもよい。これらの奥行きカメラは、同じＮＵＩインタフェースシステム２４またはネットワーク化された異なるシステムに接続されていてもよい。いずれの場合も、関与ジェスチャは、各奥行きカメラのＦＯＶ中の対象者から検出され、異なるコンピュータシステムまたは同じコンピュータシステムの異なる構成要素との異なるユーザの関与を知らせるようになっていてもよい。さらに、ユーザ入力をコンピュータシステムに提供する適切な方法は、複数の対象者候補の中から対象者を自ら選択する行為（方法42の工程44）を含んでいる必要はない。多くのシナリオにおいて、接続された奥行きカメラのＦＯＶには、対象者が１人だけ存在していてもよい。他の実施形態においては、識別されたすべての対象者からのユーザ入力がコンピュータシステムへの入力として処理されてもよい。この場合は、競合解消手続きを用いることによって、複数の対象者からの競合するユーザ入力を調整してもよい。さらに他の例においては、奥行き映像に見られる対象者ごとに数的な関与測定基準（engagement metric：関与メトリック）を演算してもよい。ＮＵＩインタフェースシステムは、対象者ごとに演算された関与測定基準を比較することによって、ユーザ入力を提供する対象者を決定してもよい。この手法は、次の例示的な方法との関連で詳しく説明する。

[0044] 図６は、ユーザ入力をコンピュータシステムに提供する別の例示的な方法６２を示している。方法６２の工程４６においては、対象者の姿勢情報を受信する。工程６４においては、姿勢情報を解析することにより、関与測定基準として、ＮＵＩインタフェースシステムとの対象者の関与の程度を反映した数値を演算する。関与測定基準は、任意の好都合な範囲、例えば０〜１００％関与に及んでいてもよい。特に、関与測定基準は、ユーザがコンピュータシステムへの関与を望むことを示すことが増大するにつれて上昇し、ユーザがコンピュータシステムへの関与を望むことを示すことが減少するにつれて低下してもよい。この方法において、姿勢情報の解析モードは、方法４２との関連で説明したものと類似であってもよい。

[0045] 一実施形態において、関与測定基準は、上記規定の通り、関与ジェスチャを検出したとき上昇してもよい。言い換えるなら、関与測定基準は、対象者の腰より高い、対象者の胴体と表示面との間のゾーンへの対象者の挙手と、その後に続く手が静止する一時停止とを含むジェスチャを検出したとき上昇してもよい。

[0046] 本実施形態および他の実施形態においては、関与測定基準の数値に対して、奥行きデータまたは他のセンサデータから観測される様々な他の状態が影響していてもよい。例えば、関与測定基準は、挙手の最終的な高さの増大、手の胴体からの最終的な距離の増大、一時停止の継続時間の増大、および／または手を振る動作の検出に伴って上昇してもよい。また、関与測定基準は、手の開き具合の増大および／または指が表示面の方向を指さしていることの検出に伴って上昇してもよい。逆に、関与測定基準は、対象者の顔、頭、もしくは身体、または別の物体までの手の距離の減少に伴って低下してもよい。また、関与測定基準は、表示面の法線と対象者の胴体、顔、または凝視の方向との間の角度の増大に伴って低下してもよい。また、関与測定基準は、対象者の重心速度の増大に伴って低下してもよい。

[0047] いくつかの実施形態において、関与測定基準は、関与ジェスチャの激しさの増大に伴って上昇してもよい。この場合の推定として、微小または最小限の関与ジェスチャによるＮＵＩインタフェースシステムへの関与に失敗したユーザは、その後、より明確、長期、または恐らくは誇大なジェスチャを規定することによって、システムの注意を引くようにしてもよい。激しさが増大したジェスチャとしては、より遅く、意図的な挙手、より高い位置への挙手、または奥行きカメラにより近い位置への挙手等が挙げられる。関与ジェスチャにおけるこれら特徴のいずれか、一部、またはすべての検出によって、関与測定基準が上昇してもよい。

[0048] いくつかの実施形態において、関与測定基準は、離散的な関与ジェスチャがなくても評価されてもよい。一般的に、様々な分類子からの入力は、組み合わせによって、適切な関与測定基準を構成してもよい。このような分類子の非限定的な例としては、機械学習関与分類子、センサ対向度分類子、センサ距離分類子、平手分類子、頭上腕上げ分類子、プレーヤ手振り分類子、プレーヤ姿勢分類子、および／または表情分類子が挙げられる。このような分類子の組み合わせは、「投票方式」または「線形意見プール」と称する場合があり、ｎ個の個別分類子出力ｘの線形加重和ｙとして、例えば以下のように例示化されてもよい。
ｙ＝ａ_１ｘ_１＋ａ_２ｘ_２＋・・・＋ａ_ｎｘ_ｎ＋ｃ
ただし、ａ_ｉはｘ_ｉの加重係数を表し、ｃは定数である。

[0049] いくつかの実施形態においては、機械学習手法を適用することにより、様々な分類子を組み合わせる際に使用する適切な加重係数を決定することによって、加重和がユーザの関与を確実に示すようにしてもよい。また、機械学習を用いることによって、ユーザが関与しているか否かを判定する適切な関与閾値を見出すことも可能である（上記参照）。

[0050] いくつかの実施形態において、関与測定基準は、対象者からのマイクロホン入力にさらに基づいていてもよい。例えば、ＮＵＩインタフェースシステムへの関与を望むユーザは、必要に応じて「コンピュータ（computer）」または「エックスボックス（xbox）」と発してもよい。一実施形態においては、ＮＵＩインタフェースシステムに結合された指向性マイクロホンアレイにより、特定の対象者から発せられたものとして音響データをマッピングしてもよい。したがって、その対象者の関与測定基準は、上昇してもよい。逆に、ＮＵＩインタフェースシステムと関与していることを分かっているが、関与を望んでいない個人は、「私ではない（not me）」または「消えろ（go away）」と発することによって、その関与測定基準を低下させてもよい。いくつかの実施形態において、このような音響入力は、ＮＵＩインタフェースシステムに規定された映像ベースの読唇機能により増強された無指向性マイクロホンを用いて受信され、正しい対象者にマッピングされてもよい。

[0051] 引き続き図６において、工程６６では、関与測定基準が関与閾値を超えているか否かを判定する。関与測定基準が関与閾値を超えている場合には、方法が工程６０に進んで、対象者の姿勢情報がコンピュータシステム１８へのユーザ入力として処理される。関与ジェスチャが検出されていない場合には、方法が工程４６に戻る。したがって、ＮＵＩインタフェースシステム２４は、関与測定基準に基づいて、姿勢情報をコンピュータシステムへのユーザ入力として処理するか、そのような処理は控えるかを判定する。

[0052] 関与閾値は、状態に応じて任意の適切なレベルに設定されてもよい。例えば、関与閾値は、別の対象者からの姿勢情報がコンピュータシステム１８へのユーザ入力として処理されている場合にはより高いレベルに保持され、コンピュータシステムにユーザ入力が提供されていない場合にはより低いレベルに保持されてもよい。

[0053] 一実施形態において、関与閾値は、関与ジェスチャの激しさの増大に伴って低下してもよい。上記考察を参照して、ＮＵＩインタフェースシステム２４は、ある条件下において、ユーザがシステムに関与しようとして、繰り返し誇大もしくは長期のジェスチャを行うか、または大声でコンピュータに話しかけていることを検出する場合がある。このような観測は、現在の状態に対する関与閾値の設定が高過ぎることを示している場合がある。このため、ＮＵＩインタフェースシステムは、関与閾値を低くすることによって、ユーザの体験を改善してもよい。

[0054] 上述の通り、方法６２は、ＮＵＩインタフェースシステムが２人以上の対象者の姿勢情報を同時に受信して解析するシナリオにおいて使用してもよい。この場合は、対象者それぞれについて、関与測定基準が演算されてもよい。関与測定基準が最も高い対象者の姿勢情報がコンピュータシステムへのユーザ入力として処理され、その他の対象者に関連する関与測定基準が関与閾値として効果的に機能してもよい。

[0055] このシナリオにおいては、第１の対象者が第１の期間にわたってコンピュータシステムに関与し、第２の対象者が第２の後続期間にわたってコンピュータシステムに関与することが意図されていてもよい。したがって、本開示は、現在関与しているユーザの関与解消の検出も可能とする。一実施形態において、ユーザの関与解消は、そのユーザの関与測定基準が関与閾値を下回ることが起点となってもよい。別の実施形態においては、関与測定基準との比較に対して別個の関与解消閾値が設けられてもよい。この関与解消閾値は、関連する関与閾値よりもいくらか低くてもよい。このように、所定のヒステリシス量によって関与と関与解消とを分離することにより、関与指示の誤判定を回避するのに十分高い関与閾値を保ちつつ、関与しているユーザの望まない関与解消を回避してもよい。本実施形態および他の実施形態において、現在関与しているユーザの存在は、他の潜在的なユーザの関与閾値に大きく寄与する場合がある。したがって、現在のユーザを抑えてコンピュータシステムの制御を担いたい個人は、そのユーザの関与閾値をただ超えるだけでなく、大幅に超えることが必要となる場合がある。この特徴は、ユーザ関与の望まない「横取り」を回避するのに役立つ場合がある。さらに他の実施形態においては、現在のユーザによる離散的な関与解消ジェスチャを用いることによって、関与解消の意図を知らせるようにしてもよい。関与解消ジェスチャとしては、例えば手を表示面から遠ざけて膝の上に置いたり、カメラの視野から外したりといった簡単なものが可能である。

[0056] 上記説明から明らかなように、本明細書に記載の方法およびプロセスは、１つまたは複数のコンピュータ機器のコンピュータシステムに関連付けられていてもよい。このような方法およびプロセスは、コンピュータアプリケーションプログラムもしくはサービス、アプリケーションプログラミングインタフェース（API）、ライブラリ、ならびに／または他のコンピュータプログラム製品として実装されてもよい。

[0057] 簡単な形態で図２に示すように、ＮＵＩインタフェースシステム２４は、本明細書に記載の方法およびプロセスのうちの１つまたは複数を規定可能なコンピュータシステムの非限定的な一例である。上述の通り、ＮＵＩインタフェースシステムは、論理マシン３０および命令記憶マシン３２を具備する。ＮＵＩインタフェースシステム２４またはＮＵＩインタフェースシステムからユーザ入力を受信するコンピュータシステム１８は、任意選択によりディスプレイ１４、通信サブシステム６８、および／または図２に示していない他の構成要素を具備してもよい。

[0058] 論理マシン３０は、命令を実行するように構成された１つまたは複数の物理的装置を具備する。例えば、論理マシンは、１つまたは複数のアプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造等の論理的構成の一部である命令を実行するように構成されてもよい。このような命令は、タスクの実行、データ型の実装、１つまたは複数のコンポーネントの状態変換、技術的効果の実現、あるいは所望の結果への到達が成されるように実装されてもよい。

[0059] 論理マシン３０は、ソフトウェア命令を実行するように構成された１つまたは複数のプロセッサを具備してもよい。この追加または代替として、論理マシンは、ハードウェアまたはファームウェア命令を実行するように構成された１つまたは複数のハードウェアまたはファームウェア論理マシンを具備してもよい。論理マシンのプロセッサは、シングルコアであってもよく、マルチコアであってもよく、その上で実行される命令は、順次、並列、および／または分散処理用に構成されてもよい。論理マシンの個々のコンポーネントは、任意選択により、リモート配置および／または協調処理構成が可能な２つ以上の別個の機器間で分散されてもよい。論理マシンの態様は、クラウドコンピューティング構成のリモートアクセス可能なネットワークコンピューティング機器によって仮想化および実行されてもよい。

[0060] 命令記憶マシン３２は、論理マシン３０により実行可能な命令を保持して本明細書に記載の方法およびプロセスを実装するように構成された１つまたは複数の物理的装置を具備する。このような方法およびプロセスの実装に際して、命令記憶マシンの状態は、例えば異なるデータを保持するように変換されてもよい。命令記憶マシンは、取り外し可能および／または内蔵デバイスを具備してもよく、特に、光メモリ（例えば、CD、DVD、HD-DVD、ブルーレイディスク等）、半導体メモリ（例えば、RAM、EPROM、EEPROM等）、および／または磁気メモリ（例えば、ハードディスクドライブ、フロッピー（登録商標）ディスクドライブ、テープドライブ、MRAM等）が挙げられる。命令記憶マシンは、揮発性、不揮発性、動的、静的、リード／ライト、読出し専用、ランダムアクセス、順次アクセス、位置アドレス可能、ファイルアドレス可能、および／またはコンテンツアドレス可能なデバイスを具備してもよい。

[0061] 当然のことながら、命令記憶マシン３２は、１つまたは複数の物理的装置を具備する。しかし、本明細書に記載の命令の態様は選択的に、物理的装置が有限の継続時間にわたって保持しない通信媒体（例えば、電磁信号、光信号等）によって伝搬されてもよい。

[0062] 論理マシン３０および命令記憶マシン３２の態様は、１つまたは複数のハードウェア論理構成要素に合わせて組み込まれていてもよい。そのようなハードウェア論理構成要素としては、例えばフィールドプログラマブルゲートアレイ（FPGA）、特定プログラムおよび用途向け集積回路（PASIC／ASIC）、特定プログラムおよび用途向け標準品（PSSP／ASSP）、システムオンチップ（SOC）、およびコンプレックスプログラマブルロジックデバイス（CPLD）等が挙げられる。

[0063] 用語「モジュール」、「プログラム」、および「エンジン」は、特定の機能を実行するように実装されたコンピューティングシステム７０の一態様を記述するのに用いている場合がある。場合により、モジュール、プログラム、またはエンジンは、命令記憶マシン３２が保持する命令を実行する論理マシン３０によって例示化されていてもよい。同じアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、ＡＰＩ、機能等から異なるモジュール、プログラム、および／またはエンジンが例示化されていてもよいことを理解されたい。同様に、異なるアプリケーション、サービス、コードブロック、オブジェクト、ルーチン、ＡＰＩ、機能等によって、同じモジュール、プログラム、および／またはエンジンが例示化されていてもよい。用語「モジュール」、「プログラム」、および「エンジン」は、実行可能なファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコード等の個々または群を包含していてもよい。

[0064] 当然のことながら、本明細書における「サービス」は、複数のユーザセッションにわたって実行可能なアプリケーションプログラムである。サービスは、１つまたは複数のシステムコンポーネント、プログラム、および／または他のサービスで利用可能であってもよい。いくつかの実施態様において、サービスは、１つまたは複数のサーバコンピューティング機器上で動作してもよい。

[0065] 通信サブシステム６８を備える場合は、１つまたは複数の他のコンピューティング機器に対して、ＮＵＩインタフェースシステム２４またはコンピュータシステム１８を連通可能に結合するように構成されてもよい。通信サブシステムは、１つまたは複数の異なる通信プロトコルに対応した有線および／または無線通信機器を具備してもよい。非限定的な例として、通信サブシステムは、無線電話ネットワークまたは有線もしくは無線のローカルもしくはワイドエリアネットワークを介した通信用に構成されてもよい。いくつかの実施形態において、通信サブシステムは、インターネット等のネットワークを介した他の機器へのメッセージ送信および／または他の機器からのメッセージ受信をＮＵＩインタフェースシステム２４またはコンピュータシステム１８が行えるようにしてもよい。

[0066] 本明細書に記載の構成および／または手法は本質的に例示であり、多くの変形例が可能であることから、これら特定の実施形態または例は、限定的な意味で捉えられるべきものではないことを理解されたい。本明細書に記載の特定のルーチンまたは方法は、任意数の処理方略のうちの１つまたは複数を表してもよい。このため、図示および／または説明した様々な行為は、図示および／または説明した順序、他の順序、並列に実行されてもよく、省略されてもよい。同様に、上記プロセスの順番は、変更されてもよい。

[0067] 本開示の主題は、本明細書に開示の様々なプロセス、システムおよび構成、ならびに他の特徴、機能、行為、および／もしくは特性のほか、これらのありとあらゆる均等物のすべての新規且つ非自明な組み合わせおよび副組み合わせを含む。

Claims

ユーザ入力をコンピュータシステムに提供するナチュラルユーザインプット（NUI）システムであって、前記ＮＵＩシステムは、論理マシンおよび命令記憶マシンを備え、前記命令記憶マシンが、前記論理マシンにより実行された場合に、前記論理マシンに、
奥行きカメラにより取得された対象者の奥行き映像から導出された前記対象者の姿勢情報を受信させ、
前記姿勢情報を解析させ、前記対象者が前記コンピュータシステムへの関与を望むことを示すことが増大するにつれて上昇し、前記対象者が前記コンピュータシステムへの関与を望むことを示すことが減少するにつれて低下する前記対象者の関与測定基準を演算させ、
前記関与測定基準に基づいて、前記姿勢情報を前記コンピュータシステムへのユーザ入力として処理するか否かを判定させる、
命令を保持する、システム。
前記対象者が、前記論理マシンが姿勢情報を受信して解析する複数の対象者のうちの１人であり、前記関与測定基準が、前記対象者のそれぞれに対して演算され、最も高い関与測定基準を有する前記対象者の前記姿勢情報が、前記コンピュータシステムへのユーザ入力として処理される、請求項１に記載のシステム。
前記関与測定基準が閾値を超える場合にのみ、前記姿勢情報が、前記コンピュータシステムへのユーザ入力として処理される、請求項１に記載のシステム。
前記閾値が、別の対象者からの姿勢情報が前記コンピュータシステムへのユーザ入力として処理されている場合にはより高いレベルに保持され、前記コンピュータシステムにユーザ入力が提供されていない場合にはより低いレベルに保持される、請求項３に記載のシステム。
前記関与測定基準が、前記対象者からの関与ジェスチャを検出したとき上昇し、前記関与ジェスチャが、前記対象者の腰より高い、前記対象者の胴体と前記コンピュータシステムの表示面との間のゾーンへの前記対象者の挙手を含み、前記挙手の後に前記手が静止する一時停止が続く、請求項１に記載のシステム。
前記閾値が、前記関与ジェスチャの激しさの増大に伴って低下する、請求項５に記載のシステム。
前記関与測定基準が、前記関与ジェスチャの激しさの増大に伴って上昇する、請求項５に記載のシステム。
前記関与測定基準が、前記対象者からのマイクロホンデータにさらに基づく、請求項１に記載のシステム。
前記挙手の直後に前記一時停止が続き、前記姿勢情報が、前記一時停止の直後に前記ユーザ入力として処理される、請求項５に記載のシステム。
前記関与ジェスチャが、前記手の左右方向の動作がない場合に検出される、請求項５に記載のシステム。