JP2021012684A

JP2021012684A - ライブ動画ストリームからの指の押下の検出

Info

Publication number: JP2021012684A
Application number: JP2020099009A
Authority: JP
Inventors: ジエクルビダ，; Kulbida Jie
Original assignee: Konica Minolta Business Solutions USA Inc
Current assignee: Konica Minolta Business Solutions USA Inc
Priority date: 2019-06-28
Filing date: 2020-06-08
Publication date: 2021-02-04
Anticipated expiration: 2040-06-08
Also published as: US10747371B1; JP7378354B2

Abstract

【課題】拡張現実（ＡＲ）作業領域における指の押下を検出する方法を提供する。【解決手段】方法は、ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得する工程と、少なくともスキン調カラーフィルターに基づいて、コンピュータープロセッサーにより、ＡＲ作業領域の画像から手候補を抽出する工程と、予め決められた信頼尺度に基づいて、コンピュータープロセッサーにより、手候補の輪郭から指候補を抽出する工程と、ＧＵＩのアイコンとの関係における指候補の位置に基づいて、コンピュータープロセッサーにより、ユーザーの手によって実行される指の押下を検出する工程と、を含む。【選択図】図２Ａ

Description

拡張現実（ＡＲ）を使用すると、ユーザーは、現実世界の環境における物体に重ねられた、又は物体の周囲に重ねられた、コンピューター生成のＡＲ出力とふれあうことができる。場合によっては、ユーザーがスマートフォンを保持したりＡＲ眼鏡を着用したりする必要がないように、コンピューター生成のＡＲ出力が現実世界の環境に投影されてもよい。コンピューターインターフェイスとの最小限の相互作用で、又は直接の相互作用なしで、ＡＲシステムがユーザーの意図を捉える場合、ユーザーの体験が向上することが多い。

概して言えば、本発明の一態様は、拡張現実（ＡＲ）作業領域における指の押下を検出する方法に関する。当該方法は、ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得する工程と、少なくともスキン調カラーフィルターに基づいて、コンピュータープロセッサーにより、前記ＡＲ作業領域の画像から手候補を抽出する工程と、予め決められた信頼尺度に基づいて、前記コンピュータープロセッサーにより、前記手候補の輪郭から指候補を抽出する工程と、前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記コンピュータープロセッサーにより、前記ユーザーの手によって実行される前記指の押下を検出する工程と、を含む。

概して言えば、本発明の一態様は、拡張現実（ＡＲ）作業領域における指の押下を検出するためのコンピューター読取可能プログラムコードを記憶した非一時的コンピューター読取可能媒体（ＣＲＭ）に関する。前記コンピューター読取可能プログラムコードは、コンピュータープロセッサーによって実行されると、ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得する工程と、少なくともスキン調カラーフィルターに基づいて、前記ＡＲ作業領域の画像から手候補を抽出する工程と、予め決められた信頼尺度に基づいて、前記手候補の輪郭から指候補を抽出する工程と、前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記ユーザーの手によって実行される前記指の押下を検出する工程と、を実行する機能を含む。

概して言えば、本発明の一態様は、拡張現実（ＡＲ）作業領域における指の押下を検出するためのシステムに関する。当該システムは、メモリーと、当該メモリーに接続されたコンピュータープロセッサーとを含んでおり、前記コンピュータープロセッサーが、ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得し、少なくともスキン調カラーフィルターに基づいて、前記ＡＲ作業領域の画像から手候補を抽出し、予め決められた信頼尺度に基づいて、前記手候補の輪郭から指候補を抽出し、前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記ユーザーの手によって実行される前記指の押下を検出する。

本発明の他の態様は、以下の説明及び特許請求の範囲から明らかであろう。

本発明の１つ以上の実施形態によるシステムを示す図である。図２Ａから図２Ｅは、本発明の１つ以上の実施形態による方法のフローチャートを示す図である。図３Ａから図３Ｄは、本発明の１つ以上の実施形態による実施例を示す図である。本発明の１つ以上の実施形態によるコンピューターシステムを示す図である。

本発明の具体的な実施形態について、添付の図を参照しつつ詳細に説明する。様々な図の中の同様の要素は、統一のため、同様の参照番号で示す。

本発明の実施形態の以下の詳細な説明では、本発明のより完全な理解のために、具体的な細部が多数記載されている。しかしながら、本発明がこれらの具体的な細部なしに実施可能であることは、当業者には明らかであろう。他の例では、説明がいたずらに複雑になることを避けるため、周知の特徴については詳細に説明されてはいない。

概して言えば、本発明の実施形態は、拡張現実システムのカメラが撮影したリアルタイム画像を使用して、アプリケーションの投影ユーザーインターフェイス上のユーザーの指の押下を検出する方法、非一時的コンピューター読取可能媒体（ＣＲＭ）、及びシステムを提供する。カメラが撮影した一連の画像を分析することによって、ユーザーの指（又は一般的にはジェスチャー）を検出することにより、投影ユーザーインターフェイスとユーザーとの相互作用（例えば、指の押下）を推測する。アプリケーションには、マウスやタッチセンサーなどの専用機器に依存せず、推測結果に基づいて動作を実行するソフトウェアアプリケーション及び／又は機器を含んでもよい。この技術は、１つ又は複数の人間の指の光学的検出と、光学的に検出された指の位置及び速度の分析を含む。投影ユーザーインターフェイス内で指の押下が光学的に検出されると、アプリケーションが通知を受け取る。本発明の１つ以上の実施形態では、投影ユーザーインターフェイスは、カメラと一体化された光学プロジェクターによって投影される。光プロジェクター及びカメラを含む統合装置を、相互捕捉投影（ＰＩＣ）装置と呼ぶ。

図１は、本発明の１つ以上の実施形態によるシステムを示す。図１に示すように、システム（１００）は複数の構成要素を有し、例えば、バッファー（１０２）、表示エンジン（１０８）、アプリケーションエンジン（１１０）、手検出エンジン（１１２）、指検出エンジン（１１４）、及び指押下検出エンジン（１１６）を含んでもよい。これらの各構成要素（１０２、１０８、１１０、１１２、１１４、１１６）は、同一のコンピューター装置（例えば、パーソナルコンピューター、ラップトップ、タブレットＰＣ、スマートフォン、複合機、キオスク、サーバー、又は相互捕捉投影（ＰＩＣ）装置）、あるいは、有線及び／又は無線の区間を有する任意のサイズのネットワークによって接続された異なるコンピューター装置上に配置することができる。これらの各構成要素について以下に説明する。

バッファー（１０２）は、ハードウェア（すなわち回路）、ソフトウェア、又はこれらの任意の組み合わせにより実現することができる。バッファー（１０２）はＡＲ作業領域画像（１０４）、及びＡＲ作業領域画像（１０４）の抽出された特徴（１０６）を記憶するように構成される。複数のＡＲ作業領域画像（１０４）、及び／又は抽出された特徴（１０６）の複数の組が、バッファー（１０２）に記憶されてもよい。１つ以上の実施形態において、ＡＲ作業領域画像（１０４）はＡＲ作業領域（１０１）の画像である。ＡＲ作業領域（１０１）は、あらゆる種類の面（例えば、机、壁、ホワイトボード、又は床）であってよい。さらにＡＲ作業領域（１０１）は、マット、複数の作業面、凹凸面、又は空間的に分離された面を含むことができるが、特にこれらの構成には限定されない。ＡＲ作業領域画像（１０４）は、あらゆる画像形式（例えば、ＪＰＥＧ画像、ＧＩＦ画像、ビットマップ画像、ＴＩＦＦ画像、又はＰＤＦ文書）でバッファー（１０２）に保存することができる。

ＡＲ作業領域画像（１０４）は単一画像でも複数画像でもよい。例えば、複数のＡＲ作業領域画像（１０４）は、ライブ動画ストリーム（例えば、撮像素子によって同時に記録され送信される一連の画像フレーム）中に時間の経過とともに記録されるＡＲ作業領域（１０１）に対応してもよい。言い換えれば、ＡＲ作業領域画像（１０４）のそれぞれが、ライブ動画ストリームのフレームに対応していてもよい。本明細書全体を通して、「フレーム」の語は、ライブ動画ストリーム内のＡＲ作業領域画像を意味する。

ＡＲ作業領域画像（１０４）は、ユーザーが使用するソフトウェアアプリケーション又は機器の投影グラフィカルユーザーインターフェイス（ＧＵＩ）の、撮影された画像を含む。例えばＧＵＩは、ＡＲ作業領域（１０１）上に光学的に投影され、ＡＲ作業領域画像（１０４）内に光学的に捕捉されてもよい。ソフトウェアアプリケーションとふれあい、機器を制御するために、ユーザーはＡＲ作業領域（１０１）に投影されたＧＵＩ上に手を置いてもよい。具体的には、ユーザーの指（１１８）を、ＧＵＩの一部としてＡＲ作業領域（１０１）に投影されたアイコンの上に置いてもよい。ＡＲ作業領域画像（１０４）は、指（１１８）や指（１１８）の一部といった、ユーザーの手の一部の画像を含んでもよい。ＡＲ作業領域（１０１）上に置かれたユーザーの手のような、前景物なしで撮影された１つ以上のＡＲ作業領域画像（１０４）は、背景画像である。１つ以上の実施形態では、背景画像は、前景物なしで撮影された複数のＡＲ作業領域画像（１０４）の平均である。投影されたＧＵＩ上に指（１１８）を置いたＡＲ作業領域画像（１０４）の一例が、図３Ａに描かれている。

具体的には図３Ａが、本発明の１つ以上の実施形態によるＡＲ作業領域画像の例を示す。図３Ａに示されるように、相互捕捉投影（ＰＩＣ）装置（３０１）は撮像部（例えば、２次元及び／又は３次元撮像素子）及び投影部（例えば、光学プロジェクター）を含む。投影部は、撮像部がＡＲ作業領域画像（１０４）を捉えるように、ＧＵＩ（３０２）をＡＲ作業領域（１０１）に投影する。具体的にはＡＲ作業領域画像（１０４）は、アイコン（３０３）上に指（１１８）を置いた状態での、ＧＵＩ（３０２）のアイコン（３０３）の画像を含む。

図１の説明に戻ると、抽出された特徴（１０６）は、ＡＲ作業領域画像（１０４）の抽出された内容、及び／又は、抽出された内容から導かれる特徴を含んでもよい。例えば、抽出された特徴（１０６）は、フィルターされた画像、変換された画像、フィルターされた又は変換された画像の色及び／又は輝度パラメータ、フィルターされた又は変換された画像から検出された幾何形状及び／又は輪郭を含み得るが、特にこれらの項目に限定されない。一般に、抽出された特徴（１０６）は、投影されたＧＵＩ上に置かれる指（１１８）に関する情報を含む。

投影されたＧＵＩ上での指の押下を検出するにあたり、抽出された特徴（１０６）が、手検出エンジン（１１２）、指検出エンジン（１１４）、及び指押下検出エンジン（１１６）によって生成及び／又は使用される。抽出された特徴（１０６）の例は、図３Ｂから図３Ｄを参照しつつ以下に詳細に説明される手候補、指候補、及び指先の軌道を含む。

上述したように、システム（１００）は表示エンジン（１０８）を含む。表示エンジン（１０８）はハードウェア（すなわち回路）、ソフトウェア、又はこれらの任意の組み合わせにより実現することができる。表示エンジン（１０８）は１つ以上の光及び／又は効果を用いて、ＡＲ出力画像をＡＲ作業領域（１０１）の面に投影するように構成される。１つ以上の実施形態では、ＡＲ出力画像は上述の投影されたＧＵＩである。

表示エンジン（１０８）は、デジタル画像をＡＲ作業領域（１０１）上に投影することができる２次元（２Ｄ）及び／又は３次元（３Ｄ）光学プロジェクターを含んでもよい。表示エンジン（１０８）は可視波長領域（例えばカラー又はモノクロ）で動作してもよい。

上述したように、システム（１００）はアプリケーションエンジン（１１０）を含む。アプリケーションエンジン（１１０）は、ハードウェア（すなわち回路）、ソフトウェア、又はそれらの任意の組み合わせにより実現することができる。アプリケーション・エンジン（１１０）は、ユーザーがアプリケーションソフトウェア又は機器にユーザーのためのタスクを実行させるために使用する、アプリケーションソフトウェア又は機器の一部であってもよい。

ＧＵＩをレンダリングするアプリケーションエンジン（１１０）に応答して、表示エンジン（１０８）がＡＲ作業領域（１０１）の領域内にＧＵＩを投影してもよい。ＡＲ作業領域（１０１）の領域のサイズ及び形状は、表示エンジン（１０８）及び／又はアプリケーションエンジン（１１０）によって決定され得る。

表示エンジン（１０８）は、ユーザーとアプリケーションエンジンとのやり取りを容易にする仮想指標（例えば状態指標）又は仮想制御（例えばボタン、スクロールバー、スイッチ及びノブ）といった、ＧＵＩ内の１つ以上のアイコンを投影してもよい。言い換えれば、仮想指標又は仮想制御は、ユーザーのための前述のタスクを完了するため、ユーザーがアプリケーションソフトウェア又は機器の特徴を誘導及び操作することを可能にしてもよい。

上述のように、システム（１００）は手検出エンジン（１１２）を含む。手検出エンジン（１１２）はハードウェア（すなわち回路）、ソフトウェア、又はこれらの任意の組み合わせにより実現することができる。手検出エンジン（１１２）は、ＡＲ作業領域（１０１）を撮像することによりＡＲ作業領域画像（１０４）を生成するように構成される。例えば、手検出エンジン（１１２）は、ＡＲ作業領域（１０１）のデジタル画像を捉えるために、撮像センサーを有する２次元及び／又は３次元撮像素子（例えば、カメラ又は１つ以上のカメラの組み合わせ）を含んでもよい。さらに、手検出エンジン（１１２）は、ＡＲ作業領域画像（１０４）を分析することにより、ユーザーの手を表す手候補を生成するように構成される。１つ以上の実施形態では、手検出エンジン（１１２）は、図２Ａから図２Ｃを参照しつつ以下に説明する方法を使用して手候補を生成する。手検出エンジン（１１２）によって生成される手候補の例が、図３Ｂから図３Ｃに描かれている。

具体的には図３Ｂが、ＡＲ作業領域画像（１０４）うちの１つにおける画像部分Ａ（３１０）内の手候補Ａ（３１１）の例を示す。手候補Ａ（３１１）は凸包（３１２）で囲まれている。ｃ１及びｃ２としてラベル付けされた２つの凸欠陥が、他のラベルなしの些細な凸欠陥（後述）とともに、手候補Ａ（３１１）（より具体的には手候補Ａ（３１１）の外郭）と凸包（３１２）との間に存在する。具体的には凸欠陥ｃ１は、頂点で接合されて凸包（３１２）から外れた凹角を形成する、隣り合う２辺を含む。頂点は手候補Ａ（３１１）の輪郭上にあり、２辺は頂点を囲む輪郭の線形近似である。各辺は、一端が頂点で終端し、他端が凸包と輪郭との交点で終端する。同様に、凸欠陥ｃ２は、別の頂点で接合されて凸包（３１２）から外れた別の凹角を形成する、隣り合う２辺を含む。各凸欠陥の反時計回りでの前辺を、凸欠陥の辺ｅ１と呼ぶ。反対に、各凸欠陥の反時計回りでの後辺を、凸欠陥の辺ｅ２と呼ぶ。従って、凸欠陥ｃ１の辺ｅ２と凸欠陥ｃ２の辺ｅ１とは互いに隣接している。

図３Ｃは、ＡＲ作業領域画像（１０４）のうちの他の１つにおける画像部分Ｂ（３１４）内の手候補Ｂ（３１３）の一例を示す。例えば、画像部分Ａ（３１１）及び画像部分Ｂ（３１４）は、２つの異なる時点で撮影された２つの異なるＡＲ作業領域画像（１０４）内にあってもよい。具体的には、手候補Ａ（３１１）及び手候補Ｂ（３１４）は、２つの異なる時点におけるユーザーの手の異なる姿勢に対応する。

図３Ｃに示すように、ｃ３及びｃ４とラベル付けされた２つの凸欠陥が、他のラベルなしの些細な凸欠陥とともに、手候補Ｂ（３１４）と対応する凸包との間に存在する。具体的には、凸欠陥ｃ３及びｃ４の各々は、頂点で接合されて凸包から外れた凹角を形成する隣り合う２辺を含む。凸欠陥ｃ４の２辺の長さはｄ１及びｄ２として表される。上記凸欠陥ｃ１、ｃ２、ｃ３、ｃ４の各々において、頂点と、頂点から離れた２つの端点ｅ１、ｅ２とが、全体として三角形をなす。頂点から、対向する辺までの三角形の高さを、凸欠陥の深さと呼ぶ。

図１の説明に戻ると、システム（１００）は指検出エンジン（１１４）を含む。指検出エンジン（１１４）はハードウェア（すなわち回路）、ソフトウェア、又はそれらの任意の組み合わせにより実現することができる。さらに指検出エンジン（１１４）は、ＡＲ作業領域画像（１０４）内の手候補を分析することにより、ユーザーの指（１１８）を表す指候補を生成するように構成される。１つ以上の実施形態では、指検出エンジン（１１４）は、図２Ａ及び図２Ｄを参照しつつ以下に説明する方法を使用して指候補を生成する。指検出エンジン（１１４）によって生成された指候補の一例が、図３Ｂ及び図３Ｃに示される。

具体的には、図３Ｂ及び図３Ｃでは各ｃ１、ｃ２及びｃ３について、ｅ１及びｅ２の各々の長さが、予め設定された最短の長さを超える。また、各ｃ１、ｃ２及びｃ３の深さも、予め設定された最少の深さを超える。予め設定された最短の長さ、及び予め設定された最少の深さの両方を満たすことから、各ｃ１、ｃ２及びｃ３は有効な凸欠陥とみなされる。対照的に、ｃ４の長さｄ２は予め設定された最短の長さより短く、ｃ４の深さは予め設定された最少の深さより浅い。予め設定された最短の長さの基準、及び予め設定された最少の深さのどちらも満たさないことから、ｃ４は有効な凸欠陥とはみなされない。言い換えれば、ｃ４は些細な凸欠陥である。

図３Ｂは隣り合う一対の有効な凸欠陥ｃ１及びｃ２を示しており、欠陥ｃ１のｅ２と欠陥ｃ２のｅ１とが隣り合う。予め設定された最大指幅閾値内にある、隣り合う凸欠陥ｃ１及びｃ２の隣り合う辺の間の距離に基づいて、隣り合う凸欠陥ｃ１及びｃ２の隣り合う辺が、指候補（３１１ａ）を規定する。１つ以上の実施形態では指候補（３１１ａ）は、図２Ｄを参照しつつ以下に説明する方法を使用して決定される。

図３Ｂとは対照的に、図３Ｃは、単一の有効な凸欠陥ｃ３を有する手候補Ｂ（３１３）と、有効な凸欠陥のない手候補Ｃ（３２１）とを示す。両方の手候補において、各手候補の最小外接矩形が「ｍｉｎＲｅｃｔ」で表される。従って、「ｔｉｐ」として示される指先は、手候補の輪郭とｍｉｎＲｅｃｔとの交点として検出される。１つ以上の実施形態では、「ｔｉｐ」として示される指先は、図２Ｄを参照しつつ以下に説明する方法を使用して決定される。

図１の説明に戻ると、１つ以上の実施形態ではシステム（１００）は指押下検出エンジン（１１６）を含む。指押下検出エンジン（１１６）は、ハードウェア（すなわち回路）、ソフトウェア、又はこれらの任意の組み合わせにより実現することができる。また、指押下検出エンジン（１１６）は、ＡＲ作業領域画像（１０４）内の指候補を分析することにより、ユーザーの指の押下を検出するように構成される。一つ以上の実施形態では指押下検出エンジン（１１６）は、図２Ａ及び図２Ｅを参照しつつ以下に説明する方法を用いて、指の押下を検出する。指押下検出エンジン（１１６）によって検出された指の押下の例を図３Ｄに示す。

具体的には図３Ｄは、指先の軌道（３３３）を形成する、一連の検出された指先（例えば、検出された指先（３３２））を重ね合わせた画像部分Ｄ（３３０）を示す。具体的には、一連の白い点が連続した指先の軌道に対応するように、検出された各指先が図３Ｄの１つの白い点に対応する。指先の軌道（３３３）における、検出された２つの隣り合う指先の間の距離は、ユーザーの指の移動速度に対応する。場所（３３４）内では、検出された隣り合う指先の間の各距離は、予め設定された最小値を下回る。言い換えれば、ユーザーの指の動きは場所（３３４）内で遅くなるか、あるいは停止する。従って、場所（３３４）内で撮影されたユーザーの指の動きが、指の押下として決定される。１つ以上の実施形態において、ユーザーの指の移動速度に基づいて指の押下を決定するにあたり、図２Ｅを参照しつつ以下に説明する方法が使用される。

上記システム（１００）は６つの構成要素（１０２、１０８、１１０、１１２、１１４、１１６）を有するものとして示されているが、本発明の他の実施形態では、システム（１００）は、より多くの又はより少ない構成要素を有してもよい。また、上記各構成要素の機能は複数の構成要素間で共有されてもよい。さらに、各構成要素（１０２、１０８、１１０、１１２、１１４、１１６）は、反復演算を実行するために連続で又は並行して複数回利用されてもよい。

図２Ａから図２Ｅは、本発明の１つ以上の実施形態によるＡＲ作業領域内の指の押下を検出する方法のフローチャートを示す。図２Ａから図２Ｅの１つ以上のステップは、図１を参照しつつ先に説明したシステム（１００）の構成要素によって実行されてもよい。本発明の１つ以上の実施形態において、図２Ａから図２Ｅに示される１つ以上のステップは省略及び／又は繰り返されてもよいし、あるいは図２Ａから図２Ｅに示される順序とは異なる順序で実行されてもよい。つまり、本発明の範囲は、図２Ａから図２Ｅに示される具体的なステップの順序に限定されるとみなすべきではない。

図２Ａを参照すると、まずステップ２０１において、撮像センサーを使用してＡＲ作業領域の背景画像を得る。１つ以上の実施形態では、背景画像はグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む。ＧＵＩは例えば光学プロジェクターを使用してＡＲ作業領域に投影することができる。ステップ２０１の細部の例を、図２Ｂを参照しつつ以下に説明する。

ステップ２０２では、ユーザーの手がＡＲ作業領域上に置かれた状態でのＡＲ作業領域の画像が、撮像センサーを使用して取得される。具体的には画像がＧＵＩに加え、ユーザーの手の一部分の投影をも含む。１つ以上の実施形態では、画像は、ＡＲ作業領域上に置かれたユーザーの指を記録するライブ動画ストリームといった、一連の画像のうちの一部である。画像は例えば、再符号化と同時に撮像センサーから送信されるライブ動画ストリームの１フレームである。具体的には、以下に説明するようにステップ２０３からステップ２０６を繰り返すことによって、一連の画像又はライブ動画ストリームが撮影され、分析される。

ステップ２０３では少なくともスキン調カラーフィルターに基づいて、コンピュータープロセッサーにより、ＡＲ作業領域の画像から手候補が抽出される。１つ以上の実施形態では、手候補を抽出することは、前景マスクを生成するために画像と背景画像とを比較することと、予め決められたスキン調フィルターを用い、背景画像のホワイトバランスパラメーターに基づいて、つながった色成分を画像から抽出することとを含む。具体的には手候補は、予め決められた寸法基準に基づいて、つながった色成分から選択される。ステップ２０３の細部の例を、図２Ｃを参照しつつ以下に説明する。

ステップ２０４では、予め決められた信頼尺度に基づいて、コンピュータープロセッサーにより、手候補の輪郭から指候補が抽出される。１つ以上の実施形態では、手候補の輪郭から凸欠陥を抽出することに基づいて、指候補が抽出される。１つ以上の実施形態では、予め決められた信頼尺度は、隣り合う凸欠陥と、予め決められた指幅の閾値との間の距離を比較することに基づいている。例えば、指候補は、対応する距離が予め決められた指幅閾値内にある一対の隣り合う凸欠陥に対応する。１つ以上の実施形態では、予め決められた信頼尺度はさらに指の資質尺度、指先の資質尺度、及び隣り合う指候補の存在に基づいている。

手候補の輪郭から複数の指候補を抽出してもよく、各指候補の個々の信頼スコアを予め決められた信頼尺度に基づいて計算する。従って、個々の信頼スコアに基づいて指候補から指の有力候補が選択される。例えば指の有力候補は、最も高い信頼スコアを有する指候補として選択されてもよい。ステップ２０４の細部の例を、図２Ｄを参照しつつ以下に説明する。

ステップ２０５では、ＧＵＩのアイコンに対する指候補の位置に基づいて、コンピュータープロセッサーにより、ユーザーの手によって実行される指の押下が検出される。例えば、指候補がＧＵＩ上にあって特定のアイコン内で停止していると検出された場合、特定のアイコン上での指の押下の通知がアプリケーションに送信される。それに従い、アプリケーションは、特定のアイコンに対応する予め決められたタスクを実行する。１つ以上の実施形態では、ＧＵＩ上に置かれた指の速度は、ＡＲ作業領域の一連の記録された（ライブ動画ストリームからの）画像から抽出された指候補の一連の位置から計算される。停止は、特定領域内で遅くなっている指の速度に基づいて決定される。ステップ２０５の細部の例を、図２Ｅを参照しつつ以下に説明する。

ステップ２０６では、指押下検出を継続すべきか否かの判定がなされる。判定が肯定的、すなわち指押下検出を継続する場合には、ステップ２０２に戻り、一連の画像のうちの次の画像が得られる。判定が否定的、すなわち指押下検出を継続しない場合には、本方法は終了する。

図２Ｂは、上記図２Ａに示されたステップ２０１の細部の例を示す。１つ以上の実施形態において、ＡＲ作業領域がいずれの前景物にも干渉されないとき、システム（１００）の初期化工程中に、Ｎ個のＡＲ作業領域画像フレームを平均化することによって背景画像が得られる。Ｎは典型的には５に設定される。ホワイトバランスパラメーターが背景画像から計算されることにより、基礎となるＲＧＢ成分が等しくなる。

図２Ｂを参照すると、最初にステップ２１１において、例えばＡＲ作業領域を記録しているライブ動画ストリーム内のフレームとして、ＡＲ作業領域画像が得られる。

ステップ２１２では、背景画像がすでに利用可能であるかどうかが確認される。背景画像がすでに利用可能である場合、方法は終了する。背景画像がまだ利用可能でない場合、取得したフレームが格納される（ステップ２１３）。

ステップ２１４では、背景画像を計算するために十分なフレームが記憶されているかどうかが確認される。十分なフレームが利用可能でない場合はステップ２１１に戻る。十分なフレームが利用可能であれば、例えば記憶されたフレームの画素値を平均化することにより、背景画像が計算される（ステップ２１５）。

ステップ２１６では、ホワイトバランスパラメーターが背景画像から計算される。例えば、図１で先に説明したように、算出されたホワイトバランスパラメーターは、抽出された特徴（１０６）の一部としてバッファー（１０２）に記憶されてもよい。

図２Ｃは、上述した図２Ａにおけるステップ２０３の細部の例を示す。１つ以上の実施形態において、手候補を他の物体から区別するための、より計算量の多い操作を適用する前に、手候補を検出して探索領域を絞り込むために、スキン調フィルターが使用される。言い換えれば、スキン調フィルターを使うことにより、リアルタイム性能を達成するために必要な計算資源が低減される。スキン調検出は色成分のみに基づいており、輝度、すなわちスキンの濃度レベルの変動に対して耐性がある。

図２Ｃを参照すると、ユーザーからの指の押下が予想される実行時間中に、ライブ動画ストリーム内の各入力フレームは、以下のように処理される。最初に、ステップ２２１において、上記初期化工程から導き出された背景フレームに対してフレームを比較することによって、前景マスクが計算される。前景画素は、同じ位置にある背景画素とは大きく異なる画素値を持つ画素として規定される。１つ以上の実施形態では前景マスク内の値は、前景画素に対して２５５、他のすべての画素に対して０に設定される。

ステップ２２２では、入力フレームと前景マスクとの間でビット単位のＡＮＤ演算を実行することによって、前景マスクが適用される。さらに、画像をぼかすためにローパスフィルターが適用される。また、画像のホワイトバランスは、上記図２Ｂに示す初期化工程中に取得したホワイトバランスパラメーターを用いて行われる（ステップ２２３）。ホワイトバランスの後、画像がＲＧＢ空間からＹＣｒＣｂ空間に変換されることにより、色成分から輝度が分離される（ステップ２２４）。

ステップ２２６では、スキン調カラーフィルターとスキン調マスクが、ＹＣｃＣｂ空間内のホワイトバランス画像に適用される。ＹＣｃＣｂ空間ではスキン調範囲内の画素値が２５５に設定され、残りの画素値が０に設定される。ノイズのような斑点を除去するために形態的収縮が実行され、穴を埋めるために形態的膨張が実行される。

ステップ２２７において、塊を形成するため、ステップ２２６からの出力画像内で連結成分が検出される。予め設定された範囲内の寸法を有し、かつ予め設定された指押下検出領域と重複する塊が保持される（ステップ２２７）。従って、保持された塊の各々は、手候補とみなされる。

図２Ｄは、図２Ａにおいて上述したステップ２０４の細部の例を示す。具体的には、上記で検出された各手候補は、指及び指先の有力候補を見つけるために分析される。１つ以上の実施形態では、指候補を識別するため、手候補の輪郭をなぞることにより、予め規定された一組の基準内の幅及び長さ、例えば、０．２５から１．２５インチの幅、及び１インチを超える長さを有する、突出した特徴を探索する。指候補は、突出した特徴の形状又は指の姿勢を何ら仮定することなく識別される。例えば指は、まっすぐでも曲がっていてもよく、また、伸ばしていても、拳の中に収まっていてもよい。さらに、目標の位置に１本の指さえあれば、指の押下を検出することができる。

図２Ｄを参照すると、指候補を検出するにあたり、手候補の外郭が抽出されることにより（ステップ２３１）、輪郭の凸包が計算される（ステップ２３２）。従って、輪郭の凸欠陥が検出される（ステップ２３３）。ステップ２３３において凸欠陥の数が１より多い場合、ステップ２３４から２３９が、時計回り又は反時計回りのいずれかの順序で、手候補の輪郭に沿って、各凸欠陥について繰り返される。

ステップ２３４では、凸欠陥を分析することにより指先を検出する。まず、上述したように、２辺ｃ１及びｃ２の長さが計算され、それぞれｄ１及びｄ２で表される。ｄ１又はｄ２のいずれかが予め設定された最小指長閾値より大きい場合、ｄ１又はｄ２が指の辺であるとともに凸欠陥が有効な凸欠陥である可能性が高い。ｄ１及びｄ２の両方が予め設定された最小指長閾値より小さい場合、又は欠陥深さが予め設定された最小閾値より小さい場合、凸欠陥は些細なものであるとみなされ、無視される。

有効な各凸欠陥に対して、凸欠陥のｅ２を、後続の凸欠陥のｅ１と比較する。２辺の間の距離が最大指幅の閾値内にある場合、２辺は指候補をなす。上記図３Ｂに示す指候補（３１１ａ）は、こうして検出された指候補の一例である。

隣り合う指が拳内に折り畳まれている図３Ｃに示された手候補Ｂ（３１３）のように、辺が別の適当な辺と一致しない場合、又は図３Ｃに示される手候補Ｃ（３２１）のように有効な凸欠陥が存在しない場合、一本の指及び対応する指先を探索しようとする際に以下の工程が行われる。当該工程は、図３Ｃに示す例に基づいて説明される。

手候補の最小外接矩形ｍｉｎＲｅｃｔを調べ、ｍｉｎＲｅｃｔの寸法が設定基準内にある場合は、次のステップに進む。それ以外の場合は、この候補のための処理を終了する。この例では、手候補Ｂ（３１３）及び手候補Ｃ（３２１）は、設定基準に合致するそれぞれのｍｉｎＲｅｃｔを有する。従って、上記工程は、各ｍｉｎＲｅｃｔの境界上で指先候補を探索する。

ｍｉｎＲｅｃｔが画像の境界上にある場合、上記工程は、ｍｉｎＲｅｃｔの短い寸法を有する輪郭の交点を見つける。それは画像の境界から最も遠い位置にある。複数の交点が見つかった場合は、中央の交点が指先候補として指定される。指先候補は、手候補Ｂ（３１３）及び手候補Ｃ（３２１）のそれぞれに存在し、図３Ｃでは「ｔｉｐ」と表記されている。他の例では、ｍｉｎＲｅｃｔが画像の境界上にない場合、上記工程は凸包とｍｉｎＲｅｃｔの短辺との間のすべての交点を集める。交点の数が最小となる短辺が、指先の存在する可能性が最も高い辺として選択される。その辺上で複数の交点が見つかった場合、中央の交点が指先候補として指定される。

指先が位置する手候補Ｂ（３１３）及び手候補Ｃ（３２１）のそれぞれにおいて、上記工程は、指先から一定の距離（例えば、０．５インチや１インチ）だけ離れた、指の各辺に沿った２つの異なる位置における、指の幅を推定する。双方の場所で測定された幅が、予め設定された指幅範囲内にあり、指候補としてのより高い資質を表す場合、指候補は受け入れられる。さらに、指先から離れた位置で測定された幅が、指先に近い位置で測定された幅よりも大きく、指候補としてのさらに高い資質を表す場合、ステップ２３６で後述するように、より高い信頼スコアが与えられる。指候補又は指先が見つからない場合、工程はステップ２３９に進む。

ステップ２３６では、幅の推定（指の資質尺度に対応）、両辺が存在するかどうか（例えば、隣り合う指候補の存在）、形の良い指先が存在するかどうか（指先の資質尺度に対応）、といった要素の組合せを使用して、指候補に対して信頼スコアが計算される。最終的な信頼スコア（Ｃ）は、下記数式１に示すように、サブスコアの重み付けされた和である。Ｎはサブスコアの合計であり、ａ_ｎ及びＳ_ｎはそれぞれｎ番目の寄与因子の重みとサブスコアである。

以下の実施例では、指幅（ｗ）に対するサブスコアＳ（ｗ）の１つが、下記数式２として定義される。この実施例では０．５が、Ｓ（ｗ）＝１の最大サブスコアに対応する平均幅である。ｗが平均（０．５）から離れると、サブスコアＳ（ｗ）は減少し、０に近づく。除数（この例では０．０１）がサブスコアの減少速度を制御する。

下の表１は、実施例における全信頼スコア（Ｃ）に寄与する要素としてのサブスコアの例をまとめたものである。表１の１列目、２列目、３列目は、１つ以上の指の資質尺度と指先の資質尺度に対応していてもよい。表１の４列目は、隣り合う指候補が存在するか否かを示すものであってもよい。

表１に基づいて、信頼スコアの合計を下記数式３のように計算する。

指候補の信頼スコアが予め設定された閾値を超えると、指候補がリストに追加される（ステップ２３８）。予め設定された閾値を超える指候補がない場合、方法はステップ２３９へ進む。

ステップ２３９では、処理すべき凸欠陥がさらにあるか否かの判定がなされる。ＹＥＳの場合、工程はステップ２３４に戻る。ＮＯの場合、工程はステップ２４０へ進み、最も高い信頼値を有するものとして、指先の有力候補が選択される（ステップ２４０）。

図２Ｅは、上述した図２Ａにおけるステップ２０５の細部の例を示す。１つ以上の実施形態では２ＤカメラがＰＩＣで使用されるが、これは、ユーザーの指が面に接触していることを確実に直接判別することができない。このような実施形態では、ユーザーの指の動きに基づいて指の押下が推定される。この推定は、意図的な押下が、指の移動軌道における停止を含むことに基づいている。

図２Ｅを参照すると、最初にステップ２５１において、上記工程から検出されたすべての指先位置が、検出が発生した際に時刻印と共に一連の位置に繰り返し追加される。従って、それぞれの時点において指先の移動速度が計算される（ステップ２５２）。指押下検出ステートマシン（２５３）は、ステップ２５１及びステップ２５２が繰り返し（すなわち、反復して）実行される間、表２に列挙された規則に基づいて実行される。

停止閾値は、例えば処理間隔（例えば６６ミリ秒）中に０．２５インチである。フレーム間隔（すなわち、ライブ動画ストリーム内の隣り合うフレームの間隔）は、システムの現在の処理負荷に基づいて調整することができ、システムへの負荷が増加するにつれて間隔が増加する。フレーム間隔は通常３３〜９９ミリ秒の範囲である。

図３Ａから図３Ｄは、本発明の１つ以上の実施形態による実施例を示す。図３Ａから図３Ｄに示す実施例は、図１及び図２Ａから図２Ｅを参照しつつ上述したシステム及び方法フローチャートに基づいている。本発明の１つ以上の実施形態において、図３Ａから図３Ｄに示される１つ以上の要素は、省略され、繰り返され、及び／又は異なる配置で編成されてもよい。つまり、本発明の範囲は、図３Ａから図３Ｄに示される各要素の特定の配置に限定されるものとみなすべきではない。

図３Ａから図３Ｄの様々な詳細が、上記図１の説明と共に説明されてきた。１つ以上の実施形態において、図３Ａから図３Ｄに示される実施例は、一組のカメラ及びプロジェクターを備えた投影ユーザーインターフェイスに対応する。当該ユーザーインターフェイスにおいてユーザーは、マウス又はタッチスクリーンがない場合に、１本以上の指を使用して、一般的な現実の面（机や壁など）上の投影されたボタンとふれあうことができる。例えば、図３Ａ及び図３Ｄを参照すれば、アイコン（３０３）と重なる場所（３３４）内のユーザーの指の押下を検出すると、アプリケーションは、従来のユーザーインターフェイスによってマウスクリックイベントが処理されるのと同様にして、アイコン（３０３）上での検出された指の押下の通知を受信する。この通知を受けて、アプリケーションは、マウスやタッチセンサーといった専用ユーザーインターフェイス装置に頼ることなく、アイコン（３０３）に対応した予め決められたタスクを実行する。

本発明の実施形態は、使用されているプラットフォームに関係なく、実質的にあらゆるタイプのコンピューターシステム上で実施可能である。例えば、コンピューターシステムは、１つ以上のモバイル機器（例えば、ラップトップコンピューター、スマートフォン、個人用デジタル補助器、タブレット・コンピューター、その他のモバイル機器）、デスクトップ・コンピューター、サーバー、サーバーシャーシ内のブレードであってよい。あるいは、本発明の１つ以上の実施形態を実行するための最小処理能力、メモリー、及び入出力装置を少なくとも有するあらゆる他のタイプのコンピューター装置又は装置であってもよい。例えば図４に示すように、コンピューターシステム（４００）は、１つ以上のコンピュータープロセッサー（４０２）、関連するメモリー（４０４）（例えば、ランダムアクセスメモリー（ＲＡＭ）、キャッシュメモリー、フラッシュメモリー等）、１つ以上の記憶装置（４０６）（例えば、ハードディスク、コンパクトディスク（ＣＤ）ドライブ又はデジタル汎用ディスク（ＤＶＤ）ドライブなどの光ドライブ、フラッシュメモリースティック等）、及び多数の他の素子及び機能を含んでもよい。コンピュータープロセッサー（４０２）は、命令を処理するための集積回路であってもよい。例えば、コンピュータープロセッサーは、プロセッサーの１つ以上のコア、又はマイクロコアであってもよい。コンピューターシステム（４００）は、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、又は他のあらゆるタイプの入力装置といった、１つ以上の入力装置（４１０）をさらに含んでもよい。また、コンピューターシステム（４００）は、スクリーン（例えば、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーン、ブラウン管（ＣＲＴ）モニター、プロジェクター、又は他の表示装置）、プリンター、外部記憶装置、又は他のあらゆる出力装置といった、１つ以上の出力装置（４０８）を含んでもよい。１つ以上の出力装置は、入力装置と同じであっても、異なっていてもよい。コンピューターシステム（４００）は、ネットワークインターフェイス接続（図示せず）を介して、ネットワーク（４１２）（例えば、ローカルエリアネットワーク（ＬＡＮ）、インターネットやモバイルネットワークといったワイドエリアネットワーク（ＷＡＮ）、又は他のあらゆるタイプのネットワーク）に接続されてもよい。入出力装置は、その場で又は（例えば、ネットワーク（４１２）を介して）遠隔で、コンピュータープロセッサー（４０２）、メモリー（４０４）、及び記憶装置（４０６）に接続されてもよい。多くの異なるタイプのコンピューターシステムが存在しており、前述の入出力装置は他の形態であってもよい。

本発明の実施形態を実行するためのコンピューター読取可能プログラムコードの形式におけるソフトウェア命令は、ＣＤ、ＤＶＤ、記憶装置、ディスケット、テープ、フラッシュメモリー、物理メモリー、又は他のあらゆるコンピューター読取可能記憶媒体といった、非一時的コンピューター読取可能媒体に、全体的又は部分的に、一時的又は恒久的に記憶されてもよい。具体的には、ソフトウェア命令は、プロセッサーによって実行されるときに本発明の実施形態を実行するように構成された、コンピューター読取可能プログラムコードに対応してもよい。

また、前述のコンピューターシステム（４００）の１つ以上の要素は、遠隔地に配置され、ネットワーク（４１２）を介して他の要素に接続されてもよい。さらに、本発明の１つ以上の実施形態は、複数のノードを有する分散システム上で実現されてもよく、本発明の各部分は、分散システム内の異なるノード上に配置することができる。本発明の一実施形態では、ノードは別個のコンピューター装置に対応する。あるいはノードは、付属の物理メモリーを有するコンピュータープロセッサーに対応していてもよい。あるいはノードは、共有メモリー及び／又はリソースを有するコンピュータープロセッサー又はコンピュータープロセッサーのマイクロコアに対応していてもよい。

本発明の１つ以上の実施形態は、以下の利点のうち１つ以上を有することができる。専用ハードウェアなしで一般的なカメラからストリーミングされた低解像度画像（例えばライブ動画）に基づいて、ユーザーの指の押下を検出する能力。ボタン領域内に他の物体が存在することによる誤った手の検出を（人のスキン調及び手の輪郭を使用して）除去／低減する能力。ボタンを押すことを意図していない、カメラの下の手や腕の動きの存在による誤った潜在的誘因を、（「押下」イベントが発生する前に、ユーザーが一定期間、ある場所で一時停止したことを保証するべく、手の動きを分析することにより）除去／低減する能力。応答時間は待ち時間なしで即座に訪れるため、リアルタイムの実行でボタンの押下を検出する能力。深度情報を使用して検出精度を向上させるため、及び／又は、追加のさまざまな手のジェスチャーを認識するため、１つ以上のカメラ（２Ｄ又は３Ｄ）を追加してシステムを拡張する能力。

限られた数の実施形態との関連で本発明を説明したが、本開示に触れた当業者ならば、ここに開示される発明の範囲から逸脱しない他の実施形態を考えつくであろう。従って、本発明の範囲は、添付の請求項によってのみ制限されるべきである。

Claims

拡張現実（ＡＲ）作業領域における指の押下を検出する方法であって、
ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得する工程、
少なくともスキン調カラーフィルターに基づいて、コンピュータープロセッサーにより、前記ＡＲ作業領域の画像から手候補を抽出する工程、
予め決められた信頼尺度に基づいて、前記コンピュータープロセッサーにより、前記手候補の輪郭から指候補を抽出する工程、及び、
前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記コンピュータープロセッサーにより、前記ユーザーの手によって実行される前記指の押下を検出する工程、
を備えることを特徴とする方法。
前記画像がライブ動画ストリームのフレームである、前記ＡＲ作業領域の当該ライブ動画ストリームを、前記撮像センサーを使用して取得する工程、
少なくとも、前記画像から抽出された前記指候補の位置に基づいて、前記ライブ動画ストリームから一連の指先移動速度を決定する工程、及び、
前記一連の指先移動速度に基づいて、前記ＧＵＩのアイコン上に置かれた指の停止時間を決定する工程、をさらに備え、
前記指の押下の検出は、予め決められた停止の閾値を超えた前記停止時間に基づくことを特徴とする、請求項１に記載の方法。
前記ＡＲ作業領域の背景画像であって、グラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、前記撮像センサーを使用して取得する工程をさらに含んでおり、
前記手候補を抽出する工程が、
前景マスクを生成するために前記画像と前記背景画像とを比較する工程、及び、
予め設定されたスキン調フィルター及び前記前景マスクを使用し、前記背景画像のホワイトバランスパラメーターに基づいて、つながった色成分を前記画像から抽出する工程、を備え、
前記手候補は、予め決められた寸法基準に基づいて、前記つながった色成分から選択されることを特徴とする、請求項１に記載の方法。
前記指候補を抽出する工程が、前記手候補の輪郭から複数の凸欠陥を抽出することを含んでおり、
前記予め決められた信頼尺度は、前記複数の凸欠陥における隣り合う凸欠陥の間の距離と、予め決められた指幅の閾値とを含んでおり、
前記指候補は、前記予め決められた指幅の閾値内の対応する距離を有する一対の隣り合う凸欠陥を含むことを特徴とする、請求項１に記載の方法。
前記予め決められた信頼尺度は、指の資質尺度、指先の資質尺度、及び隣り合う指候補の存在をさらに含むことを特徴とする、請求項４に記載の方法。
前記指候補を抽出する工程が、
前記手候補の輪郭から複数の指候補を抽出する工程、
前記予め決められた信頼尺度に基づいて、前記複数の指候補の個々の信頼スコアを計算する工程、及び、
前記個々の信頼スコアに基づき、指の有力候補として、前記複数の指候補から前記指候補を選択する工程、
を含むことを特徴とする、請求項１に記載の方法。
前記指候補を抽出する工程が、
前記手候補の輪郭に基づいて、前記手候補の最小外接矩形を生成する工程、
前記画像の境界線及び前記手候補の輪郭からなる群から選択された少なくとも１つと、前記最小外接矩形との交点に基づいて、前記手候補の輪郭から指先候補を抽出する工程、及び、
前記指先候補及び前記手候補の輪郭に基づいて推定指幅を決定する工程、
を含んでおり、
前記指候補の抽出は、予め決められた指幅の閾値内にある前記推定指幅に基づくことを特徴とする、請求項１に記載の方法。
拡張現実（ＡＲ）作業領域における指の押下を検出するためのコンピューター読取可能プログラムコードを記憶した非一時的コンピューター読取可能媒体（ＣＲＭ）であって、前記コンピューター読取可能プログラムコードは、コンピュータープロセッサーによって実行されると、
ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得する工程、
少なくともスキン調カラーフィルターに基づいて、前記ＡＲ作業領域の画像から手候補を抽出する工程、
予め決められた信頼尺度に基づいて、前記手候補の輪郭から指候補を抽出する工程、及び、
前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記ユーザーの手によって実行される前記指の押下を検出する工程、
を実行する機能を備えることを特徴とする非一時的コンピューター読取可能媒体。
前記コンピューター読取可能プログラムコードは、前記コンピュータープロセッサーによって実行されると、
前記画像がライブ動画ストリームのフレームである、前記ＡＲ作業領域の当該ライブ動画ストリームを、前記撮像センサーを使用して取得する工程、
少なくとも、前記画像から抽出された前記指候補の位置に基づいて、前記ライブ動画ストリームから一連の指先移動速度を決定する工程、及び、
前記一連の指先移動速度に基づいて、前記ＧＵＩのアイコン上に置かれた指の停止時間を決定する工程、
を実行する機能をさらに備えており、
前記指の押下の検出は、予め決められた停止の閾値を超えた前記停止時間に基づくことを特徴とする、請求項８に記載の非一時的コンピューター読取可能媒体。
前記コンピューター読取可能プログラムコードは、前記コンピュータープロセッサーによって実行されると、
前記ＡＲ作業領域の背景画像であって、グラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、前記撮像センサーを使用して取得する工程、
を実行する機能をさらに備えており、
前記手候補を抽出する工程が、
前景マスクを生成するために前記画像と前記背景画像とを比較する工程、及び、
予め設定されたスキン調フィルター及び前記前景マスクを使用し、前記背景画像のホワイトバランスパラメーターに基づいて、つながった色成分を前記画像から抽出する工程、を備え、
前記手候補は、予め決められた寸法基準に基づいて、前記つながった色成分から選択されることを特徴とする、請求項８に記載の非一時的コンピューター読取可能媒体。
前記指候補を抽出する工程が、前記手候補の輪郭から複数の凸欠陥を抽出することを含んでおり、
前記予め決められた信頼尺度は、前記複数の凸欠陥における隣り合う凸欠陥の間の距離と、予め決められた指幅の閾値とを含んでおり、
前記指候補は、前記予め決められた指幅の閾値内の対応する距離を有する一対の隣り合う凸欠陥を含むことを特徴とする、請求項８に記載の非一時的コンピューター読取可能媒体。
前記予め決められた信頼尺度は、指の資質尺度、指先の資質尺度、及び隣り合う指候補の存在をさらに含むことを特徴とする、請求項１１に記載の非一時的コンピューター読取可能媒体。
前記指候補を抽出する工程が、
前記手候補の輪郭から複数の指候補を抽出する工程、
前記予め決められた信頼尺度に基づいて、前記複数の指候補の個々の信頼スコアを計算する工程、及び、
前記個々の信頼スコアに基づき、指の有力候補として、前記複数の指候補から前記指候補を選択する工程、
を含むことを特徴とする、請求項８に記載の非一時的コンピューター読取可能媒体。
前記指候補を抽出する工程が、
前記手候補の輪郭に基づいて、前記手候補の最小外接矩形を生成する工程、
前記画像の境界線及び前記手候補の輪郭からなる群から選択された少なくとも１つと、前記最小外接矩形との交点に基づいて、前記手候補の輪郭から指先候補を抽出する工程、及び、
前記指先候補及び前記手候補の輪郭に基づいて推定指幅を決定する工程、
を含んでおり、
前記指候補の抽出は、予め決められた指幅の閾値内にある前記推定指幅に基づくことを特徴とする、請求項８に記載の非一時的コンピューター読取可能媒体。
拡張現実（ＡＲ）作業領域における指の押下を検出するためのシステムであって、
メモリーと、
当該メモリーに接続されたコンピュータープロセッサーと、
を備えており、前記コンピュータープロセッサーが、
ＡＲ作業領域の画像であって、ユーザーの手が置かれたグラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、撮像センサーを用いて取得し、
少なくともスキン調カラーフィルターに基づいて、前記ＡＲ作業領域の画像から手候補を抽出し、
予め決められた信頼尺度に基づいて、前記手候補の輪郭から指候補を抽出し、
前記ＧＵＩのアイコンとの関係における前記指候補の位置に基づいて、前記ユーザーの手によって実行される前記指の押下を検出する
ことを特徴とするシステム。
前記コンピュータープロセッサーがさらに、
前記画像がライブ動画ストリームのフレームである、前記ＡＲ作業領域の当該ライブ動画ストリームを、前記撮像センサーを使用して取得し、
少なくとも、前記画像から抽出された前記指候補の位置に基づいて、前記ライブ動画ストリームから一連の指先移動速度を決定し、
前記一連の指先移動速度に基づいて、前記ＧＵＩのアイコン上に置かれた指の停止時間を決定し、
前記指の押下の検出は、予め決められた停止の閾値を超えた前記停止時間に基づくことを特徴とする、請求項１５に記載のシステム。
前記コンピュータープロセッサーがさらに、前記ＡＲ作業領域の背景画像であって、グラフィックユーザーインターフェイス（ＧＵＩ）のアイコンを含む画像を、前記撮像センサーを使用して取得し、
前記手候補を抽出する工程が、
前景マスクを生成するために前記画像と前記背景画像とを比較する工程、及び、
予め設定されたスキン調フィルター及び前記前景マスクを使用し、前記背景画像のホワイトバランスパラメーターに基づいて、つながった色成分を前記画像から抽出する工程、を備え、
前記手候補は、予め決められた寸法基準に基づいて、前記つながった色成分から選択されることを特徴とする、請求項１５に記載のシステム。
前記指候補を抽出する工程が、前記手候補の輪郭から複数の凸欠陥を抽出することを含んでおり、
前記予め決められた信頼尺度は、前記複数の凸欠陥における隣り合う凸欠陥の間の距離と、予め決められた指幅の閾値とを含んでおり、
前記指候補は、前記予め決められた指幅の閾値内の対応する距離を有する一対の隣り合う凸欠陥を含むことを特徴とする、請求項１５に記載のシステム。
前記指候補を抽出する工程が、
前記手候補の輪郭から複数の指候補を抽出する工程、
前記予め決められた信頼尺度に基づいて、前記複数の指候補の個々の信頼スコアを計算する工程、及び、
前記個々の信頼スコアに基づき、指の有力候補として、前記複数の指候補から前記指候補を選択する工程、
を含むことを特徴とする、請求項１５に記載のシステム。
前記指候補を抽出する工程が、
前記手候補の輪郭に基づいて、前記手候補の最小外接矩形を生成する工程、
前記画像の境界線及び前記手候補の輪郭からなる群から選択された少なくとも１つと、前記最小外接矩形との交点に基づいて、前記手候補の輪郭から指先候補を抽出する工程、及び、
前記指先候補及び前記手候補の輪郭に基づいて推定指幅を決定する工程、
を含んでおり、
前記指候補の抽出は、予め決められた指幅の閾値内にある前記推定指幅に基づくことを特徴とする、請求項１５に記載のシステム。