JP6323202B2

JP6323202B2 - 映像を取得するシステム、方法及びプログラム

Info

Publication number: JP6323202B2
Application number: JP2014127336A
Authority: JP
Inventors: メケラエビレ; カータースコット; クーパーマシュー; ラグバービカッシュ; ローラン　ドゥヌ; ドゥヌローラン; スベンクラッツ
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2014-03-18
Filing date: 2014-06-20
Publication date: 2018-05-16
Anticipated expiration: 2034-06-20
Also published as: US20150268728A1; JP2015179490A

Description

本発明は、映像を取得するシステム、方法及びプログラムに関し、詳細には、ヘッドアップ型のカメラなどを用いた撮影における撮影者の意図と映像の不整合を通知などするシステム、方法及びプログラムに関する。

ヘッドアップ型のカメラやディスプレイが知られている。

トリゴー（Trigo）ら、「手のジェスチャ分類のための特徴の分析（An Analysis of Features for Hand-Gesture Classification）」、信号及び画像処理予稿集（17th International Conference on Systems, Signals and Image Processing (IWSSIP 2010)）、２０１０年エスター（Ester）ら、「ノイズのある大規模空間データにおいてクラスタを発見するための、密度に基づくアルゴリズム（A density-based algorithm for discovering clusters in large spatial databases with noise）」、１９９６年

ヘッドアップ型のカメラを用いて撮影をする場合には、撮影の対象となる活動に集中するあまり、撮影しようとする映像と実際に撮影する映像の間に不整合が生じる場合がある。

本発明の第１の態様は、システムであって、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得する手段と、取得された前記映像の中に含まれるユーザの手の数を判断する手段と、ユーザの前記活動に関連する音声を、前記映像に同期して取得する手段と、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う手段と、を備える。

本発明の第２の態様は、第１の態様のシステムであって、取得した前記音声に音声認識処理を行う手段を更に備え、認識された音声中に指示語が含まれていることを更に条件として、ユーザに対して前記フィードバックを行う。

本発明の第３の態様は、第１の態様のシステムであって、前記フィードバックは、前記認識された音声中に含まれる指示語の数、及び、前記判断されたユーザの手の数の少なくとも一方によって異なる。

本発明の第４の態様は、第１の態様のシステムであって、前記フィードバックは、ユーザの手が取得した前記映像の中に含まれていない旨を含む。

本発明の第５の態様は、第４の態様のシステムであって、前記ユーザの手が取得した前記映像に含まれていない場合に、前記フィードバックは、前記映像中に最後に現れた手の位置を含む。

本発明の第６の態様は、方法であって、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、取得された前記映像の中に含まれるユーザの手の数をコンピュータによって判断し、ユーザの前記活動に関連する音声を、前記映像に同期して取得し、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してコンピュータによりフィードバックを行う。

本発明の第７の態様は、プログラムであって、コンピュータに、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、取得された前記映像の中に含まれるユーザの手の数を判断し、ユーザの前記活動に関連する音声を、前記映像に同期して取得し、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行うことを実行させる。

本発明の構成を備えない場合と比較して、ユーザが意図した映像をキャプチャーできる。

ユーザが音声／映像のコンテンツをキャプチャーし、そして、意図したコンテンツと実際にキャプチャーされたコンテンツの間におそらく不整合があることをユーザに知らせるための、計算処理システムの実施例を示す。音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイスの実施例を示す。音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイスにおいて、ヘッドアップ型ディスプレイに表示されるユーザ・インターフェイスの実施例を示す。ユーザの視野を示す実施例である。ユーザによる音声／映像のコンテンツのキャプチャーを支援し、そして、意図したコンテンツおよび実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知する計算処理システムの例示的な処理シーケンスを示す。ヘッドアップ型のディスプレイを用いてユーザに表示されるグラフィカル・ユーザ・インターフェイスのスクリーンショットの例を示す。各場面におけるシステムによるフィードバックの例を示す。手を追跡する方法の実施例を示す処理シーケンスの例を示す。手の左右を判断する処理の例示的な処理シーケンスを示す。凸面検出およびｋ曲率に基づいて指先を検出する方法の例示的な処理シーケンスを示す。処理シーケンスの異なる各段階における手の追跡処理の例示的な出力を示す。音声／映像のコンテンツをユーザがキャプチャーするのを支援し、意図したコンテンツと実際にキャプチャーされるコンテンツの間におそらく生じている不整合をユーザに通知する、計算処理システムの実施例を示す。

以下の詳細な記述において、添付の図面を参照する。添付の図面において、同様の機能を有する構成要素は同様の参照符号を付されている。添付の図面は例示のためのものであり、限定を意図するものではない。特定の実施例及び実装は本発明の原理と矛盾しない。これらの実装は当業者が実施できる程度に十分詳細に記述される。その他の実装が使用されてもよく、様々な構成要素の構造の変更及び／もしくは置き換えが本発明の範囲及び思想から逸脱することなく可能であることは理解されるだろう。したがって、以下の詳細な記述は、限定的に解釈されるべきではない。さらに、記述される本発明の様々な実施例は、汎用計算機上で稼働するソフトウェアの形態によっても、専用ハードウェアの形態によっても、ソフトウェア及びハードウェアの組み合わせによっても、実装可能である。

「関連技術の説明」
ヘッドアップ型のディスプレイで映像を撮影するのは簡単そうに見えるかもしれない。それは、ユーザは目の真上に位置するカメラが、ユーザが見ているもの全てを単に撮影していると勘違いしがちだからである。しかし、これは事実でないことが多い。それは、カメラは人間の目と比べて視野が狭いからである。さらに、カメラは微妙に違った方向を向いていることもよくあり、ユーザが視野の中心に捉えているオブジェクトが、カメラの視野の端に現れたり、あるいは視野から外れてしまったりすることもある。

したがって、説明のためのビデオを高い品質で撮影するために、ユーザはカメラの視野を定期的に確認し、それに応じて調整することを忘れてはならない。残念ながら、これにより、ユーザが、撮影されている実際の作業に集中することが難しくなる。実際に、ヘッドアップ型のディスプレイでハウツー型のコンテンツを撮影する場合に、ユーザは撮影される領域から注意をそらしてしまうことはよくある。これは、ユーザが、作業に没頭してしまい、頭部が撮影している作業に向いているか確認するのを忘れてしまうときに起こる。

したがって、説明のためのビデオをヘッドアップ型のディスプレイで撮影する際に、意図するコンテンツと実際にキャプチャーされるコンテンツの間の不整合をユーザに知らせるシステム及び方法があると好都合だろう。

ヘッドアップシステムを用いて説明のためのコンテンツをキャプチャーするときには、ユーザが撮影しようとする活動にユーザの手が関わることがよくあることが観測されている。このことは、テーブル上で行われる活動については特に正しい。この観測に基づき、ユーザの手がカメラの視野に現れないときには何か重要な活動が映像中に欠けているという仮定を置き、ここで述べる自動化システムはこの仮定に基づいて動作する。

このように、ここで述べる実施例の一つもしくは複数の側面によれば、ヘッドアップ型の映像キャプチャーシステムは、ユーザの手の位置を追跡する深さ検出カメラを更に備え、そして、映像または音声による通知という形でユーザに対しフィードバックを提供する。一つもしくは複数の実施例において、この通知の強さは、撮影時に検出され得る他の特徴に依存してもよい。特に、音声解析エンジンが、コンテンツのキャプチャー中にユーザの音声を解析するために提供されてもよく、予め定められた特定領域の用語（例えば「これ」、「あれ」、「置く」、「配置する」、「動かす」）を用いてオブジェクトを音声によって参照したのはどの時点であるのかを検出してもよい。このシステムが、手が現れていないこととそのような指示的な用語が使われていることの双方を検出した場合には、単にカメラの視野から手が欠けていることだけが検出された場合に比べて、より目立ち注意を引くような通知をユーザに与えてもよい。

図１は、ユーザが音声／映像のコンテンツをキャプチャーし、そして、意図したコンテンツと実際にキャプチャーされたコンテンツとの間におそらく不整合があることをユーザに知らせるための、計算処理システムの実施例を示す。計算処理システム１００は、さまざまなタイプの音声／映像コンテンツをキャプチャーするために用いられてよい。音声／映像コンテンツは、例えば、装置や他の物品１０１に関連した使用法のチュートリアルのような説明のためのビデオを含む。計算処理システム１００は、音声／映像キャプチャー及びヘッドアップ型のディスプレイを統合したデバイス１０２を含み、それはユーザ１０３によって装着されている。一つもしくは複数の実施例において、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２は、当業者に良く知られたＧｏｏｇｌｅＧｌａｓｓなどの、拡張現実(augmented reality)のヘッドマウント・ディスプレイ（ＨＭＤ）システムに基づいて実装されてもよい。

一つもしくは複数の実施例において、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２は、データリンクを介して、コンピュータシステム１０４に接続されている。コンピュータシステム１０４は、デバイス１０２に統合されていてもよいし、別個のスタンドアロン型コンピュータシステムとして実装されてもよい。音声／映像のコンテンツがユーザによりキャプチャーされている間に、音声／映像のキャプチャー及びヘッドアップ型のディスプレイを統合したデバイス１０２は、キャプチャーしたコンテンツ１０５をデータリンクを介してコンピュータシステム１０４に送る。一つもしくは複数の実施例において、データリンクは、既に知られた任意の無線プロトコル、例えばＷＩＦＩやＢｌｕｅｔｏｏｔｈ（登録商標）に従うものであってよいし、あるいは有線のデータリンクであってもよい。

コンピュータシステム１０４は、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２からキャプチャーされたコンテンツ１０５を受信し、そして、ここで述べられる技術に従ってそれを処理する。具体的には、キャプチャーされたコンテンツ１０５は、実際にキャプチャーされたコンテンツが、ユーザがキャプチャーしようとしたコンテンツと整合するかどうかをコンピュータシステム１０４が判断するために用いられる。不整合の場合には、警告メッセージ１０６がコンピュータシステム１０４により発せられ、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２に対しデータリンクを介して送られ、ユーザに表示される。コンピュータシステム１０４は、受信したキャプチャーされたコンテンツ１０５をコンテンツ・ストレージ１０７に格納し、その後の検索のために使えるようにしてもよい。コンテンツ・ストレージ１０７は、知られている、あるいは今後開発されるどのようなシステムに基づいて実装されても良い、例えば、データベース管理システム、ファイル格納システムのようなものであってよい。

図２は、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２の実施例を示す。この音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２は、フレーム２０１、ディスプレイ２０４、音声キャプチャー（録音）デバイス２０３、および、カメラ２０２を備える。一つもしくは複数の実施例において、カメラ２０２は、奥行きセンサーを有してもよい。一つもしくは複数の実施例において、音声キャプチャーデバイス２０３はマイクロフォンであってもよい。ヘッドアップ型のディスプレイ２０４は、カメラ２０２および音声キャプチャーデバイス（レコーダ）２０３を用いて現在録画されるコンテンツのプレビューを示し、そして、ユーザに対してリアルタイムにフィードバックを提供する。一つもしくは複数の実施例において、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２は、音声再生デバイス（不図示）を更の備え、ユーザに対し音声のフィードバックを、例えば、予め定められた音やメロディーを提供してもよい。

図３は、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２のヘッドアップ型のディスプレイ２０４に表示されるグラフィカル・ユーザ・インターフェイス３００の実施例を示す。ユーザ・インターフェイス３００は、カメラ２０２を用いて撮影される映像コンテンツのライブ映像を含む。図３に示す例において、ライブ映像は、装置または他の物品１０１を表示しているとともに、ユーザの手３０１の１つを示している。グラフィカル・ユーザ・インターフェイス３００は、ユーザによって現在撮影されるコンテンツに関連したリアルタイムのフィードバックをユーザに対し提供する、一つもしくは複数の通知エレメント３０２をさらに含んでよい。示した例において、通知エレメント３０２は、スーパーインポーズされた番号「１」を有する手の形のアイコンであり、これにより、リアルタイムの映像コンテンツにおいて現在認識されているユーザの手の数が１つであることを示している。

一つもしくは複数の実施例において、計算処理システム１００は、如何なる時点においても、その時点において撮影された映像コンテンツの中にいくつの手が認識されたのかに基づいて、補足的な視覚的フィードバックを自動的に生成してよい。この計算処理システム１００は、認識した手をハイライトして表示し、手の数「１」を含むアイコン３０２を角（隅）に表示し、画面に手が現れたり画面から手が消えたりする時に音を再生してもよい。さらに、一つもしくは複数の実施例において、ユーザの音声によってフィードバックがさらに変更されてもよい。この目的のため、音声キャプチャーデバイス（レコーダ）２０３によって録音されたリアルタイムの音声を用いて音声認識が実行される。当業者には明らかであろうが、指示語を用いてオブジェクトを参照することは、一つもしくは複数の手が画面上に表れるべきであることを示唆する場合が多い。もしそうでない場合には、計算処理システム１００は、ユーザに対しもっと気が付きやすいフィードバックを提供する。

図４は、ユーザの視点を示す例である。ヘッドアップ型のディスプレイ２０４は、ユーザの視野の右上の角に表れるリアルタイムのフィードバックをユーザに提供する。これに加えて、ユーザの視点４００は、装置や他の物品１０１およびそのユーザの手の１つ３０１を含んでよい。

図５は、ユーザによる音声／映像のコンテンツのキャプチャーを支援し、そして、意図したコンテンツおよび実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知する計算処理システム１００の例示的な処理シーケンスを示す。ステップ５０１において、計算処理システム１００は、カメラ２０２を用いてライブ映像のコンテンツをリアルタイムに録画する。ステップ５０２において、下記に詳しく述べる技術に従って、録画された映像コンテンツについて手の認識処理が実行される。ステップ５０３において、録画されたビデオコンテンツに表れる手の数が、手認識手続き５０２の出力に基づいて判断される。ステップ５０４において、ライブ音声コンテンツが、音声キャプチャー（録音）デバイス（マイクロフォン）２０３を用いて録音される。ステップ５０５において、音声認識処理が、録音されたライブ音声コンテンツに対して実行される。ステップ５０６において、オブジェクトを指す指示語のタイプ及び数が、音声認識処理５０５の結果を用いて判断される。

一つもしくは複数の実施例において、ステップ５０１〜５０３および５０４〜５０６は並列に実行されてもよい。ステップ５０７において、ユーザへのフィードバックが、その撮影された映像コンテンツ内に検出された手の数、位置、および、録音された音声コンテンツ中に検出された指示語の数、タイプに基づいて生成される。最後に、ステップ５０８において、生成されたそのフィードバックが、ヘッドアップ型のディスプレイ２０４に表示されたグラフィカル・ユーザ・インターフェイスを用いてユーザに提供され、および／または、音声／映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス１０２の音声再生デバイスを用いてユーザに提供される。

ある実施例において、ユーザの手はカメラ２０２を用いて録画された映像中の複数のフレームを用いて追跡されてもよい。当業者には明らかなように、単一のカメラから手の追跡機能を構築する、すでに利用可能な技術やツールキットが数多く存在する。これらのよく知られたどの技術も、キャプチャーされる映像コンテンツを用いてユーザの手を追跡するために用いることができる。他の実施例において、計算処理システム１００は、ヘッドマウント型の奥行き検知カメラを用いて手の追跡を行ってもよい。上述の奥行き検知カメラは、カメラ２０２に代えてまたは加えて、図２のフレームと同一のフレーム２０１に装着されてもよい。このアプローチによれば、下記に詳しく述べる通り、手の輪郭、手の位置、および、指先の位置を、奥行き検知カメラから得られる奥行き情報付き画像のストリームに対しコンピュータ・ビジョン技術を適用することができる。奥行き検知カメラによって提供される奥行き情報があれば、手の追跡はカメラのみの入力を使う場合と比べてはるかに安定的に動作する。例えば、奥行き情報を追加することで、追跡システムは、手袋を装着した手や道具を握っている手をより正確に追跡できるであろう。

この音声および奥行き解析コンポーネントの結果があれば、ユーザに対する通知を生成する方法は複数存在する。ここで述べる一つもしくは複数の実施例において用いられる基本的な前提は、手や他のオブジェクトの動きが検出されるセグメントには、映像を効果的に言葉で解説する活動があるであろう、というものである。音声、指示語、または活動に特有のキーワードが、手や足のオブジェクトの動きを検出することなく検出された場合には、計算処理システム１００は、活動がカメラの視野の外で行われているかもしれないという視覚的なヒントを提供してもよい。このケースは、図６および図７の場面７０５にあるような、グラフィカル・ユーザ・インターフェイスのスクリーンショット６０１および６０６の中で説明されている。

反対に、計算処理システム１００が、一定の連続した映像の中で、音声は検出されないのに動作や手は検出された場合には、計算処理システム１００は、音声アイコンによってユーザに通知する。この通知の背景のアイデアは、解説を促すか、あるいは、不要なコンテンツを誤ってキャプチャーしているかもしれないことをユーザに思い出させることである。このケースは、図６に示す、グラフィカル・ユーザ・インターフェイスのスクリーンショット６０５や、図７の場面７０２に説明されている。どちらのケースも、フィードバックの追加または代替として、音声という形での通知がユーザに行われてもよいことが分かる。

図６は、ヘッドアップ型のディスプレイ２０４を用いてユーザに表示するグラフィカル・インターフェイス３００のスクリーンショットの例を示す。この例のグラフィカル・ユーザ・インターフェイスのスクリーンショット６０１において、どちらの手も認識されていないが、音声は検出されている。このため、右端の手の形のアイコンにスーパーインポーズされている数字は、認識されている手の数が「０」であることを示す。スクリーンショット６０２の例においては、手も話し言葉も検出されていない。したがって、「０」という数値がスーパーインポーズされた手が検出されていないことを示す手のアイコンに加えて、音声のアイコンが、ユーザ・インターフェイス３００の左下の角に表示される。スクリーンショット６０３の例において、手が１つ画面に現れており、これは、「１」という数値がスーパーインポーズされた手のアイコンを用いて示されており、そして音声も検出されているので、これは音声のアイコンが表示されないことによって示されている。スクリーンショット６０４の例において、２つの手が画面に現れており、これは、「２」という番号がスーパーインポーズされた手のアイコンを用いて表されており、そして、音声も検出されており、これは、音声のアイコンが表示されないことによって表されている。スクリーンショット６０５の例において、２つの手が認識されており、これは、「２」という番号がスーパーインポーズされた手のアイコンを用いて表されているが、話し言葉は検出されていない。よって、音声のアイコンが左側に表示されている。最後に、スクリーンショット６０６において、画面からどちらの手も消えているが、音声は検出され続けており、これは、音声のアイコンがない事によって表されている。この状況において、手のアイコンはスーパーインポーズされた「０」という数値を有しており、これによって、撮影される映像には手が現れていないことを示している。一つもしくは複数の実施例において、矢印は、手が観測された最後の位置を示している。

図７は、システムが場面ごとに提供するフィードバックの例を示す。先述のスクリーンショット６０２に基本的に対応している場面７０１において、ユーザは撮影を開始し、そして、どちらの手も音声も検出されていない。したがって、「０」という番号がスーパーインポーズされた（手が検出されないことを示す）手のアイコンが表示されるとともに、音声のアイコンが表示される。場面７０２において、画面には手が１つ現れ、これは、「１」という番号がスーパーインポーズされた手のアイコンを用いて表され、そして、音声のアイコンによって音声が検出されていないことが示される。一つもしくは複数の実施例において、この場面においては、音声のアイコンが赤色などの目立つ色で表示されてよい。一方で、手のアイコンは、黄色などのそれほど目立たない色で表示されてよい。

場面７０３において、ユーザが話し始めると、画面に１つの手が現れ、これは、「１」という番号がスーパーインポーズされた手のアイコンを用いて表され、そして、音声も検出されているので、これは音声のアイコンがないことによって表される。場面７０４において、ユーザは話を続け、そして、画面に１つの手が現れ、これは、「１」という番号がスーパーインポーズされた手のアイコンを用いて表される。システムは、音声も検出するとともに、予め定められた指示語をユーザの話し言葉の中に認識している。したがって、音声のアイコンは表示されない。

場面７０５において、ユーザがそのユーザの手から頭をそらし、撮影される映像中には手が検出されなくなる。一方で、音声は検出され、そして、オブジェクトへの指示語は認識される。この状況において、システムは、手が検出されていないということを示すため、「０」という番号がスーパーインポーズされた手のアイコンを表示してもよい。音声は検出されているので、音声のアイコンは表示されない。一つもしくは複数の実施例において、この場面では、手のアイコンはより注意をひきやすい色、例えば赤色で表示されてもよい。

場面７０６において、ユーザは両手が撮影される映像に現れるように頭の向きを変える。音声も検出され続けている。この場面において、システムは、２つの手が認識されていることを示すため、「２」という番号がスーパーインポーズされた手のアイコンを表示する。音声が検出されているので、音声のアイコンは表示されていない。

一つもしくは複数の実施例において、音声録音デバイスによってユーザの話し言葉を音声解析する際に２つの粒度があってもよい。第１に、（作成者の）話し言葉があるセグメントは話し言葉がないセグメントから区別される。これは、最終的な映像において解説付きの映像が支配的になる（多数を占める）という前提に基づく。このような話し言葉を区別する処理を実装するためには、当業者には様々な既存の方法が知られており、例えば、一般的には、人間の話し言葉の音声帯域において検出されたエネルギーを閾値によって区別することに基づく。ヘッドマウント型のマイクロフォン（音声キャプチャーデバイス２０３）は、これらの方法の信頼性を向上させる。

一つもしくは複数の実施例において、第２レベルの音声解析は、指示語や、ユーザの活動の解説に関連付けられた他の語として識別される、予め定められた集合のキーワードを検出することである。自動的なキーワード特定は難しい課題だが、ヘッドマウント型のマイクロフォン（音声キャプチャーデバイス２０３）を用いればキーワード検出処理の精度は向上するし、ＡＳＲ（音声認識。Automated Speech Recognition）をデバイス所有者に適合させる、特定話者モデリングの採用によっても、キーワード検出処理の精度は向上する。

一つもしくは複数の実施例において、録音された音声コンテンツ中において検出されるべきキーワードの集合は、ハウツーの、および、チュートリアルのコンテンツと関係するキーワードに対応する。これらは、「ステップ」という語や、通常の数字、処理の流れを示す語（「今」、「この後」、「そして」、「の場合」）、指示語（「これ」、「あれ」、「そこ」）、や、さらに、遷移的な動詞（「廻す」、「置く」、「配置する」、「持って来る」など）を含む。

音声／映像のコンテンツをユーザがキャプチャーすることを支援し、そして、意図したものと実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知するための計算処理システム１００に関連して手の追跡を行う実施例を説明する。一つもしくは複数の実施例において、ヘッドマウント型の奥行き検知センサーは、計算処理システム１００がユーザの手の位置や動きを追跡するのを支援するための追加的な入力機能を提供するために用いられる。一つもしくは複数の実施例において、手の追跡装置は、奥行きセンサーによってキャプチャーされた奥行き情報付き画像のストリームを、計算処理システム１００によって用いられる追跡情報に変換し、そして、上述のようにユーザへのフィードバック通知を生成する。

一つもしくは複数の実施例において、手の追跡装置から提供される手の追跡情報は、手の重心の位置、手の左右、および、指先の位置の情報を含む。位置の情報は、画像のＸおよびＹ座標とも、奥行きの値を有してよい。図８は、手の追跡方法８００の実施例における例示的な処理シーケンスを示す。まずステップ８０１において、奥行き検知カメラを用いて一つもしくは複数の奥行き情報付き画像が取得される。奥行き情報付き画像は、従来の画像の色彩情報に加えて、またはこれに代えて、画像キャプチャーのためのカメラから場面のオブジェクトの表面までの距離の情報を含む。

ステップ８０２において、奥行き検知機能付きカメラから予め定められた距離以内の画像オブジェクトを選択するために、予め定められた距離の閾値が、奥行き情報付き画像に適用される。ステップ８０３において、その閾値が適用された奥行き情報付き画像に対し、ガウシアン滲み変換（Gaussian blur transformation）を適用することで、画像のノイズおよび画像の詳細部分を減衰させる。ステップ８０４にて、バイナリの閾値が適用される。ステップ８０５にて、このシステムは、画像中から手の輪郭を探す。ステップ８０６において画像中に手の輪郭が発見できないと判断された場合には、プロセス８００は、ステップ８０７に示すように、追跡データが得られなかった旨を示す出力とともに処理を終了する。

画像に手の輪郭が含まれるとステップ８０６において判断された場合には、左手であるか右手であるかがステップ８０８においてマークされる。ステップ８０９において、このシステムは、輪郭のデータが閾値よりも小さいかどうかを判断する。輪郭のデータが閾値よりも小さい場合、ステップ８０７に示すように、追跡データが利用可能でない旨を示す出力と共にプロセス８００を終える。そうでない場合は、処理はステップ８１０に進み、指先の位置が見積もられる。その後、ステップ８１１において、先の処理で判断された手の輪郭の中から手の重心がマークされる。最後に、手の追跡データがステップ８１２において出力される。

当業者には明らかであろうが、図８に示すこの方法８００は、２つの特定の問題を解決しようとするものである。
（１）与えられた手の輪郭が、ユーザの右手に属すのか左手に属すのかを判断する。この判断方法は、手のひらのうち画像の右半分に位置する部分と左半分に位置する部分の領域の比率に基づく。この方法の処理シーケンスの例は図９に示される。

（２）輪郭のｋ曲率の解析に基づいて指先の位置を判断する。（例えば、非特許文献１を参照。）この方法は、指先についての複数の候補を生成することができるので、指先の位置の候補のグループは非特許文献２に記載のアルゴリズムと類似の方法によってクラスタリングされ、一貫性のある結果を得られるようにしてもよい。この方法の例示的な処理シーケンスは図１０に示される。

図９は、図８のプロセス８００におけるステップ８０８において用いられる、手の左右を判断する方法９００の処理シーケンスを示す。具体的には、ステップ９０１において、奥行き情報付き画像が奥行き検知カメラを用いて取得される。ステップ９０２において、奥行き情報付き画像の幅が計算される。ステップ９０３において、手の輪郭が、例えば、図８のプロセス８００のステップ８０５の処理により取得される。ステップ９０４において、手の輪郭のために、四角形の囲みが生成される。ステップ９０５において、四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きいか判断される。四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きい場合、処理はステップ９０６に進む。四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きくない場合、ステップ９０９に示すように、プロセス１０００は、手の輪郭は左手に対応するという判断をする。

ステップ９０６において、このシステムは、四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きいか判断する。四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きい場合、プロセス１０００は、ステップ９０８に示すように、手の輪郭が右手に属すると判断する。四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きくない場合、ステップ９０７に処理が移され、そこで、四角の囲みのうちの左側の領域が右側の領域よりも小さいかどうかが判断される。四角の囲みのうちの左側の領域が右側の領域よりも小さい場合、プロセス１０００は、ステップ９０８に示すように、手の輪郭は右手に対応していると判断する。四角の囲みのうちの左側の領域が右側の領域よりも小さくない場合、プロセス１０００は、ステップ９０９に示すように、手の輪郭は左手に対応すると判断する。そしてプロセス９００は終了する。

図１０は、凸面検出およびｋ曲率に基づいて指先を検出する方法１０００の例示的な処理シーケンスを示す。具体的には、ステップ１００１において、手の輪郭は、例えば、図８のプロセス８００のステップ８０５から取得される。ステップ１００２において、当業者によく知られた技術を用いて、凸型の外郭が判別される。ステップ１００３において、凸部欠損が計算される。ステップ１００４において、それぞれの凸部欠損のためにｋ曲率の値が計算される。ステップ１００５において、計算されたｋ曲率の値が、予め定められた閾値と比較される。もしｋ曲率の値が予め定められた閾値の値よりも小さいならば、ステップ１００６に示すように、その指先の位置が候補として加えられる。そうでなければ、ステップ１００７に示すように、この指先の位置は指先の位置としては拒絶され、そして、処理はステップ１００８に移る。ステップ１００８において、指先の位置の候補の集合が取得される。ステップ１００９において、指先の位置の候補として取得された集合が空集合かどうかが判断される。もしそうなら、プロセス１０００は、ステップ１０１３に示すように、指先が検出されなかった旨を示す出力とともに終了する。そうでなければ、ステップ１０１０において等価クラスタリングが実行される。続いて、ステップ１０１１において、等価クラスの重心が判断される。最後に、ステップ１０１２において、指先の位置が出力され、プロセス１０００は終了する。

図１１は、手の追跡処理のシーケンス８００における異なる各段階における手の追跡処理の例示的な出力を示す。具体的には、出力の例１１０１は、閾値による選別処理（プロセス８００のステップ８０２）の後の奥行き情報付き画像を示す。左手と右手にそれぞれ対応する明確な手の輪郭１１０２および１１０３が現れているのが分かる。出力１１０４の例は、輪郭を検出する処理、および、指先の候補を判断する処理の後の画像に対応している。出力１１０４からわかるように、このシステムは、引き続き行われるクラスタリングの段階で必要とされる、幾つかの位置に指先の複数の候補１１０５を割り当てることができる。最後に、出力１１０６の例は、検出された指先の位置１１０７、手の重心１１０８、および、右手か左手かを示す情報を伴う、プロセス８００の最終出力を示している。

音声／映像のコンテンツをユーザがキャプチャーするのを支援し、そして、意図したものと実際にキャプチャーされたコンテンツがおそらく異なることをユーザに知らせる、計算処理システム１００の背景において、ここで述べた手の追跡方法８００が、様々な目的に用いられてよいことが分かるであろう。例えば、撮影された映像に手が含まれるかどうかを判断する、または、例えば、撮影の制御のためのジェスチャーに基づくユーザ・インターフェイスを実現する、などの目的に用いられてよい。ここで述べた手の追跡方法８００を用いて認識されるジェスチャーは、例えば、映像を撮影している視野の中でのピンチ／ズーム、興味ある領域のマーキング、興味ある時点のマーキングなどを含むが（例えば、ジェスチャーによりブックマークをつける）、これらに限定されない。様々な実施例において、マークは、標準のブックマーク、アノテーション、あるいは、信号を含み、これらにより、ビデオの特定のセクションを取り除き、あるいは、音声の特定のセクションを再録音してもよい。様々な実施例において、この手の追跡方法８００を用いて認識されたジェスチャーは、停止、撮影、録音、一時停止など、基本的な撮影の制御を実現してもよい。

これに加えて、方法８００は、遠隔のオブジェクトを指し示しやすくするために用いられてもよい。例えば、スマートオブジェクトや、大きなディスプレイの壁や、ヘッドマウント型のディスプレイを装着した他のユーザなどを指し示すために用いられてよい。更に他の応用としては、手話を習得したり、楽器を修得するための支援を提供したり（例えば、正しい姿勢に関するフィードバックを提供する）、スポーツの活動のフィードバックを提供したり（例えば、ゴールを守ったりシュートをするときの正しい手の位置のフィードバックを提供する）してもよい。当業者には理解されようが、上述の手の追跡方法８００の応用は、これらに限定されず、方法８００の他の様々な実施化が同様に可能である。

図１２は、音声／映像のコンテンツをユーザがキャプチャーするのを支援し、意図したコンテンツと実際にキャプチャーされるコンテンツの間におそらく生じている不整合をユーザに通知する、計算処理システム１００の実施例を示す。一つもしくは複数の実施例において、計算処理システム１００の全体またはその一部は、当業者にはよく知られたデスクトップ型のフォームファクタに基いて実装されてもよい。これに代えて、計算処理システム１００の全体またはその一部は、ラップトップもしくはノートブック・コンピュータに基づいて実装されてもよい。代替的な実施例において、計算処理システム１００は、所定の専用機能を有する電子装置に組み込まれた埋め込みシステムでよい。代替的な実施例において、計算処理システム１００は、当業者によく知られている拡張現実ヘッド−マウント・ディスプレイ（ＨＭＤ）・システムの一部として実装されてもよい。

計算処理システム１００はデータ・バス１２０４あるいは計算処理システム１００の様々なハードウェアの間で情報を伝達するためのその他の相互接続機構もしくは通信機構を含むことができる。中央処理ユニット（ＣＰＵあるいは単にプロセッサ）１２０１はデータ・バス１２０４に接続され、情報を処理し、その他の計算処理タスク及び制御タスクを実行する。計算処理システム１００は、ランダム・アクセス・メモリ（ＲＡＭ）もしくはその他の動的記憶装置などのメモリ１２１２を含む。メモリ１２１２は、データ・バス１２０４に接続され、様々な情報及びプロセッサ１２０１によって実行される指示を記憶する。メモリ１２１２は、磁気ディスク、光ディスク、半導体フラッシュ・メモリ・デバイス、もしくは、その他の不揮発性記憶デバイスなどの永久記憶装置を含んでいてもよい。

一つもしくは複数の実施例において、プロセッサ１２０１によって指示を実行する間、一時的な変数もしくはその他の中間的な情報を記憶するために、メモリ１２１２が使用されてもよい。計算処理システム１００は、さらに、リード・オンリー・メモリ（ＲＯＭもしくはＥＰＲＯＭ）１２０２もしくはその他の半導体記憶装置を含んでもよいが、含むか否かは任意である。リード・オンリー・メモリ（ＲＯＭもしくはＥＰＲＯＭ）１２０２もしくはその他の半導体記憶装置は、データ・バス１２０４に接続され、計算処理システム１００の操作に必要なファームウェア、ＢＩＯＳ(basic input-output system)、計算処理システム１００の様々な構成パラメータなどの静的情報及びプロセッサ１２０１への指示を記憶する。

一つもしくは複数の実施例において、計算処理システム１００は、ディスプレイ２０４を備えていてもよく、ディスプレイ２０４は、データ・バス１２０４に接続され、計算処理システム１００のユーザに様々な情報を、例えば、図３のユーザ・インターフェイス３００を表示する。代替的な実施例において、ディスプレイ２０４は、（図示しない）グラフィック・コントローラ及び／もしくはグラフィック・プロセッサと関連付けられていてもよい。ディスプレイ２０４は、例えば、当業者にはよく知られているＴＦＴ(thin-film transistor)技術もしくは有機ＬＥＤ(organic light emitting diode)技術を用いたＬＣＤ(liquid crystal display)として実装されていてもよい。異なる実施例において、ディスプレイ２０４は、計算処理システム１００のその他の構成要素と同じ一般的な筐体に含まれていてもよい。代替的な実施例において、ディスプレイ２０４はそのような筐体の外側に配置されていてもよい。

一つもしくは複数の実施例において、ディスプレイ２０４は、ユーザが装着している眼鏡のような様々なオブジェクトに情報を投影するプロジェクタもしくは、ユーザ・インターフェイス３００のような情報を、ユーザに見える表示面、例えば半透過材料で作られた眼鏡のレンズに投影するためのミニ−プロジェクタ１２０３の形態で実装されていてもよい。一つもしくは複数の実施例において、ディスプレイ２０４はユーザの頭部に装着されてもよい。

一つもしくは複数の実施例において、計算処理システム１００はデータ・バス１２０４に接続されている音声再生装置１２２５をさらに備えていてもよい。この場合、計算処理システム１００は、（図示しない）波形プロセッサ（すなわち、音声プロセッサ）もしくは同様の装置を備えていてもよい。

一つもしくは複数の実施例において、計算処理システム１００は、指示をプロセッサ１２０１に送り、コマンドの選択指示をプロセッサ１２０１に送り、また、ディスプレイ２０４上のカーソルを制御するために、ユーザの視線を追跡するデバイス１２１０などの、一つもしくは複数の入力デバイスを有してよい。この入力デバイスは、典型的には、平面上の位置を特定するために、第１の軸（例えばｘ）および第２の軸（例えばｙ）という２つの軸における２つの自由度を有してよい。計算処理システム１００は、さらに、データ・バス１２０４に接続された、様々なオブジェクトの静止画または映像をキャプチャーするためのカメラ２０２だけでなく、オブジェクトの奥行き情報付き画像を撮影するための奥行き検知機能付きカメラ１２０６を有してよい。奥行き検知機能付きカメラ１２０６によって撮影された奥行き情報付き画像は、上記技術に従ってユーザの手を追跡するために用いられてよい。

一つもしくは複数の実施例において、計算処理システム１００は、データ・バス１２０４に接続されているネットワーク・インターフェイス１２０５などの通信インターフェイスをさらに備えていてもよい。ネットワーク・インターフェイス１２０５は、ＷｉＦｉアダプタ１２０７、ＧＳＭ（登録商標）／ＣＤＭＡ（携帯電話ネットワーク）アダプタ１２０８、および、ローカルエリアネットワーク（ＬＡＮ）アダプタ１２０９の少なくとも一つを用いて、計算処理システム１００とインターネット１２２４との間での通信を確立することができる。ＷｉＦｉアダプタ１２０７は、当業者にはよく知られている８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ及び／もしくは８０２．１１ｎ、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコルに従って動作することができる。ローカルエリアネットワークアダプタ１２０９は、統合デジタルサービス網（ＩＳＤＮ）カードあるいはモデムであってよく、これにより、インターネットサービスプロバイダのハードウェア（不図示）を用いてインターネット１２２４に接続する、電話回線とのデータ通信を確立する。他の例として、ローカルエリアネットワークアダプタ１２０９は、ローカルエリアネットワークのインターフェイス／カード（ＬＡＮＮＩＣ）であってよく、これにより、インターネット１２２４と互換性を有する通信を提供してよい。ある実施例において、ＷｉＦｉアダプタ１２０７、ＧＳＭ（登録商標）／ＣＤＭＡ（携帯電話ネットワーク）アダプタ１２０８、および、ローカルエリアネットワーク（ＬＡＮ）アダプタ１２０９は、様々なタイプのデジタルデータストリームを伝送するための電子的または電磁的な信号を送受信する。

一つもしくは複数の実施例において、一般的に、インターネット１２２４は、一つもしくは複数のサブ−ネットワークを介して、その他のネットワーク資源へのデータ通信を提供する。したがって、計算処理システム１００は、遠隔メディア・サーバ、ウェブ・サーバ、その他のコンテンツ・サービス、その他のネットワーク・データ・ストレージ資源などの、インターネット１２２４のいずれかの位置に置かれている様々なネットワーク資源にアクセスすることができる。一つもしくは複数の実施例において、計算処理システム１００はメッセージ、メディア、及び、アプリケーション・プログラム・コードを含むその他のデータを、ネットワーク・インターフェイス１２０５によって、インターネット１２２４を含む様々なネットワークを介して、送受信する。例示的なインターネットにおいて、計算処理システム１００がネットワーク・クライアントとして動作する場合、計算処理システム１００上で稼働しているアプリケーション・プログラムのコードもしくはデータを計算処理システム１００は要求することができる。同様に、計算処理システム１００は、その他のネットワーク資源へ様々なデータもしくは計算処理コードを送信することができる。

一つもしくは複数の実施例において、ここで記述される機能は、メモリ１２１２に含まれる一つもしくは複数の指示の一つもしくは複数のシーケンスを実行するプロセッサ１２０１に応じて、計算処理システム１００によって実装される。指示は、他のコンピュータ読取可能媒体からメモリ１２１２に読み込まれてもよい。メモリ１２１２に含まれている指示のシーケンスを実行することによって、ここで記述されている様々な処理のステップがプロセッサ１２０１によって実行される。代替的な実施例において、本発明の実施例を実装するために、ソフトウェアの指示に代えて、もしくは、ソフトウェアの指示と組み合わせて、ハードウェアによって実現されている回路が使用されてもよい。すなわち、本発明の実施例は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されるものではない。

ここで使用される用語「コンピュータ読取可能媒体」は、プロセッサ１２０１へ実行するための指示を提供する際に関与する任意の媒体であってよい。コンピュータ読取可能媒体は、機械読取可能媒体の単なる一例であり、ここで記述される方法及び／もしくは技術の何れかを実装するための指示を搬送することができる。このような媒体は、不揮発媒体、揮発媒体などを含むが、これらに限定されない、多くの形態を採ることができる。

非一時コンピュータ読取可能媒体の一般的な形態は、例えば、フロッピー（登録商標）・ディスク、フレキシブル・ディスク、ハード・ディスク、磁気テープ、もしくは、任意のその他の磁気媒体、ＣＤ−ＲＯＭ、任意のその他の光媒体、パンチカード、紙テープ、孔パターンを有する任意のその他の物理的な媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、フラッシュ・ドライブ、メモリ・カード、任意のその他のメモリ・チップ、もしくはカートリッジ、もしくは、コンピュータがそこから読み取ることができる任意のその他の媒体を含む。コンピュータ読取可能媒体の様々な形態は、プロセッサ１２０１への、一つもしくは複数の実行する指示の一つもしくは複数のシーケンスの搬送に関連してもよい。例えば、指示は、遠隔コンピュータから磁気ディスクにまず搬送されてもよい。代替的に、遠隔コンピュータは、遠隔コンピュータのダイナミック・メモリに指示をロードし、インターネット１２２４によって指示を送信してもよい。詳細には、コンピュータの指示は、当業者にはよく知られている様々なネットワーク・データ通信プロトコルを用いて、インターネット１２２４を介して、遠隔コンピュータから計算処理システム１００のメモリ１２１２へ、ダウンロードされてもよい。

一つもしくは複数の実施例において、計算処理システム２００のメモリ２１２は、以下のソフトウェア・プログラム、アプリケーション、もしくは、モジュールのいずれかを記憶してもよい。
１．オペレーティング・システム（ＯＳ）１２１３。オペレーティング・システム（ＯＳ）１２１３は、基本システム・サービスを実装し、計算処理システム１００の様々なハードウェア構成要素を管理する。オペレーティング・システム１２１３の実施例は、当業者によく知られており、既存の、または今後開発される、サーバ、デスクトップもしくは携帯型装置用オペレーティング・システムであってよい。

２．アプリケーション１２１４は、例えば、計算処理システム１００のプロセッサ１２０１によって実行される一連のソフトウェアを含んでよく、これによって、計算処理システム１００は、予め定められたある処理、例えば、ユーザ・インターフェイス３００をディスプレイ２０４に表示したり、カメラ２０２を用いてユーザの手の存在を検出したりする処理を行ってよい。一つもしくは複数の実施例において、アプリケーション１２１４は、以下に詳しく説明する、本実施例にかかるビデオ（映像）キャプチャーアプリケーション１２１５を有してよい。
３．データストレージ１２２２は、例えば、キャプチャーされた映像コンテンツのストレージを有し、カメラ２０２を用いて撮影された映像のコンテンツを格納してもよい。

一つもしくは複数の実施例において、本実施例にかかる映像キャプチャーアプリケーション１２１５は、ディスプレイ２０４及び／又はプロジェクタ１２０３を用いて、ここで述べたフィードバックの通知を含むユーザ・インターフェイス３００を生成するユーザ・インターフェイス生成モジュール１２１６を含んでよい。本実施例にかかる映像キャプチャーアプリケーション１２１５は、映像キャプチャーモジュール１２１７を更に有し、カメラ２０２にユーザの活動の映像をキャプチャーさせてもよい。さらには、カメラ２０２によって撮影された映像を処理してその映像中にユーザの手を検出するための、映像処理モジュール１２１８を有してもよい。１又は複数の実施例において、本実施例にかかる映像キャプチャーアプリケーション１２１５は、音声キャプチャーデバイス２０３にユーザの活動に関連する音声をキャプチャーさせるための、音声キャプチャーモジュール１２１９を有してよく、さらには、上述の技術に従ってキャプチャーした音声を処理するための音声処理モジュール１２２０を有してよい。

フィードバック生成モジュール１２２１は、キャプチャーした映像中に検出した手、検出したユーザの話し言葉、および／またはキャプチャーした音声中でオブジェクトを指し示す具体的な指示語に基づいて、ユーザに対しフィードバックを生成するために提供される。生成されたフィードバックは、ディスプレイ・デバイス２０４、プロジェクタ１２０３、および／または音声再生デバイス１２２５を用いてユーザに提供される。

最後に、ここで記述される処理及び技術は特定の装置の何れかに固有に関連するものではなく、適切に組み合わせられた構成要素の何れかによって実装されてもよいことが理解されるべきである。さらに、様々な種類の汎用目的装置がここに記述される技術に従って使用されてもよい。ここに記述される方法ステップを実行するために専用装置を構築することは有利であるかもしれない。本発明は、特定の例示に関連して記述されているが、この記述は、限定ではなく、例示を意図している。多くの異なるハードウェア、ソフトウェア及びファームウェアの組み合わせが本発明を実行するために適切であることは、当業者には明らかである。例えば、記述されるソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ−Ｃ、ｐｅｒｌ、ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、現在知られているもしくは今後開発されるプログラミング言語もしくはスクリプト言語の何れかなどの様々なプログラミング言語もしくは記述言語によって実装されてもよい。

さらに、ここに記述された詳細及び実行を考慮すれば、本発明のその他の実装が当業者には明らかであろう。記述された実装の様々な態様及び／もしくは構成要素は、音声／映像のコンテンツをユーザがキャプチャーするのを支援し、そして、意図したものと実際のキャプチャーされたコンテンツとの間におそらく生じている不整合をユーザに通知するシステム及び方法を個別に、もしくは、任意に組み合わせて使用することができる。詳細及び例は例示としてのみ考慮されることを意図し、本発明の真の範囲及び思想は特許請求の範囲の記載によって示される。

１００計算処理システム
２０２カメラ
２０４ディスプレイ

Claims

ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得する手段と、
取得された前記映像の中に含まれるユーザの手の数を判断する手段と、
ユーザの前記活動に関連する音声を、前記映像に同期して取得する手段と、
前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う手段と、
を備えるシステム。
取得した前記音声に音声認識処理を行う手段を更に備え、
認識された音声中に指示語が含まれていることを更に条件として、ユーザに対して前記フィードバックを行う、請求項１に記載のシステム。
前記フィードバックは、前記認識された音声中に含まれる指示語の数、及び、前記判断されたユーザの手の数の少なくとも一方によって異なる、請求項２に記載のシステム。
前記フィードバックは、ユーザの手が取得した前記映像の中に含まれていない旨を含む、請求項１〜３のいずれか１項に記載のシステム。
前記ユーザの手が取得した前記映像に含まれていない場合に、前記フィードバックは、前記映像中に最後に現れた手の位置を含む、請求項４に記載のシステム。
コンピュータが、
ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、
取得された前記映像の中に含まれるユーザの手の数を判断し、
ユーザの前記活動に関連する音声を、前記映像に同期して取得し、
前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う、
方法。
コンピュータに、
ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、
取得された前記映像の中に含まれるユーザの手の数を判断し、
ユーザの前記活動に関連する音声を、前記映像に同期して取得し、
前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う、
ことを実行させるためのプログラム。