JP6323202B2 - 映像を取得するシステム、方法及びプログラム - Google Patents

映像を取得するシステム、方法及びプログラム Download PDF

Info

Publication number
JP6323202B2
JP6323202B2 JP2014127336A JP2014127336A JP6323202B2 JP 6323202 B2 JP6323202 B2 JP 6323202B2 JP 2014127336 A JP2014127336 A JP 2014127336A JP 2014127336 A JP2014127336 A JP 2014127336A JP 6323202 B2 JP6323202 B2 JP 6323202B2
Authority
JP
Japan
Prior art keywords
user
video
hand
audio
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014127336A
Other languages
English (en)
Other versions
JP2015179490A (ja
Inventor
メケラエ ビレ
メケラエ ビレ
カーター スコット
カーター スコット
クーパー マシュー
クーパー マシュー
ラグバー ビカッシュ
ラグバー ビカッシュ
ローラン ドゥヌ
ドゥヌ ローラン
スベン クラッツ
スベン クラッツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2015179490A publication Critical patent/JP2015179490A/ja
Application granted granted Critical
Publication of JP6323202B2 publication Critical patent/JP6323202B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0179Display position adjusting means not related to the information to be displayed
    • G02B2027/0187Display position adjusting means not related to the information to be displayed slaved to motion of at least a part of the body of the user, e.g. head, eye

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像を取得するシステム、方法及びプログラムに関し、詳細には、ヘッドアップ型のカメラなどを用いた撮影における撮影者の意図と映像の不整合を通知などするシステム、方法及びプログラムに関する。
ヘッドアップ型のカメラやディスプレイが知られている。
トリゴー(Trigo)ら、「手のジェスチャ分類のための特徴の分析(An Analysis of Features for Hand-Gesture Classification)」、信号及び画像処理予稿集(17th International Conference on Systems, Signals and Image Processing (IWSSIP 2010))、2010年 エスター(Ester)ら、「ノイズのある大規模空間データにおいてクラスタを発見するための、密度に基づくアルゴリズム(A density-based algorithm for discovering clusters in large spatial databases with noise)」、1996年
ヘッドアップ型のカメラを用いて撮影をする場合には、撮影の対象となる活動に集中するあまり、撮影しようとする映像と実際に撮影する映像の間に不整合が生じる場合がある。
本発明の第1の態様は、システムであって、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得する手段と、取得された前記映像の中に含まれるユーザの手の数を判断する手段と、ユーザの前記活動に関連する音声を、前記映像に同期して取得する手段と、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う手段と、を備える。
本発明の第2の態様は、第1の態様のシステムであって、取得した前記音声に音声認識処理を行う手段を更に備え、認識された音声中に指示語が含まれていることを更に条件として、ユーザに対して前記フィードバックを行う。
本発明の第3の態様は、第1の態様のシステムであって、前記フィードバックは、前記認識された音声中に含まれる指示語の数、及び、前記判断されたユーザの手の数の少なくとも一方によって異なる。
本発明の第4の態様は、第1の態様のシステムであって、前記フィードバックは、ユーザの手が取得した前記映像の中に含まれていない旨を含む。
本発明の第5の態様は、第4の態様のシステムであって、前記ユーザの手が取得した前記映像に含まれていない場合に、前記フィードバックは、前記映像中に最後に現れた手の位置を含む。
本発明の第6の態様は、方法であって、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、取得された前記映像の中に含まれるユーザの手の数をコンピュータによって判断し、ユーザの前記活動に関連する音声を、前記映像に同期して取得し、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してコンピュータによりフィードバックを行う。
本発明の第7の態様は、プログラムであって、コンピュータに、ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、取得された前記映像の中に含まれるユーザの手の数を判断し、ユーザの前記活動に関連する音声を、前記映像に同期して取得し、前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行うことを実行させる。
本発明の構成を備えない場合と比較して、ユーザが意図した映像をキャプチャーできる。
ユーザが音声/映像のコンテンツをキャプチャーし、そして、意図したコンテンツと実際にキャプチャーされたコンテンツの間におそらく不整合があることをユーザに知らせるための、計算処理システムの実施例を示す。 音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイスの実施例を示す。 音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイスにおいて、ヘッドアップ型ディスプレイに表示されるユーザ・インターフェイスの実施例を示す。 ユーザの視野を示す実施例である。 ユーザによる音声/映像のコンテンツのキャプチャーを支援し、そして、意図したコンテンツおよび実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知する計算処理システムの例示的な処理シーケンスを示す。 ヘッドアップ型のディスプレイを用いてユーザに表示されるグラフィカル・ユーザ・インターフェイスのスクリーンショットの例を示す。 各場面におけるシステムによるフィードバックの例を示す。 手を追跡する方法の実施例を示す処理シーケンスの例を示す。 手の左右を判断する処理の例示的な処理シーケンスを示す。 凸面検出およびk曲率に基づいて指先を検出する方法の例示的な処理シーケンスを示す。 処理シーケンスの異なる各段階における手の追跡処理の例示的な出力を示す。 音声/映像のコンテンツをユーザがキャプチャーするのを支援し、意図したコンテンツと実際にキャプチャーされるコンテンツの間におそらく生じている不整合をユーザに通知する、計算処理システムの実施例を示す。
以下の詳細な記述において、添付の図面を参照する。添付の図面において、同様の機能を有する構成要素は同様の参照符号を付されている。添付の図面は例示のためのものであり、限定を意図するものではない。特定の実施例及び実装は本発明の原理と矛盾しない。これらの実装は当業者が実施できる程度に十分詳細に記述される。その他の実装が使用されてもよく、様々な構成要素の構造の変更及び/もしくは置き換えが本発明の範囲及び思想から逸脱することなく可能であることは理解されるだろう。したがって、以下の詳細な記述は、限定的に解釈されるべきではない。さらに、記述される本発明の様々な実施例は、汎用計算機上で稼働するソフトウェアの形態によっても、専用ハードウェアの形態によっても、ソフトウェア及びハードウェアの組み合わせによっても、実装可能である。
「関連技術の説明」
ヘッドアップ型のディスプレイで映像を撮影するのは簡単そうに見えるかもしれない。それは、ユーザは目の真上に位置するカメラが、ユーザが見ているもの全てを単に撮影していると勘違いしがちだからである。しかし、これは事実でないことが多い。それは、カメラは人間の目と比べて視野が狭いからである。さらに、カメラは微妙に違った方向を向いていることもよくあり、ユーザが視野の中心に捉えているオブジェクトが、カメラの視野の端に現れたり、あるいは視野から外れてしまったりすることもある。
したがって、説明のためのビデオを高い品質で撮影するために、ユーザはカメラの視野を定期的に確認し、それに応じて調整することを忘れてはならない。残念ながら、これにより、ユーザが、撮影されている実際の作業に集中することが難しくなる。実際に、ヘッドアップ型のディスプレイでハウツー型のコンテンツを撮影する場合に、ユーザは撮影される領域から注意をそらしてしまうことはよくある。これは、ユーザが、作業に没頭してしまい、頭部が撮影している作業に向いているか確認するのを忘れてしまうときに起こる。
したがって、説明のためのビデオをヘッドアップ型のディスプレイで撮影する際に、意図するコンテンツと実際にキャプチャーされるコンテンツの間の不整合をユーザに知らせるシステム及び方法があると好都合だろう。
ヘッドアップシステムを用いて説明のためのコンテンツをキャプチャーするときには、ユーザが撮影しようとする活動にユーザの手が関わることがよくあることが観測されている。このことは、テーブル上で行われる活動については特に正しい。この観測に基づき、ユーザの手がカメラの視野に現れないときには何か重要な活動が映像中に欠けているという仮定を置き、ここで述べる自動化システムはこの仮定に基づいて動作する。
このように、ここで述べる実施例の一つもしくは複数の側面によれば、ヘッドアップ型の映像キャプチャーシステムは、ユーザの手の位置を追跡する深さ検出カメラを更に備え、そして、映像または音声による通知という形でユーザに対しフィードバックを提供する。一つもしくは複数の実施例において、この通知の強さは、撮影時に検出され得る他の特徴に依存してもよい。特に、音声解析エンジンが、コンテンツのキャプチャー中にユーザの音声を解析するために提供されてもよく、予め定められた特定領域の用語(例えば「これ」、「あれ」、「置く」、「配置する」、「動かす」)を用いてオブジェクトを音声によって参照したのはどの時点であるのかを検出してもよい。このシステムが、手が現れていないこととそのような指示的な用語が使われていることの双方を検出した場合には、単にカメラの視野から手が欠けていることだけが検出された場合に比べて、より目立ち注意を引くような通知をユーザに与えてもよい。
図1は、ユーザが音声/映像のコンテンツをキャプチャーし、そして、意図したコンテンツと実際にキャプチャーされたコンテンツとの間におそらく不整合があることをユーザに知らせるための、計算処理システムの実施例を示す。計算処理システム100は、さまざまなタイプの音声/映像コンテンツをキャプチャーするために用いられてよい。音声/映像コンテンツは、例えば、装置や他の物品101に関連した使用法のチュートリアルのような説明のためのビデオを含む。計算処理システム100は、音声/映像キャプチャー及びヘッドアップ型のディスプレイを統合したデバイス102を含み、それはユーザ103によって装着されている。一つもしくは複数の実施例において、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102は、当業者に良く知られたGoogle Glassなどの、拡張現実(augmented reality)のヘッドマウント・ディスプレイ(HMD)システムに基づいて実装されてもよい。
一つもしくは複数の実施例において、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102は、データリンクを介して、コンピュータシステム104に接続されている。コンピュータシステム104は、デバイス102に統合されていてもよいし、別個のスタンドアロン型コンピュータシステムとして実装されてもよい。音声/映像のコンテンツがユーザによりキャプチャーされている間に、音声/映像のキャプチャー及びヘッドアップ型のディスプレイを統合したデバイス102は、キャプチャーしたコンテンツ105をデータリンクを介してコンピュータシステム104に送る。一つもしくは複数の実施例において、データリンクは、既に知られた任意の無線プロトコル、例えばWIFIやBluetooth(登録商標)に従うものであってよいし、あるいは有線のデータリンクであってもよい。
コンピュータシステム104は、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102からキャプチャーされたコンテンツ105を受信し、そして、ここで述べられる技術に従ってそれを処理する。具体的には、キャプチャーされたコンテンツ105は、実際にキャプチャーされたコンテンツが、ユーザがキャプチャーしようとしたコンテンツと整合するかどうかをコンピュータシステム104が判断するために用いられる。不整合の場合には、警告メッセージ106がコンピュータシステム104により発せられ、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102に対しデータリンクを介して送られ、ユーザに表示される。コンピュータシステム104は、受信したキャプチャーされたコンテンツ105をコンテンツ・ストレージ107に格納し、その後の検索のために使えるようにしてもよい。コンテンツ・ストレージ107は、知られている、あるいは今後開発されるどのようなシステムに基づいて実装されても良い、例えば、データベース管理システム、ファイル格納システムのようなものであってよい。
図2は、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102の実施例を示す。この音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102は、フレーム201、ディスプレイ204、音声キャプチャー(録音)デバイス203、および、カメラ202を備える。一つもしくは複数の実施例において、カメラ202は、奥行きセンサーを有してもよい。一つもしくは複数の実施例において、音声キャプチャーデバイス203はマイクロフォンであってもよい。ヘッドアップ型のディスプレイ204は、カメラ202および音声キャプチャーデバイス(レコーダ)203を用いて現在録画されるコンテンツのプレビューを示し、そして、ユーザに対してリアルタイムにフィードバックを提供する。一つもしくは複数の実施例において、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102は、音声再生デバイス(不図示)を更の備え、ユーザに対し音声のフィードバックを、例えば、予め定められた音やメロディーを提供してもよい。
図3は、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102のヘッドアップ型のディスプレイ204に表示されるグラフィカル・ユーザ・インターフェイス300の実施例を示す。ユーザ・インターフェイス300は、カメラ202を用いて撮影される映像コンテンツのライブ映像を含む。図3に示す例において、ライブ映像は、装置または他の物品101を表示しているとともに、ユーザの手301の1つを示している。グラフィカル・ユーザ・インターフェイス300は、ユーザによって現在撮影されるコンテンツに関連したリアルタイムのフィードバックをユーザに対し提供する、一つもしくは複数の通知エレメント302をさらに含んでよい。示した例において、通知エレメント302は、スーパーインポーズされた番号「1」を有する手の形のアイコンであり、これにより、リアルタイムの映像コンテンツにおいて現在認識されているユーザの手の数が1つであることを示している。
一つもしくは複数の実施例において、計算処理システム100は、如何なる時点においても、その時点において撮影された映像コンテンツの中にいくつの手が認識されたのかに基づいて、補足的な視覚的フィードバックを自動的に生成してよい。この計算処理システム100は、認識した手をハイライトして表示し、手の数「1」を含むアイコン302を角(隅)に表示し、画面に手が現れたり画面から手が消えたりする時に音を再生してもよい。さらに、一つもしくは複数の実施例において、ユーザの音声によってフィードバックがさらに変更されてもよい。この目的のため、音声キャプチャーデバイス(レコーダ)203によって録音されたリアルタイムの音声を用いて音声認識が実行される。当業者には明らかであろうが、指示語を用いてオブジェクトを参照することは、一つもしくは複数の手が画面上に表れるべきであることを示唆する場合が多い。もしそうでない場合には、計算処理システム100は、ユーザに対しもっと気が付きやすいフィードバックを提供する。
図4は、ユーザの視点を示す例である。ヘッドアップ型のディスプレイ204は、ユーザの視野の右上の角に表れるリアルタイムのフィードバックをユーザに提供する。これに加えて、ユーザの視点400は、装置や他の物品101およびそのユーザの手の1つ301を含んでよい。
図5は、ユーザによる音声/映像のコンテンツのキャプチャーを支援し、そして、意図したコンテンツおよび実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知する計算処理システム100の例示的な処理シーケンスを示す。ステップ501において、計算処理システム100は、カメラ202を用いてライブ映像のコンテンツをリアルタイムに録画する。ステップ502において、下記に詳しく述べる技術に従って、録画された映像コンテンツについて手の認識処理が実行される。ステップ503において、録画されたビデオコンテンツに表れる手の数が、手認識手続き502の出力に基づいて判断される。ステップ504において、ライブ音声コンテンツが、音声キャプチャー(録音)デバイス(マイクロフォン)203を用いて録音される。ステップ505において、音声認識処理が、録音されたライブ音声コンテンツに対して実行される。ステップ506において、オブジェクトを指す指示語のタイプ及び数が、音声認識処理505の結果を用いて判断される。
一つもしくは複数の実施例において、ステップ501〜503および504〜506は並列に実行されてもよい。ステップ507において、ユーザへのフィードバックが、その撮影された映像コンテンツ内に検出された手の数、位置、および、録音された音声コンテンツ中に検出された指示語の数、タイプに基づいて生成される。最後に、ステップ508において、生成されたそのフィードバックが、ヘッドアップ型のディスプレイ204に表示されたグラフィカル・ユーザ・インターフェイスを用いてユーザに提供され、および/または、音声/映像のキャプチャーおよびヘッドアップ型のディスプレイを統合したデバイス102の音声再生デバイスを用いてユーザに提供される。
ある実施例において、ユーザの手はカメラ202を用いて録画された映像中の複数のフレームを用いて追跡されてもよい。当業者には明らかなように、単一のカメラから手の追跡機能を構築する、すでに利用可能な技術やツールキットが数多く存在する。これらのよく知られたどの技術も、キャプチャーされる映像コンテンツを用いてユーザの手を追跡するために用いることができる。他の実施例において、計算処理システム100は、ヘッドマウント型の奥行き検知カメラを用いて手の追跡を行ってもよい。上述の奥行き検知カメラは、カメラ202に代えてまたは加えて、図2のフレームと同一のフレーム201に装着されてもよい。このアプローチによれば、下記に詳しく述べる通り、手の輪郭、手の位置、および、指先の位置を、奥行き検知カメラから得られる奥行き情報付き画像のストリームに対しコンピュータ・ビジョン技術を適用することができる。奥行き検知カメラによって提供される奥行き情報があれば、手の追跡はカメラのみの入力を使う場合と比べてはるかに安定的に動作する。例えば、奥行き情報を追加することで、追跡システムは、手袋を装着した手や道具を握っている手をより正確に追跡できるであろう。
この音声および奥行き解析コンポーネントの結果があれば、ユーザに対する通知を生成する方法は複数存在する。ここで述べる一つもしくは複数の実施例において用いられる基本的な前提は、手や他のオブジェクトの動きが検出されるセグメントには、映像を効果的に言葉で解説する活動があるであろう、というものである。音声、指示語、または活動に特有のキーワードが、手や足のオブジェクトの動きを検出することなく検出された場合には、計算処理システム100は、活動がカメラの視野の外で行われているかもしれないという視覚的なヒントを提供してもよい。このケースは、図6および図7の場面705にあるような、グラフィカル・ユーザ・インターフェイスのスクリーンショット601および606の中で説明されている。
反対に、計算処理システム100が、一定の連続した映像の中で、音声は検出されないのに動作や手は検出された場合には、計算処理システム100は、音声アイコンによってユーザに通知する。この通知の背景のアイデアは、解説を促すか、あるいは、不要なコンテンツを誤ってキャプチャーしているかもしれないことをユーザに思い出させることである。このケースは、図6に示す、グラフィカル・ユーザ・インターフェイスのスクリーンショット605や、図7の場面702に説明されている。どちらのケースも、フィードバックの追加または代替として、音声という形での通知がユーザに行われてもよいことが分かる。
図6は、ヘッドアップ型のディスプレイ204を用いてユーザに表示するグラフィカル・インターフェイス300のスクリーンショットの例を示す。この例のグラフィカル・ユーザ・インターフェイスのスクリーンショット601において、どちらの手も認識されていないが、音声は検出されている。このため、右端の手の形のアイコンにスーパーインポーズされている数字は、認識されている手の数が「0」であることを示す。スクリーンショット602の例においては、手も話し言葉も検出されていない。したがって、「0」という数値がスーパーインポーズされた手が検出されていないことを示す手のアイコンに加えて、音声のアイコンが、ユーザ・インターフェイス300の左下の角に表示される。スクリーンショット603の例において、手が1つ画面に現れており、これは、「1」という数値がスーパーインポーズされた手のアイコンを用いて示されており、そして音声も検出されているので、これは音声のアイコンが表示されないことによって示されている。スクリーンショット604の例において、2つの手が画面に現れており、これは、「2」という番号がスーパーインポーズされた手のアイコンを用いて表されており、そして、音声も検出されており、これは、音声のアイコンが表示されないことによって表されている。スクリーンショット605の例において、2つの手が認識されており、これは、「2」という番号がスーパーインポーズされた手のアイコンを用いて表されているが、話し言葉は検出されていない。よって、音声のアイコンが左側に表示されている。最後に、スクリーンショット606において、画面からどちらの手も消えているが、音声は検出され続けており、これは、音声のアイコンがない事によって表されている。この状況において、手のアイコンはスーパーインポーズされた「0」という数値を有しており、これによって、撮影される映像には手が現れていないことを示している。一つもしくは複数の実施例において、矢印は、手が観測された最後の位置を示している。
図7は、システムが場面ごとに提供するフィードバックの例を示す。先述のスクリーンショット602に基本的に対応している場面701において、ユーザは撮影を開始し、そして、どちらの手も音声も検出されていない。したがって、「0」という番号がスーパーインポーズされた(手が検出されないことを示す)手のアイコンが表示されるとともに、音声のアイコンが表示される。場面702において、画面には手が1つ現れ、これは、「1」という番号がスーパーインポーズされた手のアイコンを用いて表され、そして、音声のアイコンによって音声が検出されていないことが示される。一つもしくは複数の実施例において、この場面においては、音声のアイコンが赤色などの目立つ色で表示されてよい。一方で、手のアイコンは、黄色などのそれほど目立たない色で表示されてよい。
場面703において、ユーザが話し始めると、画面に1つの手が現れ、これは、「1」という番号がスーパーインポーズされた手のアイコンを用いて表され、そして、音声も検出されているので、これは音声のアイコンがないことによって表される。場面704において、ユーザは話を続け、そして、画面に1つの手が現れ、これは、「1」という番号がスーパーインポーズされた手のアイコンを用いて表される。システムは、音声も検出するとともに、予め定められた指示語をユーザの話し言葉の中に認識している。したがって、音声のアイコンは表示されない。
場面705において、ユーザがそのユーザの手から頭をそらし、撮影される映像中には手が検出されなくなる。一方で、音声は検出され、そして、オブジェクトへの指示語は認識される。この状況において、システムは、手が検出されていないということを示すため、「0」という番号がスーパーインポーズされた手のアイコンを表示してもよい。音声は検出されているので、音声のアイコンは表示されない。一つもしくは複数の実施例において、この場面では、手のアイコンはより注意をひきやすい色、例えば赤色で表示されてもよい。
場面706において、ユーザは両手が撮影される映像に現れるように頭の向きを変える。音声も検出され続けている。この場面において、システムは、2つの手が認識されていることを示すため、「2」という番号がスーパーインポーズされた手のアイコンを表示する。音声が検出されているので、音声のアイコンは表示されていない。
一つもしくは複数の実施例において、音声録音デバイスによってユーザの話し言葉を音声解析する際に2つの粒度があってもよい。第1に、(作成者の)話し言葉があるセグメントは話し言葉がないセグメントから区別される。これは、最終的な映像において解説付きの映像が支配的になる(多数を占める)という前提に基づく。このような話し言葉を区別する処理を実装するためには、当業者には様々な既存の方法が知られており、例えば、一般的には、人間の話し言葉の音声帯域において検出されたエネルギーを閾値によって区別することに基づく。ヘッドマウント型のマイクロフォン(音声キャプチャーデバイス203)は、これらの方法の信頼性を向上させる。
一つもしくは複数の実施例において、第2レベルの音声解析は、指示語や、ユーザの活動の解説に関連付けられた他の語として識別される、予め定められた集合のキーワードを検出することである。自動的なキーワード特定は難しい課題だが、ヘッドマウント型のマイクロフォン(音声キャプチャーデバイス203)を用いればキーワード検出処理の精度は向上するし、ASR(音声認識。Automated Speech Recognition)をデバイス所有者に適合させる、特定話者モデリングの採用によっても、キーワード検出処理の精度は向上する。
一つもしくは複数の実施例において、録音された音声コンテンツ中において検出されるべきキーワードの集合は、ハウツーの、および、チュートリアルのコンテンツと関係するキーワードに対応する。これらは、「ステップ」という語や、通常の数字、処理の流れを示す語(「今」、「この後」、「そして」、「の場合」)、指示語(「これ」、「あれ」、「そこ」)、や、さらに、遷移的な動詞(「廻す」、「置く」、「配置する」、「持って来る」など)を含む。
音声/映像のコンテンツをユーザがキャプチャーすることを支援し、そして、意図したものと実際にキャプチャーされるコンテンツの間におそらく不整合があることをユーザに通知するための計算処理システム100に関連して手の追跡を行う実施例を説明する。一つもしくは複数の実施例において、ヘッドマウント型の奥行き検知センサーは、計算処理システム100がユーザの手の位置や動きを追跡するのを支援するための追加的な入力機能を提供するために用いられる。一つもしくは複数の実施例において、手の追跡装置は、奥行きセンサーによってキャプチャーされた奥行き情報付き画像のストリームを、計算処理システム100によって用いられる追跡情報に変換し、そして、上述のようにユーザへのフィードバック通知を生成する。
一つもしくは複数の実施例において、手の追跡装置から提供される手の追跡情報は、手の重心の位置、手の左右、および、指先の位置の情報を含む。位置の情報は、画像のXおよびY座標とも、奥行きの値を有してよい。図8は、手の追跡方法800の実施例における例示的な処理シーケンスを示す。まずステップ801において、奥行き検知カメラを用いて一つもしくは複数の奥行き情報付き画像が取得される。奥行き情報付き画像は、従来の画像の色彩情報に加えて、またはこれに代えて、画像キャプチャーのためのカメラから場面のオブジェクトの表面までの距離の情報を含む。
ステップ802において、奥行き検知機能付きカメラから予め定められた距離以内の画像オブジェクトを選択するために、予め定められた距離の閾値が、奥行き情報付き画像に適用される。ステップ803において、その閾値が適用された奥行き情報付き画像に対し、ガウシアン滲み変換(Gaussian blur transformation)を適用することで、画像のノイズおよび画像の詳細部分を減衰させる。ステップ804にて、バイナリの閾値が適用される。ステップ805にて、このシステムは、画像中から手の輪郭を探す。ステップ806において画像中に手の輪郭が発見できないと判断された場合には、プロセス800は、ステップ807に示すように、追跡データが得られなかった旨を示す出力とともに処理を終了する。
画像に手の輪郭が含まれるとステップ806において判断された場合には、左手であるか右手であるかがステップ808においてマークされる。ステップ809において、このシステムは、輪郭のデータが閾値よりも小さいかどうかを判断する。輪郭のデータが閾値よりも小さい場合、ステップ807に示すように、追跡データが利用可能でない旨を示す出力と共にプロセス800を終える。そうでない場合は、処理はステップ810に進み、指先の位置が見積もられる。その後、ステップ811において、先の処理で判断された手の輪郭の中から手の重心がマークされる。最後に、手の追跡データがステップ812において出力される。
当業者には明らかであろうが、図8に示すこの方法800は、2つの特定の問題を解決しようとするものである。
(1)与えられた手の輪郭が、ユーザの右手に属すのか左手に属すのかを判断する。この判断方法は、手のひらのうち画像の右半分に位置する部分と左半分に位置する部分の領域の比率に基づく。この方法の処理シーケンスの例は図9に示される。
(2)輪郭のk曲率の解析に基づいて指先の位置を判断する。(例えば、非特許文献1を参照。)この方法は、指先についての複数の候補を生成することができるので、指先の位置の候補のグループは非特許文献2に記載のアルゴリズムと類似の方法によってクラスタリングされ、一貫性のある結果を得られるようにしてもよい。この方法の例示的な処理シーケンスは図10に示される。
図9は、図8のプロセス800におけるステップ808において用いられる、手の左右を判断する方法900の処理シーケンスを示す。具体的には、ステップ901において、奥行き情報付き画像が奥行き検知カメラを用いて取得される。ステップ902において、奥行き情報付き画像の幅が計算される。ステップ903において、手の輪郭が、例えば、図8のプロセス800のステップ805の処理により取得される。ステップ904において、手の輪郭のために、四角形の囲みが生成される。ステップ905において、四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きいか判断される。四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きい場合、処理はステップ906に進む。四角形の囲みのうちの右側の囲みが、奥行き情報付き画像の幅の半分よりも大きくない場合、ステップ909に示すように、プロセス1000は、手の輪郭は左手に対応するという判断をする。
ステップ906において、このシステムは、四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きいか判断する。四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きい場合、プロセス1000は、ステップ908に示すように、手の輪郭が右手に属すると判断する。四角の囲みのうちの左側の囲みが、奥行き情報付き画像の幅の半分よりも大きくない場合、ステップ907に処理が移され、そこで、四角の囲みのうちの左側の領域が右側の領域よりも小さいかどうかが判断される。四角の囲みのうちの左側の領域が右側の領域よりも小さい場合、プロセス1000は、ステップ908に示すように、手の輪郭は右手に対応していると判断する。四角の囲みのうちの左側の領域が右側の領域よりも小さくない場合、プロセス1000は、ステップ909に示すように、手の輪郭は左手に対応すると判断する。そしてプロセス900は終了する。
図10は、凸面検出およびk曲率に基づいて指先を検出する方法1000の例示的な処理シーケンスを示す。具体的には、ステップ1001において、手の輪郭は、例えば、図8のプロセス800のステップ805から取得される。ステップ1002において、当業者によく知られた技術を用いて、凸型の外郭が判別される。ステップ1003において、凸部欠損が計算される。ステップ1004において、それぞれの凸部欠損のためにk曲率の値が計算される。ステップ1005において、計算されたk曲率の値が、予め定められた閾値と比較される。もしk曲率の値が予め定められた閾値の値よりも小さいならば、ステップ1006に示すように、その指先の位置が候補として加えられる。そうでなければ、ステップ1007に示すように、この指先の位置は指先の位置としては拒絶され、そして、処理はステップ1008に移る。ステップ1008において、指先の位置の候補の集合が取得される。ステップ1009において、指先の位置の候補として取得された集合が空集合かどうかが判断される。もしそうなら、プロセス1000は、ステップ1013に示すように、指先が検出されなかった旨を示す出力とともに終了する。そうでなければ、ステップ1010において等価クラスタリングが実行される。続いて、ステップ1011において、等価クラスの重心が判断される。最後に、ステップ1012において、指先の位置が出力され、プロセス1000は終了する。
図11は、手の追跡処理のシーケンス800における異なる各段階における手の追跡処理の例示的な出力を示す。具体的には、出力の例1101は、閾値による選別処理(プロセス800のステップ802)の後の奥行き情報付き画像を示す。左手と右手にそれぞれ対応する明確な手の輪郭1102および1103が現れているのが分かる。出力1104の例は、輪郭を検出する処理、および、指先の候補を判断する処理の後の画像に対応している。出力1104からわかるように、このシステムは、引き続き行われるクラスタリングの段階で必要とされる、幾つかの位置に指先の複数の候補1105を割り当てることができる。最後に、出力1106の例は、検出された指先の位置1107、手の重心1108、および、右手か左手かを示す情報を伴う、プロセス800の最終出力を示している。
音声/映像のコンテンツをユーザがキャプチャーするのを支援し、そして、意図したものと実際にキャプチャーされたコンテンツがおそらく異なることをユーザに知らせる、計算処理システム100の背景において、ここで述べた手の追跡方法800が、様々な目的に用いられてよいことが分かるであろう。例えば、撮影された映像に手が含まれるかどうかを判断する、または、例えば、撮影の制御のためのジェスチャーに基づくユーザ・インターフェイスを実現する、などの目的に用いられてよい。ここで述べた手の追跡方法800を用いて認識されるジェスチャーは、例えば、映像を撮影している視野の中でのピンチ/ズーム、興味ある領域のマーキング、興味ある時点のマーキングなどを含むが(例えば、ジェスチャーによりブックマークをつける)、これらに限定されない。様々な実施例において、マークは、標準のブックマーク、アノテーション、あるいは、信号を含み、これらにより、ビデオの特定のセクションを取り除き、あるいは、音声の特定のセクションを再録音してもよい。様々な実施例において、この手の追跡方法800を用いて認識されたジェスチャーは、停止、撮影、録音、一時停止など、基本的な撮影の制御を実現してもよい。
これに加えて、方法800は、遠隔のオブジェクトを指し示しやすくするために用いられてもよい。例えば、スマートオブジェクトや、大きなディスプレイの壁や、ヘッドマウント型のディスプレイを装着した他のユーザなどを指し示すために用いられてよい。更に他の応用としては、手話を習得したり、楽器を修得するための支援を提供したり(例えば、正しい姿勢に関するフィードバックを提供する)、スポーツの活動のフィードバックを提供したり(例えば、ゴールを守ったりシュートをするときの正しい手の位置のフィードバックを提供する)してもよい。当業者には理解されようが、上述の手の追跡方法800の応用は、これらに限定されず、方法800の他の様々な実施化が同様に可能である。
図12は、音声/映像のコンテンツをユーザがキャプチャーするのを支援し、意図したコンテンツと実際にキャプチャーされるコンテンツの間におそらく生じている不整合をユーザに通知する、計算処理システム100の実施例を示す。一つもしくは複数の実施例において、計算処理システム100の全体またはその一部は、当業者にはよく知られたデスクトップ型のフォームファクタに基いて実装されてもよい。これに代えて、計算処理システム100の全体またはその一部は、ラップトップもしくはノートブック・コンピュータに基づいて実装されてもよい。代替的な実施例において、計算処理システム100は、所定の専用機能を有する電子装置に組み込まれた埋め込みシステムでよい。代替的な実施例において、計算処理システム100は、当業者によく知られている拡張現実ヘッド−マウント・ディスプレイ(HMD)・システムの一部として実装されてもよい。
計算処理システム100はデータ・バス1204あるいは計算処理システム100の様々なハードウェアの間で情報を伝達するためのその他の相互接続機構もしくは通信機構を含むことができる。中央処理ユニット(CPUあるいは単にプロセッサ)1201はデータ・バス1204に接続され、情報を処理し、その他の計算処理タスク及び制御タスクを実行する。計算処理システム100は、ランダム・アクセス・メモリ(RAM)もしくはその他の動的記憶装置などのメモリ1212を含む。メモリ1212は、データ・バス1204に接続され、様々な情報及びプロセッサ1201によって実行される指示を記憶する。メモリ1212は、磁気ディスク、光ディスク、半導体フラッシュ・メモリ・デバイス、もしくは、その他の不揮発性記憶デバイスなどの永久記憶装置を含んでいてもよい。
一つもしくは複数の実施例において、プロセッサ1201によって指示を実行する間、一時的な変数もしくはその他の中間的な情報を記憶するために、メモリ1212が使用されてもよい。計算処理システム100は、さらに、リード・オンリー・メモリ(ROMもしくはEPROM)1202もしくはその他の半導体記憶装置を含んでもよいが、含むか否かは任意である。リード・オンリー・メモリ(ROMもしくはEPROM)1202もしくはその他の半導体記憶装置は、データ・バス1204に接続され、計算処理システム100の操作に必要なファームウェア、BIOS(basic input-output system)、計算処理システム100の様々な構成パラメータなどの静的情報及びプロセッサ1201への指示を記憶する。
一つもしくは複数の実施例において、計算処理システム100は、ディスプレイ204を備えていてもよく、ディスプレイ204は、データ・バス1204に接続され、計算処理システム100のユーザに様々な情報を、例えば、図3のユーザ・インターフェイス300を表示する。代替的な実施例において、ディスプレイ204は、(図示しない)グラフィック・コントローラ及び/もしくはグラフィック・プロセッサと関連付けられていてもよい。ディスプレイ204は、例えば、当業者にはよく知られているTFT(thin-film transistor)技術もしくは有機LED(organic light emitting diode)技術を用いたLCD(liquid crystal display)として実装されていてもよい。異なる実施例において、ディスプレイ204は、計算処理システム100のその他の構成要素と同じ一般的な筐体に含まれていてもよい。代替的な実施例において、ディスプレイ204はそのような筐体の外側に配置されていてもよい。
一つもしくは複数の実施例において、ディスプレイ204は、ユーザが装着している眼鏡のような様々なオブジェクトに情報を投影するプロジェクタもしくは、ユーザ・インターフェイス300のような情報を、ユーザに見える表示面、例えば半透過材料で作られた眼鏡のレンズに投影するためのミニ−プロジェクタ1203の形態で実装されていてもよい。一つもしくは複数の実施例において、ディスプレイ204はユーザの頭部に装着されてもよい。
一つもしくは複数の実施例において、計算処理システム100はデータ・バス1204に接続されている音声再生装置1225をさらに備えていてもよい。この場合、計算処理システム100は、(図示しない)波形プロセッサ(すなわち、音声プロセッサ)もしくは同様の装置を備えていてもよい。
一つもしくは複数の実施例において、計算処理システム100は、指示をプロセッサ1201に送り、コマンドの選択指示をプロセッサ1201に送り、また、ディスプレイ204上のカーソルを制御するために、ユーザの視線を追跡するデバイス1210などの、一つもしくは複数の入力デバイスを有してよい。この入力デバイスは、典型的には、平面上の位置を特定するために、第1の軸(例えばx)および第2の軸(例えばy)という2つの軸における2つの自由度を有してよい。計算処理システム100は、さらに、データ・バス1204に接続された、様々なオブジェクトの静止画または映像をキャプチャーするためのカメラ202だけでなく、オブジェクトの奥行き情報付き画像を撮影するための奥行き検知機能付きカメラ1206を有してよい。奥行き検知機能付きカメラ1206によって撮影された奥行き情報付き画像は、上記技術に従ってユーザの手を追跡するために用いられてよい。
一つもしくは複数の実施例において、計算処理システム100は、データ・バス1204に接続されているネットワーク・インターフェイス1205などの通信インターフェイスをさらに備えていてもよい。ネットワーク・インターフェイス1205は、WiFiアダプタ1207、GSM(登録商標)/CDMA(携帯電話ネットワーク)アダプタ1208、および、ローカルエリアネットワーク(LAN)アダプタ1209の少なくとも一つを用いて、計算処理システム100とインターネット1224との間での通信を確立することができる。WiFiアダプタ1207は、当業者にはよく知られている802.11a、802.11b、802.11g及び/もしくは802.11n、Bluetooth(登録商標)プロトコルに従って動作することができる。ローカルエリアネットワークアダプタ1209は、統合デジタルサービス網(ISDN)カードあるいはモデムであってよく、これにより、インターネットサービスプロバイダのハードウェア(不図示)を用いてインターネット1224に接続する、電話回線とのデータ通信を確立する。他の例として、ローカルエリアネットワークアダプタ1209は、ローカルエリアネットワークのインターフェイス/カード(LAN NIC)であってよく、これにより、インターネット1224と互換性を有する通信を提供してよい。ある実施例において、WiFiアダプタ1207、GSM(登録商標)/CDMA(携帯電話ネットワーク)アダプタ1208、および、ローカルエリアネットワーク(LAN)アダプタ1209は、様々なタイプのデジタルデータストリームを伝送するための電子的または電磁的な信号を送受信する。
一つもしくは複数の実施例において、一般的に、インターネット1224は、一つもしくは複数のサブ−ネットワークを介して、その他のネットワーク資源へのデータ通信を提供する。したがって、計算処理システム100は、遠隔メディア・サーバ、ウェブ・サーバ、その他のコンテンツ・サービス、その他のネットワーク・データ・ストレージ資源などの、インターネット1224のいずれかの位置に置かれている様々なネットワーク資源にアクセスすることができる。一つもしくは複数の実施例において、計算処理システム100はメッセージ、メディア、及び、アプリケーション・プログラム・コードを含むその他のデータを、ネットワーク・インターフェイス1205によって、インターネット1224を含む様々なネットワークを介して、送受信する。例示的なインターネットにおいて、計算処理システム100がネットワーク・クライアントとして動作する場合、計算処理システム100上で稼働しているアプリケーション・プログラムのコードもしくはデータを計算処理システム100は要求することができる。同様に、計算処理システム100は、その他のネットワーク資源へ様々なデータもしくは計算処理コードを送信することができる。
一つもしくは複数の実施例において、ここで記述される機能は、メモリ1212に含まれる一つもしくは複数の指示の一つもしくは複数のシーケンスを実行するプロセッサ1201に応じて、計算処理システム100によって実装される。指示は、他のコンピュータ読取可能媒体からメモリ1212に読み込まれてもよい。メモリ1212に含まれている指示のシーケンスを実行することによって、ここで記述されている様々な処理のステップがプロセッサ1201によって実行される。代替的な実施例において、本発明の実施例を実装するために、ソフトウェアの指示に代えて、もしくは、ソフトウェアの指示と組み合わせて、ハードウェアによって実現されている回路が使用されてもよい。すなわち、本発明の実施例は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されるものではない。
ここで使用される用語「コンピュータ読取可能媒体」は、プロセッサ1201へ実行するための指示を提供する際に関与する任意の媒体であってよい。コンピュータ読取可能媒体は、機械読取可能媒体の単なる一例であり、ここで記述される方法及び/もしくは技術の何れかを実装するための指示を搬送することができる。このような媒体は、不揮発媒体、揮発媒体などを含むが、これらに限定されない、多くの形態を採ることができる。
非一時コンピュータ読取可能媒体の一般的な形態は、例えば、フロッピー(登録商標)・ディスク、フレキシブル・ディスク、ハード・ディスク、磁気テープ、もしくは、任意のその他の磁気媒体、CD−ROM、任意のその他の光媒体、パンチカード、紙テープ、孔パターンを有する任意のその他の物理的な媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュ・ドライブ、メモリ・カード、任意のその他のメモリ・チップ、もしくはカートリッジ、もしくは、コンピュータがそこから読み取ることができる任意のその他の媒体を含む。コンピュータ読取可能媒体の様々な形態は、プロセッサ1201への、一つもしくは複数の実行する指示の一つもしくは複数のシーケンスの搬送に関連してもよい。例えば、指示は、遠隔コンピュータから磁気ディスクにまず搬送されてもよい。代替的に、遠隔コンピュータは、遠隔コンピュータのダイナミック・メモリに指示をロードし、インターネット1224によって指示を送信してもよい。詳細には、コンピュータの指示は、当業者にはよく知られている様々なネットワーク・データ通信プロトコルを用いて、インターネット1224を介して、遠隔コンピュータから計算処理システム100のメモリ1212へ、ダウンロードされてもよい。
一つもしくは複数の実施例において、計算処理システム200のメモリ212は、以下のソフトウェア・プログラム、アプリケーション、もしくは、モジュールのいずれかを記憶してもよい。
1.オペレーティング・システム(OS)1213。オペレーティング・システム(OS)1213は、基本システム・サービスを実装し、計算処理システム100の様々なハードウェア構成要素を管理する。オペレーティング・システム1213の実施例は、当業者によく知られており、既存の、または今後開発される、サーバ、デスクトップもしくは携帯型装置用オペレーティング・システムであってよい。
2.アプリケーション1214は、例えば、計算処理システム100のプロセッサ1201によって実行される一連のソフトウェアを含んでよく、これによって、計算処理システム100は、予め定められたある処理、例えば、ユーザ・インターフェイス300をディスプレイ204に表示したり、カメラ202を用いてユーザの手の存在を検出したりする処理を行ってよい。一つもしくは複数の実施例において、アプリケーション1214は、以下に詳しく説明する、本実施例にかかるビデオ(映像)キャプチャーアプリケーション1215を有してよい。
3.データストレージ1222は、例えば、キャプチャーされた映像コンテンツのストレージを有し、カメラ202を用いて撮影された映像のコンテンツを格納してもよい。
一つもしくは複数の実施例において、本実施例にかかる映像キャプチャーアプリケーション1215は、ディスプレイ204及び/又はプロジェクタ1203を用いて、ここで述べたフィードバックの通知を含むユーザ・インターフェイス300を生成するユーザ・インターフェイス生成モジュール1216を含んでよい。本実施例にかかる映像キャプチャーアプリケーション1215は、映像キャプチャーモジュール1217を更に有し、カメラ202にユーザの活動の映像をキャプチャーさせてもよい。さらには、カメラ202によって撮影された映像を処理してその映像中にユーザの手を検出するための、映像処理モジュール1218を有してもよい。1又は複数の実施例において、本実施例にかかる映像キャプチャーアプリケーション1215は、音声キャプチャーデバイス203にユーザの活動に関連する音声をキャプチャーさせるための、音声キャプチャーモジュール1219を有してよく、さらには、上述の技術に従ってキャプチャーした音声を処理するための音声処理モジュール1220を有してよい。
フィードバック生成モジュール1221は、キャプチャーした映像中に検出した手、検出したユーザの話し言葉、および/またはキャプチャーした音声中でオブジェクトを指し示す具体的な指示語に基づいて、ユーザに対しフィードバックを生成するために提供される。生成されたフィードバックは、ディスプレイ・デバイス204、プロジェクタ1203、および/または音声再生デバイス1225を用いてユーザに提供される。
最後に、ここで記述される処理及び技術は特定の装置の何れかに固有に関連するものではなく、適切に組み合わせられた構成要素の何れかによって実装されてもよいことが理解されるべきである。さらに、様々な種類の汎用目的装置がここに記述される技術に従って使用されてもよい。ここに記述される方法ステップを実行するために専用装置を構築することは有利であるかもしれない。本発明は、特定の例示に関連して記述されているが、この記述は、限定ではなく、例示を意図している。多くの異なるハードウェア、ソフトウェア及びファームウェアの組み合わせが本発明を実行するために適切であることは、当業者には明らかである。例えば、記述されるソフトウェアは、アセンブラ、C/C++、Objective−C、perl、shell、PHP、Java(登録商標)、現在知られているもしくは今後開発されるプログラミング言語もしくはスクリプト言語の何れかなどの様々なプログラミング言語もしくは記述言語によって実装されてもよい。
さらに、ここに記述された詳細及び実行を考慮すれば、本発明のその他の実装が当業者には明らかであろう。記述された実装の様々な態様及び/もしくは構成要素は、音声/映像のコンテンツをユーザがキャプチャーするのを支援し、そして、意図したものと実際のキャプチャーされたコンテンツとの間におそらく生じている不整合をユーザに通知するシステム及び方法を個別に、もしくは、任意に組み合わせて使用することができる。詳細及び例は例示としてのみ考慮されることを意図し、本発明の真の範囲及び思想は特許請求の範囲の記載によって示される。
100 計算処理システム
202 カメラ
204 ディスプレイ

Claims (7)

  1. ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得する手段と、
    取得された前記映像の中に含まれるユーザの手の数を判断する手段と、
    ユーザの前記活動に関連する音声を、前記映像に同期して取得する手段と、
    前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う手段と、
    を備えるシステム。
  2. 取得した前記音声に音声認識処理を行う手段を更に備え、
    認識された音声中に指示語が含まれていることを更に条件として、ユーザに対して前記フィードバックを行う、請求項1に記載のシステム。
  3. 前記フィードバックは、前記認識された音声中に含まれる指示語の数、及び、前記判断されたユーザの手の数の少なくとも一方によって異なる、請求項2に記載のシステム。
  4. 前記フィードバックは、ユーザの手が取得した前記映像の中に含まれていない旨を含む、請求項1〜3のいずれか1項に記載のシステム。
  5. 前記ユーザの手が取得した前記映像に含まれていない場合に、前記フィードバックは、前記映像中に最後に現れた手の位置を含む、請求項4に記載のシステム。
  6. コンピュータが、
    ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、
    取得された前記映像の中に含まれるユーザの手の数を判断し、
    ユーザの前記活動に関連する音声を、前記映像に同期して取得し、
    前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う、
    方法。
  7. コンピュータに、
    ヘッドアップ型カメラを用いて撮影された、ユーザの活動の映像を取得し、
    取得された前記映像の中に含まれるユーザの手の数を判断し、
    ユーザの前記活動に関連する音声を、前記映像に同期して取得し、
    前記音声が取得され続けられている間に、前記判断されたユーザの手の数が減少したことを条件に、ユーザに対してフィードバックを行う、
    ことを実行させるためのプログラム。
JP2014127336A 2014-03-18 2014-06-20 映像を取得するシステム、方法及びプログラム Active JP6323202B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/218,495 US20150268728A1 (en) 2014-03-18 2014-03-18 Systems and methods for notifying users of mismatches between intended and actual captured content during heads-up recording of video
US14/218,495 2014-03-18

Publications (2)

Publication Number Publication Date
JP2015179490A JP2015179490A (ja) 2015-10-08
JP6323202B2 true JP6323202B2 (ja) 2018-05-16

Family

ID=54142068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014127336A Active JP6323202B2 (ja) 2014-03-18 2014-06-20 映像を取得するシステム、方法及びプログラム

Country Status (2)

Country Link
US (1) US20150268728A1 (ja)
JP (1) JP6323202B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6160148B2 (ja) * 2013-03-19 2017-07-12 富士通株式会社 生体情報入力装置、生体情報入力プログラム、生体情報入力方法
KR101687017B1 (ko) * 2014-06-25 2016-12-16 한국과학기술원 머리 착용형 컬러 깊이 카메라를 활용한 손 위치 추정 장치 및 방법, 이를 이용한 맨 손 상호작용 시스템
US10289261B2 (en) 2016-06-29 2019-05-14 Paypal, Inc. Visualization of spending data in an altered reality
KR102161028B1 (ko) 2017-07-11 2020-10-05 주식회사 엘지화학 이차전지의 불량 검사 장치 및 불량 검사 방법
US10880354B2 (en) 2018-11-28 2020-12-29 Netflix, Inc. Techniques for encoding a media title while constraining quality variations
US10841356B2 (en) 2018-11-28 2020-11-17 Netflix, Inc. Techniques for encoding a media title while constraining bitrate variations
US10798292B1 (en) 2019-05-31 2020-10-06 Microsoft Technology Licensing, Llc Techniques to set focus in camera in a mixed-reality environment with hand gesture interaction
CN114222960A (zh) * 2019-09-09 2022-03-22 苹果公司 用于计算机生成现实的多模态输入
CN114449252B (zh) * 2022-02-12 2023-08-01 北京蜂巢世纪科技有限公司 基于解说音频的现场视频动态调整方法、装置、设备、系统和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5061444B2 (ja) * 2005-09-20 2012-10-31 ソニー株式会社 撮像装置及び撮像方法
JP5168161B2 (ja) * 2009-01-16 2013-03-21 ブラザー工業株式会社 ヘッドマウントディスプレイ
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
JP5166365B2 (ja) * 2009-07-06 2013-03-21 東芝テック株式会社 ウエアラブル端末装置及びプログラム
JP5921981B2 (ja) * 2012-07-25 2016-05-24 日立マクセル株式会社 映像表示装置および映像表示方法

Also Published As

Publication number Publication date
JP2015179490A (ja) 2015-10-08
US20150268728A1 (en) 2015-09-24

Similar Documents

Publication Publication Date Title
JP6323202B2 (ja) 映像を取得するシステム、方法及びプログラム
EP3467707B1 (en) System and method for deep learning based hand gesture recognition in first person view
TWI713995B (zh) 車輛定損的交互處理方法、裝置、設備、以及客戶端裝置和電子設備
CN109952610B (zh) 图像修改器的选择性识别和排序
US11151792B2 (en) System and method for creating persistent mappings in augmented reality
Betancourt et al. The evolution of first person vision methods: A survey
TW201947452A (zh) 車輛定損的資料處理方法、裝置、處理設備及客戶端
EP3341851B1 (en) Gesture based annotations
US9760790B2 (en) Context-aware display of objects in mixed environments
US10255690B2 (en) System and method to modify display of augmented reality content
KR20190028349A (ko) 이미지 내 휴먼 분리를 위한 전자 장치 및 방법
US11055919B2 (en) Managing content in augmented reality
TW201947528A (zh) 車輛損傷識別的處理方法、處理設備、客戶端及伺服器
US9449216B1 (en) Detection of cast members in video content
ATE486332T1 (de) Verfahren zur verfolgung von objekten in einer videosequenz
US11216648B2 (en) Method and device for facial image recognition
WO2012175447A1 (en) Dynamic gesture recognition process and authoring system
TW201246089A (en) Method for setting dynamic environmental image borders and method for instantly determining the content of staff member activities
CN108352084A (zh) 用于在场景感知设备环境中导航对象的对象路径标识
US20190026001A1 (en) Telepresence framework for region of interest marking using headmount devices
CN113673277B (zh) 线上绘本内容的获取方法、装置以及智能屏设备
Seidenari et al. Wearable systems for improving tourist experience
US11107285B2 (en) Augmented reality-based image editing
CN113614794B (zh) 管理增强现实中的内容
CN109829847B (zh) 图像合成方法及相关产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180326

R150 Certificate of patent or registration of utility model

Ref document number: 6323202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350