JP6342458B2 - ビデオにおける改良型の顔面認識 - Google Patents

ビデオにおける改良型の顔面認識 Download PDF

Info

Publication number
JP6342458B2
JP6342458B2 JP2016157490A JP2016157490A JP6342458B2 JP 6342458 B2 JP6342458 B2 JP 6342458B2 JP 2016157490 A JP2016157490 A JP 2016157490A JP 2016157490 A JP2016157490 A JP 2016157490A JP 6342458 B2 JP6342458 B2 JP 6342458B2
Authority
JP
Japan
Prior art keywords
image
image data
sensor
computer system
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016157490A
Other languages
English (en)
Other versions
JP2017021812A (ja
Inventor
ケネス・エム.・カラコトシオス
カー・クゥエン・フ
ボロディミル・ブイ.・イバンチェンコ
ミンジン・ハン
Original Assignee
アマゾン・テクノロジーズ、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US13/158,328 priority Critical
Priority to US13/158,328 priority patent/US8705812B2/en
Application filed by アマゾン・テクノロジーズ、インコーポレイテッド filed Critical アマゾン・テクノロジーズ、インコーポレイテッド
Publication of JP2017021812A publication Critical patent/JP2017021812A/ja
Application granted granted Critical
Publication of JP6342458B2 publication Critical patent/JP6342458B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction

Description

種々の利用可能なコンピューティング装置ばかりではなく、これらの装置が使用される種々のタスクが増えるにつれて、ユーザがこれらの装置とインターフェースをとる手法を変化させることが必要になる。多くの場合において、安全性または個性化などの目的で、コンピューティング装置に対して人間の身元を認識するか確証することが望ましい。一定の装置は、画像情報を取り込むために使用され得るビデオカメラを含む。ビデオ情報を解析することは、非常にプロセッサおよび電力集約的であり得るので、その代わりに、取り込まれたビデオの一定部分だけを解析することが望ましくあり得る。しかしながら、多くの場合において、ユーザは、カメラを直接見ていないであろうし、あるいは、例えば、ユーザまたはコンピューティング装置(例えば、タブレットコンピュータまたはスマートフォン)の運動に起因し得る、動きぶれがあるであろう。それ故、ランダムなビデオフレームの選択は、適切なフレームが選択されるまで追加的に取り込むことや解析することをもたらすことがあり、そのことは、特に、不必要な遅延やリソース利用を招き得る。
本開示に係る種々の実施形態は、図面を参照にして記載されることになる。
種々の実施形態に従って、入力をもたらすための装置の近くに人間を含み、コンピューティング装置が、画像情報を取り込んでいる状況例を例示する。 取り込まれたビデオ供給からランダムにフレームを選択するときに取り込まれ得る画像の例を例示する。 同上 一実施形態に従って、装置の少なくとも1つのカメラが、ユーザについてのビデオ情報を取り込み得、おおよその頭部位置を判断し得、その後、画像化アプローチが、ユーザの顔面の相対的方位を判断するために使用され得る状況例を例示する。 同上 同上 同上 種々の実施形態に従って判断されるように、ユーザの異なる相対的頭部位置に基づいて、装置の2つのマイクロフォンに対する音声パス長の違いを例示する。 同上 種々の実施形態に従って使用され得る顔面認識用のビデオフレームを選択するためのプロセス例を例示する。 種々の実施形態に従って使用され得る装置例を例示する。 図6に例示されるものなどの装置において利用され得る構成要素の組例を例示する。 種々の実施形態が実施され得る環境例を例示する。
本開示の種々の実施形態に係るシステムおよび方法は、コンピューティング装置に入力をもたらす従来のアプローチにおいて体験される上記や他の不備の1つ以上を克服し得る。特に、本明細書中に記述したアプローチは、コンピューティング装置が、顔面認識などの目的のために使用されることになるビデオ供給または他の画像ストリームから1つ以上のフレームまたは他の画像部分を選択することを可能にする。一定の態様または特徴を有するフレームを選択することができることは、選択されたフレームが処理に適することになる可能性を上げることができ、そのことは、ビデオ供給を用いて所望の結果を得るために必要なリソースの量を低減し得る。
一実施形態では、ビデオ供給は、頭部または顔面検出アルゴリズムを用いて継続的に解析される。他の実施形態では、ビデオ供給および/または解析は、特定の行動またはイベント、例えば、すぐ近くの動きを検出する動き検出器または光センサあるいはコンピューティング装置の動きを検出する加速度計などに応答して、開始され得る。顔面または頭部が一旦検出されると、装置は、検出された顔面に対応する人間がカメラの方に実質的に向いているかどうかを判断することを試みるために、相対的方位判断アルゴリズムを利用し得る。人間がカメラの方に実質的に向いているという判断に応答して、ビデオの対応するフレームは、処理のために、例えばユーザの頭部に対応する画像フレームの部分について顔面認識を実行するために、選択され得る。
一実施形態では、少なくとも1つの赤外線(IR)送信機および受信機(または送受信機)は、コンピューティング装置からIR放射を放出し得、ユーザから反射したIR放射を検出し得る。ユーザが装置の方に少なくとも一部向いている場合、反射したIRは、ユーザの瞳孔(またはユーザの目の他の特徴)の位置に対応する異なる強度の領域を含み得る。当技術分野に周知のように、瞳孔が、反射したIRを用いて迅速かつ容易に位置を突き止められ得るように、人間の目は、人間の顔面の残りとは異なる一定のIR波長を反射する。いくつかの実施形態では、2つの瞳孔を検出することが、処理のための候補としてそのフレームを選択するのに十分であり得る。他の実施形態では、装置は、検出された画像情報において瞳孔の1つ以上の態様を解析することによって、ユーザが装置の方に実質的に向いているかどうかを判断し得る。
いくつかの実施形態では、他のアプローチが、ユーザが装置の方に実質的に向いている可能性があるかどうかを判断するために使用され得る。例えば、少なくとも2つのマイクロフォンまたは他の音声取り込み素子を有する装置は、ユーザが装置の方に実質的に向いている可能性があるかどうかを判断するために、人間によって話された音声の到着時間の違いを使用し得る。別の例では、装置は、画像解析を手動で作動させるために、ユーザが、ユーザが装置の方に実質的に向いているときに装置への入力を押し込む(squeeze)ことか、そうではなくてその入力をもたらすことを可能にし得、例えば、それは装置を安全に解除するために使用され得る。更に他の実施形態は、ユーザが装置に対して一定の行動、例えば、タッチスクリーン上にタイピングすること、またはインターフェース上にカーソルを移動することなどを実行しているときに、ユーザが装置の方に向いている可能性があることを判断し得る。ユーザが装置の方に実質的に向いている限り、(装置に更に向いている)画像の平面におけるユーザの頭部のいずれの傾斜または回転も、許容でき得る。ユーザがもはや装置の方に実質的に向いていない場合であるが、ユーザの頭部の下への、後への、または横への傾斜などの回転は、顔面認識の正確性を減らし得、または更に顔面認識を阻止し得る。回転の3つの軸x、y、およびzを考え、ここで、画像および/または装置の平面に対して、xが右から左に延び、yが上下に延び、zが出入りするように延びている場合、回転は、画像内で除去され得、および/または考慮され得るので、zについての回転は許容できるものの、xまたはy周りの回転は画像認識に対して問題があり得る。
多くの他の代替案および変形が、種々の実施形態の少なくともいくつかに関連して以下に記載され提案される。
図1は、コンピューティング装置106が、装置の周りの角度のある範囲にわたって画像情報を取り込むことが可能である少なくとも1つの画像取り込み素子108を含む状況例100を例示する。ポータブルコンピューティング装置(例えば、携帯電話、電子書籍リーダ、またはタブレットコンピュータ)が示されるが、入力を受信し処理することが可能な、またはヴィジュアルコンテンツをレンダリングすることおよび/または表示することが少なくとも可能な任意の電子装置が、本明細書中に記述した種々の実施形態に従って使用され得ることが理解されるべきである。装置の例はまた、例えば、デスクトップコンピュータ、ノートブックコンピュータ、パーソナルデータアシスタント、スマートフォン、ビデオゲームコンソール、テレビセットトップボックスおよびポータブルメディアプレーヤーを含み得る。
この例では、装置の近くに2人の人間102、104がいる。多くの用途の場合、多数の目的のいずれか、例えば、装置上の特徴に安全にアクセスできること、または会議中の人々についての情報を記録することなどについて、1人以上の人間の身元を判断することが望ましいことがある。装置106が、十分な角度取り込み範囲を有する少なくとも1つのカメラを有する場合、装置は、画像情報に少なくとも部分的に含まれる任意の人間の身元を識別するよう試み得る。装置の正面または裏面上に単一のカメラを備える装置では、これは、装置の一方側上の単一のユーザについての画像情報を含み得る。広角レンズまたは複数のカメラを備える装置の場合、装置は、装置の所与の範囲内の複数の人々または対象についての情報を同時に取り込み得、それらの人々または対象のそれぞれの身元を判断するよう試み得る。
異なるコンピューティング装置は、異なる種類の画像取り込み素子を有し得る。例えば、いくつかの装置は、特定の時点に単一の画像を取り込むことが可能であるデジタル静止カメラ、または画像情報を連続的に取り込むことが可能であるデジタルビデオカメラを有し得、その画像情報は、少なくともいくつかの実施形態においてフレームの組と呼ばれ得る。比較的正確である画像認識などのプロセスの場合、解析される画像は、典型的には、いくつかの最低基準に合わなければならない。これは、例えば、十分な明暗やコントラストを含み得るが、人間が画像に向いている方向や画像の焦点の質などの要因も含み得る。例えば、図2(a)は、画像内の人間が、画像に対してある角度で向いている、またはユーザが画像取り込み素子の方に実質的に向いている方位にいない画像例200を例示する。そのような方位は、例えば、画像がランダムに取り込まれるときに、またはそうではなくて方位の前の解析無しに、生じ得る。類似の問題は、ビデオストリームのいくつかの処理がない限り、ビデオストリームからフレームを選択するときに生じ得る。ビデオの各フレームを解析すること、または多数の静止画像を取り込むことは、かなりの量の処理を必要とし得、そのことは、特に、典型的には限られた利用可能なリソースおよびバッテリ寿命を有するポータブル装置に望ましくないことがある。しかしながら、図2(a)におけるように、ある角度で人間に対して画像を取り込むことは、従来の顔面認識アルゴリズムを用いて正確に解析され得ない画像を結果としてもたらし得、なぜなら、そのようなアルゴリズムは、典型的には、ユーザが、例えば標準からプラスマイナス20度などの限られた範囲内で、画像が取り込まれるときに画像取り込み素子の方に実質的に向いていることを要求するからである。
同様に、図2(b)における画像は、画像202における動きぶれの量に少なくとも一部起因して、顔面認識プロセスについて正確な結果を生成し得ない。ぶれは、例えば、画像取り込みの間のユーザの動き、または画像を取り込む間の装置の動きに起因し得る。ぶれはまた、例えば、画像化素子の不適切な焦点合わせ、またはその素子と関連付けられたレンズなどの他の要因に起因して生じることもある。ランダムに選択された画像が、顔面認識または他の画像処理アルゴリズムによって正確に処理され得ることを阻止し得る多数の他の問題のいずれかも同様に、存在し得る。
種々の実施形態係るシステムおよび方法は、画像情報のフレームが、多数の画像処理アルゴリズムのいずれかに十分な結果を生じる可能性があるであろう時間を判断するよう試みるために、1つ以上の追加入力を利用する。追加入力は、比較的少量の電力および/または処理を必要とする素子もしくは構成要素であって、多数の異なる要因のいずれかに基づいて必要に応じて作動され得る素子もしくは構成要素を用いて、得られることができる。
例えば、図3(a)は、人間306がコンピューティング装置302の画像取り込み素子304の可視範囲308内に立っている状況例300を例示する。いくつかの実施形態では、画像取り込み素子304は、少なくとも特定の期間にわたって、画像情報の実質的に連続的なストリームを取り込むことが可能なビデオ取り込み素子であり得る。記述のように、それは、顔面認識アルゴリズムまたは他のそのようなプロセスを用いてビデオストリーム全体を処理するように非常にリソース集約的であり得る。その代わりに、一定の実施形態に係るアプローチは、画像ストリーム内に人間の頭部または他のそのような特徴の存在を識別するよう試みるために、強固でないアルゴリズム、例えば、後続フレームの関係を利用するアルゴリズム、または判断された局所的特徴のサブセットを監視するアルゴリズムを使用する。例えば、図3(a)では、アルゴリズムは、確実性の特定レベルまたは範囲内で人間の頭部の形状に一致する輪郭または形状を探し得る。そのような形状または輪郭を検出すると、装置は、人間の頭部に対応する取り込まれた画像情報において相対的な位置または領域310を追跡し得る。形状または輪郭を検出し追跡するためのアプローチは、当技術分野に周知であるので、詳細には本明細書中に記述されないことになる。更に、追跡が実行され、追跡された項目は取り込まれた画像情報内にとどまる間に、判断プロセスが実行される必要はない。例えば、人間の頭部の位置が一旦判断されると、その特徴は、(頭部が最少時間に画像から出ないなどの限り)特徴が人間の頭部であるという再判断をされずに追跡され得る。
少なくともいくつかの実施形態では、人間の頭部の検出は、少なくとも1つの方位判断プロセスを作動させ得、または作動中の方位判断プロセスの一部を少なくともトリガさせ得る。一例では、コンピューティング装置は、(例えば、図6に続いて示される)少なくとも1つの赤外線(IR)エミッタおよび受信機、または少なくとも1つのIR送受信機を有し得る。当技術分野に周知のように、ユーザの目の位置が、取り込まれたIR画像を解析することによって迅速に検出されおよび/または位置を突き止められ得るように、人間の目は、人間の頭部の残りとは異なってIR放射を反射する。そのような情報は、顔面認識または他の識別のために解析されることになる人間の少なくとも1つの画像を選択することを助けるために使用され得る。例えば、図3(b)は、例えば、装置から離れて向いているユーザか、または遮蔽によって部分的に遮られているユーザに対応し得る、検出される頭部位置に対応する領域において検出される1つの瞳孔がある例を例示する。従って、単一の瞳孔の検出は、画像情報の対応する現在取り込まれたフレームが、解析される場合に正確な結果をもたらさない可能性があろうことを装置に示し得る。それ故、装置は、結果がより正確である可能性があろうときまで待つことができる。少なくともいくつかの実施形態では、ユーザは、装置に対して単に非常に速く動く可能性があろうから、一定の特徴は、取り込まれた画像情報において見られないという判断が、特徴が存在しない可能性があることになる時間に電力およびリソースを節約するために、特徴の位置を突き止めることを再度試みる前に情報の数フレームまたは数秒が飛ばされることをもたらし得る。
図3(c)では、人間の2つの瞳孔に対応する可能性があるであろうと判断された頭部位置308に対応する反射したIRにおいて検出された2つの特徴があり得る。いくつかの実施形態では、取り込まれたIRにおける2つの瞳孔の存在は、対応する画像が解析のために選択されることをもたらすのに十分であり得る。2つの瞳孔が検出されると、2つの瞳孔が存在するときに装置またはアプリケーションが画像を使用するよう構成されるように、これらの画像のあるパーセンテージは正確な結果をまだもたらさないであろうと分かっているので、ユーザは、かなりのパーセンテージの時間、カメラの方に十分に向いているであろう。各画像について行う処理量と、追加画像が取り込まれ解析される必要があろう時間のパーセンテージとのバランスがとられ得る。
いくつかの実施形態では、検出された頭部位置に対応する2つの瞳孔状特徴の単なる存在は、処理用の対応する画像フレームを選択するためには十分ではないことがある。少なくともいくつかの実施形態はまた、検出された頭部位置におけるそれらの特徴の相対的な位置および/または離隔距離などの要因に注意する。例えば、図3(c)では、瞳孔特徴310間の中心点は、検出された頭部位置308に対して実質的に中心から外れていることが見られ得る。少なくともいくつかの実施形態では、瞳孔間の中心点は、選択される画像についての頭部領域の中心点からの距離の(判断された頭部領域308の幅の)所与のパーセンテージ内でなければならない。図3(c)では、中心位置は、処理のために選択されない画像について頭部領域の中心から十分に離れ得る。更に、いくつかのプロセスは、人間が画像取り込み素子の方を実質的に見ているかどうかを判断するために瞳孔特徴間の離隔距離320を解析し得る。典型的な人間の場合、画像取り込み素子の方に実質的に向いている人間に対応することになる(頭部幅のパーセンテージまたは部分として)瞳孔の離隔距離の範囲がある。図3(c)では、瞳孔特徴間の離隔距離320は、人間が画像取り込み素子の方を実質的に見ている図3(d)におけるものよりも小さい。それ故、いくつかの実施形態は、2つの検出された瞳孔の存在に起因して図3(c)のタイミングに対応する画像を選択することになるが、他の実施形態は、少なくとも、瞳孔が、十分に中心から外れているか、あるいは人間が画像取り込み素子の方を実質的に見ていない可能性があることを示す離隔距離を有することに起因して、そのような画像を選択し得ない。
図3(d)は、ある時点に対応する画像フレームが、少なくともいくつかの実施形態において選択され得る状況例を例示する。この例において、瞳孔状の特徴に対応する2つの特徴が、判断された頭部領域308において検出される。瞳孔310間の中心点は、頭部領域の中心に近く、特徴間の離隔距離は、画像取り込み装置の方を向いているユーザを示す範囲内にある。従って、解析されたIRデータは、(十分に頻繁な取り込みレートを仮定して)現在取り込まれている画像フレーム、または(画像またはビデオ情報の少なくともいくつかのバッファリングを仮定して)IR解析の時間ごろに取り込まれた画像フレームを装置に利用させ得る。検出された頭部領域に関する寸法から判断することは、画像間の縮尺の違いを考慮し得、判断プロセスを簡素化し得る。
装置が2つ以上の画像取り込み素子を有する実施形態では、判断は、どのカメラにユーザが最も向いてるか、最も近いかなどを判断するために、複数のカメラからの画像情報を用いてなされ得る。他の実施形態では、単一の画像取り込み素子から解析された画像情報は、顔面認識のために使用する最良の画像取り込み素子を判断することを試みるために利用され得る。そのような判断が一旦なされると、選択された画像取り込み素子は、その人間についての顔面認識を実行するために使用され得る。複数のカメラの他の利点は、同様に利用され得る。例えば、ユーザの頭部の位置が追跡されている場合、例えば、追加検出または他のそのようなプロセスが、異なるカメラによって取り込まれる画像情報に起因して実行される必要がないように、その追跡は、異なるカメラ視野にわたって連続的であり得る。
少なくともいくつかの実施形態では、他の態様は、そのような画像を選択する前に解析され得る。例えば、いくつかのアプローチはまた、ユーザが、正確な結果を生じるように画像において極端に顔を上げるか下げる可能性があるかどうかを判断するために、頭部領域に対する瞳孔の垂直位置に注意し得る。他の実施形態では、瞳孔情報の形状が、画像が焦点が合っている可能性があるであろうかどうかを判断するために解析され得る。例えば、瞳孔が反射したIRにおいて明確なエッジを有していない場合、同様に、取り込まれた画像情報の焦点が合うことを阻止し得る運動または別の問題があった可能性がある。同様に、瞳孔が実質的に丸い形状を有していない場合、それは、解析されるときに画像情報が正確な結果をもたらすことを阻止し得る動きまたは別の問題があったことを示し得る。いくつかの実施形態では、更に詳しく本明細書中に後で記述されることになるように、特徴が人間の目に実際に対応することを確かめるために、複数の波長が使用され得る。人間の目の形状または他のパラメータを判断するためのアプローチは、例えば、2010年5月24日に出願され、「Determining Relative Motion as Input」と題された、同時係属の米国特許出願第12/786,297号に見つけられ得、その出願は、ここで参照によって本明細書に組み込まれる。
他の実施形態では、装置は、IR機能を有し得ず、あるいは、ある領域をIR放射で照射することは、少なくともいくつかの装置に対してかなりの量の電力を必要とし得るので、そのように多くの電力を消費しない方法を利用し得る。IR源が、パルスを発するか、またはそうではなくて検出された頭部または頭部位置と対応するようにタイミングを決められる場合でも、例えば、必要とされた電力量は、少なくともいくつかの状況において要求されたものを超える可能性がある。
従って、一定の実施形態に係る装置は、ステレオマイクロフォンまたは複数の音声取り込み素子などの他の入力をうまく利用して、人間が装置の方に実質的に向いているときを判断することを試み得る。例えば、図4(a)は、人間402が話している間に電子装置404に対してある角度で向いている状況400を例示する。当技術分野に周知のように、音声源から異なる距離にある音声取り込み素子が、異なる時間に同じ音声を取り込むことになるように、音は、実質的に一定の速度で共通媒体(例えば、空気)の中を移動する。到着時間の判断などのアプローチを用いて、共通音声信号の到着の時間差は、音声源の、おおよその位置、または少なくとも方向を判断するために使用され得る。図4(a)に見られるように、人間が、彼のまたは彼女の頭部を装置に対して傾けているとき、またはそうではなくて装置の前の中心方向410から離れて位置しているとき、音声取り込み素子408の1つに対するパス長414は、電子装置404の音声取り込み素子のもう1つに対するパス長412よりも短いことになる。対応する画像が正確な処理結果をもたらし得ないように、例えば、人間は、装置の前にいないとともに装置に向いていない可能性があるという判断は、話しているか歌っている人間によって生成される音声に基づいてなされ得る。
図4(b)では、これに反して、人間によって生成された音声が、実質的に同時にマイクロフォン406、408によって取り込まれるように、パス長412、414は実質的に等しく、ユーザが、装置の中心方向410の近くにいるとともに実質的に装置に向いている可能性があることを示す。少なくともいくつかの実施形態では、そのような判断は、画像が処理のために選択されるように実質的に同時に取り込まれることを十分にもたらし得る。いくつかの実施形態では、音声源の判断された方向は、装置に対して頭部位置の判断された方向と比較され得る。例えば、人間の頭部がカメラの可視領域における中心の右に30度であり、判断された音声源がおおよそ同じ角度にある場合、装置は、適切なアルゴリズムを用いて人間が画像において認識されることができ得るのに十分に(ある角度から)ユーザが装置に向いていることを判断し得る。種々の他のアプローチも同様に、他の実施形態において使用され得る。
図5は、種々の実施形態に従って処理用のフレームを選択するために使用され得るプロセス500の例を例示する。しかしながら、別段の記載がない限り種々の実施形態の範囲内で、類似もしくは代替の順序で、あるいは並列に実行される、追加的な、より少数の、または代替のステップがあり得ることが理解されるべきである。この例において、ビデオ取り込みは装置502上で作動される。本明細書中の他の箇所に記述したように、取り込みは、一定のイベントまたは行動、例えば装置近くの動き、音声、または熱特徴(signature)の種類を検出することなどに応答して、手動でまたは自動で作動され得る。この例において、取り込まれたビデオストリームは、適切な検出アルゴリズム504を用いてユーザの頭部または顔面の存在の可能性を検出するために監視され得る。記述のように、他の例では、頭部検出は、瞳孔または音声の検出に応答してトリガされ得、例えば、あるいは、解析が、頭部位置を別個に判断する必要なしに、単にビデオ取り込み、例えば、瞳孔検出に基づく一定の実施形態では全く使用されなくてもよい。
人間の頭部などの特徴の存在が取り込まれたビデオにおいて検出されると、方位検出プロセスが作動され得る506。記述のように、このことは、赤外線検出アルゴリズムをトリガすること、取り込まれた音声を解析すること、または別のそのような種類の入力を監視することを含み得る。そのようなプロセスは、人間が装置の画像取り込み素子に実質的に向いていることを判断されるように、人間がコンピューティング装置に対して相対的方位にいるときを判断することを試み得る。次いで、方位検出プロセスからの情報は、ビデオ情報の現在のフレームに対応することを解析され得る510。IR検出の場合、このことは、人間の目の1つ以上が取り込まれたIR画像内に現れるかどうか、ならびにそれらの目が任意のサイズ、形状、位置、または離隔距離の基準に合うかどうかを判断することを含み得る。音声解析の場合、このことは、話している間の人間の相対的な方向を判断することを含み得る。ユーザが装置に実質的に向いていることが判断される場合512、少なくとも誤差の許容できる範囲内で、ビデオの現在のフレーム、または方位判断の時間に対応する少なくともあるフレームは、処理のために、例えば対象または顔面認識のために、選択され得る516。ユーザが許容できる誤差内で装置に実質的に向いていないことが判断される場合、または判断が確実性の許容できるレベルでなされ得ない場合には、情報は、(他の目的に必要とされない限り)破棄され得、装置は、後続フレームを解析するために待つことができ514、次いで、その後続フレームは、プロセスの類似部分を経ることができる。いくつかの実施形態では、方位の解析は、一定の周波数で、例えば装置上の電力を節約するために最大周波数を超えずに、IRのパルスを発するように、行われることになる。種々の他のトリガをかけるアプローチは、本明細書中に含まれる教示や提案に照らして明らかであろうように使用され得る。
図6は、種々の実施形態に従って使用され得る電子コンピューティング装置600の例を例示する。記述のように、電子装置の種々の他の種類も同様に、種々の実施形態の範囲内で使用され得る。この装置例は、当技術分野に周知のように情報をユーザに表示するための表示素子612を含む。装置例はまた、装置の動きを判断するために使用され得、また、本明細書中に記載された種々のアプローチを用いて取り込まれた画像のぶれまたは焦点を予測するのに役立ち得る、少なくとも1つの動き判断素子608、例えば加速度計またはジャイロ素子などを含む。装置はまた、装置のユーザについての画像情報を取り込むための少なくとも1つの画像取り込み素子を含む。画像化素子は、多くの他の可能性の中で、例えば、カメラ、電荷結合装置(CCD)、動き検出センサ、または放射センサを含み得る。図6における装置例は、当技術分野に周知のように、周辺光を用いて画像情報を取り込むためのデジタルビデオカメラ616を含む。(単一の検出器および2つのエミッタも同様に種々の実施形態の範囲内で使用され得るが)装置例はまた、赤外線(IR)エミッタ602および2つのIR検出器604、606を含む。IRエミッタ602は、IR放射を放出するように構成され得、各検出器は、ユーザ(または他のそのような表面または対象)から反射したIR放射を検出し得る。この例において検出器をオフセットすることによって、各検出器は、異なる角度で反射した放射を検出することになる。
図6に例示された例では、第1のIR検出器604は、第1のIR検出器が、検出器の取り込み平面に実質的に直交する方向に、見る人の網膜などの表面から反射し戻った赤外線放射を取り込むことができるように、IRエミッタ602に実質的に隣接して位置付けられる。第2のIR検出器606は、検出器が、直交方向に対してある角度で反射したIR放射だけを検出することになるように、IRエミッタ602から離れた距離に位置付けられる。ユーザの網膜などの再帰反射体を画像化するとき、(欠陥、微粒子、またはばらつきは、放射のうちのいくつかを曲げ得るが)網膜は第2のエミッタの方向に有意に反射しないことになるので、第2のIRエミッタは、そのIRエミッタに起因して反射した放射をほとんどか全く検出しないことになる。本明細書中で後に記述されるように、2つの画像間のIR反射の違いは、瞳孔または他のそのような特徴の近くで著しいものになるが、画像の残りは実質的に類似することになるので、この画像間の違いは、ユーザの網膜の位置(および他の態様)を判断するために使用され得る。
代替の実施形態では、コンピューティング装置は、反射した光が単一のIRセンサによって取り込まれ、ユーザに気を逸らさせない(または検出できる)手法で、ユーザの顔面を照射するために、1対のIRエミッタ(例えば、IR発光ダイオード(LED)、IRレーザーダイオード、または他のそのような構成要素)を利用する。センサが、その放射がセンサ近くのLEDから放出されるときに、瞳孔から反射した放射を検出することになるように、また、その放射が、センサから離れて位置付けられたLEDから放出されるときに、瞳孔から反射した放射を検出しないことになるように、LEDは十分な距離で分離される。センサは、装置が、IR光を反射するユーザの特徴、例えばユーザの瞳孔または歯などを解析することを可能にするIR画像を取り込むことができる。アルゴリズムは、例えば、ユーザの目から等距離の位置に対応する3次元空間における位置(x、y、z)を計算することを試み得、ユーザの運動を追跡するおよび/または頭部の動きを判断するために、この位置を使用し得る。上記のように、単一のIR発光ダイオードおよび一対のIRセンサを利用する類似のアプローチが、使用され得る。それ故、装置は、ユーザの網膜から再帰反射した放射を受信するそれらの位置の1つだけを用いて、2つの位置からIRを導き得、または2つの位置からIRを検出し得る。他の実施形態は、例えば、ユーザが点源などからIR放射を放出する眼鏡を装着することを要求することなどによって、頭部追跡を実行するための他のアプローチを利用することができる。
いくつかの実施形態では、単一のカメラを用いることは割安であり得るが、異なる方向からの画像が異なる時間に取り込まれることも必要とするので、2方向に単一波長IR(例えば、940nm)を用いるときに単一のエミッタおよび2つの検出器を利用することが好ましい可能性がある。異なる時間に画像を取り込む欠点は、たとえ約30Hz(または2つのカメラが同じ解像度を得る場合は15Hz)の取り込み周波数でさえも、その間の運動が判断に影響を及ぼし得ることである。マルチカメラシステムの利点は、画像間の運動が最小限であるように、画像が実質的に同時に取り込まれ得ることである。しかしながら、そのようなアプローチの潜在的な欠点は、画像が2つの異なる視点から取り込まれることに起因して、画像内に光学的なばらつきがあり得ることである。
一実施形態では、単一の検出器が、2つの異なる波長で反射した放射を検出するために使用され得る。例えば、第1のLEDは、網膜によって反射される波長(例えば、940nm)で放射を放出し得、第2のLEDは、人間の目の角膜および/または他の部分によって吸収される波長(例えば、1100nm)で放射を放出し得る。特定波長は、人間の目に対するそれらの反射特性に少なくとも一部基づいて、選択された波長範囲内で選択され得る。例えば、実験は、光が、(典型的な人間の目の場合)約940nm未満で50%よりも少ない吸収率、約940nmと約1030nmとの間で約50%を上回る吸収率、約1040nmと約1100nmとの間の波長で約50%の吸収率、1150nm以上で約100%の吸収率を有することを示す。それ故、これらの範囲の少なくともいくつかの範囲内にあるエミッタ、例えば、50%よりかなり低い吸収率を有する第1のIRエミッタや、50%よりもかなり大きい吸収率を有する第2のIRエミッタなどが、選択され得る。特定波長は、少なくともいくつかの実施形態では、利用可能な装置の波長に更に基づき得る。例えば、比較的低い吸収率を有する904nmで利用可能なレーザーダイオードが選択され得、比較的高い吸収率を有する980nmまたは1064nmで利用可能なレーザーダイオードが選択され得る。いくつかの実施形態では、より高い波長のダイオードの電力出力は、CMOSセンサ(または他のそのような検出器)によって知覚される低い波長のダイオードの輝度に実質的に一致するようにスケールアップされ得、少なくとも1つの実施形態では2つのエミッタが910nmおよび970nmの波長を有するように、それの感度は、約1100nmの値でおよそゼロまで低下し得る)。
2つの波長を用いることの利点は、結果として生じる画像が、各波長に対応する画像情報を取り出すために分解されることができる限り、LEDは放射を同時に放出できることである。そのような画像を分解するための種々のアプローチは、本明細書中の他の箇所に記述される。次いで、LEDは、カメラの近くに両方位置付けられ得るか、あるいは単一のLEDまたはエミッタが、そのLEDが興味対象の(少なくとも)2つの周波数で動作する場合、カメラの近くで使用され得る。
(複数の)エミッタおよび(複数の)検出器、ならびに(複数の)任意の周辺光カメラまたは(複数の)他の画像取り込み素子は、装置のユーザの操作と干渉する可能性が最低限となる位置に、装置上で位置付けられ得る。例えば、標準的なユーザが、装置の両側の中央で、また、主として装置の右側上または底部上で、装置を保持することが判断される場合には、エミッタおよび検出器は、装置の角部に、主として装置の左側上または頂部上に、位置付けられ得る。別の実施形態では、異なる周波数でIRを伝送する装置上に位置付けられた追加的なIRエミッタ(図示しない)があってもよい。どの周波数が検出器によって受信されるかを検出することによって、装置は、ユーザの視線の方位に関して特定の情報を判断し得る。相対的な目の位置を検出するためにIR光を用いる更なる記述は、2010年5月24日に出願され、「Determining Relative Motion as Input」と題された同時係属の米国特許出願第12/786,297号において見つけられ得、その出願は、ここで、すべての目的で参照によって本明細書中に組み込まれる。
いくつかの実施形態では、ユーザが、例えばユーザからの目の反射の強度などの態様を考慮し、ならびに寸法を判断し、方向判断をキャリブレーションするキャリブレーションプロセスに参加することが有用であり得る。そのようなアプローチはまた、ユーザが反射特性を低減する眼鏡を使用する場合などに有用であり得る。
記述のように、他の種類の入力も同様に、種々の目的のためにもたらされ得る。例えば、装置は、装置の裏および/または側部上などの装置600の少なくとも一部の周りに、タッチおよび/または圧力センシティブ素子610を含み得る。そのような器具を用いて、装置は、ユーザが活動的に装置を保持しているかどうかを判断することができ、および/またはユーザが、装置の少なくとも一部を押し込むことによって入力を印加することを可能にさせ得る。入力情報は、ユーザが、手動認証にトリガをかけること、例えば装置の安全な解除を実行することなどを可能にさせるために使用され得る。ユーザは、装置の方に実質的に向き得、装置上のある領域に入力を押し込むまたはスワイプするか、あるいは入力をもたらし得、その時間に、装置は、入力を通して、ユーザが、画面を見ている可能性があることを判断し得、顔面認識または他のそのようなアルゴリズムを用いて処理するために最新のまたは後続の取り込まれる画像情報のフレームを使用し得る。装置はまた、その器具の使用によって、装置のどの部分がユーザの手によって覆われる可能性があるかを判断し得る。そのような実施形態では、複数のカメラおよび/またはIRエミッタは、異なる位置で装置上に位置付けられ得、また、ユーザがどこで装置を保持しているか(すなわち、どのIRエミッタが覆われるかと、それに対して、どのエミッタが覆われないか)に基づいて、システムは、画像を取り込むときにどの(複数の)素子を使用するかを判断し得る。
図6における装置例はまた、別個の検出素子116、例えば動きセンサ、熱特徴検出器、または光センサなども含む。そのような素子は、画像取り込みまたは方位判断プロセスを作動させる目的で、画像が解析されるための十分な照明があるかどうか、ならびに人間が部屋内に潜在的にいるかどうかなどの入力をもたらし得る。更に、光検出センサは、装置が、ユーザの瞳孔を拡大させ得る光または輝度の大きな調整を補償することなどに役立ち得る。例えば、ユーザが暗い部屋内で装置を操作しており、誰かが明かりを付けるとき、ユーザの瞳孔の直径は変わる。上記の例のように、装置が、異なるモードで動作し得る表示素子を含む場合、装置はまた、ユーザの瞳孔の拡大の変化に基づいてモードを交換し得る。装置が、装置とユーザとの間の離隔距離の変化を不適切に解釈しないために、光検出センサは、ユーザの目が固定するまでおよびリキャリブレーションプロセスが実行されるまで、視線追跡を一時的に無効にさせ得る。光のばらつきを補償するための種々の他のそのようなアプローチも同様に、種々の実施形態の範囲内で使用され得る。
図6における装置例600はまた、マイクロフォン614または他のそのような音声取り込み装置を含むことが示される。図4(a)に例示されるように、例えば、装置は、2次元または3次元における音声源の相対的な方向または位置を判断することを助けるために使用され得る複数の音声取り込み素子を含むことができる。少なくともいくつかの実施形態における装置はまた、マイクロフォンによって検出された音に基づいて、種々の行為をトリガすることもできる。例えば、装置が人間からスピーチを検出する場合、装置は、話している人間の位置を突き止めるおよび/またはその人間を識別することを試みるためにビデオ取り込みを作動し得る。
図6の構成例において、ユーザが表示素子におけるインターフェースを見ているときに画像化素子が、この例によれば、ユーザの顔面を含む可視領域を有するように、各画像化素子604、606、616は、表示素子と同じコンピューティング装置の通常側上にある。いくつかの実施形態では、画像化素子は装置に対して固定されるが、他の実施形態では、画像化素子は、例えば、画像化素子、または光を画像化素子に導く光学素子(例えば、レンズ、ミラーなど)を回転することなどによって、ユーザの位置を追跡するよう動作可能であり得る。いくつかの実施形態では、装置は、装置の側部、裏部、または角部上に、あるいは任意の他のそのような位置に、取り込み素子を含み得、その取り込み素子は装置の周りの任意の適切な方向における画像情報を取り込むことができる。いくつかの実施形態では、装置は、装置の周りの異なる位置における複数の人間を同時に画像化して識別し得、それらの人間を種々の素子を用いて経時的に追跡し得る。
図7は、図6に関して記載した装置などのコンピューティング装置例700の基本的な構成要素の組を例示する。ポータブルスマート装置が本明細書中の多くの例において描写されるが、コンピューティング装置は、入力コマンドを受信し処理することが可能な任意の適切な装置、例えば、特に、パーソナルコンピュータ、ラップトップコンピュータ、テレビセットトップボックス、携帯電話、PDA、電子書籍読み取り装置、ビデオゲームシステム、またはポータブルメディアプレーヤーなどとすることができる。この例において、装置は、メモリ装置または素子704内に格納され得る命令を実行するためのプロセッサ702を含む。当技術分野に周知のように、装置は、多くの種類のメモリ、データ記憶装置またはコンピュータ可読媒体、例えば、プロセッサ702による実行用プログラム命令のための第1のデータ記憶装置、画像またはデータのための別個の記憶装置、他の装置と情報を共有するための取り外し可能なメモリなどを含み得る。ポータブルメディアプレーヤーなどの装置は、他の手段によって、例えば音声スピーカなどを通して、情報を運び得るが、装置は、典型的には、いくつかの種類の表示素子706、例えば液晶ディスプレイ(LCD)などを含むことになる。記述のように、多くの実施形態における装置は、少なくとも1つの画像化素子708、例えば、ユーザの顔面領域を画像化することが可能であるカメラ、センサ、または検出器などを含むことになる。画像化素子は、任意の適切な技術、例えば、ユーザが装置を操作しているときにユーザの画像を取り込むために十分な解像度、焦点範囲および可視領域を有するCCD画像化素子などを含み得る。コンピューティング装置で画像化素子を用いて画像を取り込むための方法は、当技術分野においてよく知られており、詳細には本明細書中に記述されないことになる。画像取り込みは、単一の画像、複数の画像、周期的な画像、連続的な画像の取り込み、画像ストリーミングなどを用いて実行され得ることが理解されるべきである。更に、装置は、例えば、ユーザ、アプリケーションまたは他の装置からコマンドを受信するときなどに、画像取り込みを開始するおよび/または停止する機能を含み得る。
いくつかの実施形態では、本明細書中の他の箇所に記述されるように、装置は、適切な画像を選択する際に支援することができる少なくとも1つの方位判断素子710を含み得る。一例では、少なくとも1つの方位判断素子は、例えば、装置の3次元位置および装置の運動の大きさや方向、ならびに振動、衝撃などの要因を検出することが可能である少なくとも1つの単一または複数軸の加速度計である。装置の方位または運動を判断するために加速度計などの素子を用いる方法はまた、当技術分野に周知であり、詳細には本明細書中に記述されないことになる。方位および/または運動を検出するための他の素子は、種々の実施形態の範囲内で方位判断素子の使用と同様に使用され得る。いくつかの実施形態では、方位判断素子は、装置が動いており、ぶれた画像を生成する可能性があるときを判断し得、画像情報は、少なくとも装置の動きに基づいて有用ではない可能性があることになるので、電力を節約するためにこの期間にIRがパルスを発することを阻止し得る。
装置は、ユーザからの従来の入力を受信することが可能な少なくとも1つの追加的な入力装置712を含み得る。この従来の入力は、例えば、押しボタン、タッチパッド、ディスプレイと共に使用されるタッチセンシティブ素子、ホイール、ジョイスティック、キーボード、マウス、キーパッドまたは任意の他のそのような装置もしくは素子を含み得、それによって、ユーザはコマンドを装置に入力し得る。いくつかの装置はまた、音声または他の音声コマンドを受け取るマイクロフォンまたは他の音声取り込み素子を含み得る。例えば、装置は、ボタンを全く含まない可能性があるが、ユーザが装置と接触せずに装置を制御し得るように、視覚および音声コマンドの組み合わせだけによって制御される可能性がある。本明細書中で後に記述されることになるように、これらの追加的な入力装置の機能はまた、判断されたユーザの視線方向または他のそのような情報に少なくとも一部基づいて調整され得るか制御され得る。
いくつかの実施形態では、1つ以上のアイコンまたは他の通知が、IR照明が作動中であることか、または画像認識が実行されていることをユーザに示すために装置上に表示されてもよい。いくつかの実施形態では、装置上の光(例えば、LED)は、ユーザが、プロセスが完了し得るまで装置を見るべきであり相対的に静止したままであるべきことをユーザに合図するために顔面認識が作動されることをユーザに通知するために照射し得る。種々の他の通知も同様に必要に応じて使用され得る。
多くの他のアプローチも同様に、種々の実施形態の範囲内で使用され得る。例えば、熱画像または別のそのようなアプローチが、人間のユーザの少なくともいくつかの態様の位置を判断し追跡することを試みるために使用され得る。多くの場合において、簡易または従来の画像化アプローチおよび構成要素が好まれ得るように、画像化システムは、小さいこと、また、大量マーケティングには十分安価であることが望まれる。一定の既存のカメラは赤外線放射を検出できるが、典型的にIRフィルタを利用する。IRフィルタ無しで、また潜在的に周辺光フィルタを用いて、これらのカメラを利用することは、これらの比較的安価なカメラがIR検出器として使用されることを可能にし得る。
他の従来の素子は、本明細書中に記述したアプローチを実行することが可能なコンピューティング装置の費用を削減するために使用され得るが、正確ではない可能性があり、および/またはより大きな装置を必要とする可能性がある。例えば、反射される光の半分を異なる位置(例えば、センサの一部)に反射させるように、画像は、ビームスプリッタ(例えば、銀張りの鏡)を用いて分割され得る。同様に、光学式干渉計などの種々の光学素子は、正確な距離測定を取得することを試みるために使用され得る。
そのような目的のために使用されるコンピューティング装置は、当技術分野に周知のまたは後で開発される任意の適切な目的のために任意の適切な環境において動作し得る。更に、本明細書中に記述した種々のアプローチは、種々の用途または使用のために種々の環境において実施され得る。解析の一部はまた、より多くの利用可能なリソースおよび/または能力を有し得る遠隔装置に送信され得、またはオフロードされ得る。例えば、図8は、種々の実施形態に係る態様を実施するための環境例800を例示する。理解されるように、ウェブベースの環境が説明の目的で使用されるが、種々の実施形態を実施するために、必要に応じて、異なる環境が使用されてもよい。図示された環境800は、様々な電子クライアント装置802を含み、その電子クライアント装置は、適切なネットワーク804上で要求、メッセージ、または情報を送受信し、情報を装置のユーザに運び戻すよう動作可能な任意の適切な装置を含み得る。そのようなクライアント装置の例は、パーソナルコンピュータ、携帯電話、手持ち式メッセージング装置、ラップトップコンピュータ、セットトップボックス、パーソナルデータアシスタント、電子書籍リーダ、および同様のものを含む。各クライアント装置は、本明細書中に記述したか提案したように、少なくとも1つの動きまたは方位が制御されたインターフェースを動かすことが可能であり得る。いくつかの場合において、インターフェースについての全機能は、装置上で生成されることになる。他の実施形態では、機能またはコンテンツの少なくともいくつかは、少なくとも1つのネットワーク804上から受信した命令または情報に応答して生成されることになる。
ネットワーク804は、イントラネット、インターネット、セルラーネットワーク、ローカルエリアネットワーク、または任意の他のそのようなネットワークあるいはそれらの組み合わせを含む任意の適切なネットワークを含み得る。そのようなシステムに使用される構成要素は、選択されたネットワークおよび/または環境の種類に少なくとも一部依存し得る。そのようなネットワーク経由で通信するためのプロトコルおよび構成要素は、周知であり、詳細には本明細書中に記述されないことになる。ネットワーク上の通信は、有線または無線接続、およびそれらの組み合わせによって可能にされ得る。この例において、環境は主要なコンテンツプロバイダ806と補足的なコンテンツプロバイダ808を含むので、ネットワークはインターネットを含む。各プロバイダは、ユーザ装置802から要求を受信するための、およびそれに応答してコンテンツを供給するための少なくとも1つのウェブサーバ806を含み得るが、他のネットワークの場合、類似の目的にかなう代替の装置が、当業者に明らかであろうように使用され得る。
この例示的な環境における各コンテンツプロバイダは、少なくとも1つのデータストア816、818、824と通信する少なくとも1つのアプリケーションサーバ812、814、822または他のそのようなサーバを含む。適切なデータストアからデータを取得することなどのタスクを実行するために相互作用し得る、連鎖され得、またはそうではなくて構成され得るいくつかのアプリケーションサーバ、レイヤ、および/または他の素子、プロセス、もしくは構成要素があり得ることが理解されるべきである。本明細書中に使用される際、用語「データストア」は、データを格納し、データにアクセスし、およびデータを取り出すことが可能な任意の装置または装置の組み合わせのことを言い、それは、任意の標準の、分散型の、またはクラスタ型の環境におけるデータサーバ、データベース、データ記憶装置、およびデータ記憶媒体の任意の組み合わせや任意の数のものを含み得る。アプリケーションサーバは、クライアント装置について1つ以上のアプリケーションの態様を実行するために、必要に応じて、データストアと統合するための任意の適切なハードウェアおよびソフトウェアを含み得、アプリケーション用のデータアクセスおよびビジネス論理の大部分に対処する。アプリケーションサーバは、データストアと協働してアクセス制御サービスを提供し、ユーザに運ばれるテキスト、グラフィクス、音声、および/またはビデオなどのコンテンツを生成することができ、そのコンテンツは、この例ではHTML、XML、または別の適切な構造化言語の形式で、ウェブサーバによってユーザに供給され得る。全ての要求や応答の処理、ならびにクライアント装置802とアプリケーションサーバとの間のコンテンツの配信は、それぞれのウェブサーバによって対処され得る。本明細書中に記述した構造化コードは、本明細書中の他の箇所に記述されるように任意の適切な装置またはホストマシン上で実行され得るので、ウェブおよびアプリケーションサーバは、必要とされないことと、単なる構成要素例であることが理解されるべきである。更に、環境は、テスト自動化フレームワークがユーザまたはアプリケーションがサブスクライブし得るサービスとして提供され得るような手法で設計され得る。テスト自動化フレームワークは、本明細書中に記述した種々のテストパターンのいずれかの実施として提供され得るが、種々の他の実施も同様に、本明細書中に記述したか提案したように使用され得る。
各データストアは、特定の態様に関連するデータを格納するためのいくつかの別個のデータ表、データベース、または他のデータ記憶機構および媒体を含み得る。例えば、例示されたページデータストア816は、ウェブページを生成するために有用なページデータを格納するための機構を含み、ユーザ情報データストア818は、ユーザ用のウェブページを選択するおよび/またはカスタマイズするために有用な情報を含む。データストア内に格納される必要があり得るアクセス権情報などの多くの他の態様があり得ることが理解されるべきであり、それは、必要に応じて、先に挙げた機構のいずれか内にまたはデータストア内の追加的機構内に、格納され得る。各データストアは、それぞれのアプリケーションサーバから命令を受信し、それに応答してデータを取得し、更新し、またはそうではなくて処理するために、そのデータストアと関連付けられた論理部を通して、動作可能である。一例では、ユーザは、コンテンツの一定の種類についての検索要求を提起し得る。この場合において、データストアは、ユーザの身元を確証するためにユーザ情報にアクセスし得、また、その種類のコンテンツのインスタンスについての情報を取得するためにコンテンツ情報にアクセスし得る。次いで、その情報は、例えば、ユーザがユーザ装置802上のブラウザ経由で見ることが可能なウェブページ上に列記している結果などにおいて、ユーザに戻され得る。コンテンツの特定のインスタンスについての情報は、ブラウザの専用ページまたはウィンドウにおいて見られ得る。
各サーバは、典型的には、そのサーバの一般管理および操作について実行可能なプログラム命令を提供するオペレーティングシステムを含むことになり、また、典型的には、サーバのプロセッサによって実行されるとき、サーバがそれの意図された機能を実行することを可能にする命令を格納しているコンピュータ可読媒体を含むことになる。サーバのオペレーティングシステムおよび一般機能についての適切な実施は、周知であるか、あるいは商業的に利用可能であり、特に本明細書中の開示に照らして、当業者によって容易に実施される。
一実施形態における環境は、1つ以上のコンピュータネットワークまたは直接接続を用いて、通信リンク経由で相互に接続するいくつかのコンピュータシステムおよび構成要素を利用する分散型コンピューティング環境である。しかしながら、そのようなシステムが、図8に例示されたものより少ないまたは多い数の構成要素を有するシステムにおいて同様にうまく動作し得ることは、当業者によって理解されるであろう。それ故、図8におけるシステム800の描写は、本質的に例示的なものとみなされるべきであり、開示の範囲に限定されるべきではない。
本明細書中に記述したか提案した種々の実施形態は、多種多様のオペレーティング環境において実施され得、その環境は、いくつかの場合において、多数のアプリケーションのうちのいずれかを動作させるために使用され得る1つ以上のユーザコンピュータ、コンピューティング装置、または処理装置を含み得る。ユーザまたはクライアント装置は、多数の汎用のパーソナルコンピュータのいずれか、例えば、標準オペレーティングシステムを動作させるデスクトップまたはラップトップコンピュータ、ならびに、モバイルソフトウェアを動作させるとともに多数のネットワーキングおよびメッセージングプロトコルを支援可能なセルラー式の、無線の、および手持ち式の装置を含み得る。そのようなシステムはまた、開発およびデータベース管理などの目的のために種々の商業的に利用可能なオペレーティングシステムおよび他の周知のアプリケーションのいずれかを動作させる多数のワークステーションも含み得る。これらの装置はまた、他の電子装置、例えばダミー端末、シン・クライアント、ゲームシステム、およびネットワーク経由で通信することが可能な他の装置なども含み得る。
大部分の実施形態は、種々の商業的に利用可能なプロトコルのいずれか、例えばTCP/IP、OSI、FTP、UPnP、NFS、CIFS、およびAppleTalkなどを用いて通信を支援するために当業者によく知られるであろう少なくとも1つのネットワークを利用する。ネットワークは、例えば、ローカルエリアネットワーク、ワイドエリアネットワーク、仮想私設ネットワーク、インターネット、イントラネット、エクストラネット、公衆交換電話ネットワーク、赤外線ネットワーク、無線ネットワーク、およびそれらの任意の組み合わせとすることができる。
ウェブサーバを利用する実施形態では、ウェブサーバは、種々のサーバまたは中間層アプリケーションのいずれかを動作し得、HTTPサーバ、FTPサーバ、CGIサーバ、データサーバ、Java(登録商標)サーバ、およびビジネスアプリケーションサーバを含む。(複数の)サーバはまた、例えば任意のプログラミング言語、例えばJava(登録商標)、C、C#もしくはC++など、または任意のスクリプト言語、例えばPerl、Python、もしくはTCLなど、ならびにそれらの組み合わせで書かれた1つ以上のスクリプトもしくはプログラムとして実装され得る1つ以上のウェブアプリケーションを実行することなどによって、ユーザ装置からの要求に応答してプログラムまたはスクリプトを実行することが可能であり得る。(複数の)サーバはまた、データベースサーバも含み得、制約無しに、Oracle(登録商標)、Microsoft(登録商標)、Sybase(登録商標)、およびIBM(登録商標)から商業的に利用可能なものを含む。
環境は、上記のように種々のデータストアおよび他のメモリや記憶媒体を含み得る。これらは、種々の位置、例えば、コンピュータの1つ以上にローカルな、(および/またはコンピュータの1つ以上内にある)記憶媒体上に、あるいはネットワークにわたるコンピュータのいずれかまたは全てから遠隔の記憶媒体上にあり得る。実施形態の特定の組において、情報は、当業者によく知られた記憶エリアネットワーク(「SAN」)内にあり得る。同様に、コンピュータ、サーバ、または他のネットワーク装置に帰属する機能を実行するための任意の必要なファイルは、必要に応じて、ローカルにおよび/または遠隔に格納されてもよい。システムがコンピュータ化された装置を含む場合、そのような装置のそれぞれは、バス経由で電気的に結合され得るハードウェア素子、例えば、少なくとも1つの中央処理装置(CPU)、少なくとも1つの入力装置(例えば、マウス、キーボード、コントローラ、タッチスクリーン、またはキーパッド)、および少なくとも1つの出力装置(例えば、表示装置、プリンタ、またはスピーカ)を含む素子を含み得る。そのようなシステムはまた、1つ以上の記憶装置、例えばディスクドライブ、光学式記憶装置、およびランダムアクセスメモリ(「RAM」)または読み取り専用メモリ(「ROM」)などの固体記憶装置、ならびに取り外し可能な媒体装置、メモリカード、フラッシュカードなども含み得る。
そのような装置はまた、上記のように、コンピュータ可読記憶媒体リーダ、通信装置(例えば、モデム、ネットワークカード(無線または有線)、赤外線通信装置など)、およびワーキングメモリを含み得る。コンピュータ可読記憶媒体リーダは、遠隔の、ローカルの、固定のおよび/または取り外し可能な記憶装置のみならず、コンピュータ可読情報を一時的におよび/またはより多く持続的に含むための、格納するための、伝送するための、ならびに取り出すための記憶媒体に相当する、コンピュータ可読記憶媒体と接続され得、またはコンピュータ可読記憶媒体を受け入れるように構成され得る。システムおよび種々の装置はまた、典型的に、オペレーティングシステムやアプリケーションプログラム、例えばクライアントアプリケーションまたはウェブブラウザなどを含む、多数のソフトウェアアプリケーション、モジュール、サービス、または少なくとも1つのワーキングメモリ装置内に位置する他の素子を含むことになる。代替の実施形態は、上記のものからの非常に多くの変形を有し得ることが理解されるべきである。例えば、カスタマイズされたハードウェアがまた使用され得、および/または特定の素子が、ハードウェア、(アプレットなどのポータブルソフトウェアを含む)ソフトウェア、または両方において実装され得る。更に、ネットワーク入出力装置などの他のコンピューティング装置への接続が使用されてもよい。
コード、またはコードの一部を含むための記憶媒体およびコンピュータ可読媒体は、当技術分野において知られるか使用される任意の適切な媒体を含み得、記憶媒体および通信媒体、例えば、限定されるものではないが、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するならびに/あるいは伝送するための任意の方法もしくは技術において実施される揮発性および不揮発性、取り外し可能なおよび取り外し不可能な媒体を含み、RAM、ROM、EEPROM(登録商標)、フラッシュメモリもしくは他のメモリ技術、CD‐ROM、デジタル多用途ディスク(DVD)もしくは他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を格納するために使用され得るとともにシステム装置によってアクセスされ得る任意の他の媒体を含む。本明細書に提供された開示および教示に基づいて、当業者は、種々の実施形態を実施するための他の手法および/または方法を理解するであろう。
従って、明細書および図面は、限定的な意図ではなくて、例示的な意図のものとみなされる。しかしながら、種々の修正および変更が、特許請求の範囲に既定されるような発明の広い趣旨や範囲から逸脱することなく、その明細書および図面になされ得ることは、明らかであろう。
付記
1.顔面認識のためにビデオフレームを選択するコンピュータで実施される方法であって、
実行可能な命令で構成された1つ以上のコンピューティングシステムの制御下で、
電子装置上のビデオ情報の取り込みを開始することと、
人間の頭部を示す前記ビデオ情報における少なくとも1つの特徴を検出することと、
前記少なくとも1つの特徴を検出することに応答して、前記人間を赤外線(IR)光の少なくとも1つの波長で照射し、前記人間から反射し戻るIR光を検出するよう動作可能な前記電子装置の少なくとも1つのIR画像化機構を作動させることと、
前記反射したIR光において前記人間の瞳孔に対応する特徴を検出することと、
前記反射したIR光における前記検出された特徴の方位、測定、または焦点のレベルの少なくとも1つを判断するために前記検出された特徴を解析することと、
前記検出された特徴の前記方位、測定、または焦点のレベルの少なくとも1つが特定の選択基準に合うときにビデオ情報の現在のフレームを選択することと、
前記選択されたフレーム上で顔面認識を実行することと、を含む、コンピュータで実施される方法。
2.ビデオ情報の現在のフレームを選択することは、検出されたIR反射が、人間の目に対応する前記検出された特徴を示すという判断に更に基づく、付記1のコンピュータで実施される方法。
3.前記少なくとも1つのIR画像化機構は、特定周波数の放出でIR光のパルスを放出するよう動作可能である、付記1のコンピュータで実施される方法。
4.ビデオ情報の取り込みを開始する前に前記電子装置の近くの動きを検出することを更に含む、付記1のコンピュータで実施される方法。
5.処理のために画像フレームを選択するコンピュータで実施される方法であって、
実行可能な命令で構成された1つ以上のコンピューティングシステムの制御下で、
少なくとも1つの画像取り込み素子を用いて取り込まれた一連の画像フレームを取得することと、
前記一連の画像フレームの少なくとも一部における人間の相対的方位を判断するために、前記一連の画像フレームを取得する頃に、少なくとも1つの方位判断プロセスを実行することと、
前記人間が、選択される画像フレームの取り込みの時間に実質的に対応する時間に前記少なくとも1つの画像取り込み素子の方に実質的に向いているという、前記少なくとも1つの方位判断プロセスによる判断に応答して、前記一連から前記画像フレームの1つを選択することと、
前記選択されたフレームを処理のために提供することと、を含む、コンピュータで実施される方法。
6.前記少なくとも1つの方位プロセスは、
前記少なくとも1つの画像取り込み素子の取り込み方向においてIR放射の少なくとも1つの波長を放出することと、
反射したIR放射を検出することと、
人間の目に対応する前記反射したIR放射における1つ以上の特徴の位置を突き止めることと、を含む、付記5のコンピュータで実施される方法。
7.前記少なくとも1つの方位プロセスは、
少なくとも2つの音声取り込み素子を用いて音声情報を取り込むことと、
少なくとも前記音声情報の源の方向を判断することと、を含み、
前記画像フレームの1つを選択することは、前記判断された方向に少なくとも一部更に基づく、付記6のコンピュータで実施される方法。
8.前記少なくとも1つの方位プロセスは、
前記少なくとも1つの取り込み素子を含む電子装置の一部に関する動きまたは圧力の少なくとも1つを判断することを含み、前記動きまたは圧力は、前記電子装置に識別されることになる人間からの入力に対応する、付記6のコンピュータで実施される方法。
9.前記画像フレームの1つを選択することは、前記少なくとも1つの画像取り込み素子が、画像化される人間に対して実質的に静止していることを判断される時間に対応する画像フレームを選択することを含む、付記5のコンピュータで実施される方法。
10.前記画像フレームの1つを選択することは、動きセンサが、前記少なくとも1つの画像取り込み素子に対して前記画像フレームにおいて取り込まれることが可能な対象の運動の最大閾値未満を検出する時間に対応する画像フレームを選択することを含む、付記5のコンピュータで実施される方法。
11.前記少なくとも1つの画像取り込み素子は、検出された動き、検出された熱特徴、検出されたIR反射の種類、または音声情報の閾値量の少なくとも1つに応答して、前記一連の画像を取り込むように構成される、付記5のコンピュータで実施される方法。
12.前記少なくとも1つの方位判断プロセスを実行する前に、少なくとも1つの頭部検出プロセスを実行することを更に含む、付記5のコンピュータで実施される方法。
13.前記少なくとも1つの方位判断プロセスは、人間の顔面の形状または輪郭に一致する前記一連の画像における少なくとも1つの特徴の位置を突き止めることに応答して、開始される、付記12のコンピュータで実施される方法。
14.処理することは、前記選択されたフレーム上で顔面認識または識別認証を実行することの少なくとも1つを含む、付記5のコンピュータで実施される方法。
15.前記一連から前記画像フレームの1つを選択することは、前記少なくとも1つの方位判断プロセスにおいて検出されるぶれの判断量に少なくとも一部更に依存する、付記5のコンピュータで実施される方法。
16.前記少なくとも1つの方位判断プロセスは、3次元の、立体的な、またはマルチカメラの画像化の少なくとも1つを含む、付記5のコンピュータで実施される方法。
17.前記選択されたフレームにおいて取り込まれたユーザの身元を認証することに応答して、判断された機能に安全にアクセスできることを更に含む、付記5のコンピュータで実施される方法。
18.顔面認識のためにビデオフレームを選択するコンピュータで実施される方法であって、
実行可能な命令で構成された1つ以上のコンピューティングシステムの制御下で、
電子装置の近くの動きを検出することと、
動きを検出することに応答して、赤外線(IR)光の少なくとも1つの波長でIR画像化機構の視野内の人間を照射し、前記人間から反射し戻ったIR光を検出するよう動作可能な前記電子装置の少なくとも1つの前記IR画像化機構を作動させることと、
前記反射したIR光において前記人間の角膜に対応する特徴を検出することと、
前記特徴の検出に応答して、前記電子装置上でビデオ情報の取り込みを開始することと、
前記検出された特徴の方位、測定、または焦点のレベルの少なくとも1つが特定の選択基準に合うときに、ビデオ情報の現在のフレームを選択することと、
前記選択されたフレーム上で顔面認識を実行することと、を含む、コンピュータで実施される方法。
19.ビデオ情報の現在のフレームを選択することは、前記反射したIRが、実際の人間の目に対応する特徴であって、人間の目の画像ではない前記検出された特徴を示すという判断に更に基づく、付記18のコンピュータで実施される方法。
20.前記少なくとも1つのIR画像化機構は、赤外線源に実質的に隣接する第1のセンサと、前記電子装置上で前記赤外線源から離れた距離に位置付けられた第2のセンサとを含む、付記18のコンピュータで実施される方法。
21.コンピューティング装置であって、
プロセッサと、
少なくとも1つの画像取り込み素子と、
命令であって、前記プロセッサによって実行されるときに、前記コンピューティング装置に、
少なくとも1つの画像取り込み素子を用いて取り込まれた一連の画像フレームを取得させ、
前記一連の画像フレームの少なくとも一部における人間の相対的方位を判断するために、前記一連の画像フレームを取得する頃に少なくとも1つの方位判断プロセスを実行させ、
前記人間が、選択される画像フレームの取り込みの時間に実質的に対応する時間に前記コンピューティング装置の方に実質的に向いているという、前記少なくとも1つの方位判断プロセスによる判断に応答して、前記一連から前記画像フレームの1つを選択させ、
前記選択されたフレーム上で顔面認識を実行させる、命令を含むメモリ装置と、を備える、コンピューティング装置。
22.少なくとも1つの赤外線(IR)エミッタと、
少なくとも1つのIR受信機と、を更に備え、
前記少なくとも1つの方位プロセスは、
少なくとも1つのIRエミッタを用いてIR放射の少なくとも1つの波長を放出することと、
前記電子装置の少なくとも1つのIR検出器を用いて反射したIR放射を検出することと、
人間の目に対応する前記反射したIR放射における1つ以上の特徴の位置を突き止めることと、を含む、付記21のコンピューティング装置。
23.少なくとも2つの音声取り込み素子を更に備え、
前記少なくとも1つの方位プロセスは、
少なくとも2つの音声取り込み素子を用いて音声情報を取り込むことと、
少なくとも前記音声情報の源の方向を判断することと、を含み、
前記画像フレームの1つを選択することは、前記判断された方向に少なくとも一部更に基づく、付記21のコンピューティング装置。
24.前記コンピューティング装置の筺体の少なくとも一部上にタッチセンシティブ器具または圧力センシティブ器具の少なくとも1つを更に備え、
前記少なくとも1つの方位プロセスは、前記少なくとも1つの取り込み素子を含む電子装置の一部に関する動きまたは圧力の少なくとも1つを判断することを含み、前記動きまたは圧力は、前記電子装置に識別されることになる人間からの入力に対応する、付記21のコンピューティング装置。
25.少なくとも1つの動き判断素子を更に備え、
前記一連から前記画像フレームの1つを前記選択することは、前記少なくとも1つの動き判断素子によって判断されるように、前記コンピューティング装置が、実質的に静止していることに更に基づく、付記21のコンピューティング装置。
26.処理用の画像フレームを選択するために命令を格納する非一時的コンピュータ可読記憶媒体であって、プロセッサによって実行されるときに、前記命令が、前記プロセッサに、
少なくとも1つの画像取り込み素子を用いて取り込まれた一連の画像フレームを取得させ、
前記一連の画像フレームの少なくとも一部における人間の相対的方位を判断するために、前記一連の画像フレームを取得する頃に少なくとも1つの方位判断プロセスを実行させ、
前記人間が、選択される画像フレームの取り込みの時間に実質的に対応する時間に前記コンピューティング装置の方に実質的に向いているという、前記少なくとも1つの方位判断プロセスによる判断に応答して、前記一連から前記画像フレームの1つを選択させ、
前記選択されたフレーム上で顔面認識を実行させる、非一時的コンピュータ可読記憶媒体。
27.前記命令は、実行されるときに、前記プロセッサに、更に、
前記少なくとも1つの画像取り込み素子の取り込み方向においてIR放射の少なくとも1つの波長を放出させ、
反射したIR放射を検出させ、
人間に対応する前記反射したIR放射における1つ以上の特徴の位置を突き止めさせる、付記26の非一時的コンピュータ可読記憶媒体。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]処理用の画像フレームを選択するコンピュータで実施される方法であって、
実行可能な命令で構成された1つ以上のコンピューティングシステムの制御下で、
少なくとも1つの画像取り込み素子を用いて取り込まれた一連の画像フレームを取得することと、
前記一連の画像フレームの少なくとも一部において人間の相対的方位を判断するために、前記一連の画像フレームを取得する頃に少なくとも1つの方位判断プロセスを実行することと、
前記人間が、選択される画像フレームの取り込みの時間に実質的に対応する時間に前記少なくとも1つの画像取り込み素子の方に実質的に向いているという、前記少なくとも1つの方位判断プロセスによる判断に応答して、前記一連から前記画像フレームの1つを選択することと、
処理のために前記選択されたフレームを提供することと、を含む、コンピュータで実施される方法。
[2]前記少なくとも1つの方位プロセスは、
前記少なくとも1つの画像取り込み素子の取り込み方向においてIR放射の少なくとも1つの波長を放出することと、
反射したIR放射を検出することと、
人間の目に対応する前記反射したIR放射における1つ以上の特徴の位置を突き止めることと、を含む、[1]に記載のコンピュータで実施される方法。
[3]前記少なくとも1つの方位プロセスは、
少なくとも2つの音声取り込み素子を用いて音声情報を取り込むことと、
少なくとも前記音声情報の源の方向を判断することと、を含み、
前記画像フレームの1つを選択することは、前記判断された方向の少なくとも一部に更に基づく、[1]に記載のコンピュータで実施される方法。
[4]前記少なくとも1つの方位プロセスは、
前記少なくとも1つの取り込み素子を含む電子装置の一部に関する動きまたは圧力の少なくとも1つを判断することを含み、前記動きまたは圧力は、前記電子装置に識別されることになる人間からの入力に対応する、[1]に記載のコンピュータで実施される方法。
[5]前記画像フレームの1つを選択することは、前記少なくとも1つの画像取り込み素子が、画像化される人間に対して実質的に静止していることを判断される時間に対応する画像フレームを選択することを含む、[1]に記載のコンピュータで実施される方法。
[6]前記画像フレームの1つを選択することは、動きセンサが、前記少なくとも1つの画像取り込み素子に関して前記画像フレームにおいて取り込まれることが可能な対象の運動の最大閾値未満を検出する時間に対応する画像フレームを選択することを含む、[1]に記載のコンピュータで実施される方法。
[7]前記少なくとも1つの画像取り込み素子は、検出された動き、検出された熱特徴、検出されたIR反射の種類、または音声情報の閾値量の少なくとも1つに応答して、前記一連の画像を取り込むように構成される、[1]に記載のコンピュータで実施される方法。
[8]前記少なくとも1つの方位判断プロセスは、人間の顔面の形状または輪郭に一致する前記一連の画像における少なくとも1つの特徴の位置を突き止めることに応答して開始される、[1]に記載のコンピュータで実施される方法。
[9]処理することは、前記選択されたフレーム上で顔面認識または識別認証を実行することの少なくとも1つを含む、[1]に記載のコンピュータで実施される方法。
[10]前記選択されたフレームにおいて取り込まれたユーザの身元を認証することに応答して判断された機能に安全にアクセスできるようにすることを更に含む、[1]に記載のコンピュータで実施される方法。
[11]コンピューティング装置であって、
プロセッサと、
少なくとも1つの画像取り込み素子と、
命令であって、前記プロセッサによって実行されるときに、前記コンピューティング装置に、
少なくとも1つの画像取り込み素子を用いて取り込まれた一連の画像フレームを取得させ、
前記一連の画像フレームの少なくとも一部において人間の相対的方位を判断するために、前記一連の画像フレームを取得する頃に少なくとも1つの方位判断プロセスを実行させ、
前記人間が、選択される画像フレームの取り込みの時間に実質的に対応する時間に前記コンピューティング装置の方へ実質的に向いているという、前記少なくとも1つの方位判断プロセスによる判断に応答して、前記一連から前記画像フレームの1つを選択させ、
前記選択されたフレーム上で顔面認識を実行させる、命令を含むメモリ装置と、を備える、コンピューティング装置。
[12]少なくとも1つの赤外線(IR)エミッタと、
少なくとも1つのIR受信機と、を更に備え、
前記少なくとも1つの方位プロセスは、
少なくとも1つのIRエミッタを用いてIR放射の少なくとも1つの波長を放出することと、
電子装置の少なくとも1つのIR検出器を用いて反射したIR放射を検出することと、
人間の目に対応する前記反射したIR放射における1つ以上の特徴の位置を突き止めることと、を含む、[11]に記載のコンピューティング装置。
[13]少なくとも2つの音声取り込み素子を更に備え、
前記少なくとも1つの方位プロセスは、
少なくとも2つの音声取り込み素子を用いて音声情報を取り込むことと、
少なくとも前記音声情報の源の方向を判断することと、を含み
前記画像フレームの1つを選択することは、前記判断された方向に少なくとも一部更に基づく、[11]に記載のコンピューティング装置。
[14]前記コンピューティング装置の筺体の少なくとも一部上にタッチセンシティブ器具または圧力センシティブ器具の少なくとも1つを更に備え、
前記少なくとも1つの方位プロセスは、前記少なくとも1つの取り込み素子を含む電子装置の一部に関する動きまたは圧力の少なくとも1つを判断することを含み、前記動きまたは圧力は、前記電子装置に識別されることになる人間からの入力に対応する、[11]に記載のコンピューティング装置。
[15]少なくとも1つの動き判断素子を更に備え、
前記一連から前記画像フレームの1つを前記選択することは、前記コンピューティング装置が、前記少なくとも1つの動き判断素子によって判断されるように、実質的に静止していることに更に基づく、[11]に記載のコンピューティング装置。

Claims (10)

  1. コンピュータシステムにおいて、
    少なくとも1つの波長の赤外(IR)光の少なくとも1つの源と、
    前記少なくとも1つの波長のIR光を取り込むように構成されている少なくとも1つのセンサと、
    少なくとも1つのプロセッサと、
    命令を含むメモリとを具備し、
    前記命令は、前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムに、
    前記少なくとも1つの波長のIR光により人間を照光するように、前記少なくとも1つの源を起動させ、
    前記少なくとも1つのセンサから第1の画像データを受け取らせ、
    前記第1の画像データによって表され、前記人間の瞳孔に潜在的に対応する特徴を、反射されたIR光中で検出させ、
    前記第1の画像データを解析させて、前記第1の画像データ中に前記瞳孔が表されていることを決定させ、
    前記瞳孔が前記第1の画像データ中に表されていることに少なくとも部分的に基づいて、前記第1の画像データの一部を選択させ、および
    前記第1の画像データの前記一部について顔面認識を実行させるコンピュータシステム。
  2. 少なくとも1つの画像センサをさらに具備し、
    前記メモリは、
    前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムにさらに、
    前記少なくとも1つの画像センサを使用させて、前記人間の第2の画像データを発生させ、
    前記第2の画像データ上で顔面認識を実行させる命令を含む請求項1記載のコンピュータシステム。
  3. 前記メモリは、
    前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムにさらに、
    前記第1の画像データを解析させて、前記少なくとも1つのセンサの方に前記人間が実質的に向いていることを決定させ、
    前記少なくとも1つのセンサの方に前記人間が実質的に向いていることを決定することに応答して、前記第2の画像データを発生させる命令を含む請求項2記載のコンピュータシステム。
  4. 少なくとも1つの音声センサをさらに具備し、
    前記メモリは、
    前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムにさらに、
    前記少なくとも1つの音声センサを使用させて、音声データを発生させ、
    前記音声データ上で音声認識を実行させる命令を含む請求項1記載のコンピュータシステム。
  5. 少なくとも1つのビデオセンサをさらに具備し、
    前記メモリは、
    前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムにさらに、
    前記少なくとも1つのビデオセンサを使用させて、ビデオデータを発生させ、
    人間の頭部を示す少なくとも1つの特徴を、前記ビデオデータ中で検出させ、
    前記少なくとも1つの特徴を検出することに応答して、前記少なくとも1つの波長のIR光により前記人間を照光するように、前記少なくとも1つの源を起動させる命令を含む請求項1記載のコンピュータシステム。
  6. 少なくとも1つの動きセンサをさらに具備し、
    前記メモリは、
    前記少なくとも1つのプロセッサによって実行されるとき、前記コンピュータシステムにさらに、
    前記少なくとも1つの動きセンサを使用させて、前記コンピュータシステムの近くの動きを検出させ、
    前記動きを検出することに応答して、前記少なくとも1つのビデオセンサを使用させて、前記ビデオデータを発生させる命令を含む請求項5記載のコンピュータシステム。
  7. 前記少なくとも1つの源は、特定パルス周波数においてIR光のパルスを放出するように動作可能である請求項1記載のコンピュータシステム。
  8. 実行可能な命令を有するように構成されている1つ以上のコンピュータシステムの制御下で、コンピュータにより実現される方法において、
    前記方法は、
    赤外(IR)光の少なくとも1つの源を起動させ、前記源は、少なくとも1つの波長のIR光により人間を照光するように構成されていることと、
    前記少なくとも1つの波長のIR光を取り込むように構成されている少なくとも1つのセンサから、第1の画像データを受け取ることと、
    前記第1の画像データによって表され、前記人間の瞳孔に潜在的に対応する特徴を、反射されたIR光中で検出することと、
    前記第1の画像データを解析して、前記第1の画像データ中に前記瞳孔が表されていることを決定することと、および
    前記第1の画像データの一部について顔面認識を実行することとを含むコンピュータにより実現される方法。
  9. 前記第1の画像データを解析して、前記少なくとも1つのセンサの方に前記人間が実質的に向いていることを決定することと、
    前記少なくとも1つのセンサの方に前記人間が実質的に向いていることを決定することに応答して、少なくとも1つの画像センサを使用して、第2の画像データを発生させることと、
    前記第2の画像データ上で顔面認識を実行することとをさらに含む請求項8記載のコンピュータにより実現される方法。
  10. 少なくとも1つの音声センサを使用して、音声データを発生させることと、
    前記音声データ上で音声認識を実行することとをさらに含む請求項8記載のコンピュータにより実現される方法。
JP2016157490A 2011-06-10 2016-08-10 ビデオにおける改良型の顔面認識 Active JP6342458B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/158,328 2011-06-10
US13/158,328 US8705812B2 (en) 2011-06-10 2011-06-10 Enhanced face recognition in video

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014514880A Division JP5989768B2 (ja) 2011-06-10 2012-06-08 ビデオにおける改良型の顔面認識

Publications (2)

Publication Number Publication Date
JP2017021812A JP2017021812A (ja) 2017-01-26
JP6342458B2 true JP6342458B2 (ja) 2018-06-13

Family

ID=47293239

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014514880A Expired - Fee Related JP5989768B2 (ja) 2011-06-10 2012-06-08 ビデオにおける改良型の顔面認識
JP2016157490A Active JP6342458B2 (ja) 2011-06-10 2016-08-10 ビデオにおける改良型の顔面認識

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2014514880A Expired - Fee Related JP5989768B2 (ja) 2011-06-10 2012-06-08 ビデオにおける改良型の顔面認識

Country Status (5)

Country Link
US (3) US8705812B2 (ja)
EP (1) EP2718871B1 (ja)
JP (2) JP5989768B2 (ja)
CN (2) CN109446947B (ja)
WO (1) WO2012170803A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705812B2 (en) * 2011-06-10 2014-04-22 Amazon Technologies, Inc. Enhanced face recognition in video
US9348466B2 (en) * 2011-06-24 2016-05-24 Hewlett-Packard Development Company, L.P. Touch discrimination using fisheye lens
US20130050395A1 (en) * 2011-08-29 2013-02-28 DigitalOptics Corporation Europe Limited Rich Mobile Video Conferencing Solution for No Light, Low Light and Uneven Light Conditions
US9129400B1 (en) * 2011-09-23 2015-09-08 Amazon Technologies, Inc. Movement prediction for image capture
US8971574B2 (en) * 2011-11-22 2015-03-03 Ulsee Inc. Orientation correction method for electronic device used to perform facial recognition and electronic device thereof
US9082004B2 (en) * 2011-12-15 2015-07-14 The Nielsen Company (Us), Llc. Methods and apparatus to capture images
US10150025B2 (en) * 2012-02-10 2018-12-11 Envisionbody, Llc Process to aid in motivation of personal fitness, health monitoring and validation of user
US10216266B2 (en) * 2013-03-14 2019-02-26 Qualcomm Incorporated Systems and methods for device interaction based on a detected gaze
TWI637348B (zh) * 2013-04-11 2018-10-01 緯創資通股份有限公司 影像顯示裝置和影像顯示方法
US9342877B2 (en) * 2013-08-22 2016-05-17 Glasses.Com Inc. Scaling a three dimensional model using a reflection of a mobile device
WO2015035447A1 (en) * 2013-09-12 2015-03-19 Wolfson Dynamic Hearing Pty Ltd Multi-channel microphone mapping
US10489912B1 (en) * 2013-12-20 2019-11-26 Amazon Technologies, Inc. Automated rectification of stereo cameras
US9483997B2 (en) 2014-03-10 2016-11-01 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using infrared signaling
US9462230B1 (en) 2014-03-31 2016-10-04 Amazon Technologies Catch-up video buffering
US20150317464A1 (en) * 2014-04-30 2015-11-05 Motorola Mobility Llc Selective Infrared Filtering for Imaging-Based User Authentication and Visible Light Imaging
US9696414B2 (en) 2014-05-15 2017-07-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using sonic signaling
US10070291B2 (en) 2014-05-19 2018-09-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth
JP6371637B2 (ja) * 2014-08-21 2018-08-08 任天堂株式会社 情報処理装置、情報処理システム、情報処理プログラム、および情報処理方法
JP6383218B2 (ja) * 2014-08-21 2018-08-29 任天堂株式会社 情報処理装置、情報処理システム、情報処理プログラム、および情報処理方法
US9817635B1 (en) 2015-02-24 2017-11-14 Open Invention Netwotk LLC Processing multiple audio signals on a device
US20170285739A1 (en) * 2016-04-04 2017-10-05 International Business Machines Corporation Methods and Apparatus for Repositioning a Computer Display Based on Eye Position
US10509952B2 (en) 2016-08-30 2019-12-17 Irida Labs S.A. Fast, embedded, hybrid video face recognition system
CN107273840A (zh) * 2017-06-08 2017-10-20 天津大学 一种基于现实世界图像的面部识别方法
DE102017115136A1 (de) * 2017-07-06 2019-01-10 Bundesdruckerei Gmbh Vorrichtung und Verfahren zur Erfassung von biometrischen Merkmalen eines Gesichts einer Person
CN108564052A (zh) * 2018-04-24 2018-09-21 南京邮电大学 基于mtcnn的多摄像头动态人脸识别系统与方法
KR20190130797A (ko) * 2018-05-15 2019-11-25 삼성전자주식회사 전자 장치의 객체 인증 장치 및 방법
US10607064B2 (en) * 2018-05-21 2020-03-31 Himax Technologies Limited Optical projection system and optical projection method
US11430447B2 (en) * 2019-11-15 2022-08-30 Qualcomm Incorporated Voice activation based on user recognition

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0761314B2 (ja) * 1991-10-07 1995-07-05 コナミ株式会社 網膜反射光量測定装置及び該装置を用いた視線検出装置
JP3119558B2 (ja) * 1994-05-16 2000-12-25 ホーユーテック株式会社 顔画像データ取り込み方法および装置並びにシステム
JP3902664B2 (ja) * 1996-06-06 2007-04-11 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 個人識別
JPH10243494A (ja) * 1997-03-03 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 顔方向認識方法及び装置
US6757422B1 (en) * 1998-11-12 2004-06-29 Canon Kabushiki Kaisha Viewpoint position detection apparatus and method, and stereoscopic image display system
GB9908545D0 (en) * 1999-04-14 1999-06-09 Canon Kk Image processing apparatus
US7095901B2 (en) 2001-03-15 2006-08-22 Lg Electronics, Inc. Apparatus and method for adjusting focus position in iris recognition system
US6920236B2 (en) * 2001-03-26 2005-07-19 Mikos, Ltd. Dual band biometric identification system
US7027619B2 (en) * 2001-09-13 2006-04-11 Honeywell International Inc. Near-infrared method and system for use in face detection
CA2359269A1 (en) * 2001-10-17 2003-04-17 Biodentity Systems Corporation Face imaging system for recordal and automated identity confirmation
US6665426B1 (en) * 2002-01-29 2003-12-16 West Virginia University Research Corporation Method of biometric identification of an individual and associated apparatus
WO2004004320A1 (en) * 2002-07-01 2004-01-08 The Regents Of The University Of California Digital processing of video images
US7634662B2 (en) 2002-11-21 2009-12-15 Monroe David A Method for incorporating facial recognition technology in a multimedia surveillance system
JP2004252511A (ja) * 2003-02-18 2004-09-09 Hitachi Ltd 顔向き推定方法
JP2004295572A (ja) * 2003-03-27 2004-10-21 Matsushita Electric Ind Co Ltd 認証対象画像撮像装置及びその撮像方法
EP1653279B1 (en) * 2003-07-15 2019-02-06 Omron Corporation Object decision device and imaging device
US7324664B1 (en) 2003-10-28 2008-01-29 Hewlett-Packard Development Company, L.P. Method of and system for determining angular orientation of an object
JP2005227957A (ja) * 2004-02-12 2005-08-25 Mitsubishi Electric Corp 最適顔画像記録装置及び最適顔画像記録方法
JP4059224B2 (ja) * 2004-04-13 2008-03-12 株式会社デンソー 運転者の外観認識システム
EP1938622A2 (en) * 2005-04-13 2008-07-02 Pixel Instruments, Corp Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
US7469060B2 (en) * 2004-11-12 2008-12-23 Honeywell International Inc. Infrared face detection and recognition system
KR100608596B1 (ko) * 2004-12-28 2006-08-03 삼성전자주식회사 얼굴 검출을 기반으로 하는 휴대용 영상 촬영 기기 및영상 촬영 방법
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
DE602006021760D1 (de) * 2005-09-27 2011-06-16 Penny Ab Vorrichtung zur kontrolle eines externen geräts
JP2008052510A (ja) * 2006-08-24 2008-03-06 Oki Electric Ind Co Ltd 虹彩撮像装置、虹彩認証装置、虹彩撮像方法、虹彩認証方法
US7860382B2 (en) * 2006-10-02 2010-12-28 Sony Ericsson Mobile Communications Ab Selecting autofocus area in an image
US7706579B2 (en) * 2006-12-21 2010-04-27 Sony Ericsson Communications Ab Image orientation for display
JP4939968B2 (ja) * 2007-02-15 2012-05-30 株式会社日立製作所 監視画像処理方法、監視システム及び監視画像処理プログラム
US8614676B2 (en) * 2007-04-24 2013-12-24 Kuo-Ching Chiang User motion detection mouse for electronic device
US8063929B2 (en) 2007-05-31 2011-11-22 Eastman Kodak Company Managing scene transitions for video communication
JP4999570B2 (ja) * 2007-06-18 2012-08-15 キヤノン株式会社 表情認識装置及び方法、並びに撮像装置
JP2009017030A (ja) 2007-07-02 2009-01-22 Sony Corp 画像撮像装置、撮像制御方法
US8358328B2 (en) * 2008-11-20 2013-01-22 Cisco Technology, Inc. Multiple video camera processing for teleconferencing
CN101751551B (zh) * 2008-12-05 2013-03-20 比亚迪股份有限公司 一种基于图像的人脸识别方法、装置、系统及设备
JP5483899B2 (ja) * 2009-02-19 2014-05-07 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
JP2010231350A (ja) 2009-03-26 2010-10-14 Toshiba Corp 人物識別装置、そのプログラム、及び、その方法
US8681239B2 (en) * 2009-04-07 2014-03-25 Panasonic Corporation Image capturing device, image capturing method, program, and integrated circuit
US8254633B1 (en) * 2009-04-21 2012-08-28 Videomining Corporation Method and system for finding correspondence between face camera views and behavior camera views
US8275205B2 (en) 2009-07-23 2012-09-25 Honeywell International Inc. Prioritizer system for target acquisition
US8599238B2 (en) 2009-10-16 2013-12-03 Apple Inc. Facial pose improvement with perspective distortion correction
US20110298829A1 (en) * 2010-06-04 2011-12-08 Sony Computer Entertainment Inc. Selecting View Orientation in Portable Device via Image Analysis
TW201205271A (en) * 2010-07-29 2012-02-01 Hon Hai Prec Ind Co Ltd Electronic device with power saving mode and power saving control method thereof
KR20120057033A (ko) * 2010-11-26 2012-06-05 한국전자통신연구원 Iptv 제어를 위한 원거리 시선 추적 장치 및 방법
US8705812B2 (en) 2011-06-10 2014-04-22 Amazon Technologies, Inc. Enhanced face recognition in video
KR101381439B1 (ko) * 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
US9443289B2 (en) * 2013-06-21 2016-09-13 Xerox Corporation Compensating for motion induced artifacts in a physiological signal extracted from multiple videos

Also Published As

Publication number Publication date
EP2718871B1 (en) 2019-08-07
CN109446947A (zh) 2019-03-08
WO2012170803A1 (en) 2012-12-13
CN104137118A (zh) 2014-11-05
US8705812B2 (en) 2014-04-22
JP2014519665A (ja) 2014-08-14
US9355301B2 (en) 2016-05-31
US8897510B2 (en) 2014-11-25
CN104137118B (zh) 2018-11-09
JP5989768B2 (ja) 2016-09-07
CN109446947B (zh) 2020-07-17
EP2718871A4 (en) 2015-04-29
US20120314914A1 (en) 2012-12-13
US20150078623A1 (en) 2015-03-19
EP2718871A1 (en) 2014-04-16
JP2017021812A (ja) 2017-01-26
US20140126777A1 (en) 2014-05-08

Similar Documents

Publication Publication Date Title
JP6342458B2 (ja) ビデオにおける改良型の顔面認識
JP2014519665A6 (ja) ビデオにおける改良型の顔面認識
US10108961B2 (en) Image analysis for user authentication
US9557811B1 (en) Determining relative motion as input
US9563272B2 (en) Gaze assisted object recognition
US11100608B2 (en) Determining display orientations for portable devices
US9274597B1 (en) Tracking head position for rendering content
US9405918B2 (en) Viewer-based device control
US10139898B2 (en) Distracted browsing modes
JP5833231B2 (ja) デバイス相互作用を用いる空間情報の使用
US8743051B1 (en) Mirror detection-based device functionality
US8942434B1 (en) Conflict resolution for pupil detection
CN105917292B (zh) 利用多个光源和传感器的眼睛注视检测
US9049983B1 (en) Ear recognition as device input
US10217286B1 (en) Realistic rendering for virtual reality applications
US9367951B1 (en) Creating realistic three-dimensional effects
US9529428B1 (en) Using head movement to adjust focus on content of a display
JP2020514897A (ja) 仮想現実に基づいたサービス制御およびユーザ識別認証
US9857869B1 (en) Data optimization

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180516

R150 Certificate of patent or registration of utility model

Ref document number: 6342458

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250