JP2017516140A

JP2017516140A - 顔の表情のトラッキング

Info

Publication number: JP2017516140A
Application number: JP2016565351A
Authority: JP
Inventors: チャン，チャ; チャン，チェンユー; パレデス，ベルナルディノロメラ
Original assignee: Microsoft Corp; Microsoft Technology Licensing LLC
Current assignee: Microsoft Corp; Microsoft Technology Licensing LLC
Priority date: 2014-04-29
Filing date: 2015-04-23
Publication date: 2017-06-15
Anticipated expiration: 2035-04-23
Also published as: MX2016014091A; CA2943424A1; EP3137938B1; KR20160146861A; CN106255978A; CN106255978B; AU2015253557A1; RU2016141911A; AU2015253557B2; EP3137938A1; US9672416B2; JP6722590B2; MX360923B; US20150310263A1; KR102390781B1; RU2016141911A3; CA2943424C; RU2679986C2; WO2015167909A1

Abstract

説明は顔のトラッキングに関する。一実施例は、ユーザの顔に対してウェアラブルスマートデバイスを配置するように構成される配向構造を含むことができる。実施例は、配向構造によってユーザの顔に平行又は低アングルで固定されて、ユーザの顔にわたる画像をキャプチャするカメラも含むことができる。実施例は、画像を受け取り、画像をアバターモデルに関連付けられるパラメータにマップするように構成されるプロセッサを更に含むことができる。

Description

様々なウェアラブルデバイスが特定の目的のために市場に出ている。例えばスマート眼鏡及び頭部装着ディスプレイは、ユーザが何を見ているかを決定することができる。しかしながら、これらのデバイスは、ユーザを背にしてデバイスが配置され、外側向きのカメラ及び／又はアイトラッキングのためにユーザの目に向けられるカメラを有するので、ユーザについての有益なビューを提供しない。本概念は、カメラがユーザの非常に近くに配置されるときもユーザの有益なビューを提供することによって、ウェアラブルデバイスに追加の機能を与えることができる。

本説明は、顔のトラッキングに関する。一例は、ユーザの顔との相対でウェアラブルデバイスを配置するように構成される配向構造を含むことができる。実施例は、配向構造によってユーザの顔に対して平行又は低アングルで固定されるカメラも含むことができ、ユーザの顔にわたる画像をキャプチャすることができる。この実施例は、画像を受け取り、この画像を、アバターモデルに関連付けられるパラメータにマップするように構成されるプロセッサも更に含むことができる。

上記で列挙した例は、読み手を助けるために簡易な参照を提供するように意図されており、本明細書で説明される概念の範囲を定義するようには意図されていない。

添付の図面は、本明細書で伝えられる概念の実装を図示する。図示される実装の特徴は、添付の図面とともに以下の説明を参照することによってより容易に理解され得る。実現可能であれば、様々な図で同様の参照番号を使用して同様の要素を指す。さらに、各参照番号の最も左の数字は、その参照番号が最初に紹介される図面及び関連する議論を示す。

本概念の一部の実装に係る、ウェアラブルスマートデバイスの例を示す図である。

本概念の一部の実装に係る、視覚化シナリオの例を示す図である。本概念の一部の実装に係る、視覚化シナリオの例を示す図である。

本概念の一部の実装に係る、ウェアラブルスマートデバイスの例を示す図である。本概念の一部の実装に係る、ウェアラブルスマートデバイスの例を示す図である。

本概念の一部の実装に係る、例示の視覚化プロセスを示す図である。

本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムの態様をより詳細に示す図である。本概念の一部の実装に係る、例示の視覚化システムを示す図である。

概要
この説明は、ユーザに対して非常に近く、かつ／又は非常に低アングルで配置されるカメラから、顔の情報のようなユーザに関する有益な視覚的情報をキャプチャすることに関する。この概念は、低アングルカメラを用いる様々なウェアラブルスマートデバイスで実装され得る。

本概念の一態様は、ユーザの低アングル画像から有用な情報を導出する能力を含む。例えば１つ又は複数のカメラをユーザの近くに配置して、ユーザの顔に対してほぼ平行な画像をキャプチャすることができる。通常、そのような画像はほとんど価値がないであろう。本実装は、これらの画像から有益な情報を導出することができる。この有益な情報を、生きているようにユーザのアバターを制御すること等の様々な目的に使用することができる。

最初の図１は、幾つかのウェアラブルスマートデバイス１０２の例を図示している。この場合、ウェアラブルスマートデバイス１０２（１）はスマートハットとして現れ、ウェアラブルスマートデバイス１０２（２）はスマートヘッドバンドとして現れ、ウェアラブルスマートデバイス１０２（３）はスマート眼鏡として現れ、ウェアラブルスマートデバイス１０２（４）はスマートマイクロフォンとして現れている。当然、他の例も考えられる。ウェアラブルスマートデバイス１０２は１つ以上のセンサを含むことができる。この例では、センサは低アングルカメラ１０４、アイトラッキングカメラ１０６及び／又はマイクロフォン１０８として現れている。（ウェアラブルスマートデバイス１０２（１）及び１０２（３）は、低アングルカメラとアイトラッキングカメラの双方を含むことに留意されたい。これに対して、ウェアラブルスマートデバイス１０２（２）及び１０２（４）はアイトラッキングカメラを含まない。）カメラは、他の中でも特に、可視光カメラ及び／又は赤外カメラ及び／又は深度カメラとすることができる。これらの要素の機能は以下で説明される。ウェアラブルスマートデバイスは配向構造１１０も含むことができる。配向構造は、フレーム、バンド、ひさし（bill）、あるいはユーザに対するセンサの位置及び／又は向きを維持するのを助ける他の構造として現れることができる。上述のように、図示される実装の一部は、低アングルカメラ１０４とアイトラッキングカメラ１０６の双方を用いる。他の実装は、そうでなければ２つのカメラによって供給されるであろう、データをキャプチャすることができる、単一のカメラを用いることができる。例えば魚眼レンズを有する低アングルカメラ１０４を用いて、ユーザの顔の一部、例えば目、口、頬及び／又は顎等をキャプチャすることができる。

要約すると、ウェアラブルスマートデバイスはより一般的になってきている。ウェアラブルスマートデバイスはしばしばカメラを含む。しかしながら、カメラはユーザに非常に近くにあるか、かつ／又は一般的でない向きで配置されるため、カメラはユーザの有益な画像、特にユーザの顔の画像を提供することができない。本実装は、ユーザの顔の表情、口の動き、目のまばたき、目の注視の方向等に関する有益な情報を生成するやり方で、これらのカメラを配置してその画像を処理することができる。

図２は、ウェアラブルスマートデバイス１０２（１）を装着している「ユーザ１」、ウェアラブルスマートデバイス１０２（２）を装着している「ユーザ２」、２つのディスプレイデバイス２０２（１）及び２０２（２）を伴う使用ケースシナリオを示している。ユーザ１がディスプレイデバイス２０２（１）の近くの第１の位置に、ユーザ２が、第１の位置から幾らか離れた第２の位置におり、ユーザ２はディスプレイデバイス２０２（２）の近くにいると想定する。この例では、（図１に図示されるように）ウェアラブルスマートデバイス１０２（１）は、低アングルカメラ１０４（１）と、ユーザ１の目に向けられる別のカメラ（例えばアイトラッキングカメラ）１０６（１）を含む。ウェアラブルスマートデバイス１０２（２）は低アングルカメラ１０４（２）を含む。

このシナリオでは、ウェアラブルスマートデバイス１０２（１）は、ユーザ１の画像をキャプチャすることができる。これらの画像を使用してユーザ１の表現を制御することができる。この場合、ユーザ１の表現は、ユーザ１のアバター２０４（１）として現れ、アバター２０４（１）は、ユーザ２に近接するディスプレイデバイス２０２（２）上に提示される。同様に、ウェアラブルスマートデバイス１０２（２）は、ユーザ２の画像をキャプチャすることができる。これらの画像を使用して、ユーザ２の表現を制御することができる。この場合、ユーザ１の表現は、ユーザ２のアバター２０４（２）として現れ、アバター２０４（２）は、ユーザ１に近接するディスプレイデバイス２０２（１）上に提示される。このシナリオでは、ユーザは相互に通信することができ、それぞれのアバターは、そのユーザの目の動き、顔の表情、顎の動き及び／又は（発声によって生じるような）口の動きを他方のユーザに反映することができる。

アバター２０４は、漫画キャラクタやコンピュータ生成されるキャラクタ等のような任意の形式で現れることができ、目の動き、顔の表情及び／口の動きをキャプチャするが、必ずしもユーザに似ている必要はない。他の実装では、アバターは、ユーザの本物そっくりの表現（例えば強調した写真の本物そっくりの画像）であってもよい。ディスカッション中にそれぞれのアバターを見ることができる能力は、音声のみの通信よりも、よりロバストかつ楽しめるディスカッションを促進することができる。例えばディスカッション中に他のユーザのリアクションを見ることができる能力は、フェース・トゥー・フェースの会話に似たフィードバックを提供することができる。

図２のシナリオでは２人のユーザのみが関与しているが、他の実装では追加のユーザを伴うことができることにも留意されたい。さらに、低アングルカメラ１０４及び／又はアイトラッキングカメラ１０６はユーザの目をトラッキングすることができるので、実装は個々のユーザがどのユーザを見ているか（例えばユーザ１及びユーザ２がユーザ３のアバターを見ている）を区別することができる。この情報を、ユーザのアバターに反映することができ、フェース・トゥー・フェースのグループシナリオと同じように通信プロセスの有益な一部とすることができる。

図３は、図２の使用ケースシナリオに類似する別の使用ケースシナリオを図示している。この具体的な使用ケースシナリオは、２組のウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）を伴う。明示的に図示されていないが、ウェアラブルスマートデバイスは、図２のユーザ１及びユーザ２によって装着されているものと想定する。図２に関連して上述した議論と同様に、ウェアラブルスマートデバイス１０２（３）（Ａ）は、ユーザ１の低アングル画像をキャプチャし、この画像データを使用して、ユーザ２に対して表示することができるユーザ１の表現（例えばアバター２０４（１））を制御することができる。同様に、ウェアラブルスマートデバイス１０２（３）（Ｂ）は、ユーザ２に関連して同じ機能を実行することができ、ユーザ１に対して表示することができるユーザ２の表現（例えばアバター２０４（２））を制御することができる。

したがって、ウェアラブルスマートデバイス１０２（３）（Ａ）は、該ウェアラブルスマートデバイス１０２（３）（Ａ）を通して見ているときに、ユーザ１がユーザ２のアバター２０４（２）を見ていることを表示し、ウェアラブルスマートデバイス１０２（３）（Ｂ）は、該ウェアラブルスマートデバイス１０２（３）（Ｂ）を通して見ているときに、ユーザ２がユーザ１のアバター２０４（１）を見ていることを表示する。要約すると、ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）は、ユーザ自身は表示されないが、ユーザ１及びユーザ２の視点から示される。ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）は、装着者に関する画像情報をキャプチャすることができ、この画像情報は装着者の（例えばユーザの）アバターを制御するのに使用される。アバターは、他のユーザのウェアラブルスマートデバイスによって表示され、該他のユーザのウェアラブルスマートデバイスは同時に、そのユーザのアバターを制御するための画像データをキャプチャする。提示される別の方法では、ユーザ２のアバター２０４（２）が、ウェアラブルスマートデバイス１０２（３）（Ａ）によってユーザ１のために表示される。同様に、ユーザ１のアバター２０４（１）は、ウェアラブルスマートデバイス１０２（３）（Ｂ）によってユーザ２のために表示される。したがって、この実装は、ビデオコール及び／又は他の使用を容易にするスタンドアロンのウェアラブルスマートデバイスを提供することができる。

図４及び図５は、それぞれ、ユーザ３の正面図及び側面図を示す。この場合において、「ユーザ３」は、ウェアラブルスマートデバイス１０２（３）（例えばスマート眼鏡）とウェアラブルスマートデバイス１０２（４）（例えばスマートクリップオンマイクロフォン）を装着している。この場合、ユーザ３は、説明の目的で、２つのウェアラブルスマートデバイスを装着している。あるいは、ユーザは、これらのウェアラブルスマートデバイスのうちのいずれかを使用し、他のものは使用しなくてもよい。図４〜図５は、本議論において「低アングルカメラ」が何を意味するかについての例を説明するのを助け得る基準面４０２も図示している。この実装において、基準面４０２はユーザの目及びユーザの口の正面を通るか、これを含む。

この例では、低アングルカメラ１０４を、基準面４０２に対して約＋／−４５度よりも小さいアングルで配向することができる（例えば低アングルカメラは、ユーザの顔の面に対して概ね平行に画像をキャプチャすることができる）。これに対して、スマートフォンやタブレット、ビデオ会議システムで採用されるような従来的なカメラは、基準面４０２に対して概ね垂直に配向されるように構成され、低アングルから有意な画像情報をキャプチャすることができない。

この例では、ウェアラブルスマートデバイス１０２（３）の低アングルカメラ１０４（３）は概して、基準面４０２内に又は基準面４０２の近くに配置され、基準面に沿うか、これに平行の方向で矢印４０４に表される画像をキャプチャするように構成される。同様に、ウェアラブルスマートデバイス１０２（４）の低アングルカメラ１０４（４）は概して、基準面４０２内に又は基準面４０２の近くに配置され、基準面に沿うか、これに平行の方向で矢印４０６に表される画像をキャプチャするように構成される。

図６は、本概念を達成するための例示の処理フロー６００を図示している。説明の目的のために、処理フロー６００をトレーニング段階６０２と展開段階６０４に分けることができる。トレーニング段階は、６０６においてユーザについてのアバターモデルを構築することができる。上述のように、アバターは、写真の本物そっくりな形又は何らかの他の形であってよい。アバターモデル６０８を介してユーザのアバターを定義することができる。アバターモデルは、例えば目の注視、口の動き等に対応するような、複数の顔のパラメータ又はアニメーションパラメータを含むことができる。さらに、処理は、６１０において、センサ入力とアバターアニメーションパラメータとの間の相関性についてトレーニングして、マッピング６１２を作成することができる。処理フローのこの部分は、ユーザをウェアラブルスマートデバイス（例えばウェアラブルスマートデバイス上のセンサ）、及び例えば赤青緑と深度（ＲＧＢＤ）カメラ等のような別の撮像デバイスとともに同時に記録することによって達成され得る。ＲＧＢＤカメラは、通常の（図４の面４０２に概ね垂直の）向きとすることができる。低アングルカメラ、マイクロフォン及び／又は他のセンサ（図１を参照されたい）等のウェアラブルスマートデバイスと、ＲＧＢＤカメラによって、ユーザアクションをキャプチャすることができる。マッピング６１２は、ユーザの特有のユーザアクションを、ＲＧＢＤカメラ及びウェアラブルスマートデバイスによってキャプチャされるような、特有のアバターアニメーションパラメータに結び付けることができる。

展開段階６０４は、ウェアラブルスマートデバイスのみを用いて達成され得る。この場合、様々なタイプのセンサデータ６１４をウェアラブルスマートデバイスによって収集することができる。この例では、センサデータ６１４は、ウェアラブルスマートデバイスのセンサ構成に応じて、他の中でも特に、ビデオデータ、オーディオデータ及び／又は接触データを含むことができる。（接触データは、皮膚の動きや筋肉の収縮等を感知する、ユーザの皮膚と接触するセンサによって、収集され得る。）センサデータ６１４を６１６において処理して、センサ入力６１８を導出することができる。トレーニング段階６０２からのアバターモデル６０８及びマッピング６１２を使用して、６２０において、センサ入力６１８をアバターアニメーションパラメータにマッピングすることができる。この態様は、展開段階６０４のためのアバターアニメーションパラメータ６２２を出力する。アバターアニメーションパラメータ６２０（及びアバターモデル６０８）を、リモートのアバターレンダリング及びアニメーションのために、６２６においてネットワーク６２４を介して送信することができる。処理フロー６００の特定の態様は、図７〜図１２に関連して以下で詳細に説明される。

要約すると、本発明は、身体装着型の内向き（例えばアイトラッキング）カメラ及び／又は低アングルカメラに基づいて、顔の表情をトラッキングするためのシステムを伴うことができる。ユーザが、リモートのパーティにおいてアニメーション化されたアバターで表現され得るように、これらのカメラからの画像を用いることができる。

図７は、ウェアラブルスマートデバイス１０２（３）からの完全な顔の表情トラッキングを提供することができる例示のシステム７００を図示している。（図７は、図６に対して幾らか重複するが、図６に関連して紹介される概念を説明するのを助ける異なる注目点を有する。）説明の目的のために、システム７００は、入力の段７０１（１）と出力の段７０１（２）に分けられる。

この場合において、システム７００は、可視光カメラ（例えば白黒又は赤緑青（ＲＧＢ））又は赤緑青＋深度（ＲＧＢＤ）カメラ７０２のような基準カメラを含む。そのような深度カメラの一例は、マイクロソフト（登録商標）社によって提供されるKinect（登録商標）ブランドの深度カメラである。ＲＧＢＤカメラ７０２を、通常のやり方でユーザの方に向けることができる（例えば図４〜図５に関連して上述した基準面に対して直角にユーザに向けられる）。（図７の図では、ユーザは前方を向いており、ＲＧＢＤカメラ７０２はユーザの横にあることに留意されたい。）ＲＧＢＤカメラは実際には、ユーザの正面にあるであろう（例えばユーザのフルフェイス画像をキャプチャするように配置される）。

トレーニング段階６０２の間に、ＲＧＢＤカメラ７０２は、フルフェイス画像７０４をキャプチャすることができる。同様に、ウェアラブルスマートデバイスの低アングルカメラ１０４（３）及びアイトラッキングカメラ１０６（３）は、ＲＧＢＤカメラ７０２に対して同時に、ユーザの画像７０６及び７０８をそれぞれキャプチャする。これらの要素を描くスケールは、図７では容易に区別可能ではないが、図１、図４及び図５において容易に明らかになることに留意されたい。低アングルカメラ１０４（３）及びアイトラッキングカメラ１０６（３）の限られた視野に起因して、各カメラ１０４（３）及び１０６（３）では、ユーザの顔の一部しか見えない。特に、低アングルカメラ１０４（３）は、画像７０６に示されるように、口と顎先の方へ向かって頬の下に向けられており、アイトラッキングカメラ１０６（３）は、画像７０８によって示されるようにユーザの目の方に向けられている。（図示される画像は説明の目的であり、限定するように意図されていないことに留意されたい。）さらに、低アングルカメラで採用されるレンズのタイプは、画像だけでなく、ユーザに対する向きのアングルにも影響を可能性がある。例えば魚眼レンズは、所与の向きでユーザの顔を通常のレンズよりも多くキャプチャすることができる。そのような実装では、画像７０６内の目と口をキャプチャするが、２つの画像セットは利用しない（例えば画像７０８又はこれらをキャプチャするカメラを利用しない）単一の低アングルカメラ１０４（３）を用いることができる。

更に別の実装では、他のセンサデータは、低アングルカメラ１０４（３）からの画像データを増補することができる。例えば画像（例えばビデオ）を超えて、オーディオデータ及び／又はユーザ接触データ等のような様々な他の形のセンサデータ６１４が利用され得ることを示す図６を思い出されたい。そのような場合、低アングルカメラ１０４（３）は、スマートウェアラブルデバイス上の唯一のカメラであり得る。低アングルカメラ１０４（３）は、例えばユーザの目及び頬をキャプチャするが、口はキャプチャしないことがある。そのような場合、マイクロフォン（例えば図１のマイクロフォン１０８を参照されたい）からのオーディオデータは、モデル構築６０６で使用することができるオーディオデータをキャプチャすることができる。例えばユーザが口に出す個々の音を、トレーニング段階６０２の間に、口の動き及び／又は顔の表情に関連する個々のアバターパラメータ値にマップすることができる。したがって、オーディオデータをアバターパラメータの一部に使用することができ、低アングルカメラ１０４（３）からの画像データを他のアバターパラメータに使用することができる。

図示される構成では、トレーニング段階６０２の間に、フルフェイス画像７０４に関して評価されるときに、ウェアラブルスマートデバイス１０２（３）の２つのカメラ１０４（３）及び１０６（３）からの部分的な顔画像ストリームを使用して、ユーザの顔全体の表情を推定することができる。複数の顔の表情パラメータを使用して、ユーザのアニメーション化されたアバター７１０を導出することができる。例えば一部の実装は、深度ベースの顔の表情トラッキングアルゴリズムを用いて、ユーザについてのトレーニングデータを自動的に収集することができる。次いで幾つかのマシン学習アルゴリズムを用いて、トレーニングデータからの顔の表情パラメータを推定するために、モデルを構築することができる。多くの可能性のある技術の中でも特に、リッジ回帰、マルチタスク特徴学習及び／又は畳み込みニューラルネットワークを用いることができる。

別の言い方をすると、トレーニング段階６０２の間に、ウェアラブルスマートデバイス１０２（３）によってキャプチャされるトレーニング画像（例えばビデオ）のセット及びＲＧＢＤカメラ７０２からの対応するグラウンドトゥルースの顔の表情（例えば画像７０４）を使用して、これらの関係を示すアバターモデル（図６の６０８）を構築することができる。この実装では、グラウンドトゥルース画像はＲＧＢＤカメラで取得されるが、他の実装では、他のタイプのセンサ又はカメラを使用することができることに留意されたい。例えばグラウンドトゥルース画像は、標準のＲＧＢカメラ、赤外カメラ及び／又は他のタイプのセンサを用いて取得され得る。展開段階６０４では、モデルを使用して、ウェアラブルスマートデバイスからの入力画像７０６（１）と７０８（１）（例えばビデオのペアのストリーム）を、顔の表情パラメータのセットにマップすることができ、これを使用してリモートのパーティでアバター７１０（１）を導出することができる。図６〜図７に関連して上記で紹介した特定の態様を以下で更に詳細に説明する。

データ取得
図４〜図５を思い出すと、この実装では、ウェアラブルスマートデバイス１０２（３）のカメラは、非対称に配置されている（例えば低アングルカメラ１０４（３）は、顔と平行に口の方へ向けられており、アイトラッキングカメラ１０６（３）はユーザの目に向けられている）。非対称とする１つの動機は、１つのカメラのみが余剰の顔の部分をキャプチャするのに使用されるが（例えば注視は、１つの目の位置によってほとんど説明され得る）、頬等のように非対称な顔の部分は双方のカメラによってキャプチャされることにある。当然、対称及び／又は非対称の構成における３つ以上のカメラのような他の構成も考えられる。

図７に戻ると、様々なアプローチを使用して、ＲＧＢＤカメラ入力（例えば画像７０４）からの顔の表情をトラッキングすることができる。他の中でも特に、例えばマイクロソフトのKinect（登録商標）のアバタートラッキングアルゴリズム等のＲＧＢＤトラッキングアルゴリズムを用いることができる。一部のＲＧＢＤトラッキングアルゴリズムの実装は、個人化されるメッシュモデルのセットを伴う仮定の下で作用し得る。B＝｛B₀,…,B_n｝であり、ここで、B₀は休憩ポーズ（rest pose）であり、Bi、ただしi＞0は、休憩ポーズと特定の顔の表情との間の差を表す付加的な変位（additive displacement）である。したがって、任意の顔の表情を次のように生成することができる：

ここで、y_ijは、ポーズM_jについてのブレンディング加重（blending weight）である。

ＲＧＢＤトラッキングアルゴリズムは、４８個のブレンドシェイプのように、幾つかのブレンドシェイプを使用することができ、したがって、キャプチャされる各フレームについて、４８個のブレンディング加重を生成することになる。したがって、顔の表情を推定するタスクは、４８個の回帰関数を学習する問題へのリキャストとすることができ、これらの各々は、ウェアラブルスマートデバイス画像から受け取った情報を、対応するブレンドシェイプ加重にマッピングする。

以下の議論は、画像の事前処理を開始する、顔の表情トラッキングに関する。

一部の実装は、入力画像データについて事前処理を実行し、ユーザが異なる衣服を着ること、ウェアラブルスマートデバイスを身に着けるとき及び外すときの小さな動き、そしてユーザ間の相違に対してアルゴリズムのロバスト性を高めることができる。

第１のタイプの事前処理は、スキンフィルタリングに関連し得る。この処理は、３つの段階に基づくものとすることができる。第１に、簡単な分類子を用いて、各ピクセルが皮膚である可能性を推定することができる。特に背景内に四肢が現れるときに、幾つかの偽陽性ピクセルがスポットされる可能性があるので、ピクセル分類のみを用いるだけでは十分にロバストではない可能性がある。処理をよりロバストにするために、一部の実装は、画像のエッジを検出し、エッジの中で、皮膚と背景領域を分離する（潜在的に）最適なものを見つけることができる。

そのようにするために、これらの実装は、最初に全体の画像に対してキャニーエッジ（又は他の）検出器を適用することができる。検出器の感度は、多くのエッジのセットを検出して任意の有益なエッジがそのセット内に含まれるように高くなるよう設定され得る。最終的に、これらの実装は、以前の２つの処理で収集される情報を使用する動的なプログラミングアルゴリズムを使用することによって、（潜在的に）最適なエッジを見つけることができる。この方法は、例えば左から右へ、画像の列に対して反復され得る。各列に関連して、処理は、エッジに属する各ピクセルについて、そのピクセルが（潜在的に）最適なエッジの一部である可能性を計算することができる。これは、それの上又は下のピクセルが皮膚の可能性、並びに以前の反復で計算された左近傍ピクセルの尤度に基づいて計算することができる。

図８はそのような例を図示する。例１は、処理前の内向きのアイトラッキングカメラ１０６（３）（図４〜図５）からの画像８００（１）を示す。この説明は、線描写で説明することが難しいので、色を用いて説明を行う必要がある。例１において、網掛けで示されているエリア８０２は、隣接する皮膚８０４と類似する色の背景であり、したがって、区別することが難しい可能性がある。境界８０６を検出することができ、例２では、処理された画像８００（２）内の８０８で示されるように、背景領域の色が、対照的な色（この場合、斜線で表される白）へ変更される。

図９は、一部の実装によって用いられる第２のタイプの事前処理の例を示す。この第２のタイプの事前処理は、小さなカメラの動き又は異なるユーザ間の差に対処することができる。そのような場合、テンプレートマッチングに基づいて全ての画像（この場合は左画像９００（１）と右画像９００（２））の位置を調整する位置合わせ方法（registration method）を用いることができる。鼻と頬のしわ９０２及び右目の目尻９０４をそれぞれ左及び右のカメラ画像９００（１）及び９００（２）内で検索し、これに応じて、画像間の位置合わせの誤差を低減するように入力画像を調整する。実験結果に示されるように、この位置合わせステップは、新たなユーザをトレーニングするために非常に有益であり得る。

事前処理の後、入力画像の２つの形式、すなわち未加工ピクセルとローカルのバイナリパターン（ＬＢＰ：local binary pattern）の説明を用いることができる。

説明の目的のために、トレーニング入力データを、次元ｄを有するＮ個のトレーニングインスタンスを含む、行列

及び

トレーニングラベル（ＲＧＢＤトラッキングアルゴリズムから取得されるブレンドシェイプ加重）によって示す。y_tは、Yのt番目の列を示すのに使用される。すなわちt番目のブレンドシェイプのついてのグラウンドトゥルース加重を示すのに使用され得る。マシン学習問題がマルチ出力回帰にあるとすると、３つのマシン学習アルゴリズム（リッジ回帰、マルチタスク特徴学習及び畳み込みニューラルネットワーク）を用いることができる。当然、他の実装では他のマシン学習アルゴリズムを用いることができる。

リッジ回帰
リッジ回帰（ＲＲ：Ridge Regression）は、以下の最適化問題を解くことによって、出力の各々について線形モデルを学習することができる：

ここで、w_tは、ブレンドシェイプtについてのd次元の加重ベクトルである。上記の問題は、全てのブレンドシェイプについて独立に解かれることに留意されたい。

マルチタスク特徴学習
ブレンドシェイプ加重が一緒に顔の表情を示し、これらのブレンドシェイプが非直交であると考えると、これらは、線形的に相関されることが予測され得る。したがって、マルチタスク特徴学習（ＭＴＦＬ：multi-task feature learning）を現在のタスクに用いることができる。ＭＴＦＬは、全てのタスクを同時に学習することによって、ブレンドシェイプ加重間の共通性を利用しようとすることができる。ＭＴＦＬは、以下の最適化問題を解くように試みることができる：

ただし、

は、行列のフロベニウス（Frobenius）ノルムの二乗を示す、すなわち、その要素の二乗の合計を示す。図１０に図示されるように、入力に行列Ｄを掛けることによって形成される全てのタスクに対して共通層（common layer）が存在することができ、これは共有特徴１００２を表す。出力層１００４は次いで、共有特徴に行列Ｃを掛けることによって形成される。双方の層は線形である。

式（３）における問題は非凸である。代わりに、処理は、

によって与えられる、その等価な凸問題を最適化することができる。
ここで、Ｗ＝ＤＣであり、

は、行列のトレースノルム、すなわち、その特異値の合計を示す。

ニューラルネットワーク
図１１Ａ及び図１１Ｂは、２つの畳み込みニューラルネットワーク１１００（１）及び１１００（２）を示す。第１の畳み込みニューラルネットワーク１１００（１）は、入力画像１１０２（１）を畳み込み層（convolutional layer）１１０４（１）で受け取る。この例では、畳み込み層１１０４（１）は、サイズ３×３の１６個のカーネルを有する。畳み込み層の出力は、ドロップアウト（ＤＯ）可能であり、５０個のノードの層１１０６（１）に完全に接続される。５０ノード層からの出力は、次いで最終的な出力１１１０を生成する４８個のノードの出力層１１０８（１）に送信される。

第２の畳み込みニューラルネットワーク１１００（２）は、やはりサイズ３×３の１６個のカーネルの畳み込み層１１０４（２）である第１の層を含む。第１の畳み込み層１１０４（２）は、入力画像１１０２（２）を受け取る。第１の畳み込み層の出力は、第２の隠れ層（hidden layer）１１０６（２）に密に接続される。この例では、第２の隠れ層は２００個の隠れユニットを有する。第２の隠れ層の出力は、第３の層１１０８（２）に向けられる。この例では、第３の層は、完全接続層（fully connected layer）であり、やはり２００個の出力ノードを有する。この例では、最終層１１１２が、第３の層１１０８（２）からの出力を受け取り、最終出力１１１４を生成する。第３の層１１０８（２）は、４８個の出力を有する完全接続層であり得る。一部の実装では、修正線形ユニット（ＲｅＬＵ：rectified linear unit）の非線形性が、出力のものを除いて全ての畳み込み層及び完全接続層で使用される。加えて、ドロップアウトは、完全接続層の一部で可能である。

要約すると、上記の説明は、一般的でない向きで、例えばユーザの顔にほぼ平行に配置されるウェアラブルカメラ（例えばウェアラブルスマートデバイスのカメラ）からの顔の表情のトラッキングをどのように実行するかについて説明する。ウェアラブルスマートデバイスのカメラと同時に深度カメラを使用して、グラウンドトゥルースデータを取得することができる。深度ベースの顔の表情トラッキングアルゴリズムを使用して、グラウンドトゥルースデータにおける２つのカメラからの画像情報を相関させることができる。グラウンドトゥルースデータを使用して、顔のパラメータに関連付けられる回帰モデルをトレーニングすることができる。その後、回帰モデルを用いてウェアラブルスマートデバイスからの画像を処理して、ユーザのアバターを制御するためのパラメータを導出することができる。

図１２は、視覚化システム１２００を示す。説明の目的のために、システム１２００は、スマート眼鏡として現れる２つのウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）を含む。これらの図示されるウェアラブルスマートデバイスは、２つのデバイス構成を表し、そのいずれかを、スマート眼鏡に加えて他のウェアラブルスマートデバイスに適用することができる。簡潔に言うと、ウェアラブルスマートデバイス１０２（３）（Ａ）は、オペレーティングシステム中心の構成を表し、ウェアラブルスマートデバイス１０２（３）（Ｂ）はシステムオンチップ構成を表す。これらの態様は以下でより詳細に説明される。システム１２００は、ウェアラブルスマートデバイスではないデバイス１２０２も含む。この場合、デバイス１２０２はスマートフォンとして現れているが、ウェアラブルスマートデバイスが通信することが可能な任意のタイプのデバイスを表すように意図される。システム１２００は更に、クラウドベースのリソースのように、ウェアラブルスマートデバイスがネットワーク１２０６を介して通信することができるリモートリソース１２０４を含む。デバイス１２０２及びリモートリソース１２０４のいずれか又は双方が、本概念を達成するようウェアラブルスマートデバイスと協調的に動作することができる。ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）、デバイス１２０２及び／又はリモートリソース１２０４のいずれかが、アバター制御コンポーネント１０２８をサポートするか、これを含むことができる。アバター制御コンポーネントは、ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）の他の要素の説明の後、以下で更に詳細に説明される。

説明の目的のために、ウェアラブルスマートデバイス１０２（３）（Ａ）は、アプリケーション１２１０、オペレーティングシステム１２１２及びハードウェア１２１４へと編成される。ウェアラブルスマートデバイス１０２（３）（Ｂ）は、共有リソース１２１６、専用リソース１２１８及びこれらの間のインタフェース１２２０へ編成される。

ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）は更に、配向構造１１０を含むことができ、配向構造１１０は、フレーム１２２２を含むことができ、テンプル１２２４に接続される。テンプルは、長軸に沿って（ｘ基準軸と平行に）伸び、イヤピース１２２７で終わる。フレームは、（１対の）レンズ１２２８をサポートすることができる。ウェアラブルスマートデバイスは更に、ストレージ１２３０、プロセッサ１２３２、バッテリ１２３４（又は他の電源）、センサ１２３６及び／又は通信コンポーネント１２３８を含むことができる。あるいはまた、ウェアラブルスマートデバイスは、ここでは簡潔性の目的で図示されておらず、説明されないが、入力／出力デバイス、バス、グラフィクスカード（例えばグラフィクス処理ユニット（ＧＰＵ））等のような他の要素を含むことができる。一構成では、バッテリ１２３４をイヤピース１２２６の一方に配置することができ、通信コンポーネント１２３８、ストレージ１２３０及びプロセッサ１２３２が他方に配置される。

この例では、センサ１２３６は、低アングルカメラ１０４、アイトラッキングカメラ１０６及びマイクロフォン１０８として現れる。本明細書で使用されるとき、カメラは、ユーザの特徴に関する情報をキャプチャすることができる任意のタイプのセンサと考えることができることに留意されたい。カメラは可視光又は他の波長であってよい。カメラは異なるタイプのレンズを用いることができる。例えばカメラは、他の中でも特に、凸レンズ、非球面レンズ及び／又は魚眼レンズを用いることができる。魚眼レンズは、他の方法ではキャプチャに２つのカメラの使用を要する可能性があるユーザの顔のより大きな部分を、単一のカメラがキャプチャすることを可能にすることができる。カメラに関する追加の詳細は、図１で開始して上記で説明されている。カメラは詳細に説明されているが、当然、他の実装は、代替又は追加として他のタイプのセンサ１２３６を使用することができる。

眼鏡のレンズ１２２８は矯正用であっても、非矯正用であってもよい。一部の実装では、レンズは、ユーザが見るよう画像を表示する能力を有することができる。この表示は、レンズ内に発光ダイオード又は他のコンポーネントを投影するか含めることによって達成することができる。

通信コンポーネント１２３８は、受信機及び送信機、並びに／あるいはセルラ、Wi-Fi（IEEE802.xx）Bluetooth（登録商標）等のような様々な技術と通信するための他の無線周波数回路を含むことができる。

アバター制御コンポーネント１２０８は、センサ１２３６からの入力を受け取ることができる。アバター制御コンポーネント１２０８は、アバターモデルを用いてセンサデータからアニメーションパラメータを導出し、ユーザのアバターを制御することができる。個々のウェアラブルスマートデバイス１０２（３）上のアバター制御コンポーネント１２０８は、センサデータを処理してアニメーションパラメータの値を決定するよう比較的ロバストであり得る。例えばウェアラブルスマートデバイス１０２（３）（Ａ）は、センサ１２３６（１）からアニメーションパラメータ値を決定することができる。ウェアラブルスマートデバイス１０２（３）（Ａ）は、ユーザ／アバターをアニメーション化して、そのアニメーションを別のデバイスに送信することができ、あるいはアニメーションパラメータ値を、実行のために別のデバイスに送信することができる。

例えばウェアラブルスマートデバイス１０２（３）（Ａ）に関連して、アバター制御コンポーネント１２０８（１）は、ウェアラブルスマートデバイス１０２（３）（Ｂ）等のようなリモートデバイスへの通信のために、アニメーションパラメータ値を、通信コンポーネント１２３８（１）に送信することができる。受信側デバイスのアバター制御コンポーネント１２０８（２）は、受け取ったアニメーションパラメータ値に基づいてユーザのアバターを制御することができる。同時に、リモートデバイスのアバター制御コンポーネント１２０８（２）は、センサ１２３６（２）からデータを受信し、センサデータを処理してアニメーションパラメータ値を決定し、アニメーションパラメータ値をウェアラブルスマートデバイス１０２（３）（Ａ）に送信することができる。

他の構成では、ウェアラブルスマートデバイス１０２（３）（Ａ）はあまりロバストではない可能性があり、センサデータの一部を、それぞれアバター制御コンポーネント１２０８（３）又は１２０８（４）による処理のためにデバイス１２０２又はリモートリソース１２０４へ送信してもよい。これらのアバター制御コンポーネント１２０８（３）又は１２０８（４）は、ウェアラブルスマートデバイス１０２（３）（Ａ）の代わりにアニメーションパラメータ値を決定して、これらの値をウェアラブルスマートデバイス１０２（３）（Ａ）の代わりにウェアラブルスマートデバイス１０２（３）（Ｂ）に通信することができる。

更に別の構成では、ウェアラブルスマートデバイス１０２（３）（Ａ）は、アニメーションパラメータ値をデバイス１２０２に送信することが可能である。デバイス１２０２は、ユーザの「通常」のビデオストリーム（例えばビデオコールの）をキャプチャすることができ、このビデオストリームをウェアラブルスマートデバイス１０２（３）（Ａ）に送信することができる。したがって、ウェアラブルスマートデバイス１０２（３）（Ａ）のユーザはデバイス１２０２のユーザの通常のビデオを見ることになり、デバイス１２０２のユーザは、ウェアラブルスマートデバイス１０２（３）（Ａ）のユーザのアニメーション化されたアバターを見るであろう。

ある視点から、ウェアラブルスマートデバイス１０２（３）（Ａ）及び１０２（３）（Ｂ）、デバイス１２０２及び／又はリモートリソース１２０４をコンピュータとして考えることができる。

本明細書で使用されるとき、「デバイス」、「コンピュータ」又は「コンピューティングデバイス」という用語は、幾らかの量の処理能力及び／又はストレージ能力を有する任意のタイプのデバイスを意味することができる。処理能力は、コンピュータ読取可能命令の形でデータを実行して機能を提供することができる１つ以上のプロセッサによって提供され得る。コンピュータ読取可能命令及び／又はユーザ関連データ等のデータを、ストレージ上に格納することができる。そのようなストレージは、コンピュータの内部であっても外部であってもよい。ストレージは、他の中でも特に、揮発性又は不揮発性メモリ、ハードドライブ、フラッシュストレージデバイス及び／又は光学ストレージデバイス（例えばＣＤ、ＤＶＤ等）、リモートストレージ（例えばクラウドベースのストレージ）のうちのいずれか１つ以上を含むことができる。本明細書で使用されるとき、「コンピュータ読取可能媒体」という用語は信号を含み得る。これに対して、「コンピュータ読取可能記憶媒体」という用語は信号を除外する。コンピュータ読取可能記憶媒体は「コンピュータ読取可能記憶デバイス」を含む。コンピュータ読取可能記憶デバイスの例は、他の中でも特に、ＲＡＭ等の揮発性記憶媒体、ハードドライブ、光学ディスク及びフラッシュメモリ等の不揮発性記憶媒体を含む。

デバイスの例は、パーソナルコンピュータ等の従来的なコンピューティングデバイス、デスクトップコンピュータ、ノートブックコンピュータ、携帯電話、スマートフォン、パーソナルデジタルアシスタント、パッドタイプのコンピュータ、デジタルホワイトボード、カメラ、スマート眼鏡等のウェアラブルデバイス、絶え間なく進化するかまた開発されるタイプの無数のコンピューティングデバイスのいずれかを含み得る。

上述のように、ウェアラブルスマートデバイス１０２（３）（Ｂ）は、システムオンチップ（ＳＯＣ）タイプの設計と考えることができる。そのような場合、デバイスによって提供される機能を、単一のＳＯＣ又は複数の結合されたＳＯＣ上に統合することができる。１つ以上のプロセッサが、メモリ、ストレージ等の共有リソース、及び／又はある特定の機能を実行するように構成されるハードウェアブロック等の１つ以上の専用のリソースと協調するように構成され得る。したがって、本明細書で使用されるとき、「プロセッサ」という用語は、中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、コントローラ、マイクロコントローラ、プロセッサコア又は他のタイプの処理デバイスを指すこともできる。

一般に、本明細書で説明される機能のいずれかを、ソフトウェア、ファームウェア、ハードウェア（例えば固定の論理回路）、手動の処理又はこれらの実装の組合せを使用して実装することができる。本明細書で使用されるとき、「コンポーネント」という用語は、一般的に、ソフトウェア、ファームウェア、ハードウェア、デバイス又はネットワークの全体又はその組合せを表す。ソフトウェア実装の場合、例えばこれらは、プロセッサ（例えば１つ以上のＣＰＵ）で実行されるときに、指定のタスクを実行するプログラムコードを表すことができる。プログラムコードを、コンピュータ読取可能記憶媒体等のような１つ以上のコンピュータ読取可能メモリデバイスに格納することができる。コンポーネントの特徴及び技術はプラットフォーム独立であり、これは、これらの特徴及び技術が、様々な処理構成を有する様々な市販のコンピューティングプラットフォーム上で実装され得ることを意味する。

本実装のいずれかにおいて、ユーザのプライバシは、ユーザがその明確な同意を与えた後にのみ視覚化特徴を可能にすることによって保護され得る。全てのプライバシ及びセキュリティの手順は、ユーザを保護するように実装され得る。例えばユーザは認証を提供（かつ／又は認証の条件を定義）してもよい。ウェアラブルスマートデバイスは、認証の条件に従ってユーザの顔のトラッキングを進めるに過ぎない。あるいは、ユーザ情報を収集しない。同様に、ユーザは、視覚化データを含め、自身のデータの使用を定義することを許可され得る。視覚化データの全ての使用は、定義されたユーザの条件と整合性を有する必要がある。

結論
本実装は、ユーザの顔の部分的なビューのみをキャプチャする低アングルカメラ（及び／又は他のセンサ）から有益な情報を導出することができる。本実装は、マシン学習アルゴリズムを用いて、マイクロソフト（登録商標）社によって提供されるKinect（登録商標）ブランドの深度センサのような深度センサの支援により収集されるトレーニングデータに基づいて、顔の表情パラメータを推定することができる。本実装は、非常に限られたビューアングルのカメラからでも人々の顔の表情を確実にトラッキングすることができる。

説明される方法及び処理を、上述のシステム及び／又はデバイスによって、並びに／あるいは他のデバイス及び／又はシステムによって実行することができる。説明される方法の順序は、限定として解釈されるように意図されておらず、説明される任意の数の動作の任意の順序で組み合わせて方法又は代替的な方法を実装することができる。さらに、デバイスが方法を実施することができるように、その方法を、任意の適切なハードウェア、ソフトウェア、ファームウェア又はその組合せで実装することができる。ある場合には、コンピューティングデバイスのプロセッサによる実行が、コンピューティングデバイスに方法を実行させるように、方法を命令のセットとしてコンピュータ読取可能記憶媒体上に格納する。

視覚化情報に関する技術、方法、デバイス、システム等は、構造的特徴及び／又は方法的動作に特有の言語で説明されるが、添付の特許請求の範囲で定義される主題は、必ずしも説明される具体的な特徴又は動作に限定されない。むしろ、具体的な特徴及び動作は、特許請求に係る方法、デバイス、システム等を実装する例示の形で開示される。

Claims

スマート眼鏡であって：
ユーザが見るように配置される１対のレンズを固定するフレームと；
前記フレームに関連して固定され、ユーザの口の画像をキャプチャするように構成される少なくとも１つのセンサと；
前記ユーザの口の前記画像から顔のパラメータを取得するように構成されるアバター制御コンポーネントと；
を備える、スマート眼鏡。
前記フレーム上で前記ユーザの目の方へ向けられ、かつ前記少なくとも１つのセンサが前記ユーザの口の画像をキャプチャすることと同時に前記ユーザの目の他の画像をキャプチャするように構成される、少なくとも１つの異なるセンサを更に備え、前記アバター制御コンポーネントは、前記画像と前記他の画像の双方から顔のパラメータを取得するように構成される、
請求項１に記載のスマート眼鏡。
前記センサ及び前記少なくとも１つの異なるセンサは、可視光カメラ又は赤外カメラを備える、
請求項２の記載のスマート眼鏡。
前記少なくとも１つのセンサは、前記ユーザの口と、前記ユーザの目のうちの少なくとも１つとを、個々の画像内でキャプチャすることができる魚眼レンズを含む、
請求項１に記載のスマート眼鏡。
前記フレームは、１対のテンプルを含み、前記少なくとも１つのセンサは、前記１対のテンプルの個々のテンプルの長軸に対して概ね垂直に向けられる、
請求項１に記載のスマート眼鏡。
前記１対のテンプルは、それぞれのイヤピースで終わり、前記個々のテンプルの前記イヤピースは、バッテリ又は他の電源を更に含み、前記１対のテンプルのうちの他のテンプルの前記イヤピースは、通信コンポーネントを含む、
請求項５に記載のスマート眼鏡。
前記通信コンポーネントは、Bluetooth（登録商標）送信機、Wi-Fi送信機又はセルラ送信機を備える、
請求項６に記載のスマート眼鏡。
ウェアラブルスマートデバイスであって：
ユーザの顔に対して当該ウェアラブルスマートデバイスを配置するように構成される配向構造と；
前記配向構造によって前記ユーザの顔に平行又は低アングルで固定されて、前記ユーザの顔にわたる画像をキャプチャするカメラと；
前記画像を受け取り、前記画像をアバターモデルに関連付けられるパラメータにマップするように構成されるプロセッサと；
を備える、ウェアラブルスマートデバイス。
スマート眼鏡として現れ、前記配向構造はフレームを備える、
請求項８に記載のウェアラブルスマートデバイス。
前記フレームによって支持される１対のレンズを更に備える、
請求項９に記載のウェアラブルスマートデバイス。
前記スマート眼鏡は、前記１対のレンズの一方又は双方のレンズの上で画像を提示するように構成される、
請求項１０に記載のウェアラブルスマートデバイス。
前記１対のレンズは、矯正レンズである、
請求項１０に記載のウェアラブルスマートデバイス。
スマートハットとして現れ、前記配向構造は前記スマートハットのひさしを備える、
請求項１０に記載のウェアラブルスマートデバイス。
前記配向構造は、ヘッドバンドを備える、
請求項８に記載のウェアラブルスマートデバイス。
前記配向構造は、フレームを備え、前記フレームを前記ユーザの衣服に固定するためのクリップを更に備える、
請求項８に記載のウェアラブルスマートデバイス。