JP2023522225A

JP2023522225A - 画像ベースの移動メトリックを使用した表情予測

Info

Publication number: JP2023522225A
Application number: JP2022563131A
Authority: JP
Inventors: ダニエルユルグドナッチュ，; スリヴィグネシュラジェンドラン，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2020-04-20
Filing date: 2021-04-19
Publication date: 2023-05-29
Also published as: US20210326583A1; EP4138663A1; US11803231B2; WO2021216476A1; EP4138663A4; CN115515491A

Abstract

機械学習モデルを訓練し、ユーザ表情を予測するための技法が、開示される。複数の画像が、受信され、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する。移動メトリックに関する複数の値が、複数の画像に基づいて計算され、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す。表情単位に関する複数の値が、移動メトリックに関する複数の値に基づいて計算され、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する。機械学習モデルは、複数の画像および表情単位に関する複数の値を使用して訓練される。

Description

本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、２０２０年４月２０日に出願され、「ＥＸＰＲＥＳＳＩＯＮＰＲＥＤＩＣＴＩＯＮＵＳＩＮＧＩＭＡＧＥ－ＢＡＳＥＤＭＯＶＥＭＥＮＴＭＥＴＲＩＣ」と題された、米国仮特許出願第６３，０１２，５７９号の優先権の利益を主張する。

現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」または「拡張現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える、またはそのように知覚され得る様式で、ユーザに提示される。仮想現実、すなわち、「ＶＲ」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実、すなわち、「ＡＲ」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。

これらのディスプレイ技術において成された進歩にもかかわらず、当技術分野において、拡張現実システム、特に、ディスプレイシステムに関連する、改良された方法、システム、およびデバイスの必要性が存在する。

本開示は、概して、光学システムの性能およびユーザ体験を改良するための技法に関する。より具体的には、本開示の実施形態は、ユーザの顔の画像に基づいて、ユーザ表情を予測するためのシステムおよび方法を提供する。本発明は、多くの場合、拡張現実（ＡＲ）デバイスを参照して説明されるが、本開示は、種々の用途に適用可能である。

本発明の種々の実施形態の説明が、実施例の一覧として、下記に提供される。下記に使用されるように、一連の実施例への任意の言及は、それらの実施例のそれぞれへの離接的な言及として理解されるものである（例えば、「実施例１－４」は、「実施例１、２、３、または４」として理解されるものである）。

実施例１は、機械学習モデルを訓練し、ユーザ表情を予測する方法であって、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、方法である。

実施例２は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位は、表情単位のセットからの第１の表情単位である、実施例１に記載の方法。

実施例３は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、実施例２に記載の方法。

実施例４は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルが、誤差データに基づいて修正される、ステップとを含む、実施例１－３に記載の方法。

実施例５は、機械学習モデルが、調節可能パラメータのセットを有する、人工ニューラルネットワークである、実施例１－４に記載の方法。

実施例６は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例１－５に記載の方法。

実施例７は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第１の極値およびそれに関して第１の極値が識別された第１の対応する画像を識別するステップと、第１の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを１に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第２の極値およびそれに関して第２の極値が識別された第２の対応する画像を識別するステップと、第２の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ～１を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例１－６に記載の方法。

実施例８は、非一過性コンピュータ可読媒体であって、１つまたはそれを上回るプロセッサによって実行されると、１つまたはそれを上回るプロセッサに、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、動作を実施させる、命令を備える、非一過性コンピュータ可読媒体である。

実施例９は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位が、表情単位のセットからの第１の表情単位である、実施例８に記載の非一過性コンピュータ可読媒体。

実施例１０は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、実施例９に記載の非一過性コンピュータ可読媒体。

実施例１１は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルは、誤差データに基づいて修正される、ステップとを含む、実施例８－１０に記載の非一過性コンピュータ可読媒体。

実施例１２は、機械学習モデルが、調節可能パラメータのセットを有する、人工ニューラルネットワークである、実施例８－１１に記載の非一過性コンピュータ可読媒体。

実施例１３は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例８－１２に記載の非一過性コンピュータ可読媒体。

実施例１４は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第１の極値およびそれに関して第１の極値が識別された第１の対応する画像を識別するステップと、第１の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを１に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第２の極値およびそれに関して第２の極値が識別された第２の対応する画像を識別するステップと、第２の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ～１を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例８－１３に記載の非一過性コンピュータ可読媒体。

実施例１５は、システムであって、１つまたはそれを上回るプロセッサと、１つまたはそれを上回るプロセッサによって実行されると、１つまたはそれを上回るプロセッサに、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、動作を実施させる、命令を備える、非一過性コンピュータ可読媒体とを備える、システムである。

実施例１６は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位が、表情単位のセットからの第１の表情単位である、実施例１５に記載のシステム。

実施例１７は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、実施例１６に記載のシステム。

実施例１８は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルは、誤差データに基づいて修正される、ステップとを含む、実施例１５－１７に記載のシステム。

実施例１９は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例１５－１８に記載のシステム。

実施例２０は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第１の極値およびそれに関して第１の極値が識別された第１の対応する画像を識別するステップと、第１の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを１に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第２の極値およびそれに関して第２の極値が識別された第２の対応する画像を識別するステップと、第２の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ～１を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例１５－１９に記載のシステム。

従来の技法に優る多数の利益が、本開示の方法によって達成される。例えば、本明細書に説明される実施形態は、ユーザの顔の一部のみを使用して、ユーザの表情の予測を可能にし、これは、ＡＲシステム等の頭部搭載型システムにおいて、有用な用途を有する。本明細書に説明される実施形態はさらに、機械学習モデルの訓練を可能にし、ユーザ特有であるように調整される、または任意のユーザによって使用され得る、ユーザ表情を予測する。例えば、機械学習モデルは、最初に、全てのユーザに関して訓練されることができ、次いで、訓練のさらなる較正および微調整が、デバイスの受領に応じて、デバイスの各使用に先立って、および／またはユーザの必要性に基づいて、周期的に、エンドユーザによって実施されることができる。

本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。

図１は、機械学習モデルを訓練し、ユーザ表情を予測するために検出され得る、例示的命令および対応する移動メトリック値を図示する。

図２Ａおよび２Ｂは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。

図３Ａおよび３Ｂは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。

図４Ａおよび４Ｂは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。

図５Ａは、その中で機械学習モデルが訓練モードで動作している、例示的システムを図示する。

図５Ｂは、その中で機械学習モデルがランタイムモードで動作している、例示的システムを図示する。

図６は、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、例示的実装を図示する。

図７Ａは、図６の例示的実装のための例示的移動メトリック値を図示する。

図７Ｂは、図７Ａに示される移動メトリック値のための例示的表情単位値を図示する。

図８は、機械学習モデルを訓練し、ユーザ表情を予測する方法を図示する。

図９は、例示的ウェアラブルシステムの概略図を図示する。

図１０は、簡略化されたコンピュータシステムを図示する。

具体的実施形態の詳細な説明
ユーザの表情を予測することは、種々の用途において有用である。例えば、ユーザの表情（故に、ユーザの感情状態）を検出する能力は、コンピューティングシステムが、ユーザの知覚される必要性に基づいて、ユーザと通信することを可能にし、それによって、コンピューティングシステムが、関連情報をユーザにオファーすることを可能にすることができる。拡張現実（ＡＲ）または仮想現実（ＶＲ）コンテキストでは、ユーザ表情を検出することは、アバタおよび他のデジタルキャラクタのアニメーションを促進することができる。例えば、デジタル世界内でユーザのアバタによって生産された表情は、実世界内のユーザの表情に直ちに応答したものであってもよい。

以前の研究の多くは、ユーザの顔の全体を結像することに基づくユーザの表情の予測に向けられていたが、ユーザの眼等のユーザの顔の一部のみの画像に基づく予測は、より実質的に複雑である。例えば、ある顔の表情は、わずかな変化のみを眼に生じさせ得る一方、ユーザの口等のユーザの顔の他の部分への変化は、より顕著であり得る。これらのわずかな変化は、検出することが困難であり、かつ特定のユーザ表情に連結することが困難であり得る。その中で眼追跡カメラが採用される、多くの用途、特に、ＡＲ／ＶＲ用途では、カメラの限定された視野を前提として、ユーザの顔の一部のみの画像に基づいて、ユーザ表情を予測するためのロバストな方法の有意な必要がある。

本明細書に説明される実施形態は、機械学習モデルを訓練し、ユーザ表情を予測するためのシステムおよび方法を提供する。具体的には、機械学習モデルは、ユーザの顔（例えば、ユーザの眼）の入力画像を提供されると、異なる顔移動を表す、小数値のセットを生成するように訓練されてもよい。異なる顔移動は、表情単位と称され得、表情単位毎に機械学習モデルによって生成された値は、表情単位値と称され得る。いくつかのインスタンスでは、表情単位値はそれぞれ、ゼロ～１の範囲であってもよく、ゼロは、ユーザが表情単位を最小範囲で生産している状態に対応し、１は、ユーザが表情単位を最大範囲で生産している状態に対応する。

いくつかの実施形態では、異なる表情単位は、顔面動作符号化システム（ＦＡＣＳ）動作単位であってもよく、これは、顔移動に関する広く使用されている分類基準である。ＦＡＣＳ動作単位はそれぞれ、ユーザの顔内の１つまたはそれを上回る筋肉の異なる縮小または弛緩に対応する。動作単位の組み合わせは、ユーザが特定の感情を示すことに寄与し得る。例えば、ユーザは、ユーザが、頬の上昇（動作単位６）および口角の引上（動作単位１２）を生産しているとき、「喜び」感情を示し得る。別の実施例として、ユーザは、ユーザが、内眉の上昇（動作単位１）、眉の降下（動作単位４）、および口角の引下（動作単位１５）を生産しているとき、「悲しみ」感情を示し得る。

一連の画像を使用して、機械学習モデルを訓練するために、画像毎に生成された表情単位値のセットが、一連の画像に関する移動メトリックに基づいて計算される、異なる表情単位値のセット（または単一表情単位値）を含み得る、グラウンドトゥルースデータと比較される。２つのセットの表情単位値を区別するために、機械学習モデルによって生成された値は、出力値と称され得る。画像毎に、誤差データが、出力値と、画像に関する移動メトリック値を使用して計算される表情単位値を比較することによって、生成されてもよい。機械学習モデルは、次いで、後続推定の間、より正確な出力値を生成するように、例えば、機械学習モデルと関連付けられる加重を調節することによって、誤差データを使用して、修正される。

図１は、本発明のいくつかの実施形態による、機械学習モデルを訓練し、ユーザ表情を予測するための、例示的命令１０１と、検出され得る、対応する移動メトリック値１０２とを図示する。命令１０１は、ユーザに、１つまたはそれを上回る表情単位を生産するように命令するように、ユーザに提供されてもよい。ユーザが、表情単位を生産している間、カメラが、ユーザの顔（またはユーザの眼等のその一部）の画像を捕捉する。捕捉された画像は、分析され、ユーザの顔と関連付けられる、特定の移動メトリックに関する移動メトリック値１０２を抽出する。

いくつかの実施例では、ユーザは、ＡＲ／ＶＲヘッドセットを装着している。ヘッドセットは、ユーザの眼の一方または両方等のユーザの顔の少なくとも一部を含む、視野を伴う、カメラを含んでもよい。そのようなカメラは、眼追跡カメラと称され得、これは、多くの場合、ＡＲ／ＶＲヘッドセットにおいて採用される。いくつかの実施例では、カメラは、ユーザが命令を提供されている間、ユーザの顔全体の画像を捕捉してもよく、画像は、クロッピングされ、画像をユーザの眼等の所望の領域まで低減させてもよい。代替として、カメラは、ユーザの眼に合焦またはズームすることによって、直接、所望の領域の画像を捕捉してもよい。故に、本発明の実施形態は、その中でユーザが頭部搭載型デバイスを装着している場合とそうではない場合のシナリオを含んでもよい。

命令１０１は、記述命令として図１に示されるが、命令１０１は、可能性の中でもとりわけ、ＡＲ／ＶＲヘッドセット内のスピーカを経由して、または遠隔スピーカを経由して再生される、可聴命令、ＡＲ／ＶＲヘッドセット内または遠隔ディスプレイデバイス上に表示される、視覚的命令を含んでもよい。例えば、ＡＲ／ＶＲヘッドセットの較正ステップの間、ヘッドセットは、記述命令または異なる表情単位を実証する仮想キャラクタの実施例のいずれかを示す、仮想コンテンツを生成してもよい。ユーザは、これらの視覚的命令が見えると、その後、示される表情単位を生産してもよい。

図示される実施例では、ユーザは、最初に、「表情単位１を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位１」は、内眉の上昇に対応し得る。ユーザが、次いで、内眉の上昇をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉される。画像は、彼らが内眉の上昇を生産している間、分析され、ユーザの顔の移動を示す、移動メトリック値１０２を検出する。移動メトリック値１０２は、分析され、最大および最小値（およびそれぞれ、その対応するタイムスタンプＴ_ｍａｘ～Ｔ_ｍｉｎ）を識別してもよい。

タイムスタンプＴ_ｍａｘ～Ｔ_ｍｉｎは、着目画像を識別し、機械学習モデルを訓練するためのグラウンドトゥルース値を生産するために使用されてもよい。例えば、移動メトリック値１０２が相対的最大値（タイムスタンプＴ_ｍａｘ）にある、対応する画像は、ユーザが内眉の上昇を完全に生産しているときであり得、移動メトリック値１０２が相対的最小値（タイムスタンプＴ_ｍｉｎ）にある、対応する画像は、ユーザが内眉の上昇を最小量で生産しているときであり得、その間の画像は、ユーザが部分的に内眉の上昇を生産しているときであり得る。したがって、異なる表情単位値が、移動メトリック値１０２に基づいて計算され得る。例えば、１の表情単位値が、相対的最大移動メトリック値に関して計算され得、ゼロの表情単位値が、相対的最小移動メトリック値に関して計算され得、ゼロ～１の表情単位値が、最大移動メトリック値と最小移動メトリック値との間で補間され得る（例えば、線形に）。

図示される実施例を継続すると、ユーザは、次に、「表情単位２を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位２」は、眉の降下に対応し得る。ユーザが、次いで、眉の降下をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値１０２を検出し、そこから最大および最小値および対応するタイムスタンプＴ_ｍａｘ～Ｔ_ｍｉｎが、識別される。内眉の上昇と対照的に、移動メトリック値１０２が相対的最小値（タイムスタンプＴ_ｍｉｎ）にある、対応する画像は、ユーザが眉の降下を完全に生産しているときであり得、移動メトリック値１０２が相対的最大値（タイムスタンプＴ_ｍａｘ）にある、対応する画像は、ユーザが眉の降下を最小量で生産しているときであり得る。したがって、１の表情単位値が、相対的最小移動メトリック値に関して計算され得、ゼロの表情単位値が、相対的最大移動メトリック値に関して計算され得る。

ユーザは、次に、「表情単位３を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位３」は、眼瞼の緊張に対応し得る。ユーザが、次いで、眼瞼の緊張をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値１０２を検出し、そこから最大および最小値および対応するタイムスタンプＴ_ｍａｘ～Ｔ_ｍｉｎが、識別される。最後に、ユーザは、「表情単位４を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位４」は、上瞼の上昇に対応し得る。ユーザが、次いで、上瞼の上昇をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値１０２を検出し、そこから最大および最小値および対応するタイムスタンプＴ_ｍａｘ～Ｔ_ｍｉｎが、識別される。

図２Ａおよび２Ｂは、本発明のいくつかの実施形態による、移動メトリック値２０２に基づく、表情単位値２０４の例示的計算を図示する。図２Ａに示されるように、相対的最大値２０８および相対的最小値２１０が、最初に、移動メトリック値２０２およびその対応するタイムスタンプ（Ｔ_１、Ｔ_４、Ｔ_７、Ｔ_１０、Ｔ_１３、Ｔ_１６、およびＴ_１９）に関して識別される。相対的極値の過識別を回避するために、順次極値が少なくとも特定の間隔（例えば、ある時間量またはあるフレーム数）を有するという制約が、課され得る。次に、上限閾値２１２が、相対的最大値２０８のそれぞれを下回る所定の距離に設定され得、下限閾値２１４が、相対的最小値２１０のそれぞれを上回る所定の距離に設定され得る。移動メトリック値２０２が上限閾値２１２（Ｔ_３、Ｔ_５、Ｔ_９、Ｔ_１１、Ｔ_１５、およびＴ_１７）および下限閾値２１４（Ｔ_２、Ｔ_６、Ｔ_８、Ｔ_１２、Ｔ_１４、およびＴ_１８）を交差する、タイムスタンプが、識別され得る。

図２Ｂに示されるように、表情単位値２０４が、次いで、相対的最大値２０８が識別されたタイムスタンプおよび／または移動メトリック値２０２が上限閾値２１２を交差したタイムスタンプにおいて、値を１に等しくなるように設定することによって計算され得る。表情単位値２０４は、相対的最小値２１０が識別されたタイムスタンプおよび／または移動メトリック値２０２が下限閾値２１４を交差したタイムスタンプにおいて、ゼロに等しくなるように設定されてもよい。表情単位値２０４の残りの値は、線形に補間されてもよい。例えば、Ｔ_２～Ｔ_３の表情単位値２０４は、ゼロ～１で線形に補間されてもよく、Ｔ_５～Ｔ_６の表情単位値２０４は、１～ゼロで線形に補間されてもよく、同等物であってもよい。

いくつかの実施形態では、線形補間以外の補間スキームが、採用されてもよい。例えば、非線形補間スキームが、採用されてもよく、その場合、表情単位値は、以下のように、最も近くの移動メトリック値に基づいて計算される。Ｍ（Ｔ_ｉ）およびＥ（Ｔ_ｉ）が、それぞれ、時間Ｔ_ｉにおける、メトリック移動値および表情単位値である場合、Ｔ_２～Ｔ_３の表情単位値は、以下の方程式によって定義されるように、ゼロ～１で補間されてもよい。

同様に、Ｔ_５～Ｔ_６の表情単位値は、以下の方程式によって定義されるように、１～ゼロで補間されてもよい。

図３Ａおよび３Ｂは、本発明のいくつかの実施形態による、移動メトリック値３０２に基づく、表情単位値３０４の例示的計算を図示する。図２Ａおよび２Ｂと対照的に、図３Ａおよび３Ｂにおける表情単位は、その中で最小移動メトリック値が、ユーザが表情単位を完全に生産しているときに生じ、最大移動メトリック値が、ユーザが表情単位を最小量で生産しているときに生じるものである。

図３Ａに示されるように、相対的最大値３０８および相対的最小値３１０が、最初に、移動メトリック値３０２およびその対応するタイムスタンプ（Ｔ_１、Ｔ_４、Ｔ_７、Ｔ_１０、Ｔ_１３、Ｔ_１６、およびＴ_１９）に関して識別される。図２Ａに説明されるものと同様に、上限閾値３１２が、相対的最大値３０８のそれぞれを下回る所定の距離に設定され得、下限閾値３１４が、相対的最小値３１０のそれぞれを上回る所定の距離に設定され得る。移動メトリック値３０２が上限閾値３１２（Ｔ_２、Ｔ_６、Ｔ_８、Ｔ_１２、Ｔ_１４、およびＴ_１８）および下限閾値３１４（Ｔ_３、Ｔ_５、Ｔ_９、Ｔ_１１、Ｔ_１５、およびＴ_１７）を交差する、タイムスタンプが、識別され得る。

図３Ｂに示されるように、表情単位値３０４が、次いで、相対的最大値３０８が識別されたタイムスタンプおよび／または移動メトリック値３０２が上限閾値３１２を交差したタイムスタンプにおいて、値をゼロに等しくなるように設定することによって計算され得る。表情単位値３０４は、相対的最小値３１０が識別されたタイムスタンプおよび／または移動メトリック値３０２が下限閾値３１４を交差したタイムスタンプにおいて、１に等しくなるように設定され得る。表情単位値３０４の残りの値は、線形に補間され得る。

図４Ａおよび４Ｂは、本発明のいくつかの実施形態による、移動メトリック値４０２に基づく、表情単位値４０４の例示的計算を図示する。図４Ａにおいて採用されるスキームは、その中で図２Ａおよび３Ａに説明される閾値が使用されない、簡略化されたアプローチである。図２Ａおよび２Ｂと同様に、図４Ａおよび４Ｂにおける表情単位は、その中で最大移動メトリック値が、ユーザが表情単位を完全に生産しているときに生じ、最小移動メトリック値が、ユーザが表情単位を最小量で生産しているときに生じるものである。図４Ａに示されるように、相対的最大値４０８および相対的最小値４１０は、移動メトリック値４０２およびその対応するタイムスタンプ（Ｔ_１、Ｔ_４、Ｔ_７、Ｔ_１０、Ｔ_１３、Ｔ_１６、およびＴ_１９）に関して識別される。

図４Ｂに示されるように、表情単位値４０４が、次いで、相対的最大値４０８が識別されたタイムスタンプにおいて、値を１に等しくなるように設定し、相対的最小値４１０が識別されたタイムスタンプにおいて、値をゼロに等しくなるように設定することによって計算され得る。表情単位値４０４の残りの値は、Ｔ_１～Ｔ_４、Ｔ_７～Ｔ_１０、およびＴ_１３～Ｔ_１６において、ゼロ～１で、Ｔ_４～Ｔ_７、Ｔ_１０～Ｔ_１３、およびＴ_１６～Ｔ_１９において、１～ゼロで、線形または非線形に補間することによって計算される。

図５Ａは、本発明のいくつかの実施形態による、その中で機械学習モデル５５０が訓練モードで動作している、例示的システム５００Ａを図示する。システム５００Ａは、ユーザの顔の画像５０６を捕捉するように構成される、画像捕捉デバイス５０５を含む。画像５０６は、画像プロセッサ５０８Ａおよび５０８Ｂによって受信および処理される。画像プロセッサ５０８Ａは、移動メトリック５１０に関する値５０２を計算する。移動メトリック５１０は、訓練プロセスの間、一定であってもよい、または異なる表情単位に関して変化されてもよい。移動メトリック５１０に関する値５０２は、画像プロセッサ５０８Ａから画像プロセッサ５０８Ｂに送信され、これは、移動メトリック５１０に関する値５０２に基づいて、表情単位５１４に関する値５０４を計算する。

表情単位５１４に関する画像５０６および値５０４は、訓練入力データ５１８を形成してもよい。訓練プロセスの間、画像５０６はそれぞれ、順次、値５０４からの画像の対応する表情単位値とともに、機械学習モデル５５０にフィードされてもよい。画像の受信に応じて、機械学習モデル５５０は、Ｎ個の表情単位５２０のセット毎に、出力値５２２の出力値を生成してもよい。表情単位５１４と同一表情単位に関する出力値は、値５０４からの対応する値と比較され、誤差データ５２４を生成する。機械学習モデル５５０と関連付けられる加重が、次いで、誤差データ５２４に基づいて、修正される（例えば、調節される）。

実施例として、第１の訓練反復の間、画像５０６からの第１の画像が、機械学習モデル５５０に提供されてもよく、これは、Ｎ個の出力値５２２（Ｎ個の表情単位５２０毎に、１つの出力値）を生成してもよい。いくつかの実施形態では、Ｎ個の出力値はそれぞれ、ゼロ～１の小数値であってもよい。表情単位５１４と同一である、表情単位５２０に関する出力値５２２は、第１の画像に対応する、値５０４（グラウンドトゥルースを表す）からの第１の値と比較され、誤差データ５２４を生成する。いくつかの実施形態では、残りの表情単位５２０に関する出力値５２２もまた、誤差データ５２４を生成するために使用され、それによって、機械学習モデル５５０が、これらの出力値５２２がゼロであるべきことを学習することを可能にする。機械学習モデル５５０と関連付けられる加重が、次いで、誤差データ５２４に基づいて、修正される。

実施例を継続すると、第１の訓練反復後の第２の訓練反復の間、画像５０６からの第２の画像が、機械学習モデル５５０に提供されてもよく、これは、Ｎ個の出力値５２２（Ｎ個の表情単位５２０毎に、１つの出力値）を生成してもよい。表情単位５１４と同一である、表情単位５２０に関する出力値５２２が、第２の画像に対応する、値５０４からの第２の値と比較され、誤差データ５２４を生成する（随意に、残りの表情単位５２０に関する出力値５２２もまた、誤差データ５２４を生成するために使用される）。機械学習モデル５５０と関連付けられる加重が、次いで、誤差データ５２４に基づいて、修正される。

本プロセスは、画像５０６の全てが訓練プロセス内で使用されるまで、継続する。訓練プロセスの間、表情単位５１４は、必要に応じて、変化され、異なる出力値５２２を誤差データ５２４の生成において選択および使用させてもよい。機械学習モデル５５０は、したがって、単一画像に基づいて、ユーザがＮ個の表情単位５２０のそれぞれを生産している範囲を予測するように「学習」し得る。

図５Ｂは、本発明のいくつかの実施形態による、その中で機械学習モデル５５０がランタイムモードで動作している、例示的システム５００Ｂを図示する。ランタイムの間、画像捕捉デバイス５０５は、画像５０６を捕捉し、機械学習モデル５５０に提供し、これは、表情単位５２０毎に、出力値５２２を生成し、Ｎ個の出力値５２２をもたらす。単一入力画像５０６が、図５Ｂに示されるが、いくつかの実施形態では、複数の入力画像が、提供され、機械学習モデル５５０の正確度を増加させてもよい。例えば、画像５０６の１つまたはそれを上回る前の画像または後続画像が、Ｎ個の値５２２の単一セットを生成するとき、画像５０６とともに、機械学習モデル５５０に提供されてもよい。そのような実施形態では、訓練プロセスは、同様に、各訓練反復の間、複数の入力画像を利用してもよい。

図６は、本発明のいくつかの実施形態による、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、例示的実装を図示する。図示される実施例では、ユーザの眼の左画像６０２Ａおよび右画像６０２Ｂが、画像捕捉デバイスを使用して捕捉される。画像６０２はそれぞれ、眼セグメント化６０４に示されるように、眼ピクセル６０６および非眼ピクセル６０８（代替として、それぞれ、非皮膚ピクセルおよび皮膚ピクセルと称される）にセグメント化される。眼ピクセル６０６は、強膜、虹彩、および瞳孔を含む、眼の異なる領域にさらにセグメント化されてもよい。いくつかの実施形態では、付加的機械学習モデルが、眼セグメント化６０４を生成するために使用されてもよい。そのような機械学習モデルは、ユーザによって準備される、標識された画像を使用して訓練されてもよく、その場合、ユーザは、眼ピクセル６０６および非眼ピクセル６０８、同様に、眼の異なる領域を手動で識別する。

図７Ａは、本発明のいくつかの実施形態による、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、図６の例示的実装のための例示的移動メトリック値を図示する。図示される実施例では、左および右眼の両方に関するデータが、重畳される。曲線は、ある時間周期にわたる、眼ピクセル（または非皮膚ピクセル）の数を示す。いくつかの実施形態では、「強い表情」（例えば、ユーザが、表情単位を最大範囲で生産している）に対応する、移動メトリック値は、自動的に、または手動で、識別されてもよい。自動識別は、極値、随意に、図１－４Ｂを参照して説明されるような閾値を識別することによって実施されてもよい。手動識別は、ユーザが、グラフィカルインターフェースを通して、特定のフレームを選択することによって遂行されてもよい。加えて、「中立表情」（例えば、ユーザが、表情単位を最小範囲で生産している）に対応する、移動メトリック値も、自動的に、または手動で、識別されてもよい。

図７Ｂは、図７Ａに示される移動メトリック値に関する例示的表情単位値を図示する。表情単位値は、そこで強い表情が識別されたフレーム（画像）（随意に、それに関して移動メトリック値が閾値距離内にある、フレーム）に関して、値を１に等しくなるように設定し、そこで中立表情が識別されたフレーム（随意に、それに関して移動メトリック値が閾値距離内にある、フレーム）に関して、値をゼロに等しくなるように設定することによって計算される。残りの表情単位値は、図２－４Ｂを参照して説明されるように、ゼロ～１で線形または非線形に補間される。

図８は、本発明のいくつかの実施形態による、機械学習モデル（例えば、機械学習モデル５５０）を訓練し、ユーザ表情を予測するための方法８００を図示する。方法８００の１つまたはそれを上回るステップは、方法８００の実施の間、省略されてもよく、方法８００のステップは、示される順序で実施される必要はない。方法８００の１つまたはそれを上回るステップは、１つまたはそれを上回るプロセッサによって、実施または促進されてもよい。

ステップ８０２では、複数の画像が、受信される（例えば、画像５０６、６０２）。複数の画像は、画像捕捉デバイス（例えば、画像捕捉デバイス５０５）から受信されてもよく、これは、複数の画像を捕捉し、処理モジュールに送信してもよい。複数の画像のうちの１つまたはそれを上回るものは、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像（例えば、ＲＧＢ画像）であってもよい。いくつかの実施形態では、画像捕捉デバイスは、ウェアラブルデバイスに搭載される、眼追跡カメラであってもよい。複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有してもよい。例えば、複数の画像はそれぞれ、ユーザの眼を含有してもよい。

ステップ８０４では、移動メトリック（例えば、移動メトリック５１０）に関する複数の値（例えば、値１０２、２０２、３０２、４０２、５０２）が、複数の画像に基づいて計算される。移動メトリックは、ユーザの顔の移動を示す（またはそこからその分析が、ユーザの顔の移動を示し得る）、ある測定値であってもよい。例えば、移動メトリックは、可能性の中でもとりわけ、画像内の眼ピクセルの数、画像内の非眼ピクセルの数、眼の上部と底部との間の距離、眼の左側と右側との間の距離、画像内の眼に沿った点の位置、画像の勾配であってもよい。

その中で移動メトリックが眼ピクセルの数である、実施形態に関して、移動メトリックに関する複数の値を計算するステップは、複数の画像のそれぞれが眼ピクセル（例えば、眼ピクセル６０６）および非眼ピクセル（例えば、非眼ピクセル６０８）を含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含んでもよい。複数の画像からの画像をセグメント化するステップは、眼セグメント化（例えば、眼セグメント化６０４）をもたらし得る。

ステップ８０６では、表情単位（例えば、表情単位５１４）に関する複数の値（例えば、値２０４、３０４、４０４、５０４）が、移動メトリックに関する複数の値に基づいて計算される。表情単位に関する複数の値はそれぞれ、それに対してユーザ（例えば、ユーザの顔）が表情単位を生産している、範囲に対応し得る。いくつかの実施形態では、より大きい値は、ユーザが表情単位より大きい範囲で生産していることに対応し得る。

いくつかの実施形態では、表情単位に関する複数の値を計算するステップは、移動メトリックに関する複数の値内の極値（最大および／または最小値）を識別するステップを含んでもよい。一実施例では、移動メトリックに関する複数の値内の第１の極値（例えば、最大値）は、それに関して第１の極値が識別される、第１の対応する画像とともに識別される。第１の対応する画像と関連付けられる、表情単位に関する複数の値はそれぞれ、１に等しくなるように設定されてもよい。さらに、移動メトリックに関する複数の値内の第２の極値（例えば、最小値）は、それに関して第２の極値が識別される、第２の対応する画像とともに識別されてもよい。第２の対応する画像と関連付けられる、表情単位に関する複数の値はそれぞれ、ゼロに等しくなるように設定されてもよい。さらに、複数の値の各残りの値は補間を通して、ゼロ～１の値に等しくなるように設定されてもよい。

ステップ８０８では、機械学習モデルが、複数の画像および表情単位に関する複数の値を使用して訓練される。いくつかの実施形態では、ステップ８０８は、ステップ８１０および８１２の一方または両方を含む。

ステップ８１０では、訓練出力データ（例えば、訓練出力データ５２６）が、複数の画像に基づいて、生成される。訓練出力データは、表情単位（例えば、表情単位５２０）のセット毎に、複数の出力値（例えば、出力値５２２）を含んでもよい。表情単位は、表情単位のセットのうちの１つであってもよい。表情単位のセットは、以下、すなわち、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、および右眼ウィンクのうちの１つまたはそれを上回るものを含んでもよい。表情単位のセットは、表情単位がＦＡＣＳ動作単位のうちの１つであり得るように、ＦＡＣＳ動作単位であってもよい。

いくつかの実施形態では、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップはさらに、表情単位に関する複数の値と、表情単位に関する複数の出力値との比較を実施するステップを含む。いくつかの実施形態では、誤差データ（例えば、誤差データ５２４）が、比較に基づいて、生成されてもよい。例えば、誤差データは、表情単位に関する複数の値を表情単位に関する複数の出力値から減算すること（またはその逆）によって生成されてもよい。誤差データは、可能性の中でもとりわけ、差異の大きさ、差異の大きさの和、差異の２乗の和に等しくなるように設定されてもよい。一般に、誤差データは、表情単位に関する複数の値と表情単位に関する複数の出力値との間の差異を示し得る。

ステップ８１２では、機械学習モデルが、表情単位に関する複数の値および訓練出力データに基づいて、修正される。機械学習モデルを修正するステップは、機械学習モデルと関連付けられる、１つまたはそれを上回るパラメータ（例えば、加重および／またはバイアス）を調節するステップを含んでもよい。例えば、機械学習モデルは、複数の調節可能パラメータを有する、人工ニューラルネットワークであってもよく、これは、入力画像に基づいて、表情単位のセットに関する出力値のセットを算出するために使用される。

いくつかの実施形態では、機械学習モデルは、誤差データに基づいて修正されてもよい。いくつかの実施形態では、それに対して機械学習モデルと関連付けられるパラメータが調節される、範囲は、表情単位に関する複数の値と表情単位に関する複数の出力値との間のより大きい差異が、機械学習モデルへのより大きい修正につながるように、誤差データの大きさに関連（例えば、比例）し得る。いくつかの実施形態では、機械学習モデルは、複数の訓練反復毎に修正されてもよい。例えば、各訓練反復は、複数の画像からの単一入力画像および表情単位に関する複数の値からの表情単位に関するその対応する値を使用して、機械学習モデルを訓練するステップから成ってもよい。

図９は、本発明の実施形態による、上記に説明される実施形態のうちの１つまたはそれを上回るものにおいて使用され得る、例示的ウェアラブルシステム９００の概略図を図示する。ウェアラブルシステム９００は、ウェアラブルデバイス９０１と、ウェアラブルデバイス９０１から遠隔の少なくとも１つの遠隔デバイス９０３（例えば、別個のハードウェアであるが、通信可能に結合される）とを含んでもよい。ウェアラブルデバイス９０１が、ユーザによって装着されている間（概して、ヘッドセットとして）、遠隔デバイス９０３は、ユーザによって保持される（例えば、ハンドヘルドコントローラとして）、またはフレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザに除去可能に取り付けられる（例えば、リュック式構成において、ベルト結合式構成において等）等、種々の構成において搭載されてもよい。

ウェアラブルデバイス９０１は、並置構成において配列され、左光学スタックを構成する、左接眼レンズ９０２Ａと、左レンズアセンブリ９０５Ａとを含んでもよい。左レンズアセンブリ９０５Ａは、遠近調節レンズを左光学スタックのユーザ側上に、および補償レンズを左光学スタックの世界側上に含んでもよい。同様に、ウェアラブルデバイス９０１は、並置構成に配列され、右光学スタックを構成する、右接眼レンズ９０２Ｂと、右レンズアセンブリ９０５Ｂとを含んでもよい。右レンズアセンブリ９０５Ｂは、遠近調節レンズを右光学スタックのユーザ側上に、および補償レンズを右光学スタックの世界側上に含んでもよい。

いくつかの実施形態では、ウェアラブルデバイス９０１は、限定ではないが、直接、左接眼レンズ９０２Ａまたはその近くに取り付けられる、左正面に面した世界カメラ９０６Ａと、直接、右接眼レンズ９０２Ｂまたはその近くに取り付けられる、右正面に面した世界カメラ９０６Ｂと、直接、左接眼レンズ９０２Ａまたはその近くに取り付けられる、左側に面した世界カメラ９０６Ｃと、直接、右接眼レンズ９０２Ｂまたはその近くに取り付けられる、右側に面した世界カメラ９０６Ｄと、左眼に向かって指向される、左眼追跡カメラ９２６Ａと、右眼に向かって指向される、右眼追跡カメラ９２６Ｂと、接眼レンズ９０２間に取り付けられる、深度センサ９２８とを含む、１つまたはそれを上回るセンサを含む。ウェアラブルデバイス９０１は、左接眼レンズ９０２Ａに光学的に連結される、左プロジェクタ９１４Ａ、および右接眼レンズ９０２Ｂに光学的に連結される、右プロジェクタ９１４Ｂ等の１つまたはそれを上回る画像投影デバイスを含んでもよい。

ウェアラブルシステム９００は、システム内のデータを収集、処理、および／または制御するための処理モジュール９５０を含んでもよい。処理モジュール９５０のコンポーネントは、ウェアラブルデバイス９０１と遠隔デバイス９０３との間に分散されてもよい。例えば、処理モジュール９５０は、ウェアラブルシステム９００のウェアラブル部分上のローカル処理モジュール９５２と、ローカル処理モジュール９５２と物理的に別個であって、それに通信可能に連結される、遠隔処理モジュール９５６とを含んでもよい。ローカル処理モジュール９５２および遠隔処理モジュール９５６はそれぞれ、１つまたはそれを上回る処理ユニット（例えば、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）等）と、不揮発性メモリ（例えば、フラッシュメモリ）等の１つまたはそれを上回る記憶デバイスとを含んでもよい。

処理モジュール９５０は、カメラ９０６、眼追跡カメラ９２６、深度センサ９２８、遠隔センサ９３０、周囲光センサ、マイクロホン、慣性測定ユニット（ＩＭＵ）、加速度計、コンパス、グローバルナビゲーション衛星システム（ＧＮＳＳ）ユニット、無線デバイス、および／またはジャイロスコープ等のウェアラブルシステム９００の種々のセンサによって捕捉されたデータを収集してもよい。例えば、処理モジュール９５０は、画像９２０をカメラ９０６から受信してもよい。具体的には、処理モジュール９５０は、左正面画像９２０Ａを左正面に面した世界カメラ９０６Ａから、右正面画像９２０Ｂを右正面に面した世界カメラ９０６Ｂから、左側画像９２０Ｃを左側に面した世界カメラ９０６Ｃから、および右側画像９２０Ｄを右側に面した世界カメラ９０６Ｄから受信してもよい。いくつかの実施形態では、画像９２０は、単一画像、一対の画像、画像のストリームから成るビデオ、ペアリングされた画像のストリームから成るビデオ、および同等物を含んでもよい。画像９２０は、ウェアラブルシステム９００が電源投入されている間、周期的に、生成され、処理モジュール９５０に送信されてもよい、または処理モジュール９５０によってカメラのうちの１つまたはそれを上回るものに送信される命令に応答して、生成されてもよい。

カメラ９０６は、ユーザの周囲の画像を捕捉するように、ウェアラブルデバイス９０１の外面に沿って、種々の位置および配向において構成されてもよい。いくつかのインスタンスでは、カメラ９０６Ａ、９０６Ｂは、それぞれ、ユーザの左および右眼のＦＯＶと実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ９０６の設置は、ユーザの眼の近くにあり得るが、ユーザのＦＯＶを不明瞭にするほど近くない。代替として、または加えて、カメラ９０６Ａ、９０６Ｂは、それぞれ、仮想画像光９２２Ａ、９２２Ｂの内部結合場所と整合するように位置付けられてもよい。カメラ９０６Ｃ、９０６Ｄは、ユーザの側面、例えば、ユーザの周辺視覚内またはユーザの周辺視覚の外側の画像を捕捉するように位置付けられてもよい。カメラ９０６Ｃ、９０６Ｄを使用して捕捉された画像９２０Ｃ、９２０Ｄは、必ずしも、カメラ９０６Ａ、９０６Ｂを使用して捕捉された画像９２０Ａ、９２０Ｂと重複する必要はない。

いくつかの実施形態では、処理モジュール９５０は、周囲光情報を周囲光センサから受信してもよい。周囲光情報は、ある明度値またはある範囲の空間的に分解された明度値を示し得る。深度センサ９２８は、ウェアラブルデバイス９０１の正面に面した方向において深度画像９３２を捕捉してもよい。深度画像９３２の各値は、特定の方向における深度センサ９２８と最も近くの検出されたオブジェクトとの間の距離に対応し得る。別の実施例として、処理モジュール９５０は、眼追跡データ９３４を眼追跡カメラ９２６から受信してもよく、これは、左および右眼の画像を含んでもよい。別の実施例として、処理モジュール９５０は、投影された画像明度値をプロジェクタ９１４の一方または両方から受信してもよい。遠隔デバイス９０３内に位置する遠隔センサ９３０は、類似機能性を伴う上記に説明されるセンサのいずれかを含んでもよい。

仮想コンテンツは、光学スタック内の他のコンポーネントとともに、プロジェクタ９１４および接眼レンズ９０２を使用して、ウェアラブルシステム９００のユーザに送達される。例えば、接眼レンズ９０２Ａ、９０２Ｂは、それぞれ、プロジェクタ９１４Ａ、９１４Ｂによって生成された光を指向および外部結合するように構成される、透明または半透明導波管を備えてもよい。具体的には、処理モジュール９５０は、左プロジェクタ９１４Ａに、左仮想画像光９２２Ａを左接眼レンズ９０２Ａ上に出力させ得、右プロジェクタ９１４Ｂに、右仮想画像光９２２Ｂを右接眼レンズ９０２Ｂ上に出力させ得る。いくつかの実施形態では、プロジェクタ９１４は、微小電気機械システム（ＭＥＭＳ）空間光変調器（ＳＬＭ）走査デバイスを含んでもよい。いくつかの実施形態では、接眼レンズ９０２Ａ、９０２Ｂはそれぞれ、異なる色に対応する、複数の導波管を備えてもよい。いくつかの実施形態では、レンズアセンブリ９０５Ａ、９０５Ｂは、接眼レンズ９０２Ａ、９０２Ｂに結合され、および／または統合されてもよい。例えば、レンズアセンブリ９０５Ａ、９０５Ｂは、多層接眼レンズの中に組み込まれてもよく、接眼レンズ９０２Ａ、９０２Ｂのうちの１つを構成する、１つまたはそれを上回る層を形成してもよい。

図１０は、本明細書に説明される実施形態による、簡略化されたコンピュータシステム１０００を図示する。図１０に図示されるようなコンピュータシステム１０００は、本明細書に説明されるようなデバイスの中に組み込まれてもよい。図１０は、種々の実施形態によって提供される方法のステップの一部または全部を実施し得る、コンピュータシステム１０００の一実施形態の概略化された例証を提供する。図１０は、種々のコンポーネントの一般化された例証を提供するためだけに意図され、そのいずれかまたは全てが、必要に応じて利用されてもよいことに留意されたい。図１０は、したがって、広義には、個々のシステム要素が比較的に分離された様式または比較的により統合された様式において実装され得る状況を図示する。

コンピュータシステム１０００は、バス１００５を介して電気的に結合されることができる、または必要に応じて別様に通信し得る、ハードウェア要素を備えるように示される。ハードウェア要素は、限定ではないが、デジタル信号処理チップ、グラフィック加速プロセッサ、および／または同等物等の、１つまたはそれを上回る汎用プロセッサおよび／または１つまたはそれを上回る特殊目的プロセッサを含む、１つまたはそれを上回るプロセッサ１０１０と、限定ではないが、マウス、キーボード、カメラ、および／または同等物を含むことができる、１つまたはそれを上回る入力デバイス１０１５と、限定ではないが、ディスプレイデバイス、プリンタ、および／または同等物を含むことができる、１つまたはそれを上回る出力デバイス１０２０とを含んでもよい。

コンピュータシステム１０００はさらに、限定ではないが、ローカルおよび／またはネットワークアクセス可能記憶装置を備えることができ、および／または、限定ではないが、プログラム可能である、フラッシュ更新可能である、および／または同等物であることができる、ディスクドライブ、ドライブアレイ、光学記憶デバイス、ランダムアクセスメモリ（「ＲＡＭ」）等のソリッドステート記憶デバイス、および／または読取専用メモリ（「ＲＯＭ」）を含むことができる、１つまたはそれを上回る非一過性記憶デバイス１０２５を含む、および／またはそれと通信してもよい。そのような記憶デバイスは、限定ではないが、種々のファイルシステム、データベース構造、および／または同等物を含む、任意の適切なデータ記憶を実装するように構成されてもよい。

コンピュータシステム１０００はまた、限定ではないが、Ｂｌｕｅｔｏｏｔｈ（登録商標）デバイス、８０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラー通信設備等、および／または同等物等のモデム、ネットワークカード（無線または有線）、赤外線通信デバイス、無線通信デバイス、および／またはチップセットを含むことができる、通信サブシステム１０１９を含み得る。通信サブシステム１０１９は、１つまたはそれを上回る入力および／または出力通信インターフェースを含み、データが、一実施例として挙げるために以下に説明されるネットワーク、すなわち、他のコンピュータシステム、テレビ、および／または本明細書に説明される任意の他のデバイス等のネットワークと交換されることを可能にしてもよい。所望の機能性および／または他の実装懸念に応じて、ポータブル電子デバイスまたは類似デバイスは、通信サブシステム１０１９を介して、画像および／または他の情報を通信してもよい。他の実施形態では、ポータブル電子デバイス、例えば、第１の電子デバイスは、コンピュータシステム１０００、例えば、電子デバイスの中に入力デバイス１０１５として組み込まれてもよい。いくつかの実施形態では、コンピュータシステム１０００はさらに、作業メモリ１０３５を備え、これは、上記に説明されるようなＲＡＭまたはＲＯＭデバイスを含むことができる。

コンピュータシステム１０００はまた、種々の実施形態によって提供されるコンピュータプログラムを備え得る、および／または本明細書に説明されるような他の実施形態によって提供される方法を実装し、および／またはシステムを構成するように設計され得る、１つまたはそれを上回るアプリケーションプログラム１０４５等のオペレーティングシステム１０４０、デバイスドライバ、実行可能ライブラリ、および／または他のコードを含む、作業メモリ１０３５内に現在位置するものとして示される、ソフトウェア要素を含むことができる。単に、一例として、上記に議論される方法に関して説明される１つまたはそれを上回るプロシージャは、コンピュータまたはコンピュータ内のプロセッサによって実行可能なコードおよび／または命令として実装され得、ある側面では、次いで、そのようなコードおよび／または命令は、説明される方法に従って１つまたはそれを上回る動作を実施するように汎用コンピュータまたは他のデバイスを構成および／または適合するために使用されることができる。

これらの命令および／またはコードのセットは、上記に説明される記憶デバイス１０２５等の非一過性コンピュータ可読記憶媒体上に記憶されてもよい。ある場合には、記憶媒体は、コンピュータシステム１０００等のコンピュータシステム内に組み込まれ得る。他の実施形態では、記憶媒体は、コンピュータシステムと別個である、例えば、コンパクトディスク等の可撤性媒体である、および／または記憶媒体が、汎用コンピュータをその上に記憶される命令／コードを用いてプログラム、構成、および／または適合するために使用され得るように、インストールパッケージ内に提供され得る。これらの命令は、コンピュータシステム１０００によって実行可能である、実行可能コードの形態をとり得る、および／または、例えば、種々の概して利用可能なコンパイラ、インストールプログラム、圧縮／解凍ユーティリティ等のいずれかを使用したコンピュータシステム１０００上へのコンパイルおよび／またはインストールに応じて、次いで、実行可能コードの形態をとる、ソースおよび／またはインストール可能コードの形態をとり得る。

実質的な変形例が、具体的要件に従って構成されてもよいことが、当業者に明白となるであろう。例えば、カスタマイズされたハードウェアもまた、使用され得る、および／または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入力／出力デバイス等の他のコンピューティングデバイスへの接続も、採用されてもよい。

上記に述べられたように、一側面では、いくつかの実施形態は、コンピュータシステム１０００等のコンピュータシステムを採用し、本技術の種々の実施形態による方法を実施してもよい。一式の実施形態によると、そのような方法のプロシージャの一部または全部は、プロセッサ１０１０が、オペレーティングシステム１０４０の中に組み込まれ得る、１つまたはそれを上回る命令の１つまたはそれを上回るシーケンス、および／または作業メモリ１０３５内に含有される、アプリケーションプログラム１０４５等の他のコードを実行することに応答して、コンピュータシステム１０００によって実施される。そのような命令は、記憶デバイス１０２５のうちの１つまたはそれを上回るもの等の別のコンピュータ可読媒体から作業メモリ１０３５の中に読み取られてもよい。単に、一例として、作業メモリ１０３５内に含有される命令のシーケンスの実行は、プロセッサ１０１０に、本明細書に説明される方法の１つまたはそれを上回るプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。

用語「機械可読媒体」および「コンピュータ可読媒体」は、本明細書で使用されるとき、機械を具体的方式で動作させるデータを提供することに関わる、任意の媒体を指す。コンピュータシステム１０００を使用して実装される、ある実施形態では、種々のコンピュータ可読媒体は、実行のための命令／コードをプロセッサ１０１０に提供する際に関わり得る、および／またはそのような命令／コードを記憶および／または搬送するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および／または有形記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス１０２５等の光学および／または磁気ディスクを含む。揮発性媒体は、限定ではないが、作業メモリ１０３５等の動的メモリを含む。

一般的形態の物理的および／または有形コンピュータ可読媒体は、例えば、フロッピー（登録商標）ディスク、可撓性ディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを伴う任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および／またはコードを読み取ることができる、任意の他の媒体を含む。

種々の形態のコンピュータ可読媒体が、実行のための１つまたはそれを上回る命令の１つまたはそれを上回るシーケンスをプロセッサ１０１０に搬送する際に関わってもよい。単に、一例として、命令は、最初に、遠隔コンピュータの磁気ディスクおよび／または光学ディスク上で搬送されてもよい。遠隔コンピュータは、命令をその動的メモリの中にロードし、コンピュータシステム１０００によって受信および／または実行される伝送媒体を経由して、命令を信号として送信し得る。

通信サブシステム１０１９および／またはそのコンポーネントは、概して、信号を受信し、バス１００５が、次いで、信号および／または信号によって搬送されるデータ、命令等を作業メモリ１０３５に搬送し得、そこから、プロセッサ１０１０が、命令を読み出し、実行する。作業メモリ１０３５によって受信された命令は、随意に、プロセッサ１０１０による実行前または後のいずれかにおいて、非一過性記憶デバイス１０２５上に記憶されてもよい。

上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および／または種々の段階は、追加される、省略される、および／または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。

具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。

また、構成は、概略フローチャートまたはブロック図として描写される、プロセスとして説明され得る。それぞれ、順次プロセスとして動作を説明し得るが、動作の多くは、並行して、または同時に実施されることができる。加えて、動作の順序は、再配列されてもよい。プロセスは、図内に含まれない付加的ステップを有してもよい。さらに、本方法の実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または任意のそれらの組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコード内に実装されるとき、必要タスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体等の非一過性コンピュータ可読媒体内に記憶されてもよい。プロセッサは、説明されるタスクを実施してもよい。

いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。

本明細書および添付の請求項で使用されるように、単数形「ａ」、「ａｎ」、および「ｔｈｅ」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、複数のそのようなユーザを含み、「プロセッサ」の言及は、１つまたはそれを上回るプロセッサおよび当業者に公知のその均等物等の言及を含む。

また、単語「ｃｏｍｐｒｉｓｅ（～を備える）」、「ｃｏｍｐｒｉｓｉｎｇ（～を備える）」、「ｃｏｎｔａｉｎｓ（～を含有する）」、「ｃｏｎｔａｉｎｉｎｇ（～を含有する）」、「ｉｎｃｌｕｄｅ（～を含む）」、「ｉｎｃｌｕｄｉｎｇ（～を含む）」、および「ｉｎｃｌｕｄｅｓ（～を含む）」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、１つまたはそれを上回る他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。

また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims

機械学習モデルを訓練し、ユーザ表情を予測する方法であって、前記方法は、
複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと
によって、前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することと
を含む、方法。
前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第１の表情単位である、請求項１に記載の方法。
前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、請求項２に記載の方法。
前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
を含む、請求項１に記載の方法。
前記機械学習モデルは、前記調節可能パラメータのセットを有する人工ニューラルネットワークである、請求項１に記載の方法。
前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
を含む、請求項１に記載の方法。
前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
前記移動メトリックに関する複数の値内の第１の極値およびそれに関して前記第１の極値が識別された第１の対応する画像を識別することと、
前記第１の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを１に等しくなるように設定することと、
前記移動メトリックに関する複数の値内の第２の極値およびそれに関して前記第２の極値が識別された第２の対応する画像を識別することと、
前記第２の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
ゼロ～１を補間することによって、前記複数の値の各残りの値を設定することと
を含む、請求項１に記載の方法。
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を備え、前記命令は、１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと
によって、前記複数の画像および前記表情単位に関する複数の値を使用して、機械学習モデルを訓練することと
を含む動作を実施させる、非一過性コンピュータ可読媒体。
前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第１の表情単位である、請求項８に記載の非一過性コンピュータ可読媒体。
前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、請求項９に記載の非一過性コンピュータ可読媒体。
前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
を含む、請求項８に記載の非一過性コンピュータ可読媒体。
前記機械学習モデルは、前記調節可能パラメータのセットを有する人工ニューラルネットワークである、請求項８に記載の非一過性コンピュータ可読媒体。
前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
を含む、請求項８に記載の非一過性コンピュータ可読媒体。
前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
前記移動メトリックに関する複数の値内の第１の極値およびそれに関して前記第１の極値が識別された第１の対応する画像を識別することと、
前記第１の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを１に等しくなるように設定することと、
前記移動メトリックに関する複数の値内の第２の極値およびそれに関して前記第２の極値が識別された第２の対応する画像を識別することと、
前記第２の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
ゼロ～１を補間することによって、前記複数の値の各残りの値を設定することと
を含む、請求項８に記載の非一過性コンピュータ可読媒体。
システムであって、
１つまたはそれを上回るプロセッサと、
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を備え、前記命令は、前記１つまたはそれを上回るプロセッサによって実行されると、前記１つまたはそれを上回るプロセッサに、
複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと、
によって、前記複数の画像および前記表情単位に関する複数の値を使用して、機械学習モデルを訓練することと
を含む動作を実施させる、非一過性コンピュータ可読媒体と
を備える、システム。
前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第１の表情単位である、請求項１５に記載のシステム。
前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも１つを含む、請求項１６に記載のシステム。
前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
を含む、請求項１５に記載のシステム。
前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
を含む、請求項１５に記載のシステム。
前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
前記移動メトリックに関する複数の値内の第１の極値およびそれに関して前記第１の極値が識別された第１の対応する画像を識別することと、
前記第１の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを１に等しくなるように設定することと、
前記移動メトリックに関する複数の値内の第２の極値およびそれに関して前記第２の極値が識別された第２の対応する画像を識別することと、
前記第２の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
ゼロ～１を補間することによって、前記複数の値の各残りの値を設定することと
を含む、請求項１５に記載のシステム。