JP2023522225A - 画像ベースの移動メトリックを使用した表情予測 - Google Patents

画像ベースの移動メトリックを使用した表情予測 Download PDF

Info

Publication number
JP2023522225A
JP2023522225A JP2022563131A JP2022563131A JP2023522225A JP 2023522225 A JP2023522225 A JP 2023522225A JP 2022563131 A JP2022563131 A JP 2022563131A JP 2022563131 A JP2022563131 A JP 2022563131A JP 2023522225 A JP2023522225 A JP 2023522225A
Authority
JP
Japan
Prior art keywords
values
images
facial
expression unit
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022563131A
Other languages
English (en)
Inventor
ダニエル ユルグ ドナッチュ,
スリヴィグネシュ ラジェンドラン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2023522225A publication Critical patent/JP2023522225A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

機械学習モデルを訓練し、ユーザ表情を予測するための技法が、開示される。複数の画像が、受信され、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する。移動メトリックに関する複数の値が、複数の画像に基づいて計算され、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す。表情単位に関する複数の値が、移動メトリックに関する複数の値に基づいて計算され、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する。機械学習モデルは、複数の画像および表情単位に関する複数の値を使用して訓練される。

Description

本願は、その全内容が、あらゆる目的のために、参照することによって本明細書に組み込まれる、2020年4月20日に出願され、「EXPRESSION PREDICTION USING IMAGE-BASED MOVEMENT METRIC」と題された、米国仮特許出願第63,012,579号の優先権の利益を主張する。
現代のコンピューティングおよびディスプレイ技術は、いわゆる「仮想現実」または「拡張現実」体験のためのシステムの開発を促進しており、デジタル的に再現された画像またはその一部が、現実であるように見える、またはそのように知覚され得る様式で、ユーザに提示される。仮想現実、すなわち、「VR」シナリオは、典型的には、他の実際の実世界の視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。拡張現実、すなわち、「AR」シナリオは、典型的には、ユーザの周囲の実際の世界の可視化に対する拡張としてのデジタルまたは仮想画像情報の提示を伴う。
これらのディスプレイ技術において成された進歩にもかかわらず、当技術分野において、拡張現実システム、特に、ディスプレイシステムに関連する、改良された方法、システム、およびデバイスの必要性が存在する。
本開示は、概して、光学システムの性能およびユーザ体験を改良するための技法に関する。より具体的には、本開示の実施形態は、ユーザの顔の画像に基づいて、ユーザ表情を予測するためのシステムおよび方法を提供する。本発明は、多くの場合、拡張現実(AR)デバイスを参照して説明されるが、本開示は、種々の用途に適用可能である。
本発明の種々の実施形態の説明が、実施例の一覧として、下記に提供される。下記に使用されるように、一連の実施例への任意の言及は、それらの実施例のそれぞれへの離接的な言及として理解されるものである(例えば、「実施例1-4」は、「実施例1、2、3、または4」として理解されるものである)。
実施例1は、機械学習モデルを訓練し、ユーザ表情を予測する方法であって、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、方法である。
実施例2は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位は、表情単位のセットからの第1の表情単位である、実施例1に記載の方法。
実施例3は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、実施例2に記載の方法。
実施例4は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルが、誤差データに基づいて修正される、ステップとを含む、実施例1-3に記載の方法。
実施例5は、機械学習モデルが、調節可能パラメータのセットを有する、人工ニューラルネットワークである、実施例1-4に記載の方法。
実施例6は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例1-5に記載の方法。
実施例7は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第1の極値およびそれに関して第1の極値が識別された第1の対応する画像を識別するステップと、第1の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを1に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第2の極値およびそれに関して第2の極値が識別された第2の対応する画像を識別するステップと、第2の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ~1を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例1-6に記載の方法。
実施例8は、非一過性コンピュータ可読媒体であって、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、動作を実施させる、命令を備える、非一過性コンピュータ可読媒体である。
実施例9は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位が、表情単位のセットからの第1の表情単位である、実施例8に記載の非一過性コンピュータ可読媒体。
実施例10は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、実施例9に記載の非一過性コンピュータ可読媒体。
実施例11は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルは、誤差データに基づいて修正される、ステップとを含む、実施例8-10に記載の非一過性コンピュータ可読媒体。
実施例12は、機械学習モデルが、調節可能パラメータのセットを有する、人工ニューラルネットワークである、実施例8-11に記載の非一過性コンピュータ可読媒体。
実施例13は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例8-12に記載の非一過性コンピュータ可読媒体。
実施例14は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第1の極値およびそれに関して第1の極値が識別された第1の対応する画像を識別するステップと、第1の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを1に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第2の極値およびそれに関して第2の極値が識別された第2の対応する画像を識別するステップと、第2の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ~1を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例8-13に記載の非一過性コンピュータ可読媒体。
実施例15は、システムであって、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサによって実行されると、1つまたはそれを上回るプロセッサに、複数の画像を受信するステップであって、複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ステップと、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップであって、移動メトリックに関する複数の値はそれぞれ、ユーザの顔の移動を示す、ステップと、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップであって、表情単位に関する複数の値はそれぞれ、ユーザの顔が表情単位を生産している、範囲に対応する、ステップと、機械学習モデルによって、複数の画像に基づいて、訓練出力データを生成するステップと、表情単位に関する複数の値および訓練出力データに基づいて、機械学習モデルを修正するステップとによって、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップとを含む、動作を実施させる、命令を備える、非一過性コンピュータ可読媒体とを備える、システムである。
実施例16は、訓練出力データが、表情単位のセット毎に、複数の出力値を含み、表情単位が、表情単位のセットからの第1の表情単位である、実施例15に記載のシステム。
実施例17は、表情単位のセットが、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、実施例16に記載のシステム。
実施例18は、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップがさらに、表情単位に関する複数の値と、訓練出力データの表情単位に関する複数の出力値との比較を実施するステップと、比較に基づいて、誤差データを生成するステップであって、機械学習モデルは、誤差データに基づいて修正される、ステップとを含む、実施例15-17に記載のシステム。
実施例19は、移動メトリックが、眼ピクセルの数であって、複数の画像に基づいて、移動メトリックに関する複数の値を計算するステップが、複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含む、実施例15-18に記載のシステム。
実施例20は、移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算するステップが、移動メトリックに関する複数の値内の第1の極値およびそれに関して第1の極値が識別された第1の対応する画像を識別するステップと、第1の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれを1に等しくなるように設定するステップと、移動メトリックに関する複数の値内の第2の極値およびそれに関して第2の極値が識別された第2の対応する画像を識別するステップと、第2の対応する画像と関連付けられる表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定するステップと、ゼロ~1を補間することによって、複数の値の各残りの値を設定するステップとを含む、実施例15-19に記載のシステム。
従来の技法に優る多数の利益が、本開示の方法によって達成される。例えば、本明細書に説明される実施形態は、ユーザの顔の一部のみを使用して、ユーザの表情の予測を可能にし、これは、ARシステム等の頭部搭載型システムにおいて、有用な用途を有する。本明細書に説明される実施形態はさらに、機械学習モデルの訓練を可能にし、ユーザ特有であるように調整される、または任意のユーザによって使用され得る、ユーザ表情を予測する。例えば、機械学習モデルは、最初に、全てのユーザに関して訓練されることができ、次いで、訓練のさらなる較正および微調整が、デバイスの受領に応じて、デバイスの各使用に先立って、および/またはユーザの必要性に基づいて、周期的に、エンドユーザによって実施されることができる。
本開示のさらなる理解を提供するために含まれる、付随の図面は、本明細書に組み込まれ、その一部を成し、本開示の実施形態を図示し、詳細な説明とともに、本開示の原理を解説する役割を果たす。本開示の基本的な理解およびこれが実践され得る種々の方法に関して必要であり得るよりも詳細に、本開示の構造的詳細を示す試みは、行われない。
図1は、機械学習モデルを訓練し、ユーザ表情を予測するために検出され得る、例示的命令および対応する移動メトリック値を図示する。
図2Aおよび2Bは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。
図3Aおよび3Bは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。
図4Aおよび4Bは、移動メトリック値に基づく、表情単位値の例示的計算を図示する。
図5Aは、その中で機械学習モデルが訓練モードで動作している、例示的システムを図示する。
図5Bは、その中で機械学習モデルがランタイムモードで動作している、例示的システムを図示する。
図6は、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、例示的実装を図示する。
図7Aは、図6の例示的実装のための例示的移動メトリック値を図示する。
図7Bは、図7Aに示される移動メトリック値のための例示的表情単位値を図示する。
図8は、機械学習モデルを訓練し、ユーザ表情を予測する方法を図示する。
図9は、例示的ウェアラブルシステムの概略図を図示する。
図10は、簡略化されたコンピュータシステムを図示する。
具体的実施形態の詳細な説明
ユーザの表情を予測することは、種々の用途において有用である。例えば、ユーザの表情(故に、ユーザの感情状態)を検出する能力は、コンピューティングシステムが、ユーザの知覚される必要性に基づいて、ユーザと通信することを可能にし、それによって、コンピューティングシステムが、関連情報をユーザにオファーすることを可能にすることができる。拡張現実(AR)または仮想現実(VR)コンテキストでは、ユーザ表情を検出することは、アバタおよび他のデジタルキャラクタのアニメーションを促進することができる。例えば、デジタル世界内でユーザのアバタによって生産された表情は、実世界内のユーザの表情に直ちに応答したものであってもよい。
以前の研究の多くは、ユーザの顔の全体を結像することに基づくユーザの表情の予測に向けられていたが、ユーザの眼等のユーザの顔の一部のみの画像に基づく予測は、より実質的に複雑である。例えば、ある顔の表情は、わずかな変化のみを眼に生じさせ得る一方、ユーザの口等のユーザの顔の他の部分への変化は、より顕著であり得る。これらのわずかな変化は、検出することが困難であり、かつ特定のユーザ表情に連結することが困難であり得る。その中で眼追跡カメラが採用される、多くの用途、特に、AR/VR用途では、カメラの限定された視野を前提として、ユーザの顔の一部のみの画像に基づいて、ユーザ表情を予測するためのロバストな方法の有意な必要がある。
本明細書に説明される実施形態は、機械学習モデルを訓練し、ユーザ表情を予測するためのシステムおよび方法を提供する。具体的には、機械学習モデルは、ユーザの顔(例えば、ユーザの眼)の入力画像を提供されると、異なる顔移動を表す、小数値のセットを生成するように訓練されてもよい。異なる顔移動は、表情単位と称され得、表情単位毎に機械学習モデルによって生成された値は、表情単位値と称され得る。いくつかのインスタンスでは、表情単位値はそれぞれ、ゼロ~1の範囲であってもよく、ゼロは、ユーザが表情単位を最小範囲で生産している状態に対応し、1は、ユーザが表情単位を最大範囲で生産している状態に対応する。
いくつかの実施形態では、異なる表情単位は、顔面動作符号化システム(FACS)動作単位であってもよく、これは、顔移動に関する広く使用されている分類基準である。FACS動作単位はそれぞれ、ユーザの顔内の1つまたはそれを上回る筋肉の異なる縮小または弛緩に対応する。動作単位の組み合わせは、ユーザが特定の感情を示すことに寄与し得る。例えば、ユーザは、ユーザが、頬の上昇(動作単位6)および口角の引上(動作単位12)を生産しているとき、「喜び」感情を示し得る。別の実施例として、ユーザは、ユーザが、内眉の上昇(動作単位1)、眉の降下(動作単位4)、および口角の引下(動作単位15)を生産しているとき、「悲しみ」感情を示し得る。
一連の画像を使用して、機械学習モデルを訓練するために、画像毎に生成された表情単位値のセットが、一連の画像に関する移動メトリックに基づいて計算される、異なる表情単位値のセット(または単一表情単位値)を含み得る、グラウンドトゥルースデータと比較される。2つのセットの表情単位値を区別するために、機械学習モデルによって生成された値は、出力値と称され得る。画像毎に、誤差データが、出力値と、画像に関する移動メトリック値を使用して計算される表情単位値を比較することによって、生成されてもよい。機械学習モデルは、次いで、後続推定の間、より正確な出力値を生成するように、例えば、機械学習モデルと関連付けられる加重を調節することによって、誤差データを使用して、修正される。
図1は、本発明のいくつかの実施形態による、機械学習モデルを訓練し、ユーザ表情を予測するための、例示的命令101と、検出され得る、対応する移動メトリック値102とを図示する。命令101は、ユーザに、1つまたはそれを上回る表情単位を生産するように命令するように、ユーザに提供されてもよい。ユーザが、表情単位を生産している間、カメラが、ユーザの顔(またはユーザの眼等のその一部)の画像を捕捉する。捕捉された画像は、分析され、ユーザの顔と関連付けられる、特定の移動メトリックに関する移動メトリック値102を抽出する。
いくつかの実施例では、ユーザは、AR/VRヘッドセットを装着している。ヘッドセットは、ユーザの眼の一方または両方等のユーザの顔の少なくとも一部を含む、視野を伴う、カメラを含んでもよい。そのようなカメラは、眼追跡カメラと称され得、これは、多くの場合、AR/VRヘッドセットにおいて採用される。いくつかの実施例では、カメラは、ユーザが命令を提供されている間、ユーザの顔全体の画像を捕捉してもよく、画像は、クロッピングされ、画像をユーザの眼等の所望の領域まで低減させてもよい。代替として、カメラは、ユーザの眼に合焦またはズームすることによって、直接、所望の領域の画像を捕捉してもよい。故に、本発明の実施形態は、その中でユーザが頭部搭載型デバイスを装着している場合とそうではない場合のシナリオを含んでもよい。
命令101は、記述命令として図1に示されるが、命令101は、可能性の中でもとりわけ、AR/VRヘッドセット内のスピーカを経由して、または遠隔スピーカを経由して再生される、可聴命令、AR/VRヘッドセット内または遠隔ディスプレイデバイス上に表示される、視覚的命令を含んでもよい。例えば、AR/VRヘッドセットの較正ステップの間、ヘッドセットは、記述命令または異なる表情単位を実証する仮想キャラクタの実施例のいずれかを示す、仮想コンテンツを生成してもよい。ユーザは、これらの視覚的命令が見えると、その後、示される表情単位を生産してもよい。
図示される実施例では、ユーザは、最初に、「表情単位1を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位1」は、内眉の上昇に対応し得る。ユーザが、次いで、内眉の上昇をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉される。画像は、彼らが内眉の上昇を生産している間、分析され、ユーザの顔の移動を示す、移動メトリック値102を検出する。移動メトリック値102は、分析され、最大および最小値(およびそれぞれ、その対応するタイムスタンプTmax~Tmin)を識別してもよい。
タイムスタンプTmax~Tminは、着目画像を識別し、機械学習モデルを訓練するためのグラウンドトゥルース値を生産するために使用されてもよい。例えば、移動メトリック値102が相対的最大値(タイムスタンプTmax)にある、対応する画像は、ユーザが内眉の上昇を完全に生産しているときであり得、移動メトリック値102が相対的最小値(タイムスタンプTmin)にある、対応する画像は、ユーザが内眉の上昇を最小量で生産しているときであり得、その間の画像は、ユーザが部分的に内眉の上昇を生産しているときであり得る。したがって、異なる表情単位値が、移動メトリック値102に基づいて計算され得る。例えば、1の表情単位値が、相対的最大移動メトリック値に関して計算され得、ゼロの表情単位値が、相対的最小移動メトリック値に関して計算され得、ゼロ~1の表情単位値が、最大移動メトリック値と最小移動メトリック値との間で補間され得る(例えば、線形に)。
図示される実施例を継続すると、ユーザは、次に、「表情単位2を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位2」は、眉の降下に対応し得る。ユーザが、次いで、眉の降下をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値102を検出し、そこから最大および最小値および対応するタイムスタンプTmax~Tminが、識別される。内眉の上昇と対照的に、移動メトリック値102が相対的最小値(タイムスタンプTmin)にある、対応する画像は、ユーザが眉の降下を完全に生産しているときであり得、移動メトリック値102が相対的最大値(タイムスタンプTmax)にある、対応する画像は、ユーザが眉の降下を最小量で生産しているときであり得る。したがって、1の表情単位値が、相対的最小移動メトリック値に関して計算され得、ゼロの表情単位値が、相対的最大移動メトリック値に関して計算され得る。
ユーザは、次に、「表情単位3を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位3」は、眼瞼の緊張に対応し得る。ユーザが、次いで、眼瞼の緊張をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値102を検出し、そこから最大および最小値および対応するタイムスタンプTmax~Tminが、識別される。最後に、ユーザは、「表情単位4を繰り返し実施する」ための命令を提供される。本実施例では、「表情単位4」は、上瞼の上昇に対応し得る。ユーザが、次いで、上瞼の上昇をある回数繰り返し生産する間、ユーザの顔の画像が、捕捉され、これは、分析され、移動メトリック値102を検出し、そこから最大および最小値および対応するタイムスタンプTmax~Tminが、識別される。
図2Aおよび2Bは、本発明のいくつかの実施形態による、移動メトリック値202に基づく、表情単位値204の例示的計算を図示する。図2Aに示されるように、相対的最大値208および相対的最小値210が、最初に、移動メトリック値202およびその対応するタイムスタンプ(T、T、T、T10、T13、T16、およびT19)に関して識別される。相対的極値の過識別を回避するために、順次極値が少なくとも特定の間隔(例えば、ある時間量またはあるフレーム数)を有するという制約が、課され得る。次に、上限閾値212が、相対的最大値208のそれぞれを下回る所定の距離に設定され得、下限閾値214が、相対的最小値210のそれぞれを上回る所定の距離に設定され得る。移動メトリック値202が上限閾値212(T、T、T、T11、T15、およびT17)および下限閾値214(T、T、T、T12、T14、およびT18)を交差する、タイムスタンプが、識別され得る。
図2Bに示されるように、表情単位値204が、次いで、相対的最大値208が識別されたタイムスタンプおよび/または移動メトリック値202が上限閾値212を交差したタイムスタンプにおいて、値を1に等しくなるように設定することによって計算され得る。表情単位値204は、相対的最小値210が識別されたタイムスタンプおよび/または移動メトリック値202が下限閾値214を交差したタイムスタンプにおいて、ゼロに等しくなるように設定されてもよい。表情単位値204の残りの値は、線形に補間されてもよい。例えば、T~Tの表情単位値204は、ゼロ~1で線形に補間されてもよく、T~Tの表情単位値204は、1~ゼロで線形に補間されてもよく、同等物であってもよい。
いくつかの実施形態では、線形補間以外の補間スキームが、採用されてもよい。例えば、非線形補間スキームが、採用されてもよく、その場合、表情単位値は、以下のように、最も近くの移動メトリック値に基づいて計算される。M(T)およびE(T)が、それぞれ、時間Tにおける、メトリック移動値および表情単位値である場合、T~Tの表情単位値は、以下の方程式によって定義されるように、ゼロ~1で補間されてもよい。
Figure 2023522225000002
同様に、T~Tの表情単位値は、以下の方程式によって定義されるように、1~ゼロで補間されてもよい。
Figure 2023522225000003
図3Aおよび3Bは、本発明のいくつかの実施形態による、移動メトリック値302に基づく、表情単位値304の例示的計算を図示する。図2Aおよび2Bと対照的に、図3Aおよび3Bにおける表情単位は、その中で最小移動メトリック値が、ユーザが表情単位を完全に生産しているときに生じ、最大移動メトリック値が、ユーザが表情単位を最小量で生産しているときに生じるものである。
図3Aに示されるように、相対的最大値308および相対的最小値310が、最初に、移動メトリック値302およびその対応するタイムスタンプ(T、T、T、T10、T13、T16、およびT19)に関して識別される。図2Aに説明されるものと同様に、上限閾値312が、相対的最大値308のそれぞれを下回る所定の距離に設定され得、下限閾値314が、相対的最小値310のそれぞれを上回る所定の距離に設定され得る。移動メトリック値302が上限閾値312(T、T、T、T12、T14、およびT18)および下限閾値314(T、T、T、T11、T15、およびT17)を交差する、タイムスタンプが、識別され得る。
図3Bに示されるように、表情単位値304が、次いで、相対的最大値308が識別されたタイムスタンプおよび/または移動メトリック値302が上限閾値312を交差したタイムスタンプにおいて、値をゼロに等しくなるように設定することによって計算され得る。表情単位値304は、相対的最小値310が識別されたタイムスタンプおよび/または移動メトリック値302が下限閾値314を交差したタイムスタンプにおいて、1に等しくなるように設定され得る。表情単位値304の残りの値は、線形に補間され得る。
図4Aおよび4Bは、本発明のいくつかの実施形態による、移動メトリック値402に基づく、表情単位値404の例示的計算を図示する。図4Aにおいて採用されるスキームは、その中で図2Aおよび3Aに説明される閾値が使用されない、簡略化されたアプローチである。図2Aおよび2Bと同様に、図4Aおよび4Bにおける表情単位は、その中で最大移動メトリック値が、ユーザが表情単位を完全に生産しているときに生じ、最小移動メトリック値が、ユーザが表情単位を最小量で生産しているときに生じるものである。図4Aに示されるように、相対的最大値408および相対的最小値410は、移動メトリック値402およびその対応するタイムスタンプ(T、T、T、T10、T13、T16、およびT19)に関して識別される。
図4Bに示されるように、表情単位値404が、次いで、相対的最大値408が識別されたタイムスタンプにおいて、値を1に等しくなるように設定し、相対的最小値410が識別されたタイムスタンプにおいて、値をゼロに等しくなるように設定することによって計算され得る。表情単位値404の残りの値は、T~T、T~T10、およびT13~T16において、ゼロ~1で、T~T、T10~T13、およびT16~T19において、1~ゼロで、線形または非線形に補間することによって計算される。
図5Aは、本発明のいくつかの実施形態による、その中で機械学習モデル550が訓練モードで動作している、例示的システム500Aを図示する。システム500Aは、ユーザの顔の画像506を捕捉するように構成される、画像捕捉デバイス505を含む。画像506は、画像プロセッサ508Aおよび508Bによって受信および処理される。画像プロセッサ508Aは、移動メトリック510に関する値502を計算する。移動メトリック510は、訓練プロセスの間、一定であってもよい、または異なる表情単位に関して変化されてもよい。移動メトリック510に関する値502は、画像プロセッサ508Aから画像プロセッサ508Bに送信され、これは、移動メトリック510に関する値502に基づいて、表情単位514に関する値504を計算する。
表情単位514に関する画像506および値504は、訓練入力データ518を形成してもよい。訓練プロセスの間、画像506はそれぞれ、順次、値504からの画像の対応する表情単位値とともに、機械学習モデル550にフィードされてもよい。画像の受信に応じて、機械学習モデル550は、N個の表情単位520のセット毎に、出力値522の出力値を生成してもよい。表情単位514と同一表情単位に関する出力値は、値504からの対応する値と比較され、誤差データ524を生成する。機械学習モデル550と関連付けられる加重が、次いで、誤差データ524に基づいて、修正される(例えば、調節される)。
実施例として、第1の訓練反復の間、画像506からの第1の画像が、機械学習モデル550に提供されてもよく、これは、N個の出力値522(N個の表情単位520毎に、1つの出力値)を生成してもよい。いくつかの実施形態では、N個の出力値はそれぞれ、ゼロ~1の小数値であってもよい。表情単位514と同一である、表情単位520に関する出力値522は、第1の画像に対応する、値504(グラウンドトゥルースを表す)からの第1の値と比較され、誤差データ524を生成する。いくつかの実施形態では、残りの表情単位520に関する出力値522もまた、誤差データ524を生成するために使用され、それによって、機械学習モデル550が、これらの出力値522がゼロであるべきことを学習することを可能にする。機械学習モデル550と関連付けられる加重が、次いで、誤差データ524に基づいて、修正される。
実施例を継続すると、第1の訓練反復後の第2の訓練反復の間、画像506からの第2の画像が、機械学習モデル550に提供されてもよく、これは、N個の出力値522(N個の表情単位520毎に、1つの出力値)を生成してもよい。表情単位514と同一である、表情単位520に関する出力値522が、第2の画像に対応する、値504からの第2の値と比較され、誤差データ524を生成する(随意に、残りの表情単位520に関する出力値522もまた、誤差データ524を生成するために使用される)。機械学習モデル550と関連付けられる加重が、次いで、誤差データ524に基づいて、修正される。
本プロセスは、画像506の全てが訓練プロセス内で使用されるまで、継続する。訓練プロセスの間、表情単位514は、必要に応じて、変化され、異なる出力値522を誤差データ524の生成において選択および使用させてもよい。機械学習モデル550は、したがって、単一画像に基づいて、ユーザがN個の表情単位520のそれぞれを生産している範囲を予測するように「学習」し得る。
図5Bは、本発明のいくつかの実施形態による、その中で機械学習モデル550がランタイムモードで動作している、例示的システム500Bを図示する。ランタイムの間、画像捕捉デバイス505は、画像506を捕捉し、機械学習モデル550に提供し、これは、表情単位520毎に、出力値522を生成し、N個の出力値522をもたらす。単一入力画像506が、図5Bに示されるが、いくつかの実施形態では、複数の入力画像が、提供され、機械学習モデル550の正確度を増加させてもよい。例えば、画像506の1つまたはそれを上回る前の画像または後続画像が、N個の値522の単一セットを生成するとき、画像506とともに、機械学習モデル550に提供されてもよい。そのような実施形態では、訓練プロセスは、同様に、各訓練反復の間、複数の入力画像を利用してもよい。
図6は、本発明のいくつかの実施形態による、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、例示的実装を図示する。図示される実施例では、ユーザの眼の左画像602Aおよび右画像602Bが、画像捕捉デバイスを使用して捕捉される。画像602はそれぞれ、眼セグメント化604に示されるように、眼ピクセル606および非眼ピクセル608(代替として、それぞれ、非皮膚ピクセルおよび皮膚ピクセルと称される)にセグメント化される。眼ピクセル606は、強膜、虹彩、および瞳孔を含む、眼の異なる領域にさらにセグメント化されてもよい。いくつかの実施形態では、付加的機械学習モデルが、眼セグメント化604を生成するために使用されてもよい。そのような機械学習モデルは、ユーザによって準備される、標識された画像を使用して訓練されてもよく、その場合、ユーザは、眼ピクセル606および非眼ピクセル608、同様に、眼の異なる領域を手動で識別する。
図7Aは、本発明のいくつかの実施形態による、その中で画像内の眼ピクセルの数が移動メトリックとして使用される、図6の例示的実装のための例示的移動メトリック値を図示する。図示される実施例では、左および右眼の両方に関するデータが、重畳される。曲線は、ある時間周期にわたる、眼ピクセル(または非皮膚ピクセル)の数を示す。いくつかの実施形態では、「強い表情」(例えば、ユーザが、表情単位を最大範囲で生産している)に対応する、移動メトリック値は、自動的に、または手動で、識別されてもよい。自動識別は、極値、随意に、図1-4Bを参照して説明されるような閾値を識別することによって実施されてもよい。手動識別は、ユーザが、グラフィカルインターフェースを通して、特定のフレームを選択することによって遂行されてもよい。加えて、「中立表情」(例えば、ユーザが、表情単位を最小範囲で生産している)に対応する、移動メトリック値も、自動的に、または手動で、識別されてもよい。
図7Bは、図7Aに示される移動メトリック値に関する例示的表情単位値を図示する。表情単位値は、そこで強い表情が識別されたフレーム(画像)(随意に、それに関して移動メトリック値が閾値距離内にある、フレーム)に関して、値を1に等しくなるように設定し、そこで中立表情が識別されたフレーム(随意に、それに関して移動メトリック値が閾値距離内にある、フレーム)に関して、値をゼロに等しくなるように設定することによって計算される。残りの表情単位値は、図2-4Bを参照して説明されるように、ゼロ~1で線形または非線形に補間される。
図8は、本発明のいくつかの実施形態による、機械学習モデル(例えば、機械学習モデル550)を訓練し、ユーザ表情を予測するための方法800を図示する。方法800の1つまたはそれを上回るステップは、方法800の実施の間、省略されてもよく、方法800のステップは、示される順序で実施される必要はない。方法800の1つまたはそれを上回るステップは、1つまたはそれを上回るプロセッサによって、実施または促進されてもよい。
ステップ802では、複数の画像が、受信される(例えば、画像506、602)。複数の画像は、画像捕捉デバイス(例えば、画像捕捉デバイス505)から受信されてもよく、これは、複数の画像を捕捉し、処理モジュールに送信してもよい。複数の画像のうちの1つまたはそれを上回るものは、可能性の中でもとりわけ、グレースケール画像、マルチチャネル画像(例えば、RGB画像)であってもよい。いくつかの実施形態では、画像捕捉デバイスは、ウェアラブルデバイスに搭載される、眼追跡カメラであってもよい。複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有してもよい。例えば、複数の画像はそれぞれ、ユーザの眼を含有してもよい。
ステップ804では、移動メトリック(例えば、移動メトリック510)に関する複数の値(例えば、値102、202、302、402、502)が、複数の画像に基づいて計算される。移動メトリックは、ユーザの顔の移動を示す(またはそこからその分析が、ユーザの顔の移動を示し得る)、ある測定値であってもよい。例えば、移動メトリックは、可能性の中でもとりわけ、画像内の眼ピクセルの数、画像内の非眼ピクセルの数、眼の上部と底部との間の距離、眼の左側と右側との間の距離、画像内の眼に沿った点の位置、画像の勾配であってもよい。
その中で移動メトリックが眼ピクセルの数である、実施形態に関して、移動メトリックに関する複数の値を計算するステップは、複数の画像のそれぞれが眼ピクセル(例えば、眼ピクセル606)および非眼ピクセル(例えば、非眼ピクセル608)を含むように、複数の画像のそれぞれをセグメント化するステップと、複数の画像のそれぞれ内の眼ピクセルの数をカウントするステップと、移動メトリックに関する複数の値のそれぞれを複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定するステップとを含んでもよい。複数の画像からの画像をセグメント化するステップは、眼セグメント化(例えば、眼セグメント化604)をもたらし得る。
ステップ806では、表情単位(例えば、表情単位514)に関する複数の値(例えば、値204、304、404、504)が、移動メトリックに関する複数の値に基づいて計算される。表情単位に関する複数の値はそれぞれ、それに対してユーザ(例えば、ユーザの顔)が表情単位を生産している、範囲に対応し得る。いくつかの実施形態では、より大きい値は、ユーザが表情単位より大きい範囲で生産していることに対応し得る。
いくつかの実施形態では、表情単位に関する複数の値を計算するステップは、移動メトリックに関する複数の値内の極値(最大および/または最小値)を識別するステップを含んでもよい。一実施例では、移動メトリックに関する複数の値内の第1の極値(例えば、最大値)は、それに関して第1の極値が識別される、第1の対応する画像とともに識別される。第1の対応する画像と関連付けられる、表情単位に関する複数の値はそれぞれ、1に等しくなるように設定されてもよい。さらに、移動メトリックに関する複数の値内の第2の極値(例えば、最小値)は、それに関して第2の極値が識別される、第2の対応する画像とともに識別されてもよい。第2の対応する画像と関連付けられる、表情単位に関する複数の値はそれぞれ、ゼロに等しくなるように設定されてもよい。さらに、複数の値の各残りの値は補間を通して、ゼロ~1の値に等しくなるように設定されてもよい。
ステップ808では、機械学習モデルが、複数の画像および表情単位に関する複数の値を使用して訓練される。いくつかの実施形態では、ステップ808は、ステップ810および812の一方または両方を含む。
ステップ810では、訓練出力データ(例えば、訓練出力データ526)が、複数の画像に基づいて、生成される。訓練出力データは、表情単位(例えば、表情単位520)のセット毎に、複数の出力値(例えば、出力値522)を含んでもよい。表情単位は、表情単位のセットのうちの1つであってもよい。表情単位のセットは、以下、すなわち、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、および右眼ウィンクのうちの1つまたはそれを上回るものを含んでもよい。表情単位のセットは、表情単位がFACS動作単位のうちの1つであり得るように、FACS動作単位であってもよい。
いくつかの実施形態では、複数の画像および表情単位に関する複数の値を使用して、機械学習モデルを訓練するステップはさらに、表情単位に関する複数の値と、表情単位に関する複数の出力値との比較を実施するステップを含む。いくつかの実施形態では、誤差データ(例えば、誤差データ524)が、比較に基づいて、生成されてもよい。例えば、誤差データは、表情単位に関する複数の値を表情単位に関する複数の出力値から減算すること(またはその逆)によって生成されてもよい。誤差データは、可能性の中でもとりわけ、差異の大きさ、差異の大きさの和、差異の2乗の和に等しくなるように設定されてもよい。一般に、誤差データは、表情単位に関する複数の値と表情単位に関する複数の出力値との間の差異を示し得る。
ステップ812では、機械学習モデルが、表情単位に関する複数の値および訓練出力データに基づいて、修正される。機械学習モデルを修正するステップは、機械学習モデルと関連付けられる、1つまたはそれを上回るパラメータ(例えば、加重および/またはバイアス)を調節するステップを含んでもよい。例えば、機械学習モデルは、複数の調節可能パラメータを有する、人工ニューラルネットワークであってもよく、これは、入力画像に基づいて、表情単位のセットに関する出力値のセットを算出するために使用される。
いくつかの実施形態では、機械学習モデルは、誤差データに基づいて修正されてもよい。いくつかの実施形態では、それに対して機械学習モデルと関連付けられるパラメータが調節される、範囲は、表情単位に関する複数の値と表情単位に関する複数の出力値との間のより大きい差異が、機械学習モデルへのより大きい修正につながるように、誤差データの大きさに関連(例えば、比例)し得る。いくつかの実施形態では、機械学習モデルは、複数の訓練反復毎に修正されてもよい。例えば、各訓練反復は、複数の画像からの単一入力画像および表情単位に関する複数の値からの表情単位に関するその対応する値を使用して、機械学習モデルを訓練するステップから成ってもよい。
図9は、本発明の実施形態による、上記に説明される実施形態のうちの1つまたはそれを上回るものにおいて使用され得る、例示的ウェアラブルシステム900の概略図を図示する。ウェアラブルシステム900は、ウェアラブルデバイス901と、ウェアラブルデバイス901から遠隔の少なくとも1つの遠隔デバイス903(例えば、別個のハードウェアであるが、通信可能に結合される)とを含んでもよい。ウェアラブルデバイス901が、ユーザによって装着されている間(概して、ヘッドセットとして)、遠隔デバイス903は、ユーザによって保持される(例えば、ハンドヘルドコントローラとして)、またはフレームに固定して取り付けられる、ユーザによって装着されるヘルメットまたは帽子に固定して取り付けられる、ヘッドホンに内蔵される、または別様にユーザに除去可能に取り付けられる(例えば、リュック式構成において、ベルト結合式構成において等)等、種々の構成において搭載されてもよい。
ウェアラブルデバイス901は、並置構成において配列され、左光学スタックを構成する、左接眼レンズ902Aと、左レンズアセンブリ905Aとを含んでもよい。左レンズアセンブリ905Aは、遠近調節レンズを左光学スタックのユーザ側上に、および補償レンズを左光学スタックの世界側上に含んでもよい。同様に、ウェアラブルデバイス901は、並置構成に配列され、右光学スタックを構成する、右接眼レンズ902Bと、右レンズアセンブリ905Bとを含んでもよい。右レンズアセンブリ905Bは、遠近調節レンズを右光学スタックのユーザ側上に、および補償レンズを右光学スタックの世界側上に含んでもよい。
いくつかの実施形態では、ウェアラブルデバイス901は、限定ではないが、直接、左接眼レンズ902Aまたはその近くに取り付けられる、左正面に面した世界カメラ906Aと、直接、右接眼レンズ902Bまたはその近くに取り付けられる、右正面に面した世界カメラ906Bと、直接、左接眼レンズ902Aまたはその近くに取り付けられる、左側に面した世界カメラ906Cと、直接、右接眼レンズ902Bまたはその近くに取り付けられる、右側に面した世界カメラ906Dと、左眼に向かって指向される、左眼追跡カメラ926Aと、右眼に向かって指向される、右眼追跡カメラ926Bと、接眼レンズ902間に取り付けられる、深度センサ928とを含む、1つまたはそれを上回るセンサを含む。ウェアラブルデバイス901は、左接眼レンズ902Aに光学的に連結される、左プロジェクタ914A、および右接眼レンズ902Bに光学的に連結される、右プロジェクタ914B等の1つまたはそれを上回る画像投影デバイスを含んでもよい。
ウェアラブルシステム900は、システム内のデータを収集、処理、および/または制御するための処理モジュール950を含んでもよい。処理モジュール950のコンポーネントは、ウェアラブルデバイス901と遠隔デバイス903との間に分散されてもよい。例えば、処理モジュール950は、ウェアラブルシステム900のウェアラブル部分上のローカル処理モジュール952と、ローカル処理モジュール952と物理的に別個であって、それに通信可能に連結される、遠隔処理モジュール956とを含んでもよい。ローカル処理モジュール952および遠隔処理モジュール956はそれぞれ、1つまたはそれを上回る処理ユニット(例えば、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)等)と、不揮発性メモリ(例えば、フラッシュメモリ)等の1つまたはそれを上回る記憶デバイスとを含んでもよい。
処理モジュール950は、カメラ906、眼追跡カメラ926、深度センサ928、遠隔センサ930、周囲光センサ、マイクロホン、慣性測定ユニット(IMU)、加速度計、コンパス、グローバルナビゲーション衛星システム(GNSS)ユニット、無線デバイス、および/またはジャイロスコープ等のウェアラブルシステム900の種々のセンサによって捕捉されたデータを収集してもよい。例えば、処理モジュール950は、画像920をカメラ906から受信してもよい。具体的には、処理モジュール950は、左正面画像920Aを左正面に面した世界カメラ906Aから、右正面画像920Bを右正面に面した世界カメラ906Bから、左側画像920Cを左側に面した世界カメラ906Cから、および右側画像920Dを右側に面した世界カメラ906Dから受信してもよい。いくつかの実施形態では、画像920は、単一画像、一対の画像、画像のストリームから成るビデオ、ペアリングされた画像のストリームから成るビデオ、および同等物を含んでもよい。画像920は、ウェアラブルシステム900が電源投入されている間、周期的に、生成され、処理モジュール950に送信されてもよい、または処理モジュール950によってカメラのうちの1つまたはそれを上回るものに送信される命令に応答して、生成されてもよい。
カメラ906は、ユーザの周囲の画像を捕捉するように、ウェアラブルデバイス901の外面に沿って、種々の位置および配向において構成されてもよい。いくつかのインスタンスでは、カメラ906A、906Bは、それぞれ、ユーザの左および右眼のFOVと実質的に重複する、画像を捕捉するように位置付けられてもよい。故に、カメラ906の設置は、ユーザの眼の近くにあり得るが、ユーザのFOVを不明瞭にするほど近くない。代替として、または加えて、カメラ906A、906Bは、それぞれ、仮想画像光922A、922Bの内部結合場所と整合するように位置付けられてもよい。カメラ906C、906Dは、ユーザの側面、例えば、ユーザの周辺視覚内またはユーザの周辺視覚の外側の画像を捕捉するように位置付けられてもよい。カメラ906C、906Dを使用して捕捉された画像920C、920Dは、必ずしも、カメラ906A、906Bを使用して捕捉された画像920A、920Bと重複する必要はない。
いくつかの実施形態では、処理モジュール950は、周囲光情報を周囲光センサから受信してもよい。周囲光情報は、ある明度値またはある範囲の空間的に分解された明度値を示し得る。深度センサ928は、ウェアラブルデバイス901の正面に面した方向において深度画像932を捕捉してもよい。深度画像932の各値は、特定の方向における深度センサ928と最も近くの検出されたオブジェクトとの間の距離に対応し得る。別の実施例として、処理モジュール950は、眼追跡データ934を眼追跡カメラ926から受信してもよく、これは、左および右眼の画像を含んでもよい。別の実施例として、処理モジュール950は、投影された画像明度値をプロジェクタ914の一方または両方から受信してもよい。遠隔デバイス903内に位置する遠隔センサ930は、類似機能性を伴う上記に説明されるセンサのいずれかを含んでもよい。
仮想コンテンツは、光学スタック内の他のコンポーネントとともに、プロジェクタ914および接眼レンズ902を使用して、ウェアラブルシステム900のユーザに送達される。例えば、接眼レンズ902A、902Bは、それぞれ、プロジェクタ914A、914Bによって生成された光を指向および外部結合するように構成される、透明または半透明導波管を備えてもよい。具体的には、処理モジュール950は、左プロジェクタ914Aに、左仮想画像光922Aを左接眼レンズ902A上に出力させ得、右プロジェクタ914Bに、右仮想画像光922Bを右接眼レンズ902B上に出力させ得る。いくつかの実施形態では、プロジェクタ914は、微小電気機械システム(MEMS)空間光変調器(SLM)走査デバイスを含んでもよい。いくつかの実施形態では、接眼レンズ902A、902Bはそれぞれ、異なる色に対応する、複数の導波管を備えてもよい。いくつかの実施形態では、レンズアセンブリ905A、905Bは、接眼レンズ902A、902Bに結合され、および/または統合されてもよい。例えば、レンズアセンブリ905A、905Bは、多層接眼レンズの中に組み込まれてもよく、接眼レンズ902A、902Bのうちの1つを構成する、1つまたはそれを上回る層を形成してもよい。
図10は、本明細書に説明される実施形態による、簡略化されたコンピュータシステム1000を図示する。図10に図示されるようなコンピュータシステム1000は、本明細書に説明されるようなデバイスの中に組み込まれてもよい。図10は、種々の実施形態によって提供される方法のステップの一部または全部を実施し得る、コンピュータシステム1000の一実施形態の概略化された例証を提供する。図10は、種々のコンポーネントの一般化された例証を提供するためだけに意図され、そのいずれかまたは全てが、必要に応じて利用されてもよいことに留意されたい。図10は、したがって、広義には、個々のシステム要素が比較的に分離された様式または比較的により統合された様式において実装され得る状況を図示する。
コンピュータシステム1000は、バス1005を介して電気的に結合されることができる、または必要に応じて別様に通信し得る、ハードウェア要素を備えるように示される。ハードウェア要素は、限定ではないが、デジタル信号処理チップ、グラフィック加速プロセッサ、および/または同等物等の、1つまたはそれを上回る汎用プロセッサおよび/または1つまたはそれを上回る特殊目的プロセッサを含む、1つまたはそれを上回るプロセッサ1010と、限定ではないが、マウス、キーボード、カメラ、および/または同等物を含むことができる、1つまたはそれを上回る入力デバイス1015と、限定ではないが、ディスプレイデバイス、プリンタ、および/または同等物を含むことができる、1つまたはそれを上回る出力デバイス1020とを含んでもよい。
コンピュータシステム1000はさらに、限定ではないが、ローカルおよび/またはネットワークアクセス可能記憶装置を備えることができ、および/または、限定ではないが、プログラム可能である、フラッシュ更新可能である、および/または同等物であることができる、ディスクドライブ、ドライブアレイ、光学記憶デバイス、ランダムアクセスメモリ(「RAM」)等のソリッドステート記憶デバイス、および/または読取専用メモリ(「ROM」)を含むことができる、1つまたはそれを上回る非一過性記憶デバイス1025を含む、および/またはそれと通信してもよい。そのような記憶デバイスは、限定ではないが、種々のファイルシステム、データベース構造、および/または同等物を含む、任意の適切なデータ記憶を実装するように構成されてもよい。
コンピュータシステム1000はまた、限定ではないが、Bluetooth(登録商標)デバイス、802.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信設備等、および/または同等物等のモデム、ネットワークカード(無線または有線)、赤外線通信デバイス、無線通信デバイス、および/またはチップセットを含むことができる、通信サブシステム1019を含み得る。通信サブシステム1019は、1つまたはそれを上回る入力および/または出力通信インターフェースを含み、データが、一実施例として挙げるために以下に説明されるネットワーク、すなわち、他のコンピュータシステム、テレビ、および/または本明細書に説明される任意の他のデバイス等のネットワークと交換されることを可能にしてもよい。所望の機能性および/または他の実装懸念に応じて、ポータブル電子デバイスまたは類似デバイスは、通信サブシステム1019を介して、画像および/または他の情報を通信してもよい。他の実施形態では、ポータブル電子デバイス、例えば、第1の電子デバイスは、コンピュータシステム1000、例えば、電子デバイスの中に入力デバイス1015として組み込まれてもよい。いくつかの実施形態では、コンピュータシステム1000はさらに、作業メモリ1035を備え、これは、上記に説明されるようなRAMまたはROMデバイスを含むことができる。
コンピュータシステム1000はまた、種々の実施形態によって提供されるコンピュータプログラムを備え得る、および/または本明細書に説明されるような他の実施形態によって提供される方法を実装し、および/またはシステムを構成するように設計され得る、1つまたはそれを上回るアプリケーションプログラム1045等のオペレーティングシステム1040、デバイスドライバ、実行可能ライブラリ、および/または他のコードを含む、作業メモリ1035内に現在位置するものとして示される、ソフトウェア要素を含むことができる。単に、一例として、上記に議論される方法に関して説明される1つまたはそれを上回るプロシージャは、コンピュータまたはコンピュータ内のプロセッサによって実行可能なコードおよび/または命令として実装され得、ある側面では、次いで、そのようなコードおよび/または命令は、説明される方法に従って1つまたはそれを上回る動作を実施するように汎用コンピュータまたは他のデバイスを構成および/または適合するために使用されることができる。
これらの命令および/またはコードのセットは、上記に説明される記憶デバイス1025等の非一過性コンピュータ可読記憶媒体上に記憶されてもよい。ある場合には、記憶媒体は、コンピュータシステム1000等のコンピュータシステム内に組み込まれ得る。他の実施形態では、記憶媒体は、コンピュータシステムと別個である、例えば、コンパクトディスク等の可撤性媒体である、および/または記憶媒体が、汎用コンピュータをその上に記憶される命令/コードを用いてプログラム、構成、および/または適合するために使用され得るように、インストールパッケージ内に提供され得る。これらの命令は、コンピュータシステム1000によって実行可能である、実行可能コードの形態をとり得る、および/または、例えば、種々の概して利用可能なコンパイラ、インストールプログラム、圧縮/解凍ユーティリティ等のいずれかを使用したコンピュータシステム1000上へのコンパイルおよび/またはインストールに応じて、次いで、実行可能コードの形態をとる、ソースおよび/またはインストール可能コードの形態をとり得る。
実質的な変形例が、具体的要件に従って構成されてもよいことが、当業者に明白となるであろう。例えば、カスタマイズされたハードウェアもまた、使用され得る、および/または特定の要素が、ハードウェア、アプレット等のポータブルソフトウェアを含む、ソフトウェア、または両方内に実装され得る。さらに、ネットワーク入力/出力デバイス等の他のコンピューティングデバイスへの接続も、採用されてもよい。
上記に述べられたように、一側面では、いくつかの実施形態は、コンピュータシステム1000等のコンピュータシステムを採用し、本技術の種々の実施形態による方法を実施してもよい。一式の実施形態によると、そのような方法のプロシージャの一部または全部は、プロセッサ1010が、オペレーティングシステム1040の中に組み込まれ得る、1つまたはそれを上回る命令の1つまたはそれを上回るシーケンス、および/または作業メモリ1035内に含有される、アプリケーションプログラム1045等の他のコードを実行することに応答して、コンピュータシステム1000によって実施される。そのような命令は、記憶デバイス1025のうちの1つまたはそれを上回るもの等の別のコンピュータ可読媒体から作業メモリ1035の中に読み取られてもよい。単に、一例として、作業メモリ1035内に含有される命令のシーケンスの実行は、プロセッサ1010に、本明細書に説明される方法の1つまたはそれを上回るプロシージャを実施させ得る。加えて、または代替として、本明細書に説明される方法の一部は、特殊ハードウェアを通して実行されてもよい。
用語「機械可読媒体」および「コンピュータ可読媒体」は、本明細書で使用されるとき、機械を具体的方式で動作させるデータを提供することに関わる、任意の媒体を指す。コンピュータシステム1000を使用して実装される、ある実施形態では、種々のコンピュータ可読媒体は、実行のための命令/コードをプロセッサ1010に提供する際に関わり得る、および/またはそのような命令/コードを記憶および/または搬送するために使用され得る。多くの実装では、コンピュータ可読媒体は、物理的および/または有形記憶媒体である。そのような媒体は、不揮発性媒体または揮発性媒体の形態をとってもよい。不揮発性媒体は、例えば、記憶デバイス1025等の光学および/または磁気ディスクを含む。揮発性媒体は、限定ではないが、作業メモリ1035等の動的メモリを含む。
一般的形態の物理的および/または有形コンピュータ可読媒体は、例えば、フロッピー(登録商標)ディスク、可撓性ディスク、ハードディスク、磁気テープ、または任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、孔のパターンを伴う任意の他の物理的媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップまたはカートリッジ、またはコンピュータが命令および/またはコードを読み取ることができる、任意の他の媒体を含む。
種々の形態のコンピュータ可読媒体が、実行のための1つまたはそれを上回る命令の1つまたはそれを上回るシーケンスをプロセッサ1010に搬送する際に関わってもよい。単に、一例として、命令は、最初に、遠隔コンピュータの磁気ディスクおよび/または光学ディスク上で搬送されてもよい。遠隔コンピュータは、命令をその動的メモリの中にロードし、コンピュータシステム1000によって受信および/または実行される伝送媒体を経由して、命令を信号として送信し得る。
通信サブシステム1019および/またはそのコンポーネントは、概して、信号を受信し、バス1005が、次いで、信号および/または信号によって搬送されるデータ、命令等を作業メモリ1035に搬送し得、そこから、プロセッサ1010が、命令を読み出し、実行する。作業メモリ1035によって受信された命令は、随意に、プロセッサ1010による実行前または後のいずれかにおいて、非一過性記憶デバイス1025上に記憶されてもよい。
上記に議論される方法、システム、およびデバイスは、実施例である。種々の構成は、必要に応じて、種々のプロシージャまたはコンポーネントを省略、代用、または追加してもよい。例えば、代替構成では、本方法は、説明されるものと異なる順序で実施されてもよく、および/または種々の段階は、追加される、省略される、および/または組み合わせられてもよい。また、ある構成に関して説明される特徴は、種々の他の構成において組み合わせられてもよい。構成の異なる側面および要素は、類似様式で組み合わせられてもよい。また、技術は、進歩するものであって、したがって、要素の多くは、実施例であって、本開示の範囲または請求項を限定するものではない。
具体的詳細が、実装を含む、例示的構成の完全な理解を提供するために説明に与えられる。しかしながら、構成は、これらの具体的詳細を伴わずに実践されてもよい。例えば、周知の回路、プロセス、アルゴリズム、構造、および技法は、構成を曖昧にすることを回避するために、不必要な詳細を伴わずに示されている。本説明は、例示的構成のみを提供し、請求項の範囲、可用性、または構成を限定するものではない。むしろ、構成の前述の説明は、当業者に説明される技法を実装するための有効な説明を提供するであろう。種々の変更が、本開示の精神または範囲から逸脱することなく、要素の機能および配列に行われてもよい。
また、構成は、概略フローチャートまたはブロック図として描写される、プロセスとして説明され得る。それぞれ、順次プロセスとして動作を説明し得るが、動作の多くは、並行して、または同時に実施されることができる。加えて、動作の順序は、再配列されてもよい。プロセスは、図内に含まれない付加的ステップを有してもよい。さらに、本方法の実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、または任意のそれらの組み合わせによって実装されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコード内に実装されるとき、必要タスクを実施するためのプログラムコードまたはコードセグメントは、記憶媒体等の非一過性コンピュータ可読媒体内に記憶されてもよい。プロセッサは、説明されるタスクを実施してもよい。
いくつかの例示的構成が説明されたが、種々の修正、代替構造、および均等物が、本開示の精神から逸脱することなく、使用されてもよい。例えば、前述の要素は、より大きいシステムのコンポーネントであってもよく、他のルールが、本技術の用途に優先する、または別様にそれを修正してもよい。また、いくつかのステップは、前述の要素が検討される前、間、または後に行われてもよい。故に、前述の説明は、請求項の範囲を束縛するものではない。
本明細書および添付の請求項で使用されるように、単数形「a」、「an」、および「the」は、文脈によって明確に別様に示されない限り、複数参照を含む。したがって、例えば、「ユーザ」の言及は、複数のそのようなユーザを含み、「プロセッサ」の言及は、1つまたはそれを上回るプロセッサおよび当業者に公知のその均等物等の言及を含む。
また、単語「comprise(~を備える)」、「comprising(~を備える)」、「contains(~を含有する)」、「containing(~を含有する)」、「include(~を含む)」、「including(~を含む)」、および「includes(~を含む)」は、本明細書および以下の請求項で使用されるとき、述べられた特徴、整数、コンポーネント、またはステップの存在を規定するために意図されるが、それらは、1つまたはそれを上回る他の特徴、整数、コンポーネント、ステップ、行為、またはグループの存在または追加を除外するものではない。
また、本明細書に説明される実施例および実施形態は、例証目的のみのためのものであって、それに照らして、種々の修正または変更が、当業者に示唆され、本願の精神および権限および添付の請求項の範囲内に含まれることを理解されたい。

Claims (20)

  1. 機械学習モデルを訓練し、ユーザ表情を予測する方法であって、前記方法は、
    複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
    前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
    前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
    前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
    前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと
    によって、前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することと
    を含む、方法。
  2. 前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第1の表情単位である、請求項1に記載の方法。
  3. 前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、請求項2に記載の方法。
  4. 前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
    前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
    前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
    を含む、請求項1に記載の方法。
  5. 前記機械学習モデルは、前記調節可能パラメータのセットを有する人工ニューラルネットワークである、請求項1に記載の方法。
  6. 前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
    前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
    前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
    前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
    を含む、請求項1に記載の方法。
  7. 前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
    前記移動メトリックに関する複数の値内の第1の極値およびそれに関して前記第1の極値が識別された第1の対応する画像を識別することと、
    前記第1の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを1に等しくなるように設定することと、
    前記移動メトリックに関する複数の値内の第2の極値およびそれに関して前記第2の極値が識別された第2の対応する画像を識別することと、
    前記第2の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
    ゼロ~1を補間することによって、前記複数の値の各残りの値を設定することと
    を含む、請求項1に記載の方法。
  8. 非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を備え、前記命令は、1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
    複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
    前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
    前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
    前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
    前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと
    によって、前記複数の画像および前記表情単位に関する複数の値を使用して、機械学習モデルを訓練することと
    を含む動作を実施させる、非一過性コンピュータ可読媒体。
  9. 前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第1の表情単位である、請求項8に記載の非一過性コンピュータ可読媒体。
  10. 前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、請求項9に記載の非一過性コンピュータ可読媒体。
  11. 前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
    前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
    前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
    を含む、請求項8に記載の非一過性コンピュータ可読媒体。
  12. 前記機械学習モデルは、前記調節可能パラメータのセットを有する人工ニューラルネットワークである、請求項8に記載の非一過性コンピュータ可読媒体。
  13. 前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
    前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
    前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
    前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
    を含む、請求項8に記載の非一過性コンピュータ可読媒体。
  14. 前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
    前記移動メトリックに関する複数の値内の第1の極値およびそれに関して前記第1の極値が識別された第1の対応する画像を識別することと、
    前記第1の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを1に等しくなるように設定することと、
    前記移動メトリックに関する複数の値内の第2の極値およびそれに関して前記第2の極値が識別された第2の対応する画像を識別することと、
    前記第2の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
    ゼロ~1を補間することによって、前記複数の値の各残りの値を設定することと
    を含む、請求項8に記載の非一過性コンピュータ可読媒体。
  15. システムであって、
    1つまたはそれを上回るプロセッサと、
    非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、命令を備え、前記命令は、前記1つまたはそれを上回るプロセッサによって実行されると、前記1つまたはそれを上回るプロセッサに、
    複数の画像を受信することであって、前記複数の画像はそれぞれ、ユーザの顔の少なくとも一部を含有する、ことと、
    前記複数の画像に基づいて、移動メトリックに関する複数の値を計算することであって、前記移動メトリックに関する複数の値はそれぞれ、前記ユーザの顔の移動を示す、ことと、
    前記移動メトリックに関する複数の値に基づいて、表情単位に関する複数の値を計算することであって、前記表情単位に関する複数の値はそれぞれ、前記ユーザの顔が前記表情単位を生産している範囲に対応する、ことと、
    前記機械学習モデルによって、前記複数の画像に基づいて、訓練出力データを生成することと、
    前記表情単位に関する複数の値および前記訓練出力データに基づいて、前記機械学習モデルを修正することと、
    によって、前記複数の画像および前記表情単位に関する複数の値を使用して、機械学習モデルを訓練することと
    を含む動作を実施させる、非一過性コンピュータ可読媒体と
    を備える、システム。
  16. 前記訓練出力データは、前記表情単位のセット毎に、複数の出力値を含み、前記表情単位は、前記表情単位のセットからの第1の表情単位である、請求項15に記載のシステム。
  17. 前記表情単位のセットは、内眉の上昇、外眉の上昇、眉の降下、上瞼の上昇、頬の上昇、眼瞼の緊張、鼻の皺寄、閉眼、左眼ウィンク、または右眼ウィンクのうちの少なくとも1つを含む、請求項16に記載のシステム。
  18. 前記複数の画像および前記表情単位に関する複数の値を使用して、前記機械学習モデルを訓練することはさらに、
    前記表情単位に関する複数の値と、前記訓練出力データの表情単位に関する複数の出力値との比較を実施することと、
    前記比較に基づいて、誤差データを生成することであって、前記機械学習モデルは、前記誤差データに基づいて修正される、ことと
    を含む、請求項15に記載のシステム。
  19. 前記移動メトリックは、眼ピクセルの数であり、前記複数の画像に基づいて、前記移動メトリックに関する複数の値を計算することは、
    前記複数の画像のそれぞれが、眼ピクセルおよび非眼ピクセルを含むように、前記複数の画像のそれぞれをセグメント化することと、
    前記複数の画像のそれぞれ内の眼ピクセルの数をカウントすることと、
    前記移動メトリックに関する複数の値のそれぞれを前記複数の画像からの対応する画像内の眼ピクセルの数に等しくなるように設定することと
    を含む、請求項15に記載のシステム。
  20. 前記移動メトリックに関する複数の値に基づいて、前記表情単位に関する複数の値を計算することは、
    前記移動メトリックに関する複数の値内の第1の極値およびそれに関して前記第1の極値が識別された第1の対応する画像を識別することと、
    前記第1の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれを1に等しくなるように設定することと、
    前記移動メトリックに関する複数の値内の第2の極値およびそれに関して前記第2の極値が識別された第2の対応する画像を識別することと、
    前記第2の対応する画像と関連付けられる前記表情単位に関する複数の値のそれぞれをゼロに等しくなるように設定することと、
    ゼロ~1を補間することによって、前記複数の値の各残りの値を設定することと
    を含む、請求項15に記載のシステム。
JP2022563131A 2020-04-20 2021-04-19 画像ベースの移動メトリックを使用した表情予測 Pending JP2023522225A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063012579P 2020-04-20 2020-04-20
US63/012,579 2020-04-20
PCT/US2021/028033 WO2021216476A1 (en) 2020-04-20 2021-04-19 Expression prediction using image-based movement metric

Publications (1)

Publication Number Publication Date
JP2023522225A true JP2023522225A (ja) 2023-05-29

Family

ID=78081962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022563131A Pending JP2023522225A (ja) 2020-04-20 2021-04-19 画像ベースの移動メトリックを使用した表情予測

Country Status (5)

Country Link
US (1) US11803231B2 (ja)
EP (1) EP4138663A4 (ja)
JP (1) JP2023522225A (ja)
CN (1) CN115515491A (ja)
WO (1) WO2021216476A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11957605B2 (en) * 2020-12-06 2024-04-16 Cionic, Inc. Machine-learned movement determination based on intent identification

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10869626B2 (en) 2010-06-07 2020-12-22 Affectiva, Inc. Image analysis for emotional metric evaluation
US9547808B2 (en) * 2013-07-17 2017-01-17 Emotient, Inc. Head-pose invariant recognition of facial attributes
US9696859B1 (en) * 2014-06-17 2017-07-04 Amazon Technologies, Inc. Detecting tap-based user input on a mobile device based on motion sensor data
US10165949B2 (en) * 2015-06-14 2019-01-01 Facense Ltd. Estimating posture using head-mounted cameras
US20180081434A1 (en) * 2016-09-22 2018-03-22 Apple Inc. Eye and Head Tracking
US11042729B2 (en) 2017-05-01 2021-06-22 Google Llc Classifying facial expressions using eye-tracking cameras
WO2019040669A1 (en) 2017-08-22 2019-02-28 Silicon Algebra, Inc. METHOD FOR DETECTING EXPRESSIONS AND FACIAL EMOTIONS OF USERS
CN112106066A (zh) * 2018-03-16 2020-12-18 奇跃公司 根据眼睛跟踪相机的面部表情
JP7378431B2 (ja) * 2018-06-18 2023-11-13 マジック リープ, インコーポレイテッド フレーム変調機能性を伴う拡張現実ディスプレイ
US20210133483A1 (en) * 2019-11-01 2021-05-06 XNOR.ai, Inc. Object detection based on pixel differences

Also Published As

Publication number Publication date
US20210326583A1 (en) 2021-10-21
EP4138663A1 (en) 2023-03-01
US11803231B2 (en) 2023-10-31
WO2021216476A1 (en) 2021-10-28
EP4138663A4 (en) 2023-08-30
CN115515491A (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
US11495002B2 (en) Systems and methods for determining the scale of human anatomy from images
JP7174815B2 (ja) バイオメトリックセキュリティのための青色光調節
US10643394B2 (en) Augmented reality
JP6960494B2 (ja) 眼画像の収集、選択および組み合わせ
US10649212B2 (en) Ground plane adjustment in a virtual reality environment
JP2022069522A (ja) 複合現実較正のための眼球周囲試験
US20170053445A1 (en) Augmented Reality
CN112567287A (zh) 具有帧调制功能的增强现实显示
US10529113B1 (en) Generating graphical representation of facial expressions of a user wearing a head mounted display accounting for previously captured images of the user's facial expressions
KR101260287B1 (ko) 증강 현실을 이용한 안경 렌즈 비교 시뮬레이션 방법
US11093208B2 (en) Using detected pupil location to align optical components of a head-mounted display
US10235808B2 (en) Communication system
US11620780B2 (en) Multiple device sensor input based avatar
KR20170035995A (ko) 가상 현실 환경에서 몰입된 때의 안티 트립
KR20170035997A (ko) 홀로그래픽 오브젝트에 대한 스마트 투명도
US11726318B2 (en) Increased depth of field for mixed-reality display
KR20150122952A (ko) 시선 추적 장치 및 방법
JP2023522225A (ja) 画像ベースの移動メトリックを使用した表情予測
KR20180074562A (ko) 전자 장치 및 이의 제어 방법
JP2021527888A (ja) 軸外カメラを使用して眼追跡を実施するための方法およびシステム
KR20210126490A (ko) 이미지 및 포즈 변화에 기반한 깊이맵 재투사 방법 및 xr 표시 장치
US11836842B2 (en) Moving an avatar based on real-world data
US10495882B1 (en) Positioning cameras in a head mounted display to capture images of portions of a face of a user
EP4321923A1 (en) Augmented reality device and method for detecting gaze of user
US11009715B2 (en) Methods and systems for fitting heads-up display to user

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240402