JP2024503548A

JP2024503548A - ビデオストリームにおいて、眼鏡を装着している個人の顔を検出および追跡するための方法

Info

Publication number: JP2024503548A
Application number: JP2023565647A
Authority: JP
Inventors: シュクルン，アリエル; ゲナール，ジェローム
Original assignee: フィッティングボックス
Priority date: 2021-01-13
Filing date: 2022-01-13
Publication date: 2024-01-25
Also published as: CN116830152A; EP4278324A1; CA3204647A1; FR3118821A1; WO2022153009A1; FR3118821B1

Abstract

本発明は、画像取得デバイス（１３０）によって取得されたビデオストリームにおいて個人（１２０）の顔（１２５）を追跡するための方法に関し、その顔は、眼鏡（１１０）を装着している。追跡方法は、眼鏡のモデルおよび顔のモデルを含む顔の表現のパラメータを評価し、顔の前記表現が、ビデオストリームにおいて顔の画像に重ねられるようにするステップを含み、前記パラメータは、第１の画像と呼ばれるビデオストリームの画像において以前に検出された、顔の前記表現の複数の特徴点に関して評価され、表現のパラメータのすべてまたは一部は、顔のモデルの少なくとも１つの点と、眼鏡のモデルの少なくとも１つの点との間の、少なくとも１つの近接制約を考慮することによって評価される。【選択図】図１

Description

本発明の分野は、画像分析の分野である。

より正確には、本発明は、ビデオストリームにおいて、眼鏡を装着している個人の顔を検出および追跡するための方法に関する。

本発明は、特に、眼鏡の仮想的な装着のための応用を見い出した。本発明はまた、特に、個人によって装着されている眼鏡の画像において不明瞭になる、眼鏡を装着している顔に対して、レンズ、宝飾品、および／または構造からなる付加物と組み合わされた拡張現実、または組み合わされていない縮小現実における応用も見い出した。本発明はまた、個人によって実際に、または仮想的に装着されている眼鏡の眼科測定（ＰＤ、ｍｏｎｏＰＤ、高さなど）を行うための応用も見い出した。

ビデオストリームにおける個人の顔を検出し、追跡することを可能にする技法は、従来技術から知られている。

これら技法は一般に、目の端、鼻、または口の端など、顔の特徴的な点の検出および追跡に基づいている。顔の検出の品質は、一般に、使用される特徴点の数および位置に依存する。

これら技法は一般に、ビデオストリームにおいて、アクセサリを装着していない個人の顔を検出および追跡する場合、信頼性が高い。

そのような技法は、特に、本特許出願会社の仏国特許出願公開第２９５５４０９号で公開された仏国特許と、国際公開第２０１６／１３５０７８号で公開された国際特許出願とに記載されている。

しかしながら、個人が、矯正レンズを備えた眼鏡を装着している場合、顔の検出の品質は低下する傾向にあるが、これは、検出中に使用されるいくつかの特徴点、一般に目の端が、一般に、フレームに組み込まれたレンズによって変形されるか、レンズが着色されている場合には、マスクされることさえあるからである。さらに、レンズが着色されていない場合でも、フレームが、検出に使用される特徴点の一部をマスクしてしまう場合がある。特徴点の一部が見えなくなったり、画像内での位置が変形する場合、モデルによって表現され、検出された顔は、一般に、実際の顔に対して位置および／または方位がずれていたり、スケールが誤っていることがある。

現在のシステムのどれも、すべての要件に同時に対応することはできず、つまり、改善された拡張現実表現を提供するために、個人の動きに対してより正確でよりロバストな、実際の眼鏡を装着した顔を追跡するための技法を提案しているものはない。

仏国特許出願公開第２９５５４０９号公報国際公開第２０１６／１３５０７８号公報国際公開第２０１３／１３９８１４号公報国際公開第２０１８／００２５３３号公報国際公開第２０１９／０２０５２１号公報

本発明は、従来技術の上述した欠点のすべてまたは一部を改善することを目的とする。

この目的のために、本発明は、画像取得デバイスによって取得されたビデオストリームにおいて、個人の顔を追跡するための方法に関し、その顔は、眼鏡を装着しており、ビデオストリームは、複数の連続して取得された画像を含む。

追跡方法は、眼鏡のモデルおよび顔のモデルを含む顔の表現のパラメータを評価し、顔の該表現が、ビデオストリームにおいて顔の画像に重ねられるようにするステップを含む。

本発明によれば、表現のパラメータのすべてまたは一部を評価する際に、顔のモデルの少なくとも１つの点と、眼鏡のモデルの少なくとも１つの点との間の、少なくとも１つの近接制約が考慮される。

例として、近接制約は、たとえば、眼鏡のアームが、耳介と頭蓋との間の接合部の上面、すなわち耳輪に置かれると定義し得る。

言い換えれば、近接制約は、顔のモデルのゾーンと、眼鏡のモデルのゾーンとの間で定義され、ゾーンは、表面または尾根などの点、または点のセットとすることができる。

近接とは、ゼロまたは所定のしきい値未満、たとえば数ミリメートル程度の距離を意味する。

したがって、顔の表現のパラメータの評価中に近接制約を使用すると、限られた数の計算で、カメラに対する顔の表現のより忠実な姿勢を取得することが可能になる。したがって、画像取得デバイスに対する個人の予期せぬ動きに関して、個人のリアルタイム追跡をよりロバストに実施することができる。

さらに、眼鏡のモデルと顔のモデルとを併用することにより、特に眼鏡を装着していない顔の追跡と比較して、顔の位置を改善することができる。後者の場合、一般に、こめかみの特徴点の位置が不正確であるためである。眼鏡のアームが、個人のこめかみに重ねられることで、個人のこめかみを含む画像のゾーン内で検出された特徴点に関するより正確な情報を取得することが可能になるので、眼鏡を追跡することによって、顔の表現の姿勢をより正確に推定できるようになる。

優先的に、表現のパラメータは、顔の表現に対する外部値と、顔の表現に対する内部値とを含み、外部値は、画像取得デバイスに対する顔の表現の３次元位置および３次元方位を含み、内部値は、顔のモデルに対する眼鏡のモデルの３次元位置および３次元方位を含み、該パラメータは、第１の画像と呼ばれるビデオストリームの画像において、または複数の画像取得デバイスによって同時に取得され、該第１の画像を含む画像のセットにおいて、以前に検出された、顔の該表現の複数の特徴点に関して評価される。

言い換えれば、アバターと呼ばれる顔の表現は、３次元環境における外部位置パラメータおよび外部方位パラメータと、顔のモデルと眼鏡のモデルとの間の相対的な内部位置パラメータおよび内部方位パラメータとを含む。フレームの種類、フレームのサイズ、素材などの、眼鏡の構成パラメータのような、他の内部パラメータを追加することもできる。構成パラメータはまた、眼鏡が個人の顔に装着されたときの眼鏡のフレーム、特にアームの変形に関連するパラメータを含んでもよい。そのような構成パラメータは、たとえば、眼鏡の顔の主平面または接平面などの基準平面に対するアームの開閉角度であってもよい。

顔の表現は、顔および眼鏡の３次元モデルを含む。

本発明の特定の実施形態では、表現のパラメータのすべてまたは一部は、ビデオストリームの第２の画像において、または複数の画像取得デバイスによって同時に取得された一連の第２の画像において、追跡または検出された特徴点のすべてまたは一部の位置に関して更新され、第２の画像のセットは、該第２の画像を含む。

したがって、表現のパラメータ、特に、眼鏡のモデルと顔のモデルとの間の相対的な位置および方位の値、さらには構成パラメータの更新により、よりロバストで、より正確な、個人の顔の追跡の取得が可能になる。

有利には、第２の画像または第２の画像のセットは、第１の画像または第１の画像のセットとは異なる角度で、個人の顔のビューを提示する。

本発明の特定の実施形態では、表現のパラメータのすべてまたは一部を評価する際に、顔の表現に含まれるモデルのうちの１つのモデルの３次元点と、ビデオストリームの少なくとも１つの画像に含まれる少なくとも１つの点、または水平線との間の少なくとも１つの近接制約も考慮される。

本発明の特定の実施形態では、表現のパラメータのすべてまたは一部を評価する際に、顔の表現に含まれるモデルのうちの１つのモデルの少なくとも１つの寸法制約も考慮される。

本発明の特定の実施形態では、この方法は、顔の表現に含まれる２つのモデルのうちの１つのモデルに属するか、または、顔の表現に含まれるモデルとは別個のモデルにそれぞれ属する、２つの別個の点をペアリングするステップを含む。

２点のペアリングにより、特に、これら２点間の近接性や既知の寸法など、これら２点間の距離関係を制約することが可能になる。既知の寸法とは、たとえば、顔の瞳孔間距離、フレームの幅、虹彩の特徴または平均サイズ、または、これら値のうちの１つ値の、知られている平均値を中心とした、１つまたは複数の分布則に従う、これら値の任意の組合せである。

本発明の特定の実施形態では、この方法は、顔の表現に含まれる２つのモデルのうちの１つモデルの点を、画像取得デバイスによって取得された画像の少なくとも１つの点とペアリングする事前ステップを含む。

モデルの点の、画像の点、または輪郭線などの点のセットとのペアリングは、一般に、自動的に実施される。

本発明の特定の実施形態では、表現のパラメータの評価中に、ビデオストリームにおける眼鏡の画像との、眼鏡のモデルの位置合わせが、ビデオストリームにおける顔の画像との、顔のモデルの位置合わせと連続して実施される。

本発明の特定の実施形態では、顔のモデルの位置合わせは、顔の画像内で検出された顔の特徴点と、該画像内に投影された顔のモデルの特徴点との間の距離を最小化することによって実施される。

本発明の特定の実施形態では、眼鏡のモデルの位置合わせは、画像内の眼鏡の輪郭の少なくとも一部と、該画像内に投影された眼鏡のモデルの同様の輪郭部分との間の距離を最小化することによって実施される。

実際、眼鏡のモデルは、３Ｄモデルであることが強調される。したがって、画像内で検出された眼鏡の輪郭との距離の最小化の計算に使用される同様の輪郭を決定するために、この３Ｄモデルの投影が画像において実施される。

本発明の特定の実施形態では、表現のパラメータは、顔のモデルの構成パラメータのセット、および／または、眼鏡のモデルの構成パラメータのセットも含む。

顔のモデルまたは眼鏡のモデルの構成パラメータは、たとえば、顔のモデルまたは眼鏡のモデルの形状およびサイズをそれぞれ特徴付ける形態学的パラメータとなることができる。構成パラメータは、アームの変形や、眼鏡の面の変形、さらには眼鏡の前面に対する各アームの開閉の変形さえも考慮するために、特に眼鏡のコンテキストにおける、モデルの変形特徴を含むこともできる。

顔モデルの文脈では、構成パラメータは、まぶたまたは口の開閉のパラメータ、または、表情による顔の表面の変形に関連するパラメータを含むこともできる。

本発明の特定の実施形態では、表現のパラメータは、以下のリスト、すなわち、
－顔の表現の３次元位置、
－顔の表現の３次元方位、
－眼鏡のモデルのサイズ、
－顔のモデルのサイズ、
－眼鏡のモデルと顔のモデルとの間の相対的な３次元位置、
－眼鏡のモデルと顔のモデルとの間の相対的な３次元方位、
－眼鏡のモデルの構成の１つまたは複数のパラメータ、
－顔のモデルの構成の１つまたは複数のパラメータ、
－カメラの１つまたは複数のパラメータ、のうちのすべてまたは一部を含む。

本発明の特定の実施形態では、追跡方法は
－ビデオストリームの第１の画像における顔の複数の点の検出ステップと、
－該第１の初期画像における顔の画像に関する顔のモデルのパラメータのセットの初期化ステップと、
－第２の初期画像と呼ばれる、ビデオストリームの第２の画像において個人の顔に装着されている眼鏡の複数の点の検出ステップであって、第２の初期画像は、ビデオストリームにおける第１の初期画像の後または前にある、またはビデオストリームにおける第１の画像と同一である、検出ステップと、
－該第２の初期画像における眼鏡の画像に対する、眼鏡のモデルのパラメータのセットの初期化ステップとを含む。

本発明の特定の実施形態では、顔のモデルのパラメータの初期化は、顔の検出された点のすべてまたは一部を分析する深層学習方法によって実施される。

本発明の特定の実施形態では、深層学習方法は、３次元基準フレームにおける顔のモデルの初期位置も判定する。

本発明の特定の実施形態では、追跡方法はまた、個人の顔に装着されている眼鏡の画像のスケールを、眼鏡の知られているサイズの要素の画像における寸法によって判定するステップを含む。

本発明の特定の実施形態では、スケールは、個人の顔に装着されている眼鏡を事前に認識することによって判定される。

本発明の特定の実施形態では、第２の画像取得デバイスによって取得された画像は、表現のパラメータを評価するために使用される。

本発明の特定の実施形態では、表現の眼鏡のモデルは、該眼鏡の事前モデリングに対応し、変形のみが異なる。

眼鏡のモデルの形状およびサイズは、不変のままであるため、より短い計算時間で、より良い解を得ることが可能になる。

本発明はまた、
－少なくとも１つの画像取得デバイスによって、顔に眼鏡を装着している個人の画像の少なくとも１つのストリームを取得するステップと、
－前述の実施形態のうちのいずれか１つの実施形態による追跡方法によって個人の顔を追跡し、顔の表現の位置および方位を追跡するステップと、
－画像取得デバイスによって、または、メイン画像取得デバイスと呼ばれる画像取得デバイスのうちの１つの画像取得デバイスによって取得された、メインビデオストリームと呼ばれる、該画像ストリームまたは該画像ストリームのうちの１つの画像ストリームの画像のすべてまたは一部を、メインビデオストリーム上において、個人の顔に、リアルタイムで重ねられた顔の表現によって変更するステップと、
－以前に変更されたメインビデオストリームを画面に表示するステップとを含む、拡張現実方法にも関する。

拡張現実方法のステップは、リアルタイムで有利に実施されることが強調される。

本発明はまた、前述の実施形態のうちのいずれか１つの実施形態による追跡または拡張現実方法の命令を格納するコンピュータメモリを含む電子デバイスにも関する。

有利には、電子デバイスは、該方法の命令を処理できるプロセッサを備える。

本発明の他の利点、目的、および特定の特徴は、添付の図面を参照しながら、本発明の目的であるデバイスおよび方法の少なくとも１つの特定の実施形態に関する以下の非限定的な説明から明らかになるであろう。

図１は、本発明による検出および追跡方法の実施形態を実施する拡張現実デバイスの概略図である。図２は、図１の拡張現実デバイスによって実施される検出および追跡方法のブロック図である。図３は、眼鏡のマスク（部分図ａ）、およびカテゴリに従ったマスクの輪郭の点の分布（部分図ｂおよび部分図ｃ）を示す図である。図４は、外部包絡線がある場合とない場合（それぞれ部分図ｂおよび部分図ａ）の眼鏡モデルの顔の斜視図である。図５は、眼鏡のモデルが重ねられた図１のデバイスの画像取得デバイスによって取得された画像の抽出による図２の方法の回帰ステップを示す図である。図６は、眼鏡のモデルと顔のモデルとの間の配置制約を示す図である。図７は、眼鏡のパラメトリックモデル（３ＤＭＭ）の斜視図である。図８は、図７のパラメトリックモデルの面の簡略図である。

この説明は非限定的に与えられており、実施形態の各特徴は、他の任意の実施形態の他の任意の特徴と、有利に組み合わせることができる。

現時点では、図面は正確に縮尺されていないことに留意されたい。

特定の実施形態の例
図１は、顔１２５に眼鏡１１０を装着している個人１２０によって使用される拡張現実デバイス１００を示す。眼鏡１１０は、通常、前面１１２と、個人１２０の顔の両側に延びる２つのアーム１１３とを含むフレーム１１１を備える。さらに、前面１１２は、特に、前面１１２内に構成された２つのリム１１５の内側に配置されたレンズ１１４を保持することを可能にする。２つのパッド（図１には示されていない）はそれぞれ、個人１２０の鼻１２１の上に載せることができるように、別個のリム１１５の端に突き出て固定されている。眼鏡１１０が個人１２０の顔に装着されると、２つのリム１１５を接続するブリッジ１１７が鼻１２１をまたぐ。

デバイス１００は、デバイス１００の画面１５０上にリアルタイムで表示されるビデオストリームを形成する複数の連続画像を取得するメイン画像取得デバイス、この場合はカメラ１３０、を備える。デバイス１００に含まれるデータプロセッサ１４０は、本発明に従って後続する方法の命令に従って、カメラ１３０によって取得された画像をリアルタイムで処理し、画像は、デバイス１００のコンピュータメモリ１４１に格納される。

任意選択的に、デバイス１００は、少なくとも１つの二次画像取得デバイス、この場合は、少なくとも１つの二次カメラ１６０を備えることもでき、これはカメラ１３０に対して同様にまたは異なる方位に向けることができ、個人１２０の顔１２５の画像の、第２のストリームを取得することを可能にする。この場合、カメラ１３０に対する二次カメラ１６０または各二次カメラの位置および相対的な方位が、一般に、有利に知られていると強調される。

図２は、カメラ１３０によって取得されたビデオストリームにおいて、個人１２０の顔を追跡するための方法２００をブロック図の形式で示している。

まず第１に、追跡方法２００は、一般に、ビデオストリームの、一般に連続している、画像上のループで実施されることが強調される。各画像について、特に、使用されるアルゴリズムを収束させるために、各ステップの数回の反復を実施できる。

方法２００は、初期画像と呼ばれる、ビデオストリームの画像において、眼鏡１１０を装着している個人１２０の顔の存在を検出する第１のステップ２１０を含む。

この検出は、眼鏡を装着している顔の画像を含むデータベースにおいて以前にトレーニングされた、英語の用語「ディープラーニング」としても知られる深層学習アルゴリズムを使用した眼鏡を装着している顔の学習ベースからであったり、あるいは、カメラ１３０に対する３次元モデルの方位および寸法における姿勢を判定することによって、初期画像における顔の画像に対応させることが求められる、眼鏡を装着している顔の３次元モデルを使用することによってであったりのいずれかである、いくつかの手法で実施できる。顔のモデルと、初期画像における顔の画像との間の照合は、特に、眼鏡を装着している顔のモデルの初期画像への投影によって行うことができる。この照合は、たとえば、顔がカメラに対して向いている場合や、眼鏡または髪などの要素が、顔に重ねられた場合、または髪などの要素が、眼鏡に重ねられた場合のように、顔の一部、または眼鏡の一部が、画像に隠れている場合であっても行うことができることが強調される。

あるいは、初期画像において、眼鏡１１０を装着している個人１２０の顔を検出するステップ２１０は、最初に、２つの要素のうちの１つの要素、たとえば顔を検出し、次に他の要素、すなわち、ここでは眼鏡を検出することによって実施できる。顔は、たとえば、画像内の顔の特徴点の検出によって検出される。そのような顔を検出するための方法は、当業者に周知である。眼鏡は、たとえば、優先的に顔に装着される眼鏡の画像のデータベースで以前にトレーニングされた、英語の用語「ディープラーニング」によっても知られている深層学習アルゴリズムによって検出することができる。

検出ステップ２１０は、ビデオストリームの複数の画像に対して一度だけ実施できることが強調される。

図３に示されるように、学習アルゴリズムは、特に、取得された画像のそれぞれについて眼鏡のバイナリマスク３５０を計算することを可能にする。

ｐ２Ｄで示されるマスクの輪郭点は、それぞれ、
－マスクの外側輪郭３６０、
－一般に、レンズの輪郭に対応するマスクの内部輪郭３７０、
－マスク上部の輪郭３８０、
－マスクの底部の輪郭３９０、のような少なくとも１つのカテゴリに関連付けられる。

あるいは、マスクの輪郭点ｐ２Ｄは、画像内で検出された眼鏡の特徴点と、マスクの輪郭点との間のロバストな距離、つまり、連続する２回の反復の間にほとんど変化しない距離を使用して計算される。

眼鏡１１０を装着している個人１２０の顔を検出した後、方法２００は、以下「アバター」と呼ばれる個人の顔の表現を、初期画像における個人１２０の顔の画像と位置合わせする第２のステップ２２０を含む。ここで、アバターは、１つのパラメトリックモデルが、眼鏡をかけていない顔のモデルに対応し、もう１つのパラメトリックモデルが、眼鏡のモデルに対応する、２つのパラメトリックモデルを含むことが有利である。パラメトリックモデルは一般に、基準フレームの原点がカメラ１３０に対応する仮想空間に配置されることが強調される。したがって、カメラの基準フレームについて説明する。

これら２つのパラメトリックモデルの併用は、回帰のパフォーマンスを向上させ、カメラに対する個人の顔のモデルの位置を、より正確に推定することを可能にする。

さらに、アバターの２つのパラメトリックモデルは、相対的な方位パラメータおよび位置パラメータによって、ともに有利にリンクされる。最初に、相対的な方位パラメータおよび位置パラメータは、たとえば、顔のパラメトリックモデルに対する眼鏡のパラメトリックモデルの標準的な姿勢に対応しており、つまり、フレームが個人の目に面して鼻の上に置かれ、アームが、個人のこめかみに沿って伸び、個人の耳に置かれるようになる。この標準的な姿勢は、たとえば、個人の顔に自然に配置された眼鏡の平均的な位置によって計算される。個人によって多かれ少なかれ、眼鏡が鼻の上に来る可能性があることが強調される。

本発明の非限定的な例では、眼鏡のパラメトリックモデルは、その包絡線が少なくとも断面においてゼロではない厚さを含む３次元フレームを含むモデルである。有利には、フレームの断面の各部の厚さはゼロではない。

図４は、眼鏡のパラメトリックモデルの面３００を２つのビューで示している。４ａで示される第１のビューは、外部包絡線のない面３００の骨格のビューに対応する。４ｂで示される第２のビューは、同じビューに対応するが、外部包絡線３２０を有する。図示されるように、眼鏡のパラメトリックモデルは、眼鏡のフレームのコア３４０に垂直な断面をそれぞれ有する一連の輪郭３３０によって表現することができる。したがって、輪郭３３０は、外部包絡線３２０の骨格を形成する。このパラメトリックモデルは、厚みのある３Ｄタイプからなる。

眼鏡のパラメトリックモデルは、フレームの周囲の区画の位置が、眼鏡の２つの異なるモデルで同一となるように、所定数の番号付きの区画を有利に備えることができることが強調される。したがって、リムの下点、リムの上点、リムとブリッジとの間の接合点、または、リムと、アームを用いてヒンジを保持するほぞとの間の接合点など、フレームの点に対応する区画は、２つの異なるモデルで同じ番号を有する。したがって、眼鏡のモデルを、フレームの寸法の表示に適合させることがより容易になる。これら表示は、通常、英語の用語「フレームマーキング」と呼ばれ、レンズの幅、ブリッジの幅、またはアームの長さを定義する。この情報は、たとえばフレーム上の位置に従って選択された２つの区画の中心または端に対応する２点間の制約を定義する際に役立つ。このようにして、寸法制約を遵守しながら眼鏡のモデルを修正することができる。

本方法によって使用される眼鏡のパラメトリックモデルの例は、以下の「眼鏡のパラメトリックモデルの例」と題されたセクションで、より詳細に示される。

本発明の代替実施形態では、眼鏡のパラメトリックモデルは、厚さゼロの３次元フレームを含む。これは、厚みのない３Ｄタイプのモデルである。

眼鏡の形態およびサイズを定義するためのすべてのパラメータは、構成パラメータと呼ばれる。

パラメトリックモデルのフレームの初期フォルムは、たとえば、仏国特許出願公開第２９５５４０９号で公開された仏国特許に、または国際公開第２０１３／１３９８１４号で公開された国際特許出願に記載されているような方法によって、以前にモデル化された眼鏡のフレームのフォルムに有利に対応できることが強調される。

眼鏡のパラメトリックモデルはまた、一般に弾性変形可能な材料から形成されている、たとえばアームまたは前面において、有利に変形することができる。変形パラメータは、眼鏡のモデルの構成パラメータに含まれる。たとえば、眼鏡１１０の事前モデリングによって、眼鏡のモデルが既知の場合、眼鏡のモデルは、分解中にサイズおよびフォルムが、不変のままであることが有利である。次に、眼鏡のモデルの変形のみが計算される。計算すべきパラメータの数が減り、計算時間が短縮され、良好な結果が得られる。

眼鏡の画像に対する顔の表現と、初期画像における顔との、２つのパラメトリックモデルを位置合わせするために、第２のステップ２２０中に、パラメトリックモデルの点の回帰が実行され、パラメトリックモデルは、フォルム、サイズ、位置、方位において、個人１２０に装着されている眼鏡１１０と、個人１２０の顔とにそれぞれ対応するようになる。

したがって、回帰によって処理されるアバターのパラメータは、本発明を限定しない本例では、
－アバターの、すなわちセット｛眼鏡のモデル、顔のモデル｝の、３次元位置、
－アバターの３次元方位、
－眼鏡のモデルのサイズ、
－顔のモデルのサイズ、
－眼鏡のモデルと顔のモデルとの間の相対的な３次元位置、
－眼鏡のモデルと顔のモデルとの間の相対的な３次元方位、
－任意選択的に、眼鏡のモデルの構成パラメータ、
－任意選択的に、特に鼻、口、目、こめかみ、頬など、顔を構成する様々な要素のフォルム、サイズ、および位置を定義するための形態学的パラメータなどの顔のモデルの構成パラメータであって、まぶたまたは口の開閉のパラメータ、および／または、表情による顔の表面の変形に関連するパラメータをも含む、構成パラメータ、
－任意選択的に、焦点距離や判定基準較正パラメータなどのカメラのパラメータである。

あるいは、上記のアバターのパラメータの一部のみが、回帰によって処理される。

カメラのパラメータは、眼鏡のモデルの３Ｄ形状が既知の場合、たとえば、個人１２０によって装着されている眼鏡１１０が認識されている場合に、有利に計算することができる。カメラのパラメータを調整することは、アバターのパラメータの、より正確な推定を助け、その結果、画像内の顔を、より良好に追跡する。

ここでは、回帰は、２段階で有利に実施される。まず、初期画像上で検出された特徴点を用いて顔のモデルの特徴点の最小化を実施して、カメラの基準フレームにおけるアバターの推定位置を取得する。

第２に、ビデオストリームの第１の画像に見られる眼鏡に対する眼鏡のモデルの輪郭の点の回帰を実行することによって、アバターのパラメータが微調整される。回帰中に考慮される眼鏡のモデルの輪郭の点は、一般に、眼鏡のフレームから得られる。

この目的のために、図５に示すように、眼鏡のモデル４２０の輪郭について考慮される点４１０は、その法線４３０が、対応する点４１０とカメラとの間の軸に垂直である点である。初期画像上の眼鏡の輪郭の点は、眼鏡のモデルの輪郭について考慮される各点４１０に関連付けられ、たとえば、グレーレベルなどの所与のカラースペクトルにおいて、最も高い勾配を有する法線４３０に沿った点４４０を探索する。眼鏡の輪郭は、優先的に顔に装着される、セグメント化された眼鏡の画像に対して以前にトレーニングされた、英語の用語「ディープラーニング」によっても知られる深層学習方法によって判定できる。初期画像上のモデルの輪郭の点と、眼鏡の点との間の位置を最小化することにより、カメラの基準フレームにおけるアバターのパラメータを微調整することが可能になる。

明確化のために、図５には５つの点４１０しか示されていないことが強調される。回帰によって使用される点の数は、一般にかなり多い。点４１０は、図４において円で表現され、点４４０は、法線４３０に沿ってスライドする三角形の頂点に対応する。

画像における眼鏡のモデルの輪郭の点と、眼鏡１１０の輪郭の点との関連付けは、眼鏡のモデルの３Ｄ点と、画像の２Ｄ点とのペアリングに対応する。画像における対応する点が、ある画像から他の画像にずれている可能性があるため、このペアリングは、反復ごとに、さらには画像ごとに優先的に評価されることが強調される。

さらに、画像における輪郭の点の１つまたは複数のカテゴリが既知であれば、この点と、眼鏡のモデルの３Ｄ点とのペアリングは、同じカテゴリを有する点をペアリングすることによって、より効果的に実施することができる。実際、眼鏡のモデルの点も、画像における眼鏡のマスクの輪郭の点と同じカテゴリに従って分類できることが強調される。

眼鏡のモデルの位置に関する回帰を改善するために、区画の輪郭は、眼鏡のモデルの輪郭について考慮される点の大部分と有利に関連付けられる。点に関連付けられた区画は、一般に、この点を含むフレームの端に対応する。各区画は、所定の数の尾根からなる多角形によって定義される。したがって、回帰中、法線の計算が、より正確になることによって改善され、画像に対する眼鏡のモデルの姿勢をより正確に推定できるようになる。この改善は、厚みのある３Ｄ眼鏡のパラメトリックモデルを使用する場合に特に当てはまる。

また、回帰中に、姿勢の品質を向上させながら計算時間を短縮するために、顔のモデルと眼鏡のモデルとの間の位置制約が有利に考慮されることも強調される。これら制約は、たとえば、顔のモデルの一部と、眼鏡のモデルの一部との間の点の接触を示す。これら制約は、たとえば、パッドを介する否かに関わらず、眼鏡のリムが鼻の上に置かれ、アームが耳に置かれるという事実を表現している。一般に、顔のモデルと眼鏡のモデルとの間の位置制約により、たとえば、個人の鼻の上の眼鏡の位置など、顔上の眼鏡の位置を、１つのパラメータでパラメータ化することが可能となる。鼻における２つの位置の間で、眼鏡は、鼻の尾根に対応する３Ｄ曲線上で並進移動するか、さらには、この対称中心面に垂直な軸上で回転する。２つの近い点の間で局所的に、３Ｄ曲線上の眼鏡の並進移動は、鼻の局所的な対称面に従うと考えることができる。

言い換えれば、制約は、顔のモデルの点と、眼鏡のモデルの点とのペアリングによって表現される。２つのモデルのうちの１つのモデルを、他の２つの軸に沿って互いに自由に並進移動させるために、２つの点の間のペアリングは、部分的なタイプからなり得る、つまり、たとえばＸ軸のみである、１つのタイプの座標のみに関連し得ることが強調される。

さらに、アバターに含まれる２つのパラメトリックモデル、すなわち、顔のモデルと眼鏡のモデルとのそれぞれは、有利なことに、顔に関して以前に測定された瞳孔間距離や、以前に認識されたフレームの特徴的な寸法などの、既知の寸法に対する制約とすることができる。したがって、同じモデルの２点間のペアリングを実施して、既知の寸法のこれら２点間の距離を制約することができる。

アルゴリズムの数式的詳細については、以下の「実施された方法の詳細」というタイトルのセクションにおける記載を参照されたい。

少なくとも１つの二次カメラが利用できる場合、眼鏡を装着している個人の顔のいくつかのビューが利用可能になり、これが、アバターのパラメータの回帰計算の改善を可能にすることが強調される。これは、様々なビューが、明確な角度で取得されるので、メインのカメラによって取得された画像上に隠れている部分を表示することによって、個人の顔の認識を向上させることが可能となる。

図６は、部分図ａの斜視図で見ることができる、アバターの顔のパラメトリックモデル６２０上の眼鏡のパラメトリックモデル６１０の位置を示している。使用される基準フレームは、図６の部分図ｅに示される。眼鏡のパラメトリックモデル６１０の動きは、ここでは、Ｚ軸に沿った並進移動に対応する、耳６４０上のアーム６３０の動きに従ってパラメータ化される（図６の部分図ｃ）。対応するＹ軸に沿った並進移動は、図６の部分図ｂに見ることができる。Ｘ軸を中心とした回転が、図６の部分図ｄに示される。

たとえば、個人の目の中のアームなど、顔のモデル上の眼鏡のモデルの誤った配置を回避するために、顔のモデルの特定の部分と、眼鏡のモデルの特定の部分との間の非接触の制約を追加することもできる。

本発明によって克服される１つの困難は、初期画像における眼鏡の隠れた部分の管理であり、これは、特に、個人１２０に実際に装着されている眼鏡１１０に対するパラメトリックモデルの位置および方位に関して、眼鏡のパラメトリックモデルの回帰に誤差を引き起こす可能性がある。これら隠れた部分は一般に、たとえば、顔の側面を確認するためにカメラに対して顔を向けた場合など、個人の顔によって、または、たとえば着色レンズによるなど、眼鏡によって直接的にマスクされる、フレームの部分に対応する。また、各耳に置かれたアームの部分は、個人１２０の顔の方位に関わらず、一般に、個人１２０の耳および／または髪に隠れることが強調される。

これら隠れた部分は、たとえば、フレームのセグメンテーションモデル、および／または、これら隠れた部分の輪郭の点を考慮することによって、検出中に推定することができる。眼鏡の隠れた部分は、個人１２０の顔の推定位置に対する眼鏡のパラメトリックモデルの姿勢を計算することによっても推定することができる。ここで使用されるパラメトリックモデルは、アバターに使用されるものと同じとすることができる。

眼鏡のパラメトリックモデルの位置合わせにより、個人１２０に実際に装着されている眼鏡１１０のモデルを認識することも可能になる。これは、点の回帰により、眼鏡１１０の少なくとも一部の近似的な３Ｄ輪郭を得ることが可能になるからである。次に、このおおよその輪郭が、データベースに記録され、以前にモデル化された眼鏡の輪郭と比較される。輪郭に含まれる画像は、個人１２０に装着されている眼鏡１１０のモデルのより良好な認識のために、データベースに記録された眼鏡の外観と比較することもできる。実際、データベースに格納された眼鏡のモデルは、一般に、テクスチャおよび素材でモデル化されていることが強調される。

眼鏡のパラメトリックモデルは、個人１２０に装着されている眼鏡１１０に最も良好に対応するように、変形および／または関節運動することができる。一般に、眼鏡のモデルのアームは、最初は、それらの間に５°程度の角度を形成する。この角度は、フレームのフォルムと、アームのために使用される素材、または、アームの素材とは異なり得る眼鏡のフレームの前面のために使用される素材の剛性とに従って、眼鏡の変形をモデル化することによって調整できる。パラメトリックアプローチは、眼鏡のパラメトリックモデルの変形をモデル化するために使用することができる。

該初期画像に続く画像上でのビデオストリームにおける顔および／または眼鏡のリアルタイム追跡は、図２に示される方法２００の第３のステップ２３０中に実施される。

リアルタイム追跡は、たとえば、光学フロー方法を使用した、ビデオストリームの連続画像内の特徴点の追跡に基づくことができる。

ビデオストリームの画像のパラメータの更新は、一般に、以前の画像で計算された位置合わせパラメータに関して実施されるため、この追跡は、特にリアルタイムで実施することができる。

追跡のロバスト性を向上させるために、個人の顔に対するアバターの姿勢が、満足できるものであると考えられる、通常は英語の用語「キーフレーム」と呼ばれるキー画像を使用して、キー画像における顔と同様の向きの顔のビューを表す画像に制約を与える。言い換えれば、基準画像とも呼ばれるビデオストリームの画像の選択のキー画像は、一般に、選択の画像のうちの１つの画像に対応しており、ここでは、個人の画像に関して、アバターの姿勢に関連付けられているスコアが最も高い。そのような追跡は、たとえば、国際公開第２０１６／１３５０７８号の国際特許出願に詳細に記載されている。

キー画像の選択は動的に行うことができ、画像の選択はビデオストリームの連続シーケンスに対応できることが強調される。

さらに、追跡は、それぞれが個人の顔の異なる方位に対応する、複数のキー画像を有利に使用することができる。

また、顔と眼鏡との併用追跡は、より多くの特徴点に基づいているため、より良好で、よりロバストな結果を得ることが可能になることも強調される。さらに、顔と眼鏡とのパラメトリックモデルの相対位置制約は、一般に、追跡中に使用され、これにより、リアルタイムで個人の頭部、従って、より良好なアバターの姿勢の、より正確な追跡が可能となる。

さらに、眼鏡は、アームの尾根、顔の尾根、またはフレーム前面のリムなど、画像内で明確に識別できるランドマークを含んでいるので、製造物である眼鏡の追跡は、一般に、顔だけを追跡するよりも、より正確である。

眼鏡のパラメトリックモデルを使用しない眼鏡の追跡は、ロバスト性が低く、画像ごとに大量の計算が必要になることが強調される。したがって、現在利用可能な計算能力を考慮すると、そのような追跡をリアルタイムで実施することはより困難である。しかしながら、プロセッサの能力は定期的に増加しているため、プロセッサの能力がそのようなアプリケーションに十分であれば、眼鏡のパラメトリックモデルを使用しない追跡も考えられる。

眼鏡のパラメトリックモデルのみに基づいて個人の追跡を実施することが可能であることも強調される。カメラに対する眼鏡のモデルの姿勢の最適化、すなわち画像に対する眼鏡のモデルの位置合わせは、画像ごとに実施される。

次に、ステップ２３５中に、追跡ステップ２３０と同時に、顔および眼鏡のパラメトリックモデルと、画像との位置合わせパラメータの更新が、カメラ１３０によって取得されたビデオストリームの新しい画像ごとに実施される。

あるいは、顔および眼鏡のパラメトリックモデルの位置合わせパラメータの更新が、各キー画像で実施される。

この位置合わせパラメータの更新は、カメラに対する個人の顔の位置の推定を向上するために、顔のパラメトリックモデル上の眼鏡のパラメトリックモデルの姿勢のパラメータを含むこともできる。この更新は、特に、個人の顔がカメラに対して異なる方位を向いている場合に実施できるので、顔のビューの別の角度を提供する。

パラメトリックモデルの微調整は、方法２００の第４のステップ２４０中に、追跡中に使用される基準キー画像を分析することによって実施することができる。この微調整により、たとえば、以前には捕捉されていなかった眼鏡１１０の詳細を用いて眼鏡のパラメトリックモデルを完成させることが可能になる。これら詳細は、たとえば、眼鏡に特有のレリーフ、絞り、シルクスクリーン印刷などである。

キー画像の分析は、英語の用語「バンドルアジャストメント」としても知られるクラスター調整方法によって行われ、これにより、眼鏡または顔のような、シーンのオブジェクトを記述する幾何学モデルの３Ｄ座標を微調整することが可能となる。「バンドル調整」方法は、観察された点とモデルの点との間の、再投影誤差の最小化に基づく。

したがって、眼鏡を装着している個人の顔に、より良く適合したパラメトリックモデルを取得することが可能である。

ここでの「バンドル調整」方法による分析は、キー画像内でより高精度に識別可能な顔の特徴点や眼鏡の点を利用する。これら点は、顔の輪郭の点、または眼鏡の点とすることができる。

一般的な用語での「バンドル調整」方法は、２つの画像間を移動できる一連の３Ｄ点によって定義されるシーンを処理することが強調される。「バンドル調整」方法によって、所与の基準フレーム（たとえば、シーンの基準フレーム）内のシーンの各３Ｄ点の３次元位置と、カメラに対するシーンの相対的な動きのパラメータと、画像を取得した１つまたは複数のカメラの光学パラメータとを同時に解くことが可能となる。

光学フロー方法によって計算された、たとえば、顔や眼鏡の輪郭の点に関連するスライディング点は、「バンドル調整」方法でも使用できる。しかしながら、光学フローは、一般に、ビデオストリーム内で連続する２つの異なる画像間、または２つのキー画像間で計算されるため、光学フローからの点の「バンドル調整」方法中に取得される行列は、一般に中空である。この情報の欠如を補うために、眼鏡の輪郭の点を、「バンドル調整」方法によって有利に使用することができる。

顔のパラメトリックモデル、または眼鏡のパラメトリックモデルを改善することを可能にする新しい情報を、新しいキー画像のために取得できることが強調される。さらに、「バンドル調整」方法によって使用される点を補足または置換するために、ステップ２１０に記載されたように、眼鏡を装着している顔の新しい検出を、この新しいキー画像において実施することができる。パラメトリックモデルの微調整を、ビデオストリームの現在の画像に確実に近づけるために、より高い重みを有する解制約を、検出された新しい点に関連付けることができる。

法線が９０度において存在する眼鏡のモデルのすべての点に対応する、眼鏡の輪郭のスライド点が、眼鏡の輪郭の水平線上で、眼鏡の３Ｄモデルとペアリングできる。

本発明の実施形態の例では、キー画像は、眼鏡１１０を装着している個人１２０の顔が正面を向いているときの画像、および／または、個人１２０の顔が、矢状面に対して約１５度の角度だけ、頭の自然な位置に対して左または右を向いている画像に対応する。これらキー画像では、顔１２５および眼鏡１１０の新しい部分が見える。したがって、顔のモデルおよび眼鏡のモデルのパラメータを、より正確に判定することができる。キー画像の数は、対応するモデルを構築するための顔１２５および眼鏡１１０の学習において、満足できる結果を取得するために、３画像から５画像の間の数に、任意に固定することができる。

個人１２０に装着されている眼鏡１１０のサイズは、特にシーンの判定基準を取得し、特に、たとえば、瞳孔間距離や虹彩のサイズなど、平均サイズとして定義できる個人の顔の光学測定を判定するためのスケールを定義するために、ステップ２５０において方法２００中に導入することもできる。

眼鏡１１０のサイズは、以前に定義された眼鏡のリストに関して統計的に定義することができるか、または眼鏡１１０の実際のサイズに対応することができる。

眼鏡１１０に示される「フレームマーキング」がどれであるかを方法２００に示すためのインターフェースを提供することができる。あるいは、画像における自動読取が、「フレームマーキング」の文字を認識し、関連付けられた値を自動的に取得するための方法２００によって実行することができる。

「フレームマーキング」が分かると、特に、眼鏡１１０が以前にモデル化されている場合には、眼鏡１１０のパラメトリックモデルを有利に知ることができることが強調される。

眼鏡のサイズ情報を利用できない場合、たとえば「フレームマーキング」が分からない場合、最初に使用される眼鏡のパラメトリックモデルは、通常、個人によって使用される眼鏡の統計的平均値を含む標準的なパラメトリックモデルである。この統計的枠組みにより、個人１２０に実際に装着されている眼鏡１１０のモデルに近い、満足できる結果を得ることが可能になり、新しい画像のそれぞれが、眼鏡のモデルのパラメータを改善する。

顔のフォルムおよび位置を微調整するために、方法２００中に深度カメラを使用することもできる。

深度カメラは、深度センサの一種であり、通常は英語の用語「デプスセンサ」で知られていると強調される。さらに、深度センサは、一般に、赤外光の放射を使用して動作するが、特に、レンズ、および／または、眼鏡の前面の素材によってもたらされる屈折、透過、および／または反射の問題により、個人１２０に装着されている眼鏡１１０の輪郭を取得するための十分な精度は得られない。場合によっては、カメラのフィールドに強い光源が存在するなどの光条件は、信頼性の高い測定を妨げる高いノイズを導入することによって、赤外線深度カメラの正しい動作を妨げる。しかしながら、顔の目に見える表面での深度測定、顔のモデルまたは眼鏡のモデルでさえも、サイズおよびフォルムの測定基準およびより正確な推定を保証するために、顔の目に見える部分において、深度測定を使用することもできる。

個人１２０の、または少なくとも眼鏡１１０のみの顔が、前述した方法２００によって追跡されると仮定すると、ビデオストリームにおいて個人１２０に装着されている眼鏡１１０の削除は、特に、国際公開第２０１８／００２５３３号で公開された国際特許出願に記載されている技法を参照することによって実施することができる。さらに、新しい眼鏡の仮想的な装着を実施することもできる。

追跡方法２００はより効果的であり、本追跡方法によって、カメラに対する眼鏡の位置が、より正確に判定されるため、装着されている眼鏡を隠すことによる画像内の眼鏡の削除が、より現実的に行われることが強調される。

本明細書で記載されている追跡方法によって、たとえば、レンズの色や色合いを変更したり、シルクスクリーン印刷などの要素を追加したりすることによって、個人に装着されている眼鏡のすべてまたは一部を変更することも可能である。

したがって、追跡方法２００を、拡張現実方法に含めることができる。

追跡方法２００は、国際公開第２０１９／０２０５２１号で公開された国際特許出願に記載されているような光学パラメータを測定するための方法にも使用できることが強調される。追跡方法２００を使用することによって、眼鏡および顔のパラメトリックモデルが、同じ基準フレーム内で併用的に解かれるため、光学パラメータの測定は、より正確になり得るが、これは各モデルが、眼鏡のモデルと、顔のモデルとの相対的な位置制約を考慮せずに、独立して最適化される従来技術の場合には当てはまらない。
使用される方法の詳細

本セクションで提示されるアルゴリズムは、以前に詳細に説明した例の目的である追跡方法の一部の一般的な実施に対応する。この部分は、特に、少なくとも１つの画像ストリームにおいて検出された点に関する顔のモデルおよび眼鏡のモデルのパラメータ、特に姿勢および構成／形態の分解（上記ステップ２２０）、およびその更新（上記ステップ２３５）のパラメータを解くことに対応する。これら２つのステップは一般に、制約下で解かれた同じ方程式に基づいていることが強調される。顔のモデルおよび眼鏡のモデルの形態学的モードもこの部分で解くことができる。

顔のモデルと眼鏡のモデルとを同時に解く利点は、顔のモデルと眼鏡のモデルとの間に、新しい接触または近接制約を提供することである。これは、それぞれ別個のモデルに対応する２つのメッシュが相互に侵入していないことがまず保証されるだけでなく、特に個人の耳と鼻において、２つのメッシュ間に接触または近接している点が少なくとも存在することが保証されるためである。顔のモデルの姿勢を解く際の主要な問題のうちの１つの問題は、こめかみの点の位置に対応することであり、通常使用される点検出器によってその位置が正確に判定されることはほとんどないことが強調される。多くの場合、画像内でよりよく見え、物理的にこめかみに当たっている眼鏡のアームを使用することは、有利である。

使用される２つのモデルはパラメトリックモデルであり、したがって変形可能であるため、最小化内で接触アルゴリズムを確立するのは困難であることが強調される。２つのモデルは各反復で変形するため、接触点は反復間で互いに区別できる。

本発明の非限定的な例では、それぞれがｐ個のビュー、すなわちｐ個の画像を取得するｎ個の較正されたカメラが考慮される。各カメラの固有のパラメータ、およびその相対位置は既知であることが強調される。それにも関わらず、顔の位置と向きは、ビューごとに判定される。Ｍ_ｆで示される、使用される顔の３Ｄパラメトリックモデルは、α_{ｋ，ｋ＝１．．ｖ}で示されるｖ個のパラメータによって線形的に変形可能な３Ｄ点ｐ３Ｄで構成されるメッシュである。したがって、このメッシュの各３Ｄ点は、線形結合の形式で記述される。

［数式１］

［数式２］

ここで、β_{ｋ，ｋ＝１．．μ}は、眼鏡Ｍ_ｇのパラメトリックモデルのμ個のパラメータに対応する。

３Ｄ顔は、最初に、ｐ回の取得ごとに、ワールド基準フレームと呼ばれる３次元基準フレームに置換される。ワールド基準フレームは、たとえば、カメラの基準フレーム、または２つのモデルのうちの１つの基準フレームに対応できる。顔のモデルの位置および方位は、最初は不明であるため、画像内で検出された特徴点を用いた顔のモデルの点の回帰フェーズに対応する最小化中に求められる。

この回帰を実施する前に、眼鏡のモデルＭ_ｇが、顔のモデルＭ_ｆ上に配置される。この目的のために、眼鏡のモデルの点ｐ３Ｄ＿ｇを、３Ｄ回転行列Ｒ＿ｇおよび並進ベクトルＴ＿ｇを考慮しながら、顔の基準フレームに書き込むことができる。

［数式３］

次に、回帰により、ここではワールド基準フレームに対応するカメラのうちの１つのカメラのビューｌの基準フレームにおける基準フレームにおける顔のモデルの方位および並進移動における姿勢が得られる。

［数式４］

ここで、Ｒは、３Ｄ回転行列、Ｔは並進ベクトル、ｌはカメラのビューを表現する。

この方法中で使用される画像ｉ内のモデルｐ３Ｄの投影関数は、次のように示される。

［数式５］

ここで、Ｋ^ｉは、画像ｉの較正行列に対応する。Ｒ^ｉおよびＴ^ｉはそれぞれ、ワールド基準フレームと、画像ｉを取得したカメラの基準フレームとの間の回転行列および並進ベクトルに対応する。その部分のシンボル～は、スケール係数内に対する等価性を示す。この等価性は、特に、投影の最後の成分が１に等しいという事実によって表現することができる。

顔の表現のモデルの姿勢が解かれると、以下の５種類の制約、すなわち、
－２Ｄ顔制約、
－２Ｄ眼鏡制約、
－３Ｄ顔－眼鏡制約、
－たとえば瞳孔間距離ＰＤ、こめかみ間の距離、平均虹彩サイズ、またはいくつかのサイズ制約の分布の混合に対応する３Ｄ顔制約であって、分布の混合は、虹彩のサイズおよび瞳孔間距離に関する２つのガウス分布の混合に対応し得、これら制約を組み合わせると、ｇ－ｈフィルタタイプの定式化を必要とし得る、
－たとえば、通常、英語の用語「フレームマーキング」と呼ばれる、フレーム上のマーキングから生じる、既知の寸法に対応する眼鏡の３Ｄ制約、が存在する。

顔の２Ｄ制約は、３Ｄモデルの点と、少なくとも１つのビューアおよび少なくとも１台のカメラの顔の画像内の２Ｄ点とのペアリングに基づく。優先的に、このペアリングは、ビューごと、カメラごとに行われる。画像内の顔の輪郭に含まれていない顔の点に対してペアリングを固定したり、顔の輪郭の点の水平線に沿ってスライドさせたりできることが強調される。顔の輪郭の点と、画像の点とのペアリングにおけるこの自由度により、特に画像に対する顔の３Ｄモデルの姿勢の安定性を改善することが可能となり、したがって、２つの連続する画像間の顔の３Ｄモデルの姿勢のより良好な連続性を提供する。

顔の３Ｄモデルの点と、画像の２Ｄ点とのペアリングは、以下の方程式で数式的に表現することができる。

［数式６］

ここで、φ_{ｊ，ｉ，ｌ}と、σ_{ｊ，ｉ，ｌ}とはそれぞれ、顔のパラメトリックモデルＭｆの３Ｄ点のインデクスと、ビューｉおよびカメラｌの画像における顔の２Ｄ点のインデクスとを表現している。

眼鏡の２Ｄ制約は、特に画像におけるマスクの輪郭を使用した画像における、眼鏡のモデルの３Ｄ点と、眼鏡の２Ｄ点とのペアリングに基づく。

［数式７］

ここで、φ_{ｊ，ｉ，ｌ}と、ω_{ｊ，ｉ，ｌ}とはそれぞれ、眼鏡のパラメトリックモデルＭｇの３Ｄ点のインデクスと、ビューｉおよびカメラｌの画像における眼鏡の２Ｄ点のインデクスとを表現している。

３Ｄ顔－眼鏡の制約は、顔のモデルの３Ｄ点と、眼鏡のモデルの３Ｄ点とのペアリングに基づいており、その距離は、接触（ゼロ距離）でさえもある近接制約によって定義される。影響関数を適用して、たとえば、顔のモデルの外側に向けられた顔のモデルの表面への法線に対する負の距離に対して、より大きな重み付けを用いて接触距離を計算することができる。いくつかの点については、たとえば、顔のこめかみと、眼鏡のアームとの間の関係の軸など、一部の座標のみに制約が課せられ得ることが強調される。

顔のモデルの３Ｄ点と、眼鏡のモデルの３Ｄ点とのペアリングは、以下の方程式で数式的に表現することができる。

［数式８］

ここで、ρ_ｊと、τ_ｊとはそれぞれ、顔のパラメトリックモデルＭｆの３Ｄ点のインデクスと、眼鏡のパラメトリックモデルＭｇの３Ｄ点のインデクスとを表現している。

顔の３Ｄ制約は、たとえば（各瞳孔の中心間の距離であり、各目の回転中心間の距離にも対応する）瞳孔間距離など、以前に測定された、顔の既知の距離に基づく。したがって、測定基準距離を、一対の点とペアリングすることができる。

［数式９］

ここで、ｔ_ｊおよびｕ_ｊはそれぞれ、顔のパラメトリックモデルＭｆの個別の３Ｄ点のインデクスを表現している。

眼鏡の３Ｄ制約は、（たとえば、ＢＯＸＩＮＧ規格またはＤＡＴＵＭ規格に従う）レンズのサイズ、ブリッジのサイズ、またはアームのサイズなど、個人に装着されている眼鏡のモデルの、既知の距離に基づく。この距離は、特に、通常は「フレームマーキング」と呼ばれる、一般にアームの内側に位置するフレームのマーキングによって表現することができる。次いで、測定基準距離を、眼鏡のモデルの一対の点とペアリングすることができる。

［数式１０］

ここで、ｖ_ｊおよびｗ_ｊはそれぞれ、眼鏡のパラメトリックモデルＭｇの個別の３Ｄ点のインデクスを表現している。

したがって、アルゴリズムの入力データは、
－眼鏡を装着している人のｎ台のカメラからのｐ個の画像、
－画像内で検出された顔の特徴的な２Ｄ点、
－任意選択的に、（たとえば、水平線に沿った）いわゆるスライディング点の場合、反復ごとに評価される、一部の点の２Ｄまたは３Ｄペアリング、
－少なくとも１つの画像におけるの眼鏡のマスク、
－較正行列および各カメラの姿勢である。

このアルゴリズムにより、以下の出力データ、すなわち、
－アバターのｐ個の姿勢：Ｒ_ｆｌ、Ｔ_ｆｌ、
－顔のパラメトリックモデルのｖ個のモード：α_１、α_２、．．．，α_ｖ、
－顔のモデルに対する眼鏡のモデルの姿勢：Ｒ_ｇ、Ｔ_ｇ、
－眼鏡のパラメトリックモデルのμ個のモード：β_１、β_２、．．．，β_μ、を計算できるようになる。

この目的のために、アルゴリズムは、以下の手順、すなわち、

［数式１１］

ここで、γ_１，γ_２，γ_３，γ_４，γ_５は、各制約ブロック間の重みであり、ｖｉｓｉは、点ｐ２Ｄが画像において見えるか否か、つまり、顔のモデルＭｆによって、または眼鏡のモデルＭｇによって隠されていないか否かを示す関数であり、＃（ｖｉｓｉ＝＝１）は、目に見える点の数に対応する。

本発明のこの特定の実施形態の変形例では、カメラの焦点距離が、最適化されるパラメータの一部を形成する。これは、画像の取得が、知られていないカメラによって行われた場合、取得された一部の画像が、以前にリフレームまたはリサイズされているためである。この場合、最小化中に、カメラの焦点距離を、自由度として残すことが好ましい。

本発明のこの特定の実施形態の変形例では、顔のモデルと眼鏡のモデルとの間の接触制約の方程式のパラメータの軸および不確実性／信頼値を表現している分散行列および共分散行列が、解く際に考慮される。

本発明のこの特定の実施形態の変形例では、顔のモデルに対する眼鏡のモデルの姿勢のいくつかのパラメータが固定される。これは、眼鏡のモデルと顔のモデルとの間の位置合わせの仮説を表現し得る。この場合、Ｘ軸、つまり矢状面に垂直な軸上の回転と、ｙおよびｚに沿った、つまり矢状面内の並進移動のみが計算される。［数式１１］で表現されるコスト関数は、単純化できるため、結果に向かってより容易に収束することが可能になる。このようにして、たとえば顔の片側がわずかに傾いているなど、眼鏡が、対称な顔と比べて異なって位置している、非対称性の高い顔でも、非常に満足できる結果を得ることが可能である。

眼鏡のパラメトリックモデルの例
各眼鏡は、レンズ、ブリッジ、およびアームなどの共通の要素を含んでいる。したがって、図７に示すように、眼鏡のパラメトリックモデル（３ＤＭＭ）７００は、以前に定義された三角形の面７１５によって互いに接続された区画７１０のセットとして定義することができる。

三角形の面７１５は、凸状の包絡線７２０を形成するが、その一部は図７には示されていない。

同じ数の点によって定義される区画７１０のそれぞれは、眼鏡のすべてのモデル上の同じ場所に有利に配置される。

さらに、各区画７１０は、骨格７３０に垂直な平面上でペアと交差する。

したがって、次の３つのタイプの区画、すなわち、
－ｎ度ごとに１つの区画を有するように、たとえばリムの骨格に垂直な基準面に対する角度によってパラメータ化された、レンズの周囲の区画７１０_Ａ、
－基準面に平行なブリッジの区画７１０_Ｂ、
－アームの骨格７３０_Ｂに沿った、アームの区画７３０_Ｃを定義できる。

レンズの周囲にリムがないペアの場合、通常は英語の用語「リムレス」と呼ばれるか、または、ペアの場合、リムがレンズの一部しか囲んでいない「セミリムレス」と呼ばれ、レンズの周囲の区画７１０_Ａのすべてまたは一部は、１つおよび同一の区画７１０_Ａのすべての点の組合せに対応する単一の点しか有していないことが強調される。

さらに、眼鏡のモデル７００と、画像内の眼鏡の表現との位置合わせに使用される主成分分析（ＰＣＡ）は、多くの共通点を必要とする。この目的のために、位置合わせされた眼鏡に属するすべてのピクセルが、画像内で確実に見つかるように、眼鏡のモデルの凸状の包絡線７２０上に位置する点が選択される。

たとえば、二重ブリッジを有する眼鏡の場合など、眼鏡の開口部を見つけることを可能にするために、たとえば、二重ブリッジを有する眼鏡のモデルのテンプレートを、眼鏡にできるだけ適合するように事前に選択できる。

所与のインデクスで参照されるパラメトリックモデルの点は、眼鏡のモデル上の同じ相対点に連続的に配置されるため、２点間の既知の距離の定義が容易になる。既知のこの距離は、眼鏡に刻まれた「フレームマーキング」によって取得でき、このマーキングは、レンズの幅、ブリッジの幅、アームの長さ全体を定義する。

この情報は、図８に示すように、対応する点を選択することによって眼鏡モデル７００の解に影響を与えることができる。図８では、眼鏡の前面の区画７１０の輪郭を特徴付ける点８１０のみが示されており、ｄは、特に「フレームマーキング」によって定義されるレンズの幅に対応する。顔と眼鏡の位置合わせの変形では、顔と眼鏡との２つのそれぞれのパラメトリックモデルから、多数の顔、および多数の眼鏡が生成される。次に、自動配置アルゴリズムを使用して、各顔モデル上に眼鏡の各モデルを配置する。有利には、ノイズの生成および異なる配置統計、すなわち、鼻の端における眼鏡、パッドの凹み、こめかみの緩い配置などが、顔上で眼鏡を自動的に配置するために使用される。次に、眼鏡と顔との新しいパラメトリックモデルが、顔と眼鏡とのモデルのすべての点から計算される。この新しいパラメトリックモデルは、顔上での眼鏡の接触と完璧な配置とを保証し、解を簡素化する。これは、１２個ではなく６個のパラメータの計算に対応する１つの変換が求められ、接触方程式が取り消されるためである。しかしながら、これら制約をエンコードするのはモードであるため、一般にこの場合は、より多くのモードが推定される。

Claims

画像取得デバイス（１３０）によって取得されたビデオストリームにおいて個人（１２０）の顔（１２５）を追跡するための方法（２００）であって、前記顔は、眼鏡（１１０）を装着しており、前記ビデオストリームは、複数の連続して取得された画像を含んでおり、前記追跡方法は、前記眼鏡のモデルおよび前記顔のモデルを含む前記顔の表現のパラメータを評価し、前記顔の前記表現が、前記ビデオストリームにおける前記顔の前記画像に重ねられるようにするステップ（２２０，２３５）を含んでおり、前記表現の前記パラメータのすべてまたは一部は、前記顔の前記モデルの少なくとも１つの点と、前記眼鏡の前記モデルの少なくとも１つの点との間の、少なくとも１つの近接制約を考慮することによって評価されることを特徴とする、追跡方法（２００）。
前記表現の前記パラメータは、前記顔の前記表現の外部値と、前記顔の前記表現の内部値とを含み、前記外部値は、前記画像取得デバイスに対する前記顔の前記表現の３次元位置および３次元方位を含み、前記内部値は、前記顔の前記モデルに対する前記眼鏡の前記モデルの３次元位置および３次元方位を含み、前記パラメータは、第１の画像と呼ばれる前記ビデオストリームの画像において、または、複数の画像取得デバイスによって同時に取得され、前記第１の画像を含む画像のセットにおいて、以前に検出された、前記顔の前記表現の複数の特徴点に関して評価される、請求項１に記載の追跡方法。
前記表現の前記パラメータのすべてまたは一部は、前記ビデオストリームの第２の画像において、または、複数の前記画像取得デバイスによって同時に取得された第２の一連の画像において追跡または検出された特徴点のすべてまたは一部の位置に関して更新され、前記第２の画像のセットは、前記第２の画像を含む、請求項１または請求項２に記載の追跡方法。
前記表現の前記パラメータのすべてまたは一部を評価する際に、前記顔の前記表現に含まれる前記モデルのうちの１つのモデルの３次元点と、前記ビデオストリームの少なくとも１つの画像に含まれる少なくとも１つの点、または水平線との間の少なくとも１つの近接制約も考慮される、請求項１から請求項３のいずれか一項に記載の追跡方法。
前記表現の前記パラメータのすべてまたは一部を評価する際に、前記顔の前記表現に含まれる前記モデルのうちの１つのモデルの少なくとも１つの寸法制約も考慮される、請求項１から請求項４のいずれか一項に記載の追跡方法。
前記顔の前記表現に含まれる２つの前記モデルのうちの１つのモデルに属するか、または、前記顔の前記表現に含まれる前記モデルとは別個のモデルにそれぞれ属する、２つの別個の点をペアリングするステップを含む、請求項１から請求項５のいずれか一項に記載の追跡方法。
前記顔の前記表現に含まれる２つの前記モデルのうちの１つモデルの点を、画像取得デバイスによって取得された画像の少なくとも１つの点とペアリングする事前ステップを含む、請求項１から請求項６のいずれか一項に記載の追跡方法。
前記表現の前記パラメータの前記評価中に、前記ビデオストリームにおける前記眼鏡の画像との、前記眼鏡の前記モデルの位置合わせが、前記ビデオストリームにおける前記顔の画像との、前記顔の前記モデルの位置合わせと連続して実施される、請求項１から請求項７のいずれか一項に記載の追跡方法。
前記顔の前記モデルの前記位置合わせは、前記顔の前記画像内で検出された前記顔の特徴点と、前記画像内に投影された前記顔の前記モデルの特徴点との間の距離を最小化することによって実施される、請求項８に記載の追跡方法。
前記眼鏡の前記モデルの前記位置合わせは、前記画像内の前記眼鏡の輪郭の少なくとも一部と、前記画像内に投影された前記眼鏡の前記モデルの同様の輪郭部分との間の距離を最小化することによって実施される、請求項８または請求項９に記載の追跡方法。
前記表現の前記パラメータは、以下のリスト、すなわち、
・前記顔の前記表現の３次元位置、
・前記顔の前記表現の３次元方位、
・前記眼鏡の前記モデルのサイズ、
・前記顔の前記モデルのサイズ、
・前記眼鏡の前記モデルと前記顔の前記モデルとの間の相対的な３次元位置、
・前記眼鏡の前記モデルと前記顔の前記モデルとの間の相対的な３次元方位、
・前記眼鏡の前記モデルの構成の１つまたは複数のパラメータ、
・前記顔の前記モデルの前記構成の１つまたは複数のパラメータ、
・カメラの１つまたは複数のパラメータ、のうちのすべてまたは一部を含む、請求項１から請求項１０のいずれか一項に記載の追跡方法。
・前記ビデオストリームの第１の画像における前記顔の複数の点の検出ステップと、
・第１の初期画像における前記顔の前記画像に関する前記顔のモデルのパラメータのセットの初期化ステップと、
・第２の初期画像と呼ばれる、前記ビデオストリームの第２の画像において前記個人の顔に装着されている眼鏡の複数の点の検出ステップであって、前記第２の初期画像は、前記ビデオストリームにおける前記第１の初期画像の後または前にある、または前記ビデオストリームにおける前記第１の画像と同一である、検出ステップと、
・前記第２の初期画像における前記眼鏡の前記画像に対する、前記眼鏡のモデルのパラメータのセットの初期化ステップとを含む、請求項１１に記載の追跡方法。
前記顔の前記モデルの前記パラメータの前記初期化は、前記顔の前記検出された点のすべてまたは一部を分析する深層学習方法によって実施される、請求項１２に記載の追跡方法。
前記深層学習方法は、３次元基準フレームにおける前記顔の前記モデルの初期位置も判定する、請求項１３に記載の追跡方法。
前記個人の前記顔に装着されている前記眼鏡の前記画像のスケールを、前記眼鏡の知られているサイズの要素の前記画像における寸法によって判定するステップを含む、請求項１から請求項１４のいずれか一項に記載の追跡方法。
前記スケールは、前記個人の前記顔に装着されている前記眼鏡を事前に認識することによって判定される、請求項１５に記載の追跡方法。
第２の画像取得デバイスによって取得された前記画像は、前記表現の前記パラメータを評価するために使用される、請求項１から請求項１６のいずれか一項に記載の追跡方法。
前記表現の前記眼鏡の前記モデルは、前記眼鏡の事前モデリングに対応し、変形のみが異なる、請求項１から請求項１７のいずれか一項に記載の追跡方法。
・少なくとも１つの画像取得デバイスによって、顔に眼鏡を装着している個人の画像の少なくとも１つのストリームを取得するステップと、
・請求項１から請求項１８のいずれか一項に記載の追跡方法によって前記個人の前記顔を追跡し、前記顔の表現の位置および方位を追跡するステップと、
・前記画像取得デバイスによって、または、メイン画像取得デバイスと呼ばれる前記画像取得デバイスのうちの１つの画像取得デバイスによって取得された、メインビデオストリームと呼ばれる、前記画像ストリームまたは前記画像ストリームのうちの１つの画像ストリームの前記画像のすべてまたは一部を、前記メインビデオストリームにおいて、前記個人の前記顔に、リアルタイムで重ねられた前記顔の前記表現によって変更するステップと、
・以前に変更された前記メインビデオストリームを画面に表示するステップとを含む、拡張現実方法。
請求項１から請求項１９のいずれか一項による方法の命令を格納しているコンピュータメモリを含む、電子デバイス。