JP2022532039A

JP2022532039A - 畳み込みニューラルネットワークベースのランドマークトラッカ

Info

Publication number: JP2022532039A
Application number: JP2021563376A
Authority: JP
Inventors: リ・ティアン・シン; ユー・チ; ケゼル・イリーナ; フォン・エドモンド; アーラビ・パラム
Original assignee: LOreal SA
Current assignee: LOreal SA
Priority date: 2019-04-23
Filing date: 2020-04-22
Publication date: 2022-07-13
Anticipated expiration: 2040-04-22
Also published as: KR20220064346A; US11227145B2; US20200342209A1; EP3942462A1; EP3942462C0; WO2020216804A1; JP7417631B2; EP3942462B1; CN113906435A; US20220075988A1

Abstract

畳み込みニューラルネットワーク（ＣＮＮ）を用いて顔のランドマークを検出するシステムおよび方法が提供される。ＣＮＮは第１段階と第２段階とを含み、第１段階は、ランドマークの初期ヒートマップと、ランドマークの初期位置と、を生成する。第２段階はヒートマップを処理し、クロップされた特徴を生成するために特徴アラインメントを保存しながら、関心領域ベースのプーリングを実行する。最後に、第２段階はクロップされた特徴から、それぞれの初期位置にオフセットされたそれぞれのリファインメント位置を予測する。それぞれの初期位置と、それぞれのリファインメント位置オフセットと、を組み合わせることにより、画像内のそれぞれのランドマークに対するそれぞれの最終座標（ｘ，ｙ）が得られる。このように、２段階位置決め設計を採用することで、演算効率を高めつつ、きめ細かなアライメントを実現する。このようにして得られたアーキテクチャは、サイズも推論時間も十分に小さく、製品シミュレーションや仮想現実などのリアルタイムウェブアプリケーションに適している。【選択図】図１

Description

本発明はコンピュータ及びコンピュータ処理、特に、画像処理およびニューラルネットワークの改良に関し、より詳細には、畳み込みニューラルネットワークベースのランドマークトラッカシステム及び方法に関する。

顔ランドマーク検出、画像内の人間の顔上の予め定義されたランドマークを見つける処理は、多くの画像処理／コンピュータビジョンアプリケーションにおいて一般的な要望である。実用的なアプリケーションを提供する関心のある画像処理アプリケーションは、とりわけ、顔認識、アニメーション、および拡張現実使用を含むことができる。拡張現実画像処理の一例は、個人に適用されるメイクアップまたは他の製品などの仮想試行アプリケーションである。仮想メイクアップ試行アプリケーションは、異なる照明、ポーズ、および顔の形状の変化の下で、正しい位置にメイクアップをレンダリングするように課せられる。特に、仮想試行アプリケーションで一般的に見られる正面顔ポーズのための正確なアライメントは、正確で心地よい体験を提供するために望ましい。さらに、クライアント側のウェブアプリケーションではロード時間が極めて重要であり、より大きなニューラルネットワークアーキテクチャの高速な実行に必要なＧＰＵはそれほど効率的に利用することができない。

これらのリソース制約はリアルタイムアプリケーションのためのより良好なバランスをとるために、最新の顔アラインメントアーキテクチャ［１］［２］［３］（それぞれ参照により本明細書に組み込まれる、以下の参考文献リストを参照されたい）にとって大きな関心事ではないが、理想的なアーキテクチャはアラインメント精度を維持または改善しながら、ロード時間および推論時間を最小限に抑えることが望ましい。

提案されたアーキテクチャでは、第１段階が初期予測を行い、そこから共有された畳み込み特徴のクロップが取られ、次に、これらの関心領域が第２段階によって処理されて、洗練された予測が生成される。この２段階位置決め設計は、残りの演算効率が良い一方で、きめ細かなアライメントを達成するのに役立つ。結果として得られるアーキテクチャは、リアルタイムウェブアプリケーションに適したロード時間および実行時間の両方が十分に小さい。

一態様では、処理ユニットと、それに結合された記憶デバイスと、処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスが提供される。コンピューティングデバイスは、第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて画像を処理することを備える。第１段階は、それぞれの位置の初期予測を生成するように画像を処理し、第２段階は、第１段階によって画像から生成された中間的特徴と初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらにクロップされた特徴を処理して、それぞれの位置の初期予測に対して、それぞれのリファインメント位置オフセットを生成する。

一態様では、処理ユニットと、それに結合された記憶デバイスと、処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスが提供される。コンピューティングデバイスは、第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて画像を処理することを備える。第１段階は、画像を受け取り、第１段階の第１部において、画像からの中間的特徴のボリュームを決定し、第１段階の第２部において、中間的特徴のボリュームを用いて画像内のランドマークの各々についてのそれぞれの初期位置を決定する。第２段階は、第２段階の第１部において、中間的特徴のボリュームを受信し、第２段階の第２部において、複数のランドマークの各々についてのそれぞれの初期位置を受信する。第２段階はさらに、中間的特徴をさらに洗練するようにボリュームの処理をすることと、複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして中間的特徴に対して実行することと、クロップされた特徴を用いて、各ランドマークについて、各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備える。処理は、複数のランドマークの各々の画像内の最終位置座標を決定するために、それぞれの初期位置の各々とそれぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する。

一態様では、コンピューティングデバイスは、処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように画像を処理する畳み込みニューラルネットワーク（ＣＮＮ）を介して構成される。ＣＮＮは、第１段階において、それぞれの位置の初期座標を決定するように第１のヒートマップを採用し、第２段階において、初期座標のリファインメントオフセットを決定するように第２のヒートマップを採用する。第２段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする２段階位置決めアーキテクチャを備える。ここで、ＣＮＮはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされる。

方法、コンピュータプログラム製品、および他の態様は、当業者には明らかであろう。本明細書で使用されるコンピュータプログラム製品は、処理ユニットによって実行されるとき、コンピューティングデバイスを構成する命令を記憶する非一時的記憶デバイスを含む。

２段階ＣＮＮを示すネットワーク図である。特徴マップ／ボリュームの反転残差ブロック図である。図１のネットワークの第２段階の特徴マップ／ボリュームの予測ブロック図である。オペレーションのフローチャートである。オペレーションのフローチャートである。

本発明の概念は、添付の図面を参照し、本明細書で説明される特定の実施形態を通して最もよく説明され、ここで、同一の符号は全体を通して同一の特徴を指す。本明細書で使用される場合、「発明」という単語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することが意図されることを理解されたい。さらに、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明は、そのような観点から読まれるべきであることが理解されるべきである。２つ以上の発明概念が示され、説明されてもよく、それぞれは、別段の記載がない限り、独立のものであってもよく、又は１つ以上の他のものと組み合わされてもよい。

１．＜コンテキスト＞
１．１＜顔ランドマークアライメント＞
顔ランドマークアライメントの問題は、古典的なコンピュータビジョンソリューションを用いた長い歴史を有する。例えば、高速アンサンブルツリーベース［４］アルゴリズムは妥当な精度を達成し、リアルタイム顔トラッキング［５］のために広く使用される。しかし、このような精度を達成するために必要なモデルサイズは非常に大きい。

顔ランドマークアライメントのための現在の最新の精度は、畳み込みニューラルネットワークに基づく方法によって達成される。非常に困難なデータセット［６］［７］［８］の精度を最大にするために、リアルタイムではなく、数十から数百メガバイト（ＭＢ）［３］［９］のモデルサイズを有し、ウェブアプリケーションのための不合理なロード時間を伴う大きなニューラルネットワークが使用される。

１．２＜効率的なＣＮＮアーキテクチャ＞
畳み込みニューラルネットワークの性能をモバイルビジョンアプリケーションにもたらすために、ＭｏｂｉｌｅＮｅｔＶ２［１０］、ＳｑｕｅｅｚｅＮｅｔ［１１］、及びＳｈｕｆｆｌｅＮｅｔ［１２］などの効率的なビルディングブロックを有する多数のアーキテクチャが最近リリースされた。これらのネットワークは、必要とされる学習可能パラメータの数（モデルサイズ）及び乗算加算からなる所与の演算バジェットの性能（例えば、分類精度）を最大化することを目的とする。

ＭｏｂｉｌｅＮｅｔＶ２に焦点が当てられ、その反転残差ブロックは、本設計の実装において用いられ得る。ＭｏｂｉｌｅＮｅｔＶ２が通常の畳み込みに対する深さ単位畳み込みを用いると、乗算加算および学習可能なパラメータの数が大幅に減少し、実行にわずかなコストがかかる［１３］。さらに、ネットワーク表現性能を容量から分離することができるという原理に基づく反転設計は、ネットワーク内のクロスチャネル演算の数の大幅な削減を可能にする［１０］。最後に、ＲｅｓＮｅｔ［１４］から得られた残差設計は、より深いネットワークにおけるグラジェントプロパゲーションの問題を緩和する。

１．３＜ヒートマップ＞
ヒートマップ回帰［１５］［１６］［１７］［１８］に基づく完全畳み込みニューラルネットワークアーキテクチャは、人間の姿勢推定タスクに広く用いられている。ヒートマップの使用は、回路網の認識およびランドマーク回帰の信頼性に、視覚の直感的な手段と共に、高度の精度を提供する。この技術は、スタックドアワーグラスアーキテクチャ［３］のような最近の顔アライメントアルゴリズムにも用いられている。しかしながら、スタックドアワーグラスアプローチ［３］は、デコーデイングレイヤにおいて大量の演算を必要とする高分解能ヒートマップを使用する。ヒートマップは、画像全体の非常に集中して小さな部分にしか無視できない値がないため、ここでは最適化の余地がある。この観察はネットワークがその処理を関連領域（すなわち、関心のあるおおよその領域）に集中させることを可能にする領域処理を使用することを我々に動機付ける。

１．４＜Ｍａｓｋ－ＲＣＮＮ＞
ＦａｓｔＲ－ＣＮＮ［１９］、ＦａｓｔｅｒＲ－ＣＮＮ［２０］および完全構成ネットワーク［２１］のような、オブジェクト検出および意味的セグメンテーションに対して柔軟かつロバストな一連のフレームワークがある。ＦａｓｔｅｒＲ－ＣＮＮは、バウンディングボックス回帰および分類を並列に実行するためにマルチブランチ設計を使用する。Ｍａｓｋ－ＲＣＮＮ［２２］はＦａｓｔｅｒ－ＲＣＮＮの拡張であり、各関心領域に基づいてセグメンテーションマスクを予測するための新しい分岐を追加する。特に興味深いのはＭａｓｋ－ＲＣＮＮのＲｏＩＡｌｉｇｎ［２２］（ここで、ＲｏＩは単語「関心領域」からのイニシャル）の使用であり、これは共有された畳み込み特徴から生成物を採取することによって、演算時間の有意な節約を可能にする。これを行うことによって、重複する関心領域に対する特徴を再演算することを回避する。

１．５＜検証＞
出力された顔の形状を有効に保つために、最終的な予測を返す前に検証ステップを実行してもよい。例えば、顔がない場合、顔の一部がある場合、顔が回転しすぎている場合などに、変な形状が返されるのを防ぐためである。顔の形状の標準参照を有するために、原理成分分析を使用して、トレーニングデータセットから最初の１００の原理クラスタを得ることができる。変換された予測形状とクラスタ中心の１つとの間の最小距離を決定することができる。この最小距離は、予測された形状が有効であるかどうかを検証するためのスコアとして使用される。

２．＜コンピューティングデバイス、システム、方法及びその他の側面＞
以下は、本明細書に記載される特徴のいくつかである。

ＲｏＩＡｌｉｇｎ［２２］は潜在的に重複する演算を節約し、ネットワークが非関連領域を回避することを可能にし、ネットワークに良好な共有される特徴を生成することを学習させるために、個々のランドマークごとに使用される。一例では、段階１からの８×８のヒートマップが（顔の）ランドマークの各々の座標を示す。これらのランドマークは、マスク平均法を使用することによって座標（ｘ，ｙ）を形成するように演算することができる。ＲｏＩＡｌｉｇｎは、第１段階の予測座標を用いて、均一なサイズ４×４を有する中間的特徴マップをクロップする。例えば、正規化された座標において（０．５，０．５）に位置すると予測される第１のランドマークがあると仮定する。その後、３２×３２の特徴マップがクロップされる。クロップされた枠は［（１４．０，１４．０），（１８．０，１８．０）］［ｔｏｐ＿ｌｅｆｔ＿ｃｏｒｎｅｒ，ｂｏｔｔｏｍ＿ｒｉｇｈｔ＿ｃｏｒｎｅｒ］になる。

補助座標回帰損失と共に提案した２段階位置決めアーキテクチャは、極端に小さく、演算的に安価なヒートマップを両段階で扱うことを可能にした。ヒートマップ損失と座標距離損失の２つの損失を組み合わせることができる。

２．１＜モデル構造＞
ＣＮＮモデルは図１に示すように、２段階を持ち、エンドトゥーエンドでトレーニングされる。図１は次元１２８×１２８×３（高さ、幅、および色）の入力レイヤ１０２（例えば、顔のランドマークの例のための顔を有する画像）から始まる出力ボリューム（特徴マップ）を有するレイヤおよび／またはブロックのフローを含むＣＮＮ１００を示す。２２４×２２４×３のような他の次元を使用してもよい。次元は調整可能であってもよい。異なる目的のために、異なる次元（解像度）を使用することができる。

フローは、第１段階１０４と第２段階１０６の２つの段階を含む。第１段階および第２段階のフローは、それぞれが第１部および第２部を有し、第１段階のレイヤ／ブロックおよび第２段階のレイヤ／ブロックを備えるレイヤおよび／またはブロックのそれぞれのグループに従って定義される。これらのレイヤ／ブロックのグループ（例えば、１０８，１１０，１１４，１１６）は当業者によって理解されるように、特徴マップ／ボリューム間の矢印によって表される。第１段階１０４は第１部にグループ１０８を、第２部にグループ１１０を含み、第２段階１０６は第１部にグループ１１４を、第２部にグループ１１６を含む。グループ１０８及び１１０はまた、第１段階の第１のグループ１０８及び第２のグループ１１０として参照されてもよい。グループ１１４及び１１６はまた、第２段階の第１グループ１１４及び第２グループ１１６として参照されてもよい。第１段階１０４はレイヤ１１２をさらに含み、第２段階１０６はレイヤ１１８をさらに含む。これらのレイヤ１１２および１２０はレイヤ１２０において組み合わされて、さらに説明されるように、ＣＮＮ１００の出力を提供する。

図１の網掛けの凡例は、ＣＮＮ１００のレイヤおよび／又はブロックのそれぞれについての処理オペレーションタイプを示す。さらに詳細には、グループ１０８が次元６４×６４×８の畳み込みレイヤ１０８Ａと、それぞれ次元６４×６４×８及び３２×３２×８の反転残差ブロック１０８Ｂ及び１０８Ｃとを含む。それぞれのブロック又はレイヤの次元は、出力特徴マップのサイズを参照することが理解される。［１０］による拡張反転残差ブロックの一般形を図２に示す。グループ１１０は、それぞれの次元１６×１６×１６，８×８×３２，８×８×３２及び８×８×＃Ｌの反転残差ブロック１１０Ａ－１１０Ｄを含み、ここで、＃Ｌ＝複数のランドマークの数または数量である。トレーニングされ、試験されるとき、＃Ｌ＝１６である。他のランドマーク数（サイズ）（例えば、＃Ｌ）（例えば、６５、８６等）が実施されてもよい。＃Ｌの値は調整可能であってもよい。グループ１１０に続くのはレイヤ１１２であり、次元＃Ｌ×２のゲットマスク平均レイヤである。

グループ１０８の出力（例えば、１１８Ｃに続く）は、第１段階１０４の中間的特徴マップ（または中間的特徴のボリュームとして参照されることもある）であり、グループ１１４において第２段階１０６と共有される（例えば、入力）。グループ１１４は、それぞれの次元３２×３２×８，３２×３２×１６及び３２×３２×１６の反転残差ブロック１１４Ａ－１１４Ｃを含む。

グループ１１４の出力（例えば、ブロック１１４Ａ－１１４Ｃの処理によってさらに洗練された中間的特徴マップ）は、ランドマークの初期位置を表すレイヤ１１２の出力と共に、グループ１１６によって処理される。グループ１１６は、４×４×１６の次元を有する＃Ｌブロックの各々が連結されるとき、４×４×１６＃Ｌ出力特徴マップを与える＃Ｌランドマークの各々に対して、＃ＬＲｏＩＣｒｏｐ＋連結ブロック（ブロック１１６_１，１１６_２，・・・１１６_＃Ｌによって表される）を含む。連結された特徴マップは、次元４×４×＃Ｌを有する予測ブロック１１７又はグループ１１６に提供される。予測ブロック１１７は、図３において拡張されている。

次に、予測ブロック１１７の出力は、次元＃Ｌ×２の第２のゲットマスク平均レイヤであるレイヤ１１８に供給される。２つのレイヤ１１２及び１１８のそれぞれの出力は、＃Ｌランドマークの初期位置およびそれに対するリファインメントオフセットを表す。これらは、組み合わされたときに、それぞれの＃Ｌランドマークの各々について、入力レイヤ１０２に関して（ｘ，ｙ）座標が生成されるように、次元＃Ｌ×２も有する出力レイヤ１２０に提供される。

したがって、第１段階１０４は、１１０Ｄまでに各顔ランドマークに１つずつ８×８のヒートマップを予測する一連の反転残差ブロックを示す。ヒートマップ上の正規化されたアクティブ化を確率分布として解釈し、これらのヒートマップの期待値を演算して、ｘ，ｙ座標を求める。これについては、以下でより詳細に説明する。

第２段階は、第１段階の一部から分岐するいくつかの共有レイヤ／ブロックを有する。前段階からの初期予測（ブロック１１４Ｃに続くグループ１１４によってさらに洗練されたブロック１０８Ｃに続くグループ１０８からの中間的特徴マップ）を用いて、ＲｏＩＡｌｉｇｎ［２２］が最終的な共有された畳み込み特徴に適用される。クロップされた特徴の各々は、（予測ブロック１１７の）１つの最終畳み込みレイヤに入力され、個々のランドマークごとに個別の重みを有する。予測ブロック１１７は、グループ畳み込み［１２］を利用して、これを簡単な方法で実施する。１１７における出力は、各ランドマークに対するヒートマップである。これらのヒートマップから得られた座標は、初期の「粗い」予測からの必要なオフセットを示している。すなわち、この段階でのヒートマップが完全に中央によせられていれば、実質的にリファイメントは必要ない。

グループ１１６によるこの関心領域ベースのプーリングは、１１２におけるマスク平均レイヤを１１０Ｄからの粗いヒートマップに適用することから導出される各ランドマークの座標［ｘ＿ｃ，ｙ＿ｃ］を有するクロップ中心として（レイヤ１１２からの）第１段階の予測を用いる。グループ１１６（予測ブロック１１７を介して）は、これらのクロップされた特徴（例えば、ブロック１１６_１，１１６_２，・・・１１６_＃Ｌからの連結された出力）を使用して、リファイメントオフセットを予測する（最初にヒートマップを予測し、次にリファイメントシフト距離［ｘ＿ｒ，ｙ＿ｒ］を得るようにマスク平均レイヤを用いる）。最終予測（出力レイヤ）は、第１段階からの粗い予測と第２段階からのリファイメント予測を加算する。

２．２＜ヒートマップからの座標回帰＞
グランドトゥルースヒートマップに対しては、グランドトゥルースの座標の位置に対応するモードを持つＧａｕｓｓ分布を用いた。ｘ、ｙを特徴マップ内の任意のピクセルの座標で表すと、値は、以下の分布を使用して計算することができる。

ここで、（ｘ_ｉ,ｙ_ｉ）は対応するランドマーク座標である。実験では、σ_ｘ，σ_ｙは、両方を０．８に構成する（例えば）。

ゲットマスク平均レイヤ（例えば、１１２と１２０の各々）に従って、回帰されたｘ_ｐｒｅｄ，ｙ_ｐｒｅｄは、その時、ＣＮＮによって予測されたヒートマップ（例えば、「予測ヒートマップ」）から計算された分布に従った、ピクセル位置の期待値である。予測ヒートマップのすべてのピクセルにわたってｊインデックスを作成し、ｗ_ｊは、そのピクセルのヒートマップ値を示す。

２．３＜損失関数＞
損失関数は、ピクセルワイズシグモイドクロスエントロピー［２３］を用いてヒートマップを学習する。

さらに、境界付近のランドマークについてヒートマップがカットオフされる問題を軽減するために、距離損失Ｌ_２が追加される。

ここで、

は、ｎ^ｔｈサンプルのピクセル位置（ｉ，ｊ）における第ｌ（エル）チャネルのヒートマップの予測値であり、一方、

は、対応するグランドトゥルースである。

は、数式４から計算されるピクセル位置（ｉ，ｊ）における重みであり、

は、ｎ^ｔｈ’サンプルのｌ（エル）^ｔｈランドマークのグラウンドトゥルースの座標であり、

は、同じランドマークの予測座標である。ここで、Ｌはランドマークの数であり、ＨおよびＷはヒートマップの高さ及び幅（例えば、８×８）である。補助座標回帰損失は、（数式３）の２行目の平均二乗誤差損失である。組み合わされたピクセルワイズシグモイドクロスエントロピー損失およびＬ２損失を含む損失関数はそれぞれがトレーニング中にそれ自体の損失決定を有するように、それぞれの段階に適用される。上述したように、２つの段階の使用はより小さなヒートマップを容易にし、したがって、演算リソース消費を容易にする。

２．４＜ブロック＞
２．４．１＜反転残留ブロック＞
図２を参照すると、実質的に参考文献［１０］に従った反転残差ブロック２００の一般的な展開が示されている。図２は、参考文献［１０］がＲｅＬＵ６を用い、本例がＲｅＬＵを用いる点で異なる。そのような一般的なアプローチはＣＮＮ１００の反転残差ブロックに適用され得るが、いくつかの次元は異なり得る。

実験的に、性能および効率の５つの最も適した競合するニーズの拡大比が見出された。

反転残差ブロック２００の処理は、ａからｃの順番に実行される。ａ１×１カーネルによるチャネル単位の畳み込み、それに続いて、次元Ｈ×Ｗ×Ｃを有する入力レイヤ２０２のＢａｔｃｈＮｏｒｍ及びＲｅＬＵアクティブ化。ここで、Ｃは色自体ではなくチャネルを表す。出力は、次元Ｈ×Ｗ×Ｃ＊５の特徴マップ２０４である。ｂ３×３カーネルを有する深さ単位の畳み込み、それに続いて、次元Ｈ×Ｗ×Ｃ＊５を有する出力（特徴マップ）２０６を提供する特徴マップ２０４のＢａｔｃｈＮｏｒｍおよびＲｅＬＵアクティブ化。ｃ１×１カーネルによるチャネル単位の畳み込み、それに続いて、次元Ｈ×Ｗ×Ｃを有する出力を提供するレイヤ２０２による加算演算を行う特徴マップ２０６上のＢａｔｃｈＮｏｒｍ。

２．４．２＜予測ブロック＞
全てのＲｏＩＡｌｉｇｎクロップされた特徴を連結した後、チャネルの数は入力チャネルの数（例えば、１６）にランドマークの数（＃Ｌ）を乗算したものに等しい。各ランドマークのリファイメントヒートマップは独立して予測されるので、そのようなものは、図３が示すように、１６チャネル単位の畳み込み［１２］を使用して実施されてもよい。図３は、次元４×４×１６＊＃Ｌを有するクロップされ連結された特徴（入力特徴マップ１１７Ａ）の入力に作用するブロック１１７の拡張を示す。

予測ブロック１１７は、ａからｂの順番に実行する。ａ３×３カーネルによるグループ単位の畳み込み、それに続いて、次元４×４×１６＊＃Ｌを有する特徴マップ１１７Ｂを出力する入力特徴マップ１１７Ａ上でＢａｔｃｈＮｏｒｍおよびＲｅＬＵアクティブ化。ｂ１×１カーネルによるチャネル単位の畳み込み、それに続いて、次元４×４×＃Ｌ（＃Ｌランドマークの各々に対して４×４ヒートマップを定義する）のを有する特徴マップ１１７Ｃを出力するＢａｔｃｈＮｏｒｍ。

２．５＜データ拡張＞
いくつかの一般的な方法が、データ拡張を実行するために用いられる。例えば、入力画像のランダムな回転、シフト、水平方向のフリップなどが使用される。眼鏡や手のような一般的な妨害ケースを取り扱うためのモデルをより良く装備するために、これらの物体はまた、その中の顔の周りの写真にランダムに貼り付けられる。

３．＜結果と比較＞
新しいモデルではバッチサイズ８を使用し、ＳＧＤオプティマイザーではラーニングレート８ｅ^‐５、モーメンタム＝０．９を使用した。新モデルを自社テストセット上で評価し、眼球中心間距離で正規化した距離誤差を計算した。第１段階の正規化誤差は３．３５％であり、全モデルの誤差は２．８９％である。ｉＰｈｏｎｅ（登録商標）７を搭載したウェブブラウザでの新モデルの実行時間は約４０ｍｓ／フレームで、学習可能なパラメータは合計約３００ＫＢになる。

表１及び表２は、より大きな社内モデルＲＦトラッカーとＭｏｂｉｌｅｎｅｔ＿ｖ２＿０．３５＿１２８との比較を含む新モデルの比較データを示している。

表１：自社製ＲＦトラッカーと新モデルとの比較データ

表２：ＭｏｂｉｌｅｎｅｔＶ２［１０］と新モデルとの比較データ

図４及び図５は、コンピュータによって実施される方法の態様を示すオペレーションのフローチャートである。図４は、コンピュータ実装方法のオペレーション４００を示す。４０２において、画像が処理のために受信される。画像は、セルフィー画像またはビデオベースのセルフィー画像とすることができる。画像は、本方法を実行するコンピューティングデバイス又はシステムの構成要素であるカメラから受信することができる。そのようなものは、モバイルデバイス、製品カウンターのキオスク（端末）、タブレットなどであってもよい。他のフォームファクタ、コンピューティングデバイス及びシステムは明らかであろう。ローカルコンピューティングデバイスがローカルカメラを介して画像を受信し、サービスとして実行するように構成されたリモートコンピューティングデバイスに画像を提供することができる、クラウド又は他のサービスベースのシステムを企図することができる。サービスは、ローカルコンピューティングデバイスのネイティブアプリケーション又はブラウザを介して提供されてもよい。

画像は、特定の次元に拡大縮小することなどによって前処理することができる（ステップ４０４）。４０６において、オペレーションは、第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いることによって、複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理する。第１段階は、それぞれの位置の初期予測を生成するように画像を処理する。第２段階は、第１段階によって画像から生成された中間的特徴と初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらにクロップされた特徴を処理して、それぞれの位置の初期予測に対して、それぞれのリファインメント位置オフセットを生成する。

ＣＮＮは、それぞれの位置の初期予測とそれぞれのリファインメント位置オフセットとを組み合わせて、複数のランドマークの各々についてそれぞれの位置を提供することができる。ランドマークのそれぞれの位置は、初期予測をそれぞれのリファイメント位置オフセットと組み合わせることによって決定される最終位置を含んでもよく、または初期予測およびそれぞれのリファイメント位置オフセットを含む位置情報のセットを含んでもよい。位置情報は、その任意の形式で、ランドマーク位置の少なくとも１つで画像を修正するなどの使用のために提供されてもよい（ステップ４０８）。

ＣＮＮの第１段階は、中間的特徴を生成し、且つ、用いて、初期予測を生成するように初期ヒートマップを生成することができる。

第２段階は、ランドマークごとに、クロップされた特徴から第２のヒートマップを生成し、第２のヒートマップを用いて、それぞれのリファインメント位置オフセットを生成することができる。

図５は、コンピュータ実装方法のオペレーション５００を示すフローチャートである。オペレーションは（例えば、図４に関連して、または他の方法で）本明細書で説明されるようなコンピューティングデバイス又はシステムによって実行され得る。ステップ５０２及び５０４は、ステップ４０２及び４０４と同様である。ステップ５１０は、画像が修正されるステップ４０８と同様である。

ステップ５０６は、第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを示す。第１段階は、画像を受け取り、第１段階の第１部において、画像からの中間的特徴のボリュームを決定し、第１段階の第２部において、中間的特徴のボリュームを用いて画像内のランドマークの各々についてのそれぞれの初期位置を決定する。第２段階は、第２段階の第１部において、中間的特徴のボリュームを受信し、第２段階の第２部において、複数のランドマークの各々についてのそれぞれの初期位置を受信する。

第２段階はさらに、中間的特徴をさらに洗練するようにボリュームの処理をし、複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして中間的特徴に対して実行し、クロップされた特徴を用いて、各ランドマークに対して、各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定するように動作する。

オペレーション５００はさらに、（例えば、５０８において）、複数のランドマークの各々の画像内の最終位置座標を決定するために、それぞれの初期位置の各々とそれぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作してもよい。

オペレーション５００において、第１段階の第２部が中間的特徴のボリュームを使用して初期ヒートマップを決定し、初期ヒートマップを用いてランドマークの各々についてのそれぞれの初期位置の各々を予測してもよい。

図４又は図５のオペレーションでは、第１段階の少なくともいくつかは一連の反転残差ブロックを含み、第２段階の少なくともいくつかは一連の反転残差ブロックを含み得る。第２段階は、クロップされた特徴を生成するように特徴アラインメントを保存しながら、関心領域のプーリングのためのＲｏＩＡｌｉｇｎを用い、クロップされた特徴を連結することができる。

図４又は図５のオペレーションでは、第２段階は、クロップされた特徴を処理する予測ブロックを含むことができ、予測ブロックは、３×３カーネルによるチャネル単位の畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍ及びＲｅＬＵアクティベーションと、１×１カーネルによるグループごとのチャネルの畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍと、を順番に実行し、それぞれのリファインメント位置オフセットの各々を出力する。

図４又は図５のオペレーションでは、ＣＮＮモデルは、ガウス分布に従って定義された複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングすることができる。ガウス分布は、上述したように定義することができる。

オペレーション４００又は５００におけるＣＮＮは、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされてもよい。損失関数は、距離損失Ｌ_２をさらに含むことができる。損失関数は、上述したようなものであってもよい。

オペレーション４００又は５００において、画像を修正することは、画像に適用される製品をシミュレートすることを含み得る。画像は、ビデオ画像であってもよく、本方法は仮想現実をシミュレートするためにリアルタイムで修正された画像を提示してもよい。

オペレーション４００又は５００において、ランドマークは顔のランドマークであってもよく、画像は顔を含んでもよい。それぞれのオペレーションは、ランドマークのそれぞれの位置を用いて、少なくとも１つの製品シミュレーションで画像を更新することを含み得る。

コンピューティングデバイス（又はシステム）の態様および方法の態様に加えて、本明細書で開示される方法の態様のいずれかを実行するようにコンピューティングデバイスを構成するために、命令が非一時的記憶デバイス（たとえば、メモリ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ディスクなど）に格納される、コンピュータプログラム製品の態様が開示されることを、当業者は理解するのであろう。

ＣＮＮは、画像のさらなる処理のためにそれぞれのランドマーク位置を提供することができることが理解されるのであろう。例えば、コンピューティングデバイスは、命令を介して画像を受信し、ＣＮＮを用いて画像上でランドマーク検出を実行するように構成され得る。

命令は、ランドマークのうちの少なくとも１つについての最終座標を用いて、ランドマークのうちの少なくとも１つ又はその周辺の画像を修正するようにコンピューティングデバイスを構成することができる。画像は例えば、境界ボックス又は領域を示す、マスクを示すなど、ランドマークの少なくとも１つにおいて、又はランドマークの周辺で、注釈付けされてもよい（修正の例）。画像を修正することは、画像に適用される製品をシミュレートすることを含み得る。製品は、画像が顔であり、ランドマークが顔のランドマークである場合のように、メイクアップ製品であってもよい。画像は、ビデオ画像であってもよく、コンピューティングデバイスは、仮想現実をシミュレートするために画像をリアルタイムで修正し提示するように命令を介して構成されてもよい。コンピューティングデバイスは、カメラをさらに含んでもよく、ビデオは、カメラによって撮影されたセルフィービデオであってもよい。

実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、並びに様々な組み合わせは、方法、装置、システム、機能を実行するための手段、プログラム製品、及び、他の方法で、本明細書で説明される特徴を組み合わせて表され得る。多数の実施形態が記載されているが、本明細書で説明されるプロセス及び技術的思想および範囲から逸脱することなく、様々な修正を行うことができることが理解されるだろう。加えて、他のステップが提供されても良く、又は記載された方法からステップが排除されても良く、他の構成要素が記載されたシステムに対し、追加または除去されても良い。従って、他の態様は特許請求の範囲内にある。

上記の発明の実施形態が、少なくとも部分的に、汎用処理装置などのソフトウェア制御のプログラマブル処理装置を用いて実施可能である限りにおいて、この発明の実施形態は以下のとおりである。処理装置や特殊用途処理装置、デジタル信号処理装置、マイクロ処理装置、またはその他の処理装置、データ処理装置またはコンピュータシステムであることが理解される。前述した方法、装置およびシステムを実施するためにプログラマブルデバイス、装置またはシステムを構成するためのコンピュータプログラムは、本発明の一側面として想定されている。コンピュータプログラムは、ソースコード、オブジェクトコード、コンパイルコード、インタプリタコード、実行可能コード、静的コード、動的コードなど、任意の適切なタイプのコードとして具現化され得る。命令は、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、ＢＡＳＩＣ、Ｐｅｒｌ、Ｍａｔｌａｂ（商標登録）、Ｐａｓｃａｌ、ＶｉｓｕａｌＢＡＳＩＣ（登録商標）、ＪＡＶＡ（登録商標）、ＡｃｔｉｖｅＸ（登録商標）、アセンブリ言語、マシンコードなどの任意の適切な高レベル、低レベル、オブジェクト指向、視覚、コンパイル及び／又は解釈プログラミング言語を使って実施されてもよい。当業者であれば、最も一般的な意味での「コンピュータ」という単語は、上記で言及したようなプログラマブルデバイス、およびデータ処理装置およびコンピュータシステム、例えば、デスクトップパソコン、ラップトップパソコン、タブレット、スマートフォン又は他のコンピューティングデバイスなど、それらが生じ得るあらゆる形式を包含することを容易に理解することができるであろう。

好適には、コンピュータプログラムは、機械可読形式でキャリア媒体に格納され、例えば、キャリア媒体は、メモリ、取り外し可能または非取り出し可能媒体、消去可能または非消去可能媒体、書き込み可能または再書き込み可能媒体、デジタル又はアナログ媒体、ハードディスク、フロッピーディスクで構成されてもよい。コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、コンパクトディスクレコーダブル（ＣＤ－Ｒ）、コンパクトディスクリライタブル（ＣＤ－ＲＷ）、光ディスク、磁気媒体、光磁気媒体、取り外し可能なメモリカードやディスク、様々な種類のデジタルバーサタイルディスク（ＤＶＤ）加入者識別モジュール、テープ、カセット固体メモリなどである。コンピュータプログラムは、電子信号、無線周波数搬送波または光搬送波などの通信媒体に具現化されたリモートソースから供給されてもよい。このような搬送媒体も、本発明の態様として想定される。

本明細書の記載および特許請求の範囲を通して、単語「含む」及び「備える」及びそれらの変形表現は「含むがこれに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない（排除しない）。本明細書全体を通して、文脈が別途必要としない限り、単数は複数を包含する。特に、不定冠詞が使用されている場合、文脈上ほかに必要としない限り、単数だけでなく複数も意図していると理解されたい。

本発明の特定の態様、実施形態または例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと非互換でない限り、任意の他の態様、実施形態または例に適用可能であると理解されるべきである。本明細書に開示された特徴（添付の特許請求の範囲、要約書、及び、図面を含む）の全て、或いはそのように開示された任意の方法または処理のステップの全ては、そのような特徴或いはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書（添付の特許請求の範囲、要約書、及び、図面を含む）に開示された特徴の任意の新規なもの、又は任意の新規な組み合わせ、又は開示された任意の手法または処理のステップの任意の新規なもの、又は任意の新規な組み合わせに拡張される。

本明細書で使用される場合、単語「含む」、「含んでいる」、「備え」、「有し」、「有している」またはその他の変形は、非排他的な包含をカバーすることを意図している。例えば、要素のリストから構成されるプロセス、方法、物品、または装置は、必ずしもそれらの要素のみに限定されず、明示的にリストされていない他の要素または当該プロセス、方法、物品、または装置に固有の要素を含んでもよい。さらに、明示的に反対を表明しない限り、「または」は包括的な「または」を指し、排他的な「または」を指さない。

さらに、「１つ」という語の使用は、本発明の要素および構成要素を説明するために採用される。これは単に便宜上、本発明の一般的な感覚を与えるために行われるものである。本明細書は、そうでないことを意味することが明らかでない限り、１つまたは少なくとも１つを含むように読まれるべきであり、単数形は複数形も含む。

前述の説明を考慮すると、当業者には、以下のことが明らかであろう。本発明の範囲内で様々な変更を加えることができる。

本開示の範囲は、請求された発明と関連するかどうか、または本発明によって対処される問題のいずれかまたはすべてに対して緩和するかどうかにかかわらず、それと矛盾しない限り、明示的または暗黙的にそこに開示された任意の新規な特徴または特徴の組み合わせ、あるいはその一般化を含む。本出願人は、本出願またはそこから派生するさらなる出願の審理中に、かかる特徴に対して新たな請求項を策定することができることをここに通知する。特に、添付の請求項を参照すると、従属請求項の特徴は、独立請求項の特徴と組み合わせてもよく、それぞれの独立請求項の特徴は、請求項に列挙された特定の組み合わせだけでなく、任意の適切な方法で組み合わせてもよい。
＜参考文献（Ｒｅｆｅｒｅｎｃｅｓ）＞
以下の参考文献は、参照により本明細書に組み込まれている。
［１］Ｍ．Ｋｏｗａｌｓｋｉ，Ｊ．Ｎａｒｕｎｉｅｃ，ａｎｄＴ．Ｔｒｚｃｉｎｓｋｉ，“Ｄｅｅｐａｌｉｇｎｍｅｎｔｎｅｔｗｏｒｋ：Ａｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｒｏｂｕｓｔｆａｃｅａｌｉｇｎｍｅｎｔ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０６.０１７８９,２０１７.
［２］Ｙ．Ｓｕｎ，Ｘ．Ｗａｎｇ，ａｎｄＸ．Ｔａｎｇ，“Ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｃａｓｃａｄｅｆｏｒｆａｃｉａｌｐｏｉｎｔｄｅｔｅｃｔｉｏｎ，”ｉｎ２０１３ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．３４７６－３４８３，Ｊｕｎｅ２０１３．
［３］Ｋ．ＹｕｅｎａｎｄＭ．Ｍ．Ｔｒｉｖｅｄｉ，“Ａｎｏｃｃｌｕｄｅｄｓｔａｃｋｅｄｈｏｕｒｇｌａｓｓａｐｐｒｏａｃｈｔｏｆａｃｉａｌｌａｎｄｍａｒｋｌｏｃａｌｉｚａｔｉｏｎａｎｄｏｃｃｌｕｓｉｏｎｅｓｔｉｍａｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１８０２．０２１３７，２０１８.
［４］Ｖ．ＫａｚｅｍｉａｎｄＪ．Ｓｕｌｌｉｖａｎ，“Ｏｎｅｍｉｌｌｉｓｅｃｏｎｄｆａｃｅａｌｉｇｎｍｅｎｔｗｉｔｈａｎｅｎｓｅｍｂｌｅｏｆｒｅｇｒｅｓｓｉｏｎｔｒｅｅｓ，”２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ, ｐｐ．１８６７－１８７４，２０１４.
［５］Ｄ．Ｅ．Ｋｉｎｇ，“Ｄｌｉｂ－ｍｌ：Ａｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｏｏｌｋｉｔ，”ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，ｖｏｌ．１０，ｐｐ．１７５５－１７５８，２００９.
［６］Ｐ．Ｎ．Ｂｅｌｈｕｍｅｕｒ，Ｄ．Ｗ．Ｊａｃｏｂｓ，Ｄ．Ｊ．Ｋｒｉｅｇｍａｎ，ａｎｄＮ．Ｋｕｍａｒ，“Ｌｏｃａｌｉｚｉｎｇｐａｒｔｓｏｆｆａｃｅｓｕｓｉｎｇａｃｏｎｓｅｎｓｕｓｏｆｅｘｅｍｐｌａｒｓ，”ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｖｏｌ．３５，ｐｐ．２９３０－２９４０，Ｄｅｃ２０１３．
［７］Ｖ．Ｌｅ，Ｊ．Ｂｒａｎｄｔ，Ｚ．Ｌｉｎ，Ｌ．Ｂｏｕｒｄｅｖ，ａｎｄＴ．Ｓ．Ｈｕａｎｇ，“Ｉｎｔｅｒａｃｔｉｖｅｆａｃｉａｌｆｅａｔｕｒｅｌｏｃａｌｉｚａｔｉｏｎ，”ｉｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ－ＥＣＣＶ２０１２（Ａ．Ｆｉｔｚｇｉｂｂｏｎ，Ｓ．Ｌａｚｅｂｎｉｋ，Ｐ．Ｐｅｒｏｎａ，Ｙ．Ｓａｔｏ，ａｎｄＣ．Ｓｃｈｍｉｄ，ｅｄｓ．），（Ｂｅｒｌｉｎ，Ｈｅｉｄｅｌｂｅｒｇ），ｐｐ．６７９－６９２，ＳｐｒｉｎｇｅｒＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ，２０１２．
［８］Ｇ．Ｔｒｉｇｅｏｒｇｉｓ，Ｐ．Ｓｎａｐｅ，Ｍ．Ａ．Ｎｉｃｏｌａｏｕ，Ｅ．Ａｎｔｏｎａｋｏｓ，ａｎｄＳ．Ｚａｆｅｉｒｉｏｕ，“Ｍｎｅｍｏｎｉｃｄｅｓｃｅｎｔｍｅｔｈｏｄ：Ａｒｅｃｕｒｒｅｎｔｐｒｏｃｅｓｓａｐｐｌｉｅｄｆｏｒｅｎｄ－ｔｏ－ｅｎｄｆａｃｅａｌｉｇｎｍｅｎｔ，”２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ｐｐ．４１７７－４１８７，２０１６.
［９］Ａ．Ｎｅｗｅｌｌ，Ｋ．Ｙａｎｇ，ａｎｄＪ．Ｄｅｎｇ，“Ｓｔａｃｋｅｄｈｏｕｒｇｌａｓｓｎｅｔｗｏｒｋｓｆｏｒｈｕｍａｎｐｏｓｅｅｓｔｉｍａｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０３．０６９３７，２０１６．
［１０」Ｍ．Ｓａｎｄｌｅｒ，Ａ．Ｇ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ａ．Ｚｈｍｏｇｉｎｏｖ，ａｎｄＬ．Ｃｈｅｎ，“ＭｏｂｉｌｅＮｅｔＶ２：Ｉｎｖｅｒｔｅｄｒｅｓｉｄｕａｌｓａｎｄｌｉｎｅａｒｂｏｔｔｌｅｎｅｃｋｓ：Ｍｏｂｉｌｅｎｅｔｗｏｒｋｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｄｅｔｅｃｔｉｏｎａｎｄｓｅｇｍｅｎｔａｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１８０１．０４３８１，２０１８．
［１１］Ｆ．Ｎ．Ｉａｎｄｏｌａ，Ｍ．Ｗ．Ｍｏｓｋｅｗｉｃｚ，Ｋ．Ａｓｈｒａｆ，Ｓ．Ｈａｎ，Ｗ．Ｊ．Ｄａｌｌｙ，ａｎｄＫ．Ｋｅｕｔｚｅｒ，“Ｓｑｕｅｅｚｅｎｅｔ：Ａｌｅｘｎｅｔ－ｌｅｖｅｌａｃｃｕｒａｃｙｗｉｔｈ５０ｘｆｅｗｅｒｐａｒａｍｅｔｅｒｓａｎｄ＜１ｍｂｍｏｄｅｌｓｉｚｅ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０２．０７３６０，２０１６．
［１２］Ｘ．Ｚｈａｎｇ，Ｘ．Ｚｈｏｕ，Ｍ．Ｌｉｎ，ａｎｄＪ．Ｓｕｎ，“Ｓｈｕｆｆｌｅｎｅｔ：Ａｎｅｘｔｒｅｍｅｌｙｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｍｏｂｉｌｅｄｅｖｉｃｅｓ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０７．０１０８３，２０１７．
［１３］Ａ．Ｇ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ｂ．Ｃｈｅｎ，Ｄ．Ｋａｌｅｎｉｃｈｅｎｋｏ，Ｗ．Ｗａｎｇ，Ｔ．Ｗｅｙａｎｄ，Ｍ．Ａｎｄｒｅｅｔｔｏ，ａｎｄＨ．Ａｄａｍ，“Ｍｏｂｉｌｅｎｅｔｓ：Ｅｆｆｉｃｉｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｍｏｂｉｌｅｖｉｓｉｏｎａｐｐｌｉｃａｔｉｏｎｓ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０４．０４８６１，２０１７．
［１４］Ｋ．Ｈｅ，Ｘ．Ｚｈａｎｇ，Ｓ．Ｒｅｎ，ａｎｄＪ．Ｓｕｎ，“Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１５１２．０３３８５，２０１５．
［１５］Ａ．ＢｕｌａｔａｎｄＧ．Ｔｚｉｍｉｒｏｐｏｕｌｏｓ，“Ｈｕｍａｎｐｏｓｅｅｓｔｉｍａｔｉｏｎｖｉａｃｏｎｖｏｌｕｔｉｏｎａｌｐａｒｔｈｅａｔｍａｐｒｅｇｒｅｓｓｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０９．０１７４３，２０１６．
［１６］Ｓ.Ｗｅｉ，Ｖ．Ｒａｍａｋｒｉｓｈｎａ，Ｔ．Ｋａｎａｄｅ，ａｎｄＹ．Ｓｈｅｉｋｈ，“Ｃｏｎｖｏｌｕｔｉｏｎａｌｐｏｓｅｍａｃｈｉｎｅｓ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０２．００１３４，２０１６．
［１７］Ｙ．Ｃｈｅｎ，Ｃ．Ｓｈｅｎ，Ｘ．Ｗｅｉ，Ｌ．Ｌｉｕ，ａｎｄＪ．Ｙａｎｇ，“Ａｄｖｅｒｓａｒｉａｌｌｅａｒｎｉｎｇｏｆｓｔｒｕｃｔｕｒｅ－ａｗａｒｅｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｌａｎｄｍａｒｋｌｏｃａｌｉｚａｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７１１．００２５３，２０１７．
［１８］Ｅ．Ｉｎｓａｆｕｔｄｉｎｏｖ，Ｌ．Ｐｉｓｈｃｈｕｌｉｎ，Ｂ．Ａｎｄｒｅｓ，Ｍ．Ａｎｄｒｉｌｕｋａ，ａｎｄＢ．Ｓｃｈｉｅｌｅ，“Ｄｅｅｐｅｒｃｕｔ：Ａｄｅｅｐｅｒ，ｓｔｒｏｎｇｅｒ，ａｎｄｆａｓｔｅｒｍｕｌｔｉ－ｐｅｒｓｏｎｐｏｓｅｅｓｔｉｍａｔｉｏｎｍｏｄｅｌ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１６０５．０３１７０，２０１６．
［１９］Ｒ．Ｂ．Ｇｉｒｓｈｉｃｋ，“ＦａｓｔＲ－ＣＮＮ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１５０４．０８０８３，２０１５．
［２０］Ｓ．Ｒｅｎ，Ｋ．Ｈｅ，Ｒ．Ｂ．Ｇｉｒｓｈｉｃｋ，ａｎｄＪ．Ｓｕｎ，“ＦａｓｔｅｒＲ－ＣＮＮ：ｔｏｗａｒｄｓｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｗｉｔｈｒｅｇｉｏｎｐｒｏｐｏｓａｌｎｅｔｗｏｒｋｓ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１５０６．０１４９７，２０１５．
［２１］Ｊ．Ｌｏｎｇ，Ｅ．Ｓｈｅｌｈａｍｅｒ，ａｎｄＴ．Ｄａｒｒｅｌｌ，“Ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１４１１．４０３８，２０１４．
［２２］Ｋ．Ｈｅ，Ｇ．Ｇｋｉｏｘａｒｉ，Ｐ．Ｄｏｌｌａｒ，ａｎｄＲ．Ｂ．Ｇｉｒｓｈｉｃｋ，“ＭａｓｋＲ－ＣＮＮ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１７０３．０６８７０，２０１７．
［２３］Ｎ．Ｚｈａｎｇ，Ｅ．Ｓｈｅｌｈａｍｅｒ，Ｙ．Ｇａｏ，ａｎｄＴ．Ｄａｒｒｅｌｌ，“Ｆｉｎｅ－ｇｒａｉｎｅｄｐｏｓｅｐｒｅｄｉｃｔｉｏｎ，ｎｏｒｍａｌｉｚａｔｉｏｎ，ａｎｄｒｅｃｏｇｎｉｔｉｏｎ，”ＣｏＲＲ，ｖｏｌ．ａｂｓ／１５１１．０７０６３，２０１５．

Claims

処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて前記画像を処理することを備え、
前記第１段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
前記第２段階は、前記第１段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対して、それぞれのリファインメント位置オフセットを生成するコンピューティングデバイス。
前記第１段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測を生成するように初期ヒートマップを生成する請求項１記載のコンピューティングデバイス。
前記第２段階は、ランドマークごとに、前記クロップされた特徴から第２のヒートマップを生成し、前記第２のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項１又は２に記載のコンピューティングデバイス。
前記ＣＮＮは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について前記それぞれの位置を提供する請求項１から３のいずれかに記載のコンピューティングデバイス。
処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて前記画像を処理することを備え、
前記第１段階は、前記画像を受け取り、
前記第１段階の第１部において、前記画像からの中間的特徴のボリュームを決定し、
前記第１段階の第２部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第２段階は、前記第２段階の第１部において、前記中間的特徴のボリュームを受信し、前記第２段階の第２部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
前記第２段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークについて、前記各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作するコンピューティングデバイス。
前記第１段階の第２部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項５記載のコンピューティングデバイス。
前記第１段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第２段階の少なくともいくつかは一連の反転残差ブロックを含む請求項１から６のいずれかに記載のコンピューティングデバイス。
前記第２段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのＲｏＩＡｌｉｇｎを用い、
前記クロップされた特徴を連結する請求項１から７のいずれかに記載のコンピューティングデバイス。
前記第２段階は、前記クロップされた特徴を処理する予測ブロックを含み、
前記予測ブロックは、３×３カーネルによるチャネル単位の畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍ及びＲｅＬＵアクティベーションと、
１×１カーネルによるグループ単位のチャネルの畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍと、を順番に実行し、
前記それぞれのリファインメント位置オフセットの各々を出力する請求項１から８のいずれかに記載のコンピューティングデバイス。
前記ＣＮＮモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項１から９のいずれかに記載のコンピューティングデバイス。
前記ガウス分布は、以下の数式１に従って定義され、
ｘ，ｙはトレーニング画像内の任意のピクセルの座標を示し、（ｘ_ｉ，ｙ_ｉ）は、対応するランドマーク座標である請求項１０記載のコンピューティングデバイス。
ｘ_ｐｒｅｄ，ｙ_ｐｒｅｄ回帰は、以下の数式２のように、それぞれの予測されたヒートマップから計算された前記ガウス分布（数式１）による前記ピクセルの位置の期待値であって、
ｊは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、ｗ_ｊは、前記ピクセルのヒートマップ値を示す請求項１１記載のコンピューティングデバイス。
前記ＣＮＮが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされる請求項１から１２のいずれかに記載のコンピューティングデバイス。
前記損失関数は、距離損失Ｌ_２をさらに含む請求項１３記載のコンピューティングデバイス。
前記損失関数は、以下の数式３および数式４で表され、

は、ｎ^ｔｈサンプルのピクセル位置（ｉ，ｊ）における第ｌチャネルの前記ヒートマップの予測値であり、

は、対応するグランドトゥルースであり、

は、数式４から計算されるピクセル位置（ｉ，ｊ）の重みであって、

は、ｎ^ｔｈ’サンプルのｌ^ｔｈランドマークの前記グランドトゥルースの座標であり、

は、同じランドマークの予測座標である請求項１３又は１４に記載のコンピューティングデバイス。
前記画像を受信し、前記画像上でランドマーク検出を実行するための命令を介して、さらに構成される請求項１から１５のいずれかに記載のコンピューティングデバイス。
前記それぞれの位置を用いて、前記ランドマークのうちの少なくとも１つ又はその周辺で前記画像を修正するための命令を介して、さらに構成される請求項１から１６のいずれかに記載のコンピューティングデバイス。
前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項１７記載のコンピューティングデバイス。
前記画像はビデオ画像であり、前記コンピューティングデバイスは、前記命令を介して、仮想現実をシミュレートするために前記画像をリアルタイムで修正および提示するように構成される請求項１７又は１８に記載のコンピューティングデバイス。
カメラをさらに含み、前記ビデオは、前記カメラによって撮影されたセルフィービデオである請求項１９記載のコンピューティングデバイス。
前記ランドマークは顔のランドマークであり、前記画像は顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも１つの製品シミュレーションで前記画像を更新することをさらに含む請求項１６から２０のいずれかに記載のコンピューティングデバイス。
第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
前記第１段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
前記第２段階は、前記第１段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対してそれぞれのリファインメント位置オフセットを生成する方法。
前記第１段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測が生成するように初期ヒートマップを生成する請求項２２記載の方法。
前記第２段階は、ランドマークごとに、前記クロップされた特徴から第２のヒートマップを生成し、前記第２のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項２２又は２３に記載の方法。
前記ＣＮＮは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について、前記それぞれの位置を提供する請求項２２から２４のいずれかに記載の方法。
第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
前記第１段階は、前記画像を受け取り、
前記第１段階の第１部において、前記画像からの中間的特徴のボリュームを決定し、
前記第１段階の第２部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第２段階は、前記第２段階の第１部において、前記中間的特徴のボリュームを受信し、前記第２段階の第２部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
前記第２段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する方法。
前記第１段階の第２部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項２６記載の方法。
前記第１段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第２段階の少なくともいくつかは一連の反転残差ブロックを含む請求項２２から２７のいずれかに記載の方法。
前記第２段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのＲｏＩＡｌｉｇｎを用い、
前記クロップされた特徴を連結する請求項２２から２８のいずれかに記載の方法。
前記第２段階は、前記クロップされた特徴を処理する予測ブロックを含み、
前記予測ブロックは、３×３カーネルによるチャネル単位の畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍ及びＲｅＬＵアクティベーションと、
１×１カーネルによるグループごとのチャネルの畳み込みと、それに続いて、ＢａｔｃｈＮｏｒｍと、を順番に実行し、
前記それぞれのリファインメント位置オフセットの各々を出力する請求項２２から２９のいずれかに記載の方法。
前記ＣＮＮモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項２２から３０のいずれかに記載の方法。
前記ガウス分布は、以下の数式１に従って定義され、
ｘ，ｙはトレーニング画像内の任意のピクセルの座標を示し、（ｘ_ｉ，ｙ_ｉ）は、対応するランドマーク座標である請求項３１記載の方法。
ｘ_ｐｒｅｄ，ｙ_ｐｒｅｄ回帰は、以下の数式２のように、それぞれの予測されたヒートマップから計算された前記ガウス分布（数式１）による前記ピクセルの位置の期待値であって、
ｊは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、ｗ_ｊは、前記ピクセルのヒートマップ値を示す請求項３２記載の方法。
前記ＣＮＮが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって規定される損失関数でトレーニングされる請求項２２から３３のいずれかに記載の方法。
前記損失関数は、距離損失Ｌ_２をさらに含む請求項３４記載の方法。
前記損失関数は、以下の数式３および数式４で表され、

は、ｎ^ｔｈサンプルのピクセル位置（ｉ，ｊ）における第ｌチャネルの前記ヒートマップの予測値であり、

は、対応するグランドトゥルースであり、

は、数式４から計算されるピクセル位置（ｉ，ｊ）の重みであって、

は、ｎ^ｔｈ’サンプルのｌ^ｔｈランドマークの前記グランドトゥルースの座標であり、

は、同じランドマークの予測座標である請求項３４又は３５に記載の方法。
前記複数のランドマークのそれぞれの位置のうちの少なくとも１つ又はその周辺で前記画像を修正することをさらに含む請求項２２から３６のいずれかに記載の方法。
前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項３７記載の方法。
前記画像がビデオ画像であり、前記方法が、仮想現実をシミュレートするためにリアルタイムで修正された前記画像を提示する請求項３７又は３８に記載の方法。
カメラを有するパーソナルコンピューティングデバイス、好ましくはスマートフォン又はタブレットによって実行することをさらに含み、前記画像は、前記カメラによって撮影されたセルフィーである請求項３７から３９のいずれかに記載の方法。
前記ランドマークが顔のランドマークであり、前記画像が顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも１つの製品シミュレーションで前記画像を更新することをさらに含む請求項３７から４０のいずれかに記載の方法。
前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶する非一時記憶デバイスであって、
第１段階および第２段階を有する畳み込みニューラルネットワーク（ＣＮＮ）を用いて前記画像を処理することを備え、
前記第１段階は、前記画像を受け取り、
前記第１段階の第１部において、前記画像からの中間的特徴のボリュームを決定し、
前記第１段階の第２部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第２段階は、前記第２段階の第１部において、前記中間的特徴のボリュームを受信し、前記第２段階の第２部において、前記ランドマークの各々について前記それぞれの初期位置を受信し、
前記第２段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークの前記それぞれの初期位置についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する非一時記憶デバイス。
処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように前記画像を処理する畳み込みニューラルネットワーク（ＣＮＮ）を介して構成されるコンピューティングデバイスであって、
前記ＣＮＮは、第１段階において、前記それぞれの位置の初期座標を決定するように第１のヒートマップを採用し、第２段階において、前記初期座標のリファインメントオフセットを決定するように第２のヒートマップを採用し、前記第２段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする２段階位置決めアーキテクチャを備え、
前記ＣＮＮはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされるコンピューティングデバイス。