JP7264308B2

JP7264308B2 - 二次元顔画像の２つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法

Info

Publication number: JP7264308B2
Application number: JP2022505735A
Authority: JP
Inventors: ウェンシンタン; ティエンヒオンリー; シンク; イスカンダルゴー; ルーククリストファーブーンキアトセオ
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-03-29
Filing date: 2020-03-27
Publication date: 2023-04-25
Anticipated expiration: 2040-03-27
Also published as: CN113632137A; US20220189110A1; SG10201902889VA; JP2022526468A; EP3948774A1; EP3948774A4; WO2020204150A1

Description

例示的な実施形態は、広く、ただし排他的ではなく、顔の生体検出（liveness detection）のシステムおよび方法に関する。具体的には、これらは、二次元顔画像の２つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法に関する。

顔認識技術は、急速に人気が高まっており、デバイスのロックを解除するための生体認証としてモバイルデバイスで広く使用されてきた。しかしながら、顔認識技術の人気の高まりおよび認証方法としてのその採用は、多くの欠点および課題を伴う。パスワードおよび暗証番号（ＰＩＮ）は、盗難および漏洩の可能性がある。人物の顔についても同じことが言える。攻撃者は、デバイス／サービスへのアクセスを得るために、（顔なりすましとしても知られる）対象ユーザの顔生体データを改ざんすることによって認証されたユーザになりすますことができる。顔なりすましは、公的に利用可能なソース（たとえばソーシャルネットワーキングサービス）から対象ユーザの写真（好ましくは高解像度）を単にダウンロードし、場合により対象ユーザの写真を紙に印刷し、認証プロセス中にデバイスの画像センサの前に対象人物の写真を提示する以外は、比較的簡単であり得、なりすまし者の付加的な技術的スキルを必要としない。

したがって、堅牢で効果的な認証を保証するために、顔認識技術に依存する認証方法における効果的な生体検出メカニズムが必要とされている。効果的な生体検出技術で強化された顔認識アルゴリズムは、顔なりすましに対する防御の追加の層を導入することができ、認証システムのセキュリティおよび信頼性を向上させることができる。しかしながら、既存の生体検出メカニズムは十分に堅牢ではない場合が多く、敵対者からの労力をほとんど伴わずに欺かれ、および／または迂回される可能性がある。たとえば、敵対者は、高解像度ディスプレイ上のユーザの録画ビデオを使用して認証されたユーザになりすますことができる。敵対者は、デバイスへの不正アクセスを得るために、モバイルデバイスのカメラの前で録画ビデオを再生することができる。このようなリプレイ攻撃は、公的に利用可能なソース（たとえばソーシャルネットワーキングサービス）から得られたビデオを用いて容易に実行することができる。

したがって、既存の顔認識技術に依存する認証方法は、容易に回避することができ、多くの場合、特に敵対者が対象人物（たとえば有名人）の画像および／またはビデオを取得および再生するのにほとんど労力を要しない場合、敵対者による攻撃に対して脆弱である。それにもかかわらず、顔認識技術に依存する認証方法は、パスワードまたは暗証番号の使用などの従来の形態の認証と比較して、より高度な利便性および優れたセキュリティを依然として提供することができる。顔認識技術に依存する認証方法はまた、モバイルデバイスにおいてより多くの方法でますます使用されている（たとえば、デバイスによって促進される支払いを認証する手段として、または機密データ、アプリケーション、および／またはサービスへのアクセスを得るための認証手段として）。

したがって、必要とされているのは、上述の問題のうちの１つ以上に対処しようとする、二次元顔画像の２つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法である。さらに、他の望ましい特徴および特性は、添付図面および本開示のこの背景技術と併せて、以下の詳細な説明および添付請求項から明らかとなるだろう。

一態様は、三次元（３Ｄ）顔モデルを適応的に構築するためのサーバを提供する。前記サーバは、１つの画像取込デバイスと、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備え、前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに少なくとも、開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、前記１つの画像取込デバイスを用いて、異なる距離で同一人物の２つ以上の二次元（２Ｄ）顔画像を取り込ませ、前記２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定させ、前記深度情報の決定に応答して前記３Ｄ顔モデルを構築させる。

別の態様は、三次元（３Ｄ）顔モデルを適応的に構築するための方法を提供する。前記方法は、開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、１つの画像取込デバイスを用いて、異なる距離で同一人物の２つ以上の二次元（２Ｄ）顔画像を取り込むことと、前記２Ｄ顔画の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定することと、前記深度情報の決定に応答して前記３Ｄ顔モデルを構築することとを含む。

本発明の実施形態は、単なる例として、以下の図面と併せて、以下の書面による説明から当業者にとってよりよく理解され、容易に明らかとなるだろう。

本開示の実施形態による、二次元顔画像の２つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムの概略図である。本開示の実施形態による、二次元顔画像の２つ以上の入力に基づいて三次元顔モデルを適応的に構築するための方法を示すフローチャートである。本発明の実施形態による、顔画像の信頼性を判定するためのシーケンス図である。本発明の実施形態による、動きセンサ情報および画像センサ情報を取得するためのシーケンス図である。本発明の実施形態による、ライブネス（liveness）チャレンジ中にユーザが見る例示的なスクリーンショットである。本発明の実施形態による、二次元顔画像に関連付けられた顔ランドマーク点の輪郭を示す図である。本発明の実施形態による、３Ｄ顔モデルを構築するためのシーケンス図である。本発明の実施形態による、３Ｄ顔モデルを構築するためのシーケンス図である。本発明の実施形態による、３Ｄ顔モデルを構築するためのシーケンス図である。図１のシステムを実現するために使用されるコンピューティングデバイスの概略図である。

当業者であれば、図中の要素が簡略化および明確化のために示されており、必ずしも縮尺通りに示されていないことを理解するだろう。たとえば、図、ブロック図、またはフローチャート中の要素のいくつかの寸法は、本実施形態の理解を深めるのを助けるために他の要素に対して誇張されている場合がある。

概要
顔認識に基づく生体認証システムが現実世界の用途でますます広く使用されるようになるにつれて、生体なりすまし（顔なりすましまたはプレゼンテーション攻撃としても知られる）はより大きな脅威となる。顔なりすましは、印刷攻撃、リプレイ攻撃、および３Ｄマスクを含むことができる。顔認識システムにおける顔なりすまし防止技術に対する現在のアプローチは、このような攻撃を認識しようとしており、一般に、いくつかの領域、すなわち画質、コンテキスト情報、および局所テクスチャ分析に分類される。具体的には、現在のアプローチは、主に実画像と偽画像との間の輝度成分の局所テクスチャパターンの分析および区別に焦点を当ててきた。しかしながら、現在のアプローチは、典型的には単一の画像に基づいており、このようなアプローチは、なりすまし顔画像を判定するための局所特徴（または単一の画像に固有の特徴）の使用に限定される。また、既存の画像センサは典型的に、人間ほど効果的に顔のライブネスを判定するのに十分な情報を生成する能力を有していない。顔のライブネスは、情報が３Ｄ画像に関連するか否かを判定することを含むことが、理解され得る。これは、深度情報などのグローバルコンテキスト情報は画像センサ（または画像取込デバイス）によって取り込まれた２Ｄ顔画像では失われることが多く、人物の単一の顔画像内の局所情報は一般に、顔のライブネスの正確で信頼できる評価を提供するのに不十分であるからである。

例示的な実施形態は、二次元（２Ｄ）顔画像の２つ以上の入力に基づいて三次元（３Ｄ）顔モデルを適応的に構築するためのサーバおよび方法を提供する。三次元（３Ｄ）顔モデルに関する情報は、人工ニューラルネットワークを使用して、顔画像の信頼性およびライブネスを検出するための少なくとも１つのパラメータを決定するために使用されることが可能である。特に、ニューラルネットワークは、顔のライブネスを検出し、認可されたユーザの実際の存在を確認するように構成された、ディープニューラルネットワークであり得る。請求されるサーバおよび方法を含む人工ニューラルネットワークは、多くの顔なりすまし技術に効果的に対抗することができる、確実性が高く信頼できる解決策を、有利に提供することができる。なお、ルールベースの学習および回帰モデルは、確実性が高く信頼できる解決策を提供するために別の実施形態で使用され得ることが、理解されるべきである。

様々な例示的な実施形態では、３Ｄ顔モデルを適応的に構築するための方法は、（ｉ）入力取込デバイス（たとえば、１つ以上の画像センサを含むデバイス）から２Ｄ顔画像の２つ以上の入力を受信するステップであって、２つ以上の入力は画像取込デバイスから異なる距離で取り込まれる、ステップと、（ｉｉ）２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するステップと、（ｉｉｉ）深度情報の決定に応答して３Ｄ顔モデルを構築するステップとを含むことができる。様々な実施形態では、３Ｄ顔モデルを構築するステップは、（ｉｖ）顔画像の信頼性を検出するための少なくとも１つのパラメータを決定するステップを、さらに含むことができる。言い換えると、様々な例示的な実施形態は、顔なりすまし検出に使用可能な方法を提供する。方法は、（ｉ）特徴取得、（ｉｉ）抽出、（ｉｉｉ）処理フェーズ、次いで（ｉｖ）ライブネス分類フェーズを含む。

（ｉ）特徴取得、（ｉｉ）抽出、および（ｉｉｉ）処理段階では、人物の顔の３Ｄ顔モデル（すなわち数学的表現）が生成される。生成された３Ｄ顔モデルは、人物の２Ｄ顔画像と比較して、より多くの情報（ｘ、ｙ、およびｚ軸で）を含むことができる。本発明の様々な実施形態によるシステムおよび方法は、矢継ぎ早に２Ｄ顔画像の２つ以上の入力（すなわち、１つ以上の画像センサを用いて異なる物体距離または異なる焦点距離のいずれかの異なる近接度で取り込まれた２つ以上の画像）を使用して、人物の顔の数学的表現を構築することができる。さらに、異なる距離で取り込まれた２つ以上の入力が画像取込デバイスに対して異なる角度で取り込まれることも、理解され得る。上述のような取得方法から取得された２Ｄ画像の２つ以上の入力は、顔属性の深度情報（ｚ軸）を取得するため、ならびに人物の顔の他の重要な顔属性および幾何学的特性を取り込むために、（ｉｉ）抽出フェーズで使用されることが可能である。

様々な実施形態では、以下でより詳細に記載されるように、（ｉｉ）抽出フェーズは、２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点（たとえば顔ランドマーク点）に関する深度情報を決定するステップを含むことができる。次いで、（ｉｉ）抽出フェーズから取得された深度情報の決定に応答して、（ｉｉｉ）処理段階において、人物の顔の数学的表現（すなわち３Ｄ顔モデル）が構築される。様々な実施形態では、３Ｄ顔モデルは、基本的な顔構成を形成する特徴ベクトルのセットを備えることができ、特徴ベクトルは、３Ｄシーンにおける人物の顔原点を記述する。これにより、顔マップ上の各ペアの点の間の深度値の数学的定量化が可能になる。

所与の顔の基本的な顔構成の構築に加えて、画像センサに対して人物の頭部配向（頭部姿勢としても知られる）を推定する方法も開示される。つまり、人物の頭部姿勢は、画像センサに対して変化し得る（たとえば、画像センサがモバイルデバイス内に収容され、ユーザがモバイルデバイスを移動させる場合、またはユーザが固定入力取込デバイスに対して移動するとき）。人物の姿勢は、ｘ、ｙ、およびｚ軸の周りの画像センサの回転とともに変化し、回転は、ヨー、ピッチ、およびロール角を使用して表される。画像センサがモバイルデバイス内に収容されている場合、モバイルデバイスの配向は、軸ごとにデバイスと通信可能に結合された動きセンサ（たとえば、モバイルデバイス内に収容された加速度計）によって記録された加速度値（重力）から決定されることが可能である。さらに、画像センサに対する人物の頭部の３次元配向および位置は、顔特徴位置およびこれらの相対的な幾何学的関係を使用して決定されることが可能であり、（たとえばモバイルデバイスを基準点、または基準顔ランドマーク点として）旋回点に対するヨー、ピッチ、およびロール角に関して表されることが可能である。モバイルデバイスの配向情報および人物の頭部姿勢の配向情報はその後、人物の頭部姿勢に対するモバイルデバイスの配向および位置を決定するために使用される。

（ｉｖ）ライブネス分類フェーズでは、上記の段落で記載されたように、人物の深度特徴ベクトル（すなわち３Ｄ顔モデル）および取得された相対配向情報は、顔のライブネスの正確な予測を提供するために、分類プロセスで使用されることが可能である。ライブネス分類段階では、顔構成（すなわち３Ｄ顔モデル）、ならびにモバイルデバイスの空間および配向情報および人物の頭部姿勢が、顔のライブネスを検出するためにニューラルネットワークに供給される。

例示的な実施形態
例示的な実施形態は、単なる例として、図面を参照して記載される。図中の類似の参照番号および参照符号は、類似の要素または同等物を指す。

以下の説明のいくつかの部分は、コンピュータメモリ内のデータに対する動作のアルゴリズムおよび関数的または記号的表現に関して、明示的または暗示的に表される。これらのアルゴリズム記述および関数的または記号的表現は、当業者の作業の内容を他の当業者に最も効果的に伝えるためにデータ処理の当業者によって使用される手段である。アルゴリズムはここで、一般的に、所望の結果をもたらす自己矛盾のない一連のステップであると考えられる。ステップは、記憶、転送、結合、比較、およびその他の操作が行われ得る電気、磁気、または光信号などの物理量の物理的操作を必要とするものである。

別途明記されない限り、および以下から明らかなように、本明細書全体を通して、「関連付ける（ａｓｓｏｃｉａｔｉｎｇ）」、「計算する（ｃａｌｃｕｌａｔｉｎｇ）」、「比較する（ｃｏｍｐａｒｉｎｇ）」、「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」、「転送する（ｆｏｒｗａｒｄｉｎｇ）」、「生成する（ｇｅｎｅｒａｔｉｎｇ）」、「識別する（ｉｄｅｎｔｉｆｙｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「挿入する（ｉｎｓｅｒｔｉｎｇ）」、「修正する（ｍｏｄｉｆｙｉｎｇ）」、「受信する（ｒｅｃｅｉｖｉｎｇ）」、「置き換える（ｒｅｐｌａｃｉｎｇ）」、「走査する（ｓｃａｎｎｉｎｇ）」、「送信する（ｔｒａｎｓｍｉｔｔｉｎｇ）」、などのような用語を利用する議論は、コンピュータシステム内の物理量として表されるデータを、コンピュータシステム内の物理量として同様に表されるデータへと操作または変換する、コンピュータシステムまたは同様の電子デバイス、もしくはその他の情報記憶装置、送信装置、またはディスプレイ装置の動作およびプロセスを指すことが、理解されるだろう。

本明細書はまた、方法の動作を実行するための装置も開示する。このような装置は、必要な目的のために特別に構築されてもよく、あるいは内部に記憶されたコンピュータプログラムによって選択的に起動または再構成されるコンピュータまたはその他のコンピューティングデバイスを含んでもよい。本明細書に提示されるアルゴリズムおよびディスプレイは、いずれの特定のコンピュータまたはその他の装置にも本質的に関連していない。本明細書の教示によるプログラムとともに、様々な機械が使用され得る。あるいは、必要な方法ステップを実行するためにより特殊化された装置の構築が、適切であるかも知れない。コンピュータの構造は、以下の説明から明らかとなるだろう。

加えて、本明細書はまた、本明細書に記載される方法の個々のステップがコンピュータコードによって実行され得ることが当業者にとって明らかであるという点において、コンピュータプログラムを暗黙的に開示する。コンピュータプログラムは、いずれの特定のプログラミング言語およびその実施にも限定されるように意図されるものではない。本明細書に含まれる本開示の教示を実施するために、様々なプログラミング言語およびそのコーディングが使用され得ることは、理解されるだろう。また、コンピュータプログラムは、いずれの特定の制御フローにも限定されるように意図されるものではない。本発明の精神または範囲から逸脱することなく異なる制御フローを使用することが可能な、コンピュータプログラムのその他多くの変形例がある。

さらに、コンピュータプログラムのステップのうちの１つ以上は、連続的ではなく並列で実行されてもよい。このようなコンピュータプログラムは、任意のコンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、磁気または光ディスク、メモリチップ、またはコンピュータとのインターフェースに適したその他の記憶デバイスなどの記憶デバイスを含み得る。コンピュータ可読媒体はまた、インターネットシステムで例示されるようなハードワイヤード媒体、およびＧＳＭ携帯電話システムで例示されるような無線媒体も含み得る。コンピュータプログラムは、コンピュータ上にロードされて実行されると、好適な方法のステップを実施する装置を効果的にもたらす。

例示的な実施形態では、用語「サーバ」の使用は、単一のコンピューティングデバイス、または特定の機能を実行するためにともに動作する相互接続されたコンピューティングデバイスの少なくともコンピュータネットワークを意味し得る。言い換えると、サーバは、単一のハードウェアユニット内に含まれてもよく、またはいくつかもしくは多くの異なるハードウェアユニット間に分散されてもよい。

サーバの例示的な実施形態が図１に示されている。図１は、本開示の実施形態による、二次元（２Ｄ）顔画像の２つ以上の入力に基づいて三次元（３Ｄ）顔モデルを適応的に構築するためのサーバ１００の概略図を示す。サーバ１００は、図２に示されるような方法２００を実施するために使用されることが可能である。サーバ１００は、プロセッサ１０４およびメモリ１０６を備える処理モジュール１０２を含む。サーバ１００はまた、処理モジュール１０２と通信可能に結合され、２Ｄ顔画像１１４の２つ以上の入力１１２を処理モジュール１０２に送信するように構成された、入力取込デバイス１０８も含む。処理モジュール１０２はまた、１つ以上の命令１１６を通じて入力取込デバイス１０８を制御するように構成されている。入力取込デバイス１０８は、１つ以上の画像センサ１０８Ａ、１０８Ｂ．．．１０８Ｎを含むことができる。１つ以上の画像センサ１０８Ａ、１０８Ｂ．．．１０８Ｎは、人物の２Ｄ顔画像１１４の２つ以上の入力が画像取込デバイスと人物との間の相対移動なしに画像取込デバイスから異なる距離で取り込まれ得るように、異なる焦点距離を有する画像センサを含み得る。本発明の様々な実施形態では、画像センサは、可視光センサおよび赤外線センサを含むことができる。入力取込デバイス１０８が単一の画像センサのみを含む場合、異なる距離で２つ以上の入力を取り込むために、画像取込デバイスと人物との間の相対移動が必要であり得ることもまた、理解され得る。

処理モジュール１０２は、入力取込デバイス１０８から２Ｄ顔画像１１４の２つ以上の入力１１２を受信し、２Ｄ顔画像１１４の２つ以上の入力１１２の各々の少なくとも１点に関する深度情報を決定し、深度情報の決定に応答して３Ｄ顔モデルを構築するように構成されることが可能である。

サーバ１００はまた、処理モジュール１０２と通信可能に結合されたセンサ１１０も含む。センサ１１０は、処理モジュール１０２に加速度値１１８を検出および提供するように構成された、１つ以上の動きセンサであり得る。処理モジュール１０２はまた、決定モジュール１１２と通信可能に結合されている。決定モジュール１１２は、処理モジュール１０２から、人物の深度特徴ベクトル（すなわち３Ｄ顔モデル）ならびに人物の頭部姿勢に対する画像取込デバイスの配向および位置に関連付けられた情報を受信するように構成されることが可能であり、顔のライブネスの予測を提供するために受信した情報を用いて分類アルゴリズムを実行するように構成されることが可能である。

実施詳細－システム設計
本発明の様々な実施形態では、顔の生体検出のためのシステムは、２つのサブシステム、すなわち取込サブシステムおよび決定サブシステムを備えることができる。取込サブシステムは、入力取込デバイス１０８およびセンサ１１０を含むことができる。決定サブシステムは、処理モジュール１０２および決定モジュール１１２を含むことができる。取込サブシステムは、画像センサ（たとえばＲＧＢカメラおよび／または赤外線カメラ）および１つ以上の動きセンサからデータを受信するように構成されることが可能である。決定サブシステムは、取込サブシステムによって提供される情報に基づいて、生体検出および顔検証のための決定を提供するように構成されることが可能である。

実施詳細－ライブネス決定プロセス
顔のライブネスは、いくつかの立体顔画像が入力取込デバイスに対して異なる距離で取り込まれる場合、なりすまし画像および／またはビデオと区別され得る。顔のライブネスはまた、実際の顔に固有の特定の顔特徴に基づいて、なりすまし画像および／またはビデオと区別されることも可能である。画像センサに近い実際の顔からの顔画像の顔特徴は、画像センサから遠い実際の顔からの画像の顔特徴よりも相対的に大きく見える。これは、たとえば広角レンズを有する画像センサを使用する距離によって生じた遠近歪みに起因する。次いで、例示的な実施形態は、顔画像を本物またはなりすましとして分類するために、これらの明確な違いを活用することができる。異なるカメラ視野角に対して遠距離または近距離で一連の顔ランドマーク（または明確な顔特徴）を識別するステップを含む、３Ｄ顔モデルを本物またはなりすましに分類するためにニューラルネットワークを訓練する方法もまた開示される。

実施詳細－ライブネス決定データフロー－データ取込
図３は、本発明の実施形態による、顔画像の信頼性を判定するためのシーケンス図３００を示す。シーケンス図３００は、ライブネス決定データフロープロセスとしても知られている。図４は、本発明の実施形態による、動きセンサ情報および画像センサ情報を取得するためのシーケンス図４００（ライブネスプロセス４００としても知られる）を示す。図４は、図３のシーケンス図３００を参照して説明される。ライブネスプロセス４００、ならびにライブネス決定データフロープロセス３００は、２つ以上の入力が画像取込デバイスから異なる距離で取り込まれる、２Ｄ顔画像の２つ以上の入力のモーションキャプチャ３０２、ならびに１つ以上の動きセンサからの動き情報の取込３０４で始まる。様々な実施形態では、２つ以上の入力はまた、画像取込デバイスから異なる角度で取り込まれることも可能である。画像取込デバイスは、サーバ１００の入力取込デバイス１０８であり得、１つ以上の動きセンサはサーバ１００のセンサ１１０であり得る。本発明の様々な実施形態では、サーバ１００はモバイルデバイスであり得る。情報は処理モジュール１０２に送信されることが可能であり、処理モジュール１０２は、情報を決定モジュール１１２に送信する前に、収集された情報が良質であること（輝度、鮮明度など）を保証するために事前ライブネス品質チェックを実行するように構成されることが可能である。本発明の実施形態では、デバイスの姿勢、ならびにデバイスの加速度も含むセンサデータもまた、取込プロセス３０４で取り込まれることが可能である。データは、ユーザがライブネスチャレンジに正しく応答したか否かを判定するのに役立つことができる。たとえば、ユーザの頭部は、入力取込デバイスの画像センサの投射に対して相対的に中心に位置合わせされることが可能であり、被写体の頭部位置、ロール、ピッチ、ヨーは、カメラに対して比例的に直線状でなければならない。一連の画像は、遠くのバウンディングボックス（bounding box）から始まって近くのバウンディングボックスに向かって徐々に移動しながら取り込まれる。

実施詳細－ライブネス決定データフロー－事前ライブネスフィルタリング
事前ライブネス品質チェック３０６は、収集されたデータが良質であり、ユーザの注意を伴わずに取り込まれないことを確実にするために２つ以上の入力の顔および背景の輝度、顔の鮮明度、ユーザの視線をチェックするステップを含むことができる。取り込まれた画像は、目距離（左目と右目との間の距離）によってソートされることが可能であり、同様の目距離を含む画像は除去され、目距離は入力取込デバイスに対する顔画像の近接度を示す。データ収集中に、視線検出、ボケ検出、または明度検出など、別の前処理方法が適用されてもよい。これは、取り込まれた画像にヒューマンエラーによって生じる環境の歪み、ノイズ、または外乱がないことを保証するためである。

実施詳細－ライブネス決定データフロー－ライブネスチャレンジ
入力取込デバイス１０８によって顔が取り込まれると、情報は一般に、平面２Ｄ画像センサ（たとえばＣＣＤまたはＣＭＯＳセンサ）上に知覚的に投影される。平面２Ｄ画像センサ上への３Ｄ物体（たとえば顔）の投射は、顔認識および生体検出のための２Ｄ数学的データへの３Ｄ顔の変換を可能にすることができる。しかしながら、変換の結果、深度情報が失われる可能性がある。深度情報を維持するために、集光点への異なる距離／角度を有する複数のフレームが取り込まれ、３Ｄ顔被写体を２Ｄなりすましと区別するためにまとめて使用される。本発明の様々な実施形態では、ユーザが遠近法における変化を可能にするようにユーザの顔に対して自分のデバイスを（並進的におよび／または回転的に）移動するように促される、ライブネスチャレンジ４０４が含まれ得る。ユーザが画像センサのフレーム内に自分の顔を収めることができる限り、登録または検証中にユーザのデバイスの移動は制限されない。

図５は、本発明の実施形態による、ライブネスチャレンジ４０４中にユーザが見る例示的なスクリーンショット５００を示す。図５は、ユーザが認証を実行しているときに、異なる距離の２つ以上の画像が入力取込デバイスによって取り込まれているときの、表示画面（たとえば例示的なモバイルデバイスの画面）上に示されるユーザインターフェースの遷移を示す。例示的な実施形態では、ユーザインターフェースは、視覚的なスキューモーフィズムを採用することができ、カメラシャッター絞りを示すことができる（図５参照）。ユーザインターフェースは動きベースであり、動作中のカメラシャッターを模倣することができる。可用性を向上させるために、各位置（スクリーンショット５０２、５０４、５０６、５０８）に対して妥当な時間内にユーザ命令が画面上に表示され得る。スクリーンショット５０２には、モバイルデバイスのカメラから距離ｄ１に位置する顔の画像を取り込むための「全開」開口が開示されている。スクリーンショット５０２では、顔が至近距離で取り込まれ得るように、ユーザは画像センサの近くに顔を配置するように促され、顔はシミュレートされた絞りの開口の中に完全に示されている。スクリーンショット５０４では、画像センサから距離ｄ２に位置する顔の画像を取り込むための「半開」開口である。スクリーンショット５０４では、顔がシミュレートされた絞りの「半開」開口の中に示されるように、ユーザは画像センサから少し遠くに顔を配置するように促され、ｄ１＜ｄ２である。

スクリーンショット５０６では、顔がさらに遠くで取り込まれ得るように、ユーザは画像センサからさらに遠くに顔を配置するように促される。スクリーンショット５０６では、画像センサから距離ｄ３に位置する顔の画像を取り込むための「四分の一開き」開口であり、ｄ１＜ｄ２＜ｄ３である。スクリーンショット５０８では、ユーザには、人物の全ての画像が取り込まれ、画像が処理されていることを示す、「閉じた開口」が提示される。

本発明の様々な実施形態では、ユーザインターフェースの遷移の制御（すなわち画像取込デバイスの制御）は、２Ｄ顔画像の２つ以上の入力間で識別された変化の応答に基づくことができる。一実施形態では、変化は第１のｘ軸距離と第２のｘ軸距離との差であり得、第１のｘ軸距離および第２のｘ軸距離は２つの基準点間のｘ軸方向の距離を表し、２つの基準点は、２つ以上の入力の第１および第２の入力において識別される。代替実施形態では、変化は第１のｙ軸距離と第２のｙ軸距離との差であり得、第１のｙ軸距離および第２のｙ軸距離は２つの基準点間のｙ軸方向の距離を表し、２つの基準点は、２つ以上の入力の第１および第２の入力において識別される。言い換えると、２Ｄ顔画像の２つ以上の入力を取り込むような画像取込デバイスの制御は、（ｉ）第１のｘ軸距離および第２のｘ軸距離、ならびに（ｉｉ）第１のｙ軸距離および第２のｙ軸距離のうちの少なくとも１つの差に対する応答に基づくことができる。上述の制御方法はまた、２Ｄ顔画像のさらなる入力を停止するために使用されることも可能である。例示的な実施形態では、２つの基準点のうちの第１の基準点は、ユーザの目に関連付けられた顔ランドマーク点であり得、２つの基準点のうちの第２の基準点は、ユーザの他方の目に関連付けられた別の顔ランドマーク点であり得る。

様々な実施形態では、画像センサは、可視光センサおよび赤外線センサを含むことができる。入力取込デバイスが１つ以上の画像センサを含む場合、１つ以上の画像センサの各々は、広角レンズ、望遠レンズ、可変焦点距離を有するズームレンズ、または通常レンズを含む写真レンズの群のうちの１つ以上を含むことができる。画像センサの前のレンズは交換可能であり得る（すなわち、入力取込デバイスは、画像センサの前に配置されたレンズを入れ替えることができる）ことも理解され得る。固定レンズを有する１つ以上の画像センサを有する入力取込デバイスでは、第１のレンズは、第２以降のレンズとは異なる焦点距離を有することができる。有利には、顔画像の２つ以上の入力を取り込むとき、ユーザに対する１つ以上の画像センサを有する入力取込デバイスの移動は省略されてもよい。つまり、２Ｄ顔画像の２つ以上の入力は、入力取込デバイスとユーザとの間の相対移動を伴わずに異なるレンズ（および画像センサ）を使用して異なる焦点距離で取り込まれることが可能なので、システムは、異なる距離で人物の顔画像の２つ以上の入力を自動的に取り込むように構成されることが可能である。様々な実施形態では、上述のようなユーザインターフェース遷移は、異なる焦点距離で取り込まれた入力と同期することができる。

実施詳細－ライブネス決定データフロー－データ処理
図２に示され、前の段落で言及された、（ｉｉ）２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するステップ、および（ｉｉｉ）深度情報の決定に応答して３Ｄ顔モデルを構築するステップが、より詳細に説明される。画像取込デバイスから異なる距離で取り込まれた２Ｄ顔画像の２つ以上の入力は、２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するために処理される。２Ｄ顔画像の２つ以上の入力の処理は、図１の処理モジュール１０２によって実行され得る。データ処理は、データフィルタリング、データ正規化、およびデータ変換を含むことができる。データフィルタリングでは、動きボケ、焦点ボケ、または生体検出にとって重要でも必要でもない余分なデータを伴って取り込まれた画像が除去され得る。データ正規化は、異なる入力取込デバイス間のハードウェアの違いに起因してデータに導入されたバイアスを除去することができる。データ変換では、データは、３次元シーンにおける人物の顔原点を記述する特徴ベクトルに変換され、特徴および属性の組み合わせ、ならびに人物の顔の幾何学的特性の計算を伴うことができる。データ処理はまた、たとえば入力取込デバイスの画像センサの構成から生じる差から、データノイズの一部を除去することもできる。データ処理はまた、３Ｄ顔の遠近歪みを２Ｄなりすまし顔と区別するために使用される顔特徴への焦点を強化することもできる。

図７Ａおよび図７Ｂは、本発明の実施形態による、３Ｄ顔モデルを構築するためのシーケンス図を示す。本発明の実施形態では、３Ｄ顔モデルは、二次元顔画像に関連付けられた顔ランドマーク点に基づく深度情報の決定に応答して構築される。２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関連する深度情報の決定（すなわち、取り込まれた画像からの特徴情報の抽出）もまた、図７Ａから図７Ｃを参照して説明される。図７Ａおよび図７Ｂに示されるように、２Ｄ顔画像画像７０２、７０４、７０６の２つ以上の入力の各々が最初に抽出され、選択された顔ランドマーク点のセットが顔バウンディングボックスに対して計算される。顔ランドマーク点６００の例示的なセットが図６に示されている。本発明の実施形態では、顔バウンディングボックスは、顔ランドマーク抽出の精度および速度を向上させるために、一連の入力を通じて同じアスペクト比を有することができる。顔ランドマーク抽出７０８では、追跡点は、顔バウンディングボックスの幅および高さに対して画像の座標系に投影される。図６に示されるようなランドマーク点のセットのうち、他の全ての顔ランドマーク点の距離計算に基準顔ランドマーク点が使用される。これらの距離は、最終的に顔画像特徴として機能することになる。各顔ランドマーク点について、特定の顔ランドマーク点のｘおよびｙの点と基準顔ランドマーク点との差の絶対値を取ることにより、ｘおよびｙの距離が計算される。単一の顔画像ランドマーク計算の合計出力は、基準顔ランドマーク点と、基準顔ランドマーク点以外の顔ランドマーク点の各々との一連の距離となる。２つ以上の入力７０２、７０４、７０６の各々の出力７１０、７１２、７１４が、図７Ａおよび図７Ｂに示されている。したがって、出力７１０、７１２、７１４は、ランドマーク点から基準点までのｘ距離のセット、およびランドマーク点から基準点までのｙ距離のセットである。実施のためのサンプル擬似コードは、以下に示される通りである。
基準点ｄｏを除く顔ランドマークの各ランドマークについて、
ｘ＿距離＝｜ランドマーク．ｘ－基準点．ｘ｜
ｙ＿距離＝｜ランドマーク．ｙ－基準点．ｙ｜

言い換えると、２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するステップは、（ａ）２つ以上の入力の第１の入力における２つの基準点（すなわち、基準顔ランドマーク点および基準顔ランドマーク点以外の顔ランドマーク点のうちの１つ）の間の第１のｘ軸距離および第１のｙ軸距離を決定するステップであって、第１のｘ軸距離および第１のｙ軸距離はそれぞれｘ軸方向およびｙ軸方向の２つの基準点間の距離を表す、ステップと、（ｂ）２つ以上の入力の第２の入力における２つの基準点の間の第２のｘ軸距離および第２のｙ軸距離を決定するステップであって、第２のｘ軸距離および第２のｙ軸距離はそれぞれｘ軸方向およびｙ軸方向の２つの基準点間の距離を表す、ステップとを備える。ステップは、顔ランドマーク点（すなわち後続の基準点）の各々について、および２Ｄ顔画像の後続の入力について、繰り返される。したがって、顔ランドマーク点が決定されて顔ランドマーク点と基準顔ランドマーク点との間の距離が計算されると、決定７１０、７１２、７１４の出力は、ランドマークの特徴点のセット（たとえばｐ）を有する一連のＮ個のフレームであり、すなわち画像のＮ個のフレームは、合計Ｎ＊ｐ個の特徴点７１８を生成する（図７Ｃ参照）。Ｎ＊ｐ個の特徴点７１８はグラフ７２０にも示されており、これは（グラフ７２０のｘ軸に示される）２Ｄ顔画像の２つ以上の入力にわたってｘ軸距離およびｙ軸距離がどのように変化するかを示している。

出力７１０、７１２、７１４（表７１８およびグラフ７２０に示される）は、深度情報を決定するように、（ｉ）第１のｘ軸距離および第２のｘ軸距離ならびに（ｉｉ）第１のｙ軸距離および第２のｙ軸距離のうちの少なくとも１つの差を決定することによって、深度特徴点の結果的なリストを取得するために使用されることが可能である。例示的な実施形態では、深度情報は、線形回帰７１６を使用して取得され得る。
具体的には、出力７１０、７１２、７１４は線形回帰７１６を使用して低減され、各特徴点は線形回帰を使用して線に適合され、特徴点ペアを結ぶ線の勾配が取得される。出力は、一連の属性値７２２である。線形回帰に適合される前に一連の特徴点を平滑化するために、小移動平均またはその他の平滑化関数が使用され得る。このように、２Ｄ顔画像の顔属性値７２２が決定され、顔属性７２２の決定に応答して３Ｄ顔モデルが構築されることが可能である。

また、本発明の様々な実施形態では、動きセンサ１１０（たとえば加速度計およびジャイロスコープ）から得られたカメラ角度データが、特徴点として追加され得る。カメラ角度情報は、加速度計から重力加速度を計算することによって取得可能である。加速度計センサデータは、重力およびその他のデバイス加速度情報を含むことができる。デバイスの角度を決定するために、（－９．８１から９．８１の間の値で、ｘ、ｙ、ｚ軸にあり得る）重力加速度のみが考慮される。一実施形態では、各フレームについて３つの回転値（ロール、ピッチ、およびヨー）が取得され、フレームからの値の平均が計算され、特徴点として追加される。つまり、特徴点は、３つの平均値のみからなる。別の実施形態では、平均は計算されず、特徴点は、各フレームの回転値（ロール、ピッチ、およびヨー）からなる。つまり、特徴点は、ｎ個のフレーム＊（ロール、ピッチ、およびヨー）値からなる。このように、２Ｄ顔画像の回転情報が決定され、回転情報の決定に応答して３Ｄ顔モデルが構築されることが可能である。

実施詳細－ライブネス決定データフロー－分類プロセス
次いで、人物の深度特徴ベクトル、ならびにロール、ピッチ、およびヨーの３つの回転値の平均は、顔のライブネスの正確な予測を取得するために、分類プロセスを受ける。分類プロセスでは、顔のライブネスを検出するために、基本的な顔構成、ならびにモバイルデバイスの空間および配向情報、ならびに人物の頭部姿勢が深層学習モデルに供給される。

したがって、顔の生体検出のためのシステムおよび方法が開示される。顔のライブネスを検出するため、および認証されたユーザの実際の存在を確認するために、深層学習ベースのなりすまし顔検出メカニズムが採用される。本発明の実施形態では、顔の生体検出メカニズムには２つの主要なフェーズがある。第１のフェーズは、データ取込、事前ライブネスフィルタリング、ライブネスチャレンジ、データ処理、および特徴変換を伴う。このフェーズでは、２Ｄ顔画像の別々の入力のセットからの基本的な顔構成が、矢継ぎ早に画像センサ（たとえばモバイルデバイスのカメラ）から異なる近接度で取り込まれ、この基本的な顔構成は、顔マップ上の点の各ペア間の深度値の数学的定量化を可能にする特徴ベクトルのセットからなる。顔の基本的な顔構成の構築に加えて、モバイルデバイスのカメラのビューに対する人物の頭部配向もまた、モバイルデバイスのｘ、ｙ、およびｚ軸の重力値、ならびに人物の頭部姿勢の配向から決定される。第２のフェーズは分類プロセスであり、モバイルデバイスとユーザの頭部姿勢との間の相対配向情報とともに、基本的な顔構成が顔のライブネス予測のための分類プロセスに供給され、ユーザのアカウントへのユーザアクセスを許可する前に、認証されたユーザの実際の存在を確認する。したがって、要約すると、つまり、別々の顔画像のセットからの３Ｄ顔構成が、モバイルデバイスのカメラから異なる近接度で取り込まれることが可能である。３Ｄ顔構成、ならびに任意選択的にモバイルデバイスとユーザの頭部姿勢との間の相対配向情報は、顔のライブネス予測のための分類プロセスへの入力として使用されることが可能である。このメカニズムは、多くの顔なりすまし技術に効果的に対抗することができる、確実性が高く信頼できる解決策をもたらすことができる。

図８は、以下でコンピュータシステム８００として交換可能に呼ばれる、例示的なコンピューティングデバイス８００を示し、１つ以上のこのようなコンピューティングデバイス８００は、図２の方法２００を実行するために使用され得る。例示的なコンピューティングデバイス８００の１つ以上の構成要素は、システム１００、および入力取込デバイス１０８を実装するために使用されることが可能である。コンピューティングデバイス８００の以下の説明は、単なる例として提供され、限定するように意図されるものではない。

図８に示されるように、例示的なコンピューティングデバイス８００は、ソフトウェアルーチンを実行するためのプロセッサ８０７を含む。明確さのために単一のプロセッサが示されているが、コンピューティングデバイス８００はまた、マルチプロセッサシステムを含んでもよい。プロセッサ８０７は、コンピューティングデバイス８００の他の構成要素との通信のための通信インフラストラクチャ８０６に接続されている。通信インフラストラクチャ８０６は、たとえば、通信バス、クロスバー、またはネットワークを含み得る。

コンピューティングデバイス８００は、ランダムアクセスメモリ（ＲＡＭ）などのメインメモリ８０８と、二次メモリ８１０とをさらに含む。二次メモリ８１０は、たとえば、ハードディスクドライブ、ソリッドステートドライブ、またはハイブリッドドライブであり得る記憶ドライブ８１２、および／または磁気テープドライブ、光ディスクドライブ、ソリッドステート記憶ドライブ（ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど）などを含み得るリムーバブル記憶ドライブ８１７を含み得る。リムーバブル記憶ドライブ８１７は、既知の方法でリムーバブル記憶媒体８７７に対して読み出しおよび／または書き込みを行う。リムーバブル記憶媒体８７７は、磁気テープ、光ディスク、不揮発性メモリ記憶媒体などを含んでもよく、リムーバブル記憶ドライブ８１７によって読み書きされる。（１人または複数の）当業者によって理解されるように、リムーバブル記憶媒体８７７は、コンピュータ実行可能プログラムコード命令および／またはデータが記憶された、コンピュータ可読記憶媒体を含む。

代替的な実施では、二次メモリ８１０は、追加的または代替的に、コンピュータプログラムまたはその他の命令をコンピューティングデバイス８００にロードできるようにする他の同様の手段を含んでもよい。このような手段は、たとえば、リムーバブル記憶ユニット８２２およびインターフェース８５０を含むことができる。リムーバブル記憶ユニット８２２およびインターフェース８５０の例は、プログラムカートリッジおよびカートリッジインターフェース（ビデオゲームコンソールデバイスに見られるものなど）、リムーバブルメモリチップ（ＥＰＲＯＭまたはＰＲＯＭなど）および関連するソケット、リムーバブルソリッドステート記憶ドライブ（ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど）、ならびにソフトウェアおよびデータをリムーバブル記憶ユニット８２２からコンピュータシステム８００に転送できるようにする他のリムーバブル記憶ユニット８２２およびインターフェース８５０を含む。

コンピューティングデバイス８００は、少なくとも１つの通信インターフェース８２７も含む。通信インターフェース８２７は、ソフトウェアおよびデータが通信経路８２６を介してコンピューティングデバイス８００と外部デバイスとの間で転送されることを可能にする。本発明の様々な実施形態では、通信インターフェース８２７は、コンピューティングデバイス８００と、公開データまたはプライベートデータ通信ネットワークなどのデータ通信ネットワークとの間でデータが転送されることを可能にする。通信インターフェース８２７は、異なるコンピューティングデバイス８００の間でデータを交換するために使用されてもよく、このようなコンピューティングデバイス８００は、相互接続されたコンピュータネットワークの一部を形成する。通信インターフェース８２７の例は、モデム、ネットワークインターフェース（イーサネットカードなど）、通信ポート（シリアル、パラレル、プリンタ、ＧＰＩＢ、ＩＥＥＥ１３９４、ＲＪ４５、ＵＳＢ）、関連する回路を有するアンテナ、などを含むことができる。通信インターフェース８２７は、有線であってもよく、または無線であってもよい。通信インターフェース５２７を介して転送されたソフトウェアおよびデータは、電気、電磁、光、または通信インターフェース５２７によって受信可能なその他の信号であり得る、信号の形態である。これらの信号は、通信経路５２６を介して通信インターフェースに供給される。

図８に示されるように、コンピューティングデバイス８００は、関連するディスプレイ８５０に画像をレンダリングするための動作を実行するディスプレイインターフェース８０２と、（１つまたは複数の）関連するスピーカ８５７を介してオーディオコンテンツを再生するための動作を実行するためのオーディオインターフェース８５２とをさらに含む。

本明細書で使用される際に、用語「コンピュータプログラム製品」は、部分的に、リムーバブル記憶媒体８７７、リムーバブル記憶ユニット８２２、記憶ドライブ８１２にインストールされたハードディスク、もしくは通信経路８２６（無線リンクまたはケーブル）を介して通信インターフェース８２７にソフトウェアを搬送する搬送波を指すことができる。コンピュータ可読記憶媒体は、実行および／または処理のために記録された命令および／またはデータをコンピューティングデバイス８００に提供する任意の非一時的不揮発性有形記憶媒体を指す。このような記憶媒体の例は、このようなデバイスがコンピューティングデバイス８００の内部にあるか外部にあるかにかかわらず、磁気テープ、ＣＤ－ＲＯＭ、ＤＶＤ、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ハードディスクドライブ、ＲＯＭ、または集積回路、ソリッドステート記憶ドライブ（ＵＳＢフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど）、ハイブリッドドライブ、光磁気ディスク、またはＰＣＭＣＩＡカードなどのコンピュータ可読カードを含む。コンピューティングデバイス８００へのソフトウェア、アプリケーションプログラム、命令および／またはデータの提供にも関与し得る一時的または非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワークデバイスへのネットワーク接続、ならびに電子メール送信およびウェブサイトに記録された情報などを含むインターネットまたはイントラネットを含む。

コンピュータプログラム（コンピュータプログラムコードとも呼ばれる）は、メインメモリ８０８および／または二次メモリ８１０に記憶される。コンピュータプログラムはまた、通信インターフェース８２７を介して受信されることも可能である。このようなコンピュータプログラムは、実行されると、コンピューティングデバイス８００が本明細書で論じられる実施形態の１つ以上の特徴を実行することを可能にする。様々な実施形態では、コンピュータプログラムは、実行されると、プロセッサ８０７が上述の実施形態の特徴を実行することを可能にする。したがって、このようなコンピュータプログラムは、コンピュータシステム８００のコントローラを表す。

ソフトウェアは、コンピュータプログラム製品に記憶され、リムーバブル記憶ドライブ８１７、記憶ドライブ８１２、またはインターフェース８５０を使用してコンピューティングデバイス８００にロードされてもよい。コンピュータプログラム製品は、非一時的コンピュータ可読媒体であってもよい。あるいは、コンピュータプログラム製品は、通信経路８２６を介してコンピュータシステム８００にダウンロードされてもよい。ソフトウェアは、プロセッサ８０７によって実行されると、コンピューティングデバイス８００に、図２に示されるような方法２００を実行するのに必要な動作を実行させる。

図８の実施形態は、システム８００の動作および構造を説明するための単なる例として提示されることが、理解されるべきである。したがって、いくつかの実施形態では、コンピューティングデバイス８００の１つ以上の特徴が省略され得る。また、いくつかの実施形態では、コンピューティングデバイス８００の１つ以上の特徴が組み合わせられてもよい。加えて、いくつかの実施形態では、コンピューティングデバイス８００の１つ以上の特徴が１つ以上の構成要素部分に分割されてもよい。

図８に示される要素は、上記の実施形態で記載されたようなシステムの様々な機能および動作を実行するための手段を提供するように機能することが、理解されるだろう。

コンピューティングデバイス８００が、二次元（２Ｄ）顔画像に基づいて三次元（３Ｄ）顔モデルを適応的に構築するためのシステム１００を実現するように構成されているとき、システム１００は、実行されると、システム１００に、（ｉ）入力取込デバイスから２Ｄ顔画像の２つ以上の入力を受信し、２つ以上の入力は画像取込デバイスから異なる距離で取り込まれ、（ｉｉ）２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定し、（ｉｉｉ）深度情報の決定に応答して３Ｄ顔モデルを構成する、ことを備えるステップを実行させるアプリケーションが記憶された、非一時的コンピュータ可読媒体を有することになる。

広く記載されるように、本発明の精神または範囲から逸脱することなく特定の実施形態に示されるような例示的な実施形態に対して多くの変形および／または修がなされ得ることは、当業者によって理解されるだろう。したがって、本実施形態は、全ての点で例示的であり、限定的ではないと見なされるべきである。

上述の例示的な実施形態はまた、以下に限定されることなく、以下の付記によって全体的または部分的に記載され得る。

（付記１）
二次元（２Ｄ）顔画像の２つ以上の入力に基づいて三次元（３Ｄ）顔モデルを適応的に構築するためのサーバであって、前記サーバは、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと
を備え、
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに少なくとも、
入力取込デバイスから、前記２Ｄ顔画像の前記２つ以上の入力であって、前記画像取込デバイスから異なる距離で取り込まれる前記２つ以上の入力を受信させ、
前記２Ｄ顔画像の前記２つ以上の入力の各々の少なくとも１点に関する深度情報を決定させ、
前記深度情報の決定に応答して前記３Ｄ顔モデルを構築させる
ように構成されている、サーバ。

（付記２）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記２つ以上の入力の第１の入力における２つの基準点の間の第１のｘ軸距離および第１のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第１のｘ軸距離および前記第１のｙ軸距離を決定させ、
前記２つ以上の入力の第２の入力における２つの基準点の間の第２のｘ軸距離および第２のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第２のｘ軸距離および前記第２のｙ軸距離を決定させる
ように構成されている、付記１に記載のサーバ。

（付記３）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記深度情報を決定するために、（ｉ）前記第１のｘ軸距離および前記第２のｘ軸距離、ならびに（ｉｉ）前記第１のｙ軸距離および前記第２のｙ軸距離のうちの少なくとも１つの差を決定させる
ように構成されている、付記２に記載のサーバ。

（付記４）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記画像取込デバイスに対して異なる距離および角度で前記２つ以上の入力を取り込むように前記画像取込デバイスを制御させる
ように構成されている、付記１に記載のサーバ。

（付記５）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像の顔属性を決定させるように構成され、前記顔属性の決定に応答して前記３Ｄ顔モデルが構築される
付記１に記載のサーバ。

（付記６）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像の回転情報を決定させるように構成され、前記回転情報の決定に応答して前記３Ｄ顔モデルが構築される
付記１に記載のサーバ。

（付記７）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
（ｉ）前記第１のｘ軸距離および前記第２のｘ軸距離、ならびに（ｉｉ）前記第１のｙ軸距離および前記第２のｙ軸距離のうちの少なくとも１つの差に応答して前記画像取込デバイスを制御させる
ように構成されている、付記１に記載のサーバ。

（付記８）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御させる
ように構成されている、付記７に記載のサーバ。

（付記９）
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記顔画像の信頼性を検出するための少なくとも１つのパラメータを決定する
ように構成されている、付記１に記載のサーバ。

（付記１０）
二次元（２Ｄ）顔画像の２つ以上の入力に基づいて三次元（３Ｄ）顔モデルを適応的に構築するための方法であって、前記方法は、
入力取込デバイスから、前記２Ｄ顔画像の前記２つ以上の入力であって、前記画像取込デバイスから異なる距離で取り込まれる前記２つ以上の入力を受信することと、
前記２Ｄ顔画像の前記２つ以上の入力の各々の少なくとも１点に関する深度情報を決定することと、
前記深度情報の決定に応答して前記３Ｄ顔モデルを構築することと
を含む方法。

（付記１１）
前記２Ｄ顔画像の前記２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するステップは、
前記２つ以上の入力の第１の入力における２つの基準点の間の第１のｘ軸距離および第１のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第１のｘ軸距離および前記第１のｙ軸距離を決定することと、
前記２つ以上の入力の第２の入力における２つの基準点の間の第２のｘ軸距離および第２のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第２のｘ軸距離および前記第２のｙ軸距離を決定することと
を含む、付記１０に記載の方法。

（付記１２）
前記２Ｄ顔画像の前記２つ以上の入力の各々の少なくとも１点に関する深度情報を決定するステップは、
前記深度情報を決定するために、（ｉ）前記第１のｘ軸距離および前記第２のｘ軸距離、ならびに（ｉｉ）前記第１のｙ軸距離および前記第２のｙ軸距離のうちの少なくとも１つの差を決定すること
をさらに含む、付記１１に記載の方法。

（付記１３）
前記２つ以上の入力は、前記画像取込デバイスに対して異なる距離および角度で取り込まれる、付記１０に記載の方法。

（付記１４）
前記２Ｄ顔画像の顔属性を決定することをさらに含み、前記顔属性の決定に応答して前記３Ｄ顔モデルが構築される
付記１０に記載の方法。

（付記１５）
前記２Ｄ顔画像の回転情報を決定することをさらに含み、前記回転情報の決定に応答して前記３Ｄ顔モデルが構築される
付記１０に記載の方法。

（付記１６）
前記２Ｄ顔画像の前記２つ以上の入力を取り込むために、（ｉ）前記第１のｘ軸距離および前記第２のｘ軸距離、ならびに（ｉｉ）前記第１のｙ軸距離および前記第２のｙ軸距離のうちの少なくとも１つの差に応答して前記画像取込デバイスを制御すること
をさらに含む、付記１０に記載の方法。

（付記１７）
前記２Ｄ顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御すること
をさらに含む、付記１６に記載の方法。

（付記１８）
前記３Ｄ顔モデルを構築するステップは、
前記顔画像の信頼性を検出するための少なくとも１つのパラメータを決定すること
を含む、付記１０に記載の方法。

本出願は、２０１９年３月２９日に出願された、シンガポール特許出願第１０２０１９０２８８９Ｖ号明細書に基づき、その優先権を主張するものであり、その開示はその全体が本明細書に組み込まれる。

Claims

三次元（３Ｄ）顔モデルを適応的に構築するためのサーバであって、前記サーバは、
１つの画像取込デバイスと、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと
を備え、
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに少なくとも、
開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、前記１つの画像取込デバイスを用いて、異なる距離で同一人物の２つ以上の二次元（２Ｄ）顔画像を取り込ませ、
前記２Ｄ顔画像の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定させ、
前記深度情報の決定に応答して前記３Ｄ顔モデルを構築させる、
サーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記２つ以上の入力の第１の入力における２つの基準点の間の第１のｘ軸距離および第１のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第１のｘ軸距離および前記第１のｙ軸距離を決定させ、
前記２つ以上の入力の第２の入力における２つの基準点の間の第２のｘ軸距離および第２のｙ軸距離であって、それぞれｘ軸方向およびｙ軸方向の前記２つの基準点間の距離を表す前記第２のｘ軸距離および前記第２のｙ軸距離を決定させる
ように構成されている、請求項１に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記深度情報を決定するために、（ｉ）前記第１のｘ軸距離および前記第２のｘ軸距離、ならびに（ｉｉ）前記第１のｙ軸距離および前記第２のｙ軸距離のうちの少なくとも１つの差を決定させる
ように構成されている、請求項２に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記画像取込デバイスに対して異なる距離および角度で前記２つ以上の入力を取り込むように前記画像取込デバイスを制御させる
ように構成されている、請求項１に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像の顔属性を決定させるように構成され、前記顔属性の決定に応答して前記３Ｄ顔モデルが構築される
請求項１に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像の回転情報を決定させるように構成され、前記回転情報の決定に応答して前記３Ｄ顔モデルが構築される
請求項１に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
（ｉ）前記２つ以上の入力の第１の入力における２つの基準点の間の第１のｘ軸距離および前記２つ以上の入力の第２の入力における２つの基準点の間の第２のｘ軸距離、ならびに（ｉｉ）前記２つ以上の入力の第１の入力における２つの基準点の間の第１のｙ軸距離および前記２つ以上の入力の第２の入力における２つの基準点の間の第２のｙ軸距離のうちの少なくとも１つの差に応答して前記画像取込デバイスを制御させる
ように構成されている、請求項１に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバにさらに、
前記２Ｄ顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御させる
ように構成されている、請求項７に記載のサーバ。
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサとともに、前記サーバに、
前記顔画像の信頼性を検出するための少なくとも１つのパラメータを決定する
ように構成されている、請求項１に記載のサーバ。
三次元（３Ｄ）顔モデルを適応的に構築するための方法であって、前記方法は、
開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、１つの画像取込デバイスを用いて、異なる距離で同一人物の２つ以上の二次元（２Ｄ）顔画像を取り込むことと、
前記２Ｄ顔画の２つ以上の入力の各々の少なくとも１点に関する深度情報を決定することと、
前記深度情報の決定に応答して前記３Ｄ顔モデルを構築することと
を含む方法。