JP7264308B2 - 二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法 - Google Patents

二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法 Download PDF

Info

Publication number
JP7264308B2
JP7264308B2 JP2022505735A JP2022505735A JP7264308B2 JP 7264308 B2 JP7264308 B2 JP 7264308B2 JP 2022505735 A JP2022505735 A JP 2022505735A JP 2022505735 A JP2022505735 A JP 2022505735A JP 7264308 B2 JP7264308 B2 JP 7264308B2
Authority
JP
Japan
Prior art keywords
server
inputs
facial
face
axis distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022505735A
Other languages
English (en)
Other versions
JP2022526468A (ja
Inventor
ウェン シン タン
ティエン ヒオン リー
シン ク
イスカンダル ゴー
ルーク クリストファー ブーン キアト セオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022526468A publication Critical patent/JP2022526468A/ja
Application granted granted Critical
Publication of JP7264308B2 publication Critical patent/JP7264308B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Description

例示的な実施形態は、広く、ただし排他的ではなく、顔の生体検出(liveness detection)のシステムおよび方法に関する。具体的には、これらは、二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法に関する。
顔認識技術は、急速に人気が高まっており、デバイスのロックを解除するための生体認証としてモバイルデバイスで広く使用されてきた。しかしながら、顔認識技術の人気の高まりおよび認証方法としてのその採用は、多くの欠点および課題を伴う。パスワードおよび暗証番号(PIN)は、盗難および漏洩の可能性がある。人物の顔についても同じことが言える。攻撃者は、デバイス/サービスへのアクセスを得るために、(顔なりすましとしても知られる)対象ユーザの顔生体データを改ざんすることによって認証されたユーザになりすますことができる。顔なりすましは、公的に利用可能なソース(たとえばソーシャルネットワーキングサービス)から対象ユーザの写真(好ましくは高解像度)を単にダウンロードし、場合により対象ユーザの写真を紙に印刷し、認証プロセス中にデバイスの画像センサの前に対象人物の写真を提示する以外は、比較的簡単であり得、なりすまし者の付加的な技術的スキルを必要としない。
したがって、堅牢で効果的な認証を保証するために、顔認識技術に依存する認証方法における効果的な生体検出メカニズムが必要とされている。効果的な生体検出技術で強化された顔認識アルゴリズムは、顔なりすましに対する防御の追加の層を導入することができ、認証システムのセキュリティおよび信頼性を向上させることができる。しかしながら、既存の生体検出メカニズムは十分に堅牢ではない場合が多く、敵対者からの労力をほとんど伴わずに欺かれ、および/または迂回される可能性がある。たとえば、敵対者は、高解像度ディスプレイ上のユーザの録画ビデオを使用して認証されたユーザになりすますことができる。敵対者は、デバイスへの不正アクセスを得るために、モバイルデバイスのカメラの前で録画ビデオを再生することができる。このようなリプレイ攻撃は、公的に利用可能なソース(たとえばソーシャルネットワーキングサービス)から得られたビデオを用いて容易に実行することができる。
したがって、既存の顔認識技術に依存する認証方法は、容易に回避することができ、多くの場合、特に敵対者が対象人物(たとえば有名人)の画像および/またはビデオを取得および再生するのにほとんど労力を要しない場合、敵対者による攻撃に対して脆弱である。それにもかかわらず、顔認識技術に依存する認証方法は、パスワードまたは暗証番号の使用などの従来の形態の認証と比較して、より高度な利便性および優れたセキュリティを依然として提供することができる。顔認識技術に依存する認証方法はまた、モバイルデバイスにおいてより多くの方法でますます使用されている(たとえば、デバイスによって促進される支払いを認証する手段として、または機密データ、アプリケーション、および/またはサービスへのアクセスを得るための認証手段として)。
したがって、必要とされているのは、上述の問題のうちの1つ以上に対処しようとする、二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法である。さらに、他の望ましい特徴および特性は、添付図面および本開示のこの背景技術と併せて、以下の詳細な説明および添付請求項から明らかとなるだろう。
一態様は、三次元(3D)顔モデルを適応的に構築するためのサーバを提供する。前記サーバは、1つの画像取込デバイスと、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに少なくとも、開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、前記1つの画像取込デバイスを用いて、異なる距離で同一人物の2つ以上の二次元(2D)顔画像を取り込ませ、前記2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定させ、前記深度情報の決定に応答して前記3D顔モデルを構築させる
別の態様は、三次元(3D)顔モデルを適応的に構築するための方法を提供する。前記方法は、開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、1つの画像取込デバイスを用いて、異なる距離で同一人物の2つ以上の二次元(2D)顔画像を取り込むことと、前記2D顔画の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定することと、前記深度情報の決定に応答して前記3D顔モデルを構築することとを含む
本発明の実施形態は、単なる例として、以下の図面と併せて、以下の書面による説明から当業者にとってよりよく理解され、容易に明らかとなるだろう。
本開示の実施形態による、二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムの概略図である。 本開示の実施形態による、二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するための方法を示すフローチャートである。 本発明の実施形態による、顔画像の信頼性を判定するためのシーケンス図である。 本発明の実施形態による、動きセンサ情報および画像センサ情報を取得するためのシーケンス図である。 本発明の実施形態による、ライブネス(liveness)チャレンジ中にユーザが見る例示的なスクリーンショットである。 本発明の実施形態による、二次元顔画像に関連付けられた顔ランドマーク点の輪郭を示す図である。 本発明の実施形態による、3D顔モデルを構築するためのシーケンス図である。 本発明の実施形態による、3D顔モデルを構築するためのシーケンス図である。 本発明の実施形態による、3D顔モデルを構築するためのシーケンス図である。 図1のシステムを実現するために使用されるコンピューティングデバイスの概略図である。
当業者であれば、図中の要素が簡略化および明確化のために示されており、必ずしも縮尺通りに示されていないことを理解するだろう。たとえば、図、ブロック図、またはフローチャート中の要素のいくつかの寸法は、本実施形態の理解を深めるのを助けるために他の要素に対して誇張されている場合がある。
概要
顔認識に基づく生体認証システムが現実世界の用途でますます広く使用されるようになるにつれて、生体なりすまし(顔なりすましまたはプレゼンテーション攻撃としても知られる)はより大きな脅威となる。顔なりすましは、印刷攻撃、リプレイ攻撃、および3Dマスクを含むことができる。顔認識システムにおける顔なりすまし防止技術に対する現在のアプローチは、このような攻撃を認識しようとしており、一般に、いくつかの領域、すなわち画質、コンテキスト情報、および局所テクスチャ分析に分類される。具体的には、現在のアプローチは、主に実画像と偽画像との間の輝度成分の局所テクスチャパターンの分析および区別に焦点を当ててきた。しかしながら、現在のアプローチは、典型的には単一の画像に基づいており、このようなアプローチは、なりすまし顔画像を判定するための局所特徴(または単一の画像に固有の特徴)の使用に限定される。また、既存の画像センサは典型的に、人間ほど効果的に顔のライブネスを判定するのに十分な情報を生成する能力を有していない。顔のライブネスは、情報が3D画像に関連するか否かを判定することを含むことが、理解され得る。これは、深度情報などのグローバルコンテキスト情報は画像センサ(または画像取込デバイス)によって取り込まれた2D顔画像では失われることが多く、人物の単一の顔画像内の局所情報は一般に、顔のライブネスの正確で信頼できる評価を提供するのに不十分であるからである。
例示的な実施形態は、二次元(2D)顔画像の2つ以上の入力に基づいて三次元(3D)顔モデルを適応的に構築するためのサーバおよび方法を提供する。三次元(3D)顔モデルに関する情報は、人工ニューラルネットワークを使用して、顔画像の信頼性およびライブネスを検出するための少なくとも1つのパラメータを決定するために使用されることが可能である。特に、ニューラルネットワークは、顔のライブネスを検出し、認可されたユーザの実際の存在を確認するように構成された、ディープニューラルネットワークであり得る。請求されるサーバおよび方法を含む人工ニューラルネットワークは、多くの顔なりすまし技術に効果的に対抗することができる、確実性が高く信頼できる解決策を、有利に提供することができる。なお、ルールベースの学習および回帰モデルは、確実性が高く信頼できる解決策を提供するために別の実施形態で使用され得ることが、理解されるべきである。
様々な例示的な実施形態では、3D顔モデルを適応的に構築するための方法は、(i)入力取込デバイス(たとえば、1つ以上の画像センサを含むデバイス)から2D顔画像の2つ以上の入力を受信するステップであって、2つ以上の入力は画像取込デバイスから異なる距離で取り込まれる、ステップと、(ii)2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するステップと、(iii)深度情報の決定に応答して3D顔モデルを構築するステップとを含むことができる。様々な実施形態では、3D顔モデルを構築するステップは、(iv)顔画像の信頼性を検出するための少なくとも1つのパラメータを決定するステップを、さらに含むことができる。言い換えると、様々な例示的な実施形態は、顔なりすまし検出に使用可能な方法を提供する。方法は、(i)特徴取得、(ii)抽出、(iii)処理フェーズ、次いで(iv)ライブネス分類フェーズを含む。
(i)特徴取得、(ii)抽出、および(iii)処理段階では、人物の顔の3D顔モデル(すなわち数学的表現)が生成される。生成された3D顔モデルは、人物の2D顔画像と比較して、より多くの情報(x、y、およびz軸で)を含むことができる。本発明の様々な実施形態によるシステムおよび方法は、矢継ぎ早に2D顔画像の2つ以上の入力(すなわち、1つ以上の画像センサを用いて異なる物体距離または異なる焦点距離のいずれかの異なる近接度で取り込まれた2つ以上の画像)を使用して、人物の顔の数学的表現を構築することができる。さらに、異なる距離で取り込まれた2つ以上の入力が画像取込デバイスに対して異なる角度で取り込まれることも、理解され得る。上述のような取得方法から取得された2D画像の2つ以上の入力は、顔属性の深度情報(z軸)を取得するため、ならびに人物の顔の他の重要な顔属性および幾何学的特性を取り込むために、(ii)抽出フェーズで使用されることが可能である。
様々な実施形態では、以下でより詳細に記載されるように、(ii)抽出フェーズは、2D顔画像の2つ以上の入力の各々の少なくとも1点(たとえば顔ランドマーク点)に関する深度情報を決定するステップを含むことができる。次いで、(ii)抽出フェーズから取得された深度情報の決定に応答して、(iii)処理段階において、人物の顔の数学的表現(すなわち3D顔モデル)が構築される。様々な実施形態では、3D顔モデルは、基本的な顔構成を形成する特徴ベクトルのセットを備えることができ、特徴ベクトルは、3Dシーンにおける人物の顔原点を記述する。これにより、顔マップ上の各ペアの点の間の深度値の数学的定量化が可能になる。
所与の顔の基本的な顔構成の構築に加えて、画像センサに対して人物の頭部配向(頭部姿勢としても知られる)を推定する方法も開示される。つまり、人物の頭部姿勢は、画像センサに対して変化し得る(たとえば、画像センサがモバイルデバイス内に収容され、ユーザがモバイルデバイスを移動させる場合、またはユーザが固定入力取込デバイスに対して移動するとき)。人物の姿勢は、x、y、およびz軸の周りの画像センサの回転とともに変化し、回転は、ヨー、ピッチ、およびロール角を使用して表される。画像センサがモバイルデバイス内に収容されている場合、モバイルデバイスの配向は、軸ごとにデバイスと通信可能に結合された動きセンサ(たとえば、モバイルデバイス内に収容された加速度計)によって記録された加速度値(重力)から決定されることが可能である。さらに、画像センサに対する人物の頭部の3次元配向および位置は、顔特徴位置およびこれらの相対的な幾何学的関係を使用して決定されることが可能であり、(たとえばモバイルデバイスを基準点、または基準顔ランドマーク点として)旋回点に対するヨー、ピッチ、およびロール角に関して表されることが可能である。モバイルデバイスの配向情報および人物の頭部姿勢の配向情報はその後、人物の頭部姿勢に対するモバイルデバイスの配向および位置を決定するために使用される。
(iv)ライブネス分類フェーズでは、上記の段落で記載されたように、人物の深度特徴ベクトル(すなわち3D顔モデル)および取得された相対配向情報は、顔のライブネスの正確な予測を提供するために、分類プロセスで使用されることが可能である。ライブネス分類段階では、顔構成(すなわち3D顔モデル)、ならびにモバイルデバイスの空間および配向情報および人物の頭部姿勢が、顔のライブネスを検出するためにニューラルネットワークに供給される。
例示的な実施形態
例示的な実施形態は、単なる例として、図面を参照して記載される。図中の類似の参照番号および参照符号は、類似の要素または同等物を指す。
以下の説明のいくつかの部分は、コンピュータメモリ内のデータに対する動作のアルゴリズムおよび関数的または記号的表現に関して、明示的または暗示的に表される。これらのアルゴリズム記述および関数的または記号的表現は、当業者の作業の内容を他の当業者に最も効果的に伝えるためにデータ処理の当業者によって使用される手段である。アルゴリズムはここで、一般的に、所望の結果をもたらす自己矛盾のない一連のステップであると考えられる。ステップは、記憶、転送、結合、比較、およびその他の操作が行われ得る電気、磁気、または光信号などの物理量の物理的操作を必要とするものである。
別途明記されない限り、および以下から明らかなように、本明細書全体を通して、「関連付ける(associating)」、「計算する(calculating)」、「比較する(comparing)」、「決定する(determining)」、「転送する(forwarding)」、「生成する(generating)」、「識別する(identifying)」、「含む(including)」、「挿入する(inserting)」、「修正する(modifying)」、「受信する(receiving)」、「置き換える(replacing)」、「走査する(scanning)」、「送信する(transmitting)」、などのような用語を利用する議論は、コンピュータシステム内の物理量として表されるデータを、コンピュータシステム内の物理量として同様に表されるデータへと操作または変換する、コンピュータシステムまたは同様の電子デバイス、もしくはその他の情報記憶装置、送信装置、またはディスプレイ装置の動作およびプロセスを指すことが、理解されるだろう。
本明細書はまた、方法の動作を実行するための装置も開示する。このような装置は、必要な目的のために特別に構築されてもよく、あるいは内部に記憶されたコンピュータプログラムによって選択的に起動または再構成されるコンピュータまたはその他のコンピューティングデバイスを含んでもよい。本明細書に提示されるアルゴリズムおよびディスプレイは、いずれの特定のコンピュータまたはその他の装置にも本質的に関連していない。本明細書の教示によるプログラムとともに、様々な機械が使用され得る。あるいは、必要な方法ステップを実行するためにより特殊化された装置の構築が、適切であるかも知れない。コンピュータの構造は、以下の説明から明らかとなるだろう。
加えて、本明細書はまた、本明細書に記載される方法の個々のステップがコンピュータコードによって実行され得ることが当業者にとって明らかであるという点において、コンピュータプログラムを暗黙的に開示する。コンピュータプログラムは、いずれの特定のプログラミング言語およびその実施にも限定されるように意図されるものではない。本明細書に含まれる本開示の教示を実施するために、様々なプログラミング言語およびそのコーディングが使用され得ることは、理解されるだろう。また、コンピュータプログラムは、いずれの特定の制御フローにも限定されるように意図されるものではない。本発明の精神または範囲から逸脱することなく異なる制御フローを使用することが可能な、コンピュータプログラムのその他多くの変形例がある。
さらに、コンピュータプログラムのステップのうちの1つ以上は、連続的ではなく並列で実行されてもよい。このようなコンピュータプログラムは、任意のコンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、磁気または光ディスク、メモリチップ、またはコンピュータとのインターフェースに適したその他の記憶デバイスなどの記憶デバイスを含み得る。コンピュータ可読媒体はまた、インターネットシステムで例示されるようなハードワイヤード媒体、およびGSM携帯電話システムで例示されるような無線媒体も含み得る。コンピュータプログラムは、コンピュータ上にロードされて実行されると、好適な方法のステップを実施する装置を効果的にもたらす。
例示的な実施形態では、用語「サーバ」の使用は、単一のコンピューティングデバイス、または特定の機能を実行するためにともに動作する相互接続されたコンピューティングデバイスの少なくともコンピュータネットワークを意味し得る。言い換えると、サーバは、単一のハードウェアユニット内に含まれてもよく、またはいくつかもしくは多くの異なるハードウェアユニット間に分散されてもよい。
サーバの例示的な実施形態が図1に示されている。図1は、本開示の実施形態による、二次元(2D)顔画像の2つ以上の入力に基づいて三次元(3D)顔モデルを適応的に構築するためのサーバ100の概略図を示す。サーバ100は、図2に示されるような方法200を実施するために使用されることが可能である。サーバ100は、プロセッサ104およびメモリ106を備える処理モジュール102を含む。サーバ100はまた、処理モジュール102と通信可能に結合され、2D顔画像114の2つ以上の入力112を処理モジュール102に送信するように構成された、入力取込デバイス108も含む。処理モジュール102はまた、1つ以上の命令116を通じて入力取込デバイス108を制御するように構成されている。入力取込デバイス108は、1つ以上の画像センサ108A、108B...108Nを含むことができる。1つ以上の画像センサ108A、108B...108Nは、人物の2D顔画像114の2つ以上の入力が画像取込デバイスと人物との間の相対移動なしに画像取込デバイスから異なる距離で取り込まれ得るように、異なる焦点距離を有する画像センサを含み得る。本発明の様々な実施形態では、画像センサは、可視光センサおよび赤外線センサを含むことができる。入力取込デバイス108が単一の画像センサのみを含む場合、異なる距離で2つ以上の入力を取り込むために、画像取込デバイスと人物との間の相対移動が必要であり得ることもまた、理解され得る。
処理モジュール102は、入力取込デバイス108から2D顔画像114の2つ以上の入力112を受信し、2D顔画像114の2つ以上の入力112の各々の少なくとも1点に関する深度情報を決定し、深度情報の決定に応答して3D顔モデルを構築するように構成されることが可能である。
サーバ100はまた、処理モジュール102と通信可能に結合されたセンサ110も含む。センサ110は、処理モジュール102に加速度値118を検出および提供するように構成された、1つ以上の動きセンサであり得る。処理モジュール102はまた、決定モジュール112と通信可能に結合されている。決定モジュール112は、処理モジュール102から、人物の深度特徴ベクトル(すなわち3D顔モデル)ならびに人物の頭部姿勢に対する画像取込デバイスの配向および位置に関連付けられた情報を受信するように構成されることが可能であり、顔のライブネスの予測を提供するために受信した情報を用いて分類アルゴリズムを実行するように構成されることが可能である。
実施詳細-システム設計
本発明の様々な実施形態では、顔の生体検出のためのシステムは、2つのサブシステム、すなわち取込サブシステムおよび決定サブシステムを備えることができる。取込サブシステムは、入力取込デバイス108およびセンサ110を含むことができる。決定サブシステムは、処理モジュール102および決定モジュール112を含むことができる。取込サブシステムは、画像センサ(たとえばRGBカメラおよび/または赤外線カメラ)および1つ以上の動きセンサからデータを受信するように構成されることが可能である。決定サブシステムは、取込サブシステムによって提供される情報に基づいて、生体検出および顔検証のための決定を提供するように構成されることが可能である。
実施詳細-ライブネス決定プロセス
顔のライブネスは、いくつかの立体顔画像が入力取込デバイスに対して異なる距離で取り込まれる場合、なりすまし画像および/またはビデオと区別され得る。顔のライブネスはまた、実際の顔に固有の特定の顔特徴に基づいて、なりすまし画像および/またはビデオと区別されることも可能である。画像センサに近い実際の顔からの顔画像の顔特徴は、画像センサから遠い実際の顔からの画像の顔特徴よりも相対的に大きく見える。これは、たとえば広角レンズを有する画像センサを使用する距離によって生じた遠近歪みに起因する。次いで、例示的な実施形態は、顔画像を本物またはなりすましとして分類するために、これらの明確な違いを活用することができる。異なるカメラ視野角に対して遠距離または近距離で一連の顔ランドマーク(または明確な顔特徴)を識別するステップを含む、3D顔モデルを本物またはなりすましに分類するためにニューラルネットワークを訓練する方法もまた開示される。
実施詳細-ライブネス決定データフロー-データ取込
図3は、本発明の実施形態による、顔画像の信頼性を判定するためのシーケンス図300を示す。シーケンス図300は、ライブネス決定データフロープロセスとしても知られている。図4は、本発明の実施形態による、動きセンサ情報および画像センサ情報を取得するためのシーケンス図400(ライブネスプロセス400としても知られる)を示す。図4は、図3のシーケンス図300を参照して説明される。ライブネスプロセス400、ならびにライブネス決定データフロープロセス300は、2つ以上の入力が画像取込デバイスから異なる距離で取り込まれる、2D顔画像の2つ以上の入力のモーションキャプチャ302、ならびに1つ以上の動きセンサからの動き情報の取込304で始まる。様々な実施形態では、2つ以上の入力はまた、画像取込デバイスから異なる角度で取り込まれることも可能である。画像取込デバイスは、サーバ100の入力取込デバイス108であり得、1つ以上の動きセンサはサーバ100のセンサ110であり得る。本発明の様々な実施形態では、サーバ100はモバイルデバイスであり得る。情報は処理モジュール102に送信されることが可能であり、処理モジュール102は、情報を決定モジュール112に送信する前に、収集された情報が良質であること(輝度、鮮明度など)を保証するために事前ライブネス品質チェックを実行するように構成されることが可能である。本発明の実施形態では、デバイスの姿勢、ならびにデバイスの加速度も含むセンサデータもまた、取込プロセス304で取り込まれることが可能である。データは、ユーザがライブネスチャレンジに正しく応答したか否かを判定するのに役立つことができる。たとえば、ユーザの頭部は、入力取込デバイスの画像センサの投射に対して相対的に中心に位置合わせされることが可能であり、被写体の頭部位置、ロール、ピッチ、ヨーは、カメラに対して比例的に直線状でなければならない。一連の画像は、遠くのバウンディングボックス(bounding box)から始まって近くのバウンディングボックスに向かって徐々に移動しながら取り込まれる。
実施詳細-ライブネス決定データフロー-事前ライブネスフィルタリング
事前ライブネス品質チェック306は、収集されたデータが良質であり、ユーザの注意を伴わずに取り込まれないことを確実にするために2つ以上の入力の顔および背景の輝度、顔の鮮明度、ユーザの視線をチェックするステップを含むことができる。取り込まれた画像は、目距離(左目と右目との間の距離)によってソートされることが可能であり、同様の目距離を含む画像は除去され、目距離は入力取込デバイスに対する顔画像の近接度を示す。データ収集中に、視線検出、ボケ検出、または明度検出など、別の前処理方法が適用されてもよい。これは、取り込まれた画像にヒューマンエラーによって生じる環境の歪み、ノイズ、または外乱がないことを保証するためである。
実施詳細-ライブネス決定データフロー-ライブネスチャレンジ
入力取込デバイス108によって顔が取り込まれると、情報は一般に、平面2D画像センサ(たとえばCCDまたはCMOSセンサ)上に知覚的に投影される。平面2D画像センサ上への3D物体(たとえば顔)の投射は、顔認識および生体検出のための2D数学的データへの3D顔の変換を可能にすることができる。しかしながら、変換の結果、深度情報が失われる可能性がある。深度情報を維持するために、集光点への異なる距離/角度を有する複数のフレームが取り込まれ、3D顔被写体を2Dなりすましと区別するためにまとめて使用される。本発明の様々な実施形態では、ユーザが遠近法における変化を可能にするようにユーザの顔に対して自分のデバイスを(並進的におよび/または回転的に)移動するように促される、ライブネスチャレンジ404が含まれ得る。ユーザが画像センサのフレーム内に自分の顔を収めることができる限り、登録または検証中にユーザのデバイスの移動は制限されない。
図5は、本発明の実施形態による、ライブネスチャレンジ404中にユーザが見る例示的なスクリーンショット500を示す。図5は、ユーザが認証を実行しているときに、異なる距離の2つ以上の画像が入力取込デバイスによって取り込まれているときの、表示画面(たとえば例示的なモバイルデバイスの画面)上に示されるユーザインターフェースの遷移を示す。例示的な実施形態では、ユーザインターフェースは、視覚的なスキューモーフィズムを採用することができ、カメラシャッター絞りを示すことができる(図5参照)。ユーザインターフェースは動きベースであり、動作中のカメラシャッターを模倣することができる。可用性を向上させるために、各位置(スクリーンショット502、504、506、508)に対して妥当な時間内にユーザ命令が画面上に表示され得る。スクリーンショット502には、モバイルデバイスのカメラから距離d1に位置する顔の画像を取り込むための「全開」開口が開示されている。スクリーンショット502では、顔が至近距離で取り込まれ得るように、ユーザは画像センサの近くに顔を配置するように促され、顔はシミュレートされた絞りの開口の中に完全に示されている。スクリーンショット504では、画像センサから距離d2に位置する顔の画像を取り込むための「半開」開口である。スクリーンショット504では、顔がシミュレートされた絞りの「半開」開口の中に示されるように、ユーザは画像センサから少し遠くに顔を配置するように促され、d1<d2である。
スクリーンショット506では、顔がさらに遠くで取り込まれ得るように、ユーザは画像センサからさらに遠くに顔を配置するように促される。スクリーンショット506では、画像センサから距離d3に位置する顔の画像を取り込むための「四分の一開き」開口であり、d1<d2<d3である。スクリーンショット508では、ユーザには、人物の全ての画像が取り込まれ、画像が処理されていることを示す、「閉じた開口」が提示される。
本発明の様々な実施形態では、ユーザインターフェースの遷移の制御(すなわち画像取込デバイスの制御)は、2D顔画像の2つ以上の入力間で識別された変化の応答に基づくことができる。一実施形態では、変化は第1のx軸距離と第2のx軸距離との差であり得、第1のx軸距離および第2のx軸距離は2つの基準点間のx軸方向の距離を表し、2つの基準点は、2つ以上の入力の第1および第2の入力において識別される。代替実施形態では、変化は第1のy軸距離と第2のy軸距離との差であり得、第1のy軸距離および第2のy軸距離は2つの基準点間のy軸方向の距離を表し、2つの基準点は、2つ以上の入力の第1および第2の入力において識別される。言い換えると、2D顔画像の2つ以上の入力を取り込むような画像取込デバイスの制御は、(i)第1のx軸距離および第2のx軸距離、ならびに(ii)第1のy軸距離および第2のy軸距離のうちの少なくとも1つの差に対する応答に基づくことができる。上述の制御方法はまた、2D顔画像のさらなる入力を停止するために使用されることも可能である。例示的な実施形態では、2つの基準点のうちの第1の基準点は、ユーザの目に関連付けられた顔ランドマーク点であり得、2つの基準点のうちの第2の基準点は、ユーザの他方の目に関連付けられた別の顔ランドマーク点であり得る。
様々な実施形態では、画像センサは、可視光センサおよび赤外線センサを含むことができる。入力取込デバイスが1つ以上の画像センサを含む場合、1つ以上の画像センサの各々は、広角レンズ、望遠レンズ、可変焦点距離を有するズームレンズ、または通常レンズを含む写真レンズの群のうちの1つ以上を含むことができる。画像センサの前のレンズは交換可能であり得る(すなわち、入力取込デバイスは、画像センサの前に配置されたレンズを入れ替えることができる)ことも理解され得る。固定レンズを有する1つ以上の画像センサを有する入力取込デバイスでは、第1のレンズは、第2以降のレンズとは異なる焦点距離を有することができる。有利には、顔画像の2つ以上の入力を取り込むとき、ユーザに対する1つ以上の画像センサを有する入力取込デバイスの移動は省略されてもよい。つまり、2D顔画像の2つ以上の入力は、入力取込デバイスとユーザとの間の相対移動を伴わずに異なるレンズ(および画像センサ)を使用して異なる焦点距離で取り込まれることが可能なので、システムは、異なる距離で人物の顔画像の2つ以上の入力を自動的に取り込むように構成されることが可能である。様々な実施形態では、上述のようなユーザインターフェース遷移は、異なる焦点距離で取り込まれた入力と同期することができる。
実施詳細-ライブネス決定データフロー-データ処理
図2に示され、前の段落で言及された、(ii)2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するステップ、および(iii)深度情報の決定に応答して3D顔モデルを構築するステップが、より詳細に説明される。画像取込デバイスから異なる距離で取り込まれた2D顔画像の2つ以上の入力は、2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するために処理される。2D顔画像の2つ以上の入力の処理は、図1の処理モジュール102によって実行され得る。データ処理は、データフィルタリング、データ正規化、およびデータ変換を含むことができる。データフィルタリングでは、動きボケ、焦点ボケ、または生体検出にとって重要でも必要でもない余分なデータを伴って取り込まれた画像が除去され得る。データ正規化は、異なる入力取込デバイス間のハードウェアの違いに起因してデータに導入されたバイアスを除去することができる。データ変換では、データは、3次元シーンにおける人物の顔原点を記述する特徴ベクトルに変換され、特徴および属性の組み合わせ、ならびに人物の顔の幾何学的特性の計算を伴うことができる。データ処理はまた、たとえば入力取込デバイスの画像センサの構成から生じる差から、データノイズの一部を除去することもできる。データ処理はまた、3D顔の遠近歪みを2Dなりすまし顔と区別するために使用される顔特徴への焦点を強化することもできる。
図7Aおよび図7Bは、本発明の実施形態による、3D顔モデルを構築するためのシーケンス図を示す。本発明の実施形態では、3D顔モデルは、二次元顔画像に関連付けられた顔ランドマーク点に基づく深度情報の決定に応答して構築される。2D顔画像の2つ以上の入力の各々の少なくとも1点に関連する深度情報の決定(すなわち、取り込まれた画像からの特徴情報の抽出)もまた、図7Aから図7Cを参照して説明される。図7Aおよび図7Bに示されるように、2D顔画像画像702、704、706の2つ以上の入力の各々が最初に抽出され、選択された顔ランドマーク点のセットが顔バウンディングボックスに対して計算される。顔ランドマーク点600の例示的なセットが図6に示されている。本発明の実施形態では、顔バウンディングボックスは、顔ランドマーク抽出の精度および速度を向上させるために、一連の入力を通じて同じアスペクト比を有することができる。顔ランドマーク抽出708では、追跡点は、顔バウンディングボックスの幅および高さに対して画像の座標系に投影される。図6に示されるようなランドマーク点のセットのうち、他の全ての顔ランドマーク点の距離計算に基準顔ランドマーク点が使用される。これらの距離は、最終的に顔画像特徴として機能することになる。各顔ランドマーク点について、特定の顔ランドマーク点のxおよびyの点と基準顔ランドマーク点との差の絶対値を取ることにより、xおよびyの距離が計算される。単一の顔画像ランドマーク計算の合計出力は、基準顔ランドマーク点と、基準顔ランドマーク点以外の顔ランドマーク点の各々との一連の距離となる。2つ以上の入力702、704、706の各々の出力710、712、714が、図7Aおよび図7Bに示されている。したがって、出力710、712、714は、ランドマーク点から基準点までのx距離のセット、およびランドマーク点から基準点までのy距離のセットである。実施のためのサンプル擬似コードは、以下に示される通りである。
基準点doを除く顔ランドマークの各ランドマークについて、
x_距離=|ランドマーク.x-基準点.x|
y_距離=|ランドマーク.y-基準点.y|
言い換えると、2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するステップは、(a)2つ以上の入力の第1の入力における2つの基準点(すなわち、基準顔ランドマーク点および基準顔ランドマーク点以外の顔ランドマーク点のうちの1つ)の間の第1のx軸距離および第1のy軸距離を決定するステップであって、第1のx軸距離および第1のy軸距離はそれぞれx軸方向およびy軸方向の2つの基準点間の距離を表す、ステップと、(b)2つ以上の入力の第2の入力における2つの基準点の間の第2のx軸距離および第2のy軸距離を決定するステップであって、第2のx軸距離および第2のy軸距離はそれぞれx軸方向およびy軸方向の2つの基準点間の距離を表す、ステップとを備える。ステップは、顔ランドマーク点(すなわち後続の基準点)の各々について、および2D顔画像の後続の入力について、繰り返される。したがって、顔ランドマーク点が決定されて顔ランドマーク点と基準顔ランドマーク点との間の距離が計算されると、決定710、712、714の出力は、ランドマークの特徴点のセット(たとえばp)を有する一連のN個のフレームであり、すなわち画像のN個のフレームは、合計N*p個の特徴点718を生成する(図7C参照)。N*p個の特徴点718はグラフ720にも示されており、これは(グラフ720のx軸に示される)2D顔画像の2つ以上の入力にわたってx軸距離およびy軸距離がどのように変化するかを示している。
出力710、712、714(表718およびグラフ720に示される)は、深度情報を決定するように、(i)第1のx軸距離および第2のx軸距離ならびに(ii)第1のy軸距離および第2のy軸距離のうちの少なくとも1つの差を決定することによって、深度特徴点の結果的なリストを取得するために使用されることが可能である。例示的な実施形態では、深度情報は、線形回帰716を使用して取得され得る。
具体的には、出力710、712、714は線形回帰716を使用して低減され、各特徴点は線形回帰を使用して線に適合され、特徴点ペアを結ぶ線の勾配が取得される。出力は、一連の属性値722である。線形回帰に適合される前に一連の特徴点を平滑化するために、小移動平均またはその他の平滑化関数が使用され得る。このように、2D顔画像の顔属性値722が決定され、顔属性722の決定に応答して3D顔モデルが構築されることが可能である。
また、本発明の様々な実施形態では、動きセンサ110(たとえば加速度計およびジャイロスコープ)から得られたカメラ角度データが、特徴点として追加され得る。カメラ角度情報は、加速度計から重力加速度を計算することによって取得可能である。加速度計センサデータは、重力およびその他のデバイス加速度情報を含むことができる。デバイスの角度を決定するために、(-9.81から9.81の間の値で、x、y、z軸にあり得る)重力加速度のみが考慮される。一実施形態では、各フレームについて3つの回転値(ロール、ピッチ、およびヨー)が取得され、フレームからの値の平均が計算され、特徴点として追加される。つまり、特徴点は、3つの平均値のみからなる。別の実施形態では、平均は計算されず、特徴点は、各フレームの回転値(ロール、ピッチ、およびヨー)からなる。つまり、特徴点は、n個のフレーム*(ロール、ピッチ、およびヨー)値からなる。このように、2D顔画像の回転情報が決定され、回転情報の決定に応答して3D顔モデルが構築されることが可能である。
実施詳細-ライブネス決定データフロー-分類プロセス
次いで、人物の深度特徴ベクトル、ならびにロール、ピッチ、およびヨーの3つの回転値の平均は、顔のライブネスの正確な予測を取得するために、分類プロセスを受ける。分類プロセスでは、顔のライブネスを検出するために、基本的な顔構成、ならびにモバイルデバイスの空間および配向情報、ならびに人物の頭部姿勢が深層学習モデルに供給される。
したがって、顔の生体検出のためのシステムおよび方法が開示される。顔のライブネスを検出するため、および認証されたユーザの実際の存在を確認するために、深層学習ベースのなりすまし顔検出メカニズムが採用される。本発明の実施形態では、顔の生体検出メカニズムには2つの主要なフェーズがある。第1のフェーズは、データ取込、事前ライブネスフィルタリング、ライブネスチャレンジ、データ処理、および特徴変換を伴う。このフェーズでは、2D顔画像の別々の入力のセットからの基本的な顔構成が、矢継ぎ早に画像センサ(たとえばモバイルデバイスのカメラ)から異なる近接度で取り込まれ、この基本的な顔構成は、顔マップ上の点の各ペア間の深度値の数学的定量化を可能にする特徴ベクトルのセットからなる。顔の基本的な顔構成の構築に加えて、モバイルデバイスのカメラのビューに対する人物の頭部配向もまた、モバイルデバイスのx、y、およびz軸の重力値、ならびに人物の頭部姿勢の配向から決定される。第2のフェーズは分類プロセスであり、モバイルデバイスとユーザの頭部姿勢との間の相対配向情報とともに、基本的な顔構成が顔のライブネス予測のための分類プロセスに供給され、ユーザのアカウントへのユーザアクセスを許可する前に、認証されたユーザの実際の存在を確認する。したがって、要約すると、つまり、別々の顔画像のセットからの3D顔構成が、モバイルデバイスのカメラから異なる近接度で取り込まれることが可能である。3D顔構成、ならびに任意選択的にモバイルデバイスとユーザの頭部姿勢との間の相対配向情報は、顔のライブネス予測のための分類プロセスへの入力として使用されることが可能である。このメカニズムは、多くの顔なりすまし技術に効果的に対抗することができる、確実性が高く信頼できる解決策をもたらすことができる。
図8は、以下でコンピュータシステム800として交換可能に呼ばれる、例示的なコンピューティングデバイス800を示し、1つ以上のこのようなコンピューティングデバイス800は、図2の方法200を実行するために使用され得る。例示的なコンピューティングデバイス800の1つ以上の構成要素は、システム100、および入力取込デバイス108を実装するために使用されることが可能である。コンピューティングデバイス800の以下の説明は、単なる例として提供され、限定するように意図されるものではない。
図8に示されるように、例示的なコンピューティングデバイス800は、ソフトウェアルーチンを実行するためのプロセッサ807を含む。明確さのために単一のプロセッサが示されているが、コンピューティングデバイス800はまた、マルチプロセッサシステムを含んでもよい。プロセッサ807は、コンピューティングデバイス800の他の構成要素との通信のための通信インフラストラクチャ806に接続されている。通信インフラストラクチャ806は、たとえば、通信バス、クロスバー、またはネットワークを含み得る。
コンピューティングデバイス800は、ランダムアクセスメモリ(RAM)などのメインメモリ808と、二次メモリ810とをさらに含む。二次メモリ810は、たとえば、ハードディスクドライブ、ソリッドステートドライブ、またはハイブリッドドライブであり得る記憶ドライブ812、および/または磁気テープドライブ、光ディスクドライブ、ソリッドステート記憶ドライブ(USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど)などを含み得るリムーバブル記憶ドライブ817を含み得る。リムーバブル記憶ドライブ817は、既知の方法でリムーバブル記憶媒体877に対して読み出しおよび/または書き込みを行う。リムーバブル記憶媒体877は、磁気テープ、光ディスク、不揮発性メモリ記憶媒体などを含んでもよく、リムーバブル記憶ドライブ817によって読み書きされる。(1人または複数の)当業者によって理解されるように、リムーバブル記憶媒体877は、コンピュータ実行可能プログラムコード命令および/またはデータが記憶された、コンピュータ可読記憶媒体を含む。
代替的な実施では、二次メモリ810は、追加的または代替的に、コンピュータプログラムまたはその他の命令をコンピューティングデバイス800にロードできるようにする他の同様の手段を含んでもよい。このような手段は、たとえば、リムーバブル記憶ユニット822およびインターフェース850を含むことができる。リムーバブル記憶ユニット822およびインターフェース850の例は、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームコンソールデバイスに見られるものなど)、リムーバブルメモリチップ(EPROMまたはPROMなど)および関連するソケット、リムーバブルソリッドステート記憶ドライブ(USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど)、ならびにソフトウェアおよびデータをリムーバブル記憶ユニット822からコンピュータシステム800に転送できるようにする他のリムーバブル記憶ユニット822およびインターフェース850を含む。
コンピューティングデバイス800は、少なくとも1つの通信インターフェース827も含む。通信インターフェース827は、ソフトウェアおよびデータが通信経路826を介してコンピューティングデバイス800と外部デバイスとの間で転送されることを可能にする。本発明の様々な実施形態では、通信インターフェース827は、コンピューティングデバイス800と、公開データまたはプライベートデータ通信ネットワークなどのデータ通信ネットワークとの間でデータが転送されることを可能にする。通信インターフェース827は、異なるコンピューティングデバイス800の間でデータを交換するために使用されてもよく、このようなコンピューティングデバイス800は、相互接続されたコンピュータネットワークの一部を形成する。通信インターフェース827の例は、モデム、ネットワークインターフェース(イーサネットカードなど)、通信ポート(シリアル、パラレル、プリンタ、GPIB、IEEE1394、RJ45、USB)、関連する回路を有するアンテナ、などを含むことができる。通信インターフェース827は、有線であってもよく、または無線であってもよい。通信インターフェース527を介して転送されたソフトウェアおよびデータは、電気、電磁、光、または通信インターフェース527によって受信可能なその他の信号であり得る、信号の形態である。これらの信号は、通信経路526を介して通信インターフェースに供給される。
図8に示されるように、コンピューティングデバイス800は、関連するディスプレイ850に画像をレンダリングするための動作を実行するディスプレイインターフェース802と、(1つまたは複数の)関連するスピーカ857を介してオーディオコンテンツを再生するための動作を実行するためのオーディオインターフェース852とをさらに含む。
本明細書で使用される際に、用語「コンピュータプログラム製品」は、部分的に、リムーバブル記憶媒体877、リムーバブル記憶ユニット822、記憶ドライブ812にインストールされたハードディスク、もしくは通信経路826(無線リンクまたはケーブル)を介して通信インターフェース827にソフトウェアを搬送する搬送波を指すことができる。コンピュータ可読記憶媒体は、実行および/または処理のために記録された命令および/またはデータをコンピューティングデバイス800に提供する任意の非一時的不揮発性有形記憶媒体を指す。このような記憶媒体の例は、このようなデバイスがコンピューティングデバイス800の内部にあるか外部にあるかにかかわらず、磁気テープ、CD-ROM、DVD、Blu-ray(登録商標)ディスク、ハードディスクドライブ、ROM、または集積回路、ソリッドステート記憶ドライブ(USBフラッシュドライブ、フラッシュメモリデバイス、ソリッドステートドライブ、またはメモリカードなど)、ハイブリッドドライブ、光磁気ディスク、またはPCMCIAカードなどのコンピュータ可読カードを含む。コンピューティングデバイス800へのソフトウェア、アプリケーションプログラム、命令および/またはデータの提供にも関与し得る一時的または非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワークデバイスへのネットワーク接続、ならびに電子メール送信およびウェブサイトに記録された情報などを含むインターネットまたはイントラネットを含む。
コンピュータプログラム(コンピュータプログラムコードとも呼ばれる)は、メインメモリ808および/または二次メモリ810に記憶される。コンピュータプログラムはまた、通信インターフェース827を介して受信されることも可能である。このようなコンピュータプログラムは、実行されると、コンピューティングデバイス800が本明細書で論じられる実施形態の1つ以上の特徴を実行することを可能にする。様々な実施形態では、コンピュータプログラムは、実行されると、プロセッサ807が上述の実施形態の特徴を実行することを可能にする。したがって、このようなコンピュータプログラムは、コンピュータシステム800のコントローラを表す。
ソフトウェアは、コンピュータプログラム製品に記憶され、リムーバブル記憶ドライブ817、記憶ドライブ812、またはインターフェース850を使用してコンピューティングデバイス800にロードされてもよい。コンピュータプログラム製品は、非一時的コンピュータ可読媒体であってもよい。あるいは、コンピュータプログラム製品は、通信経路826を介してコンピュータシステム800にダウンロードされてもよい。ソフトウェアは、プロセッサ807によって実行されると、コンピューティングデバイス800に、図2に示されるような方法200を実行するのに必要な動作を実行させる。
図8の実施形態は、システム800の動作および構造を説明するための単なる例として提示されることが、理解されるべきである。したがって、いくつかの実施形態では、コンピューティングデバイス800の1つ以上の特徴が省略され得る。また、いくつかの実施形態では、コンピューティングデバイス800の1つ以上の特徴が組み合わせられてもよい。加えて、いくつかの実施形態では、コンピューティングデバイス800の1つ以上の特徴が1つ以上の構成要素部分に分割されてもよい。
図8に示される要素は、上記の実施形態で記載されたようなシステムの様々な機能および動作を実行するための手段を提供するように機能することが、理解されるだろう。
コンピューティングデバイス800が、二次元(2D)顔画像に基づいて三次元(3D)顔モデルを適応的に構築するためのシステム100を実現するように構成されているとき、システム100は、実行されると、システム100に、(i)入力取込デバイスから2D顔画像の2つ以上の入力を受信し、2つ以上の入力は画像取込デバイスから異なる距離で取り込まれ、(ii)2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定し、(iii)深度情報の決定に応答して3D顔モデルを構成する、ことを備えるステップを実行させるアプリケーションが記憶された、非一時的コンピュータ可読媒体を有することになる。
広く記載されるように、本発明の精神または範囲から逸脱することなく特定の実施形態に示されるような例示的な実施形態に対して多くの変形および/または修がなされ得ることは、当業者によって理解されるだろう。したがって、本実施形態は、全ての点で例示的であり、限定的ではないと見なされるべきである。
上述の例示的な実施形態はまた、以下に限定されることなく、以下の付記によって全体的または部分的に記載され得る。
(付記1)
二次元(2D)顔画像の2つ以上の入力に基づいて三次元(3D)顔モデルを適応的に構築するためのサーバであって、前記サーバは、
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリと
を備え、
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに少なくとも、
入力取込デバイスから、前記2D顔画像の前記2つ以上の入力であって、前記画像取込デバイスから異なる距離で取り込まれる前記2つ以上の入力を受信させ、
前記2D顔画像の前記2つ以上の入力の各々の少なくとも1点に関する深度情報を決定させ、
前記深度情報の決定に応答して前記3D顔モデルを構築させる
ように構成されている、サーバ。
(付記2)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
前記2つ以上の入力の第1の入力における2つの基準点の間の第1のx軸距離および第1のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第1のx軸距離および前記第1のy軸距離を決定させ、
前記2つ以上の入力の第2の入力における2つの基準点の間の第2のx軸距離および第2のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第2のx軸距離および前記第2のy軸距離を決定させる
ように構成されている、付記1に記載のサーバ。
(付記3)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
前記深度情報を決定するために、(i)前記第1のx軸距離および前記第2のx軸距離、ならびに(ii)前記第1のy軸距離および前記第2のy軸距離のうちの少なくとも1つの差を決定させる
ように構成されている、付記2に記載のサーバ。
(付記4)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
前記画像取込デバイスに対して異なる距離および角度で前記2つ以上の入力を取り込むように前記画像取込デバイスを制御させる
ように構成されている、付記1に記載のサーバ。
(付記5)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
前記2D顔画像の顔属性を決定させるように構成され、前記顔属性の決定に応答して前記3D顔モデルが構築される
付記1に記載のサーバ。
(付記6)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
前記2D顔画像の回転情報を決定させるように構成され、前記回転情報の決定に応答して前記3D顔モデルが構築される
付記1に記載のサーバ。
(付記7)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
(i)前記第1のx軸距離および前記第2のx軸距離、ならびに(ii)前記第1のy軸距離および前記第2のy軸距離のうちの少なくとも1つの差に応答して前記画像取込デバイスを制御させる
ように構成されている、付記1に記載のサーバ。
(付記8)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
前記2D顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御させる
ように構成されている、付記7に記載のサーバ。
(付記9)
前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
前記顔画像の信頼性を検出するための少なくとも1つのパラメータを決定する
ように構成されている、付記1に記載のサーバ。
(付記10)
二次元(2D)顔画像の2つ以上の入力に基づいて三次元(3D)顔モデルを適応的に構築するための方法であって、前記方法は、
入力取込デバイスから、前記2D顔画像の前記2つ以上の入力であって、前記画像取込デバイスから異なる距離で取り込まれる前記2つ以上の入力を受信することと、
前記2D顔画像の前記2つ以上の入力の各々の少なくとも1点に関する深度情報を決定することと、
前記深度情報の決定に応答して前記3D顔モデルを構築することと
を含む方法。
(付記11)
前記2D顔画像の前記2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するステップは、
前記2つ以上の入力の第1の入力における2つの基準点の間の第1のx軸距離および第1のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第1のx軸距離および前記第1のy軸距離を決定することと、
前記2つ以上の入力の第2の入力における2つの基準点の間の第2のx軸距離および第2のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第2のx軸距離および前記第2のy軸距離を決定することと
を含む、付記10に記載の方法。
(付記12)
前記2D顔画像の前記2つ以上の入力の各々の少なくとも1点に関する深度情報を決定するステップは、
前記深度情報を決定するために、(i)前記第1のx軸距離および前記第2のx軸距離、ならびに(ii)前記第1のy軸距離および前記第2のy軸距離のうちの少なくとも1つの差を決定すること
をさらに含む、付記11に記載の方法。
(付記13)
前記2つ以上の入力は、前記画像取込デバイスに対して異なる距離および角度で取り込まれる、付記10に記載の方法。
(付記14)
前記2D顔画像の顔属性を決定することをさらに含み、前記顔属性の決定に応答して前記3D顔モデルが構築される
付記10に記載の方法。
(付記15)
前記2D顔画像の回転情報を決定することをさらに含み、前記回転情報の決定に応答して前記3D顔モデルが構築される
付記10に記載の方法。
(付記16)
前記2D顔画像の前記2つ以上の入力を取り込むために、(i)前記第1のx軸距離および前記第2のx軸距離、ならびに(ii)前記第1のy軸距離および前記第2のy軸距離のうちの少なくとも1つの差に応答して前記画像取込デバイスを制御すること
をさらに含む、付記10に記載の方法。
(付記17)
前記2D顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御すること
をさらに含む、付記16に記載の方法。
(付記18)
前記3D顔モデルを構築するステップは、
前記顔画像の信頼性を検出するための少なくとも1つのパラメータを決定すること
を含む、付記10に記載の方法。
本出願は、2019年3月29日に出願された、シンガポール特許出願第10201902889V号明細書に基づき、その優先権を主張するものであり、その開示はその全体が本明細書に組み込まれる。

Claims (10)

  1. 次元(3D)顔モデルを適応的に構築するためのサーバであって、前記サーバは、
    1つの画像取込デバイスと、
    少なくとも1つのプロセッサと、
    コンピュータプログラムコードを含む少なくとも1つのメモリと
    を備え、
    前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに少なくとも、
    開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、前記1つの画像取込デバイスを用いて、異なる距離で同一人物の2つ以上の二次元(2D)顔画像を取り込ませ
    前記2D顔画像の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定させ、
    前記深度情報の決定に応答して前記3D顔モデルを構築させる
    サーバ。
  2. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
    前記2つ以上の入力の第1の入力における2つの基準点の間の第1のx軸距離および第1のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第1のx軸距離および前記第1のy軸距離を決定させ、
    前記2つ以上の入力の第2の入力における2つの基準点の間の第2のx軸距離および第2のy軸距離であって、それぞれx軸方向およびy軸方向の前記2つの基準点間の距離を表す前記第2のx軸距離および前記第2のy軸距離を決定させる
    ように構成されている、請求項1に記載のサーバ。
  3. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
    前記深度情報を決定するために、(i)前記第1のx軸距離および前記第2のx軸距離、ならびに(ii)前記第1のy軸距離および前記第2のy軸距離のうちの少なくとも1つの差を決定させる
    ように構成されている、請求項2に記載のサーバ。
  4. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
    前記画像取込デバイスに対して異なる距離および角度で前記2つ以上の入力を取り込むように前記画像取込デバイスを制御させる
    ように構成されている、請求項1に記載のサーバ。
  5. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
    前記2D顔画像の顔属性を決定させるように構成され、前記顔属性の決定に応答して前記3D顔モデルが構築される
    請求項1に記載のサーバ。
  6. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
    前記2D顔画像の回転情報を決定させるように構成され、前記回転情報の決定に応答して前記3D顔モデルが構築される
    請求項1に記載のサーバ。
  7. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
    (i)前記2つ以上の入力の第1の入力における2つの基準点の間の第1のx軸距離および前記2つ以上の入力の第2の入力における2つの基準点の間の第2のx軸距離、ならびに(ii)前記2つ以上の入力の第1の入力における2つの基準点の間の第1のy軸距離および前記2つ以上の入力の第2の入力における2つの基準点の間の第2のy軸距離のうちの少なくとも1つの差に応答して前記画像取込デバイスを制御させる
    ように構成されている、請求項1に記載のサーバ。
  8. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバにさらに、
    前記2D顔画像のさらなる入力の取得を停止するように前記画像取込デバイスを制御させる
    ように構成されている、請求項7に記載のサーバ。
  9. 前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサとともに、前記サーバに、
    前記顔画像の信頼性を検出するための少なくとも1つのパラメータを決定する
    ように構成されている、請求項1に記載のサーバ。
  10. 次元(3D)顔モデルを適応的に構築するための方法であって、前記方法は、
    開口の大きさが異なるカメラシャッター絞りをそれぞれ示す複数のユーザインタフェースを表示することにより、1つの画像取込デバイスを用いて、異なる距離で同一人物の2つ以上の二次元(2D)顔画像を取り込むことと、
    前記2D顔画の2つ以上の入力の各々の少なくとも1点に関する深度情報を決定することと、
    前記深度情報の決定に応答して前記3D顔モデルを構築することと
    を含む方法。
JP2022505735A 2019-03-29 2020-03-27 二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法 Active JP7264308B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10201902889VA SG10201902889VA (en) 2019-03-29 2019-03-29 System and Method for Adaptively Constructing a Three-Dimensional Facial Model Based on Two or More Inputs of a Two- Dimensional Facial Image
SG10201902889V 2019-03-29
PCT/JP2020/015256 WO2020204150A1 (en) 2019-03-29 2020-03-27 System and method for adaptively constructing a three-dimensional facial model based on two or more inputs of a two-dimensional facial image

Publications (2)

Publication Number Publication Date
JP2022526468A JP2022526468A (ja) 2022-05-24
JP7264308B2 true JP7264308B2 (ja) 2023-04-25

Family

ID=72666778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022505735A Active JP7264308B2 (ja) 2019-03-29 2020-03-27 二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法

Country Status (6)

Country Link
US (1) US20220189110A1 (ja)
EP (1) EP3948774A4 (ja)
JP (1) JP7264308B2 (ja)
CN (1) CN113632137A (ja)
SG (1) SG10201902889VA (ja)
WO (1) WO2020204150A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428399B (zh) * 2019-07-05 2022-06-14 百度在线网络技术(北京)有限公司 用于检测图像的方法、装置、设备和存储介质
CN117058329B (zh) * 2023-10-11 2023-12-26 湖南马栏山视频先进技术研究院有限公司 一种人脸快速三维建模方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130235033A1 (en) 2012-03-09 2013-09-12 Korea Institute Of Science And Technology Three dimensional montage generation system and method based on two dimensional single image
WO2015098222A1 (ja) 2013-12-26 2015-07-02 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
JP2016505280A (ja) 2012-10-12 2016-02-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患者の顔面データにアクセスするためのシステム
US20160349045A1 (en) 2014-12-19 2016-12-01 Andrei Vladimirovich Klimov A method of measurement of linear dimensions of three-dimensional objects
JP2018523326A (ja) 2015-09-16 2018-08-16 グーグル エルエルシー 全球状取込方法
JP2019032295A (ja) 2017-08-09 2019-02-28 ミツミ電機株式会社 測距カメラ

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369101B2 (en) * 2003-06-12 2008-05-06 Siemens Medical Solutions Usa, Inc. Calibrating real and virtual views
US9804395B2 (en) * 2014-01-29 2017-10-31 Ricoh Co., Ltd Range calibration of a binocular optical augmented reality system
WO2019030957A1 (en) * 2017-08-09 2019-02-14 Mitsumi Electric Co., Ltd. DISTANCE MEASUREMENT CAMERA
US20200213576A1 (en) * 2017-09-14 2020-07-02 Oregon State University Automated calibration target stands
US10810707B2 (en) * 2018-11-29 2020-10-20 Adobe Inc. Depth-of-field blur effects generating techniques

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130235033A1 (en) 2012-03-09 2013-09-12 Korea Institute Of Science And Technology Three dimensional montage generation system and method based on two dimensional single image
JP2016505280A (ja) 2012-10-12 2016-02-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 患者の顔面データにアクセスするためのシステム
WO2015098222A1 (ja) 2013-12-26 2015-07-02 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
US20160349045A1 (en) 2014-12-19 2016-12-01 Andrei Vladimirovich Klimov A method of measurement of linear dimensions of three-dimensional objects
JP2018523326A (ja) 2015-09-16 2018-08-16 グーグル エルエルシー 全球状取込方法
JP2019032295A (ja) 2017-08-09 2019-02-28 ミツミ電機株式会社 測距カメラ

Also Published As

Publication number Publication date
CN113632137A (zh) 2021-11-09
US20220189110A1 (en) 2022-06-16
SG10201902889VA (en) 2020-10-29
JP2022526468A (ja) 2022-05-24
EP3948774A1 (en) 2022-02-09
EP3948774A4 (en) 2022-06-01
WO2020204150A1 (en) 2020-10-08

Similar Documents

Publication Publication Date Title
US10762334B2 (en) System and method for entity recognition
US9652663B2 (en) Using facial data for device authentication or subject identification
US11023757B2 (en) Method and apparatus with liveness verification
Raghavendra et al. Presentation attack detection for face recognition using light field camera
WO2019218621A1 (zh) 活体检测方法及装置、电子设备和存储介质
WO2018040307A1 (zh) 一种基于红外可见双目图像的活体检测方法及装置
TWI766201B (zh) 活體檢測方法、裝置以及儲存介質
CN102985933B (zh) 区分真人面部与平坦表面
CN111194449A (zh) 用于人脸活体检测的系统和方法
WO2016084072A1 (en) Anti-spoofing system and methods useful in conjunction therewith
CN109325933A (zh) 一种翻拍图像识别方法及装置
EP2842075A1 (en) Three-dimensional face recognition for mobile devices
CN115457664A (zh) 一种活体人脸检测方法及装置
CN110956114A (zh) 人脸活体检测方法、装置、检测系统及存储介质
JP5015126B2 (ja) 画像生成方法、画像認証方法、画像生成装置、画像認証装置、プログラム、および記録媒体
JP7264308B2 (ja) 二次元顔画像の2つ以上の入力に基づいて三次元顔モデルを適応的に構築するためのシステムおよび方法
US11244182B2 (en) Spoof detection by estimating subject motion from captured image frames
CN112446254A (zh) 人脸追踪的方法及相关装置
CN112580615B (zh) 一种活体的认证方法、认证装置及电子设备
CN114202677A (zh) 认证车辆内部中的乘员的方法和系统
CN111126283A (zh) 一种自动过滤模糊人脸的快速活体检测方法及系统
US20230419737A1 (en) Methods and systems for detecting fraud during biometric identity verification
WO2022172430A1 (ja) 判定方法、判定プログラム、及び情報処理装置
Fokkema Using a challenge to improve face spoofing detection
KR20180108361A (ko) 얼굴 인증 방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230327

R151 Written notification of patent or utility model registration

Ref document number: 7264308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151