JP2024018980A

JP2024018980A - 顔認識におけるラップされた攻撃の検出

Info

Publication number: JP2024018980A
Application number: JP2023100509A
Authority: JP
Inventors: ポウロミラハ; 永男蔡
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-07-29
Filing date: 2023-06-20
Publication date: 2024-02-08
Also published as: US20240037995A1

Abstract

【課題】ライブネス検出トレーニングデータセットを生成し、ライブネス検出モデルをトレーニングし、ライブネス検出を行う方法、デバイス及びシステムを提供する。【解決手段】方法は、顔の複数の本物の画像を取得することと、複数の本物の画像をニューラルネットワークに提供することと、ニューラルネットワークの出力に基づいて複数の本物の画像に対応する複数の人工画像を生成することと、複数の本物の画像及び複数の人工画像に基づいてライブネス検出モデルをトレーニングすることと、を含み、ライブネス検出モデルを用いて、顔の入力画像が顔のライブ画像を含むか否かを判断することによってライブネス検出が行われる。【選択図】図９Ａ

Description

本開示は、ラップ攻撃（wrap attack）検出に関し、より詳細には、機械学習又はディープラーニング技法を用いて、ラップ攻撃検出のためのトレーニングデータを生成し、トレーニングデータに基づいてラップ攻撃検出を行うことに関する。

バイオメトリック認証は、近年、セキュリティ及びユーザー利便性の増大のために、従来の認証手法の代わりに、又はそれに加えて用いられている。バイオメトリック認証は、多くの異なる生体特性、例えば、虹彩、指紋、静脈及び顔の特性に基づいて行われてよい。特に顔の特性は、モバイルデバイス、コンピューター又は他のデバイスにおけるＩＤ管理、オンライン支払い、アクセス制御、自動車用途、及びアクティブ認証等の多くの用途におけるバイオメトリック認証のために用いられてよい。

しかしながら、関連技術のバイオメトリックシステムは、バイオメトリックシステムの動作を欺くか又は他の形でこれに干渉することを目的とした、様々なタイプの提示攻撃、すなわち、バイオメトリック捕捉サブシステム、例えばカメラに対する不正な提示に対し脆弱である。例えば、顔等のバイオメトリック特性のコピーを人工的に表すアーティファクトが、登録されたユーザーになりすまし、攻撃者を認証するためにバイオメトリックシステムに提示される場合がある。

提示攻撃の例は、登録されたユーザーのプリントされた写真（例えば、顔画像）が提示される場合があるプリント攻撃、及び登録されたユーザーの画像が、モバイルフォン等の表示デバイスにより提示される表示攻撃、及び登録されたユーザーのビデオが提示されるビデオ攻撃等の２次元（２Ｄ）攻撃を含む。

関連技術のライブネス検出方式は、様々な提示攻撃検出機構を用いて提示攻撃を自動的に検出及び防止する。そのような機構は、ユーザーを検証するための３Ｄ顔深度マップを作成する深度マップ分析による顔検出、及びリアルタイムサーマル画像に基づいてユーザーを検証するサーマル撮像ベースの顔ライブネス検出を含んでよい。しかしながら、これらの機構は様々な欠点を有する。例えば、３Ｄ顔深度分析及びサーマルベースの顔ライブネス検出は、共に、必要とされる追加のセンサー（例えば、サーマルカメラ、ＲＧＢ－Ｄ画像センサー）から結果として生じる過度なコスト及び複雑性の双方を生じる。

加えて、これらの深度ベースの又はサーマルベースの機構は、提示攻撃の他の例、例えば、安価で容易に利用可能なプリントマスクが、登録されたユーザーになりすますために攻撃者によって装着されるか又は他の形で提示される場合があるラップ攻撃等の３次元（３Ｄ）攻撃に対し脆弱である場合がある。

ライブネス検出トレーニングデータセットを生成し、ライブネス検出トレーニングデータセットに基づいてライブネス検出モデルをトレーニングする方法が提供される。ライブネス検出を行う方法、デバイス及びシステムも提供される。

本開示の一態様によれば、ライブネス検出システムをトレーニングする方法は、顔の複数の本物の画像を取得することと、複数の本物の画像をニューラルネットワークに提供することと、ニューラルネットワークの出力に基づいて複数の本物の画像に対応する複数の人工画像を生成することと、複数の本物の画像及び複数の人工画像に基づいてライブネス検出モデルをトレーニングすることとを含み、ライブネス検出モデルを用いて、顔の入力画像が顔のライブ画像を含むか否かを判断することによってライブネス検出が行われる。

ニューラルネットワークは、変分オートエンコーダー－敵対的生成ネットワーク（ＶＡＥ－ＧＡＮ）を含むことができる。

複数の人工画像は、少なくとも１つの人工ラップ攻撃画像を含むことができる。

少なくとも１つの人工ラップ攻撃画像は、ラップ攻撃パラメーターを用いて生成される。

ラップ攻撃パラメーターの第１の値は、少なくとも１つの人工ラップ攻撃画像が、平坦なマスクに対応する平面状の顔画像を含んでよいことを示してよく、ラップ攻撃パラメーターの第２の値は、少なくとも１つの人工ラップ攻撃画像が、ラップされたマスクに対応するラップされた顔画像を含んでよいことを示す。

複数の本物の画像は、ラップ攻撃パラメーターの第１の値を有する複数の第１の本物の画像と、ラップ攻撃パラメーターの第２の値を有する複数の第２の本物の画像とを含んでよく、複数の第１の本物の画像及び複数の第２の本物の画像に基づいて、ラップ攻撃パラメーターの第３の値を有する少なくとも１つの人工ラップ攻撃画像が生成されてよい。

ライブネス検出モデルをトレーニングすることは、特徴抽出器を用いて、複数の本物の画像及び複数の人工画像から特徴を抽出することと、抽出された特徴に基づいてライブネス検出モデルをトレーニングすることとを含んでよい。

ニューラルネットワークに含まれる識別器は、複数の人工画像が生成された後、特徴抽出器として用いてよい。

ライブネス検出モデルは、サポートベクトルマシン（ＳＶＭ）を含んでよい。

本開示の一態様によれば、ライブネス検出を行う方法は、顔の入力画像を取得することと、入力画像に関する情報をライブネス検出モデルに提供することと、ライブネス検出モデルの出力に基づいて、入力画像が顔のライブ画像であるか否かを判断することとを含み、ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、複数の人工画像は、複数の本物の画像に基づいてニューラルネットワークによって生成される。

ニューラルネットワークは、変分オートエンコーダー－敵対的生成ネットワーク（ＶＡＥ－ＧＡＮ）を含んでよい。

入力画像に関する情報は、入力画像の少なくとも１つの特徴を含んでよく、少なくとも１つの特徴は、特徴抽出器を用いて抽出してよい。

特徴抽出器は、複数の人工画像が生成された後のニューラルネットワークに含まれる識別器を含んでよい。

顔の入力画像は、ビデオの少なくとも１つのフレームを含んでよい。

本開示の一態様によれば、ライブネス検出を行うデバイスは、命令を記憶するように構成されたメモリと、少なくとも１つのプロセッサであって、顔の入力画像を取得しと、入力画像に関する情報をライブネス検出モデルに提供し、ライブネス検出モデルの出力に基づいて、入力画像が顔のライブ画像であるか否かを判断する、命令を実行するように構成された、少なくとも１つのプロセッサとを備え、ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、複数の人工画像は、複数の本物の画像に基づいてニューラルネットワークによって生成される。

複数の人工画像は、少なくとも１つの人工ラップ攻撃画像を含んでよい。

本開示の一態様によれば、非一時的コンピューター可読媒体は命令を記憶し、命令がライブネス検出を行うデバイスの１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに、顔の入力画像を取得させ、入力画像に関する情報をライブネス検出モデルに提供させ、ライブネス検出モデルの出力に基づいて、入力画像が顔のライブ画像であるか否かを判断させ、ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、複数の人工画像は、複数の本物の画像に基づいてニューラルネットワークによって生成される。

これらの及び／又は他の態様は、添付の図面と併せて以下の説明から明らかとなり、より容易に理解される。

本明細書に記載のシステム及び／又は方法が実装されてよい例示的な環境のブロック図である。実施形態によるデバイスの例示的な構成要素のブロック図である。実施形態による、ライブネス検出トレーニングデータセットを生成する例示的なニューラルネットワークのブロック図である。実施形態による、ライブネス検出モデルをトレーニングする例示的なトレーニングシステムのブロック図である。実施形態による、ライブネス検出モデルをトレーニングする例示的なトレーニングシステムのブロック図である。実施形態による、ライブネス検出モデルをトレーニングする例示的なトレーニングシステムのブロック図である。実施形態による例示的なライブネス検出システムのブロック図である。実施形態による例示的なライブネス検出システムのブロック図である。実施形態による例示的なライブネス検出システムのブロック図である。実施形態による、ライブネス検出システムの例示的なユーザーインターフェーススクリーンを示す図である。実施形態による、ライブネス検出システムの例示的なユーザーインターフェーススクリーンを示す図である。実施形態による、例示的な真正な画像及びラップ攻撃画像を、ライブネス検出システムに対応する、対応する視覚化と共に示す図である。実施形態による、なりすまし防止データセットからの例示的な画像を示す図である。実施形態による、なりすまし防止データセットからの例示的な画像を示す図である。実施形態による、なりすまし防止データからの例示的なビデオのフレームを示す図である。実施形態による、なりすまし防止データセットからの例示的な画像を示す図である。実施形態による、ライブネス検出システムに対応する実験結果を示す図である。実施形態による、ライブネス検出システムに対応する実験結果を示す図である。実施形態による、ライブネス検出システムに対応する実験結果を示す図である。実施形態による、ライブネス検出トレーニングデータセットを生成し、ライブネス検出システムをトレーニングする方法のフローチャートである。実施形態によるライブネス検出方法のフローチャートである。

これより、本開示の例示的な実施形態を、添付の図面を参照して詳細に説明する。ここで、類似の参照符号は、全体を通じて類似の要素を指す。しかしながら、本開示は、本明細書に記載の実施形態に限定されず、或る実施形態からの特徴及び構成要素は、別の実施形態において含まれても省かれてよいことが理解される。

さらに、本明細書において用いられるとき、「～のうちの少なくとも１つ」等の表現は、要素のリストに先行しているとき、リストの個々の要素ではなく、要素のリスト全体を修飾する。例えば、「［Ａ］、［Ｂ］及び［Ｃ］のうちの少なくとも１つ」又は「［Ａ］、［Ｂ］又は［Ｃ］のうちの少なくとも１つ」という表現は、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢ、Ｂ及びＣ、又はＡ、Ｂ及びＣを意味する。

ここでは、本明細書において「第１」及び「第２」等の用語を使用して様々な要素が記述される場合があるが、これらの要素はこれらの用語によって制限されるべきではない（例えば、相対的順序又は重要性を指定するものと解釈されるべきではない）ことも理解される。これらの用語は、或る要素を別の要素と区別するためにのみ用いられる。

さらに、本明細書において用いられるとき、単数形「a」、「an」、及び「the」は、別段の明示的な又は周囲の文脈による指示のない限り、複数形も含むように意図されている。

本開示の１つ以上の実施形態は、ライブネス検出のためにトレーニングデータセットを生成し、生成されたトレーニングデータセットを用いてライブネス検出モデルのトレーニングを行い、トレーニングされたライブネス検出モデルを用いてライブネス検出を行う方法、デバイス及びシステムを提供する。実施形態において、ライブネス検出トレーニングデータセット及びライブネス検出モデルは、ラップ攻撃等の提示攻撃を検出し、防ぐことに関係し、そのために用いられてよい。ラップ攻撃では、例えば、攻撃者によって、認可されていないアクセスを得るために、顔認識、識別及び／又は認証システムの登録されたユーザーになりすますように、プリントされたマスクが装着又は提示される場合がある。実施形態において、ラップ攻撃は、なりすますか又は深度ベースの検出技法を欺くために、プリントされたマスク、例えば紙のマスクを用いて顔の少なくとも一部をラッピングするか又は包むことを含む場合がある。

本開示の１つ以上の実施形態は、そのようなラップ攻撃防止技法の実施を単純化しうる。概して、ラップ攻撃検出手法は、ラップ攻撃に対し保護するようにライブネス検出システムをトレーニングするために、真正のサンプル及び攻撃サンプルの双方の利用可能性に依存しうる。実施形態において、真正のサンプルは、本物のサンプル若しくは本物の画像、又はライブサンプル若しくはライブ画像と呼ばれてもよく、認可されたユーザーによる真正なアクセス試行に対応してよい。実施形態において、攻撃サンプルは、アーティファクトサンプルと呼ばれてもよく、認可されていない又はなりすましのアクセス試行又は攻撃、例えばラップ攻撃に対応してよい。しかしながら、トレーニングデータセットとして有用であってよい現在利用可能ななりすまし防止データベースの多くが、非商業的使用又は研究目的のみを意図されている。

したがって、実施形態は、ライブネス検出トレーニングデータセット、例えば、ラップ攻撃等の提示攻撃の検出及び防止を支援してよいトレーニングデータセットを生成する方法、デバイス及びシステムに関係してよい。特に、実施形態は、ニューラルネットワーク（ＮＮ）、ディープＮＮ、機械学習、及びディープラーニング技法のうちの少なくとも１つを用いて、ライブネス検出トレーニングデータセットを生成することに関係してよい。実施形態はまた、生成されたライブネス検出トレーニングデータセットに基づいてライブネス検出モデルをトレーニングし、トレーニングされた検出モデルを用いてライブネス検出を行う方法、デバイス及びシステムに関係してよい。実施形態において、ライブネス検出モデルは、ＮＮであってよく、又は所望に応じて任意の他のタイプの検出モデルであってよい。

実施形態において、人工ＮＮと呼ばれてもよいＮＮは、情報処理のために数学モデル又は計算モデルを用いる人工ニューロンの相互接続されたグループを含んでよい。ＮＮは、ネットワークを通って流れる外部情報又は内部情報に基づいてその構造を変更しうる適応的システムであってよい。ＮＮを用いて、入力及び出力間の複雑な関係をモデル化するか、又はデータ内のパターンを見つけることができる。

実施形態において、ＮＮは、公的に又は商業的に利用可能な真正のサンプルに基づいてライブネス検出トレーニングデータセットを生成することに用いられてよい。例えば、実施形態は、変分オートエンコーダー（ＶＡＥ）、敵対的生成ネットワーク（ＧＡＮ）及び／又は、ＶＡＥ－ＧＡＮと呼ばれてよいそれらの組合せの中からの少なくとも１つのＮＮの使用に関係してよい。実施形態において、ＶＡＥ－ＧＡＮアーキテクチャは、真正のサンプルを用いて攻撃サンプルを生成することによって、トレーニングデータセット、例えばライブネス検出トレーニングデータセットを生成してよい。実施形態において、ＶＡＥ－ＧＡＮ等のＮＮによって生成された攻撃サンプルは、人工攻撃サンプルと呼ばれてよく、これは、真正のサンプルに基づいてよいが、実際の攻撃サンプルの特性を共有してよい。実施形態において、真正の顔画像は、例えば、公的に又は商業的に利用可能な顔認識画像データセットからの真正の顔画像を含んでよい。実施形態において、人工攻撃サンプルは、真正の顔画像に基づいてよく、実際のラップ攻撃画像の特性を有してよい人工ラップ攻撃画像を含んでよい。

実施形態において、真正のサンプル及び人工攻撃サンプルを用いて、トレーニングデータセットを生成してよく、これを用いてライブネス検出モデルをトレーニングしてよい。例えば、トレーニングデータセットは、真正の顔画像及び対応する人工ラップ攻撃画像を含みうるライブネス検出トレーニングデータセットであってよい。

実施形態において、ＶＡＥ－ＧＡＮの１つ以上のコンポーネントを用いて、ライブネスモデルをトレーニングするか、又はライブネス検出を行ってよい。例えば、ＶＡＥ－ＧＡＮは、エンコーダー及び識別器等の要素を含んでよく、これらのコンポーネントのうちの１つ以上が、トレーニングデータセットに含まれる真正のサンプル及び人工攻撃サンプルの識別的特徴又は際立った特徴等の特徴を抽出しうる特徴抽出器として有用であってよく、これらの抽出された特徴をトレーニング中にライブネス検出モデルに提供してよいが、実施形態はこれに限定されない。

図１は、本明細書に記載のシステム及び／又は方法を実装することができる一例示の環境１００の図である。図１に示されているように、環境１００は、ユーザーデバイス１１０、プラットフォーム１２０、及びネットワーク１３０を含み得る。環境１００のデバイスは、有線接続、無線接続、又は有線接続と無線接続との組合せを介して相互接続することができる。実施形態において、上記の図１を参照して説明される機能及び動作は、いずれも図１に示されている要素の任意の組合せによって実行することができる。

ユーザーデバイス１１０は、プラットフォーム１２０に関連付けられた情報を受信、生成、格納、処理、及び／又は提供することが可能な１つ以上のデバイスを含む。例えば、ユーザーデバイス１１０は、コンピューティングデバイス（例えば、デスクトップコンピューター、ラップトップコンピューター、タブレットコンピューター、携帯型コンピューター、スマートスピーカー、サーバー等）、携帯電話（例えば、スマートフォン、無線電話等）、ウェアラブルデバイス（例えば、スマートグラス又はスマートウォッチ）、又は同様のデバイスを含み得る。いくつかの実施態様において、ユーザーデバイス１１０は、プラットフォーム１２０から情報を受信すること及び／又はプラットフォーム１２０へ情報を送信してよい。

プラットフォーム１２０は、情報を受信、生成、格納、処理、及び／又は提供することができる１つ以上のデバイスを含む。いくつかの実施態様において、プラットフォーム１２０は、クラウドサーバー、又はクラウドサーバーのグループを含み得る。いくつかの実装において、プラットフォーム１２０は、特定のニーズに応じて、或る特定のソフトウェアコンポーネントを入れ替えられるよう、モジュール式に設計されてよい。したがって、プラットフォーム１２０は、異なる用途に合わせて、容易及び／又は迅速に再構成することができる。

いくつかの実装において、図示のように、プラットフォーム１２０はクラウドコンピューティング環境１２２においてホストされてもよい。注目すべき点として、本明細書に記載の実施態様においては、プラットフォーム１２０がクラウドコンピューティング環境１２２においてホストされるものとして述べているが、いくつかの実装においては、プラットフォーム１２０は、クラウドベースでなくてもよい（すなわち、クラウドコンピューティング環境の外で実装されてよい）、又は一部をクラウドベースとしてもよい。

クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストする環境を含む。クラウドコンピューティング環境１２２は、プラットフォーム１２０をホストするシステム（複数の場合もある）及び／又はデバイス（複数の場合もある）の物理的位置及び構成について、エンドユーザー（例えば、ユーザーデバイス１１０）が知ることを必要としない計算、ソフトウェア、データアクセス、ストレージ等のサービスを提供し得る。図示のように、クラウドコンピューティング環境１２２は、コンピューティングリソース１２４のグループ（まとめて「（複数の）コンピューティングリソース１２４」と称し、個別に「コンピューティングリソース１２４」と称する）を含んでもよい。

コンピューティングリソース１２４は、１つ以上のパーソナルコンピューター、コンピューティングデバイスのクラスター、ワークステーションコンピューター、サーバーデバイス、又は他のタイプの計算及び／又は通信デバイスを含む。いくつかの実施態様において、コンピューティングリソース１２４は、プラットフォーム１２０をホストし得る。クラウドリソースは、コンピューティングリソース１２４において実行する計算インスタンス、コンピューティングリソース１２４において提供されるストレージデバイス、コンピューティングリソース１２４によって提供されるデータ転送デバイス等を含み得る。いくつかの実施態様において、コンピューティングリソース１２４は、有線接続、無線接続、又は有線接続と無線接続との組合せを介して、他のコンピューティングリソース１２４と通信してよい。

図１に更に示されているように、コンピューティングリソース１２４は、１つ以上のアプリケーション（「ＡＰＰ」）１２４－１、１つ以上の仮想マシン（「ＶＭ」）１２４－２、仮想化ストレージ（「ＶＳ」）１２４－３、１つ以上のハイパーバイザー（「ＨＹＰ」）１２４－４等のクラウドリソースのグループを含む。

アプリケーション１２４－１は、ユーザーデバイス１１０に提供され得る又はユーザーデバイス１１０によってアクセスされ得る、１つ以上のソフトウェアアプリケーションを含む。アプリケーション１２４－１によって、ソフトウェアアプリケーションをユーザーデバイス１１０にインストールして実行する必要性をなくすことができる。例えば、アプリケーション１２４－１は、プラットフォーム１２０に関連付けられたソフトウェア、及び／又はクラウドコンピューティング環境１２２を介して提供することが可能な任意の他のソフトウェアを含むことができる。いくつかの実施態様において、１つのアプリケーション１２４－１は、仮想マシン１２４－２を介して、１つ以上の他のアプリケーション１２４－１との間で情報を送信／受信することができる。

仮想マシン１２４－２は、物理マシンのようなプログラムを実行するマシン（例えば、コンピューター）のソフトウェア実装を含む。仮想マシン１２４－２は、用途、及び仮想マシン１２４－２による任意の実機との対応の度合いに応じて、システム仮想マシン又はプロセス仮想マシンのいずれかであってよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ」）の実行をサポートする完全なシステムプラットフォームを提供し得る。プロセス仮想マシンは、単一のプログラムを実行し、単一のプロセスをサポートし得る。いくつかの実装において、仮想マシン１２４－２は、ユーザー（例えば、ユーザーデバイス１１０）に代わって実行してもよく、データ管理、同期、又は長時間のデータ転送等、クラウドコンピューティング環境１２２のインフラストラクチャを管理することができる。

仮想化ストレージ１２４－３は、１つ以上のストレージシステム及び／又は１つ以上のデバイスを含み、それらはコンピューティングリソース１２４のストレージシステム又はデバイス内で仮想化技術を使用する。いくつかの実装において、ストレージシステムの文脈においては、仮想化のタイプは、ブロック仮想化及びファイル仮想化を含み得る。ブロック仮想化とは、物理ストレージ又は異種構造に関係なく、ストレージシステムにアクセスすることができるように物理ストレージから論理ストレージを抽象化（分離）することを指し得る。このような分離により、ストレージシステムの管理者がエンドユーザーのストレージを管理する方法について、柔軟性を確保することができる。ファイル仮想化により、ファイルレベルでアクセスするデータと、ファイルが物理的に格納されている場所との依存関係をなくすことができる。これにより、ストレージの使用、サーバーの統合、及び／又は無停止のファイル移行を最適化することができる。

ハイパーバイザー１２４－４は、コンピューティングリソース１２４等のホストコンピューター上で複数のオペレーティングシステム（例えば、「ゲストオペレーティングシステム」）を同時に実行することを可能にするハードウェア仮想化技術を提供することができる。ハイパーバイザー１２４－４は、仮想オペレーティングプラットフォームをゲストオペレーティングシステムに提示することができるとともに、ゲストオペレーティングシステムの実行を管理することもできる。様々なオペレーティングシステムの複数のインスタンスは、仮想化されたハードウェアリソースを共有可能である。

ネットワーク１３０は、１つ以上の有線及び／又は無線ネットワークを含む。例えば、ネットワーク１３０は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多重アクセス（ＣＤＭＡ）ネットワーク等）、公衆陸上移動体ネットワーク（ＰＬＭＮ）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、電話網（例えば、公衆交換電話網（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワーク等、及び／又は、これらのタイプ又は他のタイプのネットワークの組合せを含み得る。

図１に示されているデバイス及びネットワークの数及び配置は、一例として示したものである。実際には、図１に示されているものと比して、デバイス及び／又はネットワークを多くする、デバイス及び／又はネットワークを少なくする、デバイス及び／又はネットワークを異ならせる、又はデバイス及び／又はネットワークの配置を異ならせてよい。さらに、図１に示されている２つ以上のデバイスを単一のデバイス内で実装することができる、又は図１に示されている単一のデバイスを複数の分散型デバイスとして実装されてよい。加えて、又は代替的に、環境１００のデバイスのセット（例えば、１つ以上のデバイス）は、環境１００のデバイスの別のセットによって実行されるものとして説明される１つ以上の機能を実行してよい。

図２は、デバイス２００の例示のコンポーネントの図である。デバイス２００は、ユーザーデバイス１１０及び／又はプラットフォーム１２０に対応し得る。図２に示されているように、デバイス２００は、バス２１０、プロセッサ２２０、メモリ２３０、ストレージコンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、及び通信インターフェース２７０を含んでよい。

バス２１０は、デバイス２００のコンポーネント間の通信を可能とするコンポーネントを含むことができる。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組合せで実装することができる。プロセッサ２２０は、ＣＰＵ（central processing unit）、ＧＰＵ（graphics processing unit）、ＡＰＵ（accelerated processing unit）、マイクロプロセッサ、マイクロコントローラー、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は別のタイプの処理コンポーネントとすることができる。いくつかの実施態様において、プロセッサ２２０は、機能を実行するようにプログラムすることが可能な１つ以上のプロセッサを含む。メモリ２３０は、プロセッサ２２０が使用する情報及び／又は命令を格納するランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、及び／又は別のタイプのダイナミック又はスタティックストレージデバイス（例えば、フラッシュメモリ、磁気メモリ、及び／又は光学メモリ）を含む。

ストレージコンポーネント２４０は、デバイス２００の動作と使用に関連する情報及び／又はソフトウェアを格納する。例えば、ストレージコンポーネント２４０は、対応するドライブと合わせて、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は別のタイプの非一時的コンピューター可読媒体を含み得る。入力コンポーネント２５０は、ユーザー入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロフォン）等を介して、デバイス２００が情報を受信できるようにするコンポーネントを含む。加えて、又は代替的に、入力コンポーネント２５０は、情報を検知するセンサー（例えば、全地球測位システム（ＧＰＳ）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエーター）を含んでよい。出力コンポーネント２６０は、デバイス２００からの出力情報を提供するコンポーネント（例えば、ディスプレイ、スピーカー、及び／又は１つ以上の発光ダイオード（ＬＥＤ））を含む。

通信インターフェース２７０は、有線接続、無線接続、又は有線接続と無線接続との組合せ等を介して、デバイス２００が他のデバイスと通信することを可能にするトランシーバー型コンポーネント（例えば、トランシーバー、及び／又は別個の受信機と送信機）を含む。通信インターフェース２７０は、デバイス２００が別のデバイスから情報を受信すること及び／又は別のデバイスに情報を提供することを可能にし得る。例えば、通信インターフェース２７０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線（ＲＦ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラーネットワークインターフェース等を含むことができる。

デバイス２００は、本明細書に記載の１つ以上の処理を実行することができる。デバイス２００は、メモリ２３０及び／又はストレージコンポーネント２４０等の非一時的コンピューター可読媒体に格納されたソフトウェア命令をプロセッサ２２０が実行することにより、これらの処理を実行することができる。コンピューター可読媒体は、本明細書においては、非一時的メモリデバイスとして定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間又は複数の物理ストレージデバイスにわたって分散したメモリ空間を含む。

ソフトウェア命令は、別のコンピューター可読媒体から、又は通信インターフェース２７０を介して別のデバイスから、メモリ２３０及び／又はストレージコンポーネント２４０に読み込まれ得る。メモリ２３０及び／又はストレージコンポーネント２４０に格納されたソフトウェア命令は、実行された時、プロセッサ２２０に対して、本明細書に記載の１つ以上の処理を実行させることができる。

加えて、又は代替的に、本明細書に記載された１つ以上の処理を実行するためにハードワイヤード回路を、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて使用することができる。したがって、本明細書に記載の実施態様は、ハードウェア回路とソフトウェアとの任意の特定の組合せに限定されるものではない。

図２に示されているコンポーネントの数及び配置は、一例として示したものである。実際には、デバイス２００は、図２で示されているものと比して、コンポーネントを多くする、コンポーネントを少なくする、コンポーネントを異ならせる、又はコンポーネントの配置を異ならせてよい。加えて、又は代替的に、デバイス２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）は、デバイス２００のコンポーネントの別のセットによって実行されるものとして説明される１つ以上の機能を実行してよい。

図３～図９Ｂに関して以下で論じられるように、実施形態において、上記で論考した要素のうちの少なくとも１つを用いて、ライブネス検出トレーニングデータセットを生成するシステム又はデバイス、ライブネス検出モデルをトレーニングするシステム又はデバイス、及びライブネス検出を行うシステム又はデバイスのうちの少なくとも１つを実装してよい。

図３は、実施形態による、ライブネス検出トレーニングデータセットを生成する例示的なデータセット生成システム３００のブロック図である。実施形態において、データセット生成システム３００は、提示攻撃、例えば、プリントされたマスク攻撃又はラップ攻撃を識別するための敵対的な識別的特徴の使用に関係してよい。実施形態において、敵対的な識別的特徴は、スペクトル撮像又はＲＧＢ－Ｄ撮像等の先進的な撮像方式に頼ることなく２Ｄプリントされたマスク攻撃又はラップ攻撃を確実に検出するためのものである。図３～図９Ｂの例は、以下で顔画像に基づいたライブネス検出に関して説明されるが、実施形態はそれに限定されない。実施形態を用いて、任意の特性、例えば、虹彩、指紋、静脈特性、又は所望に応じた任意の他の特性等の他のバイオメトリック特性に基づいて、ライブネス検出又は任意の他の検出若しくは識別が実行されてもよいことが理解されるべきである。

上記で論じたように、多くの関連技術の技法は、真正のサンプル及び攻撃サンプルの双方を含むトレーニングデータセットの利用可能性に依拠する。しかしながら、そのようなトレーニングデータセットは、実際に取得するのが困難であるか又は不可能である場合がある。例えば、ＦＲＧＣデータセット及びＳＷＡＮ－ＭＢＤ等のデータセットは、研究又は非商用目的でのみ利用可能である場合がある。

したがって、本開示の実施形態は、ＶＡＥ－ＧＡＮアーキテクチャ等のＮＮアーキテクチャを用いて、真正のサンプルの潜在的な特徴表現をモデル化及び利用して、人工攻撃サンプルを生成してよい。結果として、真正のサンプル及び攻撃サンプルの双方を含むトレーニングデータセットは、入力として真正のサンプルのみを用いて生成されてよい。

概して、ＶＡＥに対応するＮＮ要素は、例えば、本物のサンプル又は真正のサンプルであってよい入力データの分布を学習してよい。真正の画像、及びラップ攻撃画像等の攻撃画像においてピクセルレベルの差異が存在するため、真正のサンプルのＲＧＢ画像にわたってＶＡＥを学習又はトレーニングすることにより、本物のサンプル又は真正のサンプルのみのロバストな潜在的表現を提供してよい。このため、ＶＡＥエンコーダーを通じて本物のサンプル及び偽物のサンプルを通すことにより、これらのサンプルにおける潜在的な表現の差異が生じることになる。さらに、ＧＡＮに対応するＮＮ要素を用いた敵対的トレーニングは、ＶＡＥ要素が、例えば、以下でより詳細に論じられるパラメーターＺ等の追加のパラメーターを用いて、人工攻撃サンプルを生成するのに役立ってよい。

実施形態において、データセット生成システム３００は、本物のサンプルを含みうる画像データ３０２を受け取ってよい。実施形態において、本物のサンプルは、本物の顔画像、例えば、１つ以上の公的に又は商業的に利用可能な顔認識データベースからの顔画像を含んでよい。実施形態において、そのようなデータベースは、顔認識グランドチャレンジ（ＦＲＧＣ）データセット、ＳＷＡＮマルチモードバイオメトリックデータセット（ＳＷＡＮ－ＭＢＤ）、又は任意の商業的に利用可能なデータセットを含んでよい。実施形態において、入力データ３０２は、本物のサンプル又は真正のサンプルのみを含んでもよく、攻撃サンプルを含まなくてもよいが、実施形態はこれに限定されない。

実施形態において、データセット生成システム３００は、入力データ３０２に対し前処理を行いうる前処理モジュール３０４を含んでよい。例えば、前処理モジュール３０４は、顔及びランドマーク検出、スケーリング、顔領域のクロッピング、及び入力ＲＧＢ画像の動的範囲を特定の範囲、例えば［０，２５５］に制約する正規化等の動作を行ってよい。実施形態において、入力データ３０２に含まれる本物のサンプルは、人工攻撃サンプルを生成するための、又はトレーニングデータセットに含めるための、入力としてのそれらの適性を高めるように前処理されてよい。実施形態において、前処理モジュール３０４はＮＮ要素を含んでもよいが、実施形態はそれに限定されない。例えば、前処理モジュール３０４は、マルチタスクカスケード式畳み込みネットワーク（ＭＴＣＮＮ：multi-task cascaded convolutional network）又は任意の他のタイプのＮＮに対応する要素を含んでよい。

実施形態において、前処理された本物のサンプルは、真正のサンプルＸとして用いられてよく、これは、データセット生成システム３００に含まれるＮＮ要素を機械学習するための入力として提供されてよい。実施形態において、データセット生成システム３００は、ＶＡＥ－ＧＡＮアーキテクチャに対応しうるＮＮ要素を含んでよい。例えば、データセット生成システム３００は、エンコーダー３０６、デコーダー／生成器３１４、及び識別器３１６を含んでよい。実施形態において、エンコーダー３０６は、ＶＡＥのエンコーダー要素に対応してよく、識別器３１６は、ＧＡＮの識別器要素に対応してよく、デコーダー／生成器３１４はＶＡＥのデコーダー要素及びＧＡＮの生成器要素の双方に対応してよい。

実施形態において、真正の画像Ｘは、エンコーダー３０６への入力として提供されてよい。エンコーダー３０６の出力は、平均ベクトル３０８及び標準偏差ベクトル３１０を含んでよく、これらは真正の画像Ｘに対応してよい。実施形態において、エンコーダー３０６の出力は、デコーダー／生成器３１４への入力として用いうるベクトル３１２を含んでよい。実施形態において、人工攻撃画像を生成するために、ベクトル３１２は、１つ以上の追加のパラメーター、例えばパラメーターＺによって変更されてよい。実施形態において、追加のパラメーターは、攻撃パターン生成に用いられてよい。

例えば、パラメーターＺは、１つ以上の人工攻撃画像が生成される際に追加されることになる攻撃画像の特性を示してよい。例えば、パラメーターＺはラップ攻撃パラメーターであってよく、例えば、１つ以上の人工攻撃画像が生成される際に１つ以上の人工攻撃画像に加えられることになる湾曲量を示してよい。実施形態において、パラメーターＺの値が第１の値、例えば０の値であることに基づいて、対応する人工攻撃画像が、平面にプリントされたマスクに対応する平面状の画像として生成されてよい。実施形態において、パラメーターＺの値が第２の値、例えば１の値であることに基づいて、対応する人工攻撃画像が、ラッピングされたプリントされたマスクに対応するラッピングされた画像として生成されてよい。実施形態において、パラメーターＺは、離散的な値に制約されてもよく、多岐にわたる度合いの湾曲に対応する連続値の範囲であってもよい。実施形態において、パラメーターＺ又は他の追加のパラメーターを用いて、ラップ攻撃画像等の攻撃画像の他の特性を加えてよい。例えば、実施形態において、パラメーターＺ又は他の追加されるパラメーターを用いて、テクスチャ、例えば、平坦なテクスチャ又は光沢のあるテクスチャ等の、プリント画像に関連付けられたテクスチャを加えてよい。

実施形態において、トレーニング中、パラメーターＺについて０の値を有するサンプル、及びパラメーターＺについて１の値を有するサンプルが取得され、ＶＡＥ－ＧＡＮモデルをトレーニングするために用いられてよい。次に、ＧＡＮモデルは、パラメーターＺについて０．１～０．９の値に対応する補間された特徴を自動的に学習してよい。トレーニングが完了した後、サンプルが例えば０．１～０．９の値を有するパラメーターＺを有する場合、ＶＡＥ－ＧＡＮモデルは、いくつかの部分的に曲げられた又は補間されたトレーニングサンプルを生成してよい。

したがって、実施形態において、エンコーダー３０６は、潜在的な表現を作成してよく、デコーダー／生成器３１４は、攻撃サンプルを生成してよい。実施形態において、ＧＡＮを用いた敵対的トレーニングの使用は、ＶＡＥがパラメーターＺの支援によりラップ攻撃サンプル又は混合されたサンプルを生成するのに役立ってよい。次に、識別器３１６は、本物のサンプル又は真正のサンプルと、人工攻撃サンプルとを識別するように学習してよい。

実施形態において、平均ベクトル３０８、標準偏差ベクトル３１０、ベクトル３１２（人工攻撃パラメーターＺによって変更される場合がある）及びエンコーダー３０６の任意の他の出力のうちの１つ以上が、デコーダー／生成器３１４のための入力として共有されてよい。デコーダー／生成器３１４の出力は、人工攻撃サンプル
であってよい。実施形態において、人工攻撃サンプル
は、エンコーダー３０６に入力される真正の顔画像に対応する人工攻撃画像を含んでよい。例えば、人工攻撃画像は、真正の顔画像に対応し、ラップ攻撃に対応する特性を有し得る人工ラップ攻撃画像を含んでよい。

実施形態において、真正のサンプルＸ及び人工攻撃サンプル
は、識別器３１６のための入力として提供されてよい。識別器３１６は、特定の入力が本物であるか又は偽物であるかを示す本物／偽物判断を提供するために、真正のサンプルＸ及び人工攻撃サンプル
に基づいた学習又はトレーニングを行ってよい。実施形態において、この本物／偽物判断は、入力画像が真正の顔画像であるか又は人工ラップ攻撃画像であるかの判断に対応してよい。実施形態において、改善された人工攻撃サンプル
を作成するために、識別器３１６によって提供される１つ以上の本物／偽物判断を用いて、エンコーダー３０６及びデコーダー／生成器３１４を更にトレーニングしてよい。

実施形態において、人工攻撃サンプル
が生成された後、データセット生成システム３００は、真正のサンプルＸ及び人工攻撃サンプル
に基づいてトレーニングデータセットを生成してよい。実施形態において、トレーニングデータセットは、真正のサンプルＸ及び人工攻撃サンプル
を含んでよい。実施形態において、トレーニングデータセットはライブネス検出トレーニングデータセットであってよく、真正のサンプルＸは真正の顔画像であってよく、人工攻撃サンプル
は、人工画像、例えば人工ラップ攻撃画像であってよい。

データセット生成システム３００は、上記で、ＶＡＥ－ＧＡＮに対応するＮＮ要素を含むものとして説明されているが、実施形態はそれに限定されない。実施形態において、データセット生成システム３００は、任意の他のタイプのＮＮ要素、例えばＧＡＮ、リカレントＮＮ（ＲＮＮ）、畳み込みＮＮ（ＣＮＮ）、又は自己組織化マップ（ＳＯＭ）を含んでよい。

図４Ａ～図４Ｃは、実施形態による、ライブネス検出モデルをトレーニングする例示的なトレーニングシステムのブロック図である。

図４Ａに示すように、トレーニングデータセット４０２は、トレーニングシステム４００Ａに対する入力として提供されてよい。上記で論じたように、実施形態において、トレーニングデータセット４０２は、データセット生成システム３００によって生成されるトレーニングデータセットに対応してよい。例えば、トレーニングデータセット４０２は、真正の顔画像等の真正のサンプルＸ、及び人工ラップ攻撃画像等の人工攻撃サンプル
を含んでよい。

実施形態において、トレーニングデータセット４０２からのサンプルは、特徴抽出器４０４に提供されてよく、特徴抽出器４０４は、サンプルから抽出された特徴をライブネス検出モデル４０６に提供してよい。ライブネス検出モデル４０６は、特定の入力が本物であるか又は偽物であるかを示す、本物／偽物判断に基づいて、抽出された特徴及び／又はトレーニングデータセット４０２について学習又はトレーニングを行ってよい。例えば、トレーニングデータセット４０２が、真正の顔画像及び人工ラップ攻撃画像を含むライブネス検出トレーニングデータセットであることに基づいて、ライブネス検出モデル４０６は、トレーニングシステム４００Ａによって、特定の画像が真正の顔画像であるか、又はラップ攻撃画像等の攻撃画像であるかを示す本物／偽物判断を提供するようにトレーニングされてよい。

実施形態において、ライブネス検出モデル４０６は、機械学習及び／又はＮＮモデルであってよく、又は他の形で機械学習及び／又はＮＮ要素を含んでよい。例えば、ライブネス検出モデル４０６は、サポートベクトルマシン（ＳＶＭ）又はサポートベクトル分類器を含んでもよいが、実施形態はこれに限定されず、他の機械学習方法が用いられてもよい。

実施形態において、上記で説明したＶＡＥ－ＧＡＮ要素は、優勢な構造情報、並びに真正のサンプル及び攻撃サンプルの分布を捕捉しモデル化しうるため、ＶＡＥ－ＧＡＮ要素によって生成されるトレーニングデータセットは、ライブネス検出モデル４０６が、それらの潜在的な特徴を学習し、それらを弁別することを可能にしうる。

図４Ｂ及び図４Ｃにおいて見てとることができるように、トレーニングシステム４００Ｂ及びトレーニングシステム４００Ｃは、トレーニングシステム４００Ｂ及びトレーニングシステム４００Ｃがデータセット生成システム３００の１つ以上の要素を用いて特徴抽出器４０４の機能のうちの１つ以上を実行しうることを除いて、トレーニングシステム４００Ａに類似していてよい。便宜上、図４Ｂ及び図４Ｃに示すいくつかの要素の重複した記載は省かれうる。

実施形態において、識別器３１６が図３について上記で論じたようにトレーニングされるとき、識別器ネットワーク３１６は、真正のサンプルＸ及び人工攻撃サンプル
を識別するように学習してよい。データセット生成システム３００のＶＡＥ要素は、人工攻撃サンプル
を生成するのみのために、真正のサンプルによりトレーニングされうるため、識別器３１６が真正のサンプル及びアーティファクトサンプルを識別しうるロバストな弁別的特徴を抽出することができることが想定され得る。したがって、識別器３１６の最後の層から抽出された特徴は、真正のサンプル及び攻撃サンプルの顕著な特徴を捕捉することが可能になりうる。したがって、図４Ｂに示すように、トレーニングシステム４００Ｂは、識別器３１６を用いて特徴抽出器４０４の機能を実行してよい。換言すれば、トレーニングデータセット４０２からのサンプルは、識別器３１６に提供されてよく、識別器３１６は、サンプルから抽出された特徴をライブネス検出モデル４０６に提供してよい。

加えて、図４Ｃに示すように、トレーニングシステム４００Ｃは、出力がパラメーターＺによって変更されたエンコーダー３０６を用いて特徴抽出器４０４の機能を実行してよい。換言すれば、トレーニングデータセット４０２からのサンプルは、出力がパラメーターＺによって変更されたエンコーダー３０６に提供されてよく、エンコーダー３０６は、サンプルから抽出された特徴をライブネス検出モデル４０６に提供してよい。

トレーニングシステム４００Ａ～４００Ｃは、特徴抽出のための様々な要素を含むものとして示されているが、実施形態はこれに限定されない。例えば、実施形態において、トレーニングデータセット４０２からのサンプルは、ライブネス検出モデル４０６に直接提供されてもよく、ライブネス検出モデル４０６は、トレーニングデータセット４０２からのサンプルに対し直接学習又はトレーニングを行ってもよい。

図５Ａ～図５Ｃは、実施形態による例示的なライブネス検出システムのブロック図である。

図５Ａに示すように、ライブネス検出システム５００Ａは、リンク５０６及びリンク５０８のうちの少なくとも１つを通じてバックエンド５０４と通信しうるアプリケーションサーバー５０２を含んでよく、バックエンド５０４は、例えば、サーバーであってよい。実施形態において、アプリケーションサーバー５０２は、ハイパーテキストトランスファープロトコル（ＨＴＴＰ）要求及び非同期ＪａｖａＳｃｒｉｐｔ及びＸＭＬ（ＡＪＡＸ）要求のうちの１つ以上を用いて、又は所望に応じて任意の他の通信方式を用いてバックエンド５０４と通信してよい。

アプリケーションサーバー５０２は、入力ビデオをバックエンド５０４に提供し、バックエンド５０４が入力ビデオに対しライブネス検出を行うことを要求してよい。入力ビデオは、前処理モジュール５４２に提供されてよく、前処理モジュール５４２は、入力ビデオに対し前処理を行い、フレームのシーケンスを生成してよい。実施形態において、前処理モジュール５４２は、前処理モジュール３０４に類似していてよく、顔及びランドマーク検出、スケーリング、顔領域のクロッピング、及び入力ＲＧＢ画像の動的範囲を特定の範囲、例えば［０，２５５］に制約する正規化等の動作を行ってよい。実施形態において、入力ビデオは、ライブネス検出のための入力としてのフレームのシーケンスの適性を増大させるように前処理されてよい。実施形態において、前処理モジュール５４２はＮＮ要素を含んでもよいが、実施形態はそれに限定されない。例えば、前処理モジュール５４２は、ＭＴＣＮＮ又は任意の他のタイプのＮＮに対応する要素を含んでもよい。実施形態において、前処理モジュール５４２は、顔及び顔ランドマークのうちの１つ以上を検出し、次に、例えば、入力ビデオのクロッピングによって、検出された顔を含むようにフレームのシーケンスを生成してよい。実施形態において、前処理動作は、代わりに別の要素、例えば、アプリケーションサーバー５０２に含まれる要素によって実行されてもよい。

前処理後、フレームのシーケンスは、特徴抽出器４０４のための入力として提供されてよく、特徴抽出器４０４は、サンプルから抽出された特徴をライブネス検出モデル４０６に提供してよい。ライブネス検出モデル４０６は、前処理されたフレームのシーケンスに対しライブネス検出を行ってよく、前処理されたフレームのシーケンスの１つ以上のフレームに基づいて本物／偽物判断を提供してよい。例えば、本物／偽物判断は、フレームのシーケンスのうちの１つ以上のフレームが、顔の本物の画像若しくは真正の画像を含むか、又はラップ攻撃画像等の攻撃画像を含むかを示してよい。

ライブネス検出モデル４０６が本物／偽物判断を出力した後、本物／偽物判断はアプリケーションサーバー５０２に提供されてよい。実施形態において、アプリケーションサーバー５０２は、フレームワーク５２２を含んでよく、フレームワーク５２２は、ページレンダリングモジュール５２４及び予測モジュール５２６を動作させてよい。実施形態において、ページレンダリングモジュール５２４及び予測モジュール５２６は、例えば、アプリケーションプログラミングインターフェースに対応してよい。実施形態において、ページレンダリングモジュール５２４は、ウェブページ等のページをレンダリングしてよく、アプリケーションサーバー５０２は、レンダリングされたページをユーザーに提供してよい。ページは、入力ビデオに対応するビデオと、ユーザーがライブネス検出を要求することを可能にするユーザーインターフェースとのうちの１つ以上を表示してよい。ライブネス検出の要求が受信されていることに基づいて、予測モジュール５２６は、バックエンド５０４に入力ビデオを提供してよく、アプリケーションサーバー５０２が本物／偽物判断を受信した後、ページレンダリングモジュール５２４は、本物／偽物判断に対応する情報を含むように、レンダリングされたページを更新してよい。

実施形態において、バックエンド５０４は、追加の情報を、本物／偽物判断と共にアプリケーションサーバー５０２に提供されてよい。例えば、抽出された特徴に対応する情報はアプリケーションサーバー５０２に提供されてよく、ページレンダリングモジュール５２４は、この情報を含むように、レンダリングされたページを更新してよい。抽出された特徴に対応する情報は、例えば、画像内で検出された顔のロケーションを示す情報を含んでよく、ページレンダリングモジュール５２４は、レンダリングページ上に表示する顔バウンディングボックスをレンダリングしてよい。

図５Ｂ及び図５Ｃにおいて見てとることができるように、ライブネス検出システム５００Ｂ及びライブネス検出システム５００Ｃは、ライブネス検出システム５００Ｂ及びライブネス検出システム５００Ｃがデータセット生成システム３００の１つ以上の要素を用いて特徴抽出器４０４の機能のうちの１つ以上を実行してよいことを除いて、ライブネス検出システム５００Ａに類似していてよい。

例えば、図５Ｂに示すように、ライブネス検出システム５００Ｂは、識別器３１６を用いて特徴抽出器４０４の機能を実行してよい。換言すれば、フレームのシーケンスは、識別器３１６に提供されてよく、識別器３１６は、フレームのシーケンスから抽出された特徴をライブネス検出モデル４０６に提供してよい。加えて、図５Ｃに示すように、ライブネス検出システム５００Ｃは、出力がパラメーターＺによって変更されたエンコーダー３０６を用いて特徴抽出器４０４の機能を実行してよい。換言すれば、フレームのシーケンスは、出力がパラメーターＺによって変更されたエンコーダー３０６に提供されてよく、エンコーダー３０６は、フレームのシーケンスから抽出された特徴をライブネス検出モデル４０６に提供してよい。便宜上、図５Ｂ及び図５Ｃに示す他の要素の重複した記載は省かれてよい。

図６Ａ及び図６Ｂは、実施形態による、ライブネス検出システムの例示的なユーザーインターフェーススクリーンを示す。実施形態において、図６Ａ及び図６Ｂのユーザーインターフェーススクリーンは、ページレンダリングモジュール５２４によってレンダリングされるウェブページに対応してよい。図６Ａ及び図６Ｂにおいて見てとることができるように、ユーザーインターフェーススクリーンは、攻撃画像のような攻撃画像の元のビデオ（Original video）の１つ以上のフレームと、上記で図５Ａ～図５Ｃに関して論じたように、例えば、元のビデオがバックエンド５０４を用いて処理された後の、入力ビデオの処理されたバージョンの１つ以上のフレームとを含んでよい。処理されたビデオの１つ以上のフレームは、ライブネスモデル４０６によって行われた本物／偽物判断に対応する情報、例えば、ラベルと、元のビデオから抽出された特徴に対応する情報、例えば、検出された顔の周りに配置された顔バウンディングボックスとを含んでよい。

図６Ａに見てとることができるように、元のビデオ（Original video）がラップ攻撃画像を含むことに基づいて、ライブネス検出モデル４０６は、ラップ攻撃画像が検出されることを示す、「偽物」の本物／偽物判断を出力してよい。結果として、ユーザーインターフェーススクリーン上に表示される処理されたビデオ（Processed video）は、「偽物(Fake)」を示すラベルと、ラップ攻撃画像内で検出された顔に位置する顔バウンディングボックスとを含んでよい。

図６Ａに見てとることができるように、元のビデオ（Original video）が真正の顔画像を含むことに基づいて、ライブネス検出モデル４０６は、真正の顔画像が検出されることを示す、「本物」の本物／偽物判断を出力してよい。結果として、ユーザーインターフェーススクリーン上に表示される処理されたビデオ（Processed video）は、「本物(Real)」を示すラベルと、真正の顔画像内で検出された顔に位置する顔バウンディングボックスとを含んでよい。

図７は、実施形態における、例示的な真正の画像及びラップ攻撃画像を、ライブネス検出システムに関係する対応する視覚化と共に示す。例えば、画像７０２は真正の顔画像であってよく、画像７０６は画像７０２の真正の顔画像に対応するラップ攻撃画像であってよい。加えて、画像７０４は、画像７０２に対応する勾配加重クラス活性化マッピング（Ｇｒａｄ－ＣＡＭ）画像であってよく、画像７０８は、画像７０６に対応するＧｒａｄ－ＣＡＭ画像であってよい。加えて、画像７１０は真正の顔画像であってよく、画像７１４は画像７１０の真正の顔画像に対応するラップ攻撃画像であってよい。加えて、画像７１２は、画像７１０に対応するＧｒａｄ－ＣＡＭ画像であってよく、画像７１６は、画像７１４に対応するＧｒａｄ－ＣＡＭ画像であってよい。

概して、Ｇｒａｄ－ＣＡＭ画像は、最終的な畳み込み層に流れるターゲットコンセプトの勾配を用いて、画像内の重要な領域を強調する粗い局所化マップを生成してよい。実施形態において、画像７０２及び７０４は、例えば、特徴抽出器４０４を用いて画像７０２及び７０６から抽出された特徴、又は特徴抽出器４０４及びライブネス検出モデル４０６のうちの１つ以上を用いて重要であると識別された特徴に対応する情報に基づいて生成されてよい。

図８Ａ～図８Ｇは、図１～図７に関して上記で論じた実施形態に一致するライブネス検出システムから取得された実験的セットアップ及び実験結果に関係しうる。

図８Ａ及び図８Ｂは、一実施形態による、なりすまし防止データセットからの例示的な画像を示す。特に、図８Ａは、真正のサンプルを示し、図８Ｂは、ＣｈａＬｅａｒｎＣＡＳＩＡ－ＳＵＲＦデータセットからの攻撃サンプルを示す。ＣｈａＬｅａｒｎＣＡＳＩＡ－ＳＵＲＦデータセットは、被写体及び視覚モダリティの双方の観点における最も大きな公的に利用可能な顔のなりすまし防止データセットのうちの１つでありうる。特に、ＣｈａＬｅａｒｎＣＡＳＩＡ－ＳＵＲＦは、３つのモダリティ（ＲＧＢ、深さ及びＩＲ）を有する２１０００個のビデオを用いた１０００個の被写体からなる。真正のサンプル及び攻撃サンプルは、ＲＧＢ情報（左）、深さ情報（中央）及び赤外線情報（右）を含む。

図８Ｃは、実施形態による、なりすまし防止データからの例示的なビデオのフレームを示す。特に、図８Ｃは、ＣｈａＬｅａｒｎＣＡＳＩＡＳＵＲＦデータセットに含まれる本物のビデオ（Real Video）及び偽物のビデオ（Fake Video）についての元のデータ（Original Data）及び処理されたデータ（Processed Data）に対応するフレームを示す。概して、ＣｈａＬｅａｒｎＣＡＳＩＡＳＵＲＦデータセット内のサンプルは、１つのライブビデオと、眼の領域、鼻の領域、口の領域の切り欠き及びそれらの組合せを有する、プリントされた平坦な顔画像、湾曲した顔画像を含みうる、６つの攻撃様式に関係する６つの対応する偽物のビデオとを含んでよい。ＣｈａＬｅａｒｎＣＡＳＩＡＳＵＲＦデータセットのデータ取得は、ＩｎｔｅｌＲｅａｌＳｅｎｃｅＳＲ３００によりキャプチャされてよい。

図８Ｄは、一実施形態による、なりすまし防止データセットからの例示的な画像を示す。特に、画像８０２は真正の顔画像であってよく、画像８０４は画像８０２に対応するラップ攻撃画像であってよい。加えて、画像８０６は、画像８０２に対応する深度ベースの画像であってよく、画像８１８は、画像８０４に対応する深度ベースの画像であってよい。以下の表１は、画像８０２～８０８を含むなりすまし防止データセットの作成の詳細を含む。

図８Ｅは、一実施形態による、ライブネス検出システムに対応する実験結果を示す。特に、図８Ｅは、上記で図１～図７に関して論じ、以下で図９Ａ及び図９Ｂに関して更に論じられる実施形態と一致したライブネス検出システムの実験的試験の結果を示す。これらの結果は、バイオメトリック提示攻撃検出のためのＩＳＯ／ＩＥＣ３０１０７－３：２０１７メトリックの観点で表現される。メトリックは、攻撃提示分類エラー率（ＡＰＣＥＲ）を含んでよい。ＡＰＣＥＲは以下の式１に従って表現されてよい。

上記の式１において、Ｎ_ＰＡＩは、攻撃提示がされた数であり、Ｒｅｓ_ｉは、ｉ番目の提示が攻撃提示として分類される場合、１の値をとり、真正の提示として分類される場合、０の値をとる。

メトリックは、真正の提示分類エラー率（ＢＰＣＥＲ）を更に含んでよい。ＢＰＣＥＲは以下の式２に従って表現されてよい。

上記の式２において、Ｎ_ＢＦは真正の提示の総数である。

メトリックは、平均分類エラー率（ＡＣＥＲ）を更に含んでよい。ＡＣＥＲは以下の式３に従って表現されてよい。

メトリックは、等価エラー率（ＥＥＲ）を更に含んでよい。ＥＥＲは以下の式４に従って表現されてよい。

以下の表２は、図８Ｅに示す結果に対応する実験的セットアップの詳細を示す。

図８Ｅに示すように、「プリント紙(Print Paper)マスク」及び「光沢紙(Glossy Paper)マスク」とラベル付けされた結果が、上記で図８Ｄに関して論じたなりすまし防止データセットを入力として用いてライブネス検出システムを試験することによって取得され、「ＣＡＳＩＡ－ＳＵＲＦ」とラベル付けされた結果が、上記で図８Ａ～図８Ｃに関して論じたなりすまし防止データセットを入力として用いてライブネス検出システムを試験することによって取得された。

図８Ｆ及び図８Ｇは、実施形態による、ライブネス検出システムに対応する実験結果を示す。特に、図８Ｆは、異なるデータベースのデータベースにまたがる評価の受信者動作特性（ＲＯＣ）曲線を示し、図８Ｅは、対応する検出誤差トレードオフ（ＤＥＴ）曲線を示す。

図９Ａは、ライブネス検出トレーニングデータセットを生成し、ライブネス検出モデルをトレーニングする例示的なプロセス９００Ａのフローチャートである。いくつかの実装において、図９Ａの１つ以上のプロセスブロックは、データセット生成システム３００及びトレーニングシステム４００Ａ～４００Ｃの１つ以上の要素によって実行されてもよい。いくつかの実装において、図９Ａの１つ以上のプロセスブロックは、プラットフォーム２２０及びユーザーデバイス２１０等の、生成システム３００及びトレーニングシステム４００と別個の又はこれらを含む別のデバイス又はデバイスのグループによって実行されてもよい。

図９Ａに示すように、プロセス９００Ａは、顔の複数の本物の画像を取得すること（ブロック９１２）を含んでよい。実施形態において、顔の複数の本物の画像は、入力データ３０２及び真正のサンプルＸの少なくとも１つに対応してよい。

図９Ａに更に示すように、プロセス９００Ａは、複数の本物の画像をニューラルネットワークに提供すること（ブロック９１４）を含んでよい。実施形態において、ニューラルネットワークという用語は、ディープＮＮ、ディープラーニング技法、又は任意の他のタイプの機械学習技法のうちの少なくとも１つを指してもよい。実施形態において、ニューラルネットワークは、例えばエンコーダー３０６、デコーダー／生成器３１４、及び識別器３１６のようなデータセット生成システム３００の複数のＮＮ要素うちの少なくとも１つを含んでよい。

図９Ａに更に示すように、プロセス９００Ａは、ニューラルネットワークの出力に基づいて、複数の本物の画像に対応する複数の人工画像を生成すること（ブロック９１６）を含んでよい。実施形態において、複数の人工画像は、人工攻撃サンプル
に対応してよい。

図９Ａに更に示すように、プロセス９００Ａは、複数の本物の画像及び複数の人工画像に基づいてライブネス検出モデルをトレーニングすることを含んでよく、ライブネス検出モデルを用いて、顔の入力画像が顔のライブ画像を含むか否かを判断することによってライブネス検出が行われる（ブロック９１８）。実施形態において、ライブネス検出モデルは、ライブネス検出モデル４０６に対応してよい。

実施形態において、ニューラルネットワークは、変分オートエンコーダー－敵対的生成ネットワーク（ＶＡＥ－ＧＡＮ）を含んでよい。

実施形態において、複数の人工画像は、少なくとも１つの人工ラップ攻撃画像を含んでよい。

実施形態において、少なくとも１つの人工ラップ攻撃画像は、ラップ攻撃パラメーターを用いて生成されてよい。

実施形態において、ラップ攻撃パラメーターの第１の値は、少なくとも１つの人工ラップ攻撃画像が、平坦なマスクに対応する平面状の顔画像を含みうることを示してよく、ラップ攻撃パラメーターの第２の値は、少なくとも１つの人工ラップ攻撃画像が、ラッピングされたマスクに対応するラッピングされた顔画像を含みうることを示してよい。

実施形態において、複数の本物の画像は、ラップ攻撃パラメーターの第１の値を有する複数の第１の本物の画像と、ラップ攻撃パラメーターの第２の値を有する第２の複数の本物の画像とを含んでよく、複数の第１の本物の画像及び複数の第２の本物の画像に基づいて、少なくとも１つの人工ラップ攻撃画像は、ラップ攻撃パラメーターの第３の値を有するように生成されてよい。

実施形態において、ライブネス検出モデルのトレーニングは、特徴抽出器を用いて、複数の本物の画像及び複数の人工画像から特徴を抽出することと、抽出された特徴に基づいてライブネス検出モデルをトレーニングすることとを含んでよい。

実施形態において、ニューラルネットワークに含まれる識別器は、複数の人工画像が生成された後、特徴抽出器として用いられてよい。

実施形態において、ライブネス検出モデルは、サポートベクトルマシン（ＳＶＭ）を含んでよい。

図９Ｂは、ライブネス検出の例示的なプロセス９００Ｂのフローチャートである。いくつかの実装において、図９Ｂの１つ以上のプロセスブロックは、ライブネス検出システム５００Ａ～５００Ｃの１つ以上の要素によって実行されてもよい。いくつかの実装において、図９Ｂの１つ以上のプロセスブロックは、プラットフォーム２２０及びユーザーデバイス２１０等の、ライブネス検出システム５００Ａ～５００Ｃと別個の又はこれらを含む別のデバイス又はデバイスのグループによって実行されてもよい。

図９Ｂに示すように、プロセス９００Ｂは、顔の入力画像を取得すること（ブロック９２２）を含んでよい。実施形態において、顔の入力画像は、上記で図５Ａ～図５Ｃに関して論じた入力ビデオ及びフレームのシーケンスのうちの少なくとも１つに対応してよい。

図９Ｂに更に示すように、プロセス９００Ｂは、入力画像に関する情報をライブネス検出モデルに提供すること（ブロック９２４）を含んでよい。実施形態において、ライブネス検出モデルは、顔の複数の本物の画像と、複数の本物の画像に基づいてニューラルネットワークによって生成される複数の人工画像とを用いてトレーニングされてよい。実施形態において、ライブネス検出モデルは、ライブネス検出モデル４０６に対応してよい。実施形態において、ニューラルネットワークは、例えばエンコーダー３０６、デコーダー／生成器３１４、及び識別器３１６ｂのような、データセット生成システム３００の複数のＮＮ要素、のうちの少なくとも１つを含んでよい。

図９Ｂにおいて更に示されるように、プロセス９００Ｂは、ライブネス検出モデルの出力に基づいて、入力画像が顔のライブ画像であるか否かを判断すること（ブロック９２６）を含んでよい。

実施形態において、入力画像に関する情報は、入力画像の少なくとも１つの特徴を含んでよく、少なくとも１つの特徴は特徴抽出器を用いて抽出されてよい。

実施形態において、特徴抽出器は、複数の人工画像が生成された後のニューラルネットワークに含まれる識別器を含んでよい。

図９Ａ及び図９Ｂは、プロセス９００Ａ及び９００Ｂの例示的なブロックを示しているが、いくつかの実装において、プロセス９００Ａ及び９００Ｂは、更なるブロック、より少ないブロック、異なるブロック、又は図９Ａ及び図９Ｂに示すものと異なる形で配置されたブロックを含んでもよい。さらに又は代替的に、プロセス９００Ａ及び９００Ｂのブロックのうちの２つ以上が並列に実行されてもよい。

上記で論じた実施形態は、ライブ提示又は真正の提示にのみ大きく基づいてよいラップ攻撃検出のＶＡＥ－ＧＡＮベースのモデルアーキテクチャに関係してよい。実施形態は、真正のサンプルとしての役割を果たしうる任意の顔認識データベースに対しトレーニングされてよく、次に、攻撃サンプルを独立して生成してよく、これにより、識別器が、ネットワークパラメーターを一般化し、真正のクラス及び攻撃クラスの弁別的特徴を抽出することを可能にしてよい。実施形態は、ＶＡＥ－ＧＡＮアーキテクチャを利用して、ラップ攻撃画像をモデル化する生成表現ディープラーニング（deep generative representation learning）を取得してよく、パラメーターＺは、ラッピングされた顔画像の湾曲を制御してよい。ＶＡＥ－ＧＡＮ識別器は、元のサンプルと生成されたサンプルとを識別しながら、生成器が洗練された攻撃サンプルを生成することを支援してよい。したがって、識別器の最後の層から抽出された特徴は、真正のサンプル及び攻撃サンプルの顕著な特徴をキャプチャすることが可能であってよい。実施形態において、ＶＡＥ－ＧＡＮは、優勢な構造情報、並びに真正のサンプル及び攻撃サンプルの分布を捕捉しモデル化してよく、これにより、ＳＶＭが、それらの潜在的な特徴を学習し、それらを識別することを可能にしてよい。

前述の開示は、例示及び説明を提供するものであり、網羅的であること又は開示の正確な形態に実装を限定することを意図するものではない。上記の開示に照らして修正及び変形が可能である、又は修正及び変形を実装の実践から獲得することもできる。

本明細書において用いられるとき、「コンポーネント」という用語は、ハードウェア、ファームウェア、又はハードウェア及びソフトウェアの組合せとして広義に解釈されることが意図される。

本明細書に記載のシステム及び／又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアとの組合せで実装可能であることが明らかとなるであろう。これらのシステム及び／又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、本明細書では、特定のソフトウェアコードを参照せずに、システム及び／又は方法の動作及び挙動について説明する。理解すべき点として、本明細書の記載に基づくシステム及び／又は方法を実装するために、ソフトウェア及びハードウェアを設計することができる。

特徴の特定の組合せが、特許請求の範囲に記載されている、及び／又は本明細書に開示されているが、これらの組合せは、想定される実装形態の開示を限定することを意図したものではない。実際、特許請求の範囲に具体的に記載されていない方法及び／又は本明細書に開示されていない方法で、これらの特徴の多くを組み合わせることができる。以下で列挙する各従属請求項は、１つの請求項のみにしか直接従属できないが、想定される実装形態の開示は、請求項の集合における他の全ての請求項と組み合わせた各従属請求項を含むものである。

本明細書で使用される要素、行為、又は命令は、いずれも重要又は不可欠であると明示的に記載されていない限り、そのように解釈されるべきではない。また、本明細書において使用する場合、冠詞「a」及び「an」は、１つ以上の品目を含むことを意図しており、「１つ以上」と同じ意味で使用することができる。さらに、本明細書において用いられるとき、「セット」という用語は、１つ以上の項目（例えば、関連項目、非関連項目、関連項目及び非関連項目の組合せ等）を含むことが意図され、「１つ以上」と交換可能に用いられてもよい。１つの項目のみが意図される場合、「１つ」という用語又は類似の語が用いられる。また、本明細書において用いられるとき、「有する」、「有している」（"has", "have", "having"）等の用語は、オープンエンドの用語であることが意図される。さらに、「基づく」という語句は、別段の明言がない限り、「少なくとも部分的に基づく」を意味するように意図される。

図面を参照して１つ以上の例示的な実施形態が上記で説明されたが、当業者であれば、添付の特許請求の範囲によって少なくとも部分的に定義される趣旨及び範囲から逸脱することなく、形態及び詳細における様々な変更がなされてよいことが理解されよう。

Claims

ライブネス検出システムをトレーニングする方法であって、
顔の複数の本物の画像を取得することと、
前記複数の本物の画像をニューラルネットワークに提供することと、
前記ニューラルネットワークの出力に基づいて前記複数の本物の画像に対応する複数の人工画像を生成することと、
前記複数の本物の画像及び前記複数の人工画像に基づいてライブネス検出モデルをトレーニングすることと、
を含み、
前記ライブネス検出モデルを用いて、顔の入力画像が前記顔のライブ画像を含むか否かを判断することによってライブネス検出が行われる、
方法。
前記ニューラルネットワークは、変分オートエンコーダー－敵対的生成ネットワーク（ＶＡＥ－ＧＡＮ）を含む、請求項１に記載の方法。
前記複数の人工画像は、少なくとも１つの人工ラップ攻撃画像を含む、請求項１に記載の方法。
前記少なくとも１つの人工ラップ攻撃画像は、ラップ攻撃パラメーターを用いて生成される、請求項３に記載の方法。
前記ラップ攻撃パラメーターの第１の値は、前記少なくとも１つの人工ラップ攻撃画像が、平坦なマスクに対応する平面状の顔画像を含むことを示し、
前記ラップ攻撃パラメーターの第２の値は、前記少なくとも１つの人工ラップ攻撃画像が、ラップされたマスクに対応するラップされた顔画像を含むことを示す、
請求項４に記載の方法。
前記複数の本物の画像は、前記ラップ攻撃パラメーターの第１の値を有する複数の第１の本物の画像と、前記ラップ攻撃パラメーターの第２の値を有する複数の第２の本物の画像とを含み、
前記複数の第１の本物の画像及び前記複数の第２の本物の画像に基づいて、前記ラップ攻撃パラメーターの第３の値を有する前記少なくとも１つの人工ラップ攻撃画像が生成される、
請求項４に記載の方法。
前記ライブネス検出モデルを前記トレーニングすることは、
特徴抽出器を用いて、前記複数の本物の画像及び前記複数の人工画像から特徴を抽出することと、
前記抽出された特徴に基づいて前記ライブネス検出モデルをトレーニングすることと、
を含む、請求項１に記載の方法。
前記ニューラルネットワークに含まれる識別器は、前記複数の人工画像が生成された後、前記特徴抽出器として用いられる、請求項７に記載の方法。
前記ライブネス検出モデルは、サポートベクトルマシン（ＳＶＭ）を含む、請求項１に記載の方法。
ライブネス検出を行う方法であって、
顔の入力画像を取得することと、
前記入力画像に関する情報をライブネス検出モデルに提供することと、
前記ライブネス検出モデルの出力に基づいて、前記入力画像が前記顔のライブ画像であるか否かを判断することと、
を含み、
前記ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、
前記複数の人工画像は、前記複数の本物の画像に基づいてニューラルネットワークによって生成される、
方法。
前記入力画像に関する情報は、前記入力画像の少なくとも１つの特徴を含み、
前記少なくとも１つの特徴は、特徴抽出器を用いて抽出される、
請求項１０に記載の方法。
前記特徴抽出器は、前記複数の人工画像が生成された後の前記ニューラルネットワークに含まれる識別器を含む、請求項１１に記載の方法。
前記顔の前記入力画像は、ビデオの少なくとも１つのフレームを含む、請求項１０に記載の方法。
ライブネス検出を行うデバイスであって、
命令を記憶するように構成されたメモリと、
少なくとも１つのプロセッサであって、
顔の入力画像を取得し、
前記入力画像に関する情報をライブネス検出モデルに提供し、
前記ライブネス検出モデルの出力に基づいて、前記入力画像が前記顔のライブ画像であるか否かを判断する、
前記命令を実行するように構成された、少なくとも１つのプロセッサと、
を備え、
前記ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、
前記複数の人工画像は、前記複数の本物の画像に基づいてニューラルネットワークによって生成される、
デバイス。
前記入力画像に関する情報は、前記入力画像の少なくとも１つの特徴を含み、
前記少なくとも１つの特徴は、特徴抽出器を用いて抽出される、請求項１４に記載のデバイス。
前記特徴抽出器は、前記複数の人工画像が生成された後の前記ニューラルネットワークに含まれる識別器を含む、請求項１５に記載のデバイス。
命令を記憶する非一時的コンピューター可読媒体であって、前記命令はライブネス検出を行うデバイスの１つ以上のプロセッサによって実行されると、該１つ以上のプロセッサに、
顔の入力画像を取得させ、
前記入力画像に関する情報をライブネス検出モデルに提供させ、
前記ライブネス検出モデルの出力に基づいて、前記入力画像が前記顔のライブ画像であるか否かを判断させ、
前記ライブネス検出モデルは、顔の複数の本物の画像と、複数の人工画像とを用いてトレーニングされ、
前記複数の人工画像は、前記複数の本物の画像に基づいてニューラルネットワークによって生成される、
非一時的コンピューター可読媒体。
前記入力画像に関する情報は、前記入力画像の少なくとも１つの特徴を含み、
前記少なくとも１つの特徴は、特徴抽出器を用いて抽出される、
請求項１７に記載の非一時的コンピューター可読媒体。
前記特徴抽出器は、前記複数の人工画像が生成された後の前記ニューラルネットワークに含まれる識別器を含む、請求項１８に記載の非一時的コンピューター可読媒体。