JP2022133378A

JP2022133378A - 顔生体検出方法、装置、電子機器、及び記憶媒体

Info

Publication number: JP2022133378A
Application number: JP2022107956A
Authority: JP
Inventors: クヤオワン; Keyao Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-21
Filing date: 2022-07-04
Publication date: 2022-09-13
Also published as: CN113435408A; KR20220100812A

Abstract

【課題】顔認識などのシーンに適用する顔生体検出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】顔生体検出方法は、検出対象の顔のカラー画像を取得し、顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデルと第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像と顔の再構築深度画像をそれぞれ取得し、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する。【効果】光に対する感度を低減させ、検出の精度を向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させることができる。【選択図】図１

Description

本開示は、人工知能技術の分野に関し、コンピュータビジョンと深層学習技術に関し、顔認識などのシーンに適用することができる。

電子商取引などの技術の発展に伴い、顔ベースの認証は広く応用されており、顔ベースの認証は主に顔認識技術によって実現され、顔認識技術が人々の生活の利便性を大幅に向上させると共に、そのセキュリティ上の問題も顕在化しつつあり、例えば、印刷された写真、スクリーン写真などを実体の顔に偽装して検証に合格する。

これからわかるように、顔認識技術では、顔生体検出技術によって顔画像が生体顔を撮影することによって得られたものであるか否かを判断する必要がある。

本開示は、顔生体検出方法、装置、機器及び記憶媒体を提供する。

本開示の一態様によれば、
検出対象の顔のカラー画像を取得するステップと、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
前記顔のカラー画像、前記顔の再構築赤外線画像及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む顔生体検出方法を提供する。

本開示の別の態様によれば、
検出対象の顔のカラー画像を取得する取得モジュールと、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュールと、
前記顔のカラー画像、前記顔の再構築赤外線画像及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュールと、を含む顔生体検出装置を提供する。

本開示の別の態様によれば、電子機器を提供し、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが顔生体検出方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに顔生体検出方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、顔生体検出方法が実現される。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提供される顔生体検出方法の概略フローチャートである。本開示の実施例によって提供される顔サンプル画像を取得する概略フローチャートである。本開示の実施例によって提供される顔生体検出方法の概略図である。本開示の実施例の顔生体検出方法を実現するための装置のブロック図である。本開示の実施例の顔生体検出方法を実現するための電子機器のブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、わかりやすく簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

顔生体検出は、顔に関連する分野の基礎技術の１つであり、出勤、入退室管理などの多くのシーンに適用できる。現在の多くの業務に広く応用されている。

現在、一般的に畳み込みニューラルネットワークを用いて顔生体検出を行い、畳み込みニューラルネットワークの入力は顔のカラー画像である。しかしながら、カラー画像のみに基づく顔生体検出は、光に敏感で検出精度が高くなく、写真やビデオなどの平面攻撃に対する防御効果が低いという技術的課題がある。

上記の技術的課題を解決するために、本開示は、顔生体検出方法、装置、電子機器及び記憶媒体を提供する。

本開示の一実施例では、顔生体検出方法を提供し、方法は、
検出対象の顔のカラー画像を取得するステップと、
顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む。

これからわかるように、サンプル画像集合によって２つのコーデック再構築モデルをトレーニングすることにより、第１のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第２のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像と顔の深度画像を再構築し、その後に顔のカラー画像、及び再構築された顔の赤外線画像、顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴と、赤外線画像特徴と、深度画像特徴とを融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真やビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。

また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、１枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像及び顔の深度画像を収集する必要がない。

以下、本開示の実施例によって提供される顔生体検出方法、装置、電子機器、及び記憶媒体をそれぞれ詳細に説明する。

図１を参照すると、図１は、本開示の実施例によって提供される顔生体検出方法の概略フローチャートであり、図１に示すように、方法は以下のステップＳ１０１～Ｓ１０３を含むことができる。

Ｓ１０１において、検出対象の顔のカラー画像を取得する。

本開示の実施例では、顔生体検出を行う必要がある場合、検出対象の顔のカラー画像を取得する。ここで、顔生体検出は、顔画像が生体顔を撮影することによって得られたか否かを検出すると理解できる。ここで、カラー画像は、ＲＧＢ（ｒｅｄ－ｇｒｅｅｎ－ｂｕｌｅ、赤緑青の三原色）画像であってもよい。

本開示の実施例は、顔のカラー画像を取得する方法を限定しない。

Ｓ１０２において、顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する。

本開示の一実施例では、第１のコーデック再構築モデルは、複数の第１のサンプル画像集合に基づいてトレーニングされ、各第１のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、第２のコーデック再構築モデルは、複数の第２のサンプル画像集合に基づいてトレーニングされ、各第２のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像と顔の深度サンプル画像を含む。

本開示の実施例では、第１のコーデック再構築モデルと第２のコーデック再構築モデルはいずれもＥｎｃｏｄｅｒ－Ｄｅｃｏｄｅｒ（エンコーダ－デコーダ）フレームワークのモデルである。

本開示の実施例では、複数の第１のサンプル画像集合に基づいて第１のコーデック再構築モデルを予めトレーニングすることができ、各第１のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及びと顔の赤外線サンプル画像を含む。

ここで、いわゆる顔のカラーサンプル画像と顔の赤外線サンプル画像とが互いに位置合わせされるとは、顔のカラーサンプル画像と顔の赤外線サンプル画像との画像サイズ、ピクセル数、同じ顔に対して撮影された実際の領域、および撮影角度が同じであり、ピクセルポイントが１対１で対応することを指す。

それに応じて、いわゆる顔のカラーサンプル画像と顔の深度サンプル画像とが互いに位置合わせされるとは、顔のカラーサンプル画像と顔の深度サンプル画像との画像サイズ、ピクセル数、同じ顔に対して撮影された実際の領域、および撮影角度が同じであり、ピクセルポインが１対１で対応することを指す。

例えば、ＲＧＢカメラ、ＮＩＲ（ＮｅａｒＩｎｆｒａｒｅｄ、近赤外線）カメラ、深度カメラを含む多眼カメラを使用して、生体顔を同時に撮影し、顔のカラーサンプル画像、顔の赤外線サンプル画像、および深度サンプル画像をそれぞれ取得する。

大量のサンプル画像集合が取得された後、第１のコーデック再構築モデル及び第２のコーデック再構築モデルをそれぞれトレーニングする。第１のコーデック再構築モデルを例として、トレーニング中に、顔のカラーサンプル画像を入力し、出力は顔のカラーサンプル画像と同じサイズの特徴図であり、既存の顔の赤外線サンプル画像と組み合わせて、再構築モデルに対してＬ１監視トレーニングを行う。例えば、損失関数を設定し、出力された特徴図と顔の赤外線サンプル画像とに基づいて損失値を算出し、損失値に基づいて第１のコーデック再構築モデルのモデルパラメータを調整する。反復トレーニングされた後、第１のコーデック再構築モデルは、顔の赤外線画像の特徴を学習することができる。これにより、トレーニング完了後、トレーニングが完了した第１のコーデック再構築モデルに顔のカラー画像を入力し、第１のコーデック再構築モデルは、顔のカラー画像に対応する再構築された顔の赤外線画像を出力することができる。

それに応じて、同様の原理に基づいて第２のコーデック再構築モデルをトレーニングし、トレーニングが完了した後、入力された顔のカラー画像に基づいて対応する顔の深度画像を再構築することができる。

本開示の実施例では、顔のカラー画像をトレーニングが完了した第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得することができる。

Ｓ１０３において、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する。

本開示の一実施例では、マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および／または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像を含む。

本開示の実施例では、マルチモーダル検出ネットワークモデルを予めトレーニングすることができ、ここで、マルチモーダル検出は、マルチモーダル特徴に基づいて検出することである。

生体検出結果が二項分類結果であるため、ネットワークモデルのトレーニングのために、大量のポジティブサンプル及びネガティブサンプルを収集することができる。ポジティブサンプルは生体サンプル画像集合であり、具体的には、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含む。つまり、生体サンプル画像集合の画像は、生体顔を撮影することによって得られたものである。ここで、互いに位置合わせされることの意味は、上記を参照することができる。

ネガティブサンプルは非生体サンプル画像集合であり、具体的には、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む。つまり、非生体サンプル画像集合の画像は、生体顔を撮影することによって得られたものではなく、例えば、写真を撮影したり、電子機器の画面を撮影したりすることによって得られたものである。

一例として、ＲＧＢカメラ、ＮＩＲカメラ、及び深度カメラを含む多眼カメラを使用して、写真の顔領域を同時に撮影し、非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像をそれぞれ取得する。

ポジティブサンプルのラベルは生体であり、ネガティブサンプルのラベルは非生体であり、上記ポジティブサンプル、ネガティブサンプルおよび対応するラベルに基づいてマルチモーダル検出ネットワークモデルをトレーニングマルすることができる。具体的には、ポジティブサンプルまたはネガティブサンプルを深層学習ニューラルネットワークモデルに入力して、出力結果を取得し、出力結果及び実のラベルに基づいて損失値を算出し、損失値に基づいて深層学習ニューラルネットワークモデルのモデルパラメータを調整し、損失値が予め設定された閾値に達し、または反復回数が予め設定された回数に達した場合、トレーニングが完了する。トレーニングが完了した深層学習ニューラルネットワークは、マルチモーダル検出ネットワークモデルである。

本開示の一実施例では、マルチモーダル検出ネットワークモデルは、畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含むことができる。ここで、畳み込み層は、並列の第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層を含む。それに応じて、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力することは、具体的には、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像をマルチモーダル検出ネットワークモデルの第１のサブ畳み込み層、第２のサブ畳み込み層、および第３のサブ畳み込み層にそれぞれ入力することである。

各サブ畳み込み層に対して、適切なニューラルネットワーク構造、サブ畳み込み層の層数、および出力された特徴図の数を選択することができる。

一例として、ＭｏｂｉｌｅＮｅｔをサブ畳み込み層のニューラルネットワーク構造として使用し、カラー画像特徴を抽出するための第１のサブ畳み込み層の最後の層の特徴図の数は２５６であり、赤外線画像の特徴を抽出するための第２のサブ畳み込みの最後の層の特徴図の数は１２８であり、深度画像の特徴を抽出するための第３のサブ畳み込み層の最後の層の特徴図の数は１２８である。次いで、３つのサブ畳み込み層の特徴図を組み合わせて数が５１２である特徴図を取得し、ＳＥ（Ｓｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ）注意力モジュール、グローバル平均プーリング層、および完全接続層を順次接続する。

本開示の実施例では、上記顔のカラー画像、顔の赤外線画像、および顔の深度画像は３つの入力データストリームと理解でき、これからわかるように、３つの入力データストリームを有するマルチモーダル検出ネットワークモデルは、マルチモーダル特徴を抽出し、注意力モジュールによって融合させて、最終的な顔生体検出結果を取得することができる。

このように、本開示の実施例では、サンプル画像集合によって２つのコーデック再構築モデルをトレーニングすることにより、第１のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第２のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像及び顔の深度画像を再構築し、その後に顔のカラー画像、再構築された顔の赤外線画像、及び顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴、赤外線画像特徴、及び深度画像特徴を融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。

また、マルチモーダルの特徴情報はモデル学習に有利であり、モデルの収束速度を著しく速める。

本開示の一実施例では、ステップＳ１０１の後、ステップＳ１０２の前に、顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行うステップをさらに含むことができる。

具体的には、顔のカラー画像が取得された後、先に顔領域検出を行って、顔の大まかな位置領域を取得することができる。顔のカラー画像を顔領域検出モデルに入力して、顔の位置領域を取得する。

その後に顔キーポイント検出モデルによって、顔の位置領域に対して検出を行って、顔キーポイント座標値を取得する。ここで、顔キーポイントは、予め定義されてものであり、例えば、鼻の左側、鼻の穴の下側、瞳孔の位置、唇の下側などの位置である。

一例として、７２個の顔キーポイントを定義すると、顔キーポイント検出モデルが７２個の座標、すなわち、（ｘ_１、ｙ_１）…（ｘ_７２、ｙ_７２）を出力することができる。

顔キーポイントが取得された後、顔キーポイント座標に基づいて顔画像補正を行うことができ、顔画像補正は、顔位置合わせとも呼ばれ、アフィン変換によって実現することができる。具体的には、検出された顔キーポイント及び予め設定された仮想正面顔キーポイントに基づいて、アフィン変換のアフィンマトリクスＲ、Ｔを算出し、その後、アフィンマトリクスを使用して顔画像を正面にマッピングし、アフィン変換された顔領域を切り取る。つまり、顔画像補正によって角度が正しくない顔画像を角度が正しい顔画像にマッピングすることができる。

本開示の実施例では、顔生体検出のロバスト性を向上させるために、補正された画像に対して正規化処理を行うことができる。補正された顔画像における各ピクセルポイントに対して正規化処理を行うことは、具体的には、各ピクセルポイントのピクセル値から１２８を減算してから２５６で除算し、各ピクセルポイントのピクセル値を［－０．５，０．５］の間にすることである。

このように、本開示の実施例では、顔のカラー画像に対して、顔領域検出、顔キーポイント検出、顔画像補正、及び正規化処理を行い、さらに第１のコーデック再構築モデル、第２のコーデック再構築モデル、及びマルチモーダル検出ネットワークモデルの入力とし、顔生体検出の精度をさらに向上させることができる。

本開示の一実施例では、サンプル画像集合における顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像は、顔領域検出、顔画像補正、および正規化処理によって取得されてもよい。

具体的に、図２を参照すると、図２は、本開示の実施例によって提供される顔サンプル画像を取得する概略フローチャートである。図２に示すように、以下の方法を用いて顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得することができる。

Ｓ２０１において、互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得する。

ここで、互いに位置合わせされることの意味は、上記を参照することができる。

一例として、ＲＧＢカメラ、ＮＩＲカメラ、深度カメラを含む多眼カメラを使用して、生体顔を同時に撮影し、初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像をそれぞれ取得する。

Ｓ２０２において、初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、顔のカラーサンプル画像を取得する。

顔キーポイント検出、顔画像補正および正規化処理のプロセスは、前文を参照することができ、ここでは説明を省略する。

Ｓ２０３において、初期の顔のカラー画像の顔キーポイント検出結果に基づいて、初期の顔の赤外線画像及び初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、顔の赤外線サンプル画像及び顔の深度サンプル画像を取得する。

本開示の実施例では、互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、および初期の顔の深度画像は、画像サイズが同じであり、ピクセル数が同じであり、ピクセルポイントが１対１で対応するため、初期の顔のカラー画像の顔キーポイント検出結果に基づいて、初期の顔の赤外線画像および初期の顔の深度画像に対して直接顔画像補正を行うことができる。すなわち、初期の顔のカラー画像の顔キーポイント検出結果は、初期の顔の赤外線画像及び初期の顔の深度画像の顔キーポイント検出結果としてもよく、したがって、互いに位置合わせされた上記３枚の画像に対して、同じアフィンマトリクスを用いてアフィン変換を行うことで、顔画像補正を実現することができる。

顔のカラーサンプル画像、顔の赤外線サンプル画像、および顔の深度サンプル画像が取得された後、画像に対してランダムデータ拡大処理、例えば、ランダムにトリミング、反転、コントラスト設定、および輝度設定を行うことで、より多くのサンプル画像を取得し、モデルをよりよくトレーニングし、モデルの汎化能力を向上させることができる。

このように、本開示の実施例では、初期の顔画像に対して、顔領域検出、顔キーポイント検出、顔画像補正、および正規化処理を順次行い、さらにモデルのトレーニングサンプルとして、モデルによる有効な画像特徴の抽出を容易にし、顔生体検出の検出精度をさらに向上させる。

理解を容易にするために、以下、図３と併せて、本開示の実施例によって提供される顔生体検出方法をさらに説明する。図３は、本開示の実施例によって提供される顔生体検出方法の概略図である。

図３に示すように、検出対象の顔のカラー画像に対して、顔領域検出、顔画像補正、および画像前処理を順次行う。ここで、画像前処理は正規化処理であってもよい。画像前処理された顔のカラー画像を第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する。さらに、画像前処理された顔のカラー画像、顔の再構築赤外線画像、および再構築深度画像をそれぞれマルチモーダル検出ネットワークモデルにおける各ＭｏｂｉｌｅＮｅｔ畳み込み層に入力し、さらにＳＥアテンションメカニズムモジュール、グローバル平均プーリング層、完全接続層を順次通過させ、顔生体検出結果を取得する。

また、ネットワークトレーニングの収束速度を速め、現実シーンで顔生体検出アルゴリズムを使用する汎化性及び精度を向上させることができ、顔生体検出技術の性能を向上させることができ、顔生体検出技術を基礎とする多くのアプリケーションの効果向上及びユーザ体験の向上に役立ち、ビジネスプロジェクトのさらなる普及に有利である。

図４を参照すると、図４は、本開示の実施例の顔生体検出方法を実現するための装置のブロック図である。図４に示すように、装置は、
検出対象の顔のカラー画像を取得する取得モジュール４０１と、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュール４０２と、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュール４０３と、を含むことができる。

本開示の一実施例では、前記第１のコーデック再構築モデルは、複数の第１のサンプル画像集合に基づいてトレーニングされ、各第１のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含む。前記第２のコーデック再構築モデルは、複数の第２のサンプル画像集合に基づいてトレーニングされ、各第２のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像と顔の深度サンプル画像を含む。前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および／または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像を含む。

本開示の一実施例では、図４に示す装置に加えて、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力する前に、前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行う前処理モジュールをさらに含むことができる。

本開示の一実施例では、図４に示す装置に加えて、サンプル画像取得モジュールをさらに含むことができ、前記サンプル画像取得モジュールは、
互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像と前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得する。

本開示の一実施例では、マルチモーダル検出ネットワークモデルは、
畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層を含み、
前記検出モジュールは、具体的に、前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層に入力することができる。

上記実施例によって提供される顔生体検出方案では、サンプル画像集合によって２つのコーデック再構築モデルをトレーニングすることにより、第１のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第２のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像及び顔の深度画像を再構築し、その後に顔のカラー画像、および再構築された顔の赤外線画像、顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴、赤外線画像特徴、及び深度画像特徴を融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。

また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、１枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像と顔の深度画像を収集する必要がない。

なお、本開示の技術案では、関係するユーザ個人情報の取得、保存、応用などは、いずれも関連する法律法規の規定に合致し、公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

本開示は、電子機器を提供し、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが顔生体検出方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに顔生体検出方法を実行させる。

本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、顔生体検出方法が実現される。

図５は、本開示の実施例を実行するための例示的な電子機器５００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／または求められる本開示の実現を制限することを意図したものではない。

図５に示すように、電子機器５００は、読み取り専用メモリ（ＲＯＭ）５０２に記憶されているコンピュータプログラムまたは記憶ユニット５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット５０１を含む。ＲＡＭ５０３には、電子機器５００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット５０１、ＲＯＭ５０２、及びＲＡＭ５０３は、バス５０４を介して互いに接続されている。バス５０４には、入力／出力（Ｉ／Ｏ）インターフェース５０５も接続されている。

電子機器５００の複数のコンポーネントはＩ／Ｏインターフェース５０５に接続され、キーボード、マウスなどの入力ユニット５０６、各タイプのディスプレイ、スピーカなどの出力ユニット５０７、磁気ディスク、光ディスクなどの記憶ユニット５０８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット５０９を含む。通信ユニット５０９は、電子機器５００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット５０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット５０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット５０１は、前文に記載の各方法および処理、例えば顔生体検出方法を実行する。例えば、いくつかの実施例では、顔生体検出方法を、記憶ユニット５０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ５０２及び／又は通信ユニット５０９を介して電子機器５００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ５０３にロードされ、計算ユニット５０１によって実行される場合、前文に記載の顔生体検出方法の１つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット５０１は顔生体検出方法を実行するように、他の任意の適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／またはブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み合わせたサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

顔生体検出方法であって、
検出対象の顔のカラー画像を取得するステップと、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む、
ことを特徴とする顔生体検出方法。
前記第１のコーデック再構築モデルは、複数の第１のサンプル画像集合に基づいてトレーニングされ、各第１のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、前記第２のコーデック再構築モデルは、複数の第２のサンプル画像集合に基づいてトレーニングされ、各第２のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の深度サンプル画像を含み、
前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および／または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、及び生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む、
ことを特徴とする請求項１に記載の方法。
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力するステップの前に、
前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行うステップをさらに含む、
ことを特徴とする請求項１に記載の方法。
互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像及び前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行い、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得するステップをさらに含む、
ことを特徴とする請求項２に記載の方法。
マルチモーダル検出ネットワークモデルは、
畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層を含み、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力するステップは、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層に入力するステップを含む、
ことを特徴とする請求項１に記載の方法。
顔生体検出装置であって、
検出対象の顔のカラー画像を取得する取得モジュールと、
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュールと、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュールと、を含む、
ことを特徴とする顔生体検出装置。
前記第１のコーデック再構築モデルは、複数の第１のサンプル画像集合に基づいてトレーニングされ、各第１のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、前記第２のコーデック再構築モデルは、複数の第２のサンプル画像集合に基づいてトレーニングされ、各第２のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の深度サンプル画像を含み、
前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および／または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、及び生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む、
ことを特徴とする請求項６に記載の装置。
前記顔のカラー画像を予めトレーニングされた第１のコーデック再構築モデル及び第２のコーデック再構築モデルにそれぞれ入力する前に、前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行う前処理モジュールをさらに含む、
ことを特徴とする請求項６に記載の装置。
前記装置は、サンプル画像取得モジュールをさらに含み、
前記サンプル画像取得モジュールが、
互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像及び前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得する、
ことを特徴とする請求項７または８に記載の装置。
マルチモーダル検出ネットワークモデルは、
畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層を含み、
前記検出モジュールが、前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第１のサブ畳み込み層、第２のサブ畳み込み層、及び第３のサブ畳み込み層に入力する、
ことを特徴とする請求項６に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれか１項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれか１項に記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～５のいずれか１項に記載の方法が実現される、
ことを特徴とするコンピュータプログラム。