JP2022133378A - 顔生体検出方法、装置、電子機器、及び記憶媒体 - Google Patents

顔生体検出方法、装置、電子機器、及び記憶媒体 Download PDF

Info

Publication number
JP2022133378A
JP2022133378A JP2022107956A JP2022107956A JP2022133378A JP 2022133378 A JP2022133378 A JP 2022133378A JP 2022107956 A JP2022107956 A JP 2022107956A JP 2022107956 A JP2022107956 A JP 2022107956A JP 2022133378 A JP2022133378 A JP 2022133378A
Authority
JP
Japan
Prior art keywords
face
image
color
infrared
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022107956A
Other languages
English (en)
Inventor
クヤオ ワン
Keyao Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133378A publication Critical patent/JP2022133378A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】顔認識などのシーンに適用する顔生体検出方法、装置、電子機器及び記憶媒体を提供する。【解決手段】顔生体検出方法は、検出対象の顔のカラー画像を取得し、顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデルと第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像と顔の再構築深度画像をそれぞれ取得し、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する。【効果】光に対する感度を低減させ、検出の精度を向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させることができる。【選択図】図1

Description

本開示は、人工知能技術の分野に関し、コンピュータビジョンと深層学習技術に関し、顔認識などのシーンに適用することができる。
電子商取引などの技術の発展に伴い、顔ベースの認証は広く応用されており、顔ベースの認証は主に顔認識技術によって実現され、顔認識技術が人々の生活の利便性を大幅に向上させると共に、そのセキュリティ上の問題も顕在化しつつあり、例えば、印刷された写真、スクリーン写真などを実体の顔に偽装して検証に合格する。
これからわかるように、顔認識技術では、顔生体検出技術によって顔画像が生体顔を撮影することによって得られたものであるか否かを判断する必要がある。
本開示は、顔生体検出方法、装置、機器及び記憶媒体を提供する。
本開示の一態様によれば、
検出対象の顔のカラー画像を取得するステップと、
前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
前記顔のカラー画像、前記顔の再構築赤外線画像及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む顔生体検出方法を提供する。
本開示の別の態様によれば、
検出対象の顔のカラー画像を取得する取得モジュールと、
前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュールと、
前記顔のカラー画像、前記顔の再構築赤外線画像及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュールと、を含む顔生体検出装置を提供する。
本開示の別の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが顔生体検出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに顔生体検出方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、顔生体検出方法が実現される。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提供される顔生体検出方法の概略フローチャートである。 本開示の実施例によって提供される顔サンプル画像を取得する概略フローチャートである。 本開示の実施例によって提供される顔生体検出方法の概略図である。 本開示の実施例の顔生体検出方法を実現するための装置のブロック図である。 本開示の実施例の顔生体検出方法を実現するための電子機器のブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、わかりやすく簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
顔生体検出は、顔に関連する分野の基礎技術の1つであり、出勤、入退室管理などの多くのシーンに適用できる。現在の多くの業務に広く応用されている。
現在、一般的に畳み込みニューラルネットワークを用いて顔生体検出を行い、畳み込みニューラルネットワークの入力は顔のカラー画像である。しかしながら、カラー画像のみに基づく顔生体検出は、光に敏感で検出精度が高くなく、写真やビデオなどの平面攻撃に対する防御効果が低いという技術的課題がある。
上記の技術的課題を解決するために、本開示は、顔生体検出方法、装置、電子機器及び記憶媒体を提供する。
本開示の一実施例では、顔生体検出方法を提供し、方法は、
検出対象の顔のカラー画像を取得するステップと、
顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む。
これからわかるように、サンプル画像集合によって2つのコーデック再構築モデルをトレーニングすることにより、第1のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第2のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像と顔の深度画像を再構築し、その後に顔のカラー画像、及び再構築された顔の赤外線画像、顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴と、赤外線画像特徴と、深度画像特徴とを融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真やビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。
また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、1枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像及び顔の深度画像を収集する必要がない。
以下、本開示の実施例によって提供される顔生体検出方法、装置、電子機器、及び記憶媒体をそれぞれ詳細に説明する。
図1を参照すると、図1は、本開示の実施例によって提供される顔生体検出方法の概略フローチャートであり、図1に示すように、方法は以下のステップS101~S103を含むことができる。
S101において、検出対象の顔のカラー画像を取得する。
本開示の実施例では、顔生体検出を行う必要がある場合、検出対象の顔のカラー画像を取得する。ここで、顔生体検出は、顔画像が生体顔を撮影することによって得られたか否かを検出すると理解できる。ここで、カラー画像は、RGB(red-green-bule、赤緑青の三原色)画像であってもよい。
本開示の実施例は、顔のカラー画像を取得する方法を限定しない。
S102において、顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する。
本開示の一実施例では、第1のコーデック再構築モデルは、複数の第1のサンプル画像集合に基づいてトレーニングされ、各第1のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、第2のコーデック再構築モデルは、複数の第2のサンプル画像集合に基づいてトレーニングされ、各第2のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像と顔の深度サンプル画像を含む。
本開示の実施例では、第1のコーデック再構築モデルと第2のコーデック再構築モデルはいずれもEncoder-Decoder(エンコーダ-デコーダ)フレームワークのモデルである。
本開示の実施例では、複数の第1のサンプル画像集合に基づいて第1のコーデック再構築モデルを予めトレーニングすることができ、各第1のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及びと顔の赤外線サンプル画像を含む。
ここで、いわゆる顔のカラーサンプル画像と顔の赤外線サンプル画像とが互いに位置合わせされるとは、顔のカラーサンプル画像と顔の赤外線サンプル画像との画像サイズ、ピクセル数、同じ顔に対して撮影された実際の領域、および撮影角度が同じであり、ピクセルポイントが1対1で対応することを指す。
それに応じて、いわゆる顔のカラーサンプル画像と顔の深度サンプル画像とが互いに位置合わせされるとは、顔のカラーサンプル画像と顔の深度サンプル画像との画像サイズ、ピクセル数、同じ顔に対して撮影された実際の領域、および撮影角度が同じであり、ピクセルポインが1対1で対応することを指す。
例えば、RGBカメラ、NIR(Near Infrared、近赤外線)カメラ、深度カメラを含む多眼カメラを使用して、生体顔を同時に撮影し、顔のカラーサンプル画像、顔の赤外線サンプル画像、および深度サンプル画像をそれぞれ取得する。
大量のサンプル画像集合が取得された後、第1のコーデック再構築モデル及び第2のコーデック再構築モデルをそれぞれトレーニングする。第1のコーデック再構築モデルを例として、トレーニング中に、顔のカラーサンプル画像を入力し、出力は顔のカラーサンプル画像と同じサイズの特徴図であり、既存の顔の赤外線サンプル画像と組み合わせて、再構築モデルに対してL1監視トレーニングを行う。例えば、損失関数を設定し、出力された特徴図と顔の赤外線サンプル画像とに基づいて損失値を算出し、損失値に基づいて第1のコーデック再構築モデルのモデルパラメータを調整する。反復トレーニングされた後、第1のコーデック再構築モデルは、顔の赤外線画像の特徴を学習することができる。これにより、トレーニング完了後、トレーニングが完了した第1のコーデック再構築モデルに顔のカラー画像を入力し、第1のコーデック再構築モデルは、顔のカラー画像に対応する再構築された顔の赤外線画像を出力することができる。
それに応じて、同様の原理に基づいて第2のコーデック再構築モデルをトレーニングし、トレーニングが完了した後、入力された顔のカラー画像に基づいて対応する顔の深度画像を再構築することができる。
本開示の実施例では、顔のカラー画像をトレーニングが完了した第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得することができる。
S103において、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する。
本開示の一実施例では、マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および/または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像を含む。
本開示の実施例では、マルチモーダル検出ネットワークモデルを予めトレーニングすることができ、ここで、マルチモーダル検出は、マルチモーダル特徴に基づいて検出することである。
生体検出結果が二項分類結果であるため、ネットワークモデルのトレーニングのために、大量のポジティブサンプル及びネガティブサンプルを収集することができる。ポジティブサンプルは生体サンプル画像集合であり、具体的には、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含む。つまり、生体サンプル画像集合の画像は、生体顔を撮影することによって得られたものである。ここで、互いに位置合わせされることの意味は、上記を参照することができる。
ネガティブサンプルは非生体サンプル画像集合であり、具体的には、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む。つまり、非生体サンプル画像集合の画像は、生体顔を撮影することによって得られたものではなく、例えば、写真を撮影したり、電子機器の画面を撮影したりすることによって得られたものである。
一例として、RGBカメラ、NIRカメラ、及び深度カメラを含む多眼カメラを使用して、写真の顔領域を同時に撮影し、非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像をそれぞれ取得する。
ポジティブサンプルのラベルは生体であり、ネガティブサンプルのラベルは非生体であり、上記ポジティブサンプル、ネガティブサンプルおよび対応するラベルに基づいてマルチモーダル検出ネットワークモデルをトレーニングマルすることができる。具体的には、ポジティブサンプルまたはネガティブサンプルを深層学習ニューラルネットワークモデルに入力して、出力結果を取得し、出力結果及び実のラベルに基づいて損失値を算出し、損失値に基づいて深層学習ニューラルネットワークモデルのモデルパラメータを調整し、損失値が予め設定された閾値に達し、または反復回数が予め設定された回数に達した場合、トレーニングが完了する。トレーニングが完了した深層学習ニューラルネットワークは、マルチモーダル検出ネットワークモデルである。
本開示の一実施例では、マルチモーダル検出ネットワークモデルは、畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含むことができる。ここで、畳み込み層は、並列の第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層を含む。それに応じて、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力することは、具体的には、顔のカラー画像、顔の再構築赤外線画像、及び顔の再構築深度画像をマルチモーダル検出ネットワークモデルの第1のサブ畳み込み層、第2のサブ畳み込み層、および第3のサブ畳み込み層にそれぞれ入力することである。
各サブ畳み込み層に対して、適切なニューラルネットワーク構造、サブ畳み込み層の層数、および出力された特徴図の数を選択することができる。
一例として、MobileNetをサブ畳み込み層のニューラルネットワーク構造として使用し、カラー画像特徴を抽出するための第1のサブ畳み込み層の最後の層の特徴図の数は256であり、赤外線画像の特徴を抽出するための第2のサブ畳み込みの最後の層の特徴図の数は128であり、深度画像の特徴を抽出するための第3のサブ畳み込み層の最後の層の特徴図の数は128である。次いで、3つのサブ畳み込み層の特徴図を組み合わせて数が512である特徴図を取得し、SE(Squeeze-and-Excitation)注意力モジュール、グローバル平均プーリング層、および完全接続層を順次接続する。
本開示の実施例では、上記顔のカラー画像、顔の赤外線画像、および顔の深度画像は3つの入力データストリームと理解でき、これからわかるように、3つの入力データストリームを有するマルチモーダル検出ネットワークモデルは、マルチモーダル特徴を抽出し、注意力モジュールによって融合させて、最終的な顔生体検出結果を取得することができる。
このように、本開示の実施例では、サンプル画像集合によって2つのコーデック再構築モデルをトレーニングすることにより、第1のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第2のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像及び顔の深度画像を再構築し、その後に顔のカラー画像、再構築された顔の赤外線画像、及び顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴、赤外線画像特徴、及び深度画像特徴を融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。
また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、1枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像及び顔の深度画像を収集する必要がない。
また、マルチモーダルの特徴情報はモデル学習に有利であり、モデルの収束速度を著しく速める。
本開示の一実施例では、ステップS101の後、ステップS102の前に、顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行うステップをさらに含むことができる。
具体的には、顔のカラー画像が取得された後、先に顔領域検出を行って、顔の大まかな位置領域を取得することができる。顔のカラー画像を顔領域検出モデルに入力して、顔の位置領域を取得する。
その後に顔キーポイント検出モデルによって、顔の位置領域に対して検出を行って、顔キーポイント座標値を取得する。ここで、顔キーポイントは、予め定義されてものであり、例えば、鼻の左側、鼻の穴の下側、瞳孔の位置、唇の下側などの位置である。
一例として、72個の顔キーポイントを定義すると、顔キーポイント検出モデルが72個の座標、すなわち、(x、y)…(x72、y72)を出力することができる。
顔キーポイントが取得された後、顔キーポイント座標に基づいて顔画像補正を行うことができ、顔画像補正は、顔位置合わせとも呼ばれ、アフィン変換によって実現することができる。具体的には、検出された顔キーポイント及び予め設定された仮想正面顔キーポイントに基づいて、アフィン変換のアフィンマトリクスR、Tを算出し、その後、アフィンマトリクスを使用して顔画像を正面にマッピングし、アフィン変換された顔領域を切り取る。つまり、顔画像補正によって角度が正しくない顔画像を角度が正しい顔画像にマッピングすることができる。
本開示の実施例では、顔生体検出のロバスト性を向上させるために、補正された画像に対して正規化処理を行うことができる。補正された顔画像における各ピクセルポイントに対して正規化処理を行うことは、具体的には、各ピクセルポイントのピクセル値から128を減算してから256で除算し、各ピクセルポイントのピクセル値を[-0.5,0.5]の間にすることである。
このように、本開示の実施例では、顔のカラー画像に対して、顔領域検出、顔キーポイント検出、顔画像補正、及び正規化処理を行い、さらに第1のコーデック再構築モデル、第2のコーデック再構築モデル、及びマルチモーダル検出ネットワークモデルの入力とし、顔生体検出の精度をさらに向上させることができる。
本開示の一実施例では、サンプル画像集合における顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像は、顔領域検出、顔画像補正、および正規化処理によって取得されてもよい。
具体的に、図2を参照すると、図2は、本開示の実施例によって提供される顔サンプル画像を取得する概略フローチャートである。図2に示すように、以下の方法を用いて顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得することができる。
S201において、互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得する。
ここで、互いに位置合わせされることの意味は、上記を参照することができる。
一例として、RGBカメラ、NIRカメラ、深度カメラを含む多眼カメラを使用して、生体顔を同時に撮影し、初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像をそれぞれ取得する。
S202において、初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、顔のカラーサンプル画像を取得する。
顔キーポイント検出、顔画像補正および正規化処理のプロセスは、前文を参照することができ、ここでは説明を省略する。
S203において、初期の顔のカラー画像の顔キーポイント検出結果に基づいて、初期の顔の赤外線画像及び初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、顔の赤外線サンプル画像及び顔の深度サンプル画像を取得する。
本開示の実施例では、互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、および初期の顔の深度画像は、画像サイズが同じであり、ピクセル数が同じであり、ピクセルポイントが1対1で対応するため、初期の顔のカラー画像の顔キーポイント検出結果に基づいて、初期の顔の赤外線画像および初期の顔の深度画像に対して直接顔画像補正を行うことができる。すなわち、初期の顔のカラー画像の顔キーポイント検出結果は、初期の顔の赤外線画像及び初期の顔の深度画像の顔キーポイント検出結果としてもよく、したがって、互いに位置合わせされた上記3枚の画像に対して、同じアフィンマトリクスを用いてアフィン変換を行うことで、顔画像補正を実現することができる。
顔のカラーサンプル画像、顔の赤外線サンプル画像、および顔の深度サンプル画像が取得された後、画像に対してランダムデータ拡大処理、例えば、ランダムにトリミング、反転、コントラスト設定、および輝度設定を行うことで、より多くのサンプル画像を取得し、モデルをよりよくトレーニングし、モデルの汎化能力を向上させることができる。
このように、本開示の実施例では、初期の顔画像に対して、顔領域検出、顔キーポイント検出、顔画像補正、および正規化処理を順次行い、さらにモデルのトレーニングサンプルとして、モデルによる有効な画像特徴の抽出を容易にし、顔生体検出の検出精度をさらに向上させる。
理解を容易にするために、以下、図3と併せて、本開示の実施例によって提供される顔生体検出方法をさらに説明する。図3は、本開示の実施例によって提供される顔生体検出方法の概略図である。
図3に示すように、検出対象の顔のカラー画像に対して、顔領域検出、顔画像補正、および画像前処理を順次行う。ここで、画像前処理は正規化処理であってもよい。画像前処理された顔のカラー画像を第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する。さらに、画像前処理された顔のカラー画像、顔の再構築赤外線画像、および再構築深度画像をそれぞれマルチモーダル検出ネットワークモデルにおける各MobileNet畳み込み層に入力し、さらにSEアテンションメカニズムモジュール、グローバル平均プーリング層、完全接続層を順次通過させ、顔生体検出結果を取得する。
このように、本開示の実施例では、サンプル画像集合によって2つのコーデック再構築モデルをトレーニングすることにより、第1のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第2のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像及び顔の深度画像を再構築し、その後に顔のカラー画像、再構築された顔の赤外線画像、及び顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴、赤外線画像特徴、及び深度画像特徴を融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。
また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、1枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像及び顔の深度画像を収集する必要がない。
また、ネットワークトレーニングの収束速度を速め、現実シーンで顔生体検出アルゴリズムを使用する汎化性及び精度を向上させることができ、顔生体検出技術の性能を向上させることができ、顔生体検出技術を基礎とする多くのアプリケーションの効果向上及びユーザ体験の向上に役立ち、ビジネスプロジェクトのさらなる普及に有利である。
図4を参照すると、図4は、本開示の実施例の顔生体検出方法を実現するための装置のブロック図である。図4に示すように、装置は、
検出対象の顔のカラー画像を取得する取得モジュール401と、
前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュール402と、
前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュール403と、を含むことができる。
本開示の一実施例では、前記第1のコーデック再構築モデルは、複数の第1のサンプル画像集合に基づいてトレーニングされ、各第1のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含む。前記第2のコーデック再構築モデルは、複数の第2のサンプル画像集合に基づいてトレーニングされ、各第2のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像と顔の深度サンプル画像を含む。前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および/または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、および生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、および非生体顔の深度画像を含む。
本開示の一実施例では、図4に示す装置に加えて、
前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力する前に、前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行う前処理モジュールをさらに含むことができる。
本開示の一実施例では、図4に示す装置に加えて、サンプル画像取得モジュールをさらに含むことができ、前記サンプル画像取得モジュールは、
互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像と前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得する。
本開示の一実施例では、マルチモーダル検出ネットワークモデルは、
畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層を含み、
前記検出モジュールは、具体的に、前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層に入力することができる。
上記実施例によって提供される顔生体検出方案では、サンプル画像集合によって2つのコーデック再構築モデルをトレーニングすることにより、第1のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の赤外線画像の画像特徴を学習し、第2のコーデック再構築モデルが顔のカラー画像の画像特徴に対応する顔の深度画像の画像特徴を学習し、これにより、検出対象の顔のカラー画像に基づいて顔の赤外線画像及び顔の深度画像を再構築し、その後に顔のカラー画像、および再構築された顔の赤外線画像、顔の深度画像をマルチモーダルネットワークモデルに入力し、マルチモーダルネットワークモデルが顔のカラー画像特徴、赤外線画像特徴、及び深度画像特徴を融合させ、カラー画像のみに基づく顔生体検出に比べて、光に対する感度を低減させ、検出精度を大幅に向上させ、ネットワークの汎化能力を向上させ、写真、ビデオなどの平面攻撃に対する防御効果を向上させ、未知の攻撃サンプルに対する防御効果を同様に向上させることができる。
また、検出中に、顔のカラー画像のみを用いて顔生体のマルチモーダル融合検出を行うことができ、つまり、1枚の顔のカラー画像に基づいてマルチモーダル顔生体検出を行うことができ、顔の赤外線画像と顔の深度画像を収集する必要がない。
なお、本開示の技術案では、関係するユーザ個人情報の取得、保存、応用などは、いずれも関連する法律法規の規定に合致し、公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
本開示は、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが顔生体検出方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに顔生体検出方法を実行させる。
本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、顔生体検出方法が実現される。
図5は、本開示の実施例を実行するための例示的な電子機器500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
図5に示すように、電子機器500は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット501を含む。RAM503には、電子機器500の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット501、ROM502、及びRAM503は、バス504を介して互いに接続されている。バス504には、入力/出力(I/O)インターフェース505も接続されている。
電子機器500の複数のコンポーネントはI/Oインターフェース505に接続され、キーボード、マウスなどの入力ユニット506、各タイプのディスプレイ、スピーカなどの出力ユニット507、磁気ディスク、光ディスクなどの記憶ユニット508、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509を含む。通信ユニット509は、電子機器500が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット501は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、前文に記載の各方法および処理、例えば顔生体検出方法を実行する。例えば、いくつかの実施例では、顔生体検出方法を、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM502及び/又は通信ユニット509を介して電子機器500にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM503にロードされ、計算ユニット501によって実行される場合、前文に記載の顔生体検出方法の1つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット501は顔生体検出方法を実行するように、他の任意の適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび/またはブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み合わせたサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができると理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (13)

  1. 顔生体検出方法であって、
    検出対象の顔のカラー画像を取得するステップと、
    前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得するステップと、
    前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得するステップと、を含む、
    ことを特徴とする顔生体検出方法。
  2. 前記第1のコーデック再構築モデルは、複数の第1のサンプル画像集合に基づいてトレーニングされ、各第1のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、前記第2のコーデック再構築モデルは、複数の第2のサンプル画像集合に基づいてトレーニングされ、各第2のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の深度サンプル画像を含み、
    前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および/または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、及び生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力するステップの前に、
    前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行うステップをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  4. 互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
    前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
    前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像及び前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行い、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得するステップをさらに含む、
    ことを特徴とする請求項2に記載の方法。
  5. マルチモーダル検出ネットワークモデルは、
    畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層を含み、
    前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力するステップは、
    前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層に入力するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  6. 顔生体検出装置であって、
    検出対象の顔のカラー画像を取得する取得モジュールと、
    前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力して、顔の再構築赤外線画像及び顔の再構築深度画像をそれぞれ取得する再構築モジュールと、
    前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像を予めトレーニングされたマルチモーダル検出ネットワークモデルに入力して、生体検出結果を取得する検出モジュールと、を含む、
    ことを特徴とする顔生体検出装置。
  7. 前記第1のコーデック再構築モデルは、複数の第1のサンプル画像集合に基づいてトレーニングされ、各第1のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の赤外線サンプル画像を含み、前記第2のコーデック再構築モデルは、複数の第2のサンプル画像集合に基づいてトレーニングされ、各第2のサンプル画像集合は、互いに位置合わせされた顔のカラーサンプル画像及び顔の深度サンプル画像を含み、
    前記マルチモーダル検出ネットワークモデルは、複数の生体サンプル画像集合および/または複数の非生体サンプル画像集合に基づいてトレーニングされ、各生体サンプル画像集合は、互いに位置合わせされた生体顔のカラー画像、生体顔の赤外線画像、及び生体顔の深度画像を含み、各非生体のサンプル画像集合は、互いに位置合わせされた非生体顔のカラー画像、非生体顔の赤外線画像、及び非生体顔の深度画像を含む、
    ことを特徴とする請求項6に記載の装置。
  8. 前記顔のカラー画像を予めトレーニングされた第1のコーデック再構築モデル及び第2のコーデック再構築モデルにそれぞれ入力する前に、前記顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行う前処理モジュールをさらに含む、
    ことを特徴とする請求項6に記載の装置。
  9. 前記装置は、サンプル画像取得モジュールをさらに含み、
    前記サンプル画像取得モジュールが、
    互いに位置合わせされた初期の顔のカラー画像、初期の顔の赤外線画像、及び初期の顔の深度画像を取得し、
    前記初期の顔のカラー画像に対して顔キーポイント検出を行い、顔キーポイント検出結果に基づいて顔画像補正を行い、補正された画像に対して正規化処理を行って、前記顔のカラーサンプル画像を取得し、
    前記初期の顔のカラー画像の顔キーポイント検出結果に基づいて、前記初期の顔の赤外線画像及び前記初期の顔の深度画像に対してそれぞれ顔画像補正を行い、補正された画像に対してそれぞれ正規化処理を行って、前記顔の赤外線サンプル画像及び前記顔の深度サンプル画像を取得する方法によって、顔のカラーサンプル画像、顔の赤外線サンプル画像、及び顔の深度サンプル画像を取得する、
    ことを特徴とする請求項7または8に記載の装置。
  10. マルチモーダル検出ネットワークモデルは、
    畳み込み層、アテンションメカニズムモジュール、グローバル平均プーリング層、及び完全接続層を含み、畳み込み層が並列の第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層を含み、
    前記検出モジュールが、前記顔のカラー画像、前記顔の再構築赤外線画像、及び前記顔の再構築深度画像をそれぞれ前記マルチモーダル検出ネットワークモデルの第1のサブ畳み込み層、第2のサブ畳み込み層、及び第3のサブ畳み込み層に入力する、
    ことを特徴とする請求項6に記載の装置。
  11. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれか1項に記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~5のいずれか1項に記載の方法が実現される、
    ことを特徴とするコンピュータプログラム。
JP2022107956A 2021-07-21 2022-07-04 顔生体検出方法、装置、電子機器、及び記憶媒体 Pending JP2022133378A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110827498.9 2021-07-21
CN202110827498.9A CN113435408A (zh) 2021-07-21 2021-07-21 人脸活体检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
JP2022133378A true JP2022133378A (ja) 2022-09-13

Family

ID=77761340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022107956A Pending JP2022133378A (ja) 2021-07-21 2022-07-04 顔生体検出方法、装置、電子機器、及び記憶媒体

Country Status (3)

Country Link
JP (1) JP2022133378A (ja)
KR (1) KR20220100812A (ja)
CN (1) CN113435408A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578797A (zh) * 2022-09-30 2023-01-06 北京百度网讯科技有限公司 模型训练方法、图像识别方法、装置及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205939B (zh) * 2022-07-14 2023-07-25 北京百度网讯科技有限公司 人脸活体检测模型训练方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046276A (ja) * 2017-09-05 2019-03-22 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
CN109543640A (zh) * 2018-11-29 2019-03-29 中国科学院重庆绿色智能技术研究院 一种基于图像转换的活体检测方法
US20200351489A1 (en) * 2019-05-02 2020-11-05 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
JP2021068272A (ja) * 2019-10-25 2021-04-30 凸版印刷株式会社 画像処理システム、画像処理方法及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590430A (zh) * 2017-07-26 2018-01-16 百度在线网络技术(北京)有限公司 活体检测方法、装置、设备及存储介质
CN109086691B (zh) * 2018-07-16 2020-02-21 阿里巴巴集团控股有限公司 一种三维脸部活体检测方法、脸部认证识别方法及装置
CN109635770A (zh) * 2018-12-20 2019-04-16 上海瑾盛通信科技有限公司 活体检测方法、装置、存储介质及电子设备
CN111091063B (zh) * 2019-11-20 2023-12-29 北京迈格威科技有限公司 活体检测方法、装置及系统
CN111597918A (zh) * 2020-04-26 2020-08-28 北京金山云网络技术有限公司 人脸活体检测模型的训练、检测方法、装置及电子设备
CN111611934A (zh) * 2020-05-22 2020-09-01 北京华捷艾米科技有限公司 一种人脸检测模型生成和人脸检测方法、装置及设备
CN112036331B (zh) * 2020-09-03 2024-04-09 腾讯科技(深圳)有限公司 活体检测模型的训练方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046276A (ja) * 2017-09-05 2019-03-22 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム
CN109543640A (zh) * 2018-11-29 2019-03-29 中国科学院重庆绿色智能技术研究院 一种基于图像转换的活体检测方法
US20200351489A1 (en) * 2019-05-02 2020-11-05 Niantic, Inc. Self-supervised training of a depth estimation model using depth hints
JP2021068272A (ja) * 2019-10-25 2021-04-30 凸版印刷株式会社 画像処理システム、画像処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KUUPOLE ERUBAAR EWALD ET AL.: ""Applying CNN with Extracted Facial Patches using 3 Modalities to Detect 3D Face Spoof"", 2020 17TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCE, JPN6023023177, 18 December 2020 (2020-12-18), pages 216 - 220, ISSN: 0005077982 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578797A (zh) * 2022-09-30 2023-01-06 北京百度网讯科技有限公司 模型训练方法、图像识别方法、装置及电子设备
CN115578797B (zh) * 2022-09-30 2023-08-29 北京百度网讯科技有限公司 模型训练方法、图像识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN113435408A (zh) 2021-09-24
KR20220100812A (ko) 2022-07-18

Similar Documents

Publication Publication Date Title
US10699103B2 (en) Living body detecting method and apparatus, device and storage medium
CN112052831B (zh) 人脸检测的方法、装置和计算机存储介质
EP4033458A2 (en) Method and apparatus of face anti-spoofing, device, storage medium, and computer program product
JP2022133378A (ja) 顔生体検出方法、装置、電子機器、及び記憶媒体
CN113343826B (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
EP4085369A1 (en) Forgery detection of face image
WO2022227765A1 (zh) 生成图像修复模型的方法、设备、介质及程序产品
CN112052830B (zh) 人脸检测的方法、装置和计算机存储介质
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
WO2021127916A1 (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
KR20150128510A (ko) 라이브니스 검사 방법과 장치,및 영상 처리 방법과 장치
CN112052832A (zh) 人脸检测的方法、装置和计算机存储介质
JP2022133463A (ja) 顔生体検出方法、装置、電子機器及び記憶媒体
CN112464873A (zh) 模型的训练方法、人脸活体识别方法、系统、设备及介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN110956133A (zh) 单字符文本归一化模型训练方法、文本识别方法及装置
CN112613457B (zh) 图像采集方式检测方法、装置、计算机设备和存储介质
CN112001285B (zh) 一种美颜图像的处理方法、装置、终端和介质
CN114067394A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN114038045A (zh) 一种跨模态人脸识别模型构建方法、装置及电子设备
US11087121B2 (en) High accuracy and volume facial recognition on mobile platforms
CN112580395A (zh) 基于深度信息的3d人脸活体识别方法、系统、设备及介质
CN114639132A (zh) 人脸识别场景下的特征提取模型处理方法、装置、设备
CN111079704A (zh) 一种基于量子计算的人脸识别方法及装置
CN115205939B (zh) 人脸活体检测模型训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109