JP7297989B2 - 顔生体検出方法、装置、電子機器及び記憶媒体 - Google Patents

顔生体検出方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7297989B2
JP7297989B2 JP2022110618A JP2022110618A JP7297989B2 JP 7297989 B2 JP7297989 B2 JP 7297989B2 JP 2022110618 A JP2022110618 A JP 2022110618A JP 2022110618 A JP2022110618 A JP 2022110618A JP 7297989 B2 JP7297989 B2 JP 7297989B2
Authority
JP
Japan
Prior art keywords
detection result
face
result
frames
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022110618A
Other languages
English (en)
Other versions
JP2022133463A (ja
Inventor
クヤオ ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133463A publication Critical patent/JP2022133463A/ja
Application granted granted Critical
Publication of JP7297989B2 publication Critical patent/JP7297989B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images

Description

本開示は、人工知能技術の分野に関し、具体的には、コンピュータビジョンと深層学習技術の分野に関し、顔認識などのシーンに適用可能であり、特に顔生体検出方法、装置、電子機器及び記憶媒体に関する。
顔生体検出は、画像が偽造された顔であるか否かを区別することであり、顔認識システムの基礎構成モジュールであり、顔認識システムの安全性を確保する。深層学習技術を用いた顔ディープフェイクアルゴリズムは現在当分野の主流の方法である。しかしながら、いくつかのアプリケーションシーンでは、深層学習に基づく顔ディープフェイクアルゴリズムは汎化性が悪く、未知の偽造サンプルや方式に対する効果が低下するという問題があり、実用性能に影響を及ぼす。
本開示は、顔生体検出のための方法、装置、機器及び記憶媒体を提供する。
本開示の第1の態様によれば、
顔ビデオにおける連続したNフレームの画像を取得し、前記Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得するステップであって、Nが1より大きい整数であるステップと、
前記Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得するステップと、
前記Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得するステップと、
前記N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、前記第2の差分画像に基づいて対応する第2の検出結果を決定するステップと、
前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定するステップと、を含む顔生体検出方法を提供する。
本開示の第2の態様によれば、
顔ビデオにおける連続したNフレームの画像を取得し、前記Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得する取得モジュールであって、Nが1より大きい整数である取得モジュールと、
前記Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する第1の差分モジュールと、
前記Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得する第2の差分モジュールと、
前記N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、前記第2の差分画像に基づいて対応する第2の検出結果を決定する第1の決定モジュールと、
前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定する第2の決定モジュールと、を含む顔生体検出装置を提供する。
本開示の第3の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記第1の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記第1の態様に記載の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記第1の態様に記載の方法が実現される。
本開示の技術案によれば、既存の顔偽造技術に対して、顔ビデオにおける連続した複数フレームの顔画像に対して前後フレームの差分を計算し、得られた差分画像に基づいて対応する検出結果を決定することにより、時間次元における顔画像の連続性に基づいて、対応する検出結果を決定することに相当し、時間次元における連続性が悪い顔偽造を効果的に防御することができる。また、顔ビデオにおける1フレーム目の画像と最後のフレームの画像との差分を計算して得られた差分画像も生体検出の根拠とし、顔ビデオにおける背景の変化の度合いも考慮されることに相当し、これにより、顔領域のみを処理して背景が変わらない顔偽造方式を効果的に防御することができ、さらに顔生体検出技術の性能を向上させ、顔認識システムの安全を確保するとともに、顔生体検出技術を基礎とする多くのアプリケーションの効果と体験を向上させることができる。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提案される顔生体検出方法のフローチャートである。 本開示の実施例におけるビデオ内の顔の生体検出結果を決定するフローチャートである。 本開示の実施例によって提案される別の顔生体検出方法のフローチャートである。 本開示の実施例の顔生体検出モデルのネットワーク構造の概略図である。 本開示の実施例によって提案される顔生体検出装置の構成ブロック図である。 本開示の実施例によって提案される別の顔生体検出装置の構成ブロック図である。 本開示の実施例によって提案される電子機器の構成ブロック図である。
以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、わかりやすく簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
なお、顔生体検出は、画像が偽造された顔であるか否かを区別することであり、顔認識システムの基礎構成モジュールであり、顔認識システムの安全性を確保する。現在の顔生体検出方法は主にニューラルネットワークの深層学習方法を用いている。深層学習を用いた顔生体検出の主な方法は、畳み込みニューラルネットワークに基づく偽造ビデオ判別、長短期記憶人工ニューラルネットワークに基づく偽造ビデオ判別などの方法である。このような方法はニューラルネットワークを用いて顔の特徴抽出と分類を行う。深層学習方法は安定性の高い顔特徴を抽出することができ、より良い性能を有する。
しかしながら、従来技術では、顔生体検出の方法は、未知の偽造方式やサンプルに対する汎化性に限界がある。また、ビデオフレームのタイミング情報を考慮していないため、実際のシーンのビデオ偽造に対してロバスト性が悪く、認識効果が望ましくない。
また、本開示の発明者は、現在の顔偽造技術の研究により、現在主流の顔偽造技術であるFace2Face、DeepFakes、FaceSwapなどの多くは、シングルフレーム処理に基づく方法であると発見され、つまり、他の人の顔を元の顔に貼り合わせて偽造を完了させ、生成された偽造ビデオが時間次元において連続性がなく、特に顔の動き中にあるフレームに偽造効果が悪い場合があり、実の顔は2フレーム間で大きく変化しない。また、FOMなどのような顔の表情のみを駆動する深層偽造技術は顔領域のみを処理し、背景を処理しない。
そのため、本開示は、上記の課題及び発見に基づいて、顔ビデオフレーム間の差分画像に基づいて生体検出結果を決定する顔生体検出方法、装置、電子機器及び記憶媒体を提案する。
本開示の実施例を容易に理解するために、まず、顔生体検出方法について説明する。
なお、本開示の技術案では、関係するユーザ個人情報の取得、保存、応用などは、いずれも関連する法律法規の規定に適合し、公序良俗に違反することはない。また、関係するユーザ個人情報は、ユーザの同意を得て取得、保存、適用されたものである。
図1は、本開示の実施例によって提案される顔生体検出方法のフローチャートである。なお、本開示の実施例の顔生体検出方法は、本開示の実施例の顔生体検出装置に適用することができ、当該装置は電子機器に配置されることができる。図1に示すように、当該方法は以下のステップ101~105を含む。
ステップ101において、顔ビデオにおける連続したNフレームの画像を取得し、Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得し、Nが1より大きい整数である。
通常、顔認識を行う端末機器には、カメラが配置されることができ、顔認識を行う場合、端末機器のカメラをトリガーして撮影し、撮影されたビデオに基づいて顔認識を行う。本開示の実施例では、顔ビデオは、顔認識システムによって、端末に配置されたカメラを介して撮影されてもよい。なお、当該顔ビデオには顔情報が含まれる必要があり、一例として、端末カメラによって撮影されたビデオを検証処理を行うことができ、ビデオに顔情報が含まれていないことに応答して、再撮影して検証する必要がある。
また、顔ビデオのフレーム数がN以上である場合、その中の連続したNフレームを顔ビデオにおける連続したNフレームの画像として取得することができる。顔ビデオのフレーム数がNである場合、当該ビデオに対応するNフレームは、顔ビデオにおける連続したNフレームの画像である。なお、当該Nフレームの画像はいずれも顔を含む画像である。
本開示の実施例では、後続の顔位置合わせ操作を容易にするために、Nフレームの画像を前処理して、顔に対応する領域を取得することができる。一例として、Nフレームの画像のうちの各枚の画像を検出モデルによって顔を検出して、各枚の画像内の顔の位置領域を取得することができる。ここで、検出モデルは、既存の顔検出モデルであり、顔の位置を検出することができる。
次に、検出された顔の位置に基づいて、Nフレームの画像に対して顔位置合わせを行って、Nフレームの顔画像を取得する。一例として、検出された顔領域に基づいて、顔キーポイント検出モデルによって顔キーポイントを検出して、顔キーポイントの座標値を取得することができる。ここで、顔検出ポイントモデルは既存のモデルである。顔区域が検出されたNフレームの画像を当該モデルに入力して、それぞれが(x1,y1)…(x72,y72)である72個の顔キーポイント座標を取得することができる。顔キーポイント座標値に基づいてターゲット顔を位置合わせして対応する顔画像を取得する。具体的には、のの位置合わせの過程は、以下の通りであってもよい。上記72個の顔キーポイント座標に基づいて横座標の最小値xmin、横座標の最大値xmax、縦座標の最小値ymin及び縦座標の最大値ymaxを取得し、当該4つの点の座標に基づいて1つの顔枠を決定し、決定された顔枠を2倍拡大してから顔画像を切り取り、サイズを224*224に調整して、Nフレームの顔画像を取得することができる。
ステップ102において、Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する。
なお、実際の顔ビデオは、2フレーム間での変化が小さく、偽造された顔ビデオがシングルフレームのみに基づいて処理されるため、生成された偽造ビデオは時間次元における連続性が悪い。したがって、Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算し、すなわち、Nフレームの顔画像のうち、隣接する2フレーム間の差異を計算し、得られた差分画像は、時間次元における顔ビデオの連続性を表すことができ、さらに、当該ビデオ内の顔の真偽を判断することができる。
一例として、Nフレームの顔画像のうちの隣接する2フレームごとに後フレームと前フレームとの差を計算することができ、2フレームの顔画像ごとに差を計算して1枚の差分画像を取得することができるため、当該Nフレームの顔画像でN-1フレームの第1の差分画像を取得することができる。
ステップ103において、Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得する。
既存の顔偽造技術では、顔の表情のみを駆動する深層偽造技術があり、それは、顔領域のみを偽造し、背景情報が変わらないことに相当する。つまり、Nフレームの画像における背景情報が一致するか否かに基づいて、ビデオ内の顔の真偽を判断する根拠とすることができる。
本開示の実施例では、Nフレームの画像のうちのNフレーム目の画像と1フレーム目の画像とを差分処理することによって第2の差分画像を取得し、すなわち、Nフレームの画像のうちのNフレーム目の画像と1フレーム目の画像との差分を計算することによって第2の差分画像を取得する。ここで、第2の差分画像は、Nフレームの画像における背景情報の変化の度合いを表す。
ステップ104において、N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、第2の差分画像に基づいて対応する第2の検出結果を決定する。
なお、N-1フレームの第1の差分画像は、顔ビデオにおける顔情報の隣接する2フレーム間の変化を表すことができ、すなわち、隣接する2フレーム間に第1の差分画像で表される顔情報の変化が大きいほど、当該ビデオ内の顔が偽造される可能性が高くなる。第2の差分画像は、顔ビデオにおける背景情報の変化を表すことができ、すなわち、第2の差分画像で表される顔ビデオにおける背景情報の変化が大きいほど、当該ビデオ内の顔が偽造される可能性が高くなる。
一例として、N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定する実現形態は以下の通りであってもよい。N-1フレームの第1の差分画像に対して時空間特徴抽出を行って、N-1フレームの第1の差分画像の時空間特徴ベクトルを取得する。例えば、トレーニングされた3D畳み込みニューラルネットワークによってN-1フレームの第1差分画像に対して時空間特徴抽出を行うことができる。取得された時空間特徴ベクトルに対して加重計算を行って、時空間特徴情報を統合して、対応する第1の加重結果を取得する。得られた第1の加重結果に対して正規化処理を行って、対応する第1の検出結果を取得する。また、第2の差分画像に基づいて対応する第2の検出結果を決定する実現形態は以下の通りであってもよい。第2の差分画像に対して特徴抽出を行って、対応する第1の特徴ベクトルを取得する。例えば、畳み込みニューラルネットワークによって第2の差分画像に対して特徴抽出を行う。第1の特徴ベクトルに対して加重計算を行って、対応する第2の加重結果を取得する。第2の加重結果に対して正規化処理を行って、対応する第2の検出結果を取得する。ここで、第1の検出結果と第2の検出結果は、当該ビデオ内の顔が生体である確率であってもよいし、当該ビデオ内の顔が生体である確率と当該ビデオ内の顔が生体ではない確率を表す2項分類結果であってもよいし、または検出結果を表すことができる他の形態であってもよい。
別の例として、第1の差分画像をスコア分割することができ、スコアが高いほど隣接する2フレームの画像における顔情報の変化が大きくなることを示し、N-1フレームの第1の差分画像のスコアに基づいて当該ビデオ内の顔が生体である確率を計算し、当該確率値を第1の検出結果とする。同時に、第2の差分画像もスコア分割して、スコアが高いほど、背景情報の変化が大きくなることを示し、当該スコアを当該ビデオ内の顔が生体である確率に対応させて、第2の検出結果を取得する。
ステップ105において、第1の検出結果と第2の検出結果とに基づいて、ビデオ内の顔の生体検出結果を決定する。
なお、現在の顔偽造技術には、シングルフレームの画像に対する顔貼り合わせによって顔偽造を行う方式も、顔領域のみを偽造して背景が出ない方式もあるため、第1の検出結果と第2の検出結果とに基づいてビデオ内の顔の生体検出結果を決定することにより、顔生体検出の効果と精度を効果的に向上させることができる。
一例として、第1の検出結果と第2の検出結果とを融合処理し、例えば平均化処理、加重平均化処理などを行い、融合処理されたされた結果をビデオ内の顔の生体検出結果とすることができる。
本開示の実施例によって提案される顔生体検出方法によれば、既存の顔偽造技術に対して、顔ビデオにおける連続した複数フレームの顔画像に対して前後フレームの差分を計算することにより、得られた差分画像に基づいて対応する検出結果を決定することにより、時間次元における顔画像の連続性に基づいて、対応する検出結果を決定することに相当し、時間次元における連続性が悪い顔偽造を効果的に防御することができる。また、顔ビデオにおける1フレーム目の画像と最後のフレームの画像との差分を計算して得られた差分画像も生体検出の根拠とし、顔ビデオにおける背景の変化の度合いも考慮されることに相当し、これにより、顔領域のみを処理して背景が変わらない顔偽造方式を効果的に防御することができ、さらに顔生体検出技術の性能を向上させ、顔認識システムの安全を確保するとともに、顔生体検出技術を基礎とする多くのアプリケーションの効果と体験を向上させることができる。
ビデオ内の顔の生体検出結果を効果的に決定するために、上記の実施例に加えて、本開示は、別の実施例を提案する。
図2は、本開示の実施例におけるビデオ内の顔の生体検出結果を決定するフローチャートである。図2に示すように、ビデオ内の顔の生体検出結果を決定する実現形態は以下のステップ201~203の通りであってもよい。
ステップ201において、第2の検出結果が予め設定された閾値より小さいか否かを判断する。
なお、第2の検出結果は第2の差分画像に基づいて得られたものであり、すなわち、第2の差分画像を計算することにより、連続したNフレームの画像における背景情報の変化状況を取得し、背景情報の変化状況に基づいて第2の検出結果を取得する。第2の検出結果において、当該ビデオ内の顔が生体である確率が低い、すなわち、当該ビデオにおける背景情報がほとんど変わらない場合、現在のビデオ内の顔が偽造されたものであると決定することができる。
本開示の実施例では、第2の検出結果は、当該ビデオ内の顔が生体である確率であり、予め設定された閾値とは、第2の検出結果における当該ビデオ内の顔が生体である確率の閾値を指し、この値の大きさは、実際の状況に応じて複数回の実験によって決定することができる。なお、当該閾値は、第2の検出結果に基づいて、生体検出結果を直接決定できるか否かの限界とすることができ、第2の検出結果が当該閾値より小さいことに応答して、当該ビデオ内の顔が生体である確率が極めて小さいことを示し、当該ビデオ内の顔の生体検出結果が非生体であると直接決定することができる。第2の検出結果が当該閾値以上であることに応答して、当該ビデオ内の顔が生体、または、偽造されたものである可能性があることを示し、第1の検出結果と組み合わせてさらに決定する必要がある。このように、第2の検出結果を顔の生体検出結果を決定する初歩的な判断とすることで、ビデオ内の収束した生体検出結果を決定する計算量を低減させ、結果出力効率を向上させることができる。
ステップ202において、第2の検出結果が予め設定された閾値より小さいことに応答して、第2の検出結果に基づいてビデオ内の顔の生体検出結果を決定する。
つまり、第2の検出結果に対応する当該ビデオ内の顔が生体である確率が予め設定された閾値より小さいことに応答して、第2の検出結果に基づいてビデオ内の顔の生体検出結果を直接決定することができる。
例えば、得られた第2の検出結果が、当該ビデオ内の顔が生体である確率が0.05であり、予め設定された閾値が0.1であり、すなわち第2の検出結果が予め設定された閾値より小さい場合、第2の検出結果に基づいて、ビデオ内の顔の生体検出結果が非生体であると直接決定することができる。
ステップ203において、第2の検出結果が予め設定された閾値以上であることに応答して、第1の検出結果と第2の検出結果を融合処理し、融合処理された結果をビデオ内の顔の生体検出結果とする。
つまり、第2の検出結果に対応する当該ビデオ内の顔が生体である確率が予め設定された閾値以上であることに応答して、この場合、ビデオ内の顔が生体または偽造されたものである可能性があり、すなわち、第2の検出結果のみに基づいてビデオ内の顔の生体検出結果を決定することができず、第1の検出結果と組み合わせてさらに決定する必要がある。
本開示の実施例では、第1の検出結果と第2の検出結果を融合処理し、融合処理された結果をビデオ内の顔の生体検出結果とする実現形態は以下の通りであってもよい。第1の検出結果と第2の検出結果に対して平均計算を行い、平均計算によって得られた結果をビデオ内の顔の生体検出結果とする。または、第1の検出結果と第2の検出結果に対して加重平均計算を行い、加重平均計算によって得られた結果をビデオ内の顔の生体検出結果とする。
別の実施形態として、第1の検出結果と第2の検出結果は2項分類結果であってもよい。当該2項分類結果の第1の分類結果はビデオ内の顔が生体である確率を表し、当該2項分類結果の第2の分類結果はビデオ内の顔が非生体である確率を表す。上記ステップ201は、第2の検出結果の第1の分類結果が予め設定された閾値より小さいか否かを判断する。ステップ202は、第2の検出結果の第1の分類結果が予め設定された閾値より小さいことに応答して、第2の検出結果に基づいてビデオ内の顔の生体検出結果を決定する。ステップ203は、第2の検出結果の第1の分類結果が予め設定された閾値以上であることに応答して、第1の検出結果と第2の検出結果を融合処理し、融合処理された結果をビデオ内の顔の生体検出結果とする。
本開示の実施例の顔生体検出方法によれば、ビデオ内の顔の生体検出結果を決定する場合、まず、第2の検出結果を予め設定された閾値と比較し、ビデオ内の顔の生体検出結果を決定する初歩的な判断とし、第2の検出結果が予め設定された閾値より小さいことに応答して、直接第2の検出結果に基づいて生体検出結果として、すなわち、当該ビデオ内の顔生体検出結果が非生体であると直接判断し、そうでなければ、第1の検出結果と組み合わせてさらに決定する。このように、ビデオ内の収束した生体検出結果を決定する計算量を効果的に低減させ、結果出力効率を向上させることができる。
画像ピクセル値に対する光などの干渉を低減させ、幾何学的変換等による画像への影響を除去するために、本開示の実施例では、画像の正規化処理が追加されている。
図3は、本開示の実施例によって提案される別の顔生体検出方法のフローチャートである。上記の実施例に加えて、図3に示すように、当該方法は以下のステップ306をさらに含む。
ステップ306において、Nフレームの顔画像に対してピクセル正規化処理を行って、Nフレームの正規化された顔画像を取得する。
なお、正規化の基本思想は、画像の不変モーメントを用いて、他の変換関数による画像変換への影響を除去できる1組のパラメータを探し、すなわち、アフィン変換に抵抗するために一意の標準形式に変換することである。画像のピクセル正規化処理は、画像を幾何学的変換の攻撃に抵抗させ、光の不均一によるピクセル値の干渉を低減させることができる。
一例として、Nフレームの顔画像に対してピクセル正規化処理を行う実現形態は以下の通りであってもよい。画像の各ピクセルのピクセル値から128を引いて、それぞれ256で除算し、各ピクセルのピクセル値を[-0.5、0.5]の間にする。
ステップ302において、Nフレームの正規化された顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する。
なお、図3のステップ301~305は、図1のステップ101~105と同じ実現形態を有し、ここでは説明を省略する。
本開示の実施例の顔生体検出方法によれば、顔画像にピクセル正規化処理を追加することにより、光の不均一によるピクセルの干渉を効果的に低減することができ、画像が幾何学的変換の攻撃に抵抗でき、顔生体検出の精度を向上させることができる。
上記の実施例に基づいて、N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、第2の差分画像に基づいて対応する第2の検出結果を決定するプロセスは、顔生体検出モデルによって実現することができる。
図4は当該顔生体検出モデルのネットワーク構造の概略図である。図4に示すように、顔生体検出モデルは、時空間特徴抽出層401、第1の完全接続層402、第1の正規化層403、画像特徴抽出層404、第2の完全接続層405及び第2の正規化層406を含む。当該モデルは、事前に、生体ビデオの連続したNフレームの画像サンプルと、偽造された顔ビデオの連続したNフレームの画像サンプルデータでトレーニングして得られる。
具体的には、N-1フレームの第1の差分画像を時空間特徴抽出層401に入力して時空間特徴抽出を行って、N-1フレームの第1の差分画像の時空間特徴ベクトルを取得する。ここで、時空間特徴抽出層は、I3D畳み込みニューラルネットワークであってもよいし、時空間特徴を抽出できる他のネットワークモデルであってもよい。取得された時空間特徴ベクトルを第1の完全接続層402に入力して加重計算を行って、対応する第1の加重結果を取得する。第1の加重結果を第1の正規化層403に入力して正規化処理を行って、対応する第1の検出結果を取得する。ここで、正規化層403はsoftmax層であってもよい。
また、第2の差分画像を画像特徴抽出層404に入力して特徴抽出を行って、対応する第1の特徴ベクトルを取得する。ここで、画像特徴抽出層404はMobileNet V2畳み込みニューラルネットワークであってもよいし、他の畳み込みニューラルネットワークモデルであってもよい。取得された第1の特徴ベクトルを第2の完全接続層405に入力して加重計算を行って、対応する第2の加重結果を取得する。取得された第2の加重結果を第2の正規化層406に入力して正規化処理を行って、対応する第2の検出結果を取得する。
本開示の実施例では、当該顔生体検出モデルのトレーニング方式は以下の通りであってもよい。顔ビデオの連続したNフレームの画像サンプルを取得する。Nフレームの画像サンプルは生体顔ビデオのNフレームの連続した画像サンプルと偽造された顔ビデオのNフレームの連続した画像サンプルを含む。Nフレームの画像サンプルに対して顔位置合わせ処理を行って、Nフレームの顔画像サンプルを取得する。Nフレームの顔画像サンプルに対してピクセル正規化操作を行って、ランダムデータ拡張処理を行う。Nフレームの顔画像サンプルにおける各組のNフレームの顔画像に対して、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像サンプルを取得する。Nフレームの画像サンプルにおける各組のNフレームの画像に対して、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像サンプルを取得する。N-1フレームの第1の差分画像サンプルを顔生体検出モデルの時空間特徴抽出層に入力して時空間特徴抽出を行って、時空間特徴抽出層で抽出された情報を第1の完全接続層に入力して加重計算を行って、得られた加重計算結果に対して第1の正規化層によって正規化処理を行って、第1の予測結果を取得する。第2の差分画像サンプルを画像特徴抽出層に入力して特徴抽出を行って、抽出された情報を第2の完全接続層に入力して加重計算を行って、得られた加重計算結果に対して第2の正規化層によって正規化処理を行って、第2の予測結果を取得する。第1の予測結果と第2の予測結果とに基づいて対応する損失値を計算して、顔生体検出モデルをトレーニングする。
本開示の実施例によって提案される顔生体検出方法によれば、顔生体検出モデルによって、取得された差分画像に対してそれぞれ特徴抽出及び分類計算を行って、対応する検出結果を取得し、顔生体検出モデルを使用して生体ビデオと偽造されたビデオからより判別性のある特徴を抽出して分類検出を行うことに相当し、顔生体検出の汎化性と精度を効果的に向上させることができ、検出効率を向上させることもできる。また、当該顔検出モデルを、生体ビデオの連続したフレームの画像サンプルと偽造された顔ビデオの連続したフレームの画像サンプルから得られた差分画像でトレーニングすることにより、ネットワークトレーニングの収束速度を速め、モデルトレーニングの効率を向上させることができる。
上記の実施例を実現するために、本開示は、顔生体検出装置を提案する。
図5は、本開示の実施例によって提案される顔生体検出装置の構成ブロック図である。図5に示すように、当該装置は、
顔ビデオにおける連続したNフレームの画像を取得し、Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得する取得モジュール510であって、Nが1より大きい整数である取得モジュール510と、
Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する第1の差分モジュール520と、
Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得する第2の差分モジュール530と、
N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、第2の差分画像に基づいて対応する第2の検出結果を決定する第1の決定モジュール540と、
第1の検出結果と第2の検出結果とに基づいて、ビデオ内の顔の生体検出結果を決定する第2の決定モジュール550と、を含む。
本開示のいくつかの実施例では、第1の決定モジュール540は、具体的に、
N-1フレームの第1の差分画像に対して時空間特徴抽出を行って、N-1フレームの第1の差分画像の時空間特徴ベクトルを取得し、
時空間特徴ベクトルに対して加重計算を行って、対応する第1の加重結果を取得し、
第1の加重結果に対して正規化処理を行って、対応する第1の検出結果を取得する。
本開示のいくつかの実施例では、第1の決定モジュール540は、さらに、
第2の差分画像に対して特徴抽出を行って、対応する第1の特徴ベクトルを取得し、
第1の特徴ベクトルに対して加重計算を行って、対応する第2の加重結果を取得し、
第2の加重結果に対して正規化処理を行って、対応する第2の検出結果を取得する。
さらに、本開示のいくつかの実施例では、第2の決定モジュール550は、
第2の検出結果が予め設定された閾値より小さいか否かを判断する判断ユニット551と、
第2の検出結果が予め設定された閾値より小さい場合、第2の検出結果に基づいてビデオ内の顔の生体検出結果を決定する第1の決定ユニット552と、
第2の検出結果が予め設定された閾値以上である場合、第1の検出結果と第2の検出結果を融合処理し、融合処理された結果をビデオ内の顔の生体検出結果とする第2の決定ユニット553と、を含む。
ここで、第2の決定ユニット553は、具体的に、
第1の検出結果と第2の検出結果に対して平均計算を行い、平均計算によって得られた結果をビデオ内の顔の生体検出結果とし、または、
第1の検出結果と第2の検出結果に対して加重平均計算を行い、加重平均計算によって得られた結果をビデオ内の顔の生体検出結果とする。
本開示の別の実施例では、第1の検出結果と第2の検出結果は、それぞれ2項分類結果であり、2項分類結果の第1の分類結果がビデオ内の顔が生体である確率を表し、2項分類結果の第2の分類結果がビデオ内の顔が非生体である確率を表し、ここで、判断ユニット551は、具体的に、
第2の検出結果の第1の分類結果が予め設定された閾値より小さいか否かを判断し、
第1の決定ユニット552は、具体的に、
第2の検出結果の第1の分類結果が予め設定された閾値より小さいことに応答して、第2の検出結果に基づいてビデオ内の顔の生体検出結果を決定し、
第2の決定ユニット553は、具体的に、
第2の検出結果の第1の分類結果が予め設定された閾値以上であることに応答して、第1の検出結果と第2の検出結果を融合処理し、融合処理された結果をビデオ内の顔の生体検出結果とする。
本開示の実施例によって提案される顔生体検出装置によれば、既存の顔偽造技術に対して、顔ビデオにおける連続した複数フレームの顔画像に対して前後フレームの差分を計算し、得られた差分画像に基づいて対応する検出結果を決定することにより、時間次元における顔画像の連続性に基づいて、対応する検出結果を決定することに相当し、時間次元における連続性が悪い顔偽造を効果的に防御することができる。また、顔ビデオにおける1フレーム目の画像と最後のフレームの画像との差分を計算して得られた差分画像も生体検出の根拠とし、顔ビデオにおける背景の変化の度合いも考慮されることに相当し、これにより、顔領域のみを処理して背景が変わらない顔偽造方式を効果的に防御することができ、さらに顔生体検出技術の性能を向上させ、顔認識システムの安全を確保するとともに、顔生体検出技術を基礎とする多くのアプリケーションの効果と体験を向上させることができる。
光などによる画像ピクセル値への干渉を低減し、幾何学的変換等による画像への影響を除去するために、本開示は別の顔生体検出装置を提案する。
図6は、本開示の実施例によって提案される別の顔生体検出装置の構成ブロック図である。上記の実施例に加えて、図6に示すように、当該装置は、
Nフレームの顔画像に対してピクセル正規化処理を行って、Nフレームの正規化された顔画像を取得する正規化モジュール660をさらに含み、
ここで、第1の差分モジュール620は、具体的に、
Nフレームの正規化された顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する。
なお、図6の610~650は、図5の510~550と同じ機能および構造を有しており、ここでは説明を省略する。
上記実施例の装置について、各モジュールが操作を実行する具体的な方式は、当該方法に関する実施例においてすでに詳細に説明されているが、ここでは説明を省略する。
本開示の実施例の顔生体検出装置によれば、顔画像にピクセル正規化処理を追加することにより、光の不均一によるピクセルの干渉を効果的に低減することができ、画像が幾何学的変換の攻撃に抵抗でき、顔生体検出の精度を向上させることができる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図7に示すように、それは本開示の実施例の顔生体検出方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および/または求められる本開示の実現を制限することを意図したものではない。
図7示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースを含む、各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の形態で取り付けられてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供する。図7では、1つのプロセッサ701を例とする。
メモリ702は、本開示によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサが本開示によって提供される顔生体検出方法を実行するように、少なくとも1つのプロセッサによって実行される命令が記憶されている。本開示の非一時的なコンピュータ読み取り可能な記憶媒体には、本開示によって提供される顔生体検出方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本開示の実施例における顔生体検出方法に対応するプログラム命令/モジュール(例えば、図5に示す第1取得モジュール510、第1の差分モジュール520、第2の差分モジュール530、第1の決定モジュール540及び第2の決定モジュール550)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために使用される。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記の方法の実施例における顔生体検出方法を実現する。
本開示の実施例は、コンピュータプログラムを提供し、当該コンピュータプログラムがプロセッサによって実行される場合、上記の方法の実施例の顔生体検出方法が実現される。
メモリ702は、記憶プログラム領域及び記憶データ領域を含むことができる。記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができる。記憶データ領域は、顔生体検出方法に係る電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができ、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリをさらに含むことができる。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して顔生体検出方法の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。
顔生体検出方法の電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バスまたは他の方式で接続することができ、図7では、バスを介して接続することを例に挙げる。
入力装置703は、入力された数字又は文字情報を受信し、顔生体検出方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示棒、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および/または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高度のプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語で実施される。本明細書で使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークとしての例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」,または「VPS」と省略する)に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み合わせたサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (17)

  1. 顔生体検出方法であって、
    顔ビデオにおける連続したNフレームの画像を取得し、前記Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得するステップであって、Nが1より大きい整数であるステップと、
    前記Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得するステップと、
    前記Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得するステップと、
    前記N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、前記第2の差分画像に基づいて対応する第2の検出結果を決定するステップと、
    前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定するステップと、を含む、
    ことを特徴とする顔生体検出方法。
  2. 前記N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定するステップは、
    前記N-1フレームの第1の差分画像に対して時空間特徴抽出を行って、前記N-1フレームの第1の差分画像の時空間特徴ベクトルを取得するステップと、
    前記時空間特徴ベクトルに対して加重計算を行って、対応する第1の加重結果を取得するステップと、
    前記第1の加重結果に対して正規化処理を行って、対応する第1の検出結果を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記第2の差分画像に基づいて対応する第2の検出結果を決定するステップは、
    前記第2の差分画像に対して特徴抽出を行って、対応する第1の特徴ベクトルを取得するステップと、
    前記第1の特徴ベクトルに対して加重計算を行って、対応する第2の加重結果を取得するステップと、
    前記第2の加重結果に対して正規化処理を行って、対応する第2の検出結果を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定するステップは、
    前記第2の検出結果が予め設定された閾値より小さいか否かを判断するステップと、
    前記第2の検出結果が前記予め設定された閾値より小さいことに応答して、前記第2の検出結果に基づいて前記顔ビデオ内の顔の生体検出結果を決定するステップと、
    前記第2の検出結果が前記予め設定された閾値以上であることに応答して、前記第1の検出結果と前記第2の検出結果に対して融合処理を行って、融合処理された結果を前記顔ビデオ内の顔の生体検出結果とするステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記第1の検出結果と前記第2の検出結果に対して融合処理を行って、融合処理された結果を前記顔ビデオ内の顔の生体検出結果とするステップは、
    前記第1の検出結果と前記第2の検出結果に対して平均計算を行い、前記平均計算によって得られた結果を前記顔ビデオ内の顔の生体検出結果とするステップ、または、
    前記第1の検出結果と前記第2の検出結果に対して加重平均計算を行い、前記加重平均計算によって得られた結果を前記顔ビデオ内の顔の生体検出結果とするステップを含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記第1の検出結果と前記第2の検出結果は、それぞれ2項分類結果であり、前記2項分類結果の第1の分類結果が、前記顔ビデオ内の顔が生体である確率を表し、前記2項分類結果の第2の分類結果が、前記顔ビデオ内の顔が非生体である確率を表し、
    前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定するステップは、
    前記第2の検出結果の前記第1の分類結果が予め設定された閾値より小さいか否かを判断するステップと、
    前記第2の検出結果の前記第1の分類結果が前記予め設定された閾値より小さいことに応答して、前記第2の検出結果に基づいて前記顔ビデオ内の顔の生体検出結果を決定するステップと、
    前記第2の検出結果の前記第1の分類結果が前記予め設定された閾値以上であることに応答して、前記第1の検出結果と前記第2の検出結果に対して融合処理を行い、融合処理された結果を前記顔ビデオ内の顔の生体検出結果とするステップと、を含む、
    ことを特徴とする請求項4に記載の方法。
  7. 前記Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得するステップは、
    前記Nフレームの顔画像に対してピクセル正規化処理を行って、Nフレームの正規化された顔画像を取得するステップと、
    前記Nフレームの正規化された顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  8. 顔生体検出装置であって、
    顔ビデオにおける連続したNフレームの画像を取得し、前記Nフレームの画像に対して顔位置合わせ処理を行って、Nフレームの顔画像を取得する取得モジュールであって、Nが1より大きい整数である取得モジュールと、
    前記Nフレームの顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する第1の差分モジュールと、
    前記Nフレームの画像のうち、Nフレーム目の画像と1フレーム目の画像との差分を計算して、第2の差分画像を取得する第2の差分モジュールと、
    前記N-1フレームの第1の差分画像に基づいて対応する第1の検出結果を決定し、前記第2の差分画像に基づいて対応する第2の検出結果を決定する第1の決定モジュールと、
    前記第1の検出結果と前記第2の検出結果とに基づいて、前記顔ビデオ内の顔の生体検出結果を決定する第2の決定モジュールと、を含む、
    ことを特徴とする顔生体検出装置。
  9. 前記第1の決定モジュールが、
    前記N-1フレームの第1の差分画像に対して時空間特徴抽出を行って、前記N-1フレームの第1の差分画像の時空間特徴ベクトルを取得し、
    前記時空間特徴ベクトルに対して加重計算を行って、対応する第1の加重結果を取得し、
    前記第1の加重結果に対して正規化処理を行って、対応する第1の検出結果を取得する、
    ことを特徴とする請求項8に記載の装置。
  10. 前記第1の決定モジュールが、
    前記第2の差分画像に対して特徴抽出を行って、対応する第1の特徴ベクトルを取得し、
    前記第1の特徴ベクトルに対して加重計算を行って、対応する第2の加重結果を取得し、
    前記第2の加重結果に対して正規化処理を行って、対応する第2の検出結果を取得する、
    ことを特徴とする請求項8に記載の装置。
  11. 前記第2の決定モジュールが、
    前記第2の検出結果が予め設定された閾値より小さいか否かを判断する判断ユニットと、
    前記第2の検出結果が前記予め設定された閾値より小さい場合、前記第2の検出結果に基づいて前記顔ビデオ内の顔の生体検出結果を決定する第1の決定ユニットと、
    前記第2の検出結果が前記予め設定された閾値以上である場合、前記第1の検出結果と前記第2の検出結果に対して融合処理を行い、融合処理された結果を前記顔ビデオ内の顔の生体検出結果とする第2の決定ユニットと、を含む、
    ことを特徴とする請求項8に記載の装置。
  12. 前記第2の決定ユニットが、
    前記第1の検出結果と前記第2の検出結果に対して平均計算を行い、前記平均計算によって得られた結果を前記顔ビデオ内の顔の生体検出結果とし、または、
    前記第1の検出結果と前記第2の検出結果に対して加重平均計算を行い、前記加重平均計算によって得られた結果を前記顔ビデオ内の顔の生体検出結果とする、
    ことを特徴とする請求項11に記載の装置。
  13. 前記第1の検出結果と前記第2の検出結果は、それぞれ2項分類結果であり、前記2項分類結果の第1の分類結果が、前記顔ビデオ内の顔が生体である確率を表し、前記2項分類結果の第2の分類結果が、前記顔ビデオ内の顔が非生体である確率を表し、
    前記判断ユニットが、
    前記第2の検出結果の前記第1の分類結果が予め設定された閾値より小さいか否かを判断し、
    前記第1の決定ユニットが、
    前記第2の検出結果の前記第1の分類結果が前記予め設定された閾値より小さいことに応答して、前記第2の検出結果に基づいて前記顔ビデオ内の顔の生体検出結果を決定し、
    前記第2の決定ユニットが、
    前記第2の検出結果の前記第1の分類結果が前記予め設定された閾値以上であることに応答して、前記第1の検出結果と前記第2の検出結果に対して融合処理を行い、融合処理された結果を前記顔ビデオ内の顔の生体検出結果とする、
    ことを特徴とする請求項11に記載の装置。
  14. 前記装置は、
    前記Nフレームの顔画像に対してピクセル正規化処理を行って、Nフレームの正規化された顔画像を取得する正規化モジュールをさらに含み、
    前記第1の差分モジュールが、
    前記Nフレームの正規化された顔画像のうち、隣接する2フレーム間の差分を計算して、N-1フレームの第1の差分画像を取得する、
    ことを特徴とする請求項11に記載の装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~7のいずれかに記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~7のいずれかに記載の方法が実現される、
    ことを特徴とするコンピュータプログラム。
JP2022110618A 2021-07-08 2022-07-08 顔生体検出方法、装置、電子機器及び記憶媒体 Active JP7297989B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110775389.7 2021-07-08
CN202110775389.7A CN113469085B (zh) 2021-07-08 2021-07-08 人脸活体检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022133463A JP2022133463A (ja) 2022-09-13
JP7297989B2 true JP7297989B2 (ja) 2023-06-26

Family

ID=77879264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022110618A Active JP7297989B2 (ja) 2021-07-08 2022-07-08 顔生体検出方法、装置、電子機器及び記憶媒体

Country Status (4)

Country Link
EP (1) EP4080470A3 (ja)
JP (1) JP7297989B2 (ja)
KR (1) KR20220100810A (ja)
CN (1) CN113469085B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524408B (zh) * 2023-05-09 2024-02-02 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法
CN116503721B (zh) * 2023-06-29 2023-10-13 中邮消费金融有限公司 身份证篡改检测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330936A (ja) 2005-05-24 2006-12-07 Matsushita Electric Works Ltd 顔認証装置
JP2018508875A (ja) 2015-01-26 2018-03-29 アリババ グループ ホウルディング リミテッド 生体顔検出用の方法及び装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1131230A (ja) * 1997-07-10 1999-02-02 Mitsubishi Electric Corp 差分画像に基づく人検出方法および装置
KR100513739B1 (ko) * 2002-08-23 2005-09-09 삼성전자주식회사 얼굴특징을 이용한 움직임 검출장치 및 이를 적용한감시시스템
CN104268899A (zh) * 2014-09-22 2015-01-07 河海大学 基于帧间差分和背景差分的运动目标检测方法
US9594958B2 (en) * 2014-11-24 2017-03-14 Intel Corporation Detection of spoofing attacks for video-based authentication
SG11201705036YA (en) * 2015-01-13 2017-07-28 Morpho Process and system for video spoof detection based on liveness evaluation
CN108021892B (zh) * 2017-12-06 2021-11-19 上海师范大学 一种基于极短视频的人脸活体检测方法
CN108805047B (zh) * 2018-05-25 2021-06-25 北京旷视科技有限公司 一种活体检测方法、装置、电子设备和计算机可读介质
CN110889312B (zh) * 2018-09-07 2022-09-02 北京市商汤科技开发有限公司 活体检测方法和装置、电子设备、计算机可读存储介质
JP7338174B2 (ja) * 2019-03-06 2023-09-05 オムロン株式会社 物体検出装置および物体検出方法
CN112749603A (zh) * 2019-10-31 2021-05-04 上海商汤智能科技有限公司 活体检测方法、装置、电子设备及存储介质
CN111523438B (zh) * 2020-04-20 2024-02-23 支付宝实验室(新加坡)有限公司 一种活体识别方法、终端设备和电子设备
CN111985423A (zh) * 2020-08-25 2020-11-24 深圳前海微众银行股份有限公司 活体检测方法、装置、设备及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330936A (ja) 2005-05-24 2006-12-07 Matsushita Electric Works Ltd 顔認証装置
JP2018508875A (ja) 2015-01-26 2018-03-29 アリババ グループ ホウルディング リミテッド 生体顔検出用の方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Emna FOURATI et al.,"Face anti-spoofing with image quality assessment",2017 2nd International Conference on Bio-engineering for Smart Technologies (BioSMART),2017年08月

Also Published As

Publication number Publication date
CN113469085A (zh) 2021-10-01
KR20220100810A (ko) 2022-07-18
EP4080470A3 (en) 2022-12-14
CN113469085B (zh) 2023-08-04
JP2022133463A (ja) 2022-09-13
EP4080470A2 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
Zhang et al. Adversarial spatio-temporal learning for video deblurring
US20200184059A1 (en) Face unlocking method and apparatus, and storage medium
US11449971B2 (en) Method and apparatus with image fusion
JP7297989B2 (ja) 顔生体検出方法、装置、電子機器及び記憶媒体
JP7135125B2 (ja) 近赤外画像の生成方法、近赤外画像の生成装置、生成ネットワークの訓練方法、生成ネットワークの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
WO2022156640A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
JP7334292B2 (ja) 顔生体検出方法、装置、電子機器及び記憶媒体
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
WO2021258588A1 (zh) 一种人脸图像识别方法、装置、设备及存储介质
CN111783647A (zh) 人脸融合模型的训练方法、人脸融合方法、装置及设备
EP4033458A2 (en) Method and apparatus of face anti-spoofing, device, storage medium, and computer program product
EP4085369A1 (en) Forgery detection of face image
CN111611873A (zh) 人脸替换检测方法及装置、电子设备、计算机存储介质
Heo et al. Appearance and motion based deep learning architecture for moving object detection in moving camera
Lu et al. Robust blur kernel estimation for license plate images from fast moving vehicles
CN112270745B (zh) 一种图像生成方法、装置、设备以及存储介质
WO2022103684A1 (en) Face-aware person re-identification system
US20220180043A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
KR20220126264A (ko) 비디오 흔들림 검출 방법, 장치, 전자 기기 및 저장 매체
JP2022133378A (ja) 顔生体検出方法、装置、電子機器、及び記憶媒体
Muhammad et al. Domain generalization via ensemble stacking for face presentation attack detection
Muhammad et al. An adaptive spatio-temporal global sampling for presentation attack detection
Yuan et al. Structure flow-guided network for real depth super-resolution
CN111862030B (zh) 一种人脸合成图检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230614

R150 Certificate of patent or registration of utility model

Ref document number: 7297989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150