JP2022522203A - 生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品 - Google Patents

生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品 Download PDF

Info

Publication number
JP2022522203A
JP2022522203A JP2021550213A JP2021550213A JP2022522203A JP 2022522203 A JP2022522203 A JP 2022522203A JP 2021550213 A JP2021550213 A JP 2021550213A JP 2021550213 A JP2021550213 A JP 2021550213A JP 2022522203 A JP2022522203 A JP 2022522203A
Authority
JP
Japan
Prior art keywords
feature extraction
stage
extraction process
feature
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021550213A
Other languages
English (en)
Inventor
卓翼 ▲張▼
程 蒋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2022522203A publication Critical patent/JP2022522203A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】本発明は、生体検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】当該方法は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップとを含む。【選択図】図5

Description

<関連出願の相互引用>
本特許出願は、2019年10月31日に提出された、出願番号が201911063398.2であって発明の名称が「生体検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み入れられる。
本発明は、画像処理技術分野に関し、具体的に、生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品に関する。
顔認識技術が身元検証に用いられるときに、まず、画像収集機器を介してユーザの顔写真をリアルタイムで取得し、その後、リアルタイムで取得された顔写真を予め格納された顔写真と照合し、合致すれば、身元検証を通らせる。
これに鑑みて、本発明は、少なくとも、生体検出過程における検出効率を向上させることが可能となる生体検出方法、装置、電子機器及び記憶媒体を提供する。
第1態様において、本発明の選択可能な実現形態は、生体検出方法を提供する。当該生体検出方法は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップと、を含む。
第2態様において、本発明の選択可能な実現形態は、生体検出装置を提供する。当該生体検出装置は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するための取得手段と、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するための検出手段と、を備える。
第3態様において、本発明の選択可能な実現形態は、電子機器をさらに提供する。当該電子機器は、プロセッサと、前記プロセッサで実行され得る機器読み取り可能な指令を記憶するメモリとを備え、前記機器読み取り可能な指令が前記プロセッサで実行されたときに、前記プロセッサに上記第1態様に記載の生体検出方法を実施させる。
第4態様において、本発明の選択可能な実現形態は、コンピュータ可読記憶媒体をさらに提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムが電子機器で運転されたときに、前記電子機器に上記第1態様に記載の生体検出方法を実施させる。
第5態様において、本発明の選択可能な実現形態は、コンピュータプログラム製品をさらに提供する。当該コンピュータプログラム製品は、機器の実行可能な指令を含み、前記機器の実行可能な指令が電子機器で読み取って実行されたときに、前記電子機器に上記第1態様に記載の生体検出方法を実施させる。
本発明において、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定し、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出するため、検出効率がより高くなる。
本発明の実施例に係る生体検出方法のフローチャートを示す。
本発明の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートを示す。
本発明の別の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートを示す。
本発明の実施例に係る各フレームの目標顔画像の特徴抽出結果を取得する手順のフローチャートを示す。
本発明の実施例に係る前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第1融合特徴データを取得する手順のフローチャートを示す。
本発明の実施例に係る生体検出方法において複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第1検出結果を取得する手順を示す。
本発明の実施例に係る差分カスケード画像に対して特徴抽出を行う方式のフローチャートを示す。
本発明の実施例に係る生体検出方法において複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて第2検出結果を取得する手順を示す。
本発明の実施例に係る差分カスケード画像の特徴抽出結果に対して特徴融合を行う手順のフローチャートを示す。
本発明の別の実施例に係る生体検出方法のフローチャートを示す。
本発明の実施例に係る生体検出装置の模式図を示す。
本発明の実施例に係る電子機器の模式図を示す。
本発明の実施例に係る生体検出方法応用過程のフローチャートを示す。
本発明の選択可能な実現形態の目的、技術案及びメリットがより明確になるように、以下では、本発明の選択可能な実現形態における図面を組み合わせて本発明の選択可能な実現形態における技術案を明確で完全に記述する。明らかに、記述される選択可能な実現形態は、単に本発明の一部の選択可能な実現形態であり、全ての選択可能な実現形態ではない。通常、ここでの図面に記述して示された本発明の選択可能な実現形態のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の選択可能な実現形態に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な選択可能実現形態を示す。本発明の選択可能な実現形態に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の選択可能な実現形態は、何れも本発明の保護範囲に含まれる。
現在、画像認識の方法に基づいて顔生体検出を行うときに、顔認識時に検出待ちユーザが生体であるか否かを検証するために、通常、検出待ちユーザが幾つかの指定の動作を行う必要はある。銀行システムがユーザに対して身元検証を行うことを例とすると、ユーザが端末機器のカメラヘッドの前に立って端末機器中の提示に従ってある指定の表情動作を行う必要はある。ユーザが指定の動作を行ったときに、カメラヘッドは、顔ビデオを取得し、その後、取得された顔ビデオに基づいてユーザが指定の動作を行ったか否かを検出し、指定動作を行ったユーザが正当ユーザであるか否かを検出する。当該ユーザが正当ユーザである場合に、身元検証は、通った。このような生体検出方式では、通常、端末機器とユーザとのインタラクション過程に大量の時間が費やされるため、検出効率が低くなる。
本発明は、生体検出方法及び装置を提供し、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第1検出結果を取得し、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて第2検出結果を取得し、その後、第1検出結果及び第2検出結果に基づいて、検出待ちビデオの生体検出結果を特定してもよい。当該方法において、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。
それとともに、不正な登録者が画面をリメイクして得られた顔ビデオによって詐欺しようとすると、リメイクして得られた画像が元の画像の画像情報を大量に失うため、画像情報の欠損によってユーザの外観の細かな変化が検出できなくなり、さらに、生体ではないと判断することができるので、本発明に係る方法は、画面リメイクによる攻撃手段を効果的に防御することができる。
注意すべきことは、類似する符号やアルファベットが以下の図面において類似要素を示すため、一旦ある要素が1つの図面に定義されると、後の図面においてさらに定義及び解釈される必要がない。
本選択可能な実現形態に対する理解が容易になるように、まず、本発明の実施例に開示された生体検出方法を詳細に紹介する。本発明の実施例に係る生体検出方法の実行主体は、一般的に一定の計算能力を有する電子機器である。当該電子機器は、例えば、端末機器やサーバ又は他の処理機器を含み、端末機器は、ユーザ機器(User Equipment、UE)、モバイル機器、ユーザ端末、ターミナル、携帯電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant、PDA)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器等であってもよい。幾つかの可能な実現形態において、当該生体検出方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実現されてもよい。
以下では、実行主体が端末機器であることを例として本発明の選択可能な実現形態に係る生体検出方法について説明する。
図1は、本発明の実施例に係る生体検出方法のフローチャートを示す。方法は、ステップS101~S104を含む。
S101において、取得した検出待ちビデオから複数フレームの目標顔画像を抽出する。
S102において、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得する。
S103において、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得する。
S104において、前記第1検出結果及び前記第2検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定する。
ただし、S102とS103は、実行の前後順を有さない。以下では、上記S101~S104についてそれぞれ詳細に説明する。
I:上記のステップS101において、端末機器に画像取得装置が実装され、当該画像取得装置によってオリジナル検出ビデオを直ちに取得可能である。オリジナル検出ビデオの各フレーム画像には、顔が含まれている。オリジナル検出ビデオを検出待ちビデオとしてもよく、オリジナル検出ビデオに含まれる顔部位に対して画像切り取りを行って検出待ちビデオを取得してもよい。
検出精度が向上するように、検出ビデオのビデオ時間長は、所定時間長閾値以上であってもよく、当該所定時間長範囲は、実際の需要に応じて具体的に設定されてもよい。例えば、当該所定時間長閾値は、2秒、3秒、4秒等である。
検出待ちビデオに含まれる顔画像のフレーム数は、抽出される必要のある目標顔画像のフレーム数よりも大きい。目標顔検出画像のフレーム数は、固定であってもよく、検出待ちビデオのビデオ長に基づいて特定されてもよい。
検出待ちビデオが得られた後、検出待ちビデオから複数フレームの目標顔画像を抽出する。例示的に、本発明のある選択可能な実現形態において、例えば、検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから前記複数フレームの目標顔画像を特定する。検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて複数フレームの目標顔画像を特定する際、複数フレームの目標顔画像は、下記の2つの要求のうちの少なくとも1種を満たす。
要求1において、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像同士の間の類似度は、第1数値よりも低い。例えば、検出待ちビデオにおける何れか1フレームの顔画像を基準画像とし、他の各フレームの顔画像と基準画像との間の類似度をそれぞれ特定し、類似度が第1数値よりも低い各フレームの顔画像を目標顔画像における1フレームとして取得する。ただし、第1数値は、所定の1つの数値であってもよい。このようにして、取得された複数枚の目標顔画像の間に大きな差があり、さらに、高い精度で検出結果を取得することができる。
要求2において、前記複数フレームの目標顔画像のうちの第1目標顔画像を前記検出待ちビデオから特定し、前記第1目標顔画像に基づいて、前記検出待ちビデオの複数フレームの連続する顔画像から、第2目標顔画像を特定する。ただし、前記第2目標顔画像と前記第1目標顔画像との間の類似度は、所定の類似度要求を満たす。類似度要求は、前記第2目標顔画像が、前記複数フレームの連続する顔画像のうち、前記第1目標顔画像との間の類似度が最も小さい顔画像であることを含んでもよい。このようにして、取得された複数枚の目標顔画像の間に大きな差別があり、さらに、高い精度で検出結果を取得することができる。
幾つかの例において、複数フレームの目標顔画像のうちの第1目標顔画像は、前記検出待ちビデオを複数のセグメント(ただし、各セグメントは、所定数の連続する顔画像を含む)に分割することと、前記複数のセグメントの第1セグメントから第1目標顔画像を選択することと、前記第1目標顔画像に基づいて、前記複数のセグメントのうちの各セグメントから、第2目標顔画像を特定することとによって特定されてもよい。
複数のセグメントを分割することで目標顔画像を特定することにより、目標顔画像を検出待ちビデオの全体に分散可能であり、さらに検出待ちビデオの持続時間内におけるユーザの表情の変化をより良好に捉える。
具体的な実現過程は、例えば下記の図2Aに示される。図2Aは、本発明の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートであり、以下のステップを含む。
S201において、検出待ちビデオにおける各フレームの顔画像に対応するタイムスタンプの前後順に従い、検出待ちビデオに含まれる顔画像をレベル別にN個の画像グループに分割する。ただし、N=所定数-1。ここで、N個の画像グループにおいて、異なる画像グループに含まれる顔画像の数は、同じであってもよく、異なってもよい。詳細は、実際の需要に応じて設定されてもよい。
S202において、第1個の画像グループについて、当該画像グループにおける第1フレームの顔画像を第1フレームの目標顔画像として特定し、当該第1フレームの目標顔画像を基準顔画像とし、当該画像グループにおける全ての顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループにおける第2目標顔画像として特定する。
S203において、他の各画像グループごとに、1つ前の画像グループにおける第2目標顔画像を基準顔画像とし、当該画像グループにおける各フレームの顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループの第2目標顔画像とする。
具体的に実施する際には、下記の2種の方式のうちの何れか1種を用いてあるフレームの顔画像と基準顔画像との間の類似度を特定してもよいが、それらに限定されない。当該フレームの顔画像は、第1顔画像と呼称され、基準顔画像は、第2顔画像と呼称されてもよい。
説明すべきことは、要求1における複数フレームの顔画像同士の間の類似度について、この2種の方式で計算してもよい。このような場合に、複数フレームの顔画像のうちの何れか1フレームの顔画像を第1顔画像と呼称し、別のフレームの顔画像を第2顔画像と呼称してもよい。
方式1において、前記第1顔画像における各画素点の画素値と、前記第2顔画像における各画素点の画素値とに基づいて、前記第1顔画像と前記第2顔画像との顔差分画像を取得し、前記顔差分画像における各画素点の画素値に基づいて、前記顔差分画像に対応する分散を取得し、前記分散を前記第1顔画像と前記第2顔画像との間の類似度とする。ここで、顔差分画像における何れか1つの画素点Mの画素値=第1顔画像における画素点M’の画素値-第2顔画像における画素点M’’の画素値となる。ただし、画素点Mの顔差分画像における位置、画素点M’の当該顔画像における位置、及び画素点M’’の基準顔画像における位置は、一致する。得られた分散が大きいほど、当該顔画像と基準顔画像との間の類似度は、小さくなる。当該方法で得られた類似度は、演算が簡単である特徴を有する。
方式2において、第1顔画像と第2顔画像とのそれぞれに少なくとも1段の特徴抽出を行い、第1顔画像と第2顔画像とのそれぞれに対応する特徴データを取得し、その後、第1顔画像と第2顔画像とのそれぞれに対応する特徴データの間の距離を算出し、当該距離を第1顔画像と第2顔画像との間の類似度とする。距離が大きいほど、第1顔画像と第2顔画像との間の類似度は、小さくなる。ここで、畳み込みニューラルネットワークを用いて第1顔画像及び第2顔画像に対して特徴抽出を行ってもよい。
例えば、検出待ちビデオにおける顔画像は、20フレームを有する。当該20フレームがそれぞれa1~a20であり、目標顔画像の所定数が5であると、タイムスタンプの前後順に従って検出待ちビデオを4つのグループに分割する。この4つのグループは、それぞれ、第1グループ:a1~a5、第2グループ:a6~a10、第3グループ:a11~a15、第4グループ:a16~a20である。
第1個の画像グループについて、a1を第1フレームの目標顔画像とし、a1を基準顔画像とし、a2~a5のそれぞれとa1との間の類似度を取得する。a3とa1の間の類似度が最も小さいとすれば、a3を当該第1個の画像グループにおける第2目標顔画像とする。第2個の画像グループについて、a3を基準顔画像とし、a6~a10のそれぞれとa3との間の類似度を取得する。a7とa3との間の類似度が最も小さいとすれば、a7を第2個の画像グループにおける第2目標顔画像とする。第3個の画像グループについて、a7を基準顔画像とし、a11~a15のそれぞれとa7との間の類似度を取得する。a14とa7との間の類似度が最も小さいとすれば、a14を第3個の画像グループにおける第2目標顔画像とする。第4個の画像グループについて、a14を基準顔画像とし、a16~a20のそれぞれとa14との間の類似度を取得する。a19とa14との間の類似度が最も小さいとすれば、a19を第4個の画像グループにおける第2目標顔画像とする。最終的に得られた目標顔画像は、合計でa1、a3、a7、a14、a19の5つのフレームを含む。
幾つかの例において、検出待ちビデオから第1目標顔画像を選択し、その後、残りの他の顔画像を複数のセグメントに分割し、第1目標顔画像に基づいて、複数のセグメントから当該第1目標顔画像に基づいて第2目標顔画像を特定する。
具体的な実現過程は、例えば、下記図2Bに示される。図2Bは、本発明の別の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートであり、以下のステップを含む。
S211において、検出待ちビデオにおける第1フレームの顔画像を第1フレームの目標顔画像として特定する。
S212において、検出待ちビデオにおける各フレームの顔画像に対応するタイムスタンプの前後順に従って、検出待ちビデオに含まれた、第1フレームの目標顔画像以外の顔画像をレベル別にN個の画像グループに分割する。ただし、N=所定数-1である。
S213において、第1個の画像グループについて、第1フレームの目標顔画像を基準顔画像とし、当該画像グループにおける全ての顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該第1個の画像グループにおける第2目標顔画像として特定する。
S214において、他の各画像グループごとに、1つ前の画像グループにおける第2目標顔画像を基準顔画像とし、当該画像グループにおける各フレームの顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループの第2目標顔画像とする。
ここで、顔画像と基準顔画像との間の類似度の特定方式は、上記図2Aにおける特定方式と類似するため、ここで繰り返し説明しない。
例えば、検出待ちビデオにおける顔画像は、20フレームを有する。当該20フレームがa1~a20であり、目標顔画像の所定数が5であり、a1を第1フレームの目標顔画像とすると、タイムスタンプの前後順に従ってa2~a20を4つのグループに分割する。この4つのグループは、それぞれ、第1グループ:a2~a6、第2グループ:a7~a11、第3グループ:a12~a16、第4グループ:a17~a20である。
第1個の画像グループについて、a1を基準顔画像とし、a2~a6のそれぞれとa1との間の類似度を取得する。a4とa1との間の類似度が最も小さいとすれば、a4を当該第1個の画像グループにおける第2目標顔画像とする。第2個の画像グループについて、a4を基準顔画像とし、a7~a11のそれぞれとa4との間の類似度を取得する。a10とa4との間の類似度が最も小さいとすれば、a10を第2個の画像グループにおける第2目標顔画像とする。第3個の画像グループについて、a10を基準顔画像とし、a12~a16のそれぞれとa10との間の類似度を取得する。a13とa10との間の類似度が最も小さいとすれば、a13を第3個の画像グループにおける第2目標顔画像とする。第4個の画像グループについて、a13を基準顔画像とし、a17~a20のそれぞれとa13との間の類似度を取得する。a19とa13との間の類似度が最も小さいとすれば、a19を第4個の画像グループにおける第2目標顔画像とする。最終的に得られた目標顔画像は、合計でa1、a4、a10、a13、a19の5つのフレームを含む。
また、本発明の幾つかの例において、ユーザ全体の変位(例えば、頭部位置、方向変化)による人体の外観の細かな変化への干渉が回避されるように、検出待ちビデオから所定数の目標顔画像を抽出する前に、生体検出方法は、さらに、前記検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得するステップと、前記複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて、前記複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得するステップとを含む。
例えば、検出待ち顔ビデオにおける複数フレームの顔画像のうち、各フレームの顔画像中の少なくとも3つの目標キーポイントのキーポイント位置を特定し、各フレームの顔画像中の目標キーポイントのキーポイント位置に基づいて、対応するタイムスタンプが最も早い顔画像を基準画像とし、基準画像を除く他の各フレームの顔画像に対してキーポイント整列処理を行い、前記他の各フレームの顔画像にそれぞれ対応する整列された顔画像を取得する。
ここで、検出待ちビデオにおける複数フレームの顔画像を予め訓練された顔キーポイント検出モデルにレベル別に入力し、各フレームの顔画像中の各目標キーポイントのキーポイント位置を取得し、その後、取得された目標キーポイントのキーポイント位置に基づいて、第1フレームの顔画像を基準画像とし、第1フレームの顔画像を除く他の顔画像に対して整列処理を行って、異なる顔画像における顔の位置と角度を何れも一致させる。頭部位置、方向変化による人体顔の細かな変化への干渉は、回避される。
このような場合に、前記取得した検出待ちビデオに含まれた前記複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定することは、前記整列処理された複数フレームの顔画像同士の間の類似度に基づいて、前記整列処理された複数フレームの顔画像から前記複数フレームの目標顔画像を特定することを含む。ここで目標顔画像を特定する方式は、上記方式と類似するため、ここで繰り返し説明しない。
II:上記のステップS102において、前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第1融合特徴データを取得し、前記第1融合特徴データに基づいて、前記第1検出結果を取得してもよい。
複数フレームの目標顔画像に対して多次元での特徴抽出及び時間系列上の特徴融合を行うことにより、各フレームの目標顔画像に対応する特徴データは、顔の細かな変化の特点を含み、さらに、ユーザが如何なる指定の動作を行う必要もない前提の下で、正確な生体検出を行う。
まず、各フレームの目標顔画像の特徴抽出結果を取得する具体的な方式について説明する。
図3Aは、本発明の実施例に係る各フレームの目標顔画像の特徴抽出結果を取得する手順のフローチャートであり、以下のステップを含む。
S301において、前記目標顔画像に対して多段の特徴抽出処理を行い、前記多段の特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1初期特徴データを取得する。
ここで、目標顔画像を予め訓練された第1畳み込みニューラルネットワークに入力し、目標顔画像に対して多段の第1特徴抽出処理を行ってもよい。
1つの選択可能な実現形態において、当該第1畳み込みニューラルネットワークは、複数の畳み込み層を含み、複数の畳み込み層は、レベル別に接続され、何れか1つの畳み込み層の出力は、当該畳み込み層の次の畳み込み層の入力である。各畳み込み層の出力は、当該畳み込み層に対応する第1中間特徴データとする。
別の選択可能な実現形態において、複数層の畳み込み層の間には、プーリング層、完全接続層(full-connected layer)等がさらに設けられてもよい。例えば、各畳み込み層の後で1つのプーリング層を接続し、プーリング層の後で1つの完全接続層を接続することにより、畳み込み層、プーリング層及び完全接続層は、第1特徴抽出処理を行う1段のネットワーク構造を構成する。
第1畳み込みニューラルネットワークの具体的な構造は、実際の需要に応じて具体的に設置されてもよく、ここで繰り返し説明しない。
第1畳み込みニューラルネットワークにおける畳み込み層の数は、第1特徴抽出処理を行う段数と一致する。
S302において、各段の前記第1特徴抽出処理ごとに、当該段の第1特徴抽出処理の第1初期特徴データと、当該段の第1特徴抽出処理の後続の少なくとも1段の第1特徴抽出処理の第1初期特徴データとに基づいて、融合処理を行い、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得する。ただし、前記目標顔画像の特徴抽出結果は、前記多段の第1特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1中間特徴データを含む。
このようにして、各段の第1特徴抽出処理は、より豊富な顔特徴を取得し、最終的により高い検出精度を得る。
ここで、何れか1段の第1特徴抽出処理に対応する第1中間特徴データは、当該段の第1特徴抽出処理の第1初期特徴データと当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する第1中間特徴データとに対して融合処理を行い、前記当該段の第1特徴抽出処理に対応する第1中間特徴データを得ることによって、取得されてもよい。ただし、前記後段の第1特徴抽出処理に対応する第1中間特徴データは、前記後段の第1特徴抽出処理の第1初期特徴データに基づいて取得されたものである。
このようにして、各段の第1特徴抽出処理は、より豊富な顔特徴を取得し、最終的により高い検出精度を得る。
具体的に、最後一段を除く他の各段の第1特徴抽出処理ごとに、当該段の第1特徴抽出処理で得られた第1初期特徴データと、次の第1特徴抽出処理で得られた第1中間特徴データとに基づいて、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得し、最後一段の第1特徴抽出処理について、最後一段の第1特徴抽出処理で得られた第1初期特徴データを、当該最後一段の第1特徴抽出処理に対応する第1中間特徴データとして特定する。
ここで、当該段の第1特徴抽出処理に対応する第1中間特徴データは、当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する第1中間特徴データに対してアップサンプリングを行い、当該段の第1特徴抽出処理に対応するアップサンプリングデータを取得することと、当該段の第1特徴抽出処理に対応するアップサンプリングデータと第1初期特徴データとを融合し、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得することとによって、取得されてもよい。
深い特徴抽出処理の特徴をチャンネル数で調整した後でアップサンプリングを行い、浅い特徴抽出処理の特徴と加算することにより、深い特徴が浅い特徴へ流動可能であるため、浅い特徴抽出処理で抽出された情報は、豊富になり、検出精度は、向上する。
例えば、目標顔画像に対して5段の第1特徴抽出処理を行う。5段の特徴抽出処理で得られた第1初期特徴データは、それぞれV1、V2、V3、V4及びV5である。
第5段の第1特徴抽出処理について、V5を当該第5段の第1特徴抽出処理に対応する第1中間特徴データM5とする。第4段の第1特徴抽出処理について、第5段の第1特徴抽出処理で得られた第1中間特徴データM5に対してアップサンプリング処理を行い、第4段の第1特徴抽出処理に対応するアップサンプリングデータM5’を取得する。V4及びM5’に基づいて、第4段の第1特徴抽出処理に対応する第1中間特徴データM4を生成する。
類似的に、第3段の第1特徴抽出処理に対応する第1中間特徴データM3は、取得可能である。第2段の第1特徴抽出処理に対応する第1中間特徴データM2は、取得可能である。
第1段の第1特徴抽出処理について、第2段の第1特徴抽出処理で得られた第1中間特徴データM2に対してアップサンプリング処理を行い、第1段の第1特徴抽出処理に対応するアップサンプリングデータM2’を取得する。V1及びM2’に基づいて、第1段の第1特徴抽出処理に対応する第1中間特徴データM1を生成する。
前記アップサンプリングデータ及び前記第1初期特徴データを加算することにより、当該段の第1特徴抽出処理に対応するアップサンプリングデータ及び第1初期特徴データを融合して当該段の第1特徴抽出処理に対応する第1中間特徴データを取得してもよい。ここで、加算とは、アップサンプリングデータのうち、各データのデータ値と、第1初期特徴データにおける対応する位置でのデータのデータ値とを加算することを指す。
次の段の第1特徴抽出処理に対応する第1中間特徴データに対してアップサンプリングを行って得られたアップサンプリングデータの次元は、本段の第1特徴抽出処理に対応する第1初期特徴データの次元と同じである。アップサンプリングデータと第1初期特徴データとを加算して得られた第1中間特徴データの次元も、本段の第1特徴抽出処理に対応する第1初期特徴データの次元と同じである。
幾つかの例において、各段の第1特徴抽出処理に対応する第1初期特徴データの次元は、畳み込みニューラルネットワークの各階層のネットワーク設置に関連し、本発明ではこれについて限定しない。
もう1つの選択可能な実現形態において、アップサンプリングデータと第1初期特徴データとを接合させてもよい。
例えば、アップサンプリングデータと第1初期特徴データとの次元が何れもm*n*fであり、両者に対して縦方向接合を行って得られた第1中間特徴データの次元は、2m*n*fとなる。両者に対して横方向接合を行って得られた第1中間特徴データの次元は、m*2n*fとなる。
以下では、前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第1融合特徴データを取得する手順について詳細に説明する。
図3Bは、本発明の実施例に係る前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第1融合特徴データを取得する手順のフローチャートであり、以下のステップを含む。
S311において、各段の第1特徴抽出処理ごとに、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに対して融合処理を行い、当該段の第1特徴抽出処理に対応する中間融合データを取得する。
ここで、各段の第1特徴抽出処理に対応する中間融合データは、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する特徴シーケンスを取得することと、前記特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させて、当該段の第1特徴抽出処理に対応する中間融合データを取得することとにより、取得されてもよい。
各目標顔画像に対して空間変化での特徴融合を行うことにより、顔における、時間の変化とともに細かく変化する特徴は、より良好に抽出可能であり、生体検出の精度は、向上する。
ここで、リカレントニューラルネットワークは、例えば、長・短期記憶ネットワーク(Long Short-Term Memory、LSTM)、リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)、ゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)のうちの1種又は複数種を含む。
第1特徴抽出処理がn段あれば、n個の中間融合データは、最終的に取得可能である。
別の選択可能な実現形態において、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する特徴シーケンスを取得する前に、前記方法は、さらに、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第1特徴抽出処理における対応する第1中間特徴データに対して、グローバル平均プーリング処理を行い、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを取得するステップをさらに含む。前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する特徴シーケンスを取得することは、具体的に、前記複数フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データに基づいて、前記特徴シーケンスを取得する。
ここで、グローバル平均プーリングにより、三次元特徴データを二次元特徴データに変換可能である。これにより、第1中間特徴データに対して次元での変換を行い、後続の処理手順を簡素化する。
ある目標顔画像に対してある段の第1特徴抽出処理を行って得られた第1中間特徴データの次元が7*7*128である場合に、128個の7*7の二次元行列を重畳したと理解してもよい。当該第1中間特徴データに対してグローバル平均プーリングを行う際に、7*7の二次元行列ごとに、当該二次元行列における各成分の値の平均を算出する。最終的に、128個の平均を取得可能であり、128個の平均を第2中間特徴データとする。
例えば、目標顔画像は、それぞれb1~b5である。各フレームの目標顔画像のある段の第1特徴抽出処理における対応する第2中間特徴データがそれぞれP1、P2、P3、P4及びP5であると、当該5フレームの目標顔画像の第2中間特徴データによって得られる当該段の第1特徴抽出処理に対応する特徴シーケンスは、(P1、P2、P3、P4、P5)となる。
ある段の第1特徴抽出処理について、各フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを取得した後、各フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを並べると、前記特徴シーケンスを取得することができる。
各段の第1特徴抽出処理にそれぞれ対応する、当該段の第1特徴抽出処理に対応する特徴シーケンスが得られた後、特徴シーケンスを対応するリカレントニューラルネットワークモデルにそれぞれ入力し、各段の第1特徴抽出処理に対応する中間融合データを取得する。
312において、前記多段の第1特徴抽出処理のそれぞれに対応する中間融合データに基づいて、前記第1融合特徴データを取得する。
目標顔画像における特徴を複数の階層で抽出すると、最終的に得られる目標顔画像の特徴データは、より豊富な情報を含むことができ、生体検出の精度は、向上する。
一例において、各段の第1特徴抽出処理にそれぞれ対応する中間融合データを接合して、目標顔画像を統一で表す第1融合特徴データを取得してもよい。別の例において、前記多段の第1特徴抽出処理のそれぞれに対応する中間融合データを接合した後に、完全接続処理を行い、前記第1融合特徴データを取得してもよい。
さらに、各中間融合データを融合して、第1融合特徴データが各段の第1特徴抽出処理にそれぞれ対応する中間融合データの影響を受けるようにすることにより、抽出された第1融合特徴データは、複数フレームの目標顔画像の特徴をより良好に表すことができる。
第1融合特徴データを取得した後、第1融合特徴データを第1分類器に入力して第1検出結果を取得してもよい。第1分類器は、例えば、softmax分類器である。
図3Cに示すように、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得する例示を提供する。当該例示において、あるフレームの目標顔画像に対して5段の特徴抽出処理を行って取得された第1初期特徴データは、それぞれV1、V2、V3、V4及びV5である。
第1初期特徴データV5に基づいて第5段の第1特徴抽出処理の第1中間特徴データM5を生成する。
第1中間特徴データM5に対してアップサンプリングを行い、第4段の第1特徴抽出処理のアップサンプリングデータM5’を取得する。第4段の第1特徴抽出処理の第1初期特徴データV4とアップサンプリングデータM5’とを加算し、第4段の第1特徴抽出処理の第1中間特徴データM4を取得する。第1中間特徴データM4に対してアップサンプリングを行い、第3段の第1特徴抽出処理のアップサンプリングデータM4’を取得する。第3段の第1特徴抽出処理の第1初期特徴データV3とアップサンプリングデータM4’とを加算し、第3段の第1特徴抽出処理の第1中間特徴データM3を取得する。第1中間特徴データM3に対してアップサンプリングを行い、第2段の第1特徴抽出処理のアップサンプリングデータM3’を取得する。第2段の第1特徴抽出処理の第1初期特徴データV2とアップサンプリングデータM3’とを加算し、第2段の第1特徴抽出処理の第1中間特徴データM2を取得する。第1中間特徴データM2に対してアップサンプリングを行い、第1段の第1特徴抽出処理のアップサンプリングデータM2’を取得する。第1段の第1特徴抽出処理の第1初期特徴データV1とアップサンプリングデータM2’とを加算し、第1段の第1特徴抽出処理の第1中間特徴データM1を取得する。取得された第1中間特徴データM1、M2、M3、M4及びM5は、当該フレームの目標顔画像に対して特徴抽出を行って得られた特徴抽出結果とする。
その後、各フレームの目標顔画像ごとに、当該目標顔画像の5段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに対して平均プーリングを行い、当該フレームの目標顔画像を取得する。5段の第1特徴抽出処理においてそれぞれ対応するものは、第2中間特徴データG1、G2、G3、G4及びG5である。
目標顔画像が5フレームあり、タイムスタンプの前後順で順にa1~a5であると、第1フレームの目標顔画像a1の5段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データは、G11、G12、G13、G14、G15となり、第2フレームの目標顔画像a2の5段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データは、G21、G22、G23、G24、G25となり、第3フレームの目標顔画像a3の5段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データは、G31、G32、G33、G34、G35となり、第4フレームの目標顔画像a4の5段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データは、G41、G42、G43、G44、G45となり、第5フレームの目標顔画像a5の5段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データは、G51、G52、G53、G54、G55となる。
そうすると、第1段の特徴抽出処理に対応する特徴シーケンスは、(G11、G21、G31、G41、G51)となる。第2段の特徴抽出処理に対応する特徴シーケンスは、(G12、G22、G32、G42、G52)となる。第3段の特徴抽出処理に対応する特徴シーケンスは、(G13、G23、G33、G43、G53)となる。第4段の特徴抽出処理に対応する特徴シーケンスは、(G14、G24、G34、G44、G54)となる。第5段の特徴抽出処理に対応する特徴シーケンスは、(G15、G25、G35、G45、G55)となる。
その後、特徴シーケンス(G11、G21、G31、G41、G51)を第1段の第1特徴抽出処理に対応するLSTMネットワークに入力し、第1段の第1特徴抽出処理に対応する中間融合データR1を取得する。特徴シーケンス(G12、G22、G32、G42、G52)を第2段の第1特徴抽出処理に対応するLSTMネットワークに入力し、第2段の第1特徴抽出処理に対応する中間融合データR2を取得する。特徴シーケンス(G13、G23、G33、G43、G53)を第3段の第1特徴抽出処理に対応するLSTMネットワークに入力し、第3段の第1特徴抽出処理に対応する中間融合データR3を取得する。特徴シーケンス(G14、G24、G34、G44、G54)を第4段の第1特徴抽出処理に対応するLSTMネットワークに入力し、第4段の第1特徴抽出処理に対応する中間融合データR4を取得する。特徴シーケンス(G15、G25、G35、G45、G55)を第5段の第1特徴抽出処理に対応するLSTMネットワークに入力し、第2段の第1特徴抽出処理に対応する中間融合データR5を取得する。
中間融合データR1、R2、R3、R4及びR5を接合した後、完全接続層に伝送して完全接続処理を行い、第1融合特徴データを取得する。その後、第1融合特徴データを第1分類器に伝送して第1検出結果を取得する。
III:上記のステップS103において、下記の方式で、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得してもよい。
つまり、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に対してカスケード処理を行い、差分カスケード画像を取得し、且つ、前記差分カスケード画像に基づいて、前記第2検出結果を取得する。
複数フレームの差分カスケード画像において変化特徴をより良好に抽出可能であり、第2検出結果の精度を向上させる。
具体的に、各隣接する2フレームの目標顔画像の差分画像の取得方式は、上記図2Aにおける方式1の記述と類似するため、ここで繰り返し説明しない。
差分画像に対してカスケード処理を行う際、差分画像に対して色チャンネルでのカスケードを行う。例えば、差分画像が3チャンネル画像である場合に、2枚の差分画像をカスケードして得られる差分カスケード画像は、6チャンネルの画像となる。
具体的に実施する際には、異なる差分画像の色チャンネルの数が一致するし、画素点の数も一致する。
例えば、差分画像の色チャンネルの数が3であり、画素点の数が256*1024である場合に、差分画像の表示ベクトルは、256*1024*3となる。ただし、当該表示ベクトルにおける何れか1つの成分Aijkの成分値は、画素点Aij’の第k個の色チャンネルにおける画素値である。
差分画像がs個ある場合に、s個の差分画像をカスケードして得られた差分カスケード画像の次元は、256*1024*(3×s)となる。
1つの選択可能な実現形態において、前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の特徴抽出結果を取得することと、前記差分カスケード画像の特徴抽出結果に対して特徴融合を行い、第2融合特徴データを取得することと、前記第2融合特徴データに基づいて、前記第2検出結果を取得することとにより、差分カスケード画像に基づいて第2検出結果を取得してもよい。
複数フレームの差分カスケード画像において変化特徴をより良好に抽出可能であり、第2検出結果の精度を向上させる。
以下では、まず、差分カスケード画像に対して特徴抽出処理を行う具体的な手順について、下記図4Aを参照しながら詳細に説明する。図4は、本発明の実施例に係る差分カスケード画像に対して特徴抽出を行う方式のフローチャートであり、以下のステップを含む。
S401において、前記差分カスケード画像に対して多段の第2特徴抽出処理を行い、各段の第2特徴抽出処理にそれぞれ対応する第2初期特徴データを取得する。
ここで、差分カスケード画像を予め訓練された第2畳み込みニューラルネットワークに入力し、差分カスケード画像に対して多段の第2特徴抽出処理を行ってもよい。当該第2畳み込みニューラルネットワークは、上記第1畳み込みニューラルネットワークと類似する。注意すべきことは、第2畳み込みニューラルネットワークと上記第1畳み込みニューラルネットワークとのネットワーク構造が同じであってもよく、異なってもよい。両者の構造が同じである場合に、ネットワークパラメータも異なる。第1特徴抽出処理の段数と、第2特徴抽出処理の段数は、同じであってもよく、異なってもよい。
S402において、多段の第2特徴抽出処理のそれぞれに対応する第2初期特徴データに基づいて、前記差分カスケード画像の特徴抽出結果を取得する。
差分カスケード画像に対して多段の第2特徴抽出処理を行うことにより、特徴抽出の受容野は、増加可能であり、差分カスケード画像における情報は、豊富になる。
例示的に、多段の第2特徴抽出処理のそれぞれに対応する第2初期特徴データに基づいて、前記差分カスケード画像の特徴抽出結果を取得することは、各段の第2特徴抽出処理ごとに、当該段の第2特徴抽出処理の第2初期特徴データと、当該段の第2特徴抽出処理の前の少なくとも1段の第2特徴抽出処理の第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得することにより、実行されてもよい。前記差分カスケード画像の特徴抽出結果は、前記多段の第2特徴抽出処理のそれぞれに対応する第3中間特徴データを含む。
このようにして、各段の第2特徴抽出処理で得られる情報は、より豊富になり、これらの情報は、差分画像における変化情報をより良好に表すことができ、第2検出結果の精度を向上させる。
ここで、何れか1段の第2特徴抽出処理の第2初期特徴データと、当該段の第2特徴抽出処理の前の少なくとも1段の第2特徴抽出処理の第2初期特徴データとに対して融合処理を行う具体的な方式は、当該段の第2特徴抽出処理の前段の第2特徴抽出処理の第2初期特徴データに対してダウンサンプリングを行い、当該段の第2特徴抽出処理に対応するダウンサンプリングデータを取得することと、当該段の第2特徴抽出処理に対応するダウンサンプリングデータと前記第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得することと、であってもよい。
多段の第2特徴抽出処理で得られた情報を前段の第2特徴抽出処理から後段の第2特徴抽出処理へ流動することにより、各段の第2特徴抽出処理で得られる情報は、より豊富になる。
具体的に、第1段の第2特徴抽出処理について、第1段の第2特徴抽出処理で得られた第2初期特徴データを、当該段の第2特徴抽出処理に対応する第3中間特徴データとして特定する。
他の各段の第2特徴抽出処理ごとに、当該段の第2特徴抽出処理で得られた第2初期特徴データと、1つ前の段の第2特徴抽出処理で得られた第3中間特徴データとに基づいて、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得する。
各段の第2特徴抽出処理にそれぞれ対応する第3中間特徴データは、差分カスケード画像に対して特徴抽出を行った結果とする。
各段の第2特徴抽出処理に対応する第3中間特徴データは、1つ前の段の第2特徴抽出処理で得られた第3中間特徴データに対してダウンサンプリングを行って当該段の第2特徴抽出処理に対応するダウンサンプリングデータを取得する(ただし、当該段の第2特徴抽出処理に対応するダウンサンプリングデータのベクトル次元は、当該段の第2特徴抽出処理に基づいて取得された第2初期特徴データの次元と同じである)ことと、当該段の第2特徴抽出処理に対応するダウンサンプリングデータ及び第2初期特徴データに基づいて、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得することと、により、取得されてもよい。
例えば、図4Bに示す例示において、差分カスケード画像に対して5段の第2特徴抽出処理を行う。
5段の第2特徴抽出処理で得られた第2初期特徴数は、それぞれW1、W2、W3、W4及びW5である。
第1段の第2特徴抽出処理について、W1を当該第1段の第2特徴抽出処理に対応する第3中間特徴データE1とする。第2段の第2特徴抽出処理について、第1段の第2特徴抽出処理で得られた第3中間特徴データE1に対してダウンサンプリング処理を行い、第2段の第1特徴抽出処理に対応するダウンサンプリングデータE1’を取得する。W2及びE1’に基づいて、第2段の第2特徴抽出処理に対応する第3中間特徴データE2を生成する。
類似的に、第3段の第2特徴抽出処理に対応する第3中間特徴データE3と、第4段の第2特徴抽出処理に対応する第3中間特徴データE4とをそれぞれ取得する。
第5段の第2特徴抽出処理について、第4段の第2特徴抽出処理で得られた第3中間特徴データE4に対してダウンサンプリング処理を行い、第5段の第2特徴抽出処理に対応するダウンサンプリングデータE4’を取得する。W5及びE4’に基づいて、第5段の第2特徴抽出処理に対応する第5中間特徴データE5を生成する。
以下では、前記差分カスケード画像の特徴抽出結果に対して特徴融合を行って第2融合特徴データを取得する手順について、図4Cを参照しながら詳細に説明する。図4Cは、本発明の実施例に係る差分カスケード画像の特徴抽出結果に対して特徴融合を行う手順のフローチャートであり、以下のステップを含む。
S411において、前記差分カスケード画像の各段の第2特徴抽出処理における第3中間特徴データに対して、グローバル平均プーリング処理をそれぞれ行い、前記差分カスケード画像の各段の第2特徴抽出処理におけるそれぞれ対応する第4中間特徴データを取得する。
ここで、第3中間特徴データに対してグローバル平均プーリングを行う方式は、上記第1中間特徴データに対してグローバル平均プーリングを行う方式と類似するため、ここで繰り返し説明しない。
S412において、前記差分カスケード画像の各段の第2特徴抽出処理におけるそれぞれ対応する第4中間特徴データに対して特徴融合を行い、前記第2融合特徴データを取得する。
第3中間特徴データに対して次元での変換を行うことにより、後続の処理手順を簡素化することができる。
各段の第2特徴抽出処理にそれぞれ対応する第4中間特徴データを接合した後、完全接続ネットワークに入力して完全接続処理させ、第2融合特徴データを取得してもよい。第2融合特徴データが取得された後、第2融合特徴データを第2分類器に入力して第2検出結果を取得する。
例えば、図4Bに示す例示において、第1段の第2特徴抽出処理に対応する第3中間特徴データE1をグローバル平均プーリングを経由させた後、対応する第4中間特徴データU1を取得し、第2段の第2特徴抽出処理に対応する第3中間特徴データE2をグローバル平均プーリングを経由させた後、対応する第4中間特徴データU2を取得し、第3段の第2特徴抽出処理に対応する第3中間特徴データE3をグローバル平均プーリングを経由させた後、対応する第4中間特徴データU3を取得し、第4段の第2特徴抽出処理に対応する第3中間特徴データE4をグローバル平均プーリングを経由させた後、対応する第4中間特徴データU4を取得し、第5段の第2特徴抽出処理に対応する第3中間特徴データE5をグローバル平均プーリングを経由させた後、対応する第4中間特徴データU5を取得する。第4中間特徴データU1、U2、U3、U4及びU5を接合した後、完全接続層に入力して完全接続処理させ、第2融合特徴データを取得し、その後、第2融合特徴データを第2分類器に入力して第2検出結果を取得する。
第2分類器は、例えばsoftmax分類器である。
IV:上記S104において、検出結果は、第1検出結果と第2検出結果とに対して加重加算を行って目標検出結果を取得することにより、特定されてもよい。
第1検出結果と第2検出結果とに対して加重加算を行い、2つの検出結果をまとめると、より正確な生体検出結果は、取得可能である。
第1検出結果と第2検出結果とのそれぞれに対応する重みは、実際の需要に応じて具体的に設定されてもよく、ここで限定しない。一例において、その各自に対応する重みは、同じであってもよい。
第1検出結果と第2検出結果とに対して加重加算を行って得られた数値に基づいて、目標検出結果が、生体であるか否かと判断可能である。例えば、当該数値がある閾値以上であるときに、検出待ちビデオにおける顔は、生体の顔となり、そうでなければ、生体の顔とはならない。前記閾値は、上記第1畳み込みニューラルネットワークと第2畳み込みニューラルネットワークとが訓練したときに取得され得る。例えば、マークの付いた複数のサンプルによってこの2つの畳み込みニューラルネットワークを訓練してから、ポジティブサンプル訓練後の加重加算値と、ネガティブサンプル訓練後の加重加算値とを取得することにより、当該閾値を取得する。
本発明の別の実施例は、生体検出方法をさらに提供する。当該生体検出方法は、生体検出モデルによって実現される。生体検出モデルは、第1サブモデル、第2サブモデル及び算出モジュールを備える。ただし、第1サブモデルは、第1特徴抽出ネットワーク、第1特徴融合ネットワーク及び第1分類器を備え、第2サブモデルは、第2特徴抽出ネットワーク、第2特徴融合ネットワーク及び第2分類器を備え、生体検出モデルは、訓練サンプルセットにおけるサンプル顔ビデオを利用して訓練して得られたものであり、サンプル顔ビデオには、生体であるか否かのマーク情報がマークされている。
ただし、第1特徴抽出ネットワークは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得する。第2特徴抽出ネットワークは、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得する。算出モジュールは、第1検出結果及び第2検出結果に基づいて、生体検出結果を取得する。
本発明の実施例において、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第1検出結果を取得し、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて第2検出結果を取得し、その後、第1検出結果及び第2検出結果に基づいて、検出待ちビデオの生体検出結果を特定してもよい。当該方法において、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。
それとともに、不正な登録者が画面をリメイクして得られた顔ビデオによって詐欺しようとすると、リメイクして得られた画像が元の画像の画像情報を大量に失うため、画像情報の欠損によってユーザの外観の細かな変化が検出できなくなり、さらに、生体ではないと判断することができるので、本発明に係る方法は、画面リメイクによる攻撃手段を効果的に防御することができる。
当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記述順が厳格的な実行順を意味して実施手順について何らかの限定をなすのではなく、各ステップの具体的な実行順が、その機能及び可能な内在論理によって特定されるべきである。
図5に示すように、本発明の別の実施例は、さらに生体検出方法を提供する。当該生体検出方法は、以下のステップを含む。
S501において、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出する。
S502において、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定する。
ステップS501の具体的な実現形態は、上記のステップS101の実現形態を参照すればよいため、ここで繰り返し説明しない。
本発明の実施例において、検出待ちビデオから複数フレームの目標顔画像を抽出し、且つ複数フレームの目標顔画像のうちの隣接する目標顔画像同士の間の類似度を第1数値よりも低くし、その後、目標顔画像に基づいて検出待ちビデオの生体検出結果を特定することにより、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。
それとともに、不正な登録者が画面をリメイクして得られた顔ビデオによって詐欺しようとすると、リメイクして得られた画像が元の画像の画像情報を大量に失うため、画像情報の欠損によってユーザの外観の細かな変化が検出できなくなり、さらに、生体ではないと判断することができるので、本発明に係る方法は、画面リメイクによる攻撃手段を効果的に防御することができる。
1つの可能な実施形態において、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定することは、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得し、及び/又は複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得することと、第1検出結果及び/又は第2検出結果に基づいて、検出待ちビデオの生体検出結果を特定することと、を含む。
ただし、第1検出結果及び第2検出結果を取得する実現形態は、上記S102及びS103の記述をそれぞれ参照すればよいため、ここで繰り返し説明しない。
ある可能な実現形態において、第1検出結果を取得して第1検出結果を目標検出結果とし、又は、第1検出結果を処理した後で目標検出結果を取得する。
別の可能な実現形態において、第2検出結果を取得して第2検出結果を目標検出結果とし、又は、第2検出結果を処理した後で目標検出結果を取得する。
さらに別の可能な実施形態において、第1検出結果及び第2検出結果を取得し、第1検出結果及び第2検出結果に基づいて、検出待ちビデオに対する生体検出結果を特定し、例えば、第1検出結果と第2検出結果とに対して加重加算を行い、生体検出結果を取得する。
類似する思想に基づいて、本発明の実施例は、生体検出方法に対応する生体検出装置をさらに提供する。本発明の実施例における装置が問題を解決する原理が本発明の実施例の上記生体検出方法と類似するため、装置の実施は、方法の実施を参照すればよい。重複箇所について繰り返し説明しない。
図6Aは、本発明の実施例に係る生体検出装置の模式図である。装置は、取得手段61及び検出手段62を備える。
取得手段61は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を特定する。
検出手段62は、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定する。
幾つかの例において、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像同士の間の類似度は、第1数値よりも低い。
幾つかの例において、取得手段61は、さらに、検出待ちビデオから複数フレームの目標顔画像のうちの第1目標顔画像を特定し、第1目標顔画像に基づいて、検出待ちビデオの複数フレームの連続する顔画像から第2目標顔画像を特定する。ただし、第2目標顔画像と第1目標顔画像との間の類似度は、所定の類似度要求を満たす。
幾つかの例において、取得手段61は、さらに、検出待ちビデオを複数のセグメントに分割し(ただし、各セグメントは、所定数の連続する顔画像を含む)、複数のセグメントの第1セグメントから第1目標顔画像を選択し、第1目標顔画像に基づいて、複数のセグメントのうちの各セグメントから第2目標顔画像を特定する。
幾つかの例において、取得手段61は、さらに、第1セグメントにおける全ての顔画像と第1目標顔画像との類似度を比較し、類似度の最も小さい顔画像を第1セグメントの第2目標顔画像とし、他のセグメントのうちの各セグメントごとに、当該セグメントにおける全ての顔画像と当該セグメントの1つ前のセグメントの第2目標顔画像との類似度を比較し、類似度の最も小さい顔画像を当該セグメントの第2目標顔画像とする。ただし、他のセグメントは、複数のセグメントのうち、第1セグメント以外のセグメントである。
幾つかの例において、複数フレームの顔画像同士の間の類似度は、複数フレームの顔画像から2フレームの顔画像を第1顔画像及び第2顔画像として選択することと、第1顔画像における各画素点の画素値と第2顔画像における各画素点の画素値とに基づいて、第1顔画像と第2顔画像との顔差分画像を取得することと、顔差分画像における各画素点の画素値に基づいて顔差分画像に対応する分散を取得することと、分散を第1顔画像と第2顔画像との間の類似度とすることと、によって、取得されたものである。
幾つかの例において、取得した検出待ちビデオから複数フレームの目標顔画像を抽出する前に、取得手段61は、さらに、検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得し、複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得し、整列処理された複数フレームの顔画像同士の間の類似度に基づいて、整列処理された複数フレームの顔画像から複数フレームの目標顔画像を特定する。
幾つかの例において、検出手段62は、第1検出モジュール及び/又は第2検出モジュールと、特定モジュールとを備える。ただし、第1検出モジュールは、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得する。第2検出モジュールは、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得する。特定モジュールは、第1検出結果及び/又は第2検出結果に基づいて、検出待ちビデオの生体検出結果を特定する。
幾つかの例において、第1検出モジュールは、さらに、複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第1融合特徴データを取得し、第1融合特徴データに基づいて第1検出結果を取得する。
幾つかの例において、各フレームの目標顔画像の特徴抽出結果は、目標顔画像に対して多段の第1特徴抽出処理を行って取得された、各段の第1特徴抽出処理にそれぞれ対応する第1中間特徴データを含む。第1検出モジュールは、さらに、各段の第1特徴抽出処理ごとに、複数フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに対して融合処理を行い、当該段の第1特徴抽出処理に対応する中間融合データを取得し、多段の第1特徴抽出処理にそれぞれ対応する中間融合データに基づいて、第1融合特徴データを取得する。
幾つかの例において、第1検出モジュールは、さらに、複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する特徴シーケンスを取得し、特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させ、当該段の第1特徴抽出処理に対応する中間融合データを取得する。
幾つかの例において、第1検出モジュールは、さらに、複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第1特徴抽出処理における対応する第1中間特徴データに対してグローバル平均プーリング処理を行い、複数フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを取得し、複数フレームの目標顔画像の時間順に従い、複数フレームの目標顔画像の当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを並べて、特徴シーケンスを取得する。
幾つかの例において、第1検出モジュールは、さらに、多段の第1特徴抽出処理にそれぞれ対応する中間融合データを接合した後、完全接続処理を行い、第1融合特徴データを取得する。
幾つかの例において、第1検出モジュールは、目標顔画像に対して多段の特徴抽出処理を行い、多段の特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1初期特徴データを取得することと、各段の第1特徴抽出処理ごとに、当該段の第1特徴抽出処理の第1初期特徴データと、当該段の第1特徴抽出処理の後続の少なくとも1段の第1特徴抽出処理の第1初期特徴データとに基づいて、融合処理を行い、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得することと、により、各フレームの目標顔画像の特徴抽出結果を取得する。ただし、目標顔画像の特徴抽出結果は、多段の第1特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1中間特徴データを含む。
幾つかの例において、第1検出モジュールは、さらに、当該段の第1特徴抽出処理の第1初期特徴データと当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する第1中間特徴データとに対して融合処理を行い、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得する。ただし、後段の第1特徴抽出処理に対応する第1中間特徴データは、後段の第1特徴抽出処理の第1初期特徴データに基づいて取得されたものである。
幾つかの例において、第1検出モジュールは、さらに、当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する第1中間特徴データに対してアップサンプリングを行い、当該段の第1特徴抽出処理に対応するアップサンプリングデータを取得し、当該段の第1特徴抽出処理に対応するアップサンプリングデータと当該段の第1特徴抽出処理に対応する第1初期特徴データとを融合し、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得する。
幾つかの例において、第2検出モジュールは、さらに、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に対してカスケード処理を行い、差分カスケード画像を取得し、差分カスケード画像に基づいて第2検出結果を取得する。
幾つかの例において、第2検出モジュールは、さらに、差分カスケード画像に対して特徴抽出処理を行い、差分カスケード画像の特徴抽出結果を取得し、差分カスケード画像の特徴抽出結果に対して特徴融合を行い、第2融合特徴データを取得し、第2融合特徴データに基づいて第2検出結果を取得する。
幾つかの例において、第2検出モジュールは、さらに、差分カスケード画像に対して多段の第2特徴抽出処理を行い、各段の第2特徴抽出処理にそれぞれ対応する第2初期特徴データを取得し、多段の第2特徴抽出処理のそれぞれに対応する第2初期特徴データに基づいて、差分カスケード画像の特徴抽出結果を取得する。
幾つかの例において、第2検出モジュールは、さらに、各段の第2特徴抽出処理ごとに、当該段の第2特徴抽出処理の第2初期特徴データと、当該段の第2特徴抽出処理の前の少なくとも1段の第2特徴抽出処理の第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得する。差分カスケード画像の特徴抽出結果は、多段の第2特徴抽出処理のそれぞれに対応する第3中間特徴データを含む。
幾つかの例において、第2検出モジュールは、さらに、当該段の第2特徴抽出処理の前段の第2特徴抽出処理の第2初期特徴データに対してダウンサンプリングを行い、当該段の第2特徴抽出処理に対応するダウンサンプリングデータを取得し、当該段の第2特徴抽出処理に対応するダウンサンプリングデータと当該段の第2特徴抽出処理の第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得する。
幾つかの例において、第2検出モジュールは、さらに、差分カスケード画像の多段の第2特徴抽出処理におけるそれぞれの第3中間特徴データに対してグローバル平均プーリング処理をそれぞれ行い、差分カスケード画像の多段の第2特徴抽出処理のそれぞれに対応する第4中間特徴データを取得し、差分カスケード画像の多段の第2特徴抽出処理のそれぞれに対応する第4中間特徴データに対して特徴融合を行い、第2融合特徴データを取得する。
幾つかの例において、第2検出モジュールは、さらに、多段の第2特徴抽出処理のそれぞれに対応する第4中間特徴データを接合した後、完全接続処理を行い、第2融合特徴データを取得する。
幾つかの例において、特定モジュールは、さらに、第1検出結果と第2検出結果とに対して加重加算を行い、生体検出結果を取得する。
装置における各モジュール及び/又は手段の処理フロー、並びに各モジュール及び/又は手段の間の相互作用フローの記述は、上記方法実施例における関連説明を参照すればよいため、ここで詳細に記述しない。
本発明の選択可能な実現形態は、電子機器600をさらに提供する。図6Bは、本発明の選択可能な実現形態に供される電子機器600の構造模式図である。当該電子機器600は、プロセッサ610と、メモリ620とを備える。メモリ620は、プロセッサ実行可能指令を記憶し、内部メモリ621及び外部メモリ622を備える。ここでの内部メモリ621は、内部メモリとも呼ばれ、プロセッサ610における演算データと、ハードディスク等の外部メモリ622と交換されるデータとを一時的に格納し、プロセッサ610は、内部メモリ621及び外部メモリ622を介してデータ交換を行う。
電子機器600が動作したときに、機器読み取り可能な指令がプロセッサによって実行されることにより、プロセッサ610は、取得した検出待ちビデオから複数フレームの目標顔画像を抽出することと、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得することと、複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得することと、第1検出結果及び第2検出結果に基づいて、検出待ちビデオの生体検出結果を特定することと、を実施させる。
又は、プロセッサ610は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出することと、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定することとを実施させる。
本発明の選択可能な実現形態は、コンピュータ可読記憶媒体をさらに提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサで運転されたときに、上記方法の選択可能な実現形態における生体検出方法のステップは、実施される。ただし、コンピュータ可読記憶媒体は、不揮発性記憶媒体であってもよい。
また、図7に示すように、本発明の実施例は、開示された実施例に係る生体検出方法を具体的に応用する例示をさらに開示する。
当該例示において、生体検出方法の実行主体は、クラウドサーバ1であり、クラウドサーバ1は、ユーザ側2に通信接続され。両者の相互作用手順は、下記のステップになる。
S701において、ユーザ側2は、ユーザビデオをクラウドサーバ1へアップロードする。ユーザ側2は、取得されたユーザビデオをクラウドサーバ1へアップロードする。
S702において、クラウドサーバ1は、顔キーポイント検出を行う。クラウドサーバ1は、ユーザ側2から送信されたユーザビデオを受信した後、ユーザビデオにおける各フレーム画像に対して顔キーポイント検出を行う。検出に失敗したときに、S703へ遷移し、検出に成功したときに、S705へ遷移する。
S703において、クラウドサーバ1は、検出に失敗した原因をユーザ側2へフィードバックする。その際、検出に失敗した原因は、顔が検出されていないことである。
ユーザ側2は、クラウドサーバ1からフィードバックされた、検出に失敗した原因を受信した後、S704を実行し、ユーザビデオを改めて取得し、S701へ遷移する。
S705において、クラウドサーバ1は、検出された顔キーポイントに基づいて、ユーザビデオにおける各フレーム画像をトリミングし、検出待ちビデオを取得する。
S706において、クラウドサーバ1は、顔キーポイントに基づいて、検出待ちビデオにおける各フレームの顔画像に対して整列処理を行う。
S707において、クラウドサーバ1は、検出待ちビデオから複数フレームの目標顔画像を選択する。
S708において、クラウドサーバ1は、複数フレームの目標顔画像を生体検出モデルにおける第1サブモデルに入力し、各隣接する2フレームの目標顔画像同士の間の差分画像を生体検出モデルにおける第2サブモデルに入力して検出させる。
ただし、第1サブモデルは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得する。第2サブモデルは、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得する。
S709において、クラウドサーバ1は、生体検出モデルから出力された第1検出結果及び第2検出結果を取得した後、第1検出結果及び第2検出結果に基づいて生体検出結果を取得する。
S710において、生体検出結果をユーザ側2へフィードバックする。
上記手順により、ユーザ側2から取得された1つのビデオに対する生体検出手順は、実現される。
本発明の選択可能な実現形態に係る生体検出方法のコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含む。前記プログラムコードに含まれる指令は、上記方法の選択可能な実現形態における前記生体検出方法のステップを実行するために用いられる。詳細は、上記方法選択可能な実現形態を参照すればよいため、ここで繰り返し説明しない。
当業者であれば良く分かるように、記述の利便性及び簡潔性のために、上述したシステム及び装置の具体的な稼働過程は、上記方法の選択可能な実現形態における対応過程を参照すればよく、ここで繰り返し説明しない。本発明に係る幾つかの選択可能な実現形態において、開示されたシステム、装置及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置の選択可能な実現形態が単に模式的なものであり、例えば、前記手段の区分が、単に1種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。さらに例えば、複数の手段或いはユニットは、組み合わせられてもよく、または、別のシステムに統合されてもよく、または、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された各構成部分同士の間は、結合が直接結合であってもよく、通信接続が幾つかのインターフェース、装置或いは手段を介する間接結合若しくは通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。
上記分離部品として説明された手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示された部品は、物理手段であってもでなくてもよい。さらに、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部または全部のモジュールを選択してこの選択可能な実現形態の目的を果たすことが可能である。
また、本発明の各選択可能な実現形態における各機能手段は、全部で1つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、2つ或いは2つ以上の手段が1つの手段に集積されてもよい。
上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を基に、本発明の技術案は、本質的に或いは従来技術に対して貢献を与える部分または当該技術案の一部がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、幾つかの機器の実行可能な指令を含むことで一台の電子機器(パソコン、サーバまたはネットワーク機器等であってもよい)に本発明の各選択可能な実現形態の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Uディスク、モバイルハードディスク、読み出し専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスクまたは光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。
最後に説明すべきことは、上述した選択可能な実現形態が単に本発明の具体的な実施形態に過ぎず、本発明の技術案を説明するためのものであり、それに対する制限とはならない。本発明の保護範囲は、これに限定されない。上記選択可能な実現形態を参照して本発明を詳細に説明したが、当業者であれば理解できるように、本技術分野に精通している如何なる技術者も本発明に開示された技術範囲内で依然として上記選択可能な実現形態に記載された技術案を変更し、或いは容易に変化を想到し、又はその中の一部の技術特徴に対して均等物による置換を行うことができ、これらの変更、変化又は置換により、対応する技術案の本質が本発明の選択可能な実現形態の技術案の精神及び範囲から逸脱することがなく、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。

Claims (29)

  1. 取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、
    前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップと、を含む
    ことを特徴とする生体検出方法。
  2. 前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像同士の間の類似度は、第1数値よりも低い
    ことを特徴とする請求項1に記載の生体検出方法。
  3. 取得した前記検出待ちビデオから前記複数フレームの目標顔画像を特定することは、
    前記検出待ちビデオから、前記複数フレームの目標顔画像のうちの第1目標顔画像を特定することと、
    前記第1目標顔画像に基づいて、前記検出待ちビデオの複数フレームの連続する顔画像から、第2目標顔画像を特定することと、を含み、
    前記第2目標顔画像と前記第1目標顔画像との間の類似度は、所定の類似度要求を満たす
    ことを特徴とする請求項1又は2に記載の生体検出方法。
  4. 前記生体検出方法は、
    前記検出待ちビデオを複数のセグメントに分割するステップをさらに含み、各セグメントは、所定数の連続する顔画像を含み、
    前記検出待ちビデオから、前記複数フレームの目標顔画像のうちの前記第1目標顔画像を特定することは、
    前記複数のセグメントの第1セグメントから第1目標顔画像を選択することを含み、
    前記第1目標顔画像に基づいて、前記検出待ちビデオの前記複数フレームの連続する顔画像から、前記第2目標顔画像を特定することは、
    前記第1目標顔画像に基づいて、前記複数のセグメントのうちの各セグメントから、第2目標顔画像を特定することを含む
    ことを特徴とする請求項3に記載の生体検出方法。
  5. 前記複数のセグメントのうちの各セグメントから前記第2目標顔画像を特定することは、
    前記第1セグメントにおける全ての顔画像と前記第1目標顔画像との類似度を比較し、類似度の最も小さい顔画像を前記第1セグメントの前記第2目標顔画像とすることと、
    他のセグメントのうちの各セグメントごとに、当該セグメントにおける全ての顔画像と当該セグメントの1つ前のセグメントの第2目標顔画像との類似度を比較し、類似度の最も小さい顔画像を当該セグメントの第2目標顔画像とすることと、を含み、
    前記他のセグメントは、前記複数のセグメントのうちの第1セグメント以外のセグメントである
    ことを特徴とする請求項4に記載の生体検出方法。
  6. 前記複数フレームの顔画像同士の間の類似度は、
    複数フレームの顔画像から2フレームの顔画像を第1顔画像及び第2顔画像として選択することと、
    前記第1顔画像における各画素点の画素値と、前記第2顔画像における各画素点の画素値とに基づいて、前記第1顔画像と前記第2顔画像との顔差分画像を取得することと、
    前記顔差分画像における各画素点の画素値に基づいて、前記顔差分画像に対応する分散を取得することと、
    前記分散を前記第1顔画像と前記第2顔画像との間の前記類似度とすることと、によって取得される
    ことを特徴とする請求項1から5の何れか一項に記載の生体検出方法。
  7. 前記取得した検出待ちビデオから前記複数フレームの目標顔画像を特定する前に、前記生体検出方法は、
    前記検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得するステップと、
    前記複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて、前記複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得するステップと、をさらに含み、
    前記取得した検出待ちビデオに含まれた前記複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから前記複数フレームの目標顔画像を特定するステップは、
    前記整列処理された複数フレームの顔画像同士の間の類似度に基づいて、前記整列処理された複数フレームの顔画像から前記複数フレームの目標顔画像を特定することを含む
    ことを特徴とする請求項1から6の何れか一項に記載の生体検出方法。
  8. 前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの前記生体検出結果を特定するステップは、
    前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得し、及び/又は、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得することと、
    前記第1検出結果及び/又は前記第2検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定することと、を含む
    ことを特徴とする請求項1から7の何れか一項に記載の生体検出方法。
  9. 前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の前記特徴データに基づいて、前記第1検出結果を取得することは、
    前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第1融合特徴データを取得することと、
    前記第1融合特徴データに基づいて、前記第1検出結果を取得することと、を含む
    ことを特徴とする請求項8に記載の生体検出方法。
  10. 各フレームの前記目標顔画像の特徴抽出結果は、前記目標顔画像に対して多段の第1特徴抽出処理を行って取得された、各段の第1特徴抽出処理にそれぞれ対応する第1中間特徴データを含み、
    前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、前記第1融合特徴データを取得することは、
    各段の第1特徴抽出処理ごとに、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第1中間特徴データに対して融合処理を行い、当該段の第1特徴抽出処理に対応する中間融合データを取得することと、
    前記多段の第1特徴抽出処理のそれぞれに対応する中間融合データに基づいて、前記第1融合特徴データを取得することと、を含む
    ことを特徴とする請求項9に記載の生体検出方法。
  11. 前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する前記第1中間特徴データに対して融合処理を行い、当該段の第1特徴抽出処理に対応する前記中間融合データを取得することは、
    前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する前記第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する特徴シーケンスを取得することと、
    前記特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させて、当該段の第1特徴抽出処理に対応する前記中間融合データを取得することと、を含む
    ことを特徴とする請求項10に記載の生体検出方法。
  12. 前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する前記第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する前記特徴シーケンスを取得する前に、前記生体検出方法は、
    前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第1特徴抽出処理における対応する第1中間特徴データに対して、グローバル平均プーリング処理を行い、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する第2中間特徴データを取得するステップをさらに含み、
    前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する前記第1中間特徴データに基づいて、当該段の第1特徴抽出処理に対応する前記特徴シーケンスを取得することは、
    前記複数フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の、当該段の第1特徴抽出処理におけるそれぞれ対応する前記第2中間特徴データを並べて、前記特徴シーケンスを取得することを含む
    ことを特徴とする請求項11に記載の生体検出方法。
  13. 前記多段の第1特徴抽出処理に対応する前記中間融合データに基づいて、前記第1融合特徴データを取得することは、
    前記多段の第1特徴抽出処理のそれぞれに対応する前記中間融合データを接合した後に完全接続処理を行い、前記第1融合特徴データを取得することを含む
    ことを特徴とする請求項10から12の何れか一項に記載の生体検出方法。
  14. 各フレームの目標顔画像の特徴抽出結果は、
    前記目標顔画像に対して多段の特徴抽出処理を行い、前記多段の特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1初期特徴データを取得することと、
    各段の前記第1特徴抽出処理ごとに、当該段の第1特徴抽出処理の第1初期特徴データと、当該段の第1特徴抽出処理の後続の少なくとも1段の第1特徴抽出処理の第1初期特徴データとに基づいて、融合処理を行い、当該段の第1特徴抽出処理に対応する第1中間特徴データを取得することと、によって取得され、
    前記目標顔画像の特徴抽出結果は、前記多段の第1特徴抽出処理のうちの各段の第1特徴抽出処理にそれぞれ対応する第1中間特徴データを含む
    ことを特徴とする請求項8から13の何れか一項に記載の生体検出方法。
  15. 当該段の第1特徴抽出処理の前記第1初期特徴データと、当該段の第1特徴抽出処理の後続の少なくとも1段の第1特徴抽出処理の前記第1初期特徴データとに基づいて、融合処理を行い、当該段の第1特徴抽出処理に対応する前記第1中間特徴データを取得することは、
    当該段の第1特徴抽出処理の前記第1初期特徴データと当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する第1中間特徴データとに対して融合処理を行い、前記当該段の第1特徴抽出処理に対応する前記第1中間特徴データを取得することを含み、
    前記後段の第1特徴抽出処理に対応する前記第1中間特徴データは、前記後段の第1特徴抽出処理の第1初期特徴データに基づいて取得されたものである
    ことを特徴とする請求項14に記載の生体検出方法。
  16. 当該段の第1特徴抽出処理の前記第1初期特徴データと当該段の第1特徴抽出処理の前記後段の第1特徴抽出処理に対応する前記第1中間特徴データとに対して融合処理を行い、前記当該段の第1特徴抽出処理に対応する前記第1中間特徴データを取得することは、
    当該段の第1特徴抽出処理の後段の第1特徴抽出処理に対応する前記第1中間特徴データに対してアップサンプリングを行い、当該段の第1特徴抽出処理に対応するアップサンプリングデータを取得することと、
    当該段の第1特徴抽出処理に対応する前記アップサンプリングデータと当該段の第1特徴抽出処理に対応する前記第1初期特徴データとを融合し、当該段の第1特徴抽出処理に対応する前記第1中間特徴データを取得することと、を含む
    ことを特徴とする請求項15に記載の生体検出方法。
  17. 前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の前記差分画像に基づいて、前記第2検出結果を取得することは、
    前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の前記差分画像に対してカスケード処理を行い、差分カスケード画像を取得することと、
    前記差分カスケード画像に基づいて、前記第2検出結果を取得することと、を含む
    ことを特徴とする請求項8から16の何れか一項に記載の生体検出方法。
  18. 前記差分カスケード画像に基づいて、前記第2検出結果を取得することは、
    前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の特徴抽出結果を取得することと、
    前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、第2融合特徴データを取得することと、
    前記第2融合特徴データに基づいて、前記第2検出結果を取得することと、を含む
    ことを特徴とする請求項17に記載の生体検出方法。
  19. 前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の前記特徴抽出結果を取得することは、
    前記差分カスケード画像に対して多段の第2特徴抽出処理を行い、各段の第2特徴抽出処理にそれぞれ対応する第2初期特徴データを取得することと、
    前記多段の第2特徴抽出処理のそれぞれに対応する前記第2初期特徴データに基づいて、前記差分カスケード画像の前記特徴抽出結果を取得することと、を含む
    ことを特徴とする請求項18に記載の生体検出方法。
  20. 前記多段の第2特徴抽出処理のそれぞれに対応する前記第2初期特徴データに基づいて、前記差分カスケード画像の前記特徴抽出結果を取得することは、
    各段の第2特徴抽出処理ごとに、当該段の第2特徴抽出処理の第2初期特徴データと、当該段の第2特徴抽出処理の前の少なくとも1段の第2特徴抽出処理の第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する第3中間特徴データを取得することを含み、
    前記差分カスケード画像の特徴抽出結果は、前記多段の第2特徴抽出処理のそれぞれに対応する第3中間特徴データを含む
    ことを特徴とする請求項19に記載の生体検出方法。
  21. 当該段の第2特徴抽出処理の前記第2初期特徴データと、当該段の第2特徴抽出処理の前の少なくとも1段の第2特徴抽出処理の前記第2初期特徴データとに対して融合処理を行い、前記各段の第2特徴抽出処理に対応する前記第3中間特徴データを取得することは、
    当該段の第2特徴抽出処理の前段の第2特徴抽出処理の第2初期特徴データに対してダウンサンプリングを行い、当該段の第2特徴抽出処理に対応するダウンサンプリングデータを取得することと、
    当該段の第2特徴抽出処理に対応する前記ダウンサンプリングデータと当該段の第2特徴抽出処理の前記第2初期特徴データとに対して融合処理を行い、当該段の第2特徴抽出処理に対応する前記第3中間特徴データを取得することと、を含む
    ことを特徴とする請求項20に記載の生体検出方法。
  22. 前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、前記第2融合特徴データを取得する前に、前記生体検出方法は、
    前記差分カスケード画像の前記多段の第2特徴抽出処理におけるそれぞれの第3中間特徴データに対してグローバル平均プーリング処理をそれぞれ行い、前記差分カスケード画像の前記多段の第2特徴抽出処理におけるそれぞれ対応する第4中間特徴データを取得するステップをさらに含み、
    前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、前記第2融合特徴データを取得することは、
    前記差分カスケード画像の前記多段の第2特徴抽出処理におけるそれぞれ対応する前記第4中間特徴データに対して特徴融合を行い、前記第2融合特徴データを取得することを含む
    ことを特徴とする請求項20又は21に記載の生体検出方法。
  23. 前記差分カスケード画像の前記多段の第2特徴抽出処理におけるそれぞれ対応する前記第4中間特徴データに対して特徴融合を行い、前記第2融合特徴データを取得することは、
    前記多段の第2特徴抽出処理のそれぞれに対応する前記第4中間特徴データを接合した後に完全接続処理を行い、前記第2融合特徴データを取得することを含む
    ことを特徴とする請求項22に記載の生体検出方法。
  24. 前記第1検出結果及び前記第2検出結果に基づいて、前記検出待ちビデオの前記生体検出結果を特定することは、
    前記第1検出結果と前記第2検出結果とに対して加重加算を行い、前記生体検出結果を取得することを含む
    ことを特徴とする請求項8から23の何れか一項に記載の生体検出方法。
  25. 取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するための取得手段と、
    前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するための検出手段と、を備える
    ことを特徴とする生体検出装置。
  26. 前記検出手段は、第1検出モジュール及び/又は第2検出モジュールと、特定モジュールとを備え、
    前記第1検出モジュールは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第1検出結果を取得し、
    前記第2検出モジュールは、前記複数フレームの目標顔画像のうちの各隣接する2フレームの目標顔画像の差分画像に基づいて、第2検出結果を取得し、
    前記特定モジュールは、前記第1検出結果及び/又は前記第2検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定する
    ことを特徴とする請求項25に記載の生体検出装置。
  27. 電子機器であって、
    プロセッサと、
    前記プロセッサで実行され得る機器読み取り可能な指令を記憶するメモリとを備え、
    前記機器読み取り可能な指令が前記プロセッサで実行されたときに、前記プロセッサに請求項1から24の何れか一項に記載の生体検出方法を実施させる
    ことを特徴とする電子機器。
  28. コンピュータ可読記憶媒体であって、
    前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、
    前記コンピュータプログラムが電子機器で運転されたときに、前記電子機器に請求項1から24の何れか一項に記載の生体検出方法を実施させる
    ことを特徴とするコンピュータ可読記憶媒体。
  29. 機器の実行可能な指令を含むコンピュータプログラム製品であって、
    前記機器の実行可能な指令が電子機器で読み取って実行されたときに、前記電子機器に請求項1から24の何れか一項に記載の生体検出方法を実施させる
    ことを特徴とするコンピュータプログラム製品。
JP2021550213A 2019-10-31 2020-07-28 生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品 Pending JP2022522203A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911063398.2 2019-10-31
CN201911063398.2A CN112749603A (zh) 2019-10-31 2019-10-31 活体检测方法、装置、电子设备及存储介质
PCT/CN2020/105213 WO2021082562A1 (zh) 2019-10-31 2020-07-28 活体检测方法、装置、电子设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
JP2022522203A true JP2022522203A (ja) 2022-04-14

Family

ID=75645179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550213A Pending JP2022522203A (ja) 2019-10-31 2020-07-28 生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品

Country Status (5)

Country Link
US (1) US20210397822A1 (ja)
JP (1) JP2022522203A (ja)
CN (1) CN112749603A (ja)
SG (1) SG11202111482XA (ja)
WO (1) WO2021082562A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469085B (zh) * 2021-07-08 2023-08-04 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备及存储介质
CN113989531A (zh) * 2021-10-29 2022-01-28 北京市商汤科技开发有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN114445898B (zh) * 2022-01-29 2023-08-29 北京百度网讯科技有限公司 人脸活体检测方法、装置、设备、存储介质及程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178306A (ja) * 2001-12-12 2003-06-27 Toshiba Corp 個人認証装置および個人認証方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099614A (ja) * 2004-09-30 2006-04-13 Toshiba Corp 生体判別装置および生体判別方法
CN100361138C (zh) * 2005-12-31 2008-01-09 北京中星微电子有限公司 视频序列中人脸的实时检测与持续跟踪的方法及系统
US10268911B1 (en) * 2015-09-29 2019-04-23 Morphotrust Usa, Llc System and method for liveness detection using facial landmarks
CN105260731A (zh) * 2015-11-25 2016-01-20 商汤集团有限公司 一种基于光脉冲的人脸活体检测系统及方法
US10210380B2 (en) * 2016-08-09 2019-02-19 Daon Holdings Limited Methods and systems for enhancing user liveness detection
JP6849387B2 (ja) * 2016-10-24 2021-03-24 キヤノン株式会社 画像処理装置、画像処理システム、画像処理装置の制御方法、及びプログラム
CN109389002A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 活体检测方法及装置
CN108229376B (zh) * 2017-12-29 2022-06-03 百度在线网络技术(北京)有限公司 用于检测眨眼的方法及装置
WO2019133995A1 (en) * 2017-12-29 2019-07-04 Miu Stephen System and method for liveness detection
CN110175549B (zh) * 2019-05-20 2024-02-20 腾讯科技(深圳)有限公司 人脸图像处理方法、装置、设备及存储介质
CN110378219B (zh) * 2019-06-13 2021-11-19 北京迈格威科技有限公司 活体检测方法、装置、电子设备及可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003178306A (ja) * 2001-12-12 2003-06-27 Toshiba Corp 個人認証装置および個人認証方法

Also Published As

Publication number Publication date
WO2021082562A1 (zh) 2021-05-06
CN112749603A (zh) 2021-05-04
SG11202111482XA (en) 2021-11-29
US20210397822A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
JP2022522203A (ja) 生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品
US20190362171A1 (en) Living body detection method, electronic device and computer readable medium
CN102667810B (zh) 数字图像中的面部识别
CN109657533A (zh) 行人重识别方法及相关产品
CN109522945B (zh) 一种群体情感识别方法、装置、智能设备及存储介质
EP3540633A1 (en) Method for identifying an object within an image and mobile device for executing the method
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
US20190244008A1 (en) Manufacturing Part Identification Using Computer Vision And Machine Learning
CN110533119B (zh) 标识识别方法及其模型的训练方法、装置及电子系统
WO2019119396A1 (zh) 人脸表情识别方法及装置
CN111291887A (zh) 神经网络的训练方法、图像识别方法、装置及电子设备
JP2020170495A (ja) 単一画素攻撃サンプルの生成方法、装置、設備及び記憶媒体
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
US11403875B2 (en) Processing method of learning face recognition by artificial intelligence module
CN114419509A (zh) 一种多模态情感分析方法、装置及电子设备
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN112232165A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN111738083A (zh) 一种人脸识别模型的训练方法和装置
CN111666976A (zh) 基于属性信息的特征融合方法、装置和存储介质
CN116956128A (zh) 一种基于超图的多模态多标签分类方法及系统
CN108596068B (zh) 一种动作识别的方法和装置
CN113887373B (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
AU2021240205B1 (en) Object sequence recognition method, network training method, apparatuses, device, and medium
CN115273215A (zh) 作业识别系统以及作业识别方法
CN112381064A (zh) 一种基于时空图卷积网络的人脸检测方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307