JP2022508990A - 顔認識方法及び装置、電子機器、並びに記憶媒体 - Google Patents

顔認識方法及び装置、電子機器、並びに記憶媒体 Download PDF

Info

Publication number
JP2022508990A
JP2022508990A JP2020573403A JP2020573403A JP2022508990A JP 2022508990 A JP2022508990 A JP 2022508990A JP 2020573403 A JP2020573403 A JP 2020573403A JP 2020573403 A JP2020573403 A JP 2020573403A JP 2022508990 A JP2022508990 A JP 2022508990A
Authority
JP
Japan
Prior art keywords
feature
face recognition
residual
face
target parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020573403A
Other languages
English (en)
Other versions
JP7150896B2 (ja
Inventor
露 王
烽 朱
瑞 ▲趙▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022508990A publication Critical patent/JP2022508990A/ja
Application granted granted Critical
Publication of JP7150896B2 publication Critical patent/JP7150896B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Figure 2022508990000001
本願実施例は、顔認識方法及び装置、電子機器、並びに記憶媒体に関するものである。前記顔認識方法は、認識される第1顔画像の第1目標パラメータ値を抽出することと、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得することと、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することと、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得することと、を含む。

Description

本願は、2019年10月31日に中国特許局に提出された、出願番号がCN201911053929.Xである中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願実施例は、コンピュータビジョン技術分野に関し、特に、顔認識方法及び装置、電子機器、並びに記憶媒体に関するものである。
顔認識技術は、セキュリティ、金融、情報、教育など多くの分野で広く使用されている。顔認識は、顔特徴の抽出と比較に基づいて認識しているため、特徴は認識の精度に大きな影響を与える。深層学習技術の発展により、顔画像が目標パラメータ条件を満たす顔認識の精度は望ましい効果に達しているが、顔画像が目標パラメータ条件を満たさない場合、顔認識の精度は比較的に低い。
本願実施例は、顔認識方法及び装置、電子機器、並びに記憶媒体を提案する。
本願実施例による顔認識方法は、
認識される第1顔画像の第1目標パラメータ値を抽出することと、
前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得することと、
前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することと、
前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得することとを含む。
認識される第1顔画像の第1目標パラメータ値を抽出し、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得し、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得し、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得することにより、顔画像の特徴を補正することができ、顔認識の精度を向上させることができる。
いくつかの実施例では、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することは、
前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することと、
前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することとを含む。
当該実施形態では、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得し、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することにより、残差に基づいて特徴側で補正を実行することができる。
いくつかの実施例では、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することは、
前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む。
当該実施形態では、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、このようにして得られた第1残差特徴に基づいてより正確な補正特徴を取得することができる。
いくつかの実施例では、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することは、
前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む。
ここで、前記第1特徴に対して一段階の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、計算量を低減し、計算速度を向上させることができ、前記第1特徴に対して多段階の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、より正確な補正特徴の取得することができる。
いくつかの実施例では、前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである。
前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数を前記第1特徴の次元数と一致させることにより、取得された補正特徴の精度を向上させることができる。
いくつかの実施例では、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することは、
前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することと、
前記第1残差顔及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することとを含む。
前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することにより、第1目標パラメータ値に基づいて第1補正特徴を決定することができ、このようにして、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
いくつかの実施例では、前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することは、
前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を取得することを含む。
当該実施形態に基づいて、第1目標パラメータの値の範囲がプリセットされた区間でない場合、第1残差成分を正確に決定することができる。
いくつかの実施例では、前記第1残差成分及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することは、
前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定することを含む。
当該実施形態では、前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定することにより、第1補正特徴を迅速かつ正確に決定することができる。
いくつかの実施例では、目標パラメータは、顔の角度、ぼかし度合い、又は遮蔽率を含む。
当該実施形態によれば、顔の角度、ぼかし度合い、又は遮蔽率が目標パラメータ条件を満たさない顔画像の特徴を補正することができ、これにより、顔の角度が大きい場合、顔画像が比較的にぼやけている場合、又は顔画像が遮蔽されている場合に、顔認識の精度を向上させることができる。
いくつかの実施例では、前記第1特徴及び前記第1目標パラメータ値を処理することは、
最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理することを含む。
当該実施形態では、最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理して、第1補正特徴を取得し、このようにして得られた第1補正特徴に基づいて顔認識を実行することにより、顔認識の精度を向上させることができる。
いくつかの実施例では、前記顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理する前に、前記方法は、
任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定することと、
前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することと、
前記第2特徴及び前記第3特徴に従って、損失関数を取得することと、
前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得することとを含む。
当該実施形態を採用してトレーニングすることによって得られた、パラメータが収束する顔認識モデルは、目標パラメータ条件を満たさない顔画像の特徴を、目標パラメータ条件を満たす特徴に補正することができ、これにより、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させることができる。
いくつかの実施例では、前記第2特徴及び前記第3特徴に従って、損失関数を取得することは、
前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することと、
前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することとを含む。
当該実施形態では、第3特徴に対応する第2補正特徴を決定する時に、第3顔画像に対応する第2目標パラメータ値を考慮し、このようにトレーニングして得られた顔認識モデルは、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
いくつかの実施例では、前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することは、
前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することと、
前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することとを含む。
当該実施形態では、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得し、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することにより、前記顔認識モデルが、残差学習を実行して、特徴を補正する能力を取得できるようにする。
いくつかの実施例では、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することは、
前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む。
当該実施形態では、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得し、このようにして得られた第2残差特徴に基づいて、より正確な補正特徴を取得することができる。
いくつかの実施例では、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することは、
前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む。
当該実施形態では、前記顔認識モデルにより前記第3特徴に対して一段階の完全接続処理とアクティブ化処理して、前記第3特徴に対応する第2残差特徴取得することにより、計算量を低減し、計算速度を向上させることができ、前記顔認識モデルにより前記第3特徴に対して多段階の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することにより、前記顔認識モデルの性能を向上させることができる。
いくつかの実施例では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである。
当該実施形態では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数を前記第3特徴の次元数と一致させることにより、トレーニングによって得られた顔認識モデルの性能を確保することができる。
いくつかの実施例では、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することは、
前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することと、
前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することとを含む。
当該実施形態では、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することにより、前記第2目標パラメータ値に基づいて第2補正特徴を決定することができ、このようにトレーニングして得られた顔認識モデルは、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
いくつかの実施例では、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することは、
前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得することを含む。
当該実施形態に基づいて、前記第2目標パラメータの値の範囲がプリセットされた区間でない場合、第2残差成分を正確に決定することができる。
いくつかの実施例では、前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することは、
前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定することを含む。
当該実施形態では、前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定することにより、第2補正特徴を迅速かつ正確に決定することができる。
いくつかの実施例では、前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することは、
複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得することと、
前記複数の第4特徴に従って、前記第2特徴を取得することとを含む。
当該実施形態では、複数の第2顔画像が存在する場合、複数の第2顔画像の特徴に従って第2特徴を取得することにより、顔認識モデルの安定性を向上させることができる。
いくつかの実施例では、前記複数の第4特徴に従って、前記第2特徴を取得することは、
前記複数の第4特徴の平均値を前記第2特徴として決定することを含む。
当該実施形態では、前記複数の第4特徴の平均値を前記第2特徴として決定することにより、前記顔認識モデルの安定性をさらに向上させることができる。
いくつかの実施例では、前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することは、
前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定することを含む。
本願実施例による顔認識装置は、
認識される第1顔画像の第1目標パラメータ値を抽出するように構成される第1抽出モジュールと、
前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得するように構成される第2抽出モジュールと、
前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得するように構成される処理モジュールと、
前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得するように構成される獲得モジュールとを備える。
いくつかの実施例では、前記獲得モジュールは、
前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を獲得し、
前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得するように構成される。
いくつかの実施例では、前記獲得モジュールは、
前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される。
いくつかの実施例では、前記獲得モジュールは、
前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される。
いくつかの実施例では、前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである。
いくつかの実施例では、前記獲得モジュールは、
前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定し、
前記第1残差顔及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定するように構成される。
いくつかの実施例では、前記獲得モジュールは、
前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を獲得するように構成される。
いくつかの実施例では、前記獲得モジュールは、
前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定するように構成される。
いくつかの実施例では、目標パラメータは、顔の角度、ぼかし度合い、又は遮蔽率を含む。
いくつかの実施例では、前記処理モジュールは、
最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理するように構成される。
いくつかの実施例では、前記装置は、
任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定するように構成される決定モジュールと、
前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得するように構成される第3抽出モジュールと、
前記第2特徴及び前記第3特徴に従って、損失関数を取得するように構成される取得モジュールと、
前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得するように構成される最適化モジュールとを備える。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得し、
前記第2特徴及び前記第2補正特徴に従って、損失関数を取得するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得し、
前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される。
いくつかの実施例では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定し、
前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定するように構成される。
いくつかの実施例では、前記第3抽出モジュールは、
複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得し、
前記複数の第4特徴に従って、前記第2特徴を取得するように構成される。
いくつかの実施例では、前記第3抽出モジュールは、
前記複数の第4特徴の平均値を前記第2特徴として決定するように構成される。
いくつかの実施例では、前記取得モジュールは、
前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定するように構成される。
本願実施例による電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリとを備え、
前記プロセッサは、上記の方法を実行するように構成される。
本願実施例によるコンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の方法を実現する。
本願実施例によれば、認識される第1顔画像の第1目標パラメータ値を抽出し、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得し、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得し、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得する。これにより、顔画像の特徴を補正することができ、顔認識の精度を向上させることができる。
以上の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本願を限定するものではないことを理解すべきである。
以下の図面と関連付けられた例示的な実施例に対する詳細な説明によれば、本願の他の特徴および態様は明確になる。
ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本願に準拠する実施例を示し、本明細書とともに本願実施例の技術的解決策を説明するために使用される。
本願実施例による顔認識方法を示すフローチャートである。 本願実施例による顔認識方法において、顔の角度値を[0、1]区間にマッピングしたマッピング曲線を示す図である。 本願実施例による顔認識方法における顔認識モデルのトレーニングプロセスを示す概略図である。 本願実施例による顔認識装置を示すブロック図である。 本願実施例による電子機器800を示すブロック図である。 本願実施例による電子機器1900を示すブロック図である。
以下、図面を参照しながら本願の様々な例示的な実施例、特徴、および態様を詳細に説明する。図面における同じ参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されているが、特に明記しない限り、必ずしも縮尺通りに図面を作る必要はない。
ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。本明細書で「例示的」として説明される任意の実施例は、他の実施例より優れるまたは良好なものと解釈すべきではない。
本明細書における「および/または」という用語は、関連するオブジェクトを説明する単なる関連付け関係であり、3つの関係が存在できることを示し、例えば、Aおよび/またはBは、Aが単独で存在する、AとBが同時に存在する、Bが単独で存在するという3つのケースを示すことができる。また、本明細書における「少なくとも1つ」という用語は、複数のうちのいずれか1つまたは複数のうちの少なくとも2つの任意の組み合わせを意味し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCからなるセットから選択されるいずれか1つまたは複数の要素を含むことを意味することができる。
また、本願実施例による顔認識方法及び装置、電子機器、並びに記憶場体をより明確に説明するために、以下の具体的な実施形態において多数の具体的な詳細が提供される。当業者なら自明であるが、いくつかの特定の詳細がなくても、本願実施例を実施することができる。いくつかの実施例では、本願実施例の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。
図1は、本願実施例による顔認識方法を示すフローチャートである。前記顔認識方法の実行主体は、顔認識装置であり得る。例えば、前記顔認識方法は、端末機器又はサーバ又は他の処理機器によって実行できる。ここで、端末機器は、ユーザ機器、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA)、ハンドヘルドデバイス、計算機器、車載機器、またはウェアラブル機器などであってもよい。いくつかの可能な実施形態では、前記顔認識方法は、プロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現できる。図1に示されるように、前記顔認識方法は、ステップS11からS14を含み得る。
ステップS11において、認識される第1顔画像の第1目標パラメータ値を抽出する。
本願実施例では、目標パラメータは、顔認識の精度に影響を与える可能性がある任意のパラメータであり得る。目標パラメータの数は、1つ又は複数であり得る。例えば、目標パラメータは、顔の角度、ぼかし度合い、及び遮蔽率などのうちの1つ又は複数を含み得る。例えば、目標パラメータは顔の角度を含み、顔の角度の値の範囲は[-90°,90°]であり得、ここで、顔の角度が0である場合は正面顔である。別の例では、目標パラメータはぼかし度合いを含み、ぼかし度合いの値の範囲は[0,1]であり得、ここで、ぼかし度合いが大きいほど、ぼやけが強調される。さらに別の例では、目標パラメータは遮蔽率を含み、遮蔽率の値の範囲は[0,1]であり得、ここで、遮蔽率が0であることは、遮蔽が全くないことを意味し、遮蔽率が1であることは、完全な遮蔽を意味する。
一例では、目標パラメータが顔の角度を含む場合、dlib又はopencvなどのオープンソースツールにより第1顔画像の顔の角度値をそれぞれ抽出することができる。この例では、ピッチ角(pitch)、ロール角(roll)、及びヨー角(yaw)のうちの1つ又は複数を取得することができる。例えば、第1顔画像の顔のヨー角を、第1顔画像の顔の角度値として使用できる。
いくつかの実施例では、目標パラメータの値の範囲がプリセットされた区間でない場合、目標パラメータ値に対して正規化処理を実行することにより、目標パラメータ値をプリセットされた区間にマッピングすることができる。例えば、プリセットされた区間は[0,1]である。一例では、目標パラメータが顔の角度を含み、顔の角度の値の範囲が[-90°,90°]であり、プリセットされた区間が[0,1]である場合、顔の角度値に対して正規化処理を実行することにより、顔の角度値を[0,1]にマッピングすることができる。例えば、

Figure 2022508990000002
に従って、顔の角度値を正規化して、顔の角度値に対応する正規化値yawnormを取得できる。図2は、本願実施例による顔認識方法において、顔の角度値yawを[0,1]の区間にマッピングしたマッピング曲線を示す図である。図2では、横軸は顔の角度値yawであり、縦軸は顔の角度値yawに対応する正規化値yawnormである。図2に示される例では、顔の角度値yawが20°未満である場合はほとんど正面顔であると見なすことができ、yawnormは0に近く、顔の角度値yawが50°より大きいか等しい場合、大角度の側面顔であると見なすことができ、yawnormは1に近い。
ステップS12において、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得する。
いくつかの実施例では、第1顔画像に対して畳み込み処理を実行することにより、第1顔画像に対応する第1特徴を抽出することができる。
ステップS13において、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得する。
いくつかの実施例では、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することは、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することと、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することとを含む。
当該実施形態では、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得し、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することにより、残差に基づいて特徴側で補正を実行することができる。
当該実施形態の一例として、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することは、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む。この例では、完全接続層を介して完全接続処理を実行でき、活性化層を介してアクティブ化処理を実行できる。ここで、活性化層は、ReLu(Rectified Linear Unit、線形整流関数)又はPReLu(Parametric Rectified Linear Unit、パラメータ化線形整流関数)などの活性化関数を使用することができる。
この例では、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、このようにして得られた第1残差特徴に基づいてより正確な補正特徴を取得することができる。
この例では、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することは、前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む。ここで、前記第1特徴に対して一段階の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、計算量を低減し、計算速度を向上させることができ、前記第1特徴に対して多段階の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することにより、より正確な補正特徴の取得することができる。
一例では、第1特徴に対して二段階の完全接続処理とアクティブ化処理を実行できる。つまり、第1特徴に対して、完全接続処理、アクティブ化処理、完全接続処理、及びアクティブ化処理を逐次的に実行して、前記第1特徴に対応する第1残差特徴を取得することができる。
一例では、前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである。この例では、前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数を前記第1特徴の次元数と一致させることにより、取得された補正特徴の精度を向上させることができる。
本願実施例では、前記第1特徴に対して完全接続処理とアクティブ化処理を実行することに限定されず、前記第1特徴に対して他のタイプの処理も実行することができる。例えば、完全接続処理の代わりに、前記第1特徴に対して完全畳み込み処理を実行することができる。
当該実施形態の一例として、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することは、前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することと、前記第1残差成分及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することとを含む。
この例では、前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することにより、第1目標パラメータ値に基づいて第1補正特徴を決定することができ、このようにして、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
一例では、前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することは、前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を取得することを含む。この例では、前記第1目標パラメータの値の範囲がプリセットされた区間でない場合、前記第1残差特徴と前記第1目標パラメータ値の正規化値との積を、前記第1特徴に対応する第1残差成分として使用することにより、第1残差成分を正確に決定することができる。
一例では、前記第1残差成分及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することは、前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定することを含む。この例では、前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定することにより、第1補正特徴を迅速かつ正確に決定することができる。
ステップS14において、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得する。
いくつかの実施例では、前記第1特徴及び前記第1目標パラメータ値を処理することは、最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理することを含む。当該実施形態では、最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理して、第1補正特徴を取得し、このようにして得られた第1補正特徴に基づいて顔認識を実行することにより、顔認識の精度を向上させることができる。
いくつかの実施例では、前記顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理する前に、前記方法は、任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定することと、前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することと、前記第2特徴及び前記第3特徴に従って、損失関数を取得することと、前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得することとをさらに含む。
当該実施形態では、目標対象は、顔認識モデルのトレーニングに使用される対象を指し得る。目標対象の数は複数であり得、各目標対象に対応する全ての顔画像は、同じ人物の顔画像であり得る。各目標対象は、複数の顔画像に対応でき、各目標対象に対応する複数の顔画像は、目標パラメータ条件を満たす顔画像及び前記目標パラメータ条件を満たさない顔画像を含み得る。
当該実施形態では、任意の目標対象に対応する複数の顔画像の目標パラメータ値に従って、前記複数の顔画像から、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定する。
当該実施形態では、目標パラメータ条件は、目標パラメータ値が特定の指定された区間に属すること、目標パラメータ値が特定の閾値より小さいか等しいこと、目標パラメータ値が特定の閾値より大きいか等しいこと、目標パラメータ値の絶対値が特定の閾値より小さいか等しいこと、目標パラメータ値の絶対値が特定の閾値より大きいか等しいことのうちのいずれかであり得る。当業者は、実際の応用シナリオの需要に応じて、目標パラメータ条件を柔軟に設定することもでき、本願実施例はこれを限定するものではない。例えば、目標パラメータが顔の角度を含む場合、目標パラメータ条件は、顔の角度の絶対値が角度閾値未満であることを含み得、ここで、角度閾値は0より大きいか等しい。別の例では、目標パラメータがぼかし度合いを含む場合、目標パラメータ条件は、ぼかし度合いがぼかし度合い閾値未満であることを含み得、ここで、ぼかし度合い閾値は0より大きいか等しい。別の例では、目標パラメータが遮蔽率を含む場合、目標パラメータ条件は、遮蔽率が遮蔽率閾値未満であることを含み得、ここで、遮蔽率閾値は0より大きいか等しい。
当該実施形態では、前記任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定する前に、任意の目標対象に対応する複数の顔画像の目標パラメータ値を取得することができる。一例では、目標パラメータが顔の角度である場合、dlib又はopencvなどのオープンソースツールにより、任意の目標対象に対応する複数の顔画像の顔の角度値をそれぞれ取得できる。この例では、ピッチ角、ロール角、及び和ヨー角のうちの1つ又は複数を取得することができる。例えば、顔画像の顔のヨー角を、当該顔画像の顔の角度値として使用できる。
一例では、前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することは、複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得することと、前記複数の第4特徴に従って、前記第2特徴を取得することとを含む。
この例では、複数の第2顔画像が存在する場合、複数の第2顔画像の特徴に従って第2特徴を取得することにより、顔認識モデルの安定性を向上させることができる。
一例では、前記複数の第4特徴に従って、前記第2特徴を取得することは、前記複数の第4特徴の平均値を前記第2特徴として決定することを含む。この例では、前記複数の第4特徴の平均値を前記第2特徴として決定することにより、前記顔認識モデルの安定性をさらに向上させることができる。
別の例では、前記複数の第4特徴に従って、前記第2特徴を取得することは、前記複数の第2顔画像に対応する重みに従って、前記複数の第4特徴に対して加重処理を実行して、前記第2特徴を取得する。この例では、目標パラメータ条件を満たす任意の第2顔画像に対応する重みは、当該第2顔画像の目標パラメータ値に従って決定でき、目標パラメータ値が最適な目標パラメータ値に近いほど、当該第2顔画像に対応する重みが大きくなる。例えば、目標パラメータが顔の角度である場合、最適な顔の角度値は0であり得、目標パラメータがぼかし度合いである場合、最適なぼかし度合い値は0であり得、目標パラメータが遮蔽率である場合、最適な遮蔽率値は0であり得る。
一例では、前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することは、第2顔画像が1つしか存在しない場合、前記第2顔画像に対して特徴抽出を実行し、前記第2顔画像に対応する特徴を前記第2特徴として使用することを含む。
一例では、目標対象の顔画像に対して特徴抽出を実行した後、抽出された特徴を保存することにより、同一の顔画像に対して特徴抽出を繰り返すことなく、後続のトレーニングで保存された顔画像の特徴を再利用することができる。
一例では、前記第2特徴及び前記第3特徴に従って、損失関数を取得することは、前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することと、前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することとを含む。
この例では、前記第3特徴と前記第3顔画像の第2目標パラメータ値を組み合わせて、前記第3特徴を補正して、前記第3特徴に対応する第2補正特徴を取得する。
一例では、前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することは、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することと、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することとを含む。
この例では、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得し、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することにより、前記顔認識モデルが、残差学習を実行して、特徴を補正する能力を取得できるようにする。
一例では、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することは、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む。この例では、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得し、このようにして得られた第2残差特徴に基づいて、より正確な補正特徴を取得することができる。
当該実施形態では、前記顔認識モデルにより前記第3特徴対して完全接続処理とアクティブ化処理を実行することに限定されず、前記顔認識モデルにより前記第3特徴に対して他のタイプの処理も実行することができる。例えば、完全接続処理の代わりに、前記顔認識モデルにより前記第3特徴に対して完全畳み込み処理を実行することができる。
一例では、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することは、前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む。
この例では、前記顔認識モデルにより前記第3特徴に対して一段階の完全接続処理とアクティブ化処理して、前記第3特徴に対応する第2残差特徴取得することにより、計算量を低減し、計算速度を向上させることができ、前記顔認識モデルにより前記第3特徴に対して多段階の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することにより、前記顔認識モデルの性能を向上させることができる。
一例では、前記顔認識モデルにより前記第3特徴に対して二段階の完全接続処理とアクティブ化処理を実行できる。つまり、前記顔認識モデルにより前記第3特徴に対して、完全接続処理、アクティブ化処理、完全接続処理、及びアクティブ化処理を逐次的に実行して、前記第3特徴に対応する第2残差特徴を取得することができる。
一例では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである。この例では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数を前記第3特徴の次元数と一致させることにより、トレーニングによって得られた顔認識モデルの性能を確保することができる。
一例では、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することは、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することと、前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することとを含む。
この例では、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することにより、前記第2目標パラメータ値に基づいて第2補正特徴を決定することができ、このようにトレーニングして得られた顔認識モデルは、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
一例では、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することは、前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得することを含む。この例では、前記第2目標パラメータの値の範囲がプリセットされた区間でない場合、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を、前記第3特徴に対応する第2残差成分として使用することにより、第2残差成分を正確に決定することができる。
別の例では、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することは、前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値との積を決定して、前記第3特徴に対応する第2残差成分を取得することを含む。この例では、前記第2目標パラメータの値の範囲がプリセットされた区間と等しい場合、前記第2残差特徴と前記第2目標パラメータ値との積を、前記第3特徴に対応する第2残差成分として使用することができる。
一例では、前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することは、前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定することを含む。この例では、前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定することにより、第2補正特徴を迅速かつ正確に決定することができる。
当該実施形態では、前記顔認識モデルのトレーニングの目的は、前記第3特徴に対応する第2補正特徴を前記第2特徴に近づけることであるため、一例では、前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することは、前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定することを含み得る。例えば、前記第2補正特徴と前記第2特徴との差の2乗を、前記損失関数の値として決定できる。
図3は、本願実施例による顔認識方法における顔認識モデルのトレーニングプロセスを示す概略図である。図3に示される例では、目標パラメータは顔の角度であり、前記顔認識モデルにより前記第3特徴(f_train)に対して、完全接続処理(fc 1)、アクティブ化処理(relu 1)、完全接続処理(fc 2)、及びアクティブ化処理(relu 2)を順番に実行して、前記第3特徴に対応する第2残差特徴を取得し、前記顔認識モデルにより、前記第2残差特徴と前記第3顔画像の第2目標パラメータ値(yaw)の正規化値(yaw_norm)との積を決定して、前記第3特徴に対応する第2残差成分を取得し、前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を、前記第3特徴に対応する第2補正特徴(f_out)として決定する。目標パラメータが顔の角度である例では、顔の角度値が20°未満である場合、前記第3特徴に対応する第2補正特徴は、前記第3特徴に近くなくなり、顔の角度値が50°を超える場合、第2残差成分は0に近くなくなり、第3特徴が補正される。
当該実施形態では、顔認識モデルは特徴側で補正され、つまり、補正された図像(例えば第3顔画像の補正図像)を取得する必要なく、補正特徴のみを取得するだけでよい。これにより、補正された図像を取得するプロセスで発生するノイズを回避できるため、顔認識の精度をさらに向上させることができる。
上記の実施形態に従ってトレーニングすることによって得られた、パラメータが収束する顔認識モデルは、目標パラメータ条件を満たさない顔画像の特徴を、目標パラメータ条件を満たす特徴に補正することができ、これにより、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させることができる。
本願実施例では、認識される第1顔画像の目標パラメータ値と最適な目標パラメータ値との間の差が小さいほど、第1特徴に対応する第1補正特徴は、第1特徴に近くなる。第1顔画像の目標パラメータ値と最適な目標パラメータ値との間の差が大きいほど、第1特徴に対応する第1補正特徴と第1特徴との間の差が大きくなる。したがって、本願実施例による顔認識方法を採用することにより、目標パラメータ条件を満たさない顔画像の顔認識の精度を向上させながら、目標パラメータ条件を満たす顔画像の顔認識の精度に影響を与えないことができる。
本願で言及される上記各方法の実施例は、原理と論理に違反することなく、相互に組み合わせて、組み合わされた実施例を形成できることが理解でき、紙数に限りがあるので、本願では詳細な説明を省略する。
当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの記述順序は、厳しい実行順序により実施プロセスを制限するものではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。
さらに、本願実施例はまた、顔認識装置、電子機器、コンピュータ可読記憶媒体、及びプログラムを提供し、これらは全て、本願実施例による顔認識方法のいずれかを実現するために使用でき、対応する技術的解決策と説明については、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。
図4は、本願実施例による顔認識装置を示すブロック図である。図4に示されるように、前記顔認識装置は、認識される第1顔画像の第1目標パラメータ値を抽出するように構成される第1抽出モジュール41と、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得するように構成される第2抽出モジュール42と、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得するように構成される処理モジュール43と、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得するように構成される獲得モジュール44とを備える。
いくつかの実施例では、前記獲得モジュール44は、前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を獲得し、前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を獲得するように構成される。
いくつかの実施例では、前記獲得モジュール44は、前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される。
いくつかの実施例では、前記獲得モジュール44は、前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される。
いくつかの実施例では、前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである。
いくつかの実施例では、前記獲得モジュール44は、前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定し、前記第1残差顔及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定するように構成される。
いくつかの実施例では、前記獲得モジュール44は、前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を獲得するように構成される。
いくつかの実施例では、前記獲得モジュール44は、前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定するように構成される。
いくつかの実施例では、目標パラメータは、顔の角度、ぼかし度合い、又は遮蔽率を含む。
いくつかの実施例では、前記処理モジュール43は、最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理するように構成される。
いくつかの実施例では、前記装置は、任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定するように構成される決定モジュールと、前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得するように構成される第3抽出モジュールと、前記第2特徴及び前記第3特徴に従って、損失関数を取得するように構成される取得モジュールと、前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得するように構成される最適化モジュールとをさらに備える。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得し、前記第2特徴及び前記第2補正特徴に従って、損失関数を取得するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得し、前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される。
いくつかの実施例では、前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定し、前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定するように構成される。
いくつかの実施例では、前記第3抽出モジュールは、複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得し、前記複数の第4特徴に従って、前記第2特徴を取得するように構成される。
いくつかの実施例では、前記第3抽出モジュールは、前記複数の第4特徴の平均値を前記第2特徴として決定するように構成される。
いくつかの実施例では、前記取得モジュール44は、前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定するように構成される。
いくつかの実施例では、本願実施例に係る装置に含まれる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返して説明しない。
本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体をさらに提案し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってよい。
本願実施例は、上記の方法を実行するように構成されるプロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリと、を備える電子機器をさらに提案する。
電子機器は、端末、サーバ、または他の形の機器として提供することができる。
図5は、本願実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、および通信コンポーネント816のうちの1つまたは複数を含み得る。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記の方法のステップの全てまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。さらに、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントとの間の対話を容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間の対話を容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ804は、任意のタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現でき、当該ストレージデバイスは、例えば、静的ランダムアクセスメモリ(SRAM、Static Random Access Memory)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM、Electrically Erasable Programmable Read-Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM、Erasable Programmable Read-Only Memory)、プログラマブル読み取り専用メモリ(PROM、Programmable Read-Only Memory)、読み取り専用メモリ(ROM、Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどであり得る。
電源コンポーネント806は、電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は、電源管理システム、1つまたは複数の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント808は、前記電子機器800とユーザとの間で出力インターフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイ(LCD:Liquid Crystal Display)およびタッチパネル(TP:Touch Panel)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現できる。タッチパネルは、タッチ、スワイプ、およびタッチパネルでのジェスチャを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント808は、フロンドカメラおよび/またはリアカメラを含む。電子機器800が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラは、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、マイクロフォン(MIC)を含み、前記マイクロフォンは、電子機器800が、呼び出しモード、記録モード、および音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804に記憶されてもよいし、通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。
センサコンポーネント814は、各面での状態評価を電子機器800に提供するための1つまたは複数のセンサを含む。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器800のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント814はまた、電子機器800または電子機器800のコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速、および電子機器800の温度変化を検出できる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント814は、イメージングに使用される光センサ(金属酸化物半導体素子(CMOS:Complementary Metal Oxide Semiconductor)または電荷結合素子(CCD:Charge Coupled Device)イメージセンサなど)をさらに含み得る。いくつかの実施例では、前記センサコンポーネント814は、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサをさらに含み得る。
通信コンポーネント816は、電子機器800と他の機器との間の有線または無線通信を実現するように構成される。電子機器800は、通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスすることができる。一例示的な実施例では、通信コンポーネント816は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816は、近距離通信を容易にするための近距離無線通信(NFC:Near Field Communication)モジュールをさらに備える。例えば、NFCモジュールは、無線周波数識別(RFID:Radio Frequency IDentification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra WideBand)技術、ブルートゥース(BT:Blue Tooth、登録商標)技術および他の技術に基づいて実現できる。
例示的な実施例では、上記の方法を実行するために、電子機器800は、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理デバイス(DSPD:Digital Signal Process)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ804などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されることにより、上記の方法を完了することができる。
図6は、本願実施例による別の電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバとして提供することができる。図6を参照すると、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するためのメモリリソースを代表するメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションプログラムは、一組の命令に対応する1つまたは複数のモジュールを含み得る。さらに、処理コンポーネント1922は、命令を実行して、上記の方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926と、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、をさらに備えてもよい。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ1932などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されることにより、上記の方法を完了することができる。
本願実施例は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体を含み得、当該コンピュータ可読プログラム命令は、プロセッサに、本願実施例の各態様を実現させるように構成される。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD:Digital Video Disc)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。本明細書で使用するコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含み得る。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他の計算/処理機器のコンピュータ可読記憶媒体への記憶のために当該コンピュータ可読プログラム命令を転送する。
本願実施例における動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN:Local Area Network)または広域ネットワーク(WAN:Wide Area Network)を含む任意のタイプのネットワークを経由してユーザのコンピュータに接続するか、または、外部コンピュータに接続する(例えば、インターネットサービスプロバイダを利用することにより、インターネットを経由して外部コンピュータに接続する)ことができる。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、電子回路をカスタマイズすることができる。例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をカスタマイズすることができ、当該電子回路は、コンピュータ可読プログラム命令を実行することにより、本願実施例の各態様を実現することができる。
ここで、本願実施例における方法、装置(システム)、およびコンピュータプログラム製品に係るフローチャートおよび/またはブロック図を参照しながら本願実施例の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器が、これらの命令に応じて特定の方式で動作することができる。したがって、命令が記憶されたコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実現する命令を含む製品を備えることができる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器に一連の動作ステップを実行させることにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器で命令を実行することで、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実現することができる。
図面のフローチャートおよびブロック図は本願の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替としての実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で実行できる。例えば、2つの連続的なブロックは、実際には実質的に同時に実行でき、関連する機能によっては、逆の順序で実行されることもできる。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
以上、本願の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書で使用される用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するためのものであるか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本願実施例は、コンピュータビジョンの分野に関し、特に、データベース更新方法および装置、電子機器、コンピュータ記憶媒体に関する。前記方法包括:認識される第1顔画像の第1目標パラメータ値を抽出する、前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得する、前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得する、前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得する。本願実施例は、顔画像の特徴を補正することができ、顔認識の精度を向上させることができる。
41 第1抽出モジュール
42 第2抽出モジュール
43 処理モジュール
44 獲得モジュール
802 処理コンポーネント
804 メモリ
806 電源コンポーネント
808 マルチメディアコンポーネント
810 オーディオコンポーネント
812 入力/出力インターフェース
814 センサコンポーネント
816 通信コンポーネント
820 プロセッサ
1922 処理コンポーネント
1926 電源コンポーネント
1932 メモリ
1950 ネットワークインターフェース
1958 入力/出力インターフェース

Claims (46)

  1. 顔認識方法であって、
    認識される第1顔画像の第1目標パラメータ値を抽出することと、
    前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得することと、
    前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することと、
    前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得することと、を含む、前記顔認識方法。
  2. 前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得することは、
    前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することと、
    前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することと、を含む、
    請求項1に記載の顔認識方法。
  3. 前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を取得することは、
    前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む、
    請求項2に記載の顔認識方法。
  4. 前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することは、
    前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を取得することを含む、
    請求項3に記載の顔認識方法。
  5. 前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである、
    請求項3又は4に記載の顔認識方法。
  6. 前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得することは、
    前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することと、
    前記第1残差顔及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することと、を含む、
    請求項2ないし5のいずれか一項に記載の顔認識方法。
  7. 前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定することは、
    前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を取得することを含む、
    請求項6に記載の顔認識方法。
  8. 前記第1残差成分及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定することは、
    前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定することを含む、
    請求項6又は7に記載の顔認識方法。
  9. 目標パラメータは、顔の角度、ぼかし度合い、又は遮蔽率を含む、
    請求項1ないし8のいずれか一項に記載の顔認識方法。
  10. 前記第1特徴及び前記第1目標パラメータ値を処理することは、
    最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理することを含む、
    請求項1ないし9のいずれか一項に記載の顔認識方法。
  11. 前記顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理する前に、前記方法は、
    任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定することと、
    前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することと、
    前記第2特徴及び前記第3特徴に従って、損失関数を取得することと、
    前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得することと、を含む、
    請求項10に記載の顔認識方法。
  12. 前記第2特徴及び前記第3特徴に従って、損失関数を取得することは、
    前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することと、
    前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することと、を含む、
    請求項11に記載の顔認識方法。
  13. 前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得することは、
    前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することと、
    前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値、及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することと、を含む、
    請求項12に記載の顔認識方法。
  14. 前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得することは、
    前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む、
    請求項13に記載の顔認識方法。
  15. 前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することは、
    前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得することを含む、
    請求項14に記載の顔認識方法。
  16. 前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである、
    請求項14又は15に記載の顔認識方法。
  17. 前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得することは、
    前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することと、
    前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することと、を含む、
    請求項12ないし16のいずれか一項に記載の顔認識方法。
  18. 前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定することは、
    前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得することを含む、
    請求項17に記載の顔認識方法。
  19. 前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定することは、
    前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定することを含む、
    請求項17又は18に記載の顔認識方法。
  20. 前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得することは、
    複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得することと、
    前記複数の第4特徴に従って、前記第2特徴を取得することと、を含む、
    請求項11ないし19のいずれか一項に記載の顔認識方法。
  21. 前記複数の第4特徴に従って、前記第2特徴を取得することは、
    前記複数の第4特徴の平均値を前記第2特徴として決定することを含む、
    請求項20に記載の顔認識方法。
  22. 前記第2特徴及び前記第2補正特徴に従って、損失関数を取得することは、
    前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定することを含む、
    請求項12ないし19のいずれか一項に記載の顔認識方法。
  23. 顔認識装置であって、
    認識される第1顔画像の第1目標パラメータ値を抽出するように構成される第1抽出モジュールと、
    前記第1顔画像に対して特徴抽出を実行して、前記第1顔画像に対応する第1特徴を取得するように構成される第2抽出モジュールと、
    前記第1特徴及び前記第1目標パラメータ値を処理して、前記第1特徴に対応する第1補正特徴を取得するように構成される処理モジュールと、
    前記第1補正特徴に基づいて、前記第1顔画像の顔認識結果を獲得するように構成される獲得モジュールと、を備える、前記顔認識装置。
  24. 前記獲得モジュールは、
    前記第1特徴を処理して、前記第1特徴に対応する第1残差特徴を獲得し、
    前記第1残差特徴、前記第1目標パラメータ値、及び前記第1特徴を処理して、前記第1特徴に対応する第1補正特徴を取得するように構成される、
    請求項23に記載の顔認識装置。
  25. 前記獲得モジュールは、
    前記第1特徴に対して完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される、
    請求項24に記載の顔認識装置。
  26. 前記獲得モジュールは、
    前記第1特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第1特徴に対応する第1残差特徴を獲得するように構成される、
    請求項25に記載の顔認識装置。
  27. 前記第1特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第1特徴の次元数と同じである、
    請求項25又は26に記載の顔認識装置。
  28. 前記獲得モジュールは、
    前記第1残差特徴及び前記第1目標パラメータ値に従って、前記第1特徴に対応する第1残差成分を決定し、
    前記第1残差顔及び前記第1特徴に従って、前記第1特徴に対応する第1補正特徴を決定するように構成される、
    請求項24ないし27のいずれか一項に記載の顔認識装置。
  29. 前記獲得モジュールは、
    前記第1残差特徴と前記第1目標パラメータ値の正規化値との積に従って、前記第1特徴に対応する第1残差成分を獲得するように構成される、
    請求項28に記載の顔認識装置。
  30. 前記獲得モジュールは、
    前記第1残差成分と前記第1特徴の和を、前記第1特徴に対応する第1補正特徴として決定するように構成される、
    請求項28又は29に記載の顔認識装置。
  31. 目標パラメータは、顔の角度、ぼかし度合い、又は遮蔽率を含む、
    請求項23ないし30のいずれか一項に記載の顔認識装置。
  32. 前記処理モジュールは、
    最適化された顔認識モデルにより前記第1特徴及び前記第1目標パラメータ値を処理するように構成される、
    請求項23ないし31のいずれか一項に記載の顔認識装置。
  33. 前記装置は、
    任意の目標対象の複数の顔画像に従って、目標パラメータ条件を満たす第2顔画像及び前記目標パラメータ条件を満たさない第3顔画像を決定するように構成される決定モジュールと、
    前記第2顔画像及び前記第3顔画像に対してそれぞれ特徴抽出を実行して、前記第2顔画像及び前記第3顔画像にそれぞれ対応する第2特徴及び第3特徴を取得するように構成される第3抽出モジュールと、
    前記第2特徴及び前記第3特徴に従って、損失関数を取得するように構成される取得モジュールと、
    前記損失関数に基づいて顔認識モデルに対して逆伝播を実行して、前記最適化された顔認識モデルを取得するように構成される最適化モジュールと、をさらに備える、
    請求項32に記載の顔認識装置。
  34. 前記取得モジュールは、
    前記顔認識モデルにより前記第3特徴及び前記第3顔画像の第2目標パラメータ値を処理して、前記第3特徴に対応する第2補正特徴を取得し、
    前記第2特徴及び前記第2補正特徴に従って、損失関数を取得するように構成される、
    請求項33に記載の顔認識装置。
  35. 前記取得モジュールは、
    前記顔認識モデルより前記第3特徴を処理して、前記第3特徴に対応する第2残差特徴を取得し、
    前記顔認識モデルにより前記第2残差特徴、前記第3顔画像の第2目標パラメータ値及び前記第3特徴を処理して、前記第3特徴に対応する第2補正特徴を取得するように構成される、
    請求項34に記載の顔認識装置。
  36. 前記取得モジュールは、
    前記顔認識モデルにより前記第3特徴に対して完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される、
    請求項35に記載の顔認識装置。
  37. 前記取得モジュールは、
    前記顔認識モデルにより前記第3特徴に対して1段または多段の完全接続処理とアクティブ化処理を実行して、前記第3特徴に対応する第2残差特徴を取得するように構成される、
    請求項36に記載の顔認識装置。
  38. 前記第3特徴に対して完全接続処理を実行して取得した特徴の次元数は、前記第3特徴の次元数と同じである、
    請求項36又は37に記載の顔認識装置。
  39. 前記取得モジュールは、
    前記顔認識モデルにより、前記第2残差特徴及び前記第2目標パラメータ値に従って、前記第3特徴に対応する第2残差成分を決定し、
    前記顔認識モデルにより、前記第2残差成分及び前記第3特徴に従って、前記第3特徴に対応する第2補正特徴を決定するように構成される、
    請求項34ないし38のいずれか一項に記載の顔認識装置。
  40. 前記取得モジュールは、
    前記顔認識モデルにより、前記第2残差特徴と前記第2目標パラメータ値の正規化値との積を決定して、前記第3特徴に対応する第2残差成分を取得するように構成される、
    請求項39に記載の顔認識装置。
  41. 前記取得モジュールは、
    前記顔認識モデルにより、前記第2残差成分と前記第3特徴の和を前記第3特徴に対応する第2補正特徴として決定するように構成される、
    請求項39又は40に記載の顔認識装置。
  42. 前記第3抽出モジュールは、
    複数の第2顔画像が存在する場合、前記複数の第2顔画像に対してそれぞれ特徴抽出を実行して、前記複数の第2顔画像に対応する複数の第4特徴を取得し、
    前記複数の第4特徴に従って、前記第2特徴を取得するように構成される、
    請求項33ないし41のいずれか一項に記載の顔認識装置。
  43. 前記第3抽出モジュールは、
    前記複数の第4特徴の平均値を前記第2特徴として決定するように構成される、
    請求項42に記載の顔認識装置。
  44. 前記取得モジュールは、
    前記第2補正特徴と前記第2特徴との差に従って、前記損失関数を決定するように構成される、
    請求項34ないし41のいずれか一項に記載の顔認識装置。
  45. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1ないし22のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
  46. コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行される時に、請求項1ないし22のいずれか一項に記載の方法を実現するように構成される、前記コンピュータ可読記憶媒体。
JP2020573403A 2019-10-31 2020-04-30 顔認識方法及び装置、電子機器、並びに記憶媒体 Active JP7150896B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911053929.XA CN110826463B (zh) 2019-10-31 2019-10-31 人脸识别方法及装置、电子设备和存储介质
CN201911053929.X 2019-10-31
PCT/CN2020/088384 WO2021082381A1 (zh) 2019-10-31 2020-04-30 人脸识别方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022508990A true JP2022508990A (ja) 2022-01-20
JP7150896B2 JP7150896B2 (ja) 2022-10-11

Family

ID=69551816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020573403A Active JP7150896B2 (ja) 2019-10-31 2020-04-30 顔認識方法及び装置、電子機器、並びに記憶媒体

Country Status (7)

Country Link
US (1) US20210326578A1 (ja)
JP (1) JP7150896B2 (ja)
KR (1) KR20210054522A (ja)
CN (1) CN110826463B (ja)
SG (1) SG11202107252WA (ja)
TW (1) TWI770531B (ja)
WO (1) WO2021082381A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826463B (zh) * 2019-10-31 2021-08-24 深圳市商汤科技有限公司 人脸识别方法及装置、电子设备和存储介质
CN112101216A (zh) * 2020-09-15 2020-12-18 百度在线网络技术(北京)有限公司 人脸识别方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229313A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 人脸识别方法和装置、电子设备和计算机程序及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101475684B1 (ko) * 2008-10-17 2014-12-23 삼성전자주식회사 디지털 영상 처리기에서 얼굴 영상 개선 장치 및 방법
CN106980831A (zh) * 2017-03-17 2017-07-25 中国人民解放军国防科学技术大学 基于自编码器的自亲缘关系识别方法
CN109753920B (zh) * 2018-12-29 2021-09-17 深圳市商汤科技有限公司 一种行人识别方法及装置
CN110163169A (zh) * 2019-05-27 2019-08-23 北京达佳互联信息技术有限公司 人脸识别方法、装置、电子设备及存储介质
CN110826463B (zh) * 2019-10-31 2021-08-24 深圳市商汤科技有限公司 人脸识别方法及装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229313A (zh) * 2017-11-28 2018-06-29 北京市商汤科技开发有限公司 人脸识别方法和装置、电子设备和计算机程序及存储介质

Also Published As

Publication number Publication date
JP7150896B2 (ja) 2022-10-11
US20210326578A1 (en) 2021-10-21
WO2021082381A1 (zh) 2021-05-06
TW202119281A (zh) 2021-05-16
SG11202107252WA (en) 2021-07-29
CN110826463B (zh) 2021-08-24
KR20210054522A (ko) 2021-05-13
TWI770531B (zh) 2022-07-11
CN110826463A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US11532180B2 (en) Image processing method and device and storage medium
CN110647834B (zh) 人脸和人手关联检测方法及装置、电子设备和存储介质
JP6986167B2 (ja) 画像生成方法および装置、電子機器並びに記憶媒体
CN109800737B (zh) 面部识别方法及装置、电子设备和存储介质
CN109522910B (zh) 关键点检测方法及装置、电子设备和存储介质
TWI766286B (zh) 圖像處理方法及圖像處理裝置、電子設備和電腦可讀儲存媒介
CN110889469B (zh) 图像处理方法及装置、电子设备和存储介质
CN107692997B (zh) 心率检测方法及装置
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
KR20210065178A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
KR20210065180A (ko) 이미지 처리 방법과 장치, 전자 기기 및 저장매체
JP7098763B2 (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
WO2022247103A1 (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
TW202032425A (zh) 圖像處理方法及裝置、電子設備和儲存介質
US20220188982A1 (en) Image reconstruction method and device, electronic device, and storage medium
JP2022508990A (ja) 顔認識方法及び装置、電子機器、並びに記憶媒体
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN113689362B (zh) 图像处理方法及装置、电子设备和存储介质
CN112651880B (zh) 视频数据处理方法及装置、电子设备和存储介质
US20220294989A1 (en) Method and apparatus for processing image
KR102374400B1 (ko) 이미지 처리 방법 및 장치, 전자 기기와 저장 매체
CN107992893B (zh) 压缩图像特征空间的方法及装置
CN111369456B (zh) 图像去噪方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220928

R150 Certificate of patent or registration of utility model

Ref document number: 7150896

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150