JP6855098B2 - 顔検出トレーニング方法、装置及び電子機器 - Google Patents

顔検出トレーニング方法、装置及び電子機器 Download PDF

Info

Publication number
JP6855098B2
JP6855098B2 JP2019525952A JP2019525952A JP6855098B2 JP 6855098 B2 JP6855098 B2 JP 6855098B2 JP 2019525952 A JP2019525952 A JP 2019525952A JP 2019525952 A JP2019525952 A JP 2019525952A JP 6855098 B2 JP6855098 B2 JP 6855098B2
Authority
JP
Japan
Prior art keywords
training sample
loss value
sample
training
face detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019525952A
Other languages
English (en)
Other versions
JP2020501238A (ja
Inventor
浩 王
浩 王
志鋒 李
志鋒 李
▲興▼ 季
▲興▼ 季
凡 ▲賈▼
凡 ▲賈▼
一同 王
一同 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2020501238A publication Critical patent/JP2020501238A/ja
Application granted granted Critical
Publication of JP6855098B2 publication Critical patent/JP6855098B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本出願は、2017年6月2日に中国特許庁に提出された、出願番号が「201710406726.9」であって、発明の名称が「顔検出器トレーニング方法、装置及び電子機器」である中国特許出願に基づく優先権を主張するものであり、その全内容を本出願に参照により援用する。
本発明は、画像処理技術分野に関し、具体的に、顔検出トレーニング方法、装置及び電子機器に関する。
顔検出は、顔検出器によって画像から顔を検出するための技術であり、顔検出のトレーニングが良いか悪いかは、顔の検出效果に影響を直接与えるので、顔検出のトレーニング処理をどのように最適化するかはずっと当業者による研究の焦点である。
ディープラーニングの発展に伴い、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)に基づく顔検出トレーニング、例えば、Faster RCNN(Faster Region-based Convolutional Neural Network)である畳み込みニューラルネットワークを使用して顔検出のトレーニングを行うことなどが顔検出の主流のトレーニング方法になり、CNNに基づく顔検出のトレーニング処理は主に、顔検出モデルを構築し、トレーニングサンプルによって反復のトレーニングを行って、各反復で顔検出モデルのネットワークパラメータを更新して、顔検出のトレーニング最適化を実現し、なお、各反復において顔検出モデルのネットワークパラメータを更新する処理は、顔検出の最適化処理とみなすことができる。
現在の顔検出の最適化目標は主に、顔と非顔との差異を最大化すること(即ち、クラス間の差異を最大化すること)であり、顔と顔との間の差異はあまり注目されていないので、異なるシーンで顔の変化に対処するときに顔検出は判別能力が低くロバスト性が悪い。
本発明の実施例は、この点に鑑み、顔検出の顔検出判別能力を向上させ、顔検出のロバスト性を向上させるために、顔検出トレーニング方法、装置及び電子機器を提供する。
上記の目的を達するために、本発明の実施例は以下のような技術的解決策を提供する。
顔検出トレーニング方法であって、
反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれることと、
各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定することと、
前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定することと、
前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定することと、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力することと、を含む。
本発明の実施例は顔検出トレーニング装置をさらに提供し、
今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれるサンプル取得モジュールと、
各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定するためのサンプル中心損失値確定モジュールと、
前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定するためのバッチサンプル中心損失値確定モジュールと、
少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定するための検出目標損失値確定モジュールと、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進むためのパラメータ更新モジュールと、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力するための検出出力モジュールと、を含む。
本発明の実施例は電子機器をさらに提供し、メモリとプロセッサーを含み、
前記メモリにはプログラムが記憶され、前記プロセッサーは前記プログラムを呼び出して、前記プログラムにより、
今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれ、
各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、
前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定し、
少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進み、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出の検出結果を出力する。
本発明の実施例はコンピュータ可読記憶媒体をさらに提供し、命令を含み、当該命令がコンピュータで実行される時に、コンピュータに第1の態様に記載された方法を実行させる。
本発明の実施例は、命令が含まれるコンピュータプログラム製品をさらに提供し、それがコンピュータで実行されるときに、コンピュータに第1の態様に記載された方法を実行させる。
上記の技術的解決策によれば、本発明の実施例によって提供される顔検出トレーニング手順は、以下のことを含むことができ、今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれ、各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定し、少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、顔検出の目標損失値が設定されたトレーニング収束条件に達するまで、前記顔検出の目標損失値に基づき、顔検出モデルにおけるネットワークパラメータを更新して、次回の反復に進み、前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出を出力して、顔検出のトレーニングが完了する。
本発明の実施例では、顔検出のトレーニング最適化目標に、バッチデータトレーニングサンプルに対応する中心損失値を組み合わせることで、顔検出は、顔と顔との間のクラス内の差異に対して不変性を有することができるので、バッチデータトレーニングサンプルに対応する中心損失値を組み合わせて顔検出の最適化トレーニングを行うことで、最適化トレーニングされた顔検出は、顔のクラス内の差異に対して不変性を有し、顔及び非顔に対して高いクラス間検出性能を保証することが可能になり、顔検出のロバスト性を向上させることができる。
本発明の実施例又は従来の技術における技術的解決策をより明確に説明するために、以下、実施例又は従来技術の説明で使用される図面について簡単に説明する。明らかなように、以下の説明における図面は本発明の実施形態にすぎない。当業者にとって、創造的な労力なしに提供された図面から他の図面もまた得られる。
顔検出モデルの構成である。 顔検出モデルの他の構成である。 電子機器のハードウェア構成のブロック図である。 本発明の実施例によって提供される顔検出トレーニング方法のフローチャートである。 顔検出モデルに基づく顔検出トレーニングの概略図である。 顔枠座標回帰損失値の確定方法のフローチャートである。 バッチデータトレーニングサンプルの取得方法のフローチャートである。 本発明の実施例によって提供される顔検出トレーニング装置の構成ブロック図である。 本発明の実施例によって提供される顔検出トレーニング装置の他の構成ブロック図である。 本発明の実施例によって提供される顔検出トレーニング装置の別の構成ブロック図である。
本発明の実施例における添付の図面を参照しながら、本発明の実施例における技術的解決策を以下に明確かつ完全に説明する。説明される実施例は本発明の一部の実施例にすぎず、全ての実施例ではないことは明らかである。創造的な努力なしに本発明における実施例に基づいて当業者によって得られた他の全ての実施例は、本発明の保護範囲内に属する。
本発明の実施例は、CNNに基づいて構築された選択可能の顔検出モデルであって、図1に示すように、基本ネットワーク層、候補枠予測層、及び顔検出層を含む。
その中、基本ネットワーク層は、一連の畳み込み層(Convolution)とプーリング層(Pooling)によって順次に接続されてなるサブネットワークとすることができ、基本ネットワーク層は一連の畳み込み層によって、各トレーニングサンプル(トレーニングサンプルは画像形態のサンプルであってもよい)に対して層ごとの畳み込み処理を行うことができ、その中、次の畳み込み層は、前の畳み込み層が出力する畳み込み処理結果を畳み込み処理し、ここで、多層の畳み込み層によって処理される画像特徴において、浅い層の特徴は、リッチエッジコーナー、テクスチャ構造などの特徴を表すことができ、深い層の特徴は、浅い層の特徴に基づくさらなる抽象マッピングであり、多層の畳み込み層の層ごとの畳み込み処理によって、異なる層の画像特徴の抽出を実現することができ、各トレーニングサンプルに対して、基本ネットワーク層が出力するのは最後の層の畳み込み層によって畳み込み処理された特徴マップ(Feature map)であり、その特徴マップは画像特徴の一つの表現である。
候補枠予測層は、基本ネットワーク層によって出力された画像特徴上で構築されたフル畳み込み構造のサブネットワークであってもよく、候補枠予測層は、畳み込み層によって各トレーニングサンプルの特徴をマッピングすることができ、これにより、マッピングされたノードによって候補枠分類器及び候補枠回帰器を構築して、候補枠検出を形成し、候補枠分類器を使用して候補枠(Proposals)の確率予測を行うことができ、候補枠回帰器を使用して候補枠の座標予測を行うことができ、これにより、候補枠(Proposals)を出力し、候補枠予測層が出力した候補枠は顔検出層に入力することができる。
顔検出層は、基本ネットワーク層が出力する画像特徴及び候補枠予測層が出力する候補枠に基づいて構築された注目領域プーリング層(RoI Pooling)を含むサブネットワークであってもよく、各トレーニングサンプルに対して、顔検出層は、候補枠(Proposals)に基づいて、基本ネットワーク層が出力するトレーニングサンプルの画像特徴に対して次元削減サンプリングを行って、固定サイズの特徴マップを取得して、特徴マップにおける全てのノードを固定長の特徴ベクトルにマッピングすることができ、これにより、各トレーニングサンプルの特徴ベクトルが得られ、各トレーニングサンプルの特徴ベクトルに基づいて、顔分類器及び顔回帰器を構築し、顔分類器と顔回帰器は組み合わせて顔検出を構成し、その中、顔分類器は顔及び非顔の確率を予測することができ、顔回帰器は、候補枠に基づいて顔枠のより正確的な座標回帰を行うことができる。
さらに、図1に示す顔検出モデルのさらなる選択可能の細分化は、Faster RCNNに基づく顔検出モデルによって実現することができ、Faster RCNNは顔検出のための典型的なアルゴリズムであり、RPN(Region Proposal Networks)層とFast RCNN層に分けられ、RPN層は、候補枠を生成し、Fast RCNN層は、候補枠に基づいて、最終的試験結果を得ることができる。
図2に示すように、Faster RCNNに基づく顔検出モデルは、基本ネットワーク層、RPN層、Fast RCNN層を含むことができ、その中、RPN層は、候補枠予測層の選択可能実現と考えることができ、Fast RCNN層は、顔検出層の選択可能実現と考えることができる。
本発明の実施例では、RPN層の目標は、基本ネットワーク層が出力する画像特徴に基づいて候補枠を生成することであり、この過程では、本発明の実施例は、複数のアンカー枠を予め定義することができ、当該複数のアンカー枠は、異なる縮尺とアスペクト比をカバーし、当該予め定義された複数のアンカー枠によって、トレーニングサンプルにおけるサブ枠を確定し、当該サブ枠によって、候補枠を予測することができる(例えば、当該サブ枠を利用して候補枠検出をトレーニングすることで、候補枠検出によって候補枠の予測を行うことができる)。
また、アンカー枠は、RPN層の内側であり、候補枠(Proposal)の分類器及び回帰器を定義及び構築するために使用されてもよい。RPNは候補枠検出である。具体的には、各アンカー枠は、それぞれ検出(分類と回帰)に関連付けられ、分類と回帰は、トレーニングと学習のための予測値と目標値を必要とする。RPNでは、分類目標値の確定(つまり、如何にこの出力がポジティブクラスかネガティブクラスかを定義する方法)はアンカー枠と実枠との間の重なり率に基づく。同様に、Fast RCNNでは、分類目標値の確定は候補枠と実枠との重なり率に基づく。そのため、RPNが使用するアンカー枠とFast RCNNが使用する候補枠は、分類器を構築するときに類似の作用があり、アンカー枠は候補枠の候補枠とみなすことができる。RPNは画像特徴の畳み込み処理された後の各ノードに対して複数の候補枠検出を構築することができる(各候補枠検出が一つのアンカー枠に関連付けられる)。
Fast RCNN層の目標は、候補枠と基本ネットワーク層が出力する画像特徴に基づいて、トレーニングサンプルの特徴ベクトルを生成することであり、これにより、トレーニングサンプルの特徴ベクトルで顔分類器及び顔回帰器を構築し、顔分類器及び顔回帰器は組み合わせて顔検出を構成する。
顔検出により良い検出効果を持たせるために、確率勾配降下アルゴリズム(Stochastic Gradient Descent、SGD)などのモデル最適化アルゴリズムによって、反復トレーニングを行うことができ、各反復において、トレーニングサンプル集合からバッチデータトレーニングサンプルを選択することによってトレーニングを行い、次に、毎回の反復において、顔検出の最適化目標が達成されたかどうかに応じて、顔検出モデルのネットワークパラメータを更新する。
現在、主に、顔と非顔との差異を最大化することを顔検出の最適化目標としており、顔と顔との間の異なる場面での顔の変化の差異を無視し、例えば、異なる撮影角度、解像度、照明条件、表情の変化及びオクルージョンなどの場面での顔の変化の差異が無視され、トレーニングされた顔検出の判別能力が弱くなり、ロバスト性が悪くなる。例えば、クラス内の顔と顔(例えば、光があるか、ないか)の差異が大きすぎると、異なるクラスとして判断されるが、実際には同じクラスであり、そのため、本発明の実施例は、クラス内の差異をできるだけ小さくして、顔検出がクラス内の差異に対して不変性を有することを保証する必要がある。
これに基づいて、本発明の実施例は、顔検出の反復トレーニング最適化処理を改善して、新しい顔検出トレーニング方法を提出し、これにより、顔検出が顔と顔との間のクラス内の差異を低減しながら、顔及び非顔に対して高い検出性能を有することを保証し、顔検出の判別能力を向上させる。
本発明の実施例によって提供される顔検出トレーニング方法は、プログラムの形態によって顔検出トレーニングを実施するための電子機器にロードすることができ、当該電子機器は、ネットワーク側のサーバーであってもよいし、ユーザー側のパーソナルコンピュータ(Personal Computer、PC)などの端末装置であってもよく、当該電子機器の形態は、顔検出の実際のトレーニングニーズに応じて決定することができる。
また、顔検出トレーニングを実施するための電子機器のハードウェア構成は図3に示すように、少なくとも1つのプロセッサー1、少なくとも1つの通信インターフェース2、少なくとも1つのメモリ3、及び少なくとも1つの通信バス4を含むことができる。
本発明の実施例では、プロセッサー1、通信インターフェース2、メモリ3、通信バス4の数は少なくとも1つであり、且つ、プロセッサー1、通信インターフェース2、メモリ3は通信バス4を介して互いの通信を完成し、明らかに、図3に示すプロセッサー1、通信インターフェース2、メモリ3、及び通信バス4の通信接続は単なるオプションである。
また、通信インターフェース2は、GSM(登録商標)モジュールのインターフェースなどの通信モジュールのインターフェースであってもよく、
プロセッサー1は、中央処理装置CPU、又は特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、又は本発明の実施例を実施するように構成された1つ又は複数の集積回路とすることができる。
メモリ3は、高速RAMメモリを含むことができ、例えば、少なくとも1つの磁気ディスクメモリのような不揮発性メモリ(non-volatile memory、NVM)も含むことができる。
なお、メモリ3にはプログラムが記憶され、プロセッサー1はメモリ3に記憶されたプログラムを呼び出して、当該プログラムは、本発明の実施例によって提供される顔検出トレーニング方法を実行する。
本発明の実施例は、確率勾配降下アルゴリズム(Stochastic Gradient Descent、SGD)などのモデル最適化アルゴリズムによって顔検出の反復トレーニングを行うことができ、SGDはよく使用されている畳み込みニューラルネットワーク最適化アルゴリズムであり、大規模な機械学習問題を解決するのに効果的であり、SGDは、毎回の反復で、トレーニングサンプル集合からランダムに抽出されたバッチデータトレーニングサンプル(Minibatch)を使用して勾配降下最適化を行う。
一回の反復に係る顔検出トレーニングを例として、本発明の実施例によって提供される顔検出トレーニング方法のフローは図4に示すようであり、毎回の反復に係る顔検出トレーニングのフローは図4を参照することができる。図4を参照すると、本発明の実施例によって提供される顔検出トレーニング方法は、以下を含むことができる。
ステップS100、今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれる。
また、バッチデータトレーニングサンプル(Minibatch)は、全てのトレーニングサンプルが含まれたトレーニングサンプル集合から抽出されてもよい。
顔検出は、2つのカテゴリのタスク(顔と非顔)を実現すると考えることができ、毎回の反復において、トレーニングサンプル集合から複数の顔画像をポジティブクラスのトレーニングサンプルとして取得し、複数の非顔画像をネガティブクラスのトレーニングサンプルとして取得し、取得したポジティブクラスのトレーニングサンプルとネガティブクラスのトレーニングサンプルで、毎回の反復のバッチデータトレーニングサンプルを構成することができる。
それに対応して、今回の反復で使用されるバッチデータトレーニングサンプルは、複数のトレーニングサンプルを含むことができ、当該複数のトレーニングサンプルのサンプルクラスはポジティブクラス(即ち、顔画像をポジティブクラスとするトレーニングサンプルに対応する)及びネガティブクラス(即ち、非顔画像をネガティブクラスとするトレーニングサンプルに対応する)に分類できる。
ステップS110、各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定する。
前記バッチデータトレーニングサンプルにおける一つのトレーニングサンプルについて、本発明の実施例は、当該トレーニングサンプルの特徴ベクトル、及び当該トレーニングサンプルが属するサンプルクラスの前記バッチデータトレーニングサンプルにおける対応する中心特徴ベクトルを確定することができ、これによって、当該トレーニングサンプルに対応する中心損失値を確定することができ、この処理は、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対して行われ、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する中心損失値を取得する。
また、前記バッチデータトレーニングサンプルにおける一つのサンプルクラスの中心特徴ベクトルは、今回の反復で前記バッチデータトレーニングサンプルのうち当該サンプルクラスに属するトレーニングサンプルの特徴ベクトルの平均値に対応して更新できてもよい。
また、一つのサンプルクラスについて、本発明の実施例は、前記バッチデータトレーニングサンプルにおける当該サンプルクラスに属する各トレーニングサンプルを確定し、前記バッチデータトレーニングサンプルのうち当該サンプルクラスに属する各トレーニングサンプルの特徴ベクトルに基づき、当該サンプルクラスに属する各トレーニングサンプルの特徴ベクトルの平均値を確定して、前記バッチデータトレーニングサンプルのうち当該サンプルクラスの中心特徴ベクトルの更新変数を取得し、前記更新変数と設定された学習率に基づき、前記バッチデータトレーニングサンプルにおける当該サンプルクラスの中心特徴ベクトルを取得して、これにより、前記バッチデータトレーニングサンプルにおける一つのサンプルクラスの各トレーニングサンプルの特徴ベクトルの平均値に基づき、当該サンプルクラスの中心特徴ベクトルを更新することが実現されてもよい。
また、本発明の実施例は以下のような式によってバッチデータトレーニングサンプルにおける一つのサンプルクラスの中心特徴ベクトルを確定することができる。
Figure 0006855098
その中、
Figure 0006855098
は設定された学習率を表し、
Figure 0006855098
は更新変数を表し、
Figure 0006855098
はt回目の反復でj番目のサンプルクラスによって使用されるバッチデータトレーニングサンプルに対応する中心特徴ベクトルを表し、
Figure 0006855098
はt+1回目の反復でj番目のサンプルクラスによって使用されるバッチデータトレーニングサンプルに対応する中心特徴ベクトルを表す。
即ち、一つのサンプルクラスについて、本発明の実施例は、前回の反復においてバッチデータトレーニングサンプルの当該サンプルクラスにおいて対応する中心特徴ベクトルから、前記更新変数と設定された学習率との積を減算して、今回の反復においてバッチデータトレーニングサンプルの当該サンプルクラスにおいて対応する中心特徴ベクトルを取得してもよい。
また、前記バッチデータトレーニングサンプルにおけるポジティブクラスのサンプルクラスについて、本発明の実施例は、前記バッチデータトレーニングサンプルのうちポジティブクラスに属する各トレーニングサンプルの特徴ベクトルを確定し、ポジティブクラスに属する各トレーニングサンプルの特徴ベクトルの平均値を確定することで、ポジティブクラスのサンプルクラスの中心特徴ベクトルを更新することができ、それに対応して、前記バッチデータトレーニングサンプルにおけるネガティブクラスのサンプルクラスについて、本発明の実施例は前記バッチデータトレーニングサンプルのうちネガティブクラスに属する各トレーニングサンプルの特徴ベクトルを確定し、ネガティブクラスに属する各トレーニングサンプルの特徴ベクトルの平均値を確定することで、ネガティブクラスのサンプルクラスの中心特徴ベクトルを更新することができる。
また、さらに、前記バッチデータトレーニングサンプルのうちポジティブクラスの各トレーニングサンプルについて、本発明の実施例は、ポジティブクラスの各トレーニングサンプルの特徴ベクトルと、ポジティブクラスのサンプルクラスの中心特徴ベクトルとに基づき、ポジティブクラスの各トレーニングサンプルに対応する中心損失値を確定することができ、前記バッチデータトレーニングサンプルのうちネガティブクラスの各トレーニングサンプルについて、本発明の実施例はネガティブクラスの各トレーニングサンプルの特徴ベクトルと、ネガティブクラスのサンプルクラスの中心特徴ベクトルとに基づき、ネガティブクラスの各トレーニングサンプルに対応する中心損失値を確定することができる。
また、一つのトレーニングサンプルの中心損失値は、当該トレーニングサンプルの特徴ベクトルと、当該トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルとの距離によって表されてもよく、xはバッチデータトレーニングサンプルのうちi番目のトレーニングサンプルを表し、yはxが属するサンプルクラスを表し(y=1がポジティブクラスを表し、y=0がネガティブクラスを表すように設定することができ、勿論、y=0がネガティブクラスを表し、y=1がポジティブクラスを表すように設定することができ、ポジティブクラスとネガティブクラスに対応するy値が異なればよい)、cyiはxが属するサンプルクラスyの中心特徴ベクトルを表すと仮定すると、xサンプルの中心損失値は
Figure 0006855098
として定義できる 。
なお、一つのトレーニングサンプルの特徴ベクトルの確定処理は、基本ネットワーク層がトレーニングサンプルの画像特徴を出力した後、顔検出層が候補枠(Proposals)に基づいてトレーニングサンプルにおける注目領域を確定して、顔検出層がトレーニングサンプルの注目領域の画像特徴に対して次元削減サンプリングを行い、固定サイズの特徴マップを取得し、特徴マップにおける全てのノードを接続して、固定長の特徴ベクトルにマッピングして、トレーニングサンプルの特徴ベクトルを取得してもよい。
ステップS120、前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定する。
また、本発明の実施例は、各トレーニングサンプルに対応する中心損失値に基づき、各トレーニングサンプルに対応する中心損失値の平均値を確定し、各トレーニングサンプルに対応する中心損失値の平均値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定してもよい。
また、本発明の実施例は、各トレーニングサンプルに対応する中心損失値の平均値をそのまま前記バッチデータトレーニングサンプルに対応する中心損失値として使用してもよく、各トレーニングサンプルに対応する中心損失値の平均値を設定数値(例えば、1/2)に乗算して、前記バッチデータトレーニングサンプルに対応する中心損失値を取得してもよい。
バッチデータトレーニングサンプルにm個のトレーニングサンプルがあると仮定すると、バッチデータトレーニングサンプルに対応する中心損失値は、
Figure 0006855098
として表すことができる。
ステップS130、少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定する。
顔検出の目標損失値は、顔検出反復トレーニング処理における最適化目標の表現であり、目標損失値が設定されたトレーニング収束条件(例えば、最小)に達すると、反復トレーニングは終了して、顔検出を出力することができ、毎回の反復では、本発明の実施例は、本発明の実施例の顔検出の最適化目標として、既存の顔検出の最適化目標を、使用するバッチデータトレーニングサンプルに対応する中心損失値と組み合わせて、顔検出の目標損失値を取得する。
また、本発明の実施例は、前記バッチデータトレーニングサンプルに対応する中心損失値、前記バッチデータトレーニングサンプルに対応する分類損失値、及び前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値に基づき、顔検出の目標損失値を確定してもよい。
その中、バッチデータトレーニングサンプルに対応する分類損失値は、バッチデータトレーニングサンプルにおける各トレーニングサンプルの分類予測確率と分類目標確率(分類の真の確率)との差に基づき確定できる。
本発明の実施例は、バッチデータトレーニングサンプルの各トレーニングサンプルについて、トレーニングサンプルの特徴ベクトルを取得した後、Softmax関数などを使用して、当該トレーニングサンプルが属するサンプルクラスを予測し、当該トレーニングサンプルの分類予測確率を取得することができ、当該トレーニングサンプルの分類予測確率と当該トレーニングサンプルの真の分類目標確率に基づき、当該トレーニングサンプルに対応する分類損失値(例えば、当該トレーニングサンプルの分類予測確率と分類目標確率との差)を確定することができ、バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値に基づき、バッチデータトレーニングサンプルに対応する分類損失値を確定することができる(例えば、各トレーニングサンプルの分類損失値の平均値を取るなど)。
これにより分かるように、バッチデータトレーニングサンプルに対応する分類損失値は、顔検出が顔と非顔とのクラス間を分類する指標であり、バッチデータトレーニングサンプルに対応する分類損失値は、顔と非顔との間の差異(クラス間の差異)を表すことができ、バッチデータトレーニングサンプルに対応する分類損失値を顔検出の最適化目標の部分として使用して、最適化された顔検出が、顔と非顔とのクラス間の区別に対して高い性能を持つようにすることができる。
これに基づいて、バッチデータトレーニングサンプルに対応する中心損失値は、トレーニングサンプルの特徴ベクトルとトレーニングサンプルが属するサンプルクラスの中心特徴ベクトルとの距離を表し、そのため、バッチデータトレーニングサンプルに対応する中心損失値は、トレーニングサンプルの特徴ベクトルとそれが属するサンプルクラスの中心特徴ベクトルとの差異を説明することができ、各サンプルクラスのうちトレーニングサンプルのクラス内の特徴ベクトル差異を表すことができ、そのため、バッチデータトレーニングサンプルに対応する中心損失値を顔検出の最適化目標の部分として使用し、最適化された顔検出は、顔のクラス内の差異(例えば、異なる場面での顔と顔との間のクラス内の差異)に対して不変性を有し、顔検出のロバスト性を向上させることができる。
また、顔検出のトレーニングは、分類トレーニングと回帰トレーニングを含むことができ、共同トレーニングの過程であり、1回の反復においてバッチデータトレーニングサンプルに対応する中心損失値と分類損失値によって構成される損失値は、分類トレーニングの最適化目標とみなすことができ、顔検出トレーニングにおける分類トレーニングの最適化目標として、例えば、バッチデータトレーニングサンプルに対応する中心損失値和と類損失値によって構成される損失値を最小にしてもよい。
毎回の反復において、顔検出トレーニングにおける回帰トレーニングの最適化目標は、バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値によって構成できる。
1回の反復におけるバッチデータトレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値を組み合わせることによって、顔検出の目標損失値を形成して、顔検出トレーニングの最適化目標を表すことができる。
また、本発明の実施例は、前記バッチデータトレーニングサンプルに対応する中心損失値と第1の設定重みとの積、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値と第2の設定重みとの積、及び、前記バッチデータトレーニングサンプルに対応する分類損失値を合計して、顔検出の目標損失値を取得することができる。
clsがバッチデータトレーニングサンプルに対応する分類損失値を表し、Lがバッチデータトレーニングサンプルに対応する中心損失値を表すと仮定すると、顔検出の目標損失値は、Lcls+μL+λLregとして表し、μとλは、設定重み係数を表し、その中、μは第1の設定重みであり、λは第2の設定重みである。
また、本発明の実施例は、前記バッチデータトレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値を直接合計して、顔検出の目標損失値を取得してもよい。
ステップS140、前記顔検出の目標損失値が設定されたトレーニング収束条件に達するかどうかを判断し、そうでなければ、ステップS150を実行し、そうであれば、ステップS160を実行する。
また、設定されたトレーニング収束条件は、顔検出の目標損失値を最小にするとみなすことができる。
具体的に、バッチデータトレーニングサンプルに対応する分類損失値が小さいほど、顔と非顔の分類に対する顔検出の效果がよく、顔検出は、顔と非顔の差異区別を最大化する(即ち、クラス間の差異を最大化する)ことができ、バッチデータトレーニングサンプルに対応する中心損失値が小さいほど、各サンプルクラスにおけるトレーニングサンプルのクラス内の特徴ベクトルの差異が小さく、同じサンプルクラスのトレーニングサンプルの差異を減らして、サンプルクラスにおける顔と顔との間の差異をさらに低下することができ、即ち、反復トレーニングによって、バッチデータトレーニングサンプルの各トレーニングサンプルの特徴ベクトルと当該トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルとの距離が最小化される。
これにより分かるように、バッチデータトレーニングサンプルに対応する中心損失値を組み合わせることによって、顔検出の目標損失値を確定し、それによって、顔検出の目標損失値でトレーニング収束条件を判断するので、顔検出は、最小化されたバッチデータトレーニングサンプルに対応する中心損失値の場合に、顔検出が顔のクラス内の差異(例えば、異なる場面での顔と顔との間のクラス内の差異)に対して不変性を有することを保証して、顔検出のロバスト性を向上させることができる。
ステップS150、前記顔検出の目標損失値に基づき、顔検出モデルにおける顔検出に関連するネットワークパラメータを更新して、次回の反復に進み、ステップS100に戻る。
また、顔検出の目標損失値が設定されたトレーニング収束条件に達していない(例えば、顔検出の目標損失値が最小に達していない)と、本発明の実施例は、前記顔検出の目標損失値に基づき、顔検出モデルにおけるネットワークパラメータを更新することができ、また、反復トレーニングのフローに従って次回の反復を行い、ステップS100に戻り、ステップS140の判断結果、顔検出の目標損失値が設定されたトレーニング収束条件に達するまで、ネットワークパラメータが更新された顔検出モデルでステップS100からステップS140を繰り返して実行してもよい。
また、本発明の実施例は、確率勾配降下法によって次回の反復に進み、ステップS100に戻ってもよい。
ステップS160、顔検出を出力する。
また、顔検出の目標損失値が設定されたトレーニング収束条件に達する(例えば、顔検出の目標損失値が最小化される)と、顔検出モデルトレーニングによって得られた顔検出を出力することができ、顔検出の反復トレーニング最適化処理を完成してもよい。
本発明の実施例によって提供される顔検出トレーニングのフローは以下のことを含むことができ、即ち、今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれ、各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定し、少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、顔検出の目標損失値が設定されたトレーニング収束条件に達するまで、前記顔検出の目標損失値に基づき、顔検出モデルにおけるネットワークパラメータを更新して、次回の反復に進み、前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出を出力することができ、顔検出のトレーニングを完成する。
本発明の実施例では、顔検出のトレーニング最適化目標に、バッチデータトレーニングサンプルに対応する中心損失値を組み合わせ、これにより、顔検出は、顔と顔との間のクラス内の差異に対して不変性を有することが可能になるので、バッチデータトレーニングサンプルに対応する中心損失値を組み合わせて顔検出の最適化トレーニングを行うことによって、最適化トレーニングされた顔検出は、顔のクラス内の差異に対して不変性を有しながら、顔及び非顔に対して高いクラス間検出性能を保証することが可能になり、顔検出のロバスト性を向上させることができる。
また、本発明の実施例は、顔検出の目標損失値に基づき、顔検出モデルにおけるネットワークパラメータを更新するときに、顔検出の目標損失値に基づき、バックプロパゲーションにより、顔検出モデルにおけるネットワークパラメータを更新してもよい。
また、本発明の実施例は、前記顔検出の目標損失値、及び前回の反復の顔検出モデルにおけるネットワークパラメータに基づき、顔検出のパラメータ更新値を確定することで、当該顔検出のパラメータ更新値に基づき、前回の反復の顔検出モデルにおけるネットワークパラメータを更新してもよい。
また、顔検出の目標損失値がLossであって、Loss=Lls+μL+λLregであり、前回反復された顔検出モデルにおけるネットワークパラメータはW1であると仮定すると、顔検出のパラメータ更新値は、
Figure 0006855098
として表すことができる。
顔検出のパラメータ更新値に基づき、前回反復された顔検出モデルにおけるネットワークパラメータを更新することは次の式によって実現することができる。
Figure 0006855098
その中、W2は更新された顔検出モデルのネットワークパラメータであり、kは動量であり、
Figure 0006855098
は学習率であり、sは重みの減衰係数である。
また、本発明の実施例は、図5に示すように、顔検出層(例えば、Fast RCNN層)に中心損失関数(Center Loss)を設置することができ、当該中心損失関数は、顔検出層の完全接続特徴表現層に適用することができ、当該完全接続徴表現層は、各トレーニングサンプルの特徴ベクトルを得るように、完全接続の形で特徴マップにおける全てのノードを接続して、固定長の特徴ベクトルにマッピングすることができ、これにより、毎回の反復トレーニングにおいて、中心損失関数は今回の反復で使用されるバッチデータトレーニングサンプルの各トレーニングサンプルの特徴ベクトルに基づき、バッチデータトレーニングサンプルの各トレーニングサンプルに対応する中心損失値を確定し、バッチデータトレーニングサンプルに対応する中心損失値Lcを対応して確定してもよい。
同時に、顔検出層(例えば、Fast RCNN層)にSoftmax関数を設置することができ、Softmax関数は顔検出層の完全接続特徴表現層に適用することができ、反復トレーニングの毎回のトレーニングにおいて、Softmax関数は各トレーニングサンプルの特徴ベクトルを処理して、各トレーニングサンプルの分類予測確率を確定することができ、さらに、Softmax Loss(分類損失関数)によってトレーニングサンプルの分類予測確率と分類目標確率(分類の真の確率)との差を表し、且つ、バッチデータトレーニングサンプルに対応する分類損失値Lclsを確定する。
即ち、Softmax関数の入力はトレーニングサンプルの特徴ベクトルであり、出力はトレーニングサンプルの各サンプルクラスに属する予測確率であり、Softmax Loss(分類損失関数)の入力はトレーニングサンプルのp(分類予測確率)とp*(分類目標確率)であり、 出力は損失値(Loss)であり、Lossが小さいほど、分類がより正確であることを表す。本発明の実施例では、Center LossとSoftmax Lossは同じ層(即ち、入力する特徴ベクトルが同じである)に作用し、Center Lossは顔検出の最適化の補助監視信号として使用され、Center Lossが小さいほど、顔検出で検出されたクラス内の特徴の差異が小さいことを表し、Softmax Lossは顔検出で検出されたクラス間の特徴を互いに分離させ、クラス間の判別可能な差異を保証する。
また、さらに、本発明の実施例では、顔検出層(例えば、Fast RCNN層)に顔枠回帰予測関数SmoothL1(平滑化ノルム関数)を設置することができ、SmoothL1によって、候補枠に基づいて、バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する顔枠予測座標を確定し、さらに、SmoothL1 Lossによって各トレーニングサンプルに対応する顔枠座標回帰損失値を確定し、その入力はトレーニングサンプルに対応する顔枠予測座標と顔枠目標座標であり、出力は損失値(Loss)であり、次に、バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値Lregを確定する。
また、本発明の実施例は、顔検出の目標損失値Loss=Lls+μL+λLregを確定し、目標損失値Lossが最小になるまで、毎回の反復で得られた目標損失値Lossによって、顔検出モデルにおけるネットワークパラメータを更新してもよい。
また、1回の反復におけるバッチデータトレーニングサンプルに対応する分類損失値の確定処理は、以下のようである。
バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類予測確率と分類目標確率に基づき、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値を確定し、
前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値に基づき、前記バッチデータトレーニングサンプルに対応する分類損失値を確定することができる。
また、1回の反復におけるバッチデータトレーニングサンプルに対応する顔枠座標回帰損失値の確定処理は、図6に示すように、以下のことを含むことができる。
ステップS200、候補枠に基づき、バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する顔枠予測座標を確定する。
また、本発明の実施例は、候補枠予測層が出力する候補枠に基づき、今回の反復におけるバッチデータトレーニングサンプルの各トレーニングサンプルの注目領域を確定して、各トレーニングサンプルに対応する顔枠予測座標を得ることができ、トレーニングサンプルの顔枠予測座標は、左上頂点の横座標、左上頂点の縦座標、右下頂点の横座標、右下頂点の縦座標などによって表すことができる。
また、本発明の実施例は、顔検出層(例えば、Fast RCNN層)に顔枠回帰予測関数SmoothL1(平滑化ノルム関数)を設置し、SmoothL1によって、候補枠に基づいて、各トレーニングサンプルに対応する顔枠予測座標を確定してもよい。
ステップS210、各トレーニングサンプルに対応する顔枠予測座標、及び各トレーニングサンプルに対応する顔枠目標座標に基づき、各トレーニングサンプルに対応する顔枠座標回帰損失値を確定する。
また、トレーニングサンプルに対応する顔枠目標座標は、トレーニングサンプルにおける顔枠に真に対応する座標であってもよく、各トレーニングサンプルについて、本発明の実施例は、当該トレーニングサンプルに対応する顔枠予測座標及び顔枠目標座標の差によって、当該トレーニングサンプルに対応する顔枠座標回帰損失値を確定することができるので、各トレーニングサンプルに対してこの処理を行うことによって、各トレーニングサンプルに対応する顔枠座標回帰損失値を得ることができる。
また、本発明の実施例は、SmoothL1 Lossによって顔枠座標回帰損失値を表すことができ、その入力はトレーニングサンプルに対応する顔枠予測座標と顔枠目標座標であり、出力は損失値(Loss)であり、Lossが小さいほど、顔枠の回帰はより正確であることを表す。
ステップS220、各トレーニングサンプルに対応する顔枠座標回帰損失値に基づき、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値を確定する。
また、本発明の実施例は、バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する顔枠座標回帰損失値に基づき、各トレーニングサンプルに対応する顔枠座標回帰損失値の平均値を確定し、当該平均値に基づき、バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値(SmoothL1 Loss)を確定してもよい。
また、本発明の実施例では、顔検出反復トレーニングを行う処理は、顔分類及び回帰の2つの共同タスクが含まれる多損失関数共同トレーニングを使用し、分類トレーニングはCenter LossとSoftmax Lossを使用して共同で最適化し、回帰トレーニングはSmoothL1 Lossを使用して最適化し、顔検出の最終的な最適化目標は、バッチデータトレーニングサンプルに対応するCenter Loss、Softmax Loss、及びSmoothL1 Lossの3つの損失値の加重合計が最小になることである。
また、本発明の実施例は、一般的な大規模顔識別タスク(ImageNet)における事前トレーニング済みモデルを微調整し(Finetuning)、中心損失値を顔検出の補助最適化目標として導入することによって、顔検出モデルの最適化及びトレーニングを指導し、顔と顔との間のクラス内の差異に対する顔検出の判別能力を向上させてもよい。
また、反復トレーニングの処理では、本発明の実施例は、前回の反復の顔検出モデルに基づいて、トレーニングサンプル集合における顔検出で検出されにくいトレーニングサンプルを確定し、次回の反復で使用されるバッチデータトレーニングサンプルを確定して、これらの検出が困難なトレーニングサンプルに対する顔検出の検出能力を向上し、トレーニングサンプルが検出されにくいどうかは、トレーニングサンプルに対応する目標損失値を測定することによって確定することができ、目標損失値が高いほど、トレーニングサンプルは最適化目標から遠く、検出の難しさはさらに大きいことを説明する。
それに対応して、図7は、本発明の実施例によって提供される、今回の反復のバッチデータトレーニングサンプルを取得する方法のフローチャートを示し、図7を参照すると、当該方法は、以下のことを含むことができる。
ステップS300、前回の反復の顔検出モデルを固定し、前回の反復の顔検出モデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値を取得する。
ステップS310、トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値に基づき、トレーニングサンプル集合における各トレーニングサンプルの目標損失値を確定する。
また、一つのトレーニングサンプルについて、本発明の実施例は、当該トレーニングサンプルの中心損失値、分類損失値、及び顔枠座標回帰損失値を加重合計して、当該トレーニングサンプルの目標損失値を取得し、各トレーニングサンプルに対してこの処理を行うことによって、各トレーニングサンプルの目標損失値を取得してもよい。
また、一つのトレーニングサンプルについて、その目標損失値は、分類損失値+μ中心損失値+λ顔枠座標回帰損失値として表してもよい。
また、一つのトレーニングサンプルについて、本発明の実施例は、当該トレーニングサンプルの中心損失値、分類損失値、及び顔枠座標回帰損失値を合計して、当該トレーニングサンプルの目標損失値を取得してもよい。
ステップS320、トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスにおける最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する前記第1の数の比値は設定比例に対応する。
また、本発明の実施例は、トレーニングサンプル集合における各トレーニングサンプルの目標損失値を得た後、トレーニングサンプル集合における各トレーニングサンプルをポジティブクラスとネガティブクラスのサンプルクラスに従って分類することができ、これにより、トレーニングサンプル集合におけるポジティブクラスに属するサンプルクラスのうち各トレーニングサンプルの目標損失値、及びトレーニングサンプル集合におけるネガティブクラスに属するサンプルクラスのうち各トレーニングサンプルの目標損失値を確定することができ、同時に、ポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスに属するトレーニングサンプルをソートし(目標損失値を大きい順にソートしてもよく、目標損失値を小さい順にソートしてもよい)、ネガティブクラスのサンプルクラスにおける各トレーニングサンプルの目標損失値に基づき、ネガティブクラスに属するトレーニングサンプルをソートしてもよい。
さらに、バッチデータトレーニングサンプルにおけるポジティブクラスのトレーニングサンプルとネガティブクラスのトレーニングサンプルとの設定比例に従って、トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスのうち最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する第1の数の比値がバッチデータトレーニングサンプルにおいて要求されるポジティブ、ネガティブクラスサンプルの数の設定比例に対応するようにする。
また、Center Lossによるポジティブサンプル(顔)とネガティブサンプル(非顔)とのデータバランス要求の考慮に基づいて、本発明の実施例は、設定比例を1:1とすることができ、即ち、第1の数と第2の数が同じである。
ステップS330、ポジティブクラスのサンプルクラスから選択されたトレーニングサンプルと、ネガティブクラスのサンプルクラスから選択されたトレーニングサンプルによって、今回の反復のバッチデータトレーニングサンプルを構成する。
このように、本発明の実施例によって提供される顔検出トレーニング方法では、前回の反復のバッチデータトレーニングサンプルを顔検出モデルに送ってトレーニングした後、前回の反復のバッチデータトレーニングサンプルのCenter LossとSoftmax Lossに基づき、顔検出を更新して最適化し、前回の反復のバッチデータトレーニングサンプルのSmoothL1 Lossに基づき、顔回帰器を更新して最適化することによって、顔検出がCenter Loss、Softmax LossとSmoothL1 Lossとの最小加重合計に最適化する。
前回の反復は、次回の反復で使用されるバッチデータトレーニングサンプルを確定することができ、前回反復された顔検出モデルによって、トレーニングサンプル集合における各トレーニングサンプルのCenter Loss、Softmax Loss、及びSmoothL1 Lossの目標損失値を確定することができ、それにより、最大の目標損失値の第1の数のポジティブクラスのトレーニングサンプルと、最大の目標損失値の第2の数のネガティブクラスのトレーニングサンプルをトレーニングサンプル集合から選択して、次回の反復のMinibatch(即ち、バッチデータトレーニングサンプル)が構築される。
それにより、次回の反復に進み、次回の反復では、当該Minibatchを顔検出モデルに送ってトレーニングし、ある反復で、バッチデータトレーニングサンプルのSmoothL1 Loss、Softmax Loss、及びSmoothL1 Lossの加重合計が最小になるまで、循環反復してトレーニングする。
上述したトレーニングサンプル集合では、前回反復トレーニングされた顔検出で検出されにくいトレーニングサンプルは次回の反復で使用されるMinibatchとして使用され、これにより、毎回の反復でcenter lossの推定をよりよく行うことができるので、トレーニングサンプルにおいてクラス内の差異の識別力を有する特徴をよりよく監視学習することができる。
ここで説明する必要があるのは、確率勾配降下アルゴリズムを使用して顔検出を行う従来の反復トレーニングとは異なり、本発明の実施例は、単にランダムに抽出されたバッチデータトレーニングサンプル(Minibatch)を使用して勾配降下最適化を行うことではなく、前回の反復における、トレーニングサンプル集合のうち検出されにくいトレーニングサンプルを組み合わせて次回の反復で使用するMinibatchを確定する。
これにより分かるように、本発明の実施例は、ロバストな顔検出トレーニング方法を提供する。当該方法は、ニューラルネットワークによって実現され、反復トレーニングの各トレーニング処理では、顔と非顔の2つのカテゴリのタスクの補助損失関数として、バッチデータトレーニングサンプルに対応するCenter Loss(中心損失値)を導入して、バッチデータトレーニングサンプルに対応するSoftmax Loss(分類損失値)と共に顔検出の最適化トレーニングを監視し、顔検出の学習処理を指導することができ、これによって、顔検出は、顔と非顔とのクラス間の差異区別可能を維持しながら、顔と顔との間のクラス内の差異を減少し、顔に対する顔検出の判別能力を向上させる。
そして、困難サンプルオンラインマイニングアルゴリズム(OHEM)を利用して、トレーニングサンプルの総損失値に基づき、前回のトレーニングにおいて、検出されにくいポジティブクラストレーニングサンプルとネガティブクラストレーニングサンプルをマイニングして、ポジティブ・ネガティブサンプルの比例を1:1に保ち、これにより、検出されにくいトレーニングサンプルに対する顔検出の分類能力を増強し、顔検出の全体的な性能を向上させる。
なお、本発明は、顔の目標により適するアンカー枠(複数のサイズ、複数のアスペクト比をカバーする)及びマルチスケールのトレーニング戦略を採用して、異なる解像度の顔目標に対する判別性を向上させ、候補枠の生成を異なる顔に適したものにすることができ、本発明の実施例によって提供された顔検出トレーニング方法によってトレーニングされた顔検出は、正確率を効果的に向上し、ロバスト性を増強することができる。本発明の実施例の顔検出と他の方式によってトレーニングされる顔検出との性能比較は以下の表1に示す通りである。
Figure 0006855098
これにより分かるように、本発明の実施例は、顔検出の顔検出判別能力を向上させ、顔検出のロバスト性を向上させることができる。
本発明の実施例によって提供される顔検出トレーニング装置を以下説明し、後述する顔検出トレーニング装置の内容は、本発明の実施例にって提供される顔検出トレーニング方法を実施するために、顔検出トレーニングを実施するための電子機器に必要なプログラムモジュールであるとみなすことができ、後述する顔検出トレーニング装置の内容は、上述した顔検出トレーニング方法の内容と互いに対応して参照することができる。
図8は、本発明の実施例によって提供される顔検出トレーニング装置の構成ブロック図であり、図8を参照すると、当該顔検出トレーニング装置は、
今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれるサンプル取得モジュール100と、
各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定するためのサンプル中心損失値確定モジュール200と、
前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定するためのバッチサンプル中心損失値確定モジュール300と、
少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定するための検出目標損失値確定モジュール400と、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進むためのパラメータ更新モジュール500と、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出を出力するための検出出力モジュール600と、
を含むことができる。
また、検出目標損失値確定モジュール400は、少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、具体的に、
前記バッチデータトレーニングサンプルに対応する中心損失値、前記バッチデータトレーニングサンプルに対応する分類損失値、及び前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値に基づき、顔検出の目標損失値を確定すること、を含んでもよい。
また、検出目標損失値確定モジュール400は、前記バッチデータトレーニングサンプルに対応する中心損失値、前記バッチデータトレーニングサンプルに対応する分類損失値、及び前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値に基づき、顔検出の目標損失値を確定し、具体的に、
前記バッチデータトレーニングサンプルに対応する中心損失値と第1の設定重みとの積、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値と第2の設定重みとの積、及び、前記バッチデータトレーニングサンプルに対応する分類損失値を合計して、顔検出の目標損失値を得ることを含んでもよい。
また、サンプル取得モジュール100は、今回の反復のバッチデータトレーニングサンプルを取得し、具体的に、
前回の反復の顔検出モデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定することと、
トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスのうち最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する前記第1の数の比値が設定された比例に対応することと、
ポジティブクラスのサンプルクラスから選択されたトレーニングサンプルと、ネガティブクラスのサンプルクラスから選択されたトレーニングサンプルによって、今回の反復のバッチデータトレーニングサンプルを構成することとを含んでもよい。
また、サンプル取得モジュール100は、前回の反復の顔検出モデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定し、具体的に、
前回の反復の顔検出モデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値を取得し、その中、トレーニングサンプルに対応する分類損失値は当該トレーニングサンプルに対応する分類予測確率と分類目標確率に基づき確定し、トレーニングサンプルに対応する顔枠座標回帰損失値は当該トレーニングサンプルに対応する顔枠予測座標と顔枠目標座標に基づき確定することと、
トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値に基づき、トレーニングサンプル集合における各トレーニングサンプルの目標損失値を確定することと、を含んでもよい。
また、図9は、本発明の実施例によって提供される顔検出トレーニング装置の他の構成を示し、図8及び図9を参照すると、当該顔検出トレーニング装置は、
前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類予測確率と分類目標確率に基づき、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値を確定し、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値に基づき、前記バッチデータトレーニングサンプルに対応する分類損失値を確定するための、バッチサンプル分類損失値確定モジュール700をさらに含んでもよい。
また、サンプル中心損失値確定モジュール200は、各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、具体的に、
前記バッチデータトレーニングサンプルにおける各トレーニングサンプルの特徴ベクトル、及び前記バッチデータトレーニングサンプルにおける各サンプルクラスの中心特徴ベクトルを確定することと、
前記バッチデータトレーニングサンプルのうち一つのトレーニングサンプルに対して、当該トレーニングサンプルの特徴ベクトルと、前記バッチデータトレーニングサンプルにおける当該トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルとの距離を確定して、当該トレーニングサンプルに対応する中心損失値を得ること、を含んでもよい。
また、サンプル中心損失値確定モジュール200は、前記バッチデータトレーニングサンプルにおける各サンプルクラスの中心特徴ベクトルを確定し、具体的に、
一つのサンプルクラスに対して、前記バッチデータトレーニングサンプルにおける当該サンプルクラスに属する各トレーニングサンプルを確定することと、
前記バッチデータトレーニングサンプルにおける当該サンプルクラスに属する各トレーニングサンプルの特徴ベクトルに基づき、当該サンプルクラスに属する各トレーニングサンプルの特徴ベクトルの平均値を確定して、前記バッチデータトレーニングサンプルにおける当該サンプルクラスの中心特徴ベクトルの更新変数を得ることと、
前記更新変数と設定された学習率に基づき、前記バッチデータトレーニングサンプルにおける当該サンプルクラスの中心特徴ベクトルを得ることと、を含んでもよい。
また、図10は、本発明の実施例によって提供される顔検出トレーニング装置の別の構成を示し、図9と図10を参照すると、当該顔検出トレーニング装置は、
候補枠回帰器に基づき、各前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する顔枠予測座標を確定し、各トレーニングサンプルに対応する顔枠予測座標、及び各トレーニングサンプルに対応する顔枠目標座標に基づき、各トレーニングサンプルに対応する顔枠座標回帰損失値を確定し、各トレーニングサンプルに対応する顔枠座標回帰損失値に基づき、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値を確定するための、バッチサンプル顔枠座標回帰損失値確定モジュール800をさらに含んでもよい。
また、パラメータ更新モジュール500は、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新し、具体的に、
顔検出の目標損失値に基づき、バックプロパゲーションにより、顔検出モデルにおけるネットワークパラメータを更新することを含んでもよい。
また、パラメータ更新モジュール500は、顔検出の目標損失値に基づき、バックプロパゲーションにより、顔検出モデルにおけるネットワークパラメータを更新し、具体的に、
前記顔検出の目標損失値、及び前回の反復の顔検出モデルにおけるネットワークパラメータに基づき、顔検出のパラメータ更新値を確定することと、
当該顔検出のパラメータ更新値に基づき、前回の反復の顔検出モデルにおけるネットワークパラメータを更新することと、を含んでもよい。
また、本発明の実施例によって提供される顔検出トレーニング装置は、さらに、
異なる縮尺とアスペクト比をカバーする複数のアンカー枠を予め定義し、当該予め定義された前記複数のアンカー枠によって、トレーニングサンプルにおけるサブ枠を確定し、前記サブ枠によって候補枠を予測する。
本発明の実施例は電子機器をさらに提供し、当該電子機器のハードウェア構成は図3に示すように、少なくとも一つのメモリと少なくとも一つのプロセッサーを含み、
前記メモリにはプログラムが記憶され、前記プロセッサーは前記プログラムを呼び出して、前記プログラムにより、
今回の反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれ、
各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、
前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定し、
少なくとも前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進み、
前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力する。
本明細書における各実施例は漸進的に記載されており、各実施例は他の実施形態との相違点について主に説明し、各実施例間の同じ又は類似の部分は互いに参照され得る。実施例に開示された装置は、実施例に開示された方法に対応するので、説明は比較的単純であり、関連部分は方法のセクションの説明を参照することができる。
当業者はさらに以下のことを理解することができ、本明細書に開示されている実施例に関連して説明されている各例示的なユニット及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又はそれらの組み合わせによって実現することができ、ハードウェアとソフトウェアの互換性を明確に説明するために、各例示的な構成要素及びステップは、上記の説明では機能の観点から一般的に説明されている。これらの機能がハードウェアで実行されるかソフトウェアで実行されるかは、技術的解決策の特定のアプリケーション及びソリューションの設計上の制約に依存する。当業者であれば、特定の用途ごとに、説明した機能を実現するために異なる方法を使用することができるが、そのような実現は本発明の範囲を超えると見なされるべきではない。
本明細書に開示されている実施例に関連して説明されている方法又はアルゴリズムのステップは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、又はそれらの組み合わせで直接実施することができる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、読み出し専用メモリ(ROM)、電気的にプログラム可能なROM、電気的に消去可能なプログラム可能なROM、レジスタ、ハードディスク、リムーバブルディスク、CD - ROM、又は当該技術分野で知られている既知の任意の他の形態の記憶媒体に配置することができる。
開示された実施例の上記説明は、当業者が本発明を実現又は使用することを可能にする。これらの実施例に対する様々な修正は当業者に明らかであり、本明細書で定義された一般的な原理は本発明の精神又は範囲から逸脱することなく他の実施例において実現することができる。したがって、本発明は本明細書に示されたこれらの実施例に限定されるべきではなく、本明細書に開示されている原理及び新規の特徴と一致している最も広い範囲にある。
100 サンプル取得モジュール
200 サンプル中心損失値確定モジュール
300 バッチサンプル中心損失値確定モジュール
400 検出目標損失値確定モジュール
500 パラメータ更新モジュール
600 検出出力モジュール
700 バッチサンプル分類損失値確定モジュール
800 バッチサンプル顔枠座標回帰損失値確定モジュール

Claims (16)

  1. 顔検出トレーニング方法であって、
    反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには、異なるサンプルクラスの複数のトレーニングサンプルが含まれることと、
    各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定することと、
    前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定することと、
    前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定することと、
    前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力することと、
    を含み、
    前記複数のトレーニングサンプルのサンプルクラスには、ポジティブクラスとネガティブクラスが含まれ、
    前記した反復のバッチデータトレーニングサンプルを取得することは、
    前回の反復のモデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定することと、
    トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスのうち最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する前記第1の数の比値が設定比例に対応することと、
    ポジティブクラスのサンプルクラスから選択されたトレーニングサンプルと、ネガティブクラスのサンプルクラスから選択されたトレーニングサンプルとによって、今回の反復のバッチデータトレーニングサンプルを構成することと、
    を含む、
    ことを特徴とする顔検出トレーニング方法。
  2. 前記方法は、
    前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進むこと、
    をさらに含むことを特徴とする請求項1に記載の顔検出トレーニング方法。
  3. 前記した前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定することは、
    前記バッチデータトレーニングサンプルに対応する中心損失値、前記バッチデータトレーニングサンプルに対応する分類損失値、及び前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値に基づき、顔検出の目標損失値を確定すること、
    を含むことを特徴とする請求項1又は2に記載の顔検出トレーニング方法。
  4. 前記した前記バッチデータトレーニングサンプルに対応する中心損失値、前記バッチデータトレーニングサンプルに対応する分類損失値、及び前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値に基づき、顔検出の目標損失値を確定することは、
    前記バッチデータトレーニングサンプルに対応する中心損失値と第1の設定重みとの積、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値と第2の設定重みとの積、及び、前記バッチデータトレーニングサンプルに対応する分類損失値を合計して、顔検出の目標損失値を得ること、
    を含むことを特徴とする請求項3に記載の顔検出トレーニング方法。
  5. 前記した前回の反復のモデルでトレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定することは、
    前回の反復のモデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値を取得し、その中、トレーニングサンプルに対応する分類損失値は、前記トレーニングサンプルに対応する分類予測確率と分類目標確率に基づき確定され、トレーニングサンプルに対応する顔枠座標回帰損失値は、前記トレーニングサンプルに対応する顔枠予測座標と顔枠目標座標に基づき確定されることと、
    トレーニングサンプル集合における各トレーニングサンプルに対応する中心損失値、分類損失値、及び顔枠座標回帰損失値に基づき、トレーニングサンプル集合における各トレーニングサンプルの目標損失値を確定することと、
    を含むことを特徴とする請求項に記載の顔検出トレーニング方法。
  6. 前記バッチデータトレーニングサンプルに対応する分類損失値の確定処理は、
    前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類予測確率と分類目標確率に基づき、前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値を確定することと、
    前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する分類損失値に基づき、前記バッチデータトレーニングサンプルに対応する分類損失値を確定することと、
    を含むことを特徴とする請求項3に記載の顔検出トレーニング方法。
  7. 前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値の確定処理は、
    前記バッチデータトレーニングサンプルにおける各トレーニングサンプルに対応する顔枠予測座標を確定することと、
    各トレーニングサンプルに対応する顔枠予測座標、及び各トレーニングサンプルに対応する顔枠目標座標に基づき、各トレーニングサンプルに対応する顔枠座標回帰損失値を確定することと、
    各トレーニングサンプルに対応する顔枠座標回帰損失値に基づき、前記バッチデータトレーニングサンプルに対応する顔枠座標回帰損失値を確定することと、
    を含むことを特徴とする請求項3に記載の顔検出トレーニング方法。
  8. 前記した各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定することは、
    前記バッチデータトレーニングサンプルにおける各トレーニングサンプルの特徴ベクトル、及び前記バッチデータトレーニングサンプルにおける各サンプルクラスの中心特徴ベクトルを確定することと、
    前記バッチデータトレーニングサンプルにおけるトレーニングサンプルに対して、前記トレーニングサンプルの特徴ベクトルと、前記バッチデータトレーニングサンプルにおける前記トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルとの距離を確定して、前記トレーニングサンプルに対応する中心損失値を得ることと、
    を含むことを特徴とする請求項1に記載の顔検出トレーニング方法。
  9. 前記した前記バッチデータトレーニングサンプルにおける各サンプルクラスの中心特徴ベクトルを確定することは、
    サンプルクラスに対して、前記バッチデータトレーニングサンプルにおける前記サンプルクラスに属する各トレーニングサンプルを確定することと、
    前記バッチデータトレーニングサンプルにおける前記サンプルクラスに属する各トレーニングサンプルの特徴ベクトルに基づき、前記サンプルクラスに属する各トレーニングサンプルの特徴ベクトルの平均値を確定して、前記バッチデータトレーニングサンプルにおける前記サンプルクラスの中心特徴ベクトルの更新変数を得ることと、
    前記更新変数と設定された学習率に基づき、前記バッチデータトレーニングサンプルにおける前記サンプルクラスの中心特徴ベクトルを得ることと、
    を含むことを特徴とする請求項に記載の顔検出トレーニング方法。
  10. 前記した前記顔検出の目標損失値に基づき、モデルにおけるネットワークパラメータを更新することは、
    顔検出の目標損失値に基づき、バックプロパゲーションにより、顔検出モデルにおけるネットワークパラメータを更新すること、
    を含むことを特徴とする請求項2から4のいずれか1項に記載の顔検出トレーニング方法。
  11. 前記した顔検出の目標損失値に基づき、バックプロパゲーションにより、顔検出モデルにおけるネットワークパラメータを更新することは、
    前記顔検出の目標損失値、及び前回の反復の顔検出モデルにおけるネットワークパラメータに基づき、顔検出のパラメータ更新値を確定することと、
    前記顔検出のパラメータ更新値に基づき、前回の反復の顔検出モデルにおけるネットワークパラメータを更新することと、
    を含むことを特徴とする請求項10に記載の顔検出トレーニング方法。
  12. 前記方法は、
    異なる縮尺とアスペクト比をカバーする複数のアンカー枠を予め定義することと、
    予め定義された前記複数のアンカー枠によって、トレーニングサンプルにおけるサブ枠を確定し、前記サブ枠によって候補枠を予測することと、
    をさらに含むことを特徴とする請求項1に記載の顔検出トレーニング方法。
  13. 反復の、異なるサンプルクラスの複数のトレーニングサンプルが含まれるバッチデータトレーニングサンプルを取得するためのサンプル取得モジュールと、
    各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定するためのサンプル中心損失値確定モジュールと、
    前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定するためのバッチサンプル中心損失値確定モジュールと、
    前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定するための検出目標損失値確定モジュールと、
    前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力するための検出出力モジュールと、
    を含み、
    前記サンプル取得モジュールは、具体的に、
    前回の反復の顔検出モデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定し、
    トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスのうち最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する前記第1の数の比値が設定比例に対応し、
    ポジティブクラスのサンプルクラスから選択されたトレーニングサンプルと、ネガティブクラスのサンプルクラスから選択されたトレーニングサンプルとによって、今回の反復のバッチデータトレーニングサンプルを構成する、
    ことを特徴とする顔検出トレーニング装置。
  14. 前記顔検出トレーニング装置は、
    前記顔検出の目標損失値が設定されたトレーニング収束条件に達していないと、前記顔検出の目標損失値に基づき、顔検出モデルのネットワークパラメータを更新して、次回の反復に進むためのパラメータ更新モジュールをさらに含むことを特徴とする請求項13に記載の顔検出トレーニング装置。
  15. メモリとプロセッサーを含む電子機器であって、
    前記メモリにはプログラムが記憶され、前記プロセッサーは前記プログラムを呼び出して、前記プログラムにより、
    反復のバッチデータトレーニングサンプルを取得し、前記バッチデータトレーニングサンプルには異なるサンプルクラスの複数のトレーニングサンプルが含まれ、
    各トレーニングサンプルの特徴ベクトル、及び各トレーニングサンプルが属するサンプルクラスの中心特徴ベクトルに基づき、各トレーニングサンプルに対応する中心損失値を確定し、
    前記各トレーニングサンプルに対応する中心損失値に基づき、前記バッチデータトレーニングサンプルに対応する中心損失値を確定し、
    前記バッチデータトレーニングサンプルに対応する中心損失値に基づき、顔検出の目標損失値を確定し、
    前記顔検出の目標損失値が設定されたトレーニング収束条件に達すると、顔検出のトレーニング結果を出力し、
    前記複数のトレーニングサンプルのサンプルクラスには、ポジティブクラスとネガティブクラスが含まれ、
    前記した反復のバッチデータトレーニングサンプルを取得することは、
    前回の反復のモデルで、トレーニングサンプル集合における各トレーニングサンプルに対応する目標損失値を確定することと、
    トレーニングサンプル集合におけるポジティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ポジティブクラスのサンプルクラスのうち最大の目標損失値の第1の数のトレーニングサンプルを選択し、トレーニングサンプル集合におけるネガティブクラスのサンプルクラスのうち各トレーニングサンプルの目標損失値に基づき、ネガティブクラスのサンプルクラスのうち最大の目標損失値の第2の数のトレーニングサンプルを選択し、前記第2の数に対する前記第1の数の比値が設定比例に対応することと、
    ポジティブクラスのサンプルクラスから選択されたトレーニングサンプルと、ネガティブクラスのサンプルクラスから選択されたトレーニングサンプルとによって、今回の反復のバッチデータトレーニングサンプルを構成することと、
    を含む、
    ことを特徴とする電子機器。
  16. 命令を含むコンピュータ可読記憶媒体であって、前記命令がコンピュータで実行されるときに、コンピュータに請求項1から12のいずれか1項に記載の方法を実行させるコンピュータ可読記憶媒体。
JP2019525952A 2017-06-02 2018-03-16 顔検出トレーニング方法、装置及び電子機器 Active JP6855098B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710406726.9 2017-06-02
CN201710406726.9A CN108985135A (zh) 2017-06-02 2017-06-02 一种人脸检测器训练方法、装置及电子设备
PCT/CN2018/079281 WO2018219016A1 (zh) 2017-06-02 2018-03-16 一种人脸检测训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2020501238A JP2020501238A (ja) 2020-01-16
JP6855098B2 true JP6855098B2 (ja) 2021-04-07

Family

ID=64426184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019525952A Active JP6855098B2 (ja) 2017-06-02 2018-03-16 顔検出トレーニング方法、装置及び電子機器

Country Status (7)

Country Link
US (2) US10929644B2 (ja)
JP (1) JP6855098B2 (ja)
KR (1) KR102236046B1 (ja)
CN (2) CN110490177A (ja)
MA (1) MA48806A (ja)
TW (1) TWI665613B (ja)
WO (1) WO2018219016A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490177A (zh) * 2017-06-02 2019-11-22 腾讯科技(深圳)有限公司 一种人脸检测器训练方法及装置
CN108694401B (zh) * 2018-05-09 2021-01-12 北京旷视科技有限公司 目标检测方法、装置及系统
CN110889487A (zh) * 2018-09-10 2020-03-17 富士通株式会社 神经网络架构搜索装置和方法及计算机可读记录介质
US11620555B2 (en) * 2018-10-26 2023-04-04 Samsung Electronics Co., Ltd Method and apparatus for stochastic inference between multiple random variables via common representation
CN111191782A (zh) * 2018-11-14 2020-05-22 普天信息技术有限公司 卷积网络训练方法和装置
TWI684959B (zh) * 2018-11-16 2020-02-11 國立雲林科技大學 口鼻異物遮蔽檢測方法及其系統
US10891845B2 (en) 2018-11-28 2021-01-12 National Yunlin University Of Science And Technology Mouth and nose occluded detecting method and system thereof
TWI705340B (zh) * 2018-12-13 2020-09-21 財團法人工業技術研究院 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法
CN111325223B (zh) * 2018-12-13 2023-10-24 中国电信股份有限公司 深度学习模型的训练方法、装置和计算机可读存储介质
CN109829893B (zh) * 2019-01-03 2021-05-25 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
CN111477212B (zh) * 2019-01-04 2023-10-24 阿里巴巴集团控股有限公司 内容识别、模型训练、数据处理方法、系统及设备
US10423860B1 (en) * 2019-01-22 2019-09-24 StradVision, Inc. Learning method and learning device for object detector based on CNN to be used for multi-camera or surround view monitoring using image concatenation and target object merging network, and testing method and testing device using the same
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
CN109801636A (zh) * 2019-01-29 2019-05-24 北京猎户星空科技有限公司 声纹识别模型的训练方法、装置、电子设备及存储介质
CN111522228B (zh) * 2019-02-02 2023-09-22 北京京东乾石科技有限公司 一种飞行器的检测方法及装置
CN111626087A (zh) * 2019-02-28 2020-09-04 北京市商汤科技开发有限公司 神经网络训练及眼睛睁闭状态检测方法、装置及设备
CN109948478B (zh) * 2019-03-06 2021-05-11 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN109934198B (zh) * 2019-03-22 2021-05-14 北京市商汤科技开发有限公司 人脸识别方法及装置
CN110070107B (zh) * 2019-03-26 2020-12-25 华为技术有限公司 物体识别方法及装置
CN110033332A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种人脸识别方法、系统及电子设备和存储介质
CN110059707B (zh) * 2019-04-25 2021-05-14 北京小米移动软件有限公司 图像特征点的优化方法、装置和设备
CN110414550B (zh) * 2019-06-14 2022-07-29 北京迈格威科技有限公司 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN110443280B (zh) * 2019-07-05 2022-06-03 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质
CN110443366B (zh) * 2019-07-30 2022-08-30 上海商汤智能科技有限公司 神经网络的优化方法及装置、目标检测方法及装置
TWI712961B (zh) * 2019-08-07 2020-12-11 瑞昱半導體股份有限公司 全連接卷積神經網路影像處理方法與電路系統
CN110432895B (zh) * 2019-08-09 2022-02-11 上海鹰瞳医疗科技有限公司 训练数据处理、心电波形检测方法及电子设备
CN110490115B (zh) * 2019-08-13 2021-08-13 北京达佳互联信息技术有限公司 人脸检测模型的训练方法、装置、电子设备及存储介质
CN110263774B (zh) * 2019-08-19 2019-11-22 珠海亿智电子科技有限公司 一种人脸检测方法
CN110532985B (zh) * 2019-09-02 2022-07-22 北京迈格威科技有限公司 目标检测方法、装置及系统
TWI719696B (zh) * 2019-11-01 2021-02-21 財團法人工業技術研究院 臉部影像重建方法與系統
WO2021087985A1 (zh) * 2019-11-08 2021-05-14 深圳市欢太科技有限公司 模型训练方法、装置、存储介质及电子设备
CN110956255B (zh) * 2019-11-26 2023-04-07 中国医学科学院肿瘤医院 难样本挖掘方法、装置、电子设备及计算机可读存储介质
WO2021125434A1 (ko) * 2019-12-19 2021-06-24 주식회사 노타 딥러닝 기반 실시간 온-디바이스 얼굴 인증을 위한 방법 및 장치
US11277626B2 (en) 2020-02-21 2022-03-15 Alibaba Group Holding Limited Region of interest quality controllable video coding techniques
CN111275011B (zh) * 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
US11388423B2 (en) 2020-03-23 2022-07-12 Alibaba Group Holding Limited Region-of-interest based video encoding
CN111563541B (zh) * 2020-04-21 2023-04-18 北京百度网讯科技有限公司 图像检测模型的训练方法和装置
CN113673272B (zh) * 2020-05-13 2023-04-28 北京君正集成电路股份有限公司 一种基于宠物检测的双层标注二级级联计算损失值的方法
CN111598185B (zh) * 2020-05-27 2021-11-19 深圳市铁越电气有限公司 一种基于深度学习的训练数据平衡方法、设备和系统
CN111814553B (zh) * 2020-06-08 2023-07-11 浙江大华技术股份有限公司 人脸检测方法、模型的训练方法及其相关装置
KR20230026398A (ko) * 2020-06-12 2023-02-24 유니버시티 오브 워싱턴 근안 디스플레이들에서의 눈 추적
US20230116040A1 (en) * 2020-06-29 2023-04-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for recognizing dangerous driving behavior, electronic device and storage medium
CN112070205A (zh) * 2020-07-30 2020-12-11 华为技术有限公司 一种多损失模型获取方法以及装置
CN112016599B (zh) * 2020-08-13 2023-09-15 驭势科技(浙江)有限公司 用于图像检索的神经网络训练方法、装置及电子设备
CN111930980B (zh) * 2020-08-21 2023-07-07 深圳市升幂科技有限公司 图像检索模型的训练方法及图像检索方法、装置、及介质
CN111985439B (zh) * 2020-08-31 2024-08-13 中移(杭州)信息技术有限公司 人脸检测方法、装置、设备和存储介质
CN112257781A (zh) * 2020-10-22 2021-01-22 腾讯音乐娱乐科技(深圳)有限公司 一种模型训练方法及装置
CN112541587A (zh) * 2020-11-19 2021-03-23 西人马帝言(北京)科技有限公司 一种识别模型训练方法、装置、设备及计算机存储介质
KR20220073914A (ko) * 2020-11-27 2022-06-03 연세대학교 산학협력단 경량화 신경망을 이용한 얼굴 인식 장치 및 방법
KR20220098503A (ko) * 2021-01-04 2022-07-12 오드컨셉 주식회사 중복 이미지 검출 방법 및 장치
CN112766104A (zh) * 2021-01-07 2021-05-07 湖北公众信息产业有限责任公司 保险新零售服务平台
CN112734740B (zh) * 2021-01-18 2024-02-23 推想医疗科技股份有限公司 训练目标检测模型的方法、目标检测的方法及其装置
CN113822111B (zh) * 2021-01-19 2024-05-24 北京京东振世信息技术有限公司 人群检测模型训练方法、装置以及人群计数方法、装置
KR102444495B1 (ko) * 2021-01-21 2022-09-19 순천향대학교 산학협력단 영상 인식 검출기 및 그 동작방법
CN112861671B (zh) * 2021-01-27 2022-10-21 电子科技大学 一种对深度伪造人脸图像和视频的鉴别方法
CN112890572B (zh) * 2021-02-07 2021-08-17 广州一盒科技有限公司 一种食材烹调智能控制系统及方法
CN112884040B (zh) * 2021-02-19 2024-04-30 北京小米松果电子有限公司 训练样本数据的优化方法、系统、存储介质及电子设备
CN112733808A (zh) * 2021-02-22 2021-04-30 深圳市商汤科技有限公司 模型训练与图像处理方法、装置、电子设备和存储介质
CN112949855B (zh) * 2021-02-26 2023-08-25 平安科技(深圳)有限公司 人脸识别模型训练方法、识别方法、装置、设备及介质
CN113057647B (zh) * 2021-03-25 2022-04-22 山东省人工智能研究院 一种心电信号的质量评估方法
CN113221655B (zh) * 2021-04-12 2022-09-30 重庆邮电大学 基于特征空间约束的人脸欺骗检测方法
CN113129337B (zh) * 2021-04-14 2022-07-19 桂林电子科技大学 背景感知跟踪方法、计算机可读存储介质及计算机设备
CN113221530B (zh) * 2021-04-19 2024-02-13 杭州火石数智科技有限公司 一种文本相似度匹配方法、装置、计算机设备和储存介质
CN113239975B (zh) * 2021-04-21 2022-12-20 国网甘肃省电力公司白银供电公司 一种基于神经网络的目标检测方法和装置
CN113139462A (zh) * 2021-04-23 2021-07-20 杭州魔点科技有限公司 无监督的人脸图像质量评估方法、电子设备和存储介质
CN113192646B (zh) * 2021-04-25 2024-03-22 北京易华录信息技术股份有限公司 目标检测模型构建方法及不同目标间距离监控方法、装置
WO2022250970A1 (en) * 2021-05-26 2022-12-01 Nec Laboratories America, Inc. Semi-automatic data collection and association for multi-camera tracking
CN113326773A (zh) * 2021-05-28 2021-08-31 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质
CN113191461B (zh) * 2021-06-29 2021-09-17 苏州浪潮智能科技有限公司 一种图片识别方法、装置、设备及可读存储介质
CN113673357A (zh) * 2021-07-27 2021-11-19 浙江大华技术股份有限公司 停车场寻车方法、设备及存储介质
CN113807237B (zh) * 2021-09-15 2022-11-08 河南星环众志信息科技有限公司 活体检测模型的训练、活体检测方法、计算机设备及介质
CN114495228A (zh) * 2022-01-26 2022-05-13 北京百度网讯科技有限公司 人脸检测器的训练方法及装置、设备、介质和产品
CN114743665A (zh) * 2022-03-21 2022-07-12 平安科技(深圳)有限公司 患病风险估计网络的优化方法、装置、介质及设备
CN115661909B (zh) * 2022-12-14 2024-09-17 深圳大学 人脸图像处理方法、设备及计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219142B1 (en) * 1997-10-17 2001-04-17 Southwest Sciences Incorporated Method and apparatus for determining wave characteristics from wave phenomena
JPH11161786A (ja) * 1997-11-25 1999-06-18 Toshiba Corp パターン認識方法および記録媒体
US6466685B1 (en) * 1998-07-14 2002-10-15 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method
KR100729273B1 (ko) * 2005-02-04 2007-06-15 오병주 Pca와 역전파 알고리즘을 이용한 얼굴인식 방법
US7471378B2 (en) * 2005-06-30 2008-12-30 Dbm Optical Technologies, Inc. Method and system for determining a polarization dependent characteristics of optical and opto-electrical devices
CN100587708C (zh) * 2008-01-25 2010-02-03 华中科技大学 一种分类器集成方法
JP5207870B2 (ja) * 2008-08-05 2013-06-12 日立コンピュータ機器株式会社 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
JPWO2012098854A1 (ja) * 2011-01-20 2014-06-09 日本電気株式会社 画像処理システム、画像処理方法および画像処理用プログラム
CN102663370B (zh) * 2012-04-23 2013-10-09 苏州大学 一种人脸识别的方法及系统
CN104680121B (zh) * 2013-11-27 2022-06-03 腾讯科技(深圳)有限公司 一种人脸图像的处理方法及装置
US10462450B2 (en) * 2014-04-28 2019-10-29 Autodesk, Inc. Combining two-dimensional images with depth data to detect junctions or edges
CN104063865B (zh) * 2014-06-27 2017-08-01 小米科技有限责任公司 分类模型创建方法、图像分割方法及相关装置
CN106326815B (zh) * 2015-06-30 2019-09-13 芋头科技(杭州)有限公司 一种人脸图像识别方法
CN105069430B (zh) * 2015-08-05 2016-09-14 杭州南江机器人股份有限公司 一种基于msnrd特征的多姿态人脸检测器的设计方法
KR102477190B1 (ko) * 2015-08-10 2022-12-13 삼성전자주식회사 얼굴 인식 방법 및 장치
CN106485230B (zh) * 2016-10-18 2019-10-25 中国科学院重庆绿色智能技术研究院 基于神经网络的人脸检测模型的训练、人脸检测方法及系统
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
CN110490177A (zh) * 2017-06-02 2019-11-22 腾讯科技(深圳)有限公司 一种人脸检测器训练方法及装置

Also Published As

Publication number Publication date
KR20190116397A (ko) 2019-10-14
CN110490177A (zh) 2019-11-22
US20210089752A1 (en) 2021-03-25
WO2018219016A1 (zh) 2018-12-06
US10929644B2 (en) 2021-02-23
US11594070B2 (en) 2023-02-28
KR102236046B1 (ko) 2021-04-02
EP3633549A4 (en) 2021-03-10
US20190251333A1 (en) 2019-08-15
MA48806A (fr) 2020-04-08
CN108985135A (zh) 2018-12-11
EP3633549A1 (en) 2020-04-08
TW201832134A (zh) 2018-09-01
TWI665613B (zh) 2019-07-11
JP2020501238A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
JP6855098B2 (ja) 顔検出トレーニング方法、装置及び電子機器
US20210012198A1 (en) Method for training deep neural network and apparatus
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN110555481B (zh) 一种人像风格识别方法、装置和计算机可读存储介质
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN108470354A (zh) 视频目标跟踪方法、装置和实现装置
Nandedkar et al. A fuzzy min-max neural network classifier with compensatory neuron architecture
CN110782015A (zh) 神经网络的网络结构优化器的训练方法、装置及存储介质
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN106951825A (zh) 一种人脸图像质量评估系统以及实现方法
CN111126482A (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN111222589A (zh) 图像文本识别方法、装置、设备及计算机存储介质
CN112052816B (zh) 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN112417981A (zh) 基于改进FasterR-CNN的复杂战场环境目标高效识别方法
CN111967399A (zh) 一种基于改进的Faster RCNN行为识别方法
CN111429414B (zh) 基于人工智能的病灶影像样本确定方法和相关装置
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN114120045B (zh) 一种基于多门控混合专家模型的目标检测方法和装置
CN112257840B (zh) 一种神经网络处理方法以及相关设备
CN107480627A (zh) 行为识别方法、装置、存储介质和处理器
CN114332711A (zh) 面部动作识别及模型训练的方法、装置、设备和存储介质
CN114399780A (zh) 表格检测方法、表格检测模型训练方法及装置
CN113221929A (zh) 一种图像处理方法以及相关设备
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210311

R150 Certificate of patent or registration of utility model

Ref document number: 6855098

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250