JP2017513144A - 顔認証方法およびシステム - Google Patents

顔認証方法およびシステム Download PDF

Info

Publication number
JP2017513144A
JP2017513144A JP2016560685A JP2016560685A JP2017513144A JP 2017513144 A JP2017513144 A JP 2017513144A JP 2016560685 A JP2016560685 A JP 2016560685A JP 2016560685 A JP2016560685 A JP 2016560685A JP 2017513144 A JP2017513144 A JP 2017513144A
Authority
JP
Japan
Prior art keywords
convnet
face
hifs
features
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016560685A
Other languages
English (en)
Other versions
JP6159489B2 (ja
Inventor
シャオオウ タン
シャオオウ タン
イー スン
イー スン
ショウガン ワン
ショウガン ワン
Original Assignee
ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド, ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド filed Critical ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Publication of JP2017513144A publication Critical patent/JP2017513144A/ja
Application granted granted Critical
Publication of JP6159489B2 publication Critical patent/JP6159489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本発明は、顔認証方法および装置に関する。当該装置は、異なる訓練されたConvNetにより、顔の異なる領域からHIFs(隠し身元特徴)を抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化がHIFsとして見なされるように構成される特徴抽出ユニットを備える。各顔から抽出されたHIFsを連結させて特徴ベクトルを形成し、前記形成された特徴ベクトルの2つを比較してそれらが同じ身元に由来するか否かを決定するように構成される認証ユニットをさらに備える。【選択図】図1

Description

本発明は顔認証方法およびそのシステムに関する。
多くの顔認証方法は、例えば、LBPまたはSIFTのような高次元(high−dimension)の過完備(over−complete)顔記述子により顔を表現し、それから浅層顔認証モデル(shallow face verification models)をも用いる。
いくつかの先行研究において、身元関連特徴を低レベル特徴に基づいてさらに学習してきた。これらの過程において、属性分類器(attribute classifier)および類似分類器(simile classifier)を訓練することにより顔属性を検出し、参照人物セットに対する顔類似度を測定し、または異なる人物に由来の2つの顔を区別する。特徴は、学習された分類器の出力である。しかしながら、先行研究では、SVM(Support Vector Machine、サポートベクタマシン)分類器を用い、SVM分類器が浅層構造(shallow structure)であり、かつその学習された特徴が依然として比較的低いレベルである。
いくつかの深層モデルは、すでに顔認証に用いられている。Chopraらは、Siameseアーキテクチャを用いて2つのサブネットワークの出力の間の距離を非類似度(dissimilarity)とし、ここで、Siameseアーキテクチャは、2つの同様のサブネットワークの2つの対比入力から、それぞれ特徴を抽出する。それらの特徴抽出および認識は、顔認証ターゲットと共に学習される。
従来技術のいくつかの技術案は、多重深層ConvNetを用いて高レベル顔類似度特徴を学習し、かつ分類器を訓練して顔認証に用いるが、それらの特徴は、単一の顔から抽出されるものでなく、一対の顔から同時に抽出されるものである。区別可能性が高いが、顔類似度特徴は、短過ぎでいくつかの有用な情報が最終認証の前に失われているおそれがある。
いくつかの先行研究において、ConvNetの最後の隠れ層特徴は、さらに他のタスクに用いられた。Krizhevskyらによれば、画像分類のターゲットが学習される場合、ConvNetの最後の隠れ層は、意味空間におけるユークリッド距離と類似するが、これらの特徴は、画像検索にどのように表現されるかを示す定量的な結果がない。Farabetらは、スケールが一定のConvNet(シーンラベリング用のマルチスケール入力を有し)から抽出された最後の隠れ層特徴を連結させる。従来の方法は、顔認証問題を解決していない。また、顔認識の精細分類を判別するための十分な特徴をどのように学習するのかについては、まだ不明である。
本発明の一態様によれば、顔認証装置であって、
異なる訓練されたConvNetにより、顔の異なる領域に対してHIFs(Hidden Identity Feature、隠し身元特徴)を抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化(activations)がHIFsとして見なされるように構成される特徴抽出ユニットと、
各前記顔から抽出されたHIFsを連結させて特徴ベクトルを形成し、前記形成された特徴ベクトルの2つを比較してそれらが同じ身元に由来するか否かを決定するように構成される認証ユニットとを備える、顔認証装置を提供する。
本発明の別の態様によれば、顔認証方法であって、
異なる訓練されたConvNetにより、顔の異なる領域からHIFsを抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化がHIFsとして見なされるステップと、
抽出されたHIFsを連結させて特徴ベクトルを形成するステップと、
形成された特徴ベクトルの2つを比較してそれらが同じ身元に由来するか否かを決定するステップとを含む、顔認証方法を提供する。
本発明に係る装置は、顔の位置合わせされた領域の入力により、身元分類用のConvNetを訓練するように構成される訓練ユニットをさらに備える。
従来の方法に比べると、本発明は、訓練セットから全ての身元を同時に分類する。また、本発明は、分類器の出力の代わりに、最後の隠れ層の活性化を特徴として利用する。本発明のConvNetにおいて、最後の隠れ層のニューロンの数が出力におけるニューロンの数よりもはるかに小さく、それにより、最後の隠れ層には、異なる人物の全ての顔を効果的に分類するために、異なる人物の顔に対して共有された隠し表現(hidden representation)を学習させてることができ、結果として識別力が高くコンパクトな特徴が得られる。
本発明は、特徴抽出および認識を2つのステップにより実行してもよく、そのうち、第1の特徴抽出ステップにおいて、認証よりも強い監視信号である顔分類のターゲットを用いて学習する。
本発明は、顔認証のために高次元の高レベルの特徴を用いる。異なる顔領域から抽出されたHIFsは、相補的なものである。具体的には、前記特徴は、深層ConvNetの最後の隠れ層から抽出され、それが全体的で高非線形であり、かつ顔の身元(face identity)を明らかにさせる。また、異なるConvNetは、異なる視覚的合図(顔領域)から学習するため、異なる方式で顔の身元を判断する必要があり、したがってHIFsは相補的なものである。
以下、図面を参照しながら、本発明の例示的な非限定的実施形態を説明する。図面は、例示的であり、通常正確なサイズを示すものではない。異なる図面における同一または類似の素子は、同じ符号で示される。
本発明のいくつかの実施形態に係る顔認証装置を示す模式図である。 本発明のいくつかの実施形態に係るソフトウェアによって実施された顔認証装置を示す模式図である。 本発明の第1の実施形態に係るクロップ領域の例を示す模式図である。 本発明の第2の実施形態に係るConvNetの詳細構造を示す模式図である。 顔認証用ニューラルネットワークの構造を示す模式図である(各層の傍に層のタイプおよび次元(dimension)が示され、固体ニューロンがサブネットワークを形成する)。 本発明のいくつかの実施形態に係る顔認証を示す模式的フローチャートである。 図6におけるステップS103を示す模式的フローチャートである。 本発明のいくつかの実施形態に係るConvNetの訓練プロセスを示す模式的フローチャートである。
以下、例示的な実施形態を詳細に参照し、図面に例示的な実施形態の例を示す。適切な場合、全ての図面では、同一の符号は同一または類似の部材を示すことに用いられる。図1は、本発明のいくつかの実施形態に係る顔認証用の例示的な装置1000を示す模式図である。
装置1000は、特定のハードウェア、ソフトウェアまたはハードウェアとソフトウェアとの組み合わせを用いて実現できると理解すべきである。また、本発明の実施形態は、コンピュータプログラムコードを含有する1つ以上のコンピュータ読み取り可能な記憶媒体(ディスクメモリ、CD−ROM、光メモリ等を含むがそれらに限定されない)において実現されたコンピュータプログラム製品に適応されてもよい。
ソフトウェアで装置1000を実現する場合、装置1000には、汎用コンピュータ、コンピュータクラスター、主流コンピュータ、オンラインコンテンツを提供する専用のコンピュータ装置、または集中型もしくは分散型の方式で実行されるコンピュータグループを含むコンピュータネットワークを備えてもよい。図2に示されるように、装置1000は、1つ以上のプロセッサ(プロセッサ102、104、106等)、メモリ112、記憶機構(storage)116、通信インターフェース114、および装置1000の各部材の間で情報を容易に交換するためのバスを備えてもよい。プロセッサ102〜106は、中央処理装置(「CPU」)、グラフィック処理装置(「GPU」)または他の適切な情報処理装置を備えてもよい。使用されるハードウェアのタイプに応じて、プロセッサ102〜106は、1つ以上のプリント回路基板、および/または1つ以上のマイクロプロセッサチップを備えてもよい。以下でより詳細に説明される各種類の方法を実行するために、プロセッサ102〜106は、コンピュータプログラム命令のシーケンスを実行することができる。
メモリ112は、ランダムアクセスメモリ(「RAM」)および読み出し専用メモリ(「ROM」)を備えてよい。コンピュータプログラム命令は、プロセッサ102〜106における1つ以上のプロセッサに提供されて実行されるために、メモリ112に記憶され、メモリ112からアクセスされ、読み取られてもよい。例えば、メモリ112は、1つ以上のソフトウェアアプリケーションを記憶してもよい。また、メモリ112は、全てのソフトウェアアプリケーションを記憶してもよく、ソフトウェアアプリケーションにおける、プロセッサ102〜106のうちの1つ以上のプロセッサで実行可能な部分のみを記憶してもよい。なお、図1は、1つのブロックでメモリを示しているが、メモリ112は、中央計算装置または異なる計算装置に取り付けられる複数の物理装置(physical devices)を備えてもよい。
図1を再度参照し、装置1000は、ハードウェアによって実現される場合、特徴抽出ユニット10および認証ユニット20を備えてもよい。特徴抽出ユニット10は、異なる訓練されたConvNetにより、HIFs(Hidden Identity Features:隠し身元特徴)を顔の異なる領域から抽出し、そのうち、ConvNetの最後の隠れ層ニューロン活性化がHIFsとして見なされたように構成される。認証ユニット20は、抽出されたHIFsを連結させて特徴ベクトルを形成し、その後、形成されたベクトルにおける2つのベクトルを比較してこの2つのベクトルが同じ身元に由来するか否かを決定するように構成される。
ConvNetのそれぞれに対して、特徴抽出ユニット10は、特定領域およびその裏返したカウンターパート(flipped counterpart)をConvNetのそれぞれに入力してHIFsを抽出する。図3は、クロップ領域の例を示し、ここで、上方の10個の顔領域が中間スケールである。左上の5つの領域は、弱く位置合わせされた顔から得られた全体領域であり、右上の他の5つの領域は、5つの顔標認点(Facial Landmark)(2つの眼球中央、鼻先、および2つの口角)を中心とした局所領域である。図3の下部では、2つの特定パッチの3種類のスケールを示す。
本発明の一実施形態によれば、抽出されたHIFsのそれぞれが特徴ベクトルを形成することができる。形成されたベクトルは、図4に示される160次元を有してもよい。認証ユニット20は、各顔の全ての抽出されたHIFsを連結してより長い次元の特徴ベクトルを形成してもよい。例えば、図4に示される実施形態では、連結されたベクトルは19,200次元を有してもよい。
本発明の実施形態において、ConvNetのそれぞれは、複数のカスケードされた特徴抽出層、およびこれらの特徴抽出層の少なくとも1つに接続された最後の隠れ層を含んでもよく、ConvNetの現在層における特徴(当該特徴はConvNetの前層の特徴から抽出された特徴であり)の数は、ConvNetの最後の隠れ層から前記HIFsが取得されるまで、カスケードされた特徴抽出層に沿って減少し続ける。図4は、さらに39×31×kの入力を有するConvNetの詳細構造を示す。図4に示すように、ConvNetは、特徴を階層的に抽出するための4つの畳み込み層(最大プーリング(Max−pooling)に伴い)、続いて(完全接続の)HIFs層、および身元種類を指示するための(完全接続の)Softmax出力層を備える。ConvNetのそれぞれに入力された入力は、39×31×kの長方形のパッチ、および39×31×kの正方形のパッチであってもよく、そのうち、カラーのパッチに対してk=3であり、グレーのパッチに対してk=1である。入力サイズが変化する場合、後続層における特徴マップの高さおよび幅も対応して変化する。特徴数は、特徴抽出階層に沿って最後の隠れ層(HIFs層)まで減少し続け、それにより高コンパクトで予測的な特徴を形成し、これらの特徴は、少量の特徴のみを用いてより多くの身元種類を予測する。図4では、全ての入力層、畳み込み層および最大プーリング層に対して、各立方体の長さ、幅および高さは、各マップのマップ数および次元を示す。内部の小さな立方体および正方形は、それぞれ畳み込み層の3D畳み込みカーネルサイズ、および畳み込み層と最大プーリング層の2Dプーリング領域のサイズを示す。最後の2つの完全接続層のニューロン数は、各層の傍に示される。
実際には、抽出されたHIFsに基づいていずれかの顔認証モデルを用いることができる。統合ベイズ(Joint Bayesian)およびニューラルネットワークモデルは2つの例である。図5に示すように、認証ユニット20は、HIFsを取得するための入力層501と、局所接続層502と、完全接続層503と、顔類似度を指示するための単一出力ニューロン504とを備えるニューラルネットワークとして形成されてもよい。入力特徴は、例えば60組に分けられ、それぞれの組が、特定ConvNetを用いて特定パッチペアから抽出された例えば640個の特徴から構成してもよい。同一組における特徴は、相関性が高い。局所接続層における1組のニューロンユニット(例えば、図示される2つのニューロン)は、単一の組のみの特徴に接続されてそれらの局所関係を学習するとともに、特徴次元を減少させる。第2の隠れ層は、第1の隠れ層に完全に接続されて全体関係を学習する。単一出力ニューロンは、第2の隠れ層に完全に接続される。隠しニューロンは、例えばReLUであり、出力ニューロンは、例えばsigmoidである。図5は、ニューラルネットワーク構造の例を示す。例えば、当該ニューラルネットワーク構造は、各パッチからの19,200のHIFsを有する38,400の入力ニューロン、および後続の2つの隠れ層における4,800のニューロンを備えてもよく、第1の隠れ層における80ずつのニューロンは、60組の入力ニューロンの1組に局所的に接続される。
従来技術に公知されているDropout学習は、全ての隠しニューロンに用いられてもよい。学習された特徴は、コンパクトで分散された表現(非常に少ないニューロンで大量の身元を示し)であり、かつ、これらの特徴は、身元を良好に表現するように互いに協調する必要があり、このため、入力ニューロンがドロップされることができない。一方、勾配拡散のため、Dropoutがない場合、高次元特徴を学習することが難しい。当該問題を解決するために、本発明は、まず、複数(例えば、60)のサブネットワークを訓練し、サブネットワークのそれぞれは、各単一組の特徴を取って入力とする。図5は、特定のサブネットワークを示し、そして、本発明は、サブネットワークの第1層の重みを用いてオリジナルネットワークにおける第1層の重みを初期化し、かつ変更された第1層の重みを用いてオリジナルネットワークにおける第2層および第3層を調整する。
装置1000は、図3を参照して説明された上記顔の位置合わせされた領域の入力により、身元分類用の複数のConvNetを訓練するように構成される訓練ユニット30をさらに備える。ConvNetのそれぞれに対して、図8は、本発明のいくつかの実施形態に係る訓練プロセスを示す模式的フローチャートである。図示されるように、ステップS801において、所定の顔訓練セットから顔画像を選択する。一実施形態において、顔画像をランダムに選択することができる。ステップS802において、ConvNetへの入力を決定する。具体的には、当該入力は、S801で選択された顔からクロップされた顔パッチ(face patch)であってもよい。ConvNetの入力と対応するターゲット出力を予め決定し、当該ターゲット出力は、n番目の要素が1になる以外、他の要素がいずれもゼロになるベクトルであり、ここで、nは選択された顔画像が所属する身元種類の身元番号を表す。
次に、ステップS803において、順伝播処理により、上記のように決定された顔パッチをConvNetに入力してその出力を計算し、当該計算処理は、以下の式1および式2を参照して説明される畳み込み操作および最大プーリング操作を含んでもよい。
ステップS804において、計算された出力とターゲット出力とを比較し、計算された出力とターゲット出力との誤差信号を生成する。次に、ステップS805において、生成された誤差信号を逆伝播してConvNetを通過させてConvNetのパラメータを調整する。ステップS806において、訓練プロセスが収束するか否かを決定し、収束した場合、訓練プロセスを終了し、収束しない場合、訓練プロセスが収束したまで、ステップS801〜S805を繰り返し、それによりConvNetのパラメータを決定する。
以下、上記畳み込み操作および最大プーリング操作について更に説明する。
図4に示されるConvNetの各畳み込み層の畳み込み操作は、
で表われる。
式中、
および
は、それぞれi番目の入力特徴マップおよびj番目の出力特徴マップである。
は、i番目の入力特徴マップとj番目の出力特徴マップとの間の畳み込みカーネルである。*は畳み込みを表す。
はj番目の出力特徴マップのオフセット値である。本明細書において、ReLU非線形関数
は、隠しニューロンに用いられ、かつsigmoid関数よりも優れたフィッティング能力を有する。ConvNetの高い畳み込み層における重みは、部分的に共有されて異なる領域における異なる中レベルまたは高レベル特徴を学習する。rは重みが共有される局所領域を示す。図4に示される最大プーリングは、
として定式化されてもよく、
ただし、i番目の出力特徴マップ
における各ニューロンは、i番目の入力特徴マップ
におけるs×sの非重複局所領域の上にプーリングする。
HIFsの最後の隠れ層(最大プーリングの後)は、畳み込み層の少なくとも1つに完全接続されてもよい。好ましい実施形態では、HIFsの最後の隠れ層(最大プーリングの後)は、第3の畳み込み層および第4の畳み込み層に完全接続され、したがって、マルチスケール特徴(第4の畳み込み層における特徴は、第3の畳み込み層における特徴よりも全体的である)が明らかにされる。カスケードに沿って連続的にダウンサンプリングした後、第4の畳み込み層に含まれるニューロンが非常に少なく、かつ情報伝播のボトルネックになるため、特徴学習に対して非常に重要である。第3の畳み込み層(スキッピング層と呼ばれ)と最後の隠れ層との間にバイパス接続を追加して第4の畳み込み層に発生可能な情報紛失を低減させる。最後の隠れ層は、下記の関数
を取ってもよく、
式中、
は、それぞれ第3の畳み込み層および第4の畳み込み層におけるニューロンおよび重みを示す。それは、前の2つの畳み込み層における特徴を線形的に組み合わせ、その後にReLU非線形性にする。
ConvNetの出力yiは、マルチウエイ(例えば、4349ウエイ)のsoft−maxであり、複数(例えば、4349)の異なる身元に分布する可能性を予測する。形成されたベクトルが例として160次元のベクトルでありかつ4349の異なる身元がある場合、出力yiは、
と定式化されてもよく、
式中、
は、160個のHIFs
を線形的に組み合わせてニューロンjの出力とし、かつyjをその出力とする。ConvNetは、t番目のターゲット種類を用いて
を最小化することにより学習される。勾配が逆伝播により計算されて確率的勾配降下法が利用されてもよい。
図6は、本発明のいくつかの実施形態に係る顔認証方法を示すフローチャートである。図6では、データ処理操作を実現するために、プロセス200は、プロセッサ102〜106の1つ以上、または装置1000における各モジュール/ユニットにより実行可能な一連のステップを含む。説明の便宜のために、以下、装置1000における各モジュール/ユニットがハードウェアまたはハードウェアとソフトウェアとの組み合わせにより構成される場合を参照して説明する。当業者は、他の適切な装置またはシステムが以下のプロセスを実行することに適し、装置1000が当該プロセスを実行する説明のみに用いられると理解すべきである。
ステップS101において、装置1000は、異なる訓練されたConvNetにより、顔の異なる領域からHIFsを抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化がHIFsとして見なされる。一実施形態にいて、装置1000のユニット10は、例えば従来技術に開示される顔点検出法を用いて、2つの眼球中央、鼻先および2つの口角を含む5つの顔標認点を検出することができる。顔は2つの眼球中央および2つの口角の中間点に基づいて相似変換によって全体に位置合わせされる。例えば10個の領域、3種類のスケール、およびRGBまたはグレーチャンネルを有する、例えば60個の顔パッチから特徴を抽出する。図3は、10個の顔領域および2つの特定顔領域の3種類のスケールを示す。ユニット20は、60個のConvNetを訓練し、当該60個のConvNetのそれぞれは、特定パッチおよびその水平に裏返したカウンターパートから、160次元を有する2つのHIFsベクトルを抽出する。特別な場合として、2つの眼球中央および2つの口角の周りのパッチは、それらの自体が裏返されなく、それらと対称的なパッチが裏返される(例えば、右目を中心としたパッチを裏返して左目を中心としたパッチの裏返したカウンターパートを得る)。
次に、ステップS102において、装置1000は、第2の複数の顔のそれぞれに対して抽出されたHIFsを連結させて特徴ベクトルを形成する。訓練ユニット30が複数(例えば、60)のConvNetを訓練する例において、特徴抽出ユニット30は、これらの異なる訓練されたConvNetにより、顔の異なる領域からHIFsを抽出し、次に、顔のそれぞれに対して抽出されたHIFsを連結させて特徴ベクトルを形成し、60個のConvNetがあり、かつ当該60個のConvNetのそれぞれから160×2次元のHIFsを抽出する場合、特徴ベクトルの全長が19,200(160×2×60)であってもよい。連結されたHIFsは、最終の顔認証に用いられる。
次にステップS103において、装置1000は形成した、それぞれ2つの顔から抽出された2つのベクトルを比較し、それによりこの2つのベクトルが同じ身元に由来するか否かを決定する。本発明のいくつかの実施形態において、HIFsに基づく顔認証の統合ベイズ技術を用いてもよい。統合ベイズは、顔認証において非常に成功である。それは、2つの独立したガウス変数の和(平均値を控除したもの)により抽出された顔特徴xを表し、すなわち、
となり、
ただし、
は、顔の身元を表し、
は、個体内変動を表す。個体内変動や個体間変動

を設定することで、統合ベイズが2つの顔の同時確率(joint probability)をモデリングする。等式(5)は、この2つの確率もガウス変数であることを示し、それぞれ
および
であり、
SμおよびSεは、EMアルゴリズムを用いてデータから学習することができる。テストにおいて、尤度比を計算し、すなわち
となり、
それは、閉形式解を有し、かつ有効である。
図6は、図5に示されるニューラルネットワークモデルがステップS103においてどのように動作するかを示すフローチャートである。ステップS1031において、入力層501は、ステップS102で形成された特徴ベクトルのHIFsをn組に分ける。各組は、同一ConvNetにより抽出されたHIFsを含む。S1032において、局所接続層502は、各組のHIFsから局所特徴を抽出する。S1033において、完全接続層503は、前に抽出された局所特徴から全体特徴を抽出する。S1034において、出力ニューロン504は、前に抽出された全体特徴に基づいて単一顔類似度スコアを計算する。
本発明の好ましい実施例を説明したが、当業者は、本発明の基本的な発想に基づきこれらの実施例を変更や修正することができる。添付した特許請求の範囲は、好適な実施例および本発明の範囲内に属する全ての変更や修正を含むと理解できることを目的とする。
当業者は、本発明の趣旨と範囲を逸脱せずに本発明を変更や修正することができると明らかにされる。したがって、これらの変更や修正が特許請求の範囲および同等の技術的範囲に属する場合、これらの変更や修正も本発明の範囲に属する。

Claims (15)

  1. 異なる訓練されたConvNetにより、顔の異なる領域に対してHIFs(隠し身元特徴)を抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化が前記HIFsとして見なされるように構成される特徴抽出ユニットと、
    各前記顔から抽出されたHIFsを連結させて特徴ベクトルを形成し、前記形成された特徴ベクトルの2つを比較してそれらが同じ身元に由来するか否かを決定するように構成される認証ユニットとを備える
    顔認証装置。
  2. 顔の位置合わせされた領域の入力により、身元分類用の前記ConvNetを訓練するように構成される訓練ユニットをさらに備える
    請求項1に記載の装置。
  3. 前記認証ユニットは、
    前記HIFsを、同一ConvNetにより抽出されたHIFsをそれぞれ含む複数の組に分けるように構成される入力層と、
    各組のHIFsから局所特徴を抽出するように構成される局所接続層と、
    前に抽出された局所特徴から全体特徴を抽出するように構成される完全接続層と、
    抽出された全体特徴から単一の顔類似度スコアを計算し、計算されたスコアに基づいて前記2つの特徴ベクトルが同じ身元に由来するか否かを決定するように構成される出力ニューロンとを備える
    請求項1に記載の装置。
  4. 前記ConvNetのそれぞれに対して、前記特徴抽出ユニットは、特定の領域およびその裏返したカウンターパートを、各前記ConvNetに入力して前記HIFsを抽出するように構成される
    請求項1に記載の装置。
  5. 前記認証ユニットは、各顔から抽出された全てのHIFsを連結させて顔認証用の特徴ベクトルを形成するように構成される
    請求項4に記載の装置。
  6. 前記ConvNetのそれぞれは、複数のカスケードされた特徴抽出層、および前記特徴抽出層の少なくとも1つに接続された最後の隠れ層を含み、
    そのうち、前記ConvNetの前層特徴から抽出された、前記ConvNetの現在層における特徴の数は、前記ConvNetの最後の隠れ層から前記HIFsが取得されるまで、前記カスケードされた特徴抽出層に沿って減少し続ける
    請求項2に記載の装置。
  7. 前記ConvNetのそれぞれは、カスケードされた4つの特徴抽出層、および第3の特徴抽出層と第4の特徴抽出層に接続された前記最後の隠れ層を含む
    請求項6に記載の装置。
  8. 前記ConvNetのそれぞれに対して、前記訓練ユニットは、さらに、
    1)所定の顔訓練セットから顔画像を選択し、
    2)前記ConvNetのそれぞれに、選択された顔画像からクロップされた顔パッチである入力、およびn番目(nは、選択された顔画像の身元番号であり)の位置が1になる以外、他の位置がいずれもゼロになるベクトルであるターゲット出力を決定し、
    3)前記ConvNetにおける順伝播処理により、前記顔パッチを前記ConvNetに入力して出力を計算し、
    4)計算された出力と前記ターゲット出力とを比較して誤差信号を生成し、
    5)生成された誤差信号を逆伝播して前記ConvNetを通過させて前記ConvNetのパラメータを調整し、
    6)訓練プロセスが収束したまで、ステップ1)〜5)を繰り返して、それにより前記ConvNetのパラメータを決定するように構成される
    請求項2に記載の装置。
  9. 異なる訓練されたConvNetにより、各顔の異なる領域からHIFsを抽出し、そのうち、前記ConvNetの最後の隠れ層ニューロン活性化がHIFsとして見なされる抽出ステップと、
    各顔から抽出されたHIFsを連結させて特徴ベクトルを形成する連結ステップと、
    前記形成された特徴ベクトルの2つを比較してそれらが同じ身元に由来するか否かを決定する比較ステップとを含む
    顔認証方法。
  10. 顔の位置合わせされた領域の入力により、身元分類用の複数のConvNetを訓練する訓練ステップをさらに含む
    請求項9に記載の方法。
  11. 前記ConvNetのそれぞれに対する訓練ステップは、
    1)所定の顔訓練セットから顔画像を選択するステップと、
    2)前記ConvNetのそれぞれに、選択された顔画像からクロップされた顔パッチである入力、およびn番目(nは、選択された顔画像の身元番号であり)の位置が1になる以外、他の位置がいずれもゼロになるベクトルであるターゲット出力を決定するステップと、
    3)前記ConvNetにおける順伝播処理により、前記顔パッチを前記ConvNetに入力して、前記ConvNetの出力を計算するステップと、
    4)計算された出力と前記ターゲット出力とを比較して誤差信号を生成するステップと、
    5)生成された誤差信号を逆伝播して前記ConvNetを通過させて前記ConvNetのパラメータを調整するステップと、
    6)訓練プロセスが収束したまで、ステップ1)〜5)を繰り返して、それにより前記ConvNetのパラメータを決定するステップとを含む
    請求項10に記載の方法。
  12. 前記比較ステップは、
    形成された特徴ベクトルにおけるHIFsを、同一ConvNetにより抽出されたHIFsをそれぞれ含む複数の組に分けるステップと、
    各組のHIFsから局所特徴を抽出するステップと、
    前に抽出された局所特徴から全体特徴を抽出するステップと、
    抽出された全体特徴から単一の顔類似度スコアを計算して前記スコアに基づいて前記2つの特徴ベクトルが同じ身元に由来するか否かを決定するステップとをさらに含む
    請求項9に記載の方法。
  13. 前記ConvNetのそれぞれに対して、前記抽出ステップは、
    特定領域およびその裏返したカウンターパートを前記ConvNetのそれぞれに入力して前記HIFsを抽出するステップを含む
    請求項9に記載の方法。
  14. 前記連結ステップは、
    各顔の全ての抽出されたHIFsを連結させて特徴ベクトルを形成するステップを含む
    請求項9に記載の方法。
  15. 前記ConvNetのそれぞれは、複数のカスケードされた特徴抽出層、および前記特徴抽出層の少なくとも1つに接続された最後の隠れ層を含み、
    そのうち、前記ConvNetの前層特徴から抽出された、前記ConvNetの現在層における特徴の数は、前記ConvNetの最後の隠れ層から前記HIFsが取得されるまで、前記カスケードされた特徴抽出層に沿って減少し続ける
    請求項10に記載の方法。
JP2016560685A 2014-04-11 2014-04-11 顔認証方法およびシステム Active JP6159489B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/000390 WO2015154206A1 (en) 2014-04-11 2014-04-11 A method and a system for face verification

Publications (2)

Publication Number Publication Date
JP2017513144A true JP2017513144A (ja) 2017-05-25
JP6159489B2 JP6159489B2 (ja) 2017-07-05

Family

ID=54287073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016560685A Active JP6159489B2 (ja) 2014-04-11 2014-04-11 顔認証方法およびシステム

Country Status (4)

Country Link
US (1) US9811718B2 (ja)
JP (1) JP6159489B2 (ja)
CN (1) CN106358444B (ja)
WO (1) WO2015154206A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135859A (ja) * 2019-02-19 2020-08-31 富士通株式会社 分類モデルの訓練装置及び方法、並びに分類モデルを用いる分類装置
JP2020135857A (ja) * 2019-02-19 2020-08-31 富士通株式会社 分類モデルを訓練する装置と方法及び分類モデルを用いた分類装置
JP2020181404A (ja) * 2019-04-25 2020-11-05 住友電気工業株式会社 画像分類器、画像分類方法及びコンピュータプログラム
JP2021157468A (ja) * 2020-03-26 2021-10-07 株式会社Mobility Technologies プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826530B (zh) * 2014-11-15 2023-06-30 北京旷视科技有限公司 使用机器学习进行面部检测
WO2017070858A1 (en) * 2015-10-28 2017-05-04 Beijing Sensetime Technology Development Co., Ltd A method and a system for face recognition
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
CN106991364B (zh) * 2016-01-21 2020-06-12 阿里巴巴集团控股有限公司 人脸识别处理方法、装置以及移动终端
US10424072B2 (en) 2016-03-01 2019-09-24 Samsung Electronics Co., Ltd. Leveraging multi cues for fine-grained object classification
US11461919B2 (en) 2016-04-21 2022-10-04 Ramot At Tel Aviv University Ltd. Cascaded neural network
GB2549554A (en) 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
US10579860B2 (en) 2016-06-06 2020-03-03 Samsung Electronics Co., Ltd. Learning model for salient facial region detection
CN106127120B (zh) * 2016-06-16 2018-03-13 北京市商汤科技开发有限公司 姿势估计方法和装置、计算机系统
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN107992728B (zh) * 2016-10-27 2022-05-20 腾讯科技(深圳)有限公司 人脸验证方法及装置
US10474883B2 (en) * 2016-11-08 2019-11-12 Nec Corporation Siamese reconstruction convolutional neural network for pose-invariant face recognition
SG11201811691RA (en) * 2017-06-30 2019-01-30 Beijing Didi Infinity Technology & Development Co Ltd Systems and methods for verifying authenticity of id photo
CN108062538A (zh) * 2017-12-29 2018-05-22 成都智宝大数据科技有限公司 人脸识别方法及装置
US10528800B2 (en) * 2018-01-10 2020-01-07 International Business Machines Corporation Automated facial recognition detection
CN108399409B (zh) 2018-01-19 2019-06-18 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
CN108830211A (zh) * 2018-06-11 2018-11-16 厦门中控智慧信息技术有限公司 基于深度学习的人脸识别方法及相关产品
US10747989B2 (en) * 2018-08-21 2020-08-18 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
US11003892B2 (en) * 2018-11-09 2021-05-11 Sap Se Landmark-free face attribute prediction
CN109766754B (zh) * 2018-12-04 2024-08-06 平安科技(深圳)有限公司 人脸五官聚类方法、装置、计算机设备及存储介质
US11158351B1 (en) 2018-12-20 2021-10-26 Snap Inc. Segment action detection
CN110188223B (zh) * 2019-06-06 2022-10-04 腾讯科技(深圳)有限公司 图像处理方法、装置及计算机设备
CN112240964B (zh) * 2019-07-16 2023-06-20 北京映翰通网络技术股份有限公司 一种用于配电网故障类型识别的方法
CN110489955B (zh) * 2019-08-23 2021-07-27 中国工商银行股份有限公司 应用于电子设备的图像处理、装置、计算设备、介质
CN111079594B (zh) * 2019-12-04 2023-06-06 成都考拉悠然科技有限公司 一种基于双流协同网络的视频动作分类识别方法
CN111968264A (zh) * 2020-10-21 2020-11-20 东华理工大学南昌校区 体育项目时间登记装置
CN112257600B (zh) * 2020-10-22 2022-06-28 武汉新可信息技术有限公司 一种人脸识别方法及系统
CN113283368B (zh) * 2021-06-08 2023-10-20 电子科技大学中山学院 一种模型训练方法、人脸属性分析方法、装置及介质
CN114544155B (zh) * 2022-01-28 2024-10-25 江苏科技大学 基于深度学习的auv推进器多信源融合故障诊断方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8553984B2 (en) * 2008-06-02 2013-10-08 Massachusetts Institute Of Technology Fast pattern classification based on a sparse transform
TWI415011B (zh) 2009-12-17 2013-11-11 Ind Tech Res Inst 人臉辨識方法及應用此方法之系統
KR101300247B1 (ko) * 2011-11-11 2013-08-26 경희대학교 산학협력단 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법
US8700552B2 (en) * 2011-11-28 2014-04-15 Microsoft Corporation Exploiting sparseness in training deep neural networks
US9275269B1 (en) * 2012-11-09 2016-03-01 Orbeus, Inc. System, method and apparatus for facial recognition
CN103605972B (zh) 2013-12-10 2017-02-15 康江科技(北京)有限责任公司 一种基于分块深度神经网络的非限制环境人脸验证方法
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
US9418319B2 (en) * 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
CN105844202A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种影像识别系统及方法
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020135859A (ja) * 2019-02-19 2020-08-31 富士通株式会社 分類モデルの訓練装置及び方法、並びに分類モデルを用いる分類装置
JP2020135857A (ja) * 2019-02-19 2020-08-31 富士通株式会社 分類モデルを訓練する装置と方法及び分類モデルを用いた分類装置
JP7347202B2 (ja) 2019-02-19 2023-09-20 富士通株式会社 分類モデルを訓練する装置と方法及び分類モデルを用いた分類装置
JP2020181404A (ja) * 2019-04-25 2020-11-05 住友電気工業株式会社 画像分類器、画像分類方法及びコンピュータプログラム
JP2021157468A (ja) * 2020-03-26 2021-10-07 株式会社Mobility Technologies プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法
JP7453828B2 (ja) 2020-03-26 2024-03-21 Go株式会社 プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法

Also Published As

Publication number Publication date
US20170147868A1 (en) 2017-05-25
JP6159489B2 (ja) 2017-07-05
CN106358444A (zh) 2017-01-25
CN106358444B (zh) 2019-07-30
WO2015154206A1 (en) 2015-10-15
US9811718B2 (en) 2017-11-07

Similar Documents

Publication Publication Date Title
JP6159489B2 (ja) 顔認証方法およびシステム
Zhang et al. Fusing geometric features for skeleton-based action recognition using multilayer LSTM networks
US10289897B2 (en) Method and a system for face verification
Fang et al. 3d deep shape descriptor
Baccouche et al. Sequential deep learning for human action recognition
Huynh et al. Detection of driver drowsiness using 3D deep neural network and semi-supervised gradient boosting machine
EP3074918B1 (en) Method and system for face image recognition
US20180285739A1 (en) Deep learning for characterizing unseen categories
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
Santhalingam et al. Sign language recognition analysis using multimodal data
Sultan et al. Sign language identification and recognition: A comparative study
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
Zhai et al. Face verification across aging based on deep convolutional networks and local binary patterns
Al Hamad Use an efficient neural network to improve the Arabic handwriting recognition
Islam et al. A facial region segmentation based approach to recognize human emotion using fusion of HOG & LBP features and artificial neural network
Zou et al. Application of facial symmetrical characteristic to transfer learning
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Huang et al. Analyzing group-level emotion with global alignment kernel based approach
Saha et al. Topomorphological approach to automatic posture recognition in ballet dance
Bharathi et al. Expression Recognition using YOLO and Shallow CNN Model
Mohd Ali et al. Performance comparison between ANN and PCA techniques for road signs recognition
Sun Facial expression classification using R-CNN based methods
Dubey et al. Optimizing Emotion Recognition Through Weighted Averaging in Deep Learning Ensembles
Serj et al. A time-distributed convolutional long short-term memory for hand gesture recognition
Ingale et al. Deep Learning for Crowd Image Classification for Images Captured Under Varying Climatic and Lighting Condition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170609

R150 Certificate of patent or registration of utility model

Ref document number: 6159489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250