JP6127214B2 - 顔画像認識のための方法とシステム - Google Patents

顔画像認識のための方法とシステム Download PDF

Info

Publication number
JP6127214B2
JP6127214B2 JP2016540679A JP2016540679A JP6127214B2 JP 6127214 B2 JP6127214 B2 JP 6127214B2 JP 2016540679 A JP2016540679 A JP 2016540679A JP 2016540679 A JP2016540679 A JP 2016540679A JP 6127214 B2 JP6127214 B2 JP 6127214B2
Authority
JP
Japan
Prior art keywords
face
feature
identity
convolutional neural
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016540679A
Other languages
English (en)
Other versions
JP2016538656A (ja
Inventor
タン、シャオオウ
ソン、イ
ワン、シャオガン
Original Assignee
ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド, ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド filed Critical ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Publication of JP2016538656A publication Critical patent/JP2016538656A/ja
Application granted granted Critical
Publication of JP6127214B2 publication Critical patent/JP6127214B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

本発明は、主に画像処理分野に関し、具体的に、顔画像認識のための方法、およびシステムに関する。
顔画像認識の基礎は、生物学的特徴に基いて2つの比較される顔が同じ身元に所属するか否かを確認することである。他の従来の認識装置(例えば、指紋認識)を用いて認識する場合に比べると、顔画像認識は、正確で使いやすく、偽造が困難であり、コストが低く、且つ非侵襲的な特徴を持っているため、セキュリティ用途のアプリケーションにおいて広く使用されている。最近数十年において、顔画像認識は、幅広く研究されてきた。従来の顔画像認識のための方法は、通常、特徴の抽出および特徴の認識という2つのステップを含む。特徴抽出段階では、さまざまな手描き特徴が使用される。より重要なことは、既存の方法では単独に各顔画像から特徴を抽出してから、顔認識段階でこれらの特徴を比較する。しかしながら、特徴抽出段階において、2つの比較された顔画像の間の重要な関係の一部を失う可能性がある。
認識段階において、分類器は2つの顔画像に対して同じ身元を持っているもの、または異なる身元を持っているものに分類し、あるいは他のモデルで2つの顔画像の類似性を計算する。これらのモデルは、人物間変化と人物内変化とを分けることを目的とする。しかしながら、これらのモデルの全ては、浅い構造を有する。複雑な分布を持つ大規模なデータを処理するために、顔から過完備特徴(over−completed feature)を抽出する必要となる可能性がある。また、特徴抽出段階と認識段階とが分けられているため、それらは共同で最適化されることができない。有用な情報が特徴抽出段階で失われると、それは認識段階で回復することができなくなる。
本発明は、顔身元を監督する場合において比較された顔画像に由来した顔領域ペアから、関係特徴を直接で共同的に抽出することを提案している。単一の深いネットワーク・アーキテクチャの下で、特徴抽出段階と認識段階との両方が統合され、且つ全てのコンポーネントが顔認識のために共同で最適化されることができる。
本発明の一態様において、顔画像認識のための方法が開示されている。前記方法は、比較・認識すべき顔画像の1つ以上の顔領域ペアを生成する生成ステップと、各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成する形成ステップと、1つ以上の畳み込みニューラルネットワークにより、前記複数の特徴モード(ここで、各特徴モードが前記畳み込みニューラルネットワークのいずれにも複数の入力マップを形成する)を受信する受信ステップと、前記1つ以上の畳み込みニューラルネットワークにより、前記入力マップから身元関係特徴を抽出する抽出ステップ(ここで、抽出された大局でハイレベルの身元関係特徴は、比較された顔画像の身元類似性を反映する)と、比較された顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識する認識ステップと、を含んでもよい。
本発明の他の一態様において、顔画像認識のためのシステムが開示される。前記システムは、生成ユニットと、形成ユニットと、1つ以上の畳み込みニューラルネットワークと、プーリングユニットと、認識ユニットとを含んでもよい。前記生成ユニットは、比較・認識すべき顔画像の1つ以上の顔領域ペアを生成するように構成されてもよい。前記形成ユニットは、各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成されてもよい。前記畳み込みニューラルネットワークは、前記複数の特徴モードを受信し、且つ前記複数の入力マップから身元関係特徴を階層的に抽出するように構成されてもよく、ここで、各特徴モードが複数の入力マップを形成し、抽出された大局ハイレベルの身元関係特徴が前記顔画像の身元類似性を反映する。前記プーリングユニットは、関連関係特徴をプールして安定でコンパクトな関係特徴を得るように構成されてもよい。前記認識ユニットは、前記顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識するように構成されてもよい。
本発明の他の一態様において、顔画像認識システムに用いられる身元関係特徴を抽出するための複数の畳み込みニューラルネットワークが開示される。各畳み込みニューラルネットワークは、複数の畳み込み層を含んでもよく、前記関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含んでもよい。前記畳み込みニューラルネットワークのいずれも、前記顔画像認識システムから複数の特徴モードを受信するように構成されてもよい。各特徴モードが前記畳み込みニューラルネットワークに複数の入力マップを形成する。前記畳み込みニューラルネットワークは、比較的低い畳み込み層における前記入力マップから、局所ローレベル関係特徴を抽出し、且つ、抽出された局所ローレベル関係特徴に基いて後の特徴抽出層から比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出する。
以下、図面を参照して本発明の例示的な非限定的実施形態を説明する。図面は、例示的なものであり、一般的に正確なスケールで作成されていない。
いくつかの開示された実施形態に係る顔画像認識のためのシステムを例示的に示す概略図である。
いくつかの開示された実施形態に係る生成ユニットを例示的に示す概略図である。
いくつかの開示された実施形態に係る顔画像認識のためのシステムのアーキテクチャーを例示的に示す概略図である。
いくつかの開示された実施形態に係る畳み込みニューラルネットワークのアーキテクチャーを例示的に示す概略図である。
いくつかの開示された実施形態に係る顔画像認識のための方法を例示的に示す流れ図である。
以下、例示的な実施形態を詳細に参照し、これらの実施形態の例が図面に示されている。必要に応じて、全ての図面にいて、同じまたは類似の部分が同じ参照番号で示されている。
図1は、いくつかの開示された実施形態に係る顔画像認識のためのシステム1000を例示的に示す概略図である。システム1000は、1つ以上の汎用コンピュータ、1つ以上のコンピュータクラスター、1つ以上の主流コンピュータ、1つ以上のオンラインコンテンツを提供する専用コンピュータ機器、あるいは、1組の集中もしくは分散の形で操作されるコンピュータを備える1つ以上のコンピュータネットワークを含んでもよい。
図1に示すように、本発明の一実施形態に係るシステム1000は、生成ユニット110と、形成ユニット120と、1つ以上の畳み込みニューラルネットワーク130と、プーリングユニット140と、認識ユニット150とを含んでもよい。
生成ユニット110は、認識すべき顔画像の1つ以上の顔領域ペアを生成するように構成されてもよい。本発明の一実施形態において、図2に示すように、生成ユニット110は、検出モジュール111と、位置合わせモジュール112と、選択モジュール113とを含んでもよい。検出モジュール111は、認識すべき顔画像の複数の顔特徴点を検出することができる。例えば、これらの顔特徴点は、両目の中心および口の中心であってもよい。位置合わせモジュール112は、検出された顔特徴点に基いて認識すべき顔画像を位置合わせする。本発明の一実施形態において、顔画像は、顔特徴点に基いて類似変換によって位置合わせされてもよい。なお、選択モジュール113は、認識すべき位置合わせされた顔画像の同じ位置における1つ以上の領域を選択してそれぞれ1つ以上の顔領域ペアを生成することができる。複数の異なる顔領域ペアを形成するために、選択された顔領域の位置を変更してもよい。
形成ユニット120は、各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成されてもよい。例えば、一実施形態において、2つの顔領域を交換して各顔領域を水平に反転することにより、8つのモードを形成してもよい。
1つ以上の畳み込みニューラルネットワーク130は、複数の特徴モードを受信するように構成されてもよい。各特徴モードは、複数の入力マップを形成してもよい。畳み込みニューラルネットワークは、複数の入力マップから身元関係特徴を階層的に抽出する。畳み込みニューラルネットワークの比較的に高い畳み込み層における抽出された全局で高水準の関係特徴は、比較された顔画像の身元類似性を反映する。図4に示すように、本発明の一実施形態において、畳み込みニューラルネットワーク130は、複数の畳み込み層を含んでもよく、例えば、本実施形態に4つの畳み込み層を含む。畳み込み層は、身元関係特徴を階層的に抽出することができる。さらに、関係特徴は、局所ローレベル関係特徴と、大局ハイレベル関係特徴とを含んでもよい。各畳み込みニューラルネットワークは、比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出し、且つ、抽出された局所ローレベル関係特徴に基いて後の特徴抽出層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するようにさらに構成されてもよい。
また、本発明の一実施形態において、畳み込みニューラルネットワークは、複数の組(例えば、12組)に分けられてもよく、その中で、各組において複数(例えば、5つ)の畳み込みニューラルネットワークが存在してもよい。各畳み込みニューラルネットワークは、1対の位置合わせすれた顔領域を入力としている。その畳み込み層は、身元関係特徴を階層的に抽出する。最終的に、図4に示すように、抽出された関係特徴は、完全連続層を通過して、2つの領域が同じ身元に所属するか否かを指示する出力層(例えば、SoftMax層)に完全に接続されている。異なる組における畳み込みニューラルネットワークの入力領域ペアは、それらの予測を相補させるために、領域範囲および色チャンネルについて異なっている。入力領域のサイズが異なる組に変化する場合に、畳み込みニューラルネットワークの後続層(following layers)における入力マップのサイズは、それ相応に変化する。同じ組における畳み込みニューラルネットワークは、同じ種類の領域ペアを入力としているが、訓練データの異なるブートストラップを用いて訓練されるため、依然として異なっている。複数の組の畳み込みニューラルネットワークを構築する目的は、予測の頑健性(robustness)を実現することである。
また、一実施形態において、1対のグレー領域(gray region)が畳み込みニューラルネットワークにおける2つの入力マップを形成すると共に、1対の色領域が6つの入力マップを形成し、したがって各グレーマップを、RGBチャンネルに由来する3つのマップと取り替える。入力領域は、1つのマップとして接続・形成されることなく、複数のマップに積層されており、これにより、畳み込みニューラルネットワークに、第1の畳み込み段階に由来の2つの領域の間の関係をモデル化させることを可能とする。
一実施形態によれば、畳み込みニューラルネットワークの各畳み込み層における動作は、
式(1)
で表われることができる。
式中、*は畳み込みを表し、xおよびyはそれぞれ第iの入力マップおよび第jの出力マップであり、kijは、第iの入力マップと第jの出力マップとを連続する畳み込みのカーネル(フィルタ)であり、且つbは、第jの出力マップのバイアスであり、max(0, )は、非線形活性化関数であり、要素ごとに動作されている。このような非線形度を有するニューロンは、整流線形ユニット(rectified linear units)と呼ばれる。なお、比較的高い畳み込み層における同じマップの中のニューロンの重み(畳み込みカーネルとバイアスが含まれる)は、局所的に共有されている。上付きの「r」は、その重みが共有された局所的な領域を示す。顔は、構造化された対象であるため、比較的高い層において重みを局所的に共有することは、ネットワークが異なる位置において異なる高水準特徴を習得することを可能とする。
一実施形態によれば、例えば、第1の畳み込み層は、20個のフィルターペアを含む。各フィルターペアは、比較された2つの顔領域をそれぞれ畳み込み、結果が追加される。その中で1つのフィルターが比較的大きく変化する一方、もう1つのフィルターが均一に近く維持しているフィルターペアについては、2つの入力領域から別々に特徴を抽出する。その中で2つのフィルターがいずれも比較的大きく変化するフィルターペアについては、2つの入力領域の間のいくつかの種類関係を抽出する。後者について、いくつかのペアが、例えば、足し算や引き算という単純な関係を抽出するが、他のペアがより複雑な関係を抽出する。いくつかのフィルターペアにおけるフィルターと、その他のいくつかのフィルターペアにおけるフィルターとは、ほぼ同じであり、相違点は2つのフィルターの順序が反転していることを注意すべきである。これは、比較された2つの顔領域の順序が変化したとしても、顔の類似性が変化しないままで維持すべきであるため、このようにすれば意義がある。
前記実施形態によれば、畳み込みニューラルネットワーク130の出力マップは、双方向ソフトマックス(SoftMax)
式(2)
で表される。
i=1,2について、ここで、xは、出力ニューロンiの総入力マップであり、且つ、yは、出力ニューロンiの出力である。yは、2つの分類(class)の確率分布を表し、すなわち同じ身元に所属するか否か。このような確率分布では、複数の畳み込みニューラルネットワークの出力を、スケーリングしないままで、直接に平均するように効率的にさせる。畳み込みニューラルネットワークは、最小化の−log yにより訓練され、その中で、t∈{1,2}は、ターゲット分類を示す。損失は、確率的勾配降下により最小化され、ここで、勾配が逆伝搬によって計算される。
本発明の一実施形態において、畳み込みニューラルネットワーク130における各畳み込みニューラルネットワークは、複数の入力特徴モードから関係特徴を抽出することができる。また、複数の畳み込みニューラルネットワークは存在してもよく、その中で、各組には、複数の畳み込みニューラルネットワークを有し、ここで、同じ組における畳み込みニューラルネットワークは、同じ顔領域ペアから身元関係特徴を抽出する一方、異なる組における畳み込みニューラルネットワークは、異なる顔領域ペアから特徴を抽出する。
図1に示すように、システム1000はプーリングユニット140を含んでもよく、前記プーリングユニットは、抽出された身元関係特徴をプーリングして個々の特徴の分散を減少させ、且つそれらの身元関係に対する予測の正確さを向上させる。例えば、本発明の一実施形態において、畳み込みニューラルネットワークに由来する出力の身元関係特徴に対して2つのレベルの平均プーリングが用いられる。図3に示すように、層L1は、8つの異なる入力特徴モードに基いて同じ畳み込みニューラルネットワークの8つの身元関係予測の平均により形成される。層L2は、層L1における、同じ組の中の5つの畳み込みニューラルネットワークに関連付けられている5つのプーリング予測を平均することにより形成された。
認識ユニット150は、畳み込みニューラルネットワークユニット130により抽出された関係特徴、またはプーリングユニット140に由来するプーリング関係特徴に基いて、顔画像が同じ身元に所属するか否かを認識するように構成されてもよい。認識ユニット150は、分類器、例えば、ベイズ分類器、サポートベクターマシン(Support Vector Machine)、またはニューラルネットワーク分類器を含んでもよく、且つ、当該分類器は、抽出された関係特徴を、2つの種類(即ち、同じ身元に所属するか否か)に分類するように構成されてもよい。図3における一実施形態において、認識ユニット150は、分類が制限されたボルツマンマシンであり、階層的にプーリングした後に、前記認識ユニットは、複数の組の畳み込みニューラルネットワークの出力を入力としており、且つ同じ身元に所属するか否かという2つの種類に対して確率分布を出力する。
例えば、分類が制限されたボルツマンマシンは、出力ニューロンy(Cクラスの出力の1つである)と、入力ニューロンx(2進法)と、隠れニューロンh(2進法)との間の結合分布を、p(y,x,h)∝e−E(y,x,h)にモデル化し、その中で、E(y,x,h)=−hWx−hUy−bx−ch−dyである。入力xを設定し、その出力yの条件確率は、
式(3)
として明らかに表示されることができ、
その中で、cは、第cのクラスを示す。
多くの畳み込みニューラルネットワークは、システム1000が比較的高い容量を有することが表示される。システム全体を直接に最適化することは、深刻な過剰適合を起こす原因となる。したがって、まず、システムにおける各畳み込みニューラルネットワークを個別に訓練してもよい。その後、全ての畳み込みニューラルネットワークを固定することにより、認識ユニットにおけるモデルが訓練される。比較された2つの顔が同じ身元に所属するか否かを予測するために、全ての畳み込みニューラルネットワークおよび認識ユニットにおけるモデルを、教師ありで訓練してもよい。これらの2つのステップは、よい局所極小に近くになるようにシステム1000を初期化する。最終的に、システム全体は、逆伝搬エラーにより、認識ユニットにおけるモデルから、全ての畳み込みニューラルネットワークまで微調整された。
本発明の一実施形態において、システム1000は、1つ以上のプロセッサ(図示せず)を含んでもよい。当該プロセッサは、中央処理装置(「CPU」)、グラフィック処理装置(「GPU」)、または他の適切な情報処理機器を含んでもよい。使用されているハードウエアの種類に基いて、プロセッサは、1つ以上のプリント回路基板、および/または1つ以上のマイクロプロセッサチップを含んでもよい。また、プロセッサは、メモリに格納されているコンピュータプログラム命令を実施して図5に示すプロセス5000を実行するように構成されている。
ステップS201において、システム1000は、認識すべき顔画像の1つ以上の顔領域ペアを生成してもよい。本発明の一実施形態において、システム1000は、まず、認識すべき顔画像の1つ以上の顔特徴点を検出してもよい。その後、システム1000は、1つ以上の検出された顔特徴点に基いて、認識すべき顔画像を位置合わせてもよい。次に、システム1000は、認識すべき位置合わせされた顔画像の同じ位置における1つ以上の領域を選択してそれぞれ1つ以上の顔領域ペアを生成してもよい。
ステップS202において、システム1000は、各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成してもよい。
ステップS203において、1つ以上の畳み込みニューラルネットワーク130は、複数の特徴モードを受信して畳み込みニューラルネットワークにおいて複数の入力マップを形成し、且つ、入力マップから1つ以上の関係特徴を抽出して複数の出力マップを形成してもよく、前記出力マップは、比較された顔画像の身元関連性、すなわち、同じ人に所属するか否かを反映する。
ステップS204において、システム1000は、抽出された身元関係特徴をプーリングし、例えば、平均プーリングにして個々の特徴の分散を減少させてもよい。このステップは、任意的である。
ステップS205において、システム1000は、顔画像の身元関係特徴に基いて顔画像が同じ身元に所属するか否かを認識してもよい。
本発明の実施形態では、特定のハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実施してもよい。また、本発明の実施形態は、コンピュータプログラムコードを含有する1つ以上のコンピュータ読み取り可能な記憶媒体(ディスク記憶装置、CD−ROM、光メモリ等を含むがこれらに限定されない)上に具現されているコンピュータプログラム製品として適切に構成されてもよい。
上記の説明では、例示的な目的として、様々な方法、ステップ、またはコンポーネントを、一緒に単一の実施形態に組み合わせてもよい。本発明は、保護を請求すべき主題に対して開示された変化の全てを必要とすると解釈されるべきではない。記載されている特許請求の範囲は、上記の例示的な実施形態に対する説明の中に組み込まれており、その中の各請求項その自身は、本発明の独自の実施形態として表われている。
なお、本発明に開示された範囲から逸脱しない場合、保護を請求するように開示されたシステムおよび方法に対して様々な修正および変形を行う可能であることは、本明細書の開示および本発明の実践に基いて、当業者であれば明らかであろう。したがって、明細書および実施例は、ただ例示的なものと考えられ、本開示の実際の範囲は、記載されている請求の範囲およびそれらの均等物により示されている。

Claims (13)

  1. 比較・認識すべき顔画像の1つ以上の顔領域ペアを生成する生成ステップと、
    各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成する形成ステップと、
    1つ以上の畳み込みニューラルネットワークにより、前記複数の特徴モードを受信し、ここで、各特徴モードが複数の入力マップを形成する受信ステップと、
    比較された顔画像の身元関係を反映する複数の出力マップを形成するように、前記1つ以上の畳み込みニューラルネットワークにより、前記入力マップから1つ以上の身元関係特徴を抽出する抽出ステップと、
    前記顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識する認識ステップと、を含むことを特徴とする顔画像認識のための方法。
  2. 前記生成ステップは、
    認識すべき前記顔画像の複数の顔特徴点を検出するステップと、
    検出された1つ以上の顔特徴点に基いて、認識すべき前記顔画像を位置合わせするステップと、
    位置合わせされた顔画像の同じ位置における複数の領域を選択してそれぞれ1つ以上の顔領域ペアを生成するステップとを、さらに含むことを特徴とする請求項1に記載の方法。
  3. 前記畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
    前記抽出ステップは、
    前記畳み込みニューラルネットワークの比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出するステップと、
    抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するステップと、を含むことを特徴とする請求項1に記載の方法。
  4. 前記抽出ステップの後で前記認識ステップの前に、前記方法は、
    抽出された関係特徴をプーリングして安定でコンパクトな関係特徴を取得するステップをさらに含むことを特徴とする請求項1に記載の方法。
  5. 前記抽出ステップは、
    同じ畳み込みニューラルネットワークにより、異なる入力特徴モードで構成された入力マップから前記身元関係特徴を抽出するステップ、或いは、
    異なる畳み込みニューラルネットワークにより、異なる顔領域ペアの同じ領域から前記身元関係特徴を抽出するステップを含むことを特徴とする請求項1に記載の方法。
  6. 前記顔領域ペアの各顔領域は、複数の色チャンネルを含み、各顔領域における各色チャンネルは、前記畳み込みニューラルネットワークにおいて入力マップを形成することを特徴とする請求項1に記載の方法。
  7. 比較・認識すべき顔画像の1つ以上の顔領域ペアを生成するように構成された生成ユニットと、
    各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成された形成ユニットと、
    各特徴モードが複数の入力マップを形成する前記複数の特徴モードを受信し、さらに、比較された顔画像の身元類似性を反映する身元関係特徴を、前記入力マップから階層的に抽出するように構成された1つ以上の畳み込みニューラルネットワークと、
    比較された顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識するように構成された認識ユニットと、を含むことを特徴とする顔画像認識のためのシステム。
  8. 前記生成ユニットは、
    認識すべき顔画像の複数の顔特徴点を検出するように構成された検出モジュールと、
    前記検出された顔特徴点に基いて、認識すべき前記顔画像を位置合わせするように構成された位置合わせモジュールと、
    位置合わせされた認識すべき顔画像の同じ位置における1つ以上の領域を選択し、それぞれ1つ以上の顔領域ペアを生成するように構成された選択モジュールと、を含むことを特徴とする請求項7に記載のシステム。
  9. 前記畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
    前記畳み込み層はいずれも、
    前記畳み込みニューラルネットワークの比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出し、
    抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、前記顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するようにさらに構成されたことを特徴とする請求項7に記載のシステム。
  10. 抽出された関係特徴をプーリングして安定でコンパクトな関係特徴を取得するように構成されたプーリングユニットを、さらに含むことを特徴とする請求項7に記載のシステム。
  11. 前記畳み込み層はいずれも、
    同じ畳み込みニューラルネットワークにより、異なる入力特徴モードで構成された入力マップから前記身元関係特徴を抽出するように、或いは
    異なる畳み込みニューラルネットワークにより、異なる顔領域ペアの同じ領域から前記身元関係特徴を抽出するようにさらに構成された請求項7に記載のシステム。
  12. 前記顔領域ペアの各顔領域は、複数の色チャンネルを含み、各顔領域における各色チャンネルは、前記畳み込みニューラルネットワークにおいて入力マップを形成することを特徴とする請求項7に記載のシステム。
  13. 元関係特徴を抽出するための複数の畳み込みニューラルネットワークを用いた顔画像認識のためのシステムであって、各畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
    前記システムは、
    コンピュータプログラム命令を格納するメモリと、
    前記コンピュータプログラム命令を実行するプロセッサとを含み、
    前記コンピュータプログラム命令は、
    比較・認識すべき顔画像の各顔領域ペアの2つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成し、
    各畳み込みニューラルネットワークにおいて、1つの特定の顔領域ペアの1つの特定の特徴モードを受信して複数の入力マップを形成し、
    前記畳み込みニューラルネットワークの比較的低い畳み込み層における前記入力マップから、局所ローレベル関係特徴を抽出し、
    抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するように構成されたことを特徴とする顔画像認識のためのシステム
JP2016540679A 2013-11-30 2013-11-30 顔画像認識のための方法とシステム Active JP6127214B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/088254 WO2015078018A1 (en) 2013-11-30 2013-11-30 Method and system for face image recognition

Publications (2)

Publication Number Publication Date
JP2016538656A JP2016538656A (ja) 2016-12-08
JP6127214B2 true JP6127214B2 (ja) 2017-05-10

Family

ID=53198257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016540679A Active JP6127214B2 (ja) 2013-11-30 2013-11-30 顔画像認識のための方法とシステム

Country Status (7)

Country Link
US (1) US9530047B1 (ja)
EP (1) EP3074918B1 (ja)
JP (1) JP6127214B2 (ja)
KR (1) KR20160083127A (ja)
CN (1) CN105849747B (ja)
HK (2) HK1223439A1 (ja)
WO (1) WO2015078018A1 (ja)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015078018A1 (en) 2013-11-30 2015-06-04 Xiaoou Tang Method and system for face image recognition
US9978014B2 (en) * 2013-12-18 2018-05-22 Intel Corporation Reconfigurable processing unit
CN106471526B (zh) 2014-08-29 2019-03-08 谷歌有限责任公司 用于处理图像的方法和系统
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
WO2016074247A1 (en) * 2014-11-15 2016-05-19 Beijing Kuangshi Technology Co., Ltd. Face detection using machine learning
KR102486699B1 (ko) 2014-12-15 2023-01-11 삼성전자주식회사 영상 인식 방법, 영상 검증 방법, 장치, 및 영상 인식 및 검증에 대한 학습 방법 및 장치
US10346726B2 (en) * 2014-12-15 2019-07-09 Samsung Electronics Co., Ltd. Image recognition method and apparatus, image verification method and apparatus, learning method and apparatus to recognize image, and learning method and apparatus to verify image
US10127439B2 (en) * 2015-01-15 2018-11-13 Samsung Electronics Co., Ltd. Object recognition method and apparatus
JP2016146174A (ja) * 2015-02-06 2016-08-12 パナソニックIpマネジメント株式会社 決定方法およびプログラム
CN114758406B (zh) * 2015-05-11 2024-02-23 奇跃公司 用于使用神经网络的生物特征用户识别的设备、方法和系统
WO2017015649A1 (en) * 2015-07-23 2017-01-26 Mireplica Technology, Llc Performance enhancement for two-dimensional array processor
US10387531B1 (en) * 2015-08-18 2019-08-20 Google Llc Processing structured documents using convolutional neural networks
US10860887B2 (en) * 2015-11-16 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for recognizing object, and method and apparatus for training recognition model
WO2017126482A1 (ja) * 2016-01-19 2017-07-27 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2017142629A1 (en) * 2016-02-18 2017-08-24 Google Inc. Image classification neural networks
CA3015658A1 (en) 2016-03-11 2017-09-14 Magic Leap, Inc. Structure learning in convolutional neural networks
WO2017166019A1 (en) * 2016-03-28 2017-10-05 Xiaogang Wang Method and system for pose estimation
WO2017168665A1 (ja) 2016-03-30 2017-10-05 株式会社ニコン 特徴抽出素子、特徴抽出システム、および判定装置
US10049307B2 (en) * 2016-04-04 2018-08-14 International Business Machines Corporation Visual object recognition
US10032067B2 (en) 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
US10579860B2 (en) * 2016-06-06 2020-03-03 Samsung Electronics Co., Ltd. Learning model for salient facial region detection
CN106127120B (zh) * 2016-06-16 2018-03-13 北京市商汤科技开发有限公司 姿势估计方法和装置、计算机系统
US10990658B2 (en) * 2016-07-11 2021-04-27 Samsung Electronics Co., Ltd. Method and apparatus for verifying user using multiple biometric verifiers
KR102547820B1 (ko) * 2016-07-11 2023-06-27 삼성전자주식회사 복수의 생체 인증기들을 이용한 사용자 인증 방법 및 그 장치
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US11526757B2 (en) * 2016-09-19 2022-12-13 Intrinsic Innovation Llc Systems and methods for deep learning with small training sets
US10346723B2 (en) * 2016-11-01 2019-07-09 Snap Inc. Neural network for object detection in images
KR20180060257A (ko) * 2016-11-28 2018-06-07 삼성전자주식회사 객체 인식 방법 및 장치
CN106780906B (zh) * 2016-12-28 2019-06-21 北京品恩科技股份有限公司 一种基于深度卷积神经网络的人证合一识别方法及系统
US11537869B2 (en) * 2017-02-17 2022-12-27 Twitter, Inc. Difference metric for machine learning-based processing systems
US9953236B1 (en) * 2017-03-10 2018-04-24 TuSimple System and method for semantic segmentation using dense upsampling convolution (DUC)
US10902244B2 (en) 2017-03-27 2021-01-26 Samsung Electronics Co., Ltd. Apparatus and method for image processing
US10679083B2 (en) 2017-03-27 2020-06-09 Samsung Electronics Co., Ltd. Liveness test method and apparatus
US10783393B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Semi-supervised learning for landmark localization
CN107633218B (zh) * 2017-09-08 2021-06-08 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
CN108229363A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 关键帧调度方法和装置、电子设备、程序和介质
CN108537117B (zh) * 2018-03-06 2022-03-11 哈尔滨思派科技有限公司 一种基于深度学习的乘客检测方法和系统
US11265168B2 (en) 2018-03-07 2022-03-01 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US10721070B2 (en) 2018-03-07 2020-07-21 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11489866B2 (en) 2018-03-07 2022-11-01 Private Identity Llc Systems and methods for private authentication with helper networks
US11210375B2 (en) 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US11170084B2 (en) 2018-06-28 2021-11-09 Private Identity Llc Biometric authentication
US11394552B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11138333B2 (en) 2018-03-07 2021-10-05 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US10938852B1 (en) 2020-08-14 2021-03-02 Private Identity Llc Systems and methods for private authentication with helper networks
US11502841B2 (en) 2018-03-07 2022-11-15 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11392802B2 (en) * 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11789699B2 (en) 2018-03-07 2023-10-17 Private Identity Llc Systems and methods for private authentication with helper networks
CN110309692B (zh) * 2018-03-27 2023-06-02 杭州海康威视数字技术股份有限公司 人脸识别方法、装置及系统、模型训练方法及装置
KR102186767B1 (ko) * 2018-04-27 2020-12-04 연세대학교 산학협력단 학습을 이용한 얼굴 특징점 검출 방법 및 장치
US10887182B1 (en) * 2018-05-10 2021-01-05 Hrl Laboratories, Llc System and method for pairwise network alignment
JP6734323B2 (ja) * 2018-05-22 2020-08-05 株式会社 ディー・エヌ・エー 対象物の類似度判定のためのプログラム、システム、及び方法
CN110717929A (zh) * 2018-07-11 2020-01-21 腾讯科技(深圳)有限公司 图像目标检测方法、装置及存储介质
JP7257756B2 (ja) * 2018-08-20 2023-04-14 キヤノン株式会社 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN109325480A (zh) * 2018-09-03 2019-02-12 平安普惠企业管理有限公司 身份信息的录入方法及终端设备
KR102244013B1 (ko) * 2018-09-06 2021-04-22 포항공과대학교 산학협력단 얼굴 인식 방법 및 장치
JP7269711B2 (ja) * 2018-10-03 2023-05-09 株式会社日立製作所 生体認証システム、生体認証方法およびプログラム
CN109492540B (zh) * 2018-10-18 2020-12-25 北京达佳互联信息技术有限公司 一种图像中的人脸交换方法、装置及电子设备
CN109583387A (zh) * 2018-11-30 2019-04-05 龙马智芯(珠海横琴)科技有限公司 身份认证方法及装置
US10977548B2 (en) 2018-12-05 2021-04-13 Bank Of America Corporation Generation of capsule neural networks for enhancing image processing platforms
KR102200496B1 (ko) * 2018-12-06 2021-01-08 주식회사 엘지씨엔에스 딥러닝을 이용한 이미지 인식 방법 및 서버
CN109766792A (zh) * 2018-12-25 2019-05-17 东南大学 一种基于人脸图像的身份识别方法
CN109711342B (zh) * 2018-12-27 2021-05-04 河北工程大学 人脸识别方法及装置
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
CN111507362B (zh) 2019-01-30 2023-12-19 中强光电股份有限公司 神经网络的训练方法、基于神经网络的分类方法及其装置
CN109800744B (zh) 2019-03-18 2021-08-20 深圳市商汤科技有限公司 图像聚类方法及装置、电子设备和存储介质
EP3973468A4 (en) 2019-05-21 2022-09-14 Magic Leap, Inc. HANDPOSITION ESTIMATING
JP6809565B2 (ja) * 2019-06-13 2021-01-06 株式会社ニコン 特徴抽出素子、特徴抽出システム、および判定装置
CA3147361A1 (en) * 2019-08-09 2021-02-18 Clearview Ai, Inc. Methods for providing information about a person based on facial recognition
CN110717416B (zh) * 2019-09-24 2021-07-09 上海数创医疗科技有限公司 基于特征选取的st段分类识别用神经网络训练方法
KR102156899B1 (ko) * 2019-11-14 2020-09-16 한국광기술원 디자인 생성장치 및 방법
CN112528110A (zh) 2020-07-24 2021-03-19 支付宝(杭州)信息技术有限公司 确定实体业务属性的方法及装置
CN112949599B (zh) * 2021-04-07 2022-01-14 青岛民航凯亚系统集成有限公司 基于大数据的候选内容推送方法
CN113762118B (zh) * 2021-08-27 2022-08-26 合肥的卢深视科技有限公司 人脸识别的方法、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128398A (en) * 1995-01-31 2000-10-03 Miros Inc. System, method and application for the recognition, verification and similarity ranking of facial or other object patterns
US7308133B2 (en) * 2001-09-28 2007-12-11 Koninklijke Philips Elecyronics N.V. System and method of face recognition using proportions of learned model
US7236615B2 (en) 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
JP4974788B2 (ja) 2007-06-29 2012-07-11 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8582807B2 (en) * 2010-03-15 2013-11-12 Nec Laboratories America, Inc. Systems and methods for determining personal characteristics
US9323980B2 (en) * 2011-05-13 2016-04-26 Microsoft Technology Licensing, Llc Pose-robust recognition
WO2015078018A1 (en) 2013-11-30 2015-06-04 Xiaoou Tang Method and system for face image recognition
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation

Also Published As

Publication number Publication date
US20160379044A1 (en) 2016-12-29
JP2016538656A (ja) 2016-12-08
CN105849747A (zh) 2016-08-10
EP3074918A4 (en) 2017-09-27
HK1223718A1 (zh) 2017-08-04
US9530047B1 (en) 2016-12-27
WO2015078018A8 (en) 2016-07-07
WO2015078018A1 (en) 2015-06-04
HK1223439A1 (zh) 2017-07-28
CN105849747B (zh) 2018-08-17
EP3074918A1 (en) 2016-10-05
EP3074918B1 (en) 2019-04-03
KR20160083127A (ko) 2016-07-11

Similar Documents

Publication Publication Date Title
JP6127214B2 (ja) 顔画像認識のための方法とシステム
US11455807B2 (en) Training neural networks for vehicle re-identification
Zhong et al. Spectral–spatial residual network for hyperspectral image classification: A 3-D deep learning framework
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
US9811718B2 (en) Method and a system for face verification
US10891468B2 (en) Method and apparatus with expression recognition
CN106415594A (zh) 用于面部验证的方法和系统
Xu et al. Lightweight semantic segmentation of complex structural damage recognition for actual bridges
Praseetha et al. Secure fingerprint authentication using deep learning and minutiae verification
Xiong et al. Person re-identification with multiple similarity probabilities using deep metric learning for efficient smart security applications
Pujol et al. Entropy-based face recognition and spoof detection for security applications
Gupta et al. Single attribute and multi attribute facial gender and age estimation
Sun et al. Open‐set iris recognition based on deep learning
Kancharlapalli et al. A Novel Approach for Age and Gender Detection using Deep Convolution Neural Network
Ramezani et al. Transfer learning using Tsallis entropy: An application to Gravity Spy
Mallet et al. Deepfake Detection Analyzing Hybrid Dataset Utilizing CNN and SVM
Chen et al. Automatic Schelling points detection from meshes
US11574641B2 (en) Method and device with data recognition
Chai et al. Robust facial landmark detection based on initializing multiple poses
Fan et al. Palmprint phenotype feature extraction and classification based on deep learning
Kim et al. Swarm ascending: Swarm intelligence-based exemplar group detection for robust clustering
Zhao et al. Hand Detection Using Cascade of Softmax Classifiers
US20230386195A1 (en) Facial recognition based on converted spiking neural network
Wei-Jie et al. Masked face recognition with principal random forest convolutional neural network (PRFCNN)
Nusyura et al. Transfer learning for recognizing face in disguise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160615

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160615

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170410

R150 Certificate of patent or registration of utility model

Ref document number: 6127214

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250