JP6159489B2

JP6159489B2 - 顔認証方法およびシステム

Info

Publication number: JP6159489B2
Application number: JP2016560685A
Authority: JP
Inventors: シャオオウタン; イースン; ショウガンワン
Original assignee: ペキンセンスタイムテクノロジーディベロップメントカンパニーリミテッド
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2017-07-05
Anticipated expiration: 2034-04-11
Also published as: CN106358444B; JP2017513144A; CN106358444A; US20170147868A1; WO2015154206A1; US9811718B2

Description

本発明は顔認証方法およびそのシステムに関する。

多くの顔認証方法は、例えば、ＬＢＰまたはＳＩＦＴのような高次元（ｈｉｇｈ−ｄｉｍｅｎｓｉｏｎ）の過完備（ｏｖｅｒ−ｃｏｍｐｌｅｔｅ）顔記述子により顔を表現し、それから浅層顔認証モデル（ｓｈａｌｌｏｗｆａｃｅｖｅｒｉｆｉｃａｔｉｏｎｍｏｄｅｌｓ）をも用いる。

いくつかの先行研究において、身元関連特徴を低レベル特徴に基づいてさらに学習してきた。これらの過程において、属性分類器（ａｔｔｒｉｂｕｔｅｃｌａｓｓｉｆｉｅｒ）および類似分類器（ｓｉｍｉｌｅｃｌａｓｓｉｆｉｅｒ）を訓練することにより顔属性を検出し、参照人物セットに対する顔類似度を測定し、または異なる人物に由来の２つの顔を区別する。特徴は、学習された分類器の出力である。しかしながら、先行研究では、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクタマシン）分類器を用い、ＳＶＭ分類器が浅層構造（ｓｈａｌｌｏｗｓｔｒｕｃｔｕｒｅ）であり、かつその学習された特徴が依然として比較的低いレベルである。

いくつかの深層モデルは、すでに顔認証に用いられている。Ｃｈｏｐｒａらは、Ｓｉａｍｅｓｅアーキテクチャを用いて２つのサブネットワークの出力の間の距離を非類似度（ｄｉｓｓｉｍｉｌａｒｉｔｙ）とし、ここで、Ｓｉａｍｅｓｅアーキテクチャは、２つの同様のサブネットワークの２つの対比入力から、それぞれ特徴を抽出する。それらの特徴抽出および認識は、顔認証ターゲットと共に学習される。

従来技術のいくつかの技術案は、多重深層ＣｏｎｖＮｅｔを用いて高レベル顔類似度特徴を学習し、かつ分類器を訓練して顔認証に用いるが、それらの特徴は、単一の顔から抽出されるものでなく、一対の顔から同時に抽出されるものである。区別可能性が高いが、顔類似度特徴は、短過ぎでいくつかの有用な情報が最終認証の前に失われているおそれがある。

いくつかの先行研究において、ＣｏｎｖＮｅｔの最後の隠れ層特徴は、さらに他のタスクに用いられた。Ｋｒｉｚｈｅｖｓｋｙらによれば、画像分類のターゲットが学習される場合、ＣｏｎｖＮｅｔの最後の隠れ層は、意味空間におけるユークリッド距離と類似するが、これらの特徴は、画像検索にどのように表現されるかを示す定量的な結果がない。Ｆａｒａｂｅｔらは、スケールが一定のＣｏｎｖＮｅｔ（シーンラベリング用のマルチスケール入力を有し）から抽出された最後の隠れ層特徴を連結させる。従来の方法は、顔認証問題を解決していない。また、顔認識の精細分類を判別するための十分な特徴をどのように学習するのかについては、まだ不明である。

本発明の一態様によれば、顔認証装置であって、
異なる訓練されたＣｏｎｖＮｅｔにより、顔の異なる領域に対してＨＩＦｓ（ＨｉｄｄｅｎＩｄｅｎｔｉｔｙＦｅａｔｕｒｅ、隠し身元特徴）を抽出し、そのうち、前記ＣｏｎｖＮｅｔの最後の隠れ層ニューロン活性化（ａｃｔｉｖａｔｉｏｎｓ）がＨＩＦｓとして見なされるように構成される特徴抽出ユニットと、
各前記顔から抽出されたＨＩＦｓを連結させて特徴ベクトルを形成し、前記形成された特徴ベクトルの２つを比較してそれらが同じ身元に由来するか否かを決定するように構成される認証ユニットとを備える、顔認証装置を提供する。

本発明の別の態様によれば、顔認証方法であって、
異なる訓練されたＣｏｎｖＮｅｔにより、顔の異なる領域からＨＩＦｓを抽出し、そのうち、前記ＣｏｎｖＮｅｔの最後の隠れ層ニューロン活性化がＨＩＦｓとして見なされるステップと、
抽出されたＨＩＦｓを連結させて特徴ベクトルを形成するステップと、
形成された特徴ベクトルの２つを比較してそれらが同じ身元に由来するか否かを決定するステップとを含む、顔認証方法を提供する。

本発明に係る装置は、顔の位置合わせされた領域の入力により、身元分類用のＣｏｎｖＮｅｔを訓練するように構成される訓練ユニットをさらに備える。

従来の方法に比べると、本発明は、訓練セットから全ての身元を同時に分類する。また、本発明は、分類器の出力の代わりに、最後の隠れ層の活性化を特徴として利用する。本発明のＣｏｎｖＮｅｔにおいて、最後の隠れ層のニューロンの数が出力におけるニューロンの数よりもはるかに小さく、それにより、最後の隠れ層には、異なる人物の全ての顔を効果的に分類するために、異なる人物の顔に対して共有された隠し表現（ｈｉｄｄｅｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ）を学習させてることができ、結果として識別力が高くコンパクトな特徴が得られる。

本発明は、特徴抽出および認識を２つのステップにより実行してもよく、そのうち、第１の特徴抽出ステップにおいて、認証よりも強い監視信号である顔分類のターゲットを用いて学習する。

本発明は、顔認証のために高次元の高レベルの特徴を用いる。異なる顔領域から抽出されたＨＩＦｓは、相補的なものである。具体的には、前記特徴は、深層ＣｏｎｖＮｅｔの最後の隠れ層から抽出され、それが全体的で高非線形であり、かつ顔の身元（ｆａｃｅｉｄｅｎｔｉｔｙ）を明らかにさせる。また、異なるＣｏｎｖＮｅｔは、異なる視覚的合図（顔領域）から学習するため、異なる方式で顔の身元を判断する必要があり、したがってＨＩＦｓは相補的なものである。

以下、図面を参照しながら、本発明の例示的な非限定的実施形態を説明する。図面は、例示的であり、通常正確なサイズを示すものではない。異なる図面における同一または類似の素子は、同じ符号で示される。

本発明のいくつかの実施形態に係る顔認証装置を示す模式図である。本発明のいくつかの実施形態に係るソフトウェアによって実施された顔認証装置を示す模式図である。本発明の第１の実施形態に係るクロップ領域の例を示す模式図である。本発明の第２の実施形態に係るＣｏｎｖＮｅｔの詳細構造を示す模式図である。顔認証用ニューラルネットワークの構造を示す模式図である（各層の傍に層のタイプおよび次元（ｄｉｍｅｎｓｉｏｎ）が示され、固体ニューロンがサブネットワークを形成する）。本発明のいくつかの実施形態に係る顔認証を示す模式的フローチャートである。図６におけるステップＳ１０３を示す模式的フローチャートである。本発明のいくつかの実施形態に係るＣｏｎｖＮｅｔの訓練プロセスを示す模式的フローチャートである。

以下、例示的な実施形態を詳細に参照し、図面に例示的な実施形態の例を示す。適切な場合、全ての図面では、同一の符号は同一または類似の部材を示すことに用いられる。図１は、本発明のいくつかの実施形態に係る顔認証用の例示的な装置１０００を示す模式図である。

装置１０００は、特定のハードウェア、ソフトウェアまたはハードウェアとソフトウェアとの組み合わせを用いて実現できると理解すべきである。また、本発明の実施形態は、コンピュータプログラムコードを含有する１つ以上のコンピュータ読み取り可能な記憶媒体（ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ等を含むがそれらに限定されない）において実現されたコンピュータプログラム製品に適応されてもよい。

ソフトウェアで装置１０００を実現する場合、装置１０００には、汎用コンピュータ、コンピュータクラスター、主流コンピュータ、オンラインコンテンツを提供する専用のコンピュータ装置、または集中型もしくは分散型の方式で実行されるコンピュータグループを含むコンピュータネットワークを備えてもよい。図２に示されるように、装置１０００は、１つ以上のプロセッサ（プロセッサ１０２、１０４、１０６等）、メモリ１１２、記憶機構（ｓｔｏｒａｇｅ）１１６、通信インターフェース１１４、および装置１０００の各部材の間で情報を容易に交換するためのバスを備えてもよい。プロセッサ１０２〜１０６は、中央処理装置（「ＣＰＵ」）、グラフィック処理装置（「ＧＰＵ」）または他の適切な情報処理装置を備えてもよい。使用されるハードウェアのタイプに応じて、プロセッサ１０２〜１０６は、１つ以上のプリント回路基板、および／または１つ以上のマイクロプロセッサチップを備えてもよい。以下でより詳細に説明される各種類の方法を実行するために、プロセッサ１０２〜１０６は、コンピュータプログラム命令のシーケンスを実行することができる。

メモリ１１２は、ランダムアクセスメモリ（「ＲＡＭ」）および読み出し専用メモリ（「ＲＯＭ」）を備えてよい。コンピュータプログラム命令は、プロセッサ１０２〜１０６における１つ以上のプロセッサに提供されて実行されるために、メモリ１１２に記憶され、メモリ１１２からアクセスされ、読み取られてもよい。例えば、メモリ１１２は、１つ以上のソフトウェアアプリケーションを記憶してもよい。また、メモリ１１２は、全てのソフトウェアアプリケーションを記憶してもよく、ソフトウェアアプリケーションにおける、プロセッサ１０２〜１０６のうちの１つ以上のプロセッサで実行可能な部分のみを記憶してもよい。なお、図１は、１つのブロックでメモリを示しているが、メモリ１１２は、中央計算装置または異なる計算装置に取り付けられる複数の物理装置（ｐｈｙｓｉｃａｌｄｅｖｉｃｅｓ）を備えてもよい。

図１を再度参照し、装置１０００は、ハードウェアによって実現される場合、特徴抽出ユニット１０および認証ユニット２０を備えてもよい。特徴抽出ユニット１０は、異なる訓練されたＣｏｎｖＮｅｔにより、ＨＩＦｓ（ＨｉｄｄｅｎＩｄｅｎｔｉｔｙＦｅａｔｕｒｅｓ：隠し身元特徴）を顔の異なる領域から抽出し、そのうち、ＣｏｎｖＮｅｔの最後の隠れ層ニューロン活性化がＨＩＦｓとして見なされたように構成される。認証ユニット２０は、抽出されたＨＩＦｓを連結させて特徴ベクトルを形成し、その後、形成されたベクトルにおける２つのベクトルを比較してこの２つのベクトルが同じ身元に由来するか否かを決定するように構成される。

ＣｏｎｖＮｅｔのそれぞれに対して、特徴抽出ユニット１０は、特定領域およびその裏返したカウンターパート（ｆｌｉｐｐｅｄｃｏｕｎｔｅｒｐａｒｔ）をＣｏｎｖＮｅｔのそれぞれに入力してＨＩＦｓを抽出する。図３は、クロップ領域の例を示し、ここで、上方の１０個の顔領域が中間スケールである。左上の５つの領域は、弱く位置合わせされた顔から得られた全体領域であり、右上の他の５つの領域は、５つの顔標認点（ＦａｃｉａｌＬａｎｄｍａｒｋ）（２つの眼球中央、鼻先、および２つの口角）を中心とした局所領域である。図３の下部では、２つの特定パッチの３種類のスケールを示す。

本発明の一実施形態によれば、抽出されたＨＩＦｓのそれぞれが特徴ベクトルを形成することができる。形成されたベクトルは、図４に示される１６０次元を有してもよい。認証ユニット２０は、各顔の全ての抽出されたＨＩＦｓを連結してより長い次元の特徴ベクトルを形成してもよい。例えば、図４に示される実施形態では、連結されたベクトルは１９，２００次元を有してもよい。

本発明の実施形態において、ＣｏｎｖＮｅｔのそれぞれは、複数のカスケードされた特徴抽出層、およびこれらの特徴抽出層の少なくとも１つに接続された最後の隠れ層を含んでもよく、ＣｏｎｖＮｅｔの現在層における特徴（当該特徴はＣｏｎｖＮｅｔの前層の特徴から抽出された特徴であり）の数は、ＣｏｎｖＮｅｔの最後の隠れ層から前記ＨＩＦｓが取得されるまで、カスケードされた特徴抽出層に沿って減少し続ける。図４は、さらに３９×３１×ｋの入力を有するＣｏｎｖＮｅｔの詳細構造を示す。図４に示すように、ＣｏｎｖＮｅｔは、特徴を階層的に抽出するための４つの畳み込み層（最大プーリング（Ｍａｘ−ｐｏｏｌｉｎｇ）に伴い）、続いて（完全接続の）ＨＩＦｓ層、および身元種類を指示するための（完全接続の）Ｓｏｆｔｍａｘ出力層を備える。ＣｏｎｖＮｅｔのそれぞれに入力された入力は、３９×３１×ｋの長方形のパッチ、および３９×３１×ｋの正方形のパッチであってもよく、そのうち、カラーのパッチに対してｋ＝３であり、グレーのパッチに対してｋ＝１である。入力サイズが変化する場合、後続層における特徴マップの高さおよび幅も対応して変化する。特徴数は、特徴抽出階層に沿って最後の隠れ層（ＨＩＦｓ層）まで減少し続け、それにより高コンパクトで予測的な特徴を形成し、これらの特徴は、少量の特徴のみを用いてより多くの身元種類を予測する。図４では、全ての入力層、畳み込み層および最大プーリング層に対して、各立方体の長さ、幅および高さは、各マップのマップ数および次元を示す。内部の小さな立方体および正方形は、それぞれ畳み込み層の３Ｄ畳み込みカーネルサイズ、および畳み込み層と最大プーリング層の２Ｄプーリング領域のサイズを示す。最後の２つの完全接続層のニューロン数は、各層の傍に示される。

実際には、抽出されたＨＩＦｓに基づいていずれかの顔認証モデルを用いることができる。統合ベイズ（ＪｏｉｎｔＢａｙｅｓｉａｎ）およびニューラルネットワークモデルは２つの例である。図５に示すように、認証ユニット２０は、ＨＩＦｓを取得するための入力層５０１と、局所接続層５０２と、完全接続層５０３と、顔類似度を指示するための単一出力ニューロン５０４とを備えるニューラルネットワークとして形成されてもよい。入力特徴は、例えば６０組に分けられ、それぞれの組が、特定ＣｏｎｖＮｅｔを用いて特定パッチペアから抽出された例えば６４０個の特徴から構成してもよい。同一組における特徴は、相関性が高い。局所接続層における１組のニューロンユニット（例えば、図示される２つのニューロン）は、単一の組のみの特徴に接続されてそれらの局所関係を学習するとともに、特徴次元を減少させる。第２の隠れ層は、第１の隠れ層に完全に接続されて全体関係を学習する。単一出力ニューロンは、第２の隠れ層に完全に接続される。隠しニューロンは、例えばＲｅＬＵであり、出力ニューロンは、例えばｓｉｇｍｏｉｄである。図５は、ニューラルネットワーク構造の例を示す。例えば、当該ニューラルネットワーク構造は、各パッチからの１９，２００のＨＩＦｓを有する３８，４００の入力ニューロン、および後続の２つの隠れ層における４，８００のニューロンを備えてもよく、第１の隠れ層における８０ずつのニューロンは、６０組の入力ニューロンの１組に局所的に接続される。

従来技術に公知されているＤｒｏｐｏｕｔ学習は、全ての隠しニューロンに用いられてもよい。学習された特徴は、コンパクトで分散された表現（非常に少ないニューロンで大量の身元を示し）であり、かつ、これらの特徴は、身元を良好に表現するように互いに協調する必要があり、このため、入力ニューロンがドロップされることができない。一方、勾配拡散のため、Ｄｒｏｐｏｕｔがない場合、高次元特徴を学習することが難しい。当該問題を解決するために、本発明は、まず、複数（例えば、６０）のサブネットワークを訓練し、サブネットワークのそれぞれは、各単一組の特徴を取って入力とする。図５は、特定のサブネットワークを示し、そして、本発明は、サブネットワークの第１層の重みを用いてオリジナルネットワークにおける第１層の重みを初期化し、かつ変更された第１層の重みを用いてオリジナルネットワークにおける第２層および第３層を調整する。

装置１０００は、図３を参照して説明された上記顔の位置合わせされた領域の入力により、身元分類用の複数のＣｏｎｖＮｅｔを訓練するように構成される訓練ユニット３０をさらに備える。ＣｏｎｖＮｅｔのそれぞれに対して、図８は、本発明のいくつかの実施形態に係る訓練プロセスを示す模式的フローチャートである。図示されるように、ステップＳ８０１において、所定の顔訓練セットから顔画像を選択する。一実施形態において、顔画像をランダムに選択することができる。ステップＳ８０２において、ＣｏｎｖＮｅｔへの入力を決定する。具体的には、当該入力は、Ｓ８０１で選択された顔からクロップされた顔パッチ（ｆａｃｅｐａｔｃｈ）であってもよい。ＣｏｎｖＮｅｔの入力と対応するターゲット出力を予め決定し、当該ターゲット出力は、ｎ番目の要素が１になる以外、他の要素がいずれもゼロになるベクトルであり、ここで、ｎは選択された顔画像が所属する身元種類の身元番号を表す。

次に、ステップＳ８０３において、順伝播処理により、上記のように決定された顔パッチをＣｏｎｖＮｅｔに入力してその出力を計算し、当該計算処理は、以下の式１および式２を参照して説明される畳み込み操作および最大プーリング操作を含んでもよい。

ステップＳ８０４において、計算された出力とターゲット出力とを比較し、計算された出力とターゲット出力との誤差信号を生成する。次に、ステップＳ８０５において、生成された誤差信号を逆伝播してＣｏｎｖＮｅｔを通過させてＣｏｎｖＮｅｔのパラメータを調整する。ステップＳ８０６において、訓練プロセスが収束するか否かを決定し、収束した場合、訓練プロセスを終了し、収束しない場合、訓練プロセスが収束したまで、ステップＳ８０１〜Ｓ８０５を繰り返し、それによりＣｏｎｖＮｅｔのパラメータを決定する。

以下、上記畳み込み操作および最大プーリング操作について更に説明する。

図４に示されるＣｏｎｖＮｅｔの各畳み込み層の畳み込み操作は、
で表われる。

式中、
および
は、それぞれｉ番目の入力特徴マップおよびｊ番目の出力特徴マップである。
は、ｉ番目の入力特徴マップとｊ番目の出力特徴マップとの間の畳み込みカーネルである。＊は畳み込みを表す。
はｊ番目の出力特徴マップのオフセット値である。本明細書において、ＲｅＬＵ非線形関数
は、隠しニューロンに用いられ、かつｓｉｇｍｏｉｄ関数よりも優れたフィッティング能力を有する。ＣｏｎｖＮｅｔの高い畳み込み層における重みは、部分的に共有されて異なる領域における異なる中レベルまたは高レベル特徴を学習する。ｒは重みが共有される局所領域を示す。図４に示される最大プーリングは、
として定式化されてもよく、
ただし、ｉ番目の出力特徴マップ
における各ニューロンは、ｉ番目の入力特徴マップ
におけるｓ×ｓの非重複局所領域の上にプーリングする。

ＨＩＦｓの最後の隠れ層（最大プーリングの後）は、畳み込み層の少なくとも１つに完全接続されてもよい。好ましい実施形態では、ＨＩＦｓの最後の隠れ層（最大プーリングの後）は、第３の畳み込み層および第４の畳み込み層に完全接続され、したがって、マルチスケール特徴（第４の畳み込み層における特徴は、第３の畳み込み層における特徴よりも全体的である）が明らかにされる。カスケードに沿って連続的にダウンサンプリングした後、第４の畳み込み層に含まれるニューロンが非常に少なく、かつ情報伝播のボトルネックになるため、特徴学習に対して非常に重要である。第３の畳み込み層（スキッピング層と呼ばれ）と最後の隠れ層との間にバイパス接続を追加して第４の畳み込み層に発生可能な情報紛失を低減させる。最後の隠れ層は、下記の関数
を取ってもよく、
式中、
は、それぞれ第３の畳み込み層および第４の畳み込み層におけるニューロンおよび重みを示す。それは、前の２つの畳み込み層における特徴を線形的に組み合わせ、その後にＲｅＬＵ非線形性にする。

ＣｏｎｖＮｅｔの出力ｙｉは、マルチウエイ（例えば、４３４９ウエイ）のｓｏｆｔ−ｍａｘであり、複数（例えば、４３４９）の異なる身元に分布する可能性を予測する。形成されたベクトルが例として１６０次元のベクトルでありかつ４３４９の異なる身元がある場合、出力ｙｉは、
と定式化されてもよく、
式中、
は、１６０個のＨＩＦｓ
を線形的に組み合わせてニューロンｊの出力とし、かつｙｊをその出力とする。ＣｏｎｖＮｅｔは、ｔ番目のターゲット種類を用いて
を最小化することにより学習される。勾配が逆伝播により計算されて確率的勾配降下法が利用されてもよい。

図６は、本発明のいくつかの実施形態に係る顔認証方法を示すフローチャートである。図６では、データ処理操作を実現するために、プロセス２００は、プロセッサ１０２〜１０６の１つ以上、または装置１０００における各モジュール／ユニットにより実行可能な一連のステップを含む。説明の便宜のために、以下、装置１０００における各モジュール／ユニットがハードウェアまたはハードウェアとソフトウェアとの組み合わせにより構成される場合を参照して説明する。当業者は、他の適切な装置またはシステムが以下のプロセスを実行することに適し、装置１０００が当該プロセスを実行する説明のみに用いられると理解すべきである。

ステップＳ１０１において、装置１０００は、異なる訓練されたＣｏｎｖＮｅｔにより、顔の異なる領域からＨＩＦｓを抽出し、そのうち、前記ＣｏｎｖＮｅｔの最後の隠れ層ニューロン活性化がＨＩＦｓとして見なされる。一実施形態にいて、装置１０００のユニット１０は、例えば従来技術に開示される顔点検出法を用いて、２つの眼球中央、鼻先および２つの口角を含む５つの顔標認点を検出することができる。顔は２つの眼球中央および２つの口角の中間点に基づいて相似変換によって全体に位置合わせされる。例えば１０個の領域、３種類のスケール、およびＲＧＢまたはグレーチャンネルを有する、例えば６０個の顔パッチから特徴を抽出する。図３は、１０個の顔領域および２つの特定顔領域の３種類のスケールを示す。ユニット２０は、６０個のＣｏｎｖＮｅｔを訓練し、当該６０個のＣｏｎｖＮｅｔのそれぞれは、特定パッチおよびその水平に裏返したカウンターパートから、１６０次元を有する２つのＨＩＦｓベクトルを抽出する。特別な場合として、２つの眼球中央および２つの口角の周りのパッチは、それらの自体が裏返されなく、それらと対称的なパッチが裏返される（例えば、右目を中心としたパッチを裏返して左目を中心としたパッチの裏返したカウンターパートを得る）。

次に、ステップＳ１０２において、装置１０００は、第２の複数の顔のそれぞれに対して抽出されたＨＩＦｓを連結させて特徴ベクトルを形成する。訓練ユニット３０が複数（例えば、６０）のＣｏｎｖＮｅｔを訓練する例において、特徴抽出ユニット３０は、これらの異なる訓練されたＣｏｎｖＮｅｔにより、顔の異なる領域からＨＩＦｓを抽出し、次に、顔のそれぞれに対して抽出されたＨＩＦｓを連結させて特徴ベクトルを形成し、６０個のＣｏｎｖＮｅｔがあり、かつ当該６０個のＣｏｎｖＮｅｔのそれぞれから１６０×２次元のＨＩＦｓを抽出する場合、特徴ベクトルの全長が１９，２００（１６０×２×６０）であってもよい。連結されたＨＩＦｓは、最終の顔認証に用いられる。

次にステップＳ１０３において、装置１０００は形成した、それぞれ２つの顔から抽出された２つのベクトルを比較し、それによりこの２つのベクトルが同じ身元に由来するか否かを決定する。本発明のいくつかの実施形態において、ＨＩＦｓに基づく顔認証の統合ベイズ技術を用いてもよい。統合ベイズは、顔認証において非常に成功である。それは、２つの独立したガウス変数の和（平均値を控除したもの）により抽出された顔特徴ｘを表し、すなわち、
となり、
ただし、
は、顔の身元を表し、
は、個体内変動を表す。個体内変動や個体間変動
と
を設定することで、統合ベイズが２つの顔の同時確率（ｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙ）をモデリングする。等式（５）は、この２つの確率もガウス変数であることを示し、それぞれ
および
であり、
ＳμおよびＳεは、ＥＭアルゴリズムを用いてデータから学習することができる。テストにおいて、尤度比を計算し、すなわち
となり、
それは、閉形式解を有し、かつ有効である。

図６は、図５に示されるニューラルネットワークモデルがステップＳ１０３においてどのように動作するかを示すフローチャートである。ステップＳ１０３１において、入力層５０１は、ステップＳ１０２で形成された特徴ベクトルのＨＩＦｓをｎ組に分ける。各組は、同一ＣｏｎｖＮｅｔにより抽出されたＨＩＦｓを含む。Ｓ１０３２において、局所接続層５０２は、各組のＨＩＦｓから局所特徴を抽出する。Ｓ１０３３において、完全接続層５０３は、前に抽出された局所特徴から全体特徴を抽出する。Ｓ１０３４において、出力ニューロン５０４は、前に抽出された全体特徴に基づいて単一顔類似度スコアを計算する。

本発明の好ましい実施例を説明したが、当業者は、本発明の基本的な発想に基づきこれらの実施例を変更や修正することができる。添付した特許請求の範囲は、好適な実施例および本発明の範囲内に属する全ての変更や修正を含むと理解できることを目的とする。

当業者は、本発明の趣旨と範囲を逸脱せずに本発明を変更や修正することができると明らかにされる。したがって、これらの変更や修正が特許請求の範囲および同等の技術的範囲に属する場合、これらの変更や修正も本発明の範囲に属する。

Claims

異なる訓練されたＣｏｎｖＮｅｔにより、顔の異なる領域に対してＨＩＦｓ（隠し身元特徴）を抽出し、そのうち、前記ＣｏｎｖＮｅｔの最後の隠れ層ニューロンの活性化値が前記ＨＩＦｓとして見なされるように構成される特徴抽出ユニットと、
各前記顔から抽出されたＨＩＦｓを連結させて特徴ベクトルを形成し、前記形成された特徴ベクトルの２つを比較してそれらが同じ身元に由来するか否かを決定するように構成される認証ユニットとを備える
顔認証装置。
前記認証ユニットは、
前記ＨＩＦｓを、同一ＣｏｎｖＮｅｔにより抽出されたＨＩＦｓをそれぞれ含む複数の組に分けるように構成される入力層と、
各組のＨＩＦｓから局所特徴を抽出するように構成される局所接続層と、
前に抽出された局所特徴から全体特徴を抽出するように構成される完全接続層と、
抽出された全体特徴から単一の顔類似度スコアを計算し、計算されたスコアに基づいて前記２つの特徴ベクトルが同じ身元に由来するか否かを決定するように構成される出力ニューロンとを備える
請求項１に記載の装置。
前記ＣｏｎｖＮｅｔのそれぞれに対して、前記特徴抽出ユニットは、特定の領域およびその裏返したカウンターパートを、各前記ＣｏｎｖＮｅｔに入力して前記ＨＩＦｓを抽出するように構成される
請求項１に記載の装置。
前記認証ユニットは、各顔から抽出された全てのＨＩＦｓを連結させて顔認証用の特徴ベクトルを形成するように構成される
請求項３に記載の装置。
前記ＣｏｎｖＮｅｔのそれぞれは、複数のカスケードされた特徴抽出層、および前記特徴抽出層の少なくとも１つに接続された最後の隠れ層を含み、
そのうち、前記ＣｏｎｖＮｅｔの前層特徴から抽出された、前記ＣｏｎｖＮｅｔの現在層における特徴の数は、前記ＣｏｎｖＮｅｔの最後の隠れ層から前記ＨＩＦｓが取得されるまで、前記カスケードされた特徴抽出層に沿って減少し続ける
請求項１に記載の装置。
異なる訓練されたＣｏｎｖＮｅｔにより、各顔の異なる領域からＨＩＦｓを抽出し、そのうち、前記ＣｏｎｖＮｅｔの最後の隠れ層ニューロンの活性化値がＨＩＦｓとして見なされる抽出ステップと、
各顔から抽出されたＨＩＦｓを連結させて特徴ベクトルを形成する連結ステップと、
前記形成された特徴ベクトルの２つを比較してそれらが同じ身元に由来するか否かを決定する比較ステップとを含む
顔認証方法。
前記比較ステップは、
形成された特徴ベクトルにおけるＨＩＦｓを、同一ＣｏｎｖＮｅｔにより抽出されたＨＩＦｓをそれぞれ含む複数の組に分けるステップと、
各組のＨＩＦｓから局所特徴を抽出するステップと、
前に抽出された局所特徴から全体特徴を抽出するステップと、
抽出された全体特徴から単一の顔類似度スコアを計算して前記スコアに基づいて前記２つの特徴ベクトルが同じ身元に由来するか否かを決定するステップとをさらに含む
請求項６に記載の方法。
前記ＣｏｎｖＮｅｔのそれぞれに対して、前記抽出ステップは、
特定領域およびその裏返したカウンターパートを前記ＣｏｎｖＮｅｔのそれぞれに入力して前記ＨＩＦｓを抽出するステップを含む
請求項６に記載の方法。
前記連結ステップは、
各顔の全ての抽出されたＨＩＦｓを連結させて特徴ベクトルを形成するステップを含む
請求項６に記載の方法。
前記ＣｏｎｖＮｅｔのそれぞれは、複数のカスケードされた特徴抽出層、および前記特徴抽出層の少なくとも１つに接続された最後の隠れ層を含み、
そのうち、前記ＣｏｎｖＮｅｔの前層特徴から抽出された、前記ＣｏｎｖＮｅｔの現在層における特徴の数は、前記ＣｏｎｖＮｅｔの最後の隠れ層から前記ＨＩＦｓが取得されるまで、前記カスケードされた特徴抽出層に沿って減少し続ける
請求項６に記載の方法。