JP2017510927A

JP2017510927A - 基準画像に基づく顔画像検証方法、及び顔画像検証システム

Info

Publication number: JP2017510927A
Application number: JP2017503042A
Authority: JP
Inventors: タン、シャオオウ; ジュ、チェンヤオ; ルオ、ピン; ワン、シャオガン
Original assignee: ペキンセンスタイムテクノロジーディベロップメントカンパニーリミテッド
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2017-04-13
Anticipated expiration: 2034-04-11
Also published as: WO2015154205A1; JP6244059B2; US20170083754A1; CN106462724A; US10037457B2; CN106462724B

Abstract

【解決手段】本発明は、基準画像に基づく顔画像の検証システム、および方法に関する。前記方法は、身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して身元の代表画像とするステップと、獲得された代表画像と身元の複数の顔画像との間のマッピングに基づいて画像再構成ネットワークのパラメータを決定するステップと、決定されたパラメータを有する画像再構成ネットワークを介して少なくとも２つの入力顔画像をそれぞれ相応の基準画像として再構成するステップと、再構成された基準画像を比較して、再構成された基準画像が同じ身元に属するか否かを検証する比較ステップと含み、その中で、代表画像は正面画像であり、かつ正面測定値は各顔画像の対称性とシャープネスを表す。前記方法およびシステムによれば、任意の姿勢および自然環境における照明条件下での顔画像の２Ｄ情報のみを用いて容易に基準顔画像を再構成することができる。【選択図】図３

Description

本発明は、顔画像の検証方法と検証システムに関し、具体的には、基準画像に基づく顔画像検証方法と顔画像検証システムに関する。

自然環境において得られた顔画像は、姿勢、照明条件、遮断、および解像度のような面で多くの個人内（ｉｎｔｒａ−ｐｅｒｓｏｎａｌ）の変化が存在している。顔画像の変化を処理することは、多くの顔関連のアプリケーションにおける重要なチャレンジとなっている。

顔変化を処理するために、さまざまな顔正規化の方法を有し、これらの方法では、多くの姿勢および異なる照明条件下での顔画像から正規化ビュー形式（正面姿勢およびニュートラル照明条件を有し）の画像へ復元する。顔正規化方法は、大別すると、３Ｄによる顔再構成方法および２Ｄによる顔再構成方法という２種類に分かられる。３Ｄによる方法は、３Ｄ幾何学的変換によって正面姿勢を回復することを目指している。２Ｄによる方法は、グラフィカルモデルを利用して正面姿勢を導き出し、これらのグラフィカルモデルは、例えばＭＲＦ（ＭａｒｋｏｖＲａｎｄｏｍＦｉｅｌｄ、マルコフ確率場）が挙げられ、その中で、対応物（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）は、異なる姿勢にある画像から学習して得られたものである。上記方法は、一定の制限を有し、例えば３Ｄデータをキャプチャするために定額以上のコストとリソースを追加する必要がある一方、２Ｄによる顔分析が特徴点検出の精度に大きく依存しているが、正規化の結果が平滑でない場合は多い。また、これらの方法は、ほとんど、用いられた３Ｄ情報または制御された２Ｄ環境である制御された条件下で収集された顔画像に基づいて評価されたものである。

したがって、上記問題の少なくとも１つ以上を解決するために、各身元（ｉｄｅｎｔｉｔｙ）の基準画像を自動的に選択したり分析したりすることができて、個人内の変化を低減させるとともに、個人間（ｉｎｔｅｒ−ｐｅｒｓｏｎ）の識別力を維持させるような基準画像に基づく顔画像の検証システムと方法を提供することを期待している。

本発明は、任意の自然条件下での顔画像から基準画像を再構成することができる新規な顔再構成ネットワークを提案する。これらの再構成の画像は、個人内の変化を大幅に低減して個人間の識別力を維持することができる。さらに、当該顔再構成方法は、顔認証に用いられることができる。

本発明の一態様において、基準画像に基づく顔画像検証方法を開示した。この方法は、
同一の身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して身元の代表画像とするステップと、
獲得された代表画像と身元の複数の顔画像との間のマッピングに基づいて画像再構成ネットワークのパラメータを決定するステップと、
決定されたパラメータを有する画像再構成ネットワークを介して少なくとも２つの入力顔画像をそれぞれ相応の基準画像として再構成するステップと、
再構成された基準画像を比較して、再構成された基準画像が同じ身元に属するか否かを検証するステップとを含んでもよく、
その中で、代表画像は正面画像であり、かつ正面測定値は各顔画像の対称性とシャープネスを表す。

本発明の他の一態様は、基準画像に基づく顔画像検証システムを開示した。このシステムは、
同一の身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して身元の代表画像とするように構成される獲得ユニットと、
入力顔画像をそれぞれ相応の基準画像として再構成するように構成される画像再構成ユニットと、
獲得ユニットで獲得された代表画像と身元の複数の顔画像との間のマッピングに基づいて画像再構成ユニットのパラメータを決定するように構成される決定ユニットと、
画像再構成ネットワークで再構成された基準画像を比較し、再構成された基準画像が同じ身元に属するか否かを検証するように構成される比較ユニットとを備えてもよく、
その中で、代表画像は正面画像であり、かつ正面測定値は各顔画像の対称性とシャープネスを表す。

本発明の一実施形態に係る基準画像に基づく顔画像検証システムを示す模式図である。本発明の他の一実施形態に係る基準画像に基づく顔画像検証システムを示す模式図である。本発明の一実施形態に係る基準画像に基づく顔画像検証方法を示す模式図である。本発明の一実施形態に係る画像再構成ネットワークのフローを示す模式図である。本発明の一実施形態に係る画像検証ネットワークのアーキテクチャを示す模式図である。

以下、図面に示される例示的実施形態を具体的に参照する。本文において、適切な場合、同じ符号を用いて同一又は類似の部材を表す。

図１は、本発明の一実施形態に係る基準画像に基づく顔画像検証システム１００を示す模式図である。システム１００は、特定のハードウェア、ソフトウェア、または両方の組み合わせを用いて実現されてもよいことを理解すべきである。また、本発明の実施形態は、コンピュータプログラムコードを含有する１つ以上のコンピュータ読み取り可能な記憶媒体（ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ等を含むが、これらに限定されない）の形態で具現されたコンピュータプログラム製品に適用されることができる。システム１００がソフトウェアにより実現される場合、システム１００には、汎用コンピュータ、コンピュータクラスター、主流コンピュータ、オンラインコンテンツを提供する専用コンピュータ機器、または集中型もしくは分散型の方式で実行されるコンピュータグループのコンピュータネットワークを備えてもよい。

図１に示すように、本発明の一実施形態に係るシステム１００は、獲得ユニット１０１と、決定ユニット１０３と、画像再構成ユニット１０５と、比較ユニット１０７とを備えてもよい。

獲得ユニット１０１は、身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して当該身元の代表画像とすることができ、その中で、代表画像は、正面画像であり、かつ正面測定値は、各顔画像の対称性と各顔画像のシャープネスを表す。本文において、画像のシャープネスとは、画像行列の階数を指す。

本発明の実施形態において、獲得ユニット１０１は計算ユニット（図示せず）を備えてもよい。計算ユニットは、複数の顔画像のいずれの正面測定値を計算することができ、これについては後述する。これらの顔画像は、既存の顔データベースまたはネットワークから収集されてもよい。本発明の他の一実施形態において、獲得ユニット１０１は、ソーティングユニット（図示せず）を備えてもよく、当該ソーティングユニットは、計算ユニットで計算された正面測定値を昇順または降順でソートすることができる。それに応じて、獲得ユニット１０１は、第１の顔画像または最後の顔画像を身元の代表画像とすることができる。

決定ユニット１０３は、画像再構成ユニット１０５のパラメータを決定することができる。画像再構成ユニット１０５は、任意の入力顔画像を相応の基準画像として再構成することができ、その中で、基準画像は、ニュートラル（ｎｅｕｔｒａｌ）照明条件下での正面顔画像である。図４に示すように、画像再構成ユニット１０５は、画像再構成ネットワークの形態で形成されてもよく、当該画像再構成ネットワークは、多層ニューラルネットワークであってもよい。本発明の一実施形態において、画像再構成ユニット１０５のパラメータは、身元の複数の顔画像と獲得ユニット１０１で獲得された代表画像との間のマッピングにより決定することができる。その後、決定されたパラメータを有する画像再構成ユニット１０５は、任意の入力顔画像を基準画像として再構成することができる。本発明の他の一実施形態において、決定ユニット１０３は、身元の顔画像と当該同じ身元の画像再構成ネットワーク１０５で再構成された基準画像との間の変換に基づいて画像再構成ネットワーク１０５のパラメータを決定することができる。すなわち、決定ステップおよび再構成ステップは、ユニット１０５のパラメータを連続的に最適化させるために繰り返して実行されてもよい。

比較ユニット１０７は、画像再構成ネットワーク１０５で再構成された基準画像を比較してそれらが同じ身元に属するか否かを検証することができる。本発明の一実施形態において、画像再構成ネットワーク１０５は、複数層を有するサブネットワークを備え、かつ決定ユニット１０３は、画像訓練セットを入力することで、マッピングに基づいて画像再構成ニューラルネットワークの各層の初期パラメータを決定することができ、その中で、画像再構成ニューラルネットワークの各層の初期パラメータを決定する期間に、サブネットワークの前層の出力がサブネットワークの現在層に入力され、サブネットワークの最後の層の出力と想定ターゲットとを比較してそれらの誤差を取得し、かつ、得られた誤差に基づいて初期パラメータを微調整して画像再構成ネットワークの全てのパラメータを具体化させる。例えば、図４に示すように、ネットワークは、複数の畳み込み層と、サブサンプリング層と、完全接続層とを備える。以下、決定ステップを詳細に説明する。

本発明の一実施形態において、図２に示すように、システム１００は、さらに、取得ユニット１０６と、画像検証ユニット１０８とを備えてもよく、その中で、画像検証ユニット１０８は、図５に示すような多層画像検証ニューラルネットワークの形態で形成されてもよい。具体的には、取得ユニット１０６は、任意の２つの再構成された基準画像の間の類似度を取得することができる。画像検証ネットワーク１０８は、１対の顔画像が同じ身元に属するか否かを検証することができる。本発明の一実施形態によれば、画像検証ネットワーク１０８のパラメータは、決定ユニット１０３により取得ユニット１０６で取得された任意の２つの再構成された基準画像の間の類似度に基づいて決定されてもよい。

本発明の一実施形態において、システム１００は、選択ユニット（図示せず）をさらに備えてもよく、当該選択ユニットは、それぞれ再構成された基準画像のいずれから、１つ以上の顔部品を選択して１つ以上の顔部品対を形成し、各顔部品対がそれぞれ基準画像における同一の顔区域に対応した顔部品を含む。取得ユニット１０６は、顔部品対の間の類似度を取得することができ、かつ決定ユニット１０３は、取得ユニット１０６で取得された顔部品対の間の類似度に基づいて画像検証ネットワーク１０８のパラメータを決定することができる。本発明の実施形態において、決定ユニット１０３は、同時に再構成された顔画像の間の類似度と顔部品対の間の類似度に基づいてネットワーク１０８のパラメータを決定することができる。

本発明の一実施形態において、システム１００は、１つ以上のプロセッサ（図示せず）を含んでもよい。プロセッサは、中央処理装置（「ＣＰＵ」）、グラフィック処理装置（「ＧＰＵ」）、または他の適切な情報処理機器を含んでもよい。使用されるハードウエアの種類に基いて、プロセッサは、１つ以上のプリント回路基板、および／または１つ以上のマイクロプロセッサチップを含んでもよい。また、処理器は、下記のより詳細に説明されるプロセス１０００を実行するために、コンピュータプログラムの命令のシーケンスを実行することができる。

全体的に、本システムは、３つの重要な貢献をもたらす。第１のは、現在で知られているように、自然環境での顔画像に由来する２Ｄ情報のみを用いて基準顔画像を再構成することができる。新規な深度再構成ネットワークを提供し、それは、代表的顔選択と顔再構成とを組み合わせ、自然環境での顔認証領域の最新技術のレベルに達したパフォーマンスを示す。第２のは、再構成の画像が高品質である。当該方法を用いて正規化ステップとした場合、既存の方法に対して大幅に改善したのを確認することができる。第３のは、ＬＦＷデータセットよりも６倍大きい顔データセットを貢献することができる。

図３は本発明の一実施形態に係る基準画像に基づく顔画像の検証プロセス１０００のフローチャートを示しており、これについて以下で詳細に説明する。

ステップＳ１００１において、身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して身元の代表画像とすることができる。

当該ステップにおいて、例えば既存の画像データベースまたはネットワークから身元の複数の顔画像を収集することができる。当該複数の顔画像は、任意の姿勢および照明条件にある。その後、複数の顔画像のいずれの正面測定値を計算する。そして、最小値を持つ顔画像を身元の代表画像として設定してもよい。代表画像は、身元の、ニュートラル照明条件下での正面顔画像である。本発明の実施形態において、正面測定値を算出した後に、これらの値を降順でソートして最後のものを身元の代表画像として設定してもよい。あるいは、正面測定値を算出した後に、これらの値を昇順でソトして第１のものを身元の代表画像として設定してもよい。

具体的には、画像セットＤ_ｉから身元ｉの複数の顔画像を収集し、その中で、行列Ｙ_ｉ∈Ｄ_ｉは、顔画像セットＤ_ｉにおける顔画像を表す。上記正面測定値は、
で表れ、
その中で、Ｙ_ｉ∈Ｒ^{２ａ×２ａ}であり、λは定数係数であり、||・||_Ｆはフロベニウスノルムであり、||・||_＊は行列の特異値の合計である核ノルムを表し、Ｐ，Ｑ∈Ｒ^{２ａ×２ａ}は２つの定数行列であり、その中で、Ｐ＝ｄｉａｇ（［１_ａ，０_ａ］）かつＱ＝ｄｉａｇ（［０_ａ，１_ａ］）であり、ここで、ｄｉａｇ（・）は対角行列を表す。

式（１）におけるＭ（Ｙ_ｉ）は、身元の顔画像の対称性およびシャープネスを表す。式（１）における第１の項は、顔の対称性、すなわち顔の左半分と右半分との差異を測定する。明らかに、第１の項の値が小さいほど、顔がより対称になることを示す。式（１）の第２の項は、顔画像の行列の階数を測定する。階数とは、行列の線形独立な列の最大値を指す。例えば、顔画像は、ピンぼけ、または横顔（背景が画像の他の側に現れ、通常、単色のブロックとし、そのサイズが「クローズアップ」と類似し）である場合、線形独立な列的数目が比較的小さいため、第２項の値（マイナス記号を付け）が比較的大きい。したがって、式（１）の値が小さいほど、顔が正面図である可能性が大きくになり、より対称でより明晰でほとんど姿勢の変化がなくなっている。対称性と行列の階数とを組み合わせる測定により、身元のニュートラル照明条件下での正面画像を高効率よく自動的に取得することができる。

ステップＳ１００２において、ステップＳ１００１で獲得された代表画像と身元の複数の顔画像との間のマッピングに基づいて（図４に示すような）画像再構成ネットワーク１０５のパラメータを決定することができる。

注意すべきことは、任意の身元に対して決定ステップが繰り返して実行されてもよい。例えば、本発明の他の一実施形態において、身元ｉについて、疎な線形の組み合わせＹ_ｉ＝α_ｉ１Ｄ_ｉ１＋α_ｉ２Ｄ_ｉ２＋...＋α_ｉｋＤ_ｉｋにより、画像セットＤ_ｉから代表画像Ｙ_ｉを選択し、その中で、Ｄ_ｉｋはセットＤ_ｉにおける第ｋの画像（図４に示すように、本明細書において顔選択とも称され）である。Ｙ_ｉ＝α_ｉＤ_ｉを設定し、その中で、α_ｉ＝［α_ｉ１，α_ｉ２，...，α_ｉｋ，］は、係数ベクトルであり、かつ当該係数ベクトルが疎であると期待されている。また、選択された異なる身元の顔画像の間の不関連性を強めることが必要があり、これは、正則化項
を追加することにより実現される。なぜなら、再構成された正面図画像の識別力を維持するためである。したがって、顔選択は、
で表れて、
その中で、Ｍ（Ｙ_ｉ）式（１）で限定される。式（２）において、Ｙとαについて、最適化問題は凸でない。しかしながら、Ｙが固定されている場合、αに関する問題は、凸のＬａｓｓｏ問題になるが、αが固定されている場合、Ｙの関数は凸の項および凹の項に分かれ、これは負の核ノルムである。これは、ＣＣＣＰ（ｃｏｎｃａｖｅ−ｃｏｎｖｅｘｐｒｏｃｅｄｕｒｅ：凹凸プロシージャ）によって解を求めることができる。

ステップＳ１００３において、少なくとも２つの入力顔画像を、画像再構成ネットワークを介してそれらの相応の基準画像として再構成する。すなわち、画像再構成ネットワークは、任意の姿勢での任意の顔画像を相応の基準画像として再構成することができ、当該基準画像は正面であり、ニュートラル照明条件下でのもの（図４に示すように、本明細書において顔回復（ｆａｃｅｒｅｃｏｖｅｒ）とも称され）である。具体的には、下記に示された損失誤差を最小化して顔画像を再構成することができ、
その中で、ｉは身元の番号であり、かつ、ｋは身元ｉの第ｋのサンポルを表し、Ｘ^０およびＹはそれぞれ訓練画像およびターゲット画像を表す。Ｗは、画像再構成ネットワークのパラメータセットである。

本発明の実施形態において、さらに、入力顔画像とネットワーク１０５で再構成された相応の基準画像との間の変換に基づいて画像再構成ネットワークのパラメータを決定することができる。その後、パラメータが既に決定された画像再構成ネットワークを用いて任意の顔画像を再構成することができる。マッピングとは、１つのベクトルから他の１つのベクトルへの変換を指す。本明細書において、マッピングは、順次に行われる非線形マッピングを指してもよく、身元の複数の顔画像の入力画像を同じ身元の正規化ビュー画像として変換することができる。

図４に示すように、画像再構成ネットワークは、複数の畳み込み層を備える。例えば、図４に示すように、３つの層が存在してもよく、かつ、最初の２つの畳み込み層の後に、最大プーリング層が付き従い、そして最後の層の後に完全接続層が付き従う。従来のＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、畳み込みニューラルネットワーク）と異なり（従来のＣＮＮのフィルターが重みを共有し）、当該ネットワークにおけるフィルターは、ローカライズされ、かつ重みを共有しなく、なぜなら、本明細書において異なる顔領域が異なる特徴を用いるすべきだと仮定されたためである。注意すべきことは、図４において６４×６４のサイズのみで入力Ｘ^０、出力
（予測の画像）、およびターゲットＹを示したが、これらの行列は、当業者に知られた任意のサイズであってもよい。

再度図４を参照し、まず、全ての画像がグレースケール形式に変換され、かつ、それらの照明条件が所属分野で知られている方法で修正されたため、本明細書において当該部分に対する詳細の説明を省略する。各畳み込み層において、非共有のフィルターを学習することにより、複数（例えば、３２）の出力チャネルを取得し、その中で、各非共有のフィルターは、例えば５×５のサイズである。サブサンプリング層のユニットサイズは２×２である。第ｌの畳み込み層は、
で表れ、
その中で、Ｗ^l _pq,uvおよび（Ｘ^l _p）_uvは、それぞれ画像位置の（ｕ，ｖ）でのフィルターと画像パッチを表す。ｐとｑは入力チャネルと出力チャネルの番号である。例えば、第１の畳み込み層において、ｐ＝１，ｑ＝１,...,３２である。したがって、Ｘ^l+1 _q,uvは、位置（ｕ，ｖ）にある第ｑのチャネル出力であり、すなわち、第ｌ+１の層への入力であることを表す。σ（ｘ）＝ｍａｘ（０，ｘ）は正規化線形関数（Ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｆｕｎｃｔｉｏｎ）であり、および「○」は、要素ごとの積を表す。バイアスベクトルは、ｂで表われる。完全接続層において、顔画像
は、
で再構成され、
本発明の実施形態において、顔選択および顔回復は、式（２）および式（３）を組み合わせることにより共同学習し、
で各身元を独立的に最適化させることができ、
その中で、γ，τ，λ，η’は、正則化項のバランスパラメータである。式（６）は、各選択された画像Ｙ_ｉが正面画像を有し、識別力を維持し、かつ損失誤差を最小化させる必要があることを示す。下記のステップによりＹ_ｉ，α_ｉ，Ｗの値を繰り返して獲得する。

１．Ｙ_ｉおよびＷの固定によるα_ｉの更新：
α_ｉについて、式（６）がＬａｓｓｏ問題になり、それは、ＦＩＳＴＡ（ｆａｓｔｉｔｅｒａｔｉｖｅｓｈｒｉｎｋａｇｅ−ｔｈｒｅｓｈｏｌｄｉｎｇａｌｇｏｒｉｔｈｍ、高速逐次的縮退しきい値アルゴリズム）により効率的に解を求めることができる。

２．α_ｉおよびＷの固定によるＹ_ｉの更新：
当該問題は、３つの凸の項（フロベニウスノルム）および１つの凹の項（核ノルム）を含み、これは、最適な解を得ることを確保することができないと意味する。反復更新ルールは、
であり、
その中で、
は、ＵとＶが第１の階数（Ｙ_i ^t）列（ｃｏｌｕｍｎｓ）に対する打ち切り（ｔｒｕｎｃａｔｉｏｎ）であり、ここで、Ｙ_i ^t＝ＵΣＶ^Ｔは、Ｙ_i ^tのＳＶＤである。

３．α_ｉおよびＹ_ｉの固定によるＷの更新：
画像再構成ネットワークにおける活性化関数に起因して当該問題が非線形性問題になる。当該問題は、ＳＧＤ（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ、確率的勾配降下）を利用して逆伝播して解を求めることができる。

本発明の実施形態において、以下のアルゴリズムで示された簡単で実用の訓練プロシージャを、まず全ての訓練サンプルを用いてＷを推定して、それから各身元に対してターゲットを選択して、上記３つのステップの反復プロシージャを加速させるように設計する。

入力：全ての身元｛Ｘ⁰ _ij｝の顔画像
出力：ターゲット｛Ｙ_ｉ｝とネットワークパラメータＷ
初期化：ｔ＝０、教師なし特徴学習によりＷを初期化させ、各身元ｉについて、Ｙ_i ^t∈Ｄ_ｉを式（１）の最小値を持つ画像として設定し、
ｔ＜Ｔである場合、
各Ｘ⁰ _ijに対して、
確率的勾配降下によりＷを更新し、
終了
各身元ｉに対して、
式（７）を利用してＹ_ｉ ^’を計算し、
Ｙ_i ^t+1∈Ｄ_ｉをＹ_ｉ ^’に最も近い画像として設定し、
終了
終了
その後、ステップＳ１００４において、ステップＳ１００２で再構成された基準画像を比較してそれらが同じ身元に属するか否かを検証し、すなわち、それぞれ基準画像に対応した顔画像が同じ身元に属するか否かを検証する。

本発明の実施形態において、方法１０００には、任意の２つの再構成された基準画像の間の類似度を取得して画像検証ネットワークのパラメータことを決定するステップをさらに含んでもよく、当該ネットワークのアーキテクチャが図５に示すようなものである。その後、決定されたパラメータを有する画像検証ネットワークでは、再構成された基準画像が同じ身元に属するか否かを検証することができる。

本発明の他の一実施形態において、方法１０００は、それぞれ再構成された基準画像のいずれから、１つ以上の顔部品を選択して１つ以上の顔部品対を形成するステップをさらに含んでもよく、各顔部品対がそれぞれ基準画像における同一顔区域に対応した顔部品を含む。本発明の他の一実施形態において、方法１００には、画像検証ネットワークのパラメータを訓練するために、顔部品対の間の類似度を取得するステップを含んでもよい。

本発明によれば、画像検証ネットワークは、対になる再構成された正規化顔画像から階層的な特徴表現を学習する。再構成された画像が既に大きな顔変化を除去したため、これらの特徴は、顔認証に対して頑健性を持っている。それは、例えば、顔幻覚、顔素描の分析および識別のような他の問題に用いられる潜在用途を持っている。

図５を参照して、再構成された基準画像は、画像検証ネットワークの入力として用いられ、顔部品対の間の類似度および再構成された基準画像の間の類似度に基づいて画像検証ネットワークのパラメータを訓練する。

図５を参照して、画像検証ネットワークは、５つのＣＮＮを含み、各ＣＮＮは、対になる顔画像の全体や顔部品（例えば額、鼻、目および口が挙げられ）を用いて入力する。図５に示された顔全体、額、目、鼻および口のサイズは、それぞれ６４×６４、２２×６４、２４×６４、２８×３０および２０×５６である。注意すべきことは、図５において額、目、鼻および口を選択の顔領域としたが、本発明において異なるサイズを持つ他の顔領域を選択することができる。図５に示された画像検証ネットワークにおいて、各ＣＮＮは、交互に構成された、２つの畳み込み層および２つのサブサンプリング層を備える。各ＣＮＮは、完全接続層をさらに備える。画像再構成ネットワークと同様に、畳み込み層のフィルタを共有しない。

画像検証ネットワークにおいて、各ＣＮＮは、顔部品対または顔画像の共同表示を学習してＣＮＮの各層の初期パラメータを訓練する。訓練期間では、前層の出力が現在層に入力される。その後、最後の層の出力と想定ターゲットとを比較して誤差を得る。その後、２つの顔画像が同じ身元に属するか否かを推測するために、得られた誤差に基づいて、ロジスティック回帰層が初期パラメータを微調整し、全ての共同表示を特徴として具体化する。

具体的に、画像検証ネットワークの訓練は、まず教師なし特徴学習によりフィルタを訓練する。その後、所属分野によく知られているように、ＳＧＤ（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ、確率的勾配降下）により逆伝播して画像検証ネットワークを微調整する。画像再構成ネットワークの訓練と同様に、逆伝播誤差を逆方向へ伝送し、かつ、その後、各層において完全接続重みやフィルタが更新新される。
によりラベルｙを推測する必要があるため、損失誤差ではなく、エントロピー誤差を用いる。
その中で、
は、予測されたラベルであり、かつ、
が１に等しいのは、入力画像が同じ身元に属することを表す一方、０に等しいのは、入力画像が同じ身元に属しないことを表す。

特定のハードウェア、ソフトウェア、または両方の組み合わせを用いて本発明の実施形態を実行することができる。また、本発明の実施形態は、コンピュータプログラムコードを含有する１つ以上のコンピュータ読み取り可能な記憶媒体（ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ等を含むがこれらに限定されない）の形態で具現されたコンピュータプログラム製品に適用できる。

上記の記載の中では、説明の便宜のために、単一の実施形態においてさまざまな態様、ステップ、または部材を組み合わせした。本発明は、保護を請求する主題のために全ての変形を開示する必要となることが解釈されないべきである。添付の特許請求の範囲は、当該例示的な実施形態の明細書に組み込まれており、その中で、各請求項その自体は、本発明の独立の実施形態として示されている。

以上、本発明の実施形態および実施例を既に示して説明したが、本発明の要旨および範囲を逸脱しない限り、それらに対してさまざまな変更を行うことができると明らかにする。

入力：全ての身元｛Ｘ⁰ _ij｝の顔画像
出力：ターゲット｛Ｙ_ｉ｝とネットワークパラメータＷ
初期化：ｔ＝０、教師なし特徴学習によりＷを初期化させ、各身元ｉについて、Ｙ_i ^t∈Ｄ_ｉを式（１）の最小値を持つ画像として設定し、
ｔ＜Ｔである場合、
各Ｘ⁰ _ijに対して、
確率的勾配降下によりＷを更新し、
終了
各身元ｉに対して、
式（７）を利用してＹ_ｉ ^’を計算し、
Ｙ_i ^t+1∈Ｄ_ｉをＹ_ｉ ^’に最も近い画像として設定し、
終了
終了
その後、ステップＳ１００４において、ステップＳ１００３で再構成された基準画像を比較してそれらが同じ身元に属するか否かを検証し、すなわち、それぞれ基準画像に対応した顔画像が同じ身元に属するか否かを検証する。

本発明の他の一実施形態において、方法１０００は、それぞれ再構成された基準画像のいずれから、１つ以上の顔部品を選択して１つ以上の顔部品対を形成するステップをさらに含んでもよく、各顔部品対がそれぞれ基準画像における同一顔区域に対応した顔部品を含む。本発明の他の一実施形態において、方法１０００には、画像検証ネットワークのパラメータを訓練するために、顔部品対の間の類似度を取得するステップを含んでもよい。

Claims

同一の身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して前記身元の代表画像とする獲得ステップと、
獲得された前記代表画像と前記身元の前記複数の顔画像との間のマッピングに基づいて画像再構成ネットワークのパラメータを決定する決定ステップと、
決定されたパラメータを有する前記画像再構成ネットワークを介して、少なくとも２つの入力顔画像をそれぞれ相応の基準画像として再構成する再構成ステップと、
再構成された基準画像を比較して、再構成された基準画像が同じ身元に属するか否かを検証する比較ステップと、を含み、
その中で、前記代表画像は正面画像であり、前記正面測定値は各前記顔画像の対称性とシャープネスを表すこと
を特徴とする基準画像に基づく顔画像の検証方法。
前記再構成ステップの後、前記方法は、
入力顔画像と、再構成された相応の基準画像との間の変換に基づいて、前記画像再構成ネットワークのパラメータを調整するステップをさらに含むこと
を特徴とする基準画像に基づく顔画像の検証方法。
前記画像再構成ネットワークは、複数層を有するサブネットワークを備え、かつ前記決定ステップは、
画像訓練セットの入力により前記マッピングに基づいて前記画像再構成ネットワークの各層の初期パラメータを決定するステップと、
前記サブネットワークの最後の層の出力と、想定ターゲットとを比較して前記サブネットワークの最後の層の出力と前記想定ターゲットとの誤差を取得するステップと、
得られた誤差に基づいて前記初期パラメータを微調整して前記画像再構成ネットワークの全てのパラメータを具体化させるステップとをさらに含み、
その中で、前記画像再構成ネットワークの各層の初期パラメータを決定する期間に、前記サブネットワークの前の層の出力を前記サブネットワークの現在の層に入力こと
を特徴とする請求項１に記載の方法。
前記比較ステップの前に、前記方法は、
任意の２つの再構成された基準画像の間の類似度を取得して画像検証ネットワークのパラメータを決定するステップをさらに含むこと
を特徴とする請求項１に記載の方法。
再構成された基準画像のいずれの画像から、それぞれ１つ以上の顔部品を選択して１つ以上の顔部品対を形成するステップと、
前記顔部品対の間の類似度を取得して前記画像検証ネットワークのパラメータを決定するステップとをさらに含み、
その中で、前記顔部品対のいずれも、それぞれ前記基準画像における同一顔領域に対応した顔部品を含むこと
を特徴とする請求項４に記載の方法。
前記正面測定値Ｍ（Ｙ_ｉ）は、
で表われ、
その中で、Ｙ_ｉ∈Ｄ_ｉは、顔画像セットＤ_ｉにおける顔画像を表し、
λは、定数係数であり、
||・||_Ｆは、フロベニウスノルムであり、
||・||_＊は、核ノルムであり、
Ｐ、Ｑは、２つの定数行列を表し、その中で、Ｐ＝ｄｉａｇ（［１_ａ，０_ａ］）かつＱ＝ｄｉａｇ（［０_ａ，１_ａ］）であり、ここで、ｄｉａｇ（・）は、対角行列を表すこと
を特徴とする請求項１に記載の方法。
同一の身元の複数の顔画像から最小正面測定値を持つ顔画像を獲得して前記身元の代表画像とするように構成される獲得ユニットと、
入力顔画像をそれぞれ相応の基準画像として再構成するように構成される画像再構成ユニットと、
前記獲得ユニットで獲得された前記代表画像と前記身元の前記複数の顔画像との間のマッピングに基づいて前記画像再構成ユニットのパラメータを決定するように構成される決定ユニットと、
前記画像再構成ネットワークで再構成された前記基準画像を比較し、再構成された基準画像が同じ身元に属するか否かを検証するように構成される比較ユニットとを備え、
その中で、前記代表画像は正面画像であり、かつ前記正面測定値は各前記顔画像の対称性とシャープネスを表すこと
を特徴とする基準画像に基づく顔画像の検証システム。
前記決定ユニットは、さらに、入力顔画像と再構成された相応の基準画像との間の変換に基づいて、前記画像再構成ネットワークのパラメータを調整するように構成されること
を特徴とする請求項７に記載のシステム。
前記画像再構成ユニットは、多層画像再構成ニューラルネットワークとして形成されていること
を特徴とする請求項７に記載のシステム。
前記画像再構成ニューラルネットワークは、複数層を有するサブネットワークを備え、かつ前記決定ユニットは、さらに、画像訓練セットの入力により前記マッピングに基づいて前記画像再構成ニューラルネットワークの各層の初期パラメータを決定し、その中で、前記画像再構成ニューラルネットワークの各層の初期パラメータを決定する期間に、前記サブネットワークの前の層の出力を前記サブネットワークの現在の層に入力するように構成され、
前記決定ユニットは、さらに、前記サブネットワークの最後の層の出力と、想定ターゲットとを比較して前記サブネットワークの最後の層の出力と前記想定ターゲットとの誤差を取得し、かつ、得られた誤差に基づいて前記初期パラメータを微調整して前記画像再構成ネットワークの全てのパラメータを具体化させるように構成されること
を特徴とする請求項９に記載のシステム。
任意の２つの再構成された基準画像の間の類似度を取得するように構成される取得ユニットと、
対になる顔画像が同じ身元に属するか否かを検証するように構成される画像検証ユニットとをさらに備え、
その中で、前記決定ユニットは、さらに、前記取得ユニットで取得された任意の２つの再構成された基準画像の間の類似度に基づいて前記画像検証ユニットのパラメータを決定するように構成されること
を特徴とする請求項８に記載のシステム。
再構成された基準画像のいずれの画像から、それぞれ１つ以上の顔部品を選択して１つ以上の顔部品対を形成し、前記顔部品対のいずれも、それぞれ前記基準画像における同一顔領域に対応した顔部品を含むように構成される選択ユニットをさらに備え、かつ
その中で、前記取得ユニットは、さらに、前記顔部品対の間の類似度を取得するように構成され、かつ
前記決定ユニットは、さらに、前記取得ユニットで取得された前記顔部品対の間の類似度に基づいて前記画像検証ユニットのパラメータを決定するように構成されること
を特徴とする請求項１１に記載のシステム。
前記正面測定値Ｍ（Ｙ_ｉ）は、
で表され、
その中で、Ｙ_ｉ∈Ｄ_ｉは、顔画像セットＤ_ｉにおける顔画像を表し、
λは、定数係数であり、
||・||_Ｆは、フロベニウスノルムであり、
||・||_＊は、核ノルムであり、
Ｐ、Ｑは、２つの定数行列を表し、その中で、Ｐ＝ｄｉａｇ（［１_ａ，０_ａ］）かつＱ＝ｄｉａｇ（［０_ａ，１_ａ］）であり、ここで、ｄｉａｇ（・）は、対角行列を表すこと
を特徴とする請求項７に記載のシステム。
前記画像検証ユニットは、多層画像検証ニューラルネットワークとして形成されている、請求項１１に記載のシステム。
同一の身元の複数の顔画像から顔画像を獲得して前記身元の代表画像とする獲得ステップと、
獲得された代表画像と前記身元の前記複数の顔画像との間のマッピングに基づいて画像再構成ネットワークのパラメータを決定する決定ステップと、
決定されたパラメータを有する前記画像再構成ネットワークを介して、少なくとも２つの入力顔画像をそれぞれ相応の基準画像として再構成する再構成ステップと、
任意の２つの再構成された基準画像の間の類似度を取得して画像検証ネットワークのパラメータを決定する取得ステップと、
決定されたパラメータを有する前記画像検証ネットワークを介して、再構成された基準画像が同じ身元に属するか否かを検証する検証ステップとを含み、
その中で、前記代表画像は、正面画像であること
を特徴とする基準画像に基づく顔画像の検証方法。
前記画像再構成ネットワークは、複数のサブネットワーク層を備え、かつ前記決定ステップは、
画像訓練セットの入力により前記マッピングに基づいて前記画像再構成ネットワークの各層の初期パラメータを決定するステップと、
サブネットワークの最後の層の出力と、想定ターゲットとを比較して前記サブネットワークの最後の層の出力と前記想定ターゲットとの誤差を取得するステップと、
得られた誤差に基づいて前記初期パラメータを微調整して前記画像再構成ネットワークの全てのパラメータを具体化させるステップとをさらに含み、
その中で、前記決定期間に、サブネットワークの前層の出力をサブネットワークの現在層に入力こと
を特徴とする請求項１５に記載の方法。
前記獲得ステップにおいては、
最小の正面測定値を持つ顔画像を獲得して前記身元の前記代表画像とするステップをさらに含み
その中で、前記正面測定値は、各顔画像の対称性とシャープネスを表すこと
を特徴とする請求項１５に記載の方法。
前記再構成された基準画像のいずれの画像から、それぞれ１つ以上の顔部品を選択して１つ以上の顔部品対を形成するステップと、
前記顔部品対の間の類似度を取得するステップと、
取得された任意の２つの再構成された基準画像の間の類似度、および取得された前記顔部品対の間の類似度に基づいて前記画像検証ネットワークのパラメータを決定するステップとをさらに含み、
その中で、前記顔部品対のいずれも、それぞれ前記基準画像における同一顔領域に対応した顔部品を含むこと
を特徴とする請求項１５に記載の方法。