JP6127214B2

JP6127214B2 - 顔画像認識のための方法とシステム

Info

Publication number: JP6127214B2
Application number: JP2016540679A
Authority: JP
Inventors: タン、シャオオウ; ソン、イ; ワン、シャオガン
Original assignee: ペキンセンスタイムテクノロジーディベロップメントカンパニーリミテッド
Priority date: 2013-11-30
Filing date: 2013-11-30
Publication date: 2017-05-10
Anticipated expiration: 2033-11-30
Also published as: EP3074918B1; HK1223439A1; WO2015078018A8; CN105849747A; JP2016538656A; HK1223718A1; CN105849747B; US20160379044A1; EP3074918A4; US9530047B1; EP3074918A1; WO2015078018A1; KR20160083127A

Description

本発明は、主に画像処理分野に関し、具体的に、顔画像認識のための方法、およびシステムに関する。

顔画像認識の基礎は、生物学的特徴に基いて２つの比較される顔が同じ身元に所属するか否かを確認することである。他の従来の認識装置（例えば、指紋認識）を用いて認識する場合に比べると、顔画像認識は、正確で使いやすく、偽造が困難であり、コストが低く、且つ非侵襲的な特徴を持っているため、セキュリティ用途のアプリケーションにおいて広く使用されている。最近数十年において、顔画像認識は、幅広く研究されてきた。従来の顔画像認識のための方法は、通常、特徴の抽出および特徴の認識という２つのステップを含む。特徴抽出段階では、さまざまな手描き特徴が使用される。より重要なことは、既存の方法では単独に各顔画像から特徴を抽出してから、顔認識段階でこれらの特徴を比較する。しかしながら、特徴抽出段階において、２つの比較された顔画像の間の重要な関係の一部を失う可能性がある。

認識段階において、分類器は２つの顔画像に対して同じ身元を持っているもの、または異なる身元を持っているものに分類し、あるいは他のモデルで２つの顔画像の類似性を計算する。これらのモデルは、人物間変化と人物内変化とを分けることを目的とする。しかしながら、これらのモデルの全ては、浅い構造を有する。複雑な分布を持つ大規模なデータを処理するために、顔から過完備特徴（ｏｖｅｒ−ｃｏｍｐｌｅｔｅｄｆｅａｔｕｒｅ）を抽出する必要となる可能性がある。また、特徴抽出段階と認識段階とが分けられているため、それらは共同で最適化されることができない。有用な情報が特徴抽出段階で失われると、それは認識段階で回復することができなくなる。

本発明は、顔身元を監督する場合において比較された顔画像に由来した顔領域ペアから、関係特徴を直接で共同的に抽出することを提案している。単一の深いネットワーク・アーキテクチャの下で、特徴抽出段階と認識段階との両方が統合され、且つ全てのコンポーネントが顔認識のために共同で最適化されることができる。

本発明の一態様において、顔画像認識のための方法が開示されている。前記方法は、比較・認識すべき顔画像の１つ以上の顔領域ペアを生成する生成ステップと、各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成する形成ステップと、１つ以上の畳み込みニューラルネットワークにより、前記複数の特徴モード（ここで、各特徴モードが前記畳み込みニューラルネットワークのいずれにも複数の入力マップを形成する）を受信する受信ステップと、前記１つ以上の畳み込みニューラルネットワークにより、前記入力マップから身元関係特徴を抽出する抽出ステップ（ここで、抽出された大局でハイレベルの身元関係特徴は、比較された顔画像の身元類似性を反映する）と、比較された顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識する認識ステップと、を含んでもよい。

本発明の他の一態様において、顔画像認識のためのシステムが開示される。前記システムは、生成ユニットと、形成ユニットと、１つ以上の畳み込みニューラルネットワークと、プーリングユニットと、認識ユニットとを含んでもよい。前記生成ユニットは、比較・認識すべき顔画像の１つ以上の顔領域ペアを生成するように構成されてもよい。前記形成ユニットは、各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成されてもよい。前記畳み込みニューラルネットワークは、前記複数の特徴モードを受信し、且つ前記複数の入力マップから身元関係特徴を階層的に抽出するように構成されてもよく、ここで、各特徴モードが複数の入力マップを形成し、抽出された大局ハイレベルの身元関係特徴が前記顔画像の身元類似性を反映する。前記プーリングユニットは、関連関係特徴をプールして安定でコンパクトな関係特徴を得るように構成されてもよい。前記認識ユニットは、前記顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識するように構成されてもよい。

本発明の他の一態様において、顔画像認識システムに用いられる身元関係特徴を抽出するための複数の畳み込みニューラルネットワークが開示される。各畳み込みニューラルネットワークは、複数の畳み込み層を含んでもよく、前記関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含んでもよい。前記畳み込みニューラルネットワークのいずれも、前記顔画像認識システムから複数の特徴モードを受信するように構成されてもよい。各特徴モードが前記畳み込みニューラルネットワークに複数の入力マップを形成する。前記畳み込みニューラルネットワークは、比較的低い畳み込み層における前記入力マップから、局所ローレベル関係特徴を抽出し、且つ、抽出された局所ローレベル関係特徴に基いて後の特徴抽出層から比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出する。

以下、図面を参照して本発明の例示的な非限定的実施形態を説明する。図面は、例示的なものであり、一般的に正確なスケールで作成されていない。

いくつかの開示された実施形態に係る顔画像認識のためのシステムを例示的に示す概略図である。

いくつかの開示された実施形態に係る生成ユニットを例示的に示す概略図である。

いくつかの開示された実施形態に係る顔画像認識のためのシステムのアーキテクチャーを例示的に示す概略図である。

いくつかの開示された実施形態に係る畳み込みニューラルネットワークのアーキテクチャーを例示的に示す概略図である。

いくつかの開示された実施形態に係る顔画像認識のための方法を例示的に示す流れ図である。

以下、例示的な実施形態を詳細に参照し、これらの実施形態の例が図面に示されている。必要に応じて、全ての図面にいて、同じまたは類似の部分が同じ参照番号で示されている。

図１は、いくつかの開示された実施形態に係る顔画像認識のためのシステム１０００を例示的に示す概略図である。システム１０００は、１つ以上の汎用コンピュータ、１つ以上のコンピュータクラスター、１つ以上の主流コンピュータ、１つ以上のオンラインコンテンツを提供する専用コンピュータ機器、あるいは、１組の集中もしくは分散の形で操作されるコンピュータを備える１つ以上のコンピュータネットワークを含んでもよい。

図１に示すように、本発明の一実施形態に係るシステム１０００は、生成ユニット１１０と、形成ユニット１２０と、１つ以上の畳み込みニューラルネットワーク１３０と、プーリングユニット１４０と、認識ユニット１５０とを含んでもよい。

生成ユニット１１０は、認識すべき顔画像の１つ以上の顔領域ペアを生成するように構成されてもよい。本発明の一実施形態において、図２に示すように、生成ユニット１１０は、検出モジュール１１１と、位置合わせモジュール１１２と、選択モジュール１１３とを含んでもよい。検出モジュール１１１は、認識すべき顔画像の複数の顔特徴点を検出することができる。例えば、これらの顔特徴点は、両目の中心および口の中心であってもよい。位置合わせモジュール１１２は、検出された顔特徴点に基いて認識すべき顔画像を位置合わせする。本発明の一実施形態において、顔画像は、顔特徴点に基いて類似変換によって位置合わせされてもよい。なお、選択モジュール１１３は、認識すべき位置合わせされた顔画像の同じ位置における１つ以上の領域を選択してそれぞれ１つ以上の顔領域ペアを生成することができる。複数の異なる顔領域ペアを形成するために、選択された顔領域の位置を変更してもよい。

形成ユニット１２０は、各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成されてもよい。例えば、一実施形態において、２つの顔領域を交換して各顔領域を水平に反転することにより、８つのモードを形成してもよい。

１つ以上の畳み込みニューラルネットワーク１３０は、複数の特徴モードを受信するように構成されてもよい。各特徴モードは、複数の入力マップを形成してもよい。畳み込みニューラルネットワークは、複数の入力マップから身元関係特徴を階層的に抽出する。畳み込みニューラルネットワークの比較的に高い畳み込み層における抽出された全局で高水準の関係特徴は、比較された顔画像の身元類似性を反映する。図４に示すように、本発明の一実施形態において、畳み込みニューラルネットワーク１３０は、複数の畳み込み層を含んでもよく、例えば、本実施形態に４つの畳み込み層を含む。畳み込み層は、身元関係特徴を階層的に抽出することができる。さらに、関係特徴は、局所ローレベル関係特徴と、大局ハイレベル関係特徴とを含んでもよい。各畳み込みニューラルネットワークは、比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出し、且つ、抽出された局所ローレベル関係特徴に基いて後の特徴抽出層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するようにさらに構成されてもよい。

また、本発明の一実施形態において、畳み込みニューラルネットワークは、複数の組（例えば、１２組）に分けられてもよく、その中で、各組において複数(例えば、５つ)の畳み込みニューラルネットワークが存在してもよい。各畳み込みニューラルネットワークは、１対の位置合わせすれた顔領域を入力としている。その畳み込み層は、身元関係特徴を階層的に抽出する。最終的に、図４に示すように、抽出された関係特徴は、完全連続層を通過して、２つの領域が同じ身元に所属するか否かを指示する出力層（例えば、ＳｏｆｔＭａｘ層）に完全に接続されている。異なる組における畳み込みニューラルネットワークの入力領域ペアは、それらの予測を相補させるために、領域範囲および色チャンネルについて異なっている。入力領域のサイズが異なる組に変化する場合に、畳み込みニューラルネットワークの後続層（ｆｏｌｌｏｗｉｎｇｌａｙｅｒｓ）における入力マップのサイズは、それ相応に変化する。同じ組における畳み込みニューラルネットワークは、同じ種類の領域ペアを入力としているが、訓練データの異なるブートストラップを用いて訓練されるため、依然として異なっている。複数の組の畳み込みニューラルネットワークを構築する目的は、予測の頑健性（ｒｏｂｕｓｔｎｅｓｓ）を実現することである。

また、一実施形態において、１対のグレー領域（ｇｒａｙｒｅｇｉｏｎ）が畳み込みニューラルネットワークにおける２つの入力マップを形成すると共に、１対の色領域が６つの入力マップを形成し、したがって各グレーマップを、ＲＧＢチャンネルに由来する３つのマップと取り替える。入力領域は、１つのマップとして接続・形成されることなく、複数のマップに積層されており、これにより、畳み込みニューラルネットワークに、第１の畳み込み段階に由来の２つの領域の間の関係をモデル化させることを可能とする。

一実施形態によれば、畳み込みニューラルネットワークの各畳み込み層における動作は、
式（１）
で表われることができる。
式中、＊は畳み込みを表し、ｘ_ｉおよびｙ_ｊはそれぞれ第ｉの入力マップおよび第ｊの出力マップであり、ｋ_ｉｊは、第ｉの入力マップと第ｊの出力マップとを連続する畳み込みのカーネル（フィルタ）であり、且つｂ_ｊは、第ｊの出力マップのバイアスであり、ｍａｘ（０，）は、非線形活性化関数であり、要素ごとに動作されている。このような非線形度を有するニューロンは、整流線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｓ）と呼ばれる。なお、比較的高い畳み込み層における同じマップの中のニューロンの重み（畳み込みカーネルとバイアスが含まれる）は、局所的に共有されている。上付きの「ｒ」は、その重みが共有された局所的な領域を示す。顔は、構造化された対象であるため、比較的高い層において重みを局所的に共有することは、ネットワークが異なる位置において異なる高水準特徴を習得することを可能とする。

一実施形態によれば、例えば、第１の畳み込み層は、２０個のフィルターペアを含む。各フィルターペアは、比較された２つの顔領域をそれぞれ畳み込み、結果が追加される。その中で１つのフィルターが比較的大きく変化する一方、もう１つのフィルターが均一に近く維持しているフィルターペアについては、２つの入力領域から別々に特徴を抽出する。その中で２つのフィルターがいずれも比較的大きく変化するフィルターペアについては、２つの入力領域の間のいくつかの種類関係を抽出する。後者について、いくつかのペアが、例えば、足し算や引き算という単純な関係を抽出するが、他のペアがより複雑な関係を抽出する。いくつかのフィルターペアにおけるフィルターと、その他のいくつかのフィルターペアにおけるフィルターとは、ほぼ同じであり、相違点は２つのフィルターの順序が反転していることを注意すべきである。これは、比較された２つの顔領域の順序が変化したとしても、顔の類似性が変化しないままで維持すべきであるため、このようにすれば意義がある。

前記実施形態によれば、畳み込みニューラルネットワーク１３０の出力マップは、双方向ソフトマックス（ＳｏｆｔＭａｘ）
式（２）
で表される。
ｉ＝１，２について、ここで、ｘ_ｉは、出力ニューロンｉの総入力マップであり、且つ、ｙ_ｉは、出力ニューロンｉの出力である。ｙ_ｉは、２つの分類（ｃｌａｓｓ）の確率分布を表し、すなわち同じ身元に所属するか否か。このような確率分布では、複数の畳み込みニューラルネットワークの出力を、スケーリングしないままで、直接に平均するように効率的にさせる。畳み込みニューラルネットワークは、最小化の−ｌｏｇｙ_ｉにより訓練され、その中で、ｔ∈｛１，２｝は、ターゲット分類を示す。損失は、確率的勾配降下により最小化され、ここで、勾配が逆伝搬によって計算される。

本発明の一実施形態において、畳み込みニューラルネットワーク１３０における各畳み込みニューラルネットワークは、複数の入力特徴モードから関係特徴を抽出することができる。また、複数の畳み込みニューラルネットワークは存在してもよく、その中で、各組には、複数の畳み込みニューラルネットワークを有し、ここで、同じ組における畳み込みニューラルネットワークは、同じ顔領域ペアから身元関係特徴を抽出する一方、異なる組における畳み込みニューラルネットワークは、異なる顔領域ペアから特徴を抽出する。

図１に示すように、システム１０００はプーリングユニット１４０を含んでもよく、前記プーリングユニットは、抽出された身元関係特徴をプーリングして個々の特徴の分散を減少させ、且つそれらの身元関係に対する予測の正確さを向上させる。例えば、本発明の一実施形態において、畳み込みニューラルネットワークに由来する出力の身元関係特徴に対して２つのレベルの平均プーリングが用いられる。図３に示すように、層Ｌ１は、８つの異なる入力特徴モードに基いて同じ畳み込みニューラルネットワークの８つの身元関係予測の平均により形成される。層Ｌ２は、層Ｌ１における、同じ組の中の５つの畳み込みニューラルネットワークに関連付けられている５つのプーリング予測を平均することにより形成された。

認識ユニット１５０は、畳み込みニューラルネットワークユニット１３０により抽出された関係特徴、またはプーリングユニット１４０に由来するプーリング関係特徴に基いて、顔画像が同じ身元に所属するか否かを認識するように構成されてもよい。認識ユニット１５０は、分類器、例えば、ベイズ分類器、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、またはニューラルネットワーク分類器を含んでもよく、且つ、当該分類器は、抽出された関係特徴を、２つの種類（即ち、同じ身元に所属するか否か）に分類するように構成されてもよい。図３における一実施形態において、認識ユニット１５０は、分類が制限されたボルツマンマシンであり、階層的にプーリングした後に、前記認識ユニットは、複数の組の畳み込みニューラルネットワークの出力を入力としており、且つ同じ身元に所属するか否かという２つの種類に対して確率分布を出力する。

例えば、分類が制限されたボルツマンマシンは、出力ニューロンｙ（Ｃクラスの出力の１つである）と、入力ニューロンｘ（２進法）と、隠れニューロンｈ（２進法）との間の結合分布を、ｐ（ｙ，ｘ，ｈ）∝ｅ^{−Ｅ（ｙ，ｘ，ｈ）}にモデル化し、その中で、Ｅ（ｙ，ｘ，ｈ）＝−ｈ^ＴＷｘ−ｈ^ＴＵｙ−ｂ^Ｔｘ−ｃ^Ｔｈ−ｄ^Ｔｙである。入力ｘを設定し、その出力ｙの条件確率は、
式（３）
として明らかに表示されることができ、
その中で、ｃは、第ｃのクラスを示す。

多くの畳み込みニューラルネットワークは、システム１０００が比較的高い容量を有することが表示される。システム全体を直接に最適化することは、深刻な過剰適合を起こす原因となる。したがって、まず、システムにおける各畳み込みニューラルネットワークを個別に訓練してもよい。その後、全ての畳み込みニューラルネットワークを固定することにより、認識ユニットにおけるモデルが訓練される。比較された２つの顔が同じ身元に所属するか否かを予測するために、全ての畳み込みニューラルネットワークおよび認識ユニットにおけるモデルを、教師ありで訓練してもよい。これらの２つのステップは、よい局所極小に近くになるようにシステム１０００を初期化する。最終的に、システム全体は、逆伝搬エラーにより、認識ユニットにおけるモデルから、全ての畳み込みニューラルネットワークまで微調整された。

本発明の一実施形態において、システム１０００は、１つ以上のプロセッサ（図示せず）を含んでもよい。当該プロセッサは、中央処理装置（「ＣＰＵ」）、グラフィック処理装置（「ＧＰＵ」）、または他の適切な情報処理機器を含んでもよい。使用されているハードウエアの種類に基いて、プロセッサは、１つ以上のプリント回路基板、および／または１つ以上のマイクロプロセッサチップを含んでもよい。また、プロセッサは、メモリに格納されているコンピュータプログラム命令を実施して図５に示すプロセス５０００を実行するように構成されている。

ステップＳ２０１において、システム１０００は、認識すべき顔画像の１つ以上の顔領域ペアを生成してもよい。本発明の一実施形態において、システム１０００は、まず、認識すべき顔画像の１つ以上の顔特徴点を検出してもよい。その後、システム１０００は、１つ以上の検出された顔特徴点に基いて、認識すべき顔画像を位置合わせてもよい。次に、システム１０００は、認識すべき位置合わせされた顔画像の同じ位置における１つ以上の領域を選択してそれぞれ１つ以上の顔領域ペアを生成してもよい。

ステップＳ２０２において、システム１０００は、各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成してもよい。

ステップＳ２０３において、１つ以上の畳み込みニューラルネットワーク１３０は、複数の特徴モードを受信して畳み込みニューラルネットワークにおいて複数の入力マップを形成し、且つ、入力マップから１つ以上の関係特徴を抽出して複数の出力マップを形成してもよく、前記出力マップは、比較された顔画像の身元関連性、すなわち、同じ人に所属するか否かを反映する。

ステップＳ２０４において、システム１０００は、抽出された身元関係特徴をプーリングし、例えば、平均プーリングにして個々の特徴の分散を減少させてもよい。このステップは、任意的である。

ステップＳ２０５において、システム１０００は、顔画像の身元関係特徴に基いて顔画像が同じ身元に所属するか否かを認識してもよい。

本発明の実施形態では、特定のハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実施してもよい。また、本発明の実施形態は、コンピュータプログラムコードを含有する１つ以上のコンピュータ読み取り可能な記憶媒体（ディスク記憶装置、ＣＤ−ＲＯＭ、光メモリ等を含むがこれらに限定されない）上に具現されているコンピュータプログラム製品として適切に構成されてもよい。

上記の説明では、例示的な目的として、様々な方法、ステップ、またはコンポーネントを、一緒に単一の実施形態に組み合わせてもよい。本発明は、保護を請求すべき主題に対して開示された変化の全てを必要とすると解釈されるべきではない。記載されている特許請求の範囲は、上記の例示的な実施形態に対する説明の中に組み込まれており、その中の各請求項その自身は、本発明の独自の実施形態として表われている。

なお、本発明に開示された範囲から逸脱しない場合、保護を請求するように開示されたシステムおよび方法に対して様々な修正および変形を行う可能であることは、本明細書の開示および本発明の実践に基いて、当業者であれば明らかであろう。したがって、明細書および実施例は、ただ例示的なものと考えられ、本開示の実際の範囲は、記載されている請求の範囲およびそれらの均等物により示されている。

Claims

比較・認識すべき顔画像の１つ以上の顔領域ペアを生成する生成ステップと、
各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成する形成ステップと、
１つ以上の畳み込みニューラルネットワークにより、前記複数の特徴モードを受信し、ここで、各特徴モードが複数の入力マップを形成する受信ステップと、
比較された顔画像の身元関係を反映する複数の出力マップを形成するように、前記１つ以上の畳み込みニューラルネットワークにより、前記入力マップから１つ以上の身元関係特徴を抽出する抽出ステップと、
前記顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識する認識ステップと、を含むことを特徴とする顔画像認識のための方法。
前記生成ステップは、
認識すべき前記顔画像の複数の顔特徴点を検出するステップと、
検出された１つ以上の顔特徴点に基いて、認識すべき前記顔画像を位置合わせするステップと、
位置合わせされた顔画像の同じ位置における複数の領域を選択してそれぞれ１つ以上の顔領域ペアを生成するステップとを、さらに含むことを特徴とする請求項１に記載の方法。
前記畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
前記抽出ステップは、
前記畳み込みニューラルネットワークの比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出するステップと、
抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するステップと、を含むことを特徴とする請求項１に記載の方法。
前記抽出ステップの後で前記認識ステップの前に、前記方法は、
抽出された関係特徴をプーリングして安定でコンパクトな関係特徴を取得するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記抽出ステップは、
同じ畳み込みニューラルネットワークにより、異なる入力特徴モードで構成された入力マップから前記身元関係特徴を抽出するステップ、或いは、
異なる畳み込みニューラルネットワークにより、異なる顔領域ペアの同じ領域から前記身元関係特徴を抽出するステップを含むことを特徴とする請求項１に記載の方法。
前記顔領域ペアの各顔領域は、複数の色チャンネルを含み、各顔領域における各色チャンネルは、前記畳み込みニューラルネットワークにおいて入力マップを形成することを特徴とする請求項１に記載の方法。
比較・認識すべき顔画像の１つ以上の顔領域ペアを生成するように構成された生成ユニットと、
各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成するように構成された形成ユニットと、
各特徴モードが複数の入力マップを形成する前記複数の特徴モードを受信し、さらに、比較された顔画像の身元類似性を反映する身元関係特徴を、前記入力マップから階層的に抽出するように構成された１つ以上の畳み込みニューラルネットワークと、
比較された顔画像の前記身元関係特徴に基いて前記顔画像が同じ身元に所属するか否かを認識するように構成された認識ユニットと、を含むことを特徴とする顔画像認識のためのシステム。
前記生成ユニットは、
認識すべき顔画像の複数の顔特徴点を検出するように構成された検出モジュールと、
前記検出された顔特徴点に基いて、認識すべき前記顔画像を位置合わせするように構成された位置合わせモジュールと、
位置合わせされた認識すべき顔画像の同じ位置における１つ以上の領域を選択し、それぞれ１つ以上の顔領域ペアを生成するように構成された選択モジュールと、を含むことを特徴とする請求項７に記載のシステム。
前記畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
前記畳み込み層はいずれも、
前記畳み込みニューラルネットワークの比較的低い畳み込み層における入力マップから、局所ローレベル関係特徴を抽出し、
抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、前記顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するようにさらに構成されたことを特徴とする請求項７に記載のシステム。
抽出された関係特徴をプーリングして安定でコンパクトな関係特徴を取得するように構成されたプーリングユニットを、さらに含むことを特徴とする請求項７に記載のシステム。
前記畳み込み層はいずれも、
同じ畳み込みニューラルネットワークにより、異なる入力特徴モードで構成された入力マップから前記身元関係特徴を抽出するように、或いは
異なる畳み込みニューラルネットワークにより、異なる顔領域ペアの同じ領域から前記身元関係特徴を抽出するようにさらに構成された請求項７に記載のシステム。
前記顔領域ペアの各顔領域は、複数の色チャンネルを含み、各顔領域における各色チャンネルは、前記畳み込みニューラルネットワークにおいて入力マップを形成することを特徴とする請求項７に記載のシステム。
身元関係特徴を抽出するための複数の畳み込みニューラルネットワークを用いた顔画像認識のためのシステムであって、各畳み込みニューラルネットワークは、複数の畳み込み層を含み、前記身元関係特徴は、局所ローレベル関係特徴および大局ハイレベル関係特徴を含み、
前記システムは、
コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を実行するプロセッサとを含み、
前記コンピュータプログラム命令は、
比較・認識すべき顔画像の各顔領域ペアの２つの顔領域を交換して各顔領域ペアの各顔領域を水平に反転させることにより、複数の特徴モードを形成し、
各畳み込みニューラルネットワークにおいて、１つの特定の顔領域ペアの１つの特定の特徴モードを受信して複数の入力マップを形成し、
前記畳み込みニューラルネットワークの比較的低い畳み込み層における前記入力マップから、局所ローレベル関係特徴を抽出し、
抽出された局所ローレベル関係特徴に基いて前記畳み込みニューラルネットワークの後続層から、比較された顔画像の身元類似性を反映する大局ハイレベル関係特徴を抽出するように構成されたことを特徴とする顔画像認識のためのシステム。