JP2018195309A

JP2018195309A - 顔認識のための画像処理装置の訓練方法及び訓練装置

Info

Publication number: JP2018195309A
Application number: JP2018093891A
Authority: JP
Inventors: ミアオ・チエヌウエヌ; Qianwen Miao
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-17
Filing date: 2018-05-15
Publication date: 2018-12-06
Anticipated expiration: 2038-05-15
Also published as: CN108960001B; JP7040278B2; CN108960001A

Abstract

【課題】顔認識のための画像処理装置の訓練方法及び訓練装置、並びにそれに対応する画像処理装置【解決手段】該方法は、第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップと、複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練するステップと、ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、グローバル固有ベクトル及びラベルに基づいて結合ベイジアンモデルを訓練するステップと、を含み、画像処理装置の顔認識は、訓練されたＣＮＮモデル及び結合ベイジアンモデルに基づくものである。本発明によれば、大量のラベル付きの訓練画像を必要とすることなく、顔認識のための画像処理装置の訓練することができる。【選択図】図１

Description

本発明は、顔認識のための画像処理装置の訓練方法及び訓練装置、並びにそれに対応する画像処理装置に関する。

近年、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）モデルに基づく深層学習（ｄｅｅｐｌｅａｒｎｉｎｇ）方法の発展及び大量のラベル付きの顔画像を有する大規模データベースの構造により、顔認識の性能は飛躍的に向上しており、さらに人間の認識能力を超えている。しかし、従来技術の方法では、ＣＮＮモデルの訓練を行うために大量のラベル付きの顔画像が必要であり、これらの顔画像を収集、ラベル付けするには大量の時間及び労力が必要である。

以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

本発明は、少量の顔画像、さらに１つの顔画像のみを訓練データとして利用する場合でも、顔認識のための画像処理装置を訓練できる顔認識のための画像処理装置の訓練方法及び訓練装置を提供することを目的とする。また、本発明の装置又は方法により訓練された画像処理装置は、少なくとも従来技術と同等の認識精度を達成できると共に、必要なコストを大幅に低減できる。

本発明の目的を実現するために、本発明の１つの態様では、顔認識のための画像処理装置の訓練方法であって、第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップと、前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練するステップと、ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練するステップと、を含み、前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、方法を提供する。

本発明のもう１つの態様では、顔認識のための画像処理装置の訓練装置であって、第１の二次元顔画像を用いて複数の訓練画像ペアを生成する生成手段と、前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する第１の訓練手段と、ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練する第２の訓練手段と、を含み、前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、装置を提供する。

本発明のもう１つの態様では、顔認識のための画像処理装置であって、前記画像処理装置は本発明の装置又は方法により訓練される、画像処理装置を提供する。

本発明のもう１つの態様では、上記の方法を実現するためのコンピュータプログラムプロダクト、及び上記の方法を実現するためのコンピュータプログラムコードを記録したコンピュータ読み取り可能な記憶媒体をさらに提供する。

本発明の訓練技術により訓練された画像処理装置は、少なくとも従来技術と同等の顔認識の精度を達成できる。また、従来技術に比べて、該画像処理装置の訓練コストが低く、訓練速度が速い。

本発明の上記及び他の目的、特徴及び利点をより容易に理解させるために、以下は、図面を参照しながら本発明の実施例を説明する。
本発明の実施例に係る顔認識のための画像処理装置の訓練方法を示すフローチャートである。本発明の実施例に係る複数の訓練画像ペアの生成方法を示すフローチャートである。世界座標系と画像座標系とカメラ座標系の関係を示す図である。本発明の実施例に係る顔認識のための画像処理装置の訓練装置を示すブロック図である。本発明の実施例の方法及び装置を実現するための汎用機器の構成を示すブロック図である。

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を決定、変更してもよい。

なお、本発明を明確にするために、図面には本発明に密接に関連する装置の構成要件のみが示され、本発明と関係のない細部が省略される。

本発明の顔認識のための画像処理装置を訓練する技術は、以下の思想に基づくものである。顔認識の問題は、新たな二次元顔画像と既知の二次元顔画像とを比較し、同一の人の顔画像であるか否かを判断することである。

上記問題を解決するために、本発明の技術では、畳み込みニューラルネットワーク（ＣＮＮ）を訓練して顔画像における特徴を抽出し、訓練されたＣＮＮに基づいて結合ベイジアン（Ｂａｙｅｓｉａｎ）モデルを訓練して顔画像の比較を行い、即ち分類を行ってもよい。しかし、ＣＮＮの訓練を十分にするために、大量の二次元顔画像を収集、ラベル付けする必要があり、大量の時間及び労力が必要である。

従って、本発明の技術では、少量の二次元顔画像、さらに１つの二次元顔画像を用いて訓練画像を生成してＣＮＮを訓練する方法を提供している。本発明の方法では、二次元顔画像を汎用の三次元顔モデルに簡単に投影（「スタンピング」（ｓｔａｍｐｉｎｇ）とも称されてもよい）し、該二次元顔画像が投影された三次元顔モデルに対して回転、ミラー反転処理を行うことで、ＣＮＮの訓練に用いられる新たな二次元顔画像を生成できる。

そして、訓練されたＣＮＮモデルによりラベル付きの顔画像を用いて結合ベイジアンモデルを訓練し、得られた訓練されたＣＮＮモデル及び結合ベイジアンモデルは、顔認識のための画像処理モデルとしてプロセスアプリケーションに適用されてもよい。

以下は、図面を参照しながら、本発明の顔認識のための画像処理装置を訓練する技術を詳細に説明する。

図１は、本発明の実施例に係る顔認識のための画像処理装置の訓練方法１００を示すフローチャートである。

図１の方法１００はステップＳ１０１から始まる。ステップＳ１０２において、第１の二次元顔画像を用いて複数の訓練画像ペアを生成する。そして、ステップＳ１０３において、複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する。そして、ステップＳ１０４において、ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、グローバル固有ベクトル及びラベルに基づいて結合ベイジアンモデルを訓練する。最後に、方法１００はステップＳ１０５で終了する。

なお、序数に関する用語「第１の」、「第２の」等は、これらの用語により限定された特徴、要素、ステップ及び部材の実施順序又は重要度を表すものではなく、単に説明の便宜上これらの特徴、要素、ステップ及び部材を識別するためのものである。本明細書における「第１の二次元顔画像」は、ＣＮＮモデルを訓練するための複数の訓練画像ペアを生成するための二次元顔画像を表し、「第２の二次元顔画像」は、グローバル固有ベクトルを取得して結合ベイジアンモデルを訓練するように、訓練されたＣＮＮモデルに入力されるラベル付きの二次元顔画像を表す。

以下は、方法１００のステップＳ１０２乃至Ｓ１０５の処理をより詳細に説明する。

本発明の実施例では、方法１００のステップＳ１０２は本発明の実施例の複数の訓練画像ペアの生成方法により実現されてもよい。図２は本発明の実施例に係る複数の訓練画像ペアの生成方法２００を示すフローチャートである。方法２００によれば、少量の二次元顔画像、さらに１つの二次元顔画像に基づいて複数の訓練画像ペアを生成してＣＮＮモデルを訓練することができる。

図２に示すように、方法２００はステップＳ２０１から始まる。

ステップＳ２０２において、第１の二次元顔画像における特徴点を検出する。

ステップＳ２０２において行われる処理の目的は、第１の二次元顔画像と三次元顔モデルとの空間的対応関係を構築し、第１の二次元顔画像における画素の奥行き情報を決定し、新たな訓練のための二次元顔画像を生成するためである。

ここで用いられる三次元顔モデルは、汎用の三次元顔モデル、例えばベジェ（Ｂｅｚｉｅｒ）顔モデルであってもよい。

また、本発明の実施例では、第１の二次元顔画像における特徴点は、顔の下顎、左頬、右頬、眉毛、鼻及び耳などに対応する特徴点であってもよい。ステップＳ２０２における特徴点の検出処理は本分野の既知の方法により行われてもよく、ここで詳細な説明を省略する。なお、特徴点の数は制限されない。より多くの特徴点は、第１の二次元顔画像と三次元顔モデルとの位置合わせの最適化に有利であるが、計算コストの増加に繋がる。従って、特徴点の数は、実際の状況、例えば第１の二次元顔画像の角度、鮮明度などに応じて決定されてもよい。

第１の二次元顔画像における特徴点を決定した後に、汎用の三次元顔モデルから、第１の二次元顔画像における特徴点に対応する特徴点を取得してもよい。第１の二次元顔画像における特徴点はｐ_ｋで表されてもよく、それに対応する三次元顔モデルにおける特徴点はＰ_ｋで表されてもよい。上記の処理によれば、第１の二次元顔画像における特徴点と三次元顔モデルにおける特徴点との対応関係を構築できる。

そして、方法２００のステップＳ２０３において、検出された特徴点に基づいて、第１の二次元顔画像を撮影するカメラの姿勢を決定し、第１の二次元顔画像を三次元顔モデルに投影する。検出された第１の二次元顔画像における特徴点と三次元顔モデルにおける特徴点との対応関係に基づいて、該第１の二次元顔画像を撮影するカメラの姿勢を決定でき、即ち該カメラを校正（ｃａｌｉｂｒａｔｉｏｎ）できる。

カメラに対する校正処理は、三次元顔モデルにおける特徴点が所在する世界座標系と、対応する第１の二次元顔画像における特徴点が所在する画像座標系と、該第１の二次元顔画像を撮影するカメラが所在するカメラ座標系との空間的対応関係を求めることである。

図３は世界座標系と画像座標系とカメラ座標系の関係を示す図である。図３に示すように、世界座標系及びカメラ座標系は空間上の三次元座標系であり、画像座標系はカラー画像が所在する平面の二次元座標系である。

三次元顔モデルにおける特徴点、即ち三次元の点Ｍの世界座標系における座標は（ｘ_ｗ，ｙ_ｗ，ｚ_ｗ）であり、空間的三次元座標系の回転変換及び平行移動変換により、下記の式（１）に従って、三次元の点Ｍの、カメラ所在位置Ｏ_ｃを原点とするカメラ座標系における座標（ｘ_ｃ，ｙ_ｃ，ｚ_ｃ）を取得してもよい。

ここで、Ｒは３×３の回転行列（直交回転行列）であり、世界座標系とカメラ座標系との回転変換関係を表し、ｔは三次元平行移動ベクトルであり、世界座標系とカメラ座標系との平行移動変換関係を表す。

また、図３に示すように、画像座標系は、画像の左上隅を原点とし、画素を単位とする二次元画素座標系であり、三次元Ｍに対応する第１の二次元顔画像における特徴点、即ち二次元の点ｍは座標（ｕ，ｖ）を有する。世界座標系及びカメラ座標系との空間的対応関係を算出するために、カメラ光軸とカラー画像との交点ｏを原点とし、物理的な長さ（例えばミリメートル）を単位とする二次元の物理的座標系を構築する必要がある。該二次元の物理的座標系では、二次元の点ｍは座標（ｘ，ｙ）を有する。カラー画像における各画素の物理的サイズ及び交点ｏのカラー画像における位置を用いて、平行移動及び単位変換により座標（ｕ，ｖ）と座標（ｘ，ｙ）との変換関係を取得してもよい。

該得られた変換関係に基づいて、カメラのピンホール原理により、下記の式（２）に従って、世界座標系と画像座標系とカメラ座標系の空間的対応関係を取得してもよい。

ここで、ｆ_ｘ及びｆ_ｙはカメラの焦点距離及び画素の物理的サイズに関連するパラメータであり、ｕ_０及びｖ_０はカラー画像の物理的座標系の原点ｏの画素座標系における座標である。

行列Ｍ_１はｆ_ｘ、ｆ_ｙ、ｕ_０及びｖ_０により決定され、これらのパラメータはカメラの内部構造にのみ関連するため、内部パラメータと称される。また、内部パラメータは、カメラの内部構造に関連する他のパラメータ、例えば径方向歪みパラメータ、接線方向歪みパラメータ、薄プリズム歪みパラメータなどをさらに含んでもよい。

行列Ｍ_２は回転行列Ｒ及び三次元平行移動ベクトルｔにより決定され、これらのパラメータはカメラ座標系と世界座標系の変換にのみ関連するため、外部パラメータと称される。

カメラの姿勢は、行列Ｍ_１及び行列Ｍ_２により表されてもよい。このため、ステップＳ２０３におけるカメラに対する校正処理は、カメラの内部パラメータ行列Ｍ_１及び外部パラメータ行列Ｍ_２を求める処理である。

上記の式（２）に示す連立方程式を用いて、カメラの姿勢を表す内部パラメータ行列Ｍ_１及び外部パラメータ行列Ｍ_２を決定してもよい。算出されたカメラの姿勢によれば、第１の二次元顔画像における特徴点ｐ_ｋと三次元顔モデルにおける特徴点Ｐ_ｋとの対応関係は、ｐ_ｋ〜Ｍ_１Ｍ_２Ｐ_ｋで表されてもよい。

算出されたカメラの姿勢に基づいて、第１の二次元顔画像を三次元顔モデルに投影してもよく、該処理はスタンピング処理とも称されてもよい。本発明の実施例では、該投影処理は、以下の方式で行われてもよい。検出された第１の二次元顔画像における特徴点を含む最小矩形を決定し、三次元顔モデルを第１の二次元顔画像に合わせた姿勢に回転させ、決定された第１の二次元顔画像における特徴点を含む最小矩形における各画素について、三次元顔モデルにおける対応する三次元画素に基づいて該画素の画素奥行きを決定する。

具体的には、第１の二次元顔画像における画素の奥行き情報を決定するために、まず、第１の二次元顔画像における、検出された特徴点の全てを含む最小矩形を決定してもよい。そして、算出されたカメラの姿勢に基づいて、三次元顔モデルを第１の二次元顔画像に合わせた姿勢に回転させる。例えば、第１の二次元画像が人間の顔の左半分の画像である場合は、該第１の二次元顔画像に合わせるように三次元顔モデルを左に回転させてもよい。そして、第１の二次元顔画像における特徴点を含む最小矩形を三次元顔モデルに投影することで、該最小矩形における各画素の奥行き情報を決定できる。

なお、上述した第１の二次元顔画像を三次元顔モデルに投影する処理は単なる本発明の１つの実施例であり、本発明は該実施例に限定されない。実際には、第１の二次元顔画像における特徴点と三次元顔モデルにおける特徴点との対応関係が既に構築されているため、第１の二次元顔画像における特徴点の奥行き情報を決定できる。これに基づいて、第１の二次元顔画像における特徴点を密度ポイントクラウドにおけるスパース点とみなし、本技術分野の各種の既知方法により、これらのスパース点を拡張して密度ポイントクラウドを取得してもよい。例えば、本技術分野の既知の三角形メッシュ（ｔｒｉａｎｇｌｅｍｅｓｈ）を用いて上記の処理を実現してもよい。具体的には、第１の二次元顔画像における特徴点の近接点に対応する、三次元顔モデルにおける三角形メッシュ及びその頂点を決定し、該近接点の奥行き情報を取得してもよい。これらの代替実施例も本発明の範囲内のものである。

ステップＳ２０３の処理により、第１の二次元顔画像に現された顔を三次元化できる。

そして、方法２００のステップＳ２０４において、三次元顔モデルを回転させることで新たな二次元顔画像を生成する。ステップＳ２０３の処理により、第１の二次元顔画像が三次元顔モデルにスタンピングされた。三次元顔モデルを所定の角度だけ回転させ、即ち視角を変えることで、新たな二次元顔画像を生成できる。例えば、上述した顔の左半分の画像がスタンピングされた三次元顔モデルを右に所定の角度だけ回転させることで異なる視覚の二次元顔画像を生成してもよいし、上又は下に所定の角度だけ回転させることで他の異なる視覚の二次元顔画像を生成してもよい。本明細書では、第１の二次元顔画像はＰ_１で表され、生成された新たな二次元顔画像はＰ_２，Ｐ_３，…Ｐ_Ｎで表されてもよく、Ｎは２よりも大きい整数である。

なお、生成された新たな二次元顔画像の数は特に限定されない。Ｎの値が大きいほど、処理精度を向上できるが、計算コストの増加に繋がる。Ｎの値は具体的な環境に基づいて決定されてもよい。

そして、方法２００のステップＳ２０５において、第１の二次元顔画像及び新たな二次元顔画像に対してミラー反転処理を行うことで複数の訓練画像ペアを生成する。

例えば、上述した顔の左半分の画像がスタンピングされた三次元顔モデルに対してミラー反転処理を行うことで顔の右半分の画像を生成してもよい。ステップＳ２０４において生成された新たな二次元顔画像Ｐ_２，Ｐ_３，…Ｐ_Ｎの各画像に対してミラー反転処理を行って、対応するミラー反転の二次元顔画像Ｐ_２ｍ，Ｐ_３ｍ，…Ｐ_Ｎｍを取得する。なお、第１の二次元顔画像Ｐ_１に対して同様にミラー反転処理を行い、生成されたミラー反転の第１の二次元顔画像はＰ_１ｍで表されてもよい。

このように、第１の二次元顔画像に基づいて、ＣＮＮモデルの訓練に適用可能な複数の二次元画像ペアＰ_１とＰ_１ｍ、Ｐ_２とＰ_２ｍ、Ｐ_３とＰ_３ｍ、…Ｐ_ＮとＰ_Ｎｍを生成し、各画像ペアはミラー反転の関係を有する。

最後に、方法２００はステップＳ２０６で終了する。

図１に戻り、図１のステップＳ１０３において、複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する。

例えば、Ｎ個のＣＮＮモデルを構築してもよく、各ＣＮＮモデルは５つの畳み込み層、５つのプーリング層、１つのＳｏｆｔｍａｘ層、及び１つのサイアミーズ（ｓｉａｍｅｓｅ）損失層を有する。ステップＳ１０２において取得された複数の訓練画像ペアＰ_１とＰ_１ｍ、Ｐ_２とＰ_２ｍ、Ｐ_３とＰ_３ｍ、…Ｐ_ＮとＰ_Ｎｍにより該Ｎ個のＣＮＮモデルを訓練し、得られた訓練されたＣＮＮモデルはＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎで表されてもよい。

訓練画像ペアを用いてＣＮＮモデルを訓練する処理は本技術分野で知られているので、ここで詳細な説明を省略する。訓練されたＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎの入力は二次元顔画像であり、出力は二次元顔画像から抽出された特徴を表す多次元ベクトルである。言い換えれば、二次元顔画像について、ＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎにより出力された多次元ベクトルに基づいて、同一の人に属する二次元顔画像を同一の種類に分類できる。

そして、方法１００のステップＳ１０４において、ラベル付きの第２の二次元顔画像をステップＳ１０３において訓練されたＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎに入力してグローバル固有ベクトルを取得し、グローバル固有ベクトル及びラベルに基づいて、分類器として用いられる結合ベイジアンモデルを訓練する。第２の二次元顔画像のラベルは、第２の二次元顔画像における顔がどの人の顔であるかを示す。

なお、第１の二次元顔画像もラベル付きの二次元顔画像であり、第２の二次元顔画像として用いられてもよい。しかし、好ましくは、オーバーフィッティングを回避するために、通常、第２の二次元顔画像は第１の二次元顔画像と異なる画像である。

本発明の実施例では、グローバル固有ベクトルを取得する処理は以下の方式により行われてもよい。第２の二次元顔画像を各ＣＮＮモデルに入力して、該ＣＮＮモデルに対応する固有ベクトルを取得し、各ＣＮＮモデルに対応する固有ベクトルを連結して、グローバル固有ベクトルを取得する。

例えば、ステップＳ１０３において取得された訓練されたＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎについて、第２の二次元顔画像を各ＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎに入力して、Ｎ個の多次元ベクトルｆ_１，ｆ_２，ｆ_３，…ｆ_Ｎを取得できる。そして、Ｎ個の多次元ベクトルｆ_１，ｆ_２，ｆ_３，…ｆ_Ｎを連結して、１つのＮ×Ｓ次元のグローバル固有ベクトルｆ＝（ｆ_１，ｆ_２，ｆ_３，…ｆ_Ｎ）を取得し、ＳはＣＮＮモデルＣ_１，Ｃ_２，Ｃ_３，…Ｃ_Ｎから出力された各固有ベクトルの次元を表す。

このように、取得されたグローバル固有ベクトルｆ及び第２の二次元顔画像のラベルに基づいて、分類器として用いられる結合ベイジアンモデルを訓練できる。ラベル付きのデータを用いて分類器として用いられる結合ベイジアンモデルを訓練する処理は本技術分野で知られているので、ここで詳細な説明を省略する。

本発明の実施例では、第２の二次元顔画像の（訓練されたＣＮＮモデルにより取得された）グローバル固有ベクトル及びラベルに基づいて結合ベイジアンモデルを訓練することで、１つの閾値を取得できる。訓練された結合ベイジアンモデルの入力は２つの二次元顔画像の（訓練されたＣＮＮモデルにより取得された）グローバル固有ベクトルであり、出力は１つの数値である。該数値と上記閾値とを比較することで、この２つの二次元顔画像が同一の人の顔画像であるかを判断する。例えば、該数値が上記閾値よりも大きい場合は、この２つの二次元顔画像が同一の人の顔画像であると判断する。そうでない場合は、この２つの二次元顔画像が同一の人の顔画像ではないと判断する。従って、訓練されたＣＮＮモデル及び結合ベイジアンモデルは、顔認識のための画像処理モデルとして具体的なプロセスアプリケーションに適用できる。

しかし、ステップＳ１０４において得られたグローバル固有ベクトルの次元数は非常に大きい場合がある。例えば、ステップＳ１０３において４０個のＣＮＮモデルを訓練し、各ＣＮＮモデルから１６０次元の固有ベクトルを出力すると、グローバル固有ベクトルの次元数はＮ×Ｓ＝６４００となる。これは、明らかに膨大なコストをもたらしてしまう。

これに対して、本発明の実施例では、主成分分析（ＰＣＡ：ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）法を用いてグローバル固有ベクトルｆに対して次元削減を行ってもよい。ＰＣＡ法は、統計的方法の１つであり、直交変換により相関の可能性がある１組の変数を線形的相関のない１組の変数に変換し、変換後の変数は主成分と称される。ＰＣＡ法により、共分散行列を用いてベクトルに対して次元削減を行うことができる。ＰＣＡ法は本技術分野で知られているので、ここで詳細な説明を省略する。

本発明の技術によれば、少量の顔画像、さらに１つの顔画像のみを訓練データとして利用する場合でも、顔認識のための画像処理装置を訓練でき、訓練された画像処理装置は少なくとも従来技術と同等の認識精度を達成できると共に、必要なコストを大幅に低減できる。

図４は本発明の実施例に係る顔認識のための画像処理装置の訓練装置４００を示すブロック図である。

図４に示すように、訓練装置４００は、第１の二次元顔画像を用いて複数の訓練画像ペアを生成する生成部４０１と、複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する第１の訓練部４０２と、ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、グローバル固有ベクトル及びラベルに基づいて結合ベイジアンモデルを訓練する第２の訓練部４０３とを含む。

生成部４０１は上記の図１を参照しながら説明された方法１００のステップＳ１０２の処理を実行し、且つ該処理に関する効果を達成でき、ここでその説明を省略する。第１の訓練部４０２は上記の図１を参照しながら説明された方法１００のステップＳ１０３の処理を実行し、且つ該処理に関する効果を達成でき、ここでその説明を省略する。第２の訓練部４０３は上記の図１を参照しながら説明された方法１００のステップＳ１０４の処理を実行し、且つ該処理に関する効果を達成でき、ここでその説明を省略する。

図５は本発明の実施例の顔認識のための画像処理装置の訓練方法１００及び訓練装置４００を実現するための汎用機器５００の構成を示すブロック図である。汎用機器５００は例えばコンピュータシステムであってもよい。なお、汎用機器５００は単なる一例であり、本発明の方法及び装置の適用範囲又は機能の限定を意味するものではない。汎用機器５００は、上述した顔認識のための画像処理装置の訓練方法に示された構成要素又はその組み合わせに対して依存性又は要件を有すると解釈されるべきではない。

図５において、中央処理部（即ちＣＰＵ）５０１は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているプログラム、又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ５０３には、必要に応じて、ＣＰＵ５０１が各種の処理を実行するに必要なデータが記憶されている。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力インターフェース５０５もバス５０４に接続されている。

入力部５０６（キーボード、マウスなどを含む）、出力部５０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部５０８（例えばハードディスクなどを含む）、通信部５０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース５０５に接続されている。通信部５０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部５１０は、入力／出力インターフェース５０５に接続されてもよい。取り外し可能な媒体５１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部５１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部５０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体５１１を介してソフトウェアを構成するプログラムをインストールする。

これらの記憶媒体は、図５に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体５１１に限定されない。取り外し可能な媒体５１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク−読み出し専用メモリ（ＣＤ−ＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ５０２、記憶部５０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

本発明は、機器読み取り可能な命令コードを記憶したプログラムプロダクトをさらに提供する。該命令コードは、機器により読み取られ、実行された際に、上記の本発明の顔認識のための画像処理装置の訓練方法を実行できる。よって、このようなプログラムプロダクトを記録した各種の記憶媒体も本発明の範囲内のものである。

以上は、ブロック図、フローチャート及び／又は実施例を詳細に説明することで、本発明の実施例の装置及び／又は方法の具体的な態様を説明している。これらのブロック図、フローチャート及び／又は実施例に１つ又は複数の機能及び／又は処理が含まれている場合は、これらのブロック図、フローチャート及び／又は実施例における各機能及び／又は処理は、ハードウェア、ソフトウェア、ファームウェア又はそれらの実質的な任意の組み合わせにより、単独的及び／又は共同に実施されてもよい。１つの態様では、本明細書で説明されたカテゴリの構成要件は、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）又は他の集積回路により実現されてもよい。なお、本明細書で説明された態様の全て又は一部は、集積回路において、１つ又は複数のコンピュータに実行される１つ又は複数のコンピュータプログラムの形（例えば１つ又は複数のコンピュータシステムに実行される１つ又は複数のコンピュータプログラムの形）、１つ又は複数のプロセッサに実行される１つ又は複数のプログラムの形（例えば１つ又は複数のマイクロプロセッサに実行される１つ又は複数のプログラムの形）、ファームウェアの形、又はそれらの実質的な任意の組み合わせの形で実施されてもよい。また、本明細書で公開された内容に基づいて、本発明の回路の設計及び／又は本発明のソフトウェア及び／又はファームウェアのコードの編集は、当業者の能力の範囲内のものである。

なお、用語「包括／含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。序数に関する用語「第１の」、「第２の」等は、これらの用語により限定された特徴、要素、ステップ及び部材の実施順序又は重要度を表すものではなく、単に説明の便宜上これらの特徴、要素、ステップ及び部材を識別するためのものである。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
顔認識のための画像処理装置の訓練方法であって、
第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップと、
前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練するステップと、
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練するステップと、を含み、
前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、方法。
（付記２）
第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップは、
前記第１の二次元顔画像における特徴点を検出するステップと、
検出された特徴点に基づいて前記第１の二次元顔画像を撮影するカメラの姿勢を決定し、前記第１の二次元顔画像を三次元顔モデルに投影するステップと、
前記三次元顔モデルを回転させることで新たな二次元顔画像を生成するステップと、
前記第１の二次元顔画像及び前記新たな二次元顔画像に対してミラー反転処理を行うことで複数の訓練画像ペアを生成するステップと、を含む、付記１に記載の方法。
（付記３）
前記特徴点は、顔の下顎、左頬、右頬、眉毛、鼻及び耳のうち少なくとも１つに対応する特徴点を含む、付記２に記載の方法。
（付記４）
検出された特徴点に基づいて前記第１の二次元顔画像を撮影するカメラの姿勢を決定し、前記第１の二次元顔画像を三次元顔モデルに投影するステップは、
前記三次元顔モデルにおける、検出された前記第１の二次元顔画像における特徴点に対応する特徴点を決定するステップと、
決定された前記三次元顔モデルにおける特徴点及び検出された前記第１の二次元顔画像における特徴点に基づいて前記カメラの姿勢を取得するステップと、
前記カメラの姿勢に基づいて前記第１の二次元顔画像を前記三次元顔モデルに投影するステップと、を含む、付記２に記載の方法。
（付記５）
前記カメラの姿勢に基づいて前記第１の二次元顔画像を前記三次元顔モデルに投影するステップは、
検出された前記第１の二次元顔画像における特徴点を含む最小矩形を決定するステップと、
前記三次元顔モデルを前記第１の二次元顔画像に合わせた姿勢に回転させるステップと、
決定された前記第１の二次元顔画像における特徴点を含む前記最小矩形における各画素について、三次元顔モデルにおける対応する三次元画素に基づいて該画素の画素奥行きを決定するステップと、を含む、付記４に記載の方法。
（付記６）
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得するステップは、
第２の二次元顔画像を各ＣＮＮモデルに入力して、該ＣＮＮモデルに対応する固有ベクトルを取得するステップと、
各ＣＮＮモデルに対応する固有ベクトルを連結して、前記グローバル固有ベクトルを取得するステップと、を含む、付記１に記載の方法。
（付記７）
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得するステップは、
主成分分析法を用いて前記グローバル固有ベクトルに対して次元削減を行うステップ、を含む、付記６に記載の方法。
（付記８）
顔認識のための画像処理装置の訓練装置であって、
第１の二次元顔画像を用いて複数の訓練画像ペアを生成する生成手段と、
前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する第１の訓練手段と、
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練する第２の訓練手段と、を含み、
前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、装置。
（付記９）
前記生成手段は、
前記第１の二次元顔画像における特徴点を検出し、
検出された特徴点に基づいて前記第１の二次元顔画像を撮影するカメラの姿勢を決定し、前記第１の二次元顔画像を三次元顔モデルに投影し、
前記三次元顔モデルを回転させることで新たな二次元顔画像を生成し、
前記第１の二次元顔画像及び前記新たな二次元顔画像に対してミラー反転処理を行うことで複数の訓練画像ペアを生成する、付記８に記載の装置。
（付記１０）
前記特徴点は、顔の下顎、左頬、右頬、眉毛、鼻及び耳のうち少なくとも１つに対応する特徴点を含む、付記９に記載の装置。
（付記１１）
前記生成手段は、
前記三次元顔モデルにおける、検出された前記第１の二次元顔画像における特徴点に対応する特徴点を決定し、
決定された前記三次元顔モデルにおける特徴点及び検出された前記第１の二次元顔画像における特徴点に基づいて前記カメラの姿勢を取得し、
前記カメラの姿勢に基づいて前記第１の二次元顔画像を前記三次元顔モデルに投影する、付記９に記載の装置。
（付記１２）
前記生成手段は、
検出された前記第１の二次元顔画像における特徴点を含む最小矩形を決定し、
前記三次元顔モデルを前記第１の二次元顔画像に合わせた姿勢に回転させ、
決定された前記第１の二次元顔画像における特徴点を含む前記最小矩形における各画素について、三次元顔モデルにおける対応する三次元画素に基づいて該画素の画素奥行きを決定する、付記１１に記載の装置。
（付記１３）
前記第２の訓練手段は、
第２の二次元顔画像を各ＣＮＮモデルに入力して、該ＣＮＮモデルに対応する固有ベクトルを取得し、
各ＣＮＮモデルに対応する固有ベクトルを連結して、前記グローバル固有ベクトルを取得する、付記８に記載の装置。
（付記１４）
前記第２の訓練手段は、
主成分分析法を用いて前記グローバル固有ベクトルに対して次元削減を行う、付記１３に記載の装置。
（付記１５）
顔認識のための画像処理装置であって、前記画像処理装置は付記１乃至７のいずれかに記載の方法により訓練される、画像処理装置。
（付記１６）
コンピュータにより実行可能なコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、前記コンピュータにより実行される際に付記１乃至７のいずれかに記載の顔認識のための画像処理装置の訓練方法を実現できる、コンピュータ読み取り可能な記憶媒体。
（付記１７）
コンピュータにより実行される際に付記１乃至７のいずれかに記載の顔認識のための画像処理装置の訓練方法を実現できる、コンピュータプログラム。

なお、以上は本発明の具体的な実施例の説明を通じて本発明を開示しているが、上記の全ての実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。

Claims

顔認識のための画像処理装置の訓練方法であって、
第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップと、
前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練するステップと、
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練するステップと、を含み、
前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、方法。
第１の二次元顔画像を用いて複数の訓練画像ペアを生成するステップは、
前記第１の二次元顔画像における特徴点を検出するステップと、
検出された特徴点に基づいて前記第１の二次元顔画像を撮影するカメラの姿勢を決定し、前記第１の二次元顔画像を三次元顔モデルに投影するステップと、
前記三次元顔モデルを回転させることで新たな二次元顔画像を生成するステップと、
前記第１の二次元顔画像及び前記新たな二次元顔画像に対してミラー反転処理を行うことで複数の訓練画像ペアを生成するステップと、を含む、請求項１に記載の方法。
前記特徴点は、顔の下顎、左頬、右頬、眉毛、鼻及び耳のうち少なくとも１つに対応する特徴点を含む、請求項２に記載の方法。
検出された特徴点に基づいて前記第１の二次元顔画像を撮影するカメラの姿勢を決定し、前記第１の二次元顔画像を三次元顔モデルに投影するステップは、
前記三次元顔モデルにおける、検出された前記第１の二次元顔画像における特徴点に対応する特徴点を決定するステップと、
決定された前記三次元顔モデルにおける特徴点及び検出された前記第１の二次元顔画像における特徴点に基づいて前記カメラの姿勢を取得するステップと、
前記カメラの姿勢に基づいて前記第１の二次元顔画像を前記三次元顔モデルに投影するステップと、を含む、請求項２に記載の方法。
前記カメラの姿勢に基づいて前記第１の二次元顔画像を前記三次元顔モデルに投影するステップは、
検出された前記第１の二次元顔画像における特徴点を含む最小矩形を決定するステップと、
前記三次元顔モデルを前記第１の二次元顔画像に合わせた姿勢に回転させるステップと、
決定された前記第１の二次元顔画像における特徴点を含む前記最小矩形における各画素について、三次元顔モデルにおける対応する三次元画素に基づいて該画素の画素奥行きを決定するステップと、を含む、請求項４に記載の方法。
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得するステップは、
第２の二次元顔画像を各ＣＮＮモデルに入力して、該ＣＮＮモデルに対応する固有ベクトルを取得するステップと、
各ＣＮＮモデルに対応する固有ベクトルを連結して、前記グローバル固有ベクトルを取得するステップと、を含む、請求項１に記載の方法。
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得するステップは、
主成分分析法を用いて前記グローバル固有ベクトルに対して次元削減を行うステップ、を含む、請求項６に記載の方法。
顔認識のための画像処理装置の訓練装置であって、
第１の二次元顔画像を用いて複数の訓練画像ペアを生成する生成手段と、
前記複数の訓練画像ペアのうち各訓練画像ペアに基づいて、該訓練画像ペアに対応する畳み込みニューラルネットワーク（ＣＮＮ）モデルを訓練する第１の訓練手段と、
ラベル付きの第２の二次元顔画像を各ＣＮＮモデルに入力してグローバル固有ベクトルを取得し、前記グローバル固有ベクトル及び前記ラベルに基づいて結合ベイジアンモデルを訓練する第２の訓練手段と、を含み、
前記画像処理装置の顔認識は、訓練された前記ＣＮＮモデル及び前記結合ベイジアンモデルに基づくものである、装置。
顔認識のための画像処理装置であって、前記画像処理装置は請求項１乃至７のいずれかに記載の方法により訓練される、画像処理装置。
コンピュータにより実行可能なコンピュータプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、前記コンピュータにより実行される際に請求項１乃至７のいずれかに記載の顔認識のための画像処理装置の訓練方法を実現できる、コンピュータ読み取り可能な記憶媒体。