JP6127219B2 - 顔画像のデータから顔特徴を抽出する方法、およびシステム - Google Patents

顔画像のデータから顔特徴を抽出する方法、およびシステム Download PDF

Info

Publication number
JP6127219B2
JP6127219B2 JP2016549802A JP2016549802A JP6127219B2 JP 6127219 B2 JP6127219 B2 JP 6127219B2 JP 2016549802 A JP2016549802 A JP 2016549802A JP 2016549802 A JP2016549802 A JP 2016549802A JP 6127219 B2 JP6127219 B2 JP 6127219B2
Authority
JP
Japan
Prior art keywords
feature map
dimension
map
facial
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016549802A
Other languages
English (en)
Other versions
JP2016538671A (ja
Inventor
シャオオウ タン,
シャオオウ タン,
チャンヤオ シュ,
チャンヤオ シュ,
ピン ルオ,
ピン ルオ,
ショウコウ ワン,
ショウコウ ワン,
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2016538671A publication Critical patent/JP2016538671A/ja
Application granted granted Critical
Publication of JP6127219B2 publication Critical patent/JP6127219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

本発明は、顔画像のデータから顔特徴を抽出する方法、およびシステムに関する。
多くの実際のアプリケーションにおいて、姿勢および照明の変化は、顔認識に影響を与えるボトルネックとなっている。今までに、このような変化に対応するために、多くの既存解決策が提案されてきた。姿勢不変(pose−invariant)方法では、一般的に、2Dによるタイプ、および3Dによるタイプという2種類に分けられる。第1タイプでは、2D画像のマッチングをしたり、いくつかの基礎もしくはテンプレートを用いたりすることにより、テスト画像をエンコードして姿勢を処理する。例えば、1つの通常の様態において、ステレオマッチング(stereo matching)により2つの顔の間の類似性を計算する。そして画像訓練のテスト用顔の組み合わせを提供し、且つ、次いで線形回帰係数は顔を認識するための特徴として利用される。3Dによる方法は、通常、3Dの顔データを捕捉したり、2Dの入力から3Dのモデルを推定したりして、且つそれらを2Dプローブ顔画像とマッチングすることを試みる。このような方法では、プローブ顔の任意のビューを合成することが可能となるため、これらの方法が、通常、姿勢の変化に対してさらに頑健になっている。
照明不変(illumination−invariant)方法では、通常、照明が顔画像を如何に影響するかを仮定し、且つ当該仮定を用いて照明効果をモデル化させて除去する。例を挙げて言えば、本技術分野において、既にプロジェクターに基くシステムが設けられて少量の照明下でのギャラリーにおける各対象画像を捕捉し、この捕捉された画像は、線形的に組み合わせて任意の照明下での画像を生成することができる。当該強化された顔画像集合において、スパースコーディングを用いて顔認識を実行する。
上記方法は、いくつかの制限がある。例えば、3Dデータを捕捉するために追加コストおよびリソースを必要とし、2Dデータから3Dモデルを推定することは、不良設定問題となっている。統計的照明モデルは、制御された環境から一般化される場合が多いため、実際のアプリケーションにおいてそれをよく要約することができない。
本発明の一態様において、顔画像のデータから顔特徴を抽出する方法を提供し、この方法は、
1) 前記顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成するステップと、
2)
(式中、xは前記第1の次元を有する特徴マップを表す)の規則により各前記特徴マップを計算するステップと、
3) 前記計算された特徴マップをダウンサンプリングして第2の次元を有する特徴マップを形成するステップと、
4) 前記ダウンサンプリングして形成された特徴マップに対してフィルタリングして第2の次元を有する、第2の多チャンネルの特徴マップを形成するステップと、
5)
(式中、xは前記第2の多チャンネルの特徴マップを表す)の規則により前記第2の次元を有する各前記特徴マップを計算するステップと、
6) 前記計算された第2の多チャンネルの特徴マップに対してダウンサンプリングし、第3の次元を有する特徴マップを形成するステップと、
7) 前記第3の次元を有する特徴マップにおける各特徴マップに対してフィルタリングして顔領域以外の強い応答を減少し、これにより、前記顔画像の同じ身元の中での差異を減少すると共に、前記顔画像の複数の身元の間に識別力を維持するステップと、を含む。
他の一態様において、本発明は、顔画像のデータから顔特徴を抽出するシステムを提供し、このシステムは、
前記顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成し、且つ前記特徴マップを第2の次元を有する特徴マップにダウンサンプリングするように配置されている第1特徴抽出ユニットと、
第2の次元を有する特徴マップに対してフィルタリングして前記第2の次元を有する、第2の多チャンネルの特徴マップを形成し、且つ前記第2の多チャンネルの特徴マップを第3の次元を有する特徴マップにダウンサンプリングするように配置されている第2特徴抽出ユニットと、
前記第3の次元を有する特徴マップに対してフィルタリングして顔領域以外の強い応答をさらに減少し、これにより、顔画像の同じ身元の中での差異を減少すると共に、前記顔画像の複数の身元の間に識別力を維持するように配置されている第3特徴抽出ユニットと、を含む。
一実施例において、上記方法は、コンピュータにおける1つまたは複数のプロセッサにより実施されたり実行されたりすることができる。
一実施例において、第1の特徴抽出ユニットは、第1のフィルター行列と、第1の非線形活性化ユニットと、第1のダウンサンプリング行列とを含む。第1のフィルター行列は、顔画像のデータに対してフィルタリングし、各マップに、顔領域以外に位置する、主に顔画像の姿勢情報を捕捉するための大量の強い応答と、顔領域内部に位置する、顔画像の顔構造を捕捉するための複数の強い応答とを有するように配置されている。第1のダウンサンプリングユニット行列は、特徴マップを、第2の次元を有する特徴マップにダウンサンプリングするように配置されている。第1の非線形活性化ユニットは、第1のフィルター行列と、第1のダウンサンプリングユニット行列とを非線形的に連結するように配置されている。
他の実施例において、第2の特徴抽出ユニットは、第2のフィルター行列21を含む。第2のフィルター行列は、第1の特徴抽出ユニットからの各マップに対してフィルタリングして顔領域以外に位置する強い応答を減少することで、大多数の姿勢変化の影響を除去すると共に、顔画像の顔構造を維持するように配置されている。第2の特徴抽出ユニットは、第2の非線形活性化ユニットと、第2のダウンサンプリングユニット行列とをさらに含む。第2のダウンサンプリングユニット行列は、特徴マップを第2の次元を有する特徴マップにダウンサンプリングするように配置されており、また、第2の非線形活性化ユニットは、第2のフィルター行列と、第2のダウンサンプリングユニット行列とを非線形的に連結するように配置されている。
他の態様において、本発明は、コンピュータ読み取り可能な媒体を提供し、このコンピュータ読み取り可能な媒体は、
1) 前記顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成するステップと、
2)
(式中、xは前記第1の次元を有する特徴マップを表す)の規則により各前記特徴マップを計算するステップと、
3) 計算された特徴マップをダウンサンプリングして第2の次元を有する特徴マップを形成するステップと、
4) ダウンサンプリングして形成された特徴マップに対してフィルタリングして第2の次元を有する、第2の多チャンネルの特徴マップを形成するステップと、
5)
(式中、xは前記第2の多チャンネルの特徴マップを表す)の規則により前記第2の次元を有する各前記特徴マップを計算するステップと、
6) 計算された第2の多チャンネルの特徴マップに対してダウンサンプリングし、第3の次元を有する特徴マップを形成するステップと、
7) 前記第3の次元を有する特徴マップにおける各特徴マップに対してフィルタリングして顔領域以外の強い応答を減少し、これにより、前記顔画像の身元自体の差異を減少すると共に、前記顔画像の身元同士の間に識別力を維持するステップと、
を実行する指令を記憶するために用いられる。
顔画像のデータから顔特徴を抽出するプロセスを示すフローチャートである。 本発明の実施例に係る顔画像のデータから顔特徴を抽出するためのシステムを示すアーキテクチャである。 本発明の実施例に係る顔画像のデータから顔特徴を抽出するための例示的なシステムを示すブロック図である。 本発明の一実施例に係る重みにおけるパラメータの訓練を示すフローチャートである。
以下、例示的な実施形態を参照しながら、添付図面に基づいて本発明の具体的な実施例について詳細に説明する。適切な場合、図面全体における同じまたは類似の部分は、同じ符号で示されている。
図1は、顔画像のデータから顔特徴を抽出するためのプロセス100のフローチャートを示している。プロセス100において、任意姿勢および任意照明変化を有する人の顔画像が入力として用いられ、且つ当該人の正規化された視点でその顔をターゲットとして再構成する(図2を参照)。まず、特徴抽出層を介して入力画像をエンコードし、当該特徴抽出層は、3つの局所連続層と、交互に積層されている2つのプーリング層とを備え、これらの層については後述する。各層は、異なるスケールで顔特徴を捕捉する。第1の局所連続層は、第1の複数(例えば、32)の特徴マップを出力する。各マップには、顔領域以外に位置する、主に姿勢情報を捕捉するための大量の強い応答と、顔領域内部に位置する、顔構造を捕捉するためのいくつかの強い応答とを備える。第2の局所連続層から出力された特徴マップにおいて、顔領域以外に位置する強い応答が既に大幅に減少され、これにより、大多数の姿勢変化の影響を除去すると共に、顔構造を維持することが示されている。第3の局所連続層は、スパースであり身元特徴を保持したFIP特徴を出力する。FIP特徴は、正規化された視点で顔画像を回復するために用いられることができる。
本発明の一実施例において、プロセス100は、ステップs101を含み、当該ステップでは、顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成する。次いで、
により、各マップが計算され、式中、xはそれぞれ第2の次元を有する特徴マップを表す。計算されたマップをさらにダウンサンプリングして第2の次元を有する特徴マップを形成する。当該ステップにおいて、顔画像のデータに対してフィルタリングし、各マップに、1)顔領域以外に位置する、主に顔画像の姿勢情報を捉えるための大量の強い応答と、2)顔領域内部に位置する、顔画像の顔構造を捉えるための複数の強い応答とを備える。
例えば、
は、任意姿勢および任意照明下での顔画像のデータ行列を表し、次元初期サイズ(例えば、96×96)を有する。説明の便宜上、下記の内容は、96×96の次元初期サイズに基くものである。データ行列
の次元初期サイズをフィルタリングして32チャンネルの特徴マップを形成することができる。
一実施例において、32小行列を有する重み行列
により、
は、32特徴マップ/チャンネルに変換され、
式中、
はデータ行列の次元初期サイズ(すなわち、
=96)を表す。
各小行列は、画像データの局所連続構造を維持するように、スパースとなっている。直観的に、小行列における各行の
は、中心が画素
の所に位置する小さなフィルターを表し、当該フィルターに属する要素以外の、当該行における全ての要素のいずれもゼロに等しいことにさせる。特に、
の重みが共有されていなく、これらの行における非ゼロ値も同じでない。このため、重み行列
は、32特徴マップ
を生成し、各特徴マップは
次元を有する。
次いで、行列
(ここで、
)を用いてこれらの特徴マップにおいていずれも48×48の特徴にダウンサンプリングしてパラメータを学習する必要とされる数を減少し、より頑健な特徴を取得する。xの各
は、
(1)
として計算される。
上記の式(1)において、
は、特徴強度が変化しなく改正された線形関数である。このため、それは、形状および照明の変化に対して比較的頑健である。
は、全ての
を一緒に直列に繋いで
次元の比較的大きい特徴マップを取得することにより得られる。
一実施例において、ステップs101の前に、プロセス100は、
(式中、xは顔画像の各データを表す)の規則に応じて顔画像のデータを非線形的に活性化することができる。別の一実施例において、ステップs101の前に、顔画像をグレイスケール画像に変換することができる。
ステップs102において、計算された各マップをさらに第2の次元を有する、第2の多チャンネルの特徴マップにフィルタリングし、且つ
により、さらにそれぞれフィルタリングされたマップを計算し、式中、xは第2の次元を有する特徴マップを表す。次いで、上記マップをさらに第3の次元を有する特徴マップにダウンサンプリングする。
具体的には、各
は、32小行列
を持っている
にフィルタリングされる。
ここで、
(2)
上記の式(2)において、
は、
を用いて
次元にダウンサンプリングされる。式(2)は、第1の層における各小さい特徴マップに32小行列をかけてからそれらを合計することを意味する。ここで、各小行列には、上記で説明されたようなスパース構造を有する。式(2)は、新たに式
(3)で行列形式に表されることができる。
上記の式(3)において、
且つ、
である。
は、
を32回まで繰り返して簡単に得られる。このため、
は、
次元を有する。
ステップs103において、プロセス100では、ステップs102により得られた第3の次元の特徴マップにおける各マップを、フィルタリングして顔領域以外に位置する強い応答を減少し、従って、顔画像の同じ身元の中で差異を減少し、且つ顔画像の複数の身元の間の識別力を維持する。本発明において、得られた顔特徴は、FIP(face identity−preserving:顔身元保持)特徴とも呼ばれる。
一実施例において、プロセス100は、ステップs102により受信された各マップに対して重みを付け、且つ、ステップs104において、重み付けられたマップを、姿勢および照明の変化がない正面顔画像に変換する。
具体的に、

(すなわち、FIP特徴)に変換され、

とは同じサイズである。
ここで、
(4)
上記の式(4)において、
且つ
である。
次いで、ステップs106において、プロセス100は、重み行列
を介してFIP特徴
が正面顔画像
に変換される。
ここで、
(5)。
上記したように、顔画像のデータから顔特徴を抽出するための方法を説明した。以下、図2および図3を参照して顔画像のデータから顔特徴を抽出するシステムを説明する。そのうち、図2は本発明の実施形態に係る顔画像のデータから顔特徴を抽出するためのシステム200のアーキテクチャを示し、図3は本発明の実施例に係る顔画像のデータから顔特徴を抽出するための例示的なシステム200のブロック図を示す。
図2に示すように、システム200は特徴抽出層および特徴を含む。上記で述べられたように、任意姿勢および任意照明の変化を持っている、人の顔画像は、システム200の入力として用いられる。システム200は、同じ人の正規化された視点で顔を再構成してターゲットとする。まず、特徴抽出層を介して入力画像をエンコードし、当該特徴抽出層は、3つの局所連続層と、交互に積層されている2つのプーリング層とを備える。各層は、異なるスケールで顔特徴を捕捉する。第1の局所連続層は、第1の複数(例えば、32)の特徴マップを出力する。各マップには、顔領域以外に位置する、主に姿勢情報を捕捉するための大量の強い応答と、顔領域内部に位置する、顔構造を捕捉するためのいくつかの強い応答とを有する。第2の局所連続層から出力された特徴マップにおいて、顔領域以外に位置する強い応答が既に大幅に減少され、これにより、大多数の姿勢変化の影響を除去すると共に、顔構造を維持することが示されれいる。第3の局所連続層は、スパースであり身元を保持したFIP特徴を出力する。FIP特徴は、正規化された視点で顔画像を回復するために用いられることができる。
より具体的には、図3に示すように、システム200は、第1の特徴抽出ユニット10と、第2の特徴抽出ユニット20と、第3の特徴抽出ユニット30とを含んでもよい。第1の特徴抽出ユニット10は、顔画像のデータを、第1の次元を有する、第1の多チャンネルの特徴マップとしてフィルタリングし、且つ特徴マップを第2の次元を有する特徴マップにダウンサンプリングするように配置されている。第2の特徴抽出ユニット11 は、第2の次元の特徴マップに対してフィルタリングして第2の次元を有する、第2の多チャンネルの特徴マップを形成し、且つ第2の多チャンネルの特徴マップをダウンサンプリングして第3の次元を有する特徴マップを形成するように配置されている。第3の特徴抽出ユニット12 は、第3の次元を有する特徴マップに対してフィルタリングして顔領域以外に位置する強い応答をさらに減少し、顔画像の同じ身元の中での差異を減少すると共に、顔画像の複数の身元の間の識別力を維持するように配置されている。
図3に示すように、システム200は、第1の特徴抽出ユニット10と第2の特徴抽出ユニット11との間に配置されている第1の非線形活性化ユニット20 、および第2の特徴抽出ユニット11と第3の特徴抽出ユニット12との間に配置されている第2の非線形活性化ユニット21 をさらに含む。第1の非線形活性化ユニットと第2の非線形活性化ユニットは、それぞれ規則
(式中、xは抽出された特徴マップである)により第1、第2及び第3の特徴抽出ユニットを非線形的に連結するように配置されている。
一実施例において、第1の特徴抽出ユニット10は、第1のフィルター行列11と、第1の非線形活性化ユニット12と、第1のダウンサンプリングユニット行列13とを含む。第1のフィルター行列11は、顔画像のデータに対してフィルタリングし、各マップに、いずれも、顔領域以外に位置する、主に顔画像の姿勢情報を捕捉するための大量の強い応答と、顔領域内部に位置する、顔画像の顔構造を捕捉するための複数の強い応答とを備えるように配置されている。第1の非線形活性化ユニット12は、第1のフィルター行列11と、第1のダウンサンプリングユニット行列13とを非線形的に連結するように配置されている。第1のダウンサンプリングユニット行列13は、特徴マップを、第2の次元を有する特徴マップにダウンサンプリングするように配置されている。第1のフィルター行列11、第1の非線形活性化ユニット12、および第1のダウンサンプリングユニット行列13は、上記式(5)に表われる規則に基づいてその機能を続行するために協働する。
第2の特徴抽出ユニット20は、第2のフィルター行列21と、第2の非線形活性化ユニット22と、第2のダウンサンプリングユニット行列23とを含む。第2のフィルター行列21は、第1の特徴抽出ユニットからの各マップに対してフィルタリングして顔領域以外における強い応答を減少することで、大多数の姿勢変化の影響を除去すると共に、顔画像の顔構造を維持するように配置されている。第2のダウンサンプリングユニット行列23は、特徴マップを、第2の次元を有する特徴マップにダウンサンプリングするように配置されている。第2の非線形活性化ユニット22は、第2のフィルター行列11 と、第2のダウンサンプリングユニット行列23とを非線形的に連結するように配置されている。第2のフィルター行列21、第2の非線形活性化ユニット22、および第2のダウンサンプリングユニット行列23は、上記の式(2)〜式(4)に表われる規則に基づいて上記した機能を続行するために協働する。
また、システム200は、再構成ユニット40をさらに含んでもよい。当該再構成ユニットは、第3の特徴抽出ユニット30により受信された各特徴に対して重みを付け、且つ上記した式(5)の規則に基き、前記重み付けられた特徴を、姿勢および照明の変化がない正面の顔画像に変換するように配置されている。
なお、一実施例において、システム200は、非線形前活性化ユニット50をさらに含んでもよい。当該非線形前活性化ユニットは、顔画像のデータを第1の特徴抽出ユニットに入力する前に、顔画像のデータを処理する。ユニット50は、さらに、画像をグレイスケール画像に変換するように配置されてもよい。
それぞれ第1の重み行列W、第2の重み行列W、第3の重み行列Wを用い、3つの層に行われたフィルタリングのプロセス(すなわち、ステップs101〜103、ユニット10〜20)を実行し、且つ第4の重み行列Wを用いて変換を実行する。本発明では、最小二乗辞書学習に基づいて監視方法を設計する。特に、次のステップにより、行列W、W、WおよびWを訓練し、すなわち、最小二乗辞書学習に基づいてW、W、WおよびWのパラメータを初期化し、次いで再構成された画像と実測値(ground truth)との間の加算・二乗された(summed squared)再構成誤差に対して逆伝播することにより、全てのパラメータを更新する。
図4はW、W、WおよびWのパラメータを初期化するための流れを示す。
は一組のFIP特徴であり、
は一組のターゲット画像であり、ここで、
は訓練例の数を表す。第1のステップにおいて、固定行列Oを提供し、規則
により、XおよびYを用いてWを初期化する。
上記の式(6)において、
は一組の入力画像であり、且つ
はフロベニウスノルムである。
第2のステップにおいて、当該方法は、固定行列Pを提供し、規則
により、W(ここで、Wは固定である)およびYを用いてWを初期化する。
第3のステップにおいて、当該方法は、固定行列Qを提供し、規則
により、WおよびYを用いてWを初期化する。
第4のステップにおいて、当該方法は、規則
により、WおよびYを用いてWを初期化する。
更新については、提案方法は、初期化後、再構成誤差の損失関数を最小化することにより全ての重み行列を更新し、その中でも、
式中、
と、
と、
および
とが、それぞれ一組の入力画像、一組のターゲット画像、および一組の再構成された画像である。それは、確率的勾配降下法(stochastic gradient descent)を用いて
を更新し、その中でも、第k番目の重複における
の更新規則は、以下の通りである。
(11)
(12)
ここで、
は運動量変数(momentum variable)であり、
は学習率であり、且つ
は導関数であり、それは逆伝播誤差
と前層(previous layer)
の特徴との外積として計算される。当該深層ネットワーク(deep network)において、
の3種類の異なる式がある。まず、変換層について、
は、線形正規化関数(linear rectified function)の導関数に基づいて計算される。
(13)
上記の式(13)において、
であり、
はベクトルの第
番目の要素である。
同様に、
の逆伝播誤差(back−propagation error)は、
(14)として計算される。
上記の式(14)において、
である。
本発明において、
および
は、
と同じ活性化関数を用いているため、
と同じ方式で計算される。ダウンサンプリングが行われた結果として、微細な差がある。これらの2つの層については、対応する逆伝播誤差
をアップサンプリングしてそれに入力特徴と同じ次元を含ませる必要があると考えられる。本発明は、各勾配のステップの後で局所連続的構造を備えるように重み行列を強化する必要がある。このために、対応する行列要素に連続がないと仮定する場合、これらの要素をゼロとする。
本発明の実施形態は、あるハードウェア、ソフトウェア、または両方の組み合わせを用いて実行されることができる。また、本発明の実施形態は、コンピュータプログラム製品に適することができ、当該コンピュータプログラム製品は、コンピュータプログラムコードを有する1つまたは複数のコンピュータ読み取り可能な記憶媒体(ディスクメモリ、CD−ROM、光メモリ等を含むが、これらに限定されない)に具現されている。例を挙げて言えば、1つまたは複数のプロセッサにより上記した方法を実施してコンピュータ読み取り可能な媒体に記憶された指令を実行することができる。具体的に、媒体は、一対の顔画像を検索するための指令と、各顔画像を画像の複数のパッチに分割するための指令(1つの画像における各パッチと、他の一画像中の対応するパッチとが一対のパッチを形成する)と、各対のパッチの第1の類似性を確定するための指令と、全ての対のパッチから前記一対の顔画像の第2の類似性を確定するための指令と、第1の類似性および第2の類似性を用いるための指令と、顔画像を認識するための指令と、を記憶することができる。
上記の説明において、説明のために、単一の実施例において本発明の各態様、ステップまたは部材が集合されている。本発明は、保護を請求する主題の、全ての開示の変化を必要とすることが解釈されるべきではない。記載されている特許請求の範囲は、例示的な実施例の説明に組み込まれることが理解されるべきであり、その中でも、各請求項そのものは、本発明の独立的な実施形態として認識されるべきである。
また、本発明の明細書および実践から考えると、本発明の範囲から逸脱しない場合、開示されたシステムおよび方法に対して様々な修正および変更を実行できることは、当業者にとって自明である。このため、明細書およびその実施例は、単に例示的なものだけとみなし、本発明の実際の保護範囲は、記載されている特許請求の範囲およびその同等物により示されている。

Claims (6)

  1. 顔画像のデータから顔特徴を抽出する方法であって、
    1) 前記顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成するステップと、
    2)


    (式中、xは前記第1の次元を有する特徴マップを表す)の規則により各前記特徴マップを計算するステップと、
    3) 前記計算された特徴マップをダウンサンプリングして第2の次元を有する特徴マップを形成するステップと、
    4) 前記ダウンサンプリングして形成された特徴マップに対してフィルタリングして第2の次元を有する、第2の多チャンネルの特徴マップを形成するステップと、
    5)


    (式中、xは前記第2の多チャンネルの特徴マップを表す)の規則により前記第2の次元を有する各前記特徴マップを計算するステップと、
    6) 前記計算された第2の多チャンネルの特徴マップに対してダウンサンプリングし、第3の次元を有する特徴マップを形成するステップと、
    7) 前記第3の次元を有する特徴マップにおける各特徴マップに対してフィルタリングして顔領域以外の強い応答を減少し、前記ステップ6)により受信された各前記マップに対して重みを付け、且つ重み付けられたマップを、姿勢および照明の変化がない正面の顔画像に変換し、これにより、前記顔画像の同じ身元の中での差異を減少すると共に、前記顔画像の複数の身元の間の識別力を維持するステップと、
    を含む方法。
  2. 前記ステップ1)においては、前記特徴マップのいずれも、
    前記顔領域以外に位置する、主に前記顔画像の姿勢情報を捕捉する大量の強い応答と、
    前記顔領域内部に位置する、前記顔画像の顔構造を捕捉する複数の強い応答と、を有するように、前記顔画像のデータに対してフィルタリングすることをさらに含む、請求項1に記載の方法。
  3. 前記ステップ7)においては、前記ステップ6)により受信された各前記マップに対してフィルタリングして前記顔領域以外に位置する強い応答を減少することで、大多数の姿勢変化の影響を除去すると共に、前記顔画像の前記顔構造を維持するステップをさらに含む、請求項1または2に記載の方法。
  4. それぞれ第1の重み行列W、第2の重み行列W、第3の重み行列Wを用いて前記ステップ1)、前記ステップ4)および前記ステップ7)におけるフィルタリング操作を実行し、且つ第4の重み行列Wを用いて前記変換を実行し、
    前記行列W、W、WおよびWは、最小二乗辞書学習に基づいてW、W、WおよびWのパラメータを初期化してから、再構成された画像と実測値との間の加算・二乗された再構成誤差を逆伝播することで全ての前記パラメータを更新することにより、訓練される、請求項に記載の方法。


  5. を一組のFIP特徴とし、


    を一組のターゲット画像とし(ここで、


    は訓練例の数を表す)、
    前記初期化の操作は、
    固定行列Oを提供し、規則


    (ここで、


    は一組の入力画像であり、


    はフロベニウスノルムである)により、XおよびYを用いてWを初期化するステップと、
    固定行列Pを提供して規則


    により、W(ここで、Wは固定である)およびYを用いてWを初期化するステップと、
    固定行列Qを提供し、規則


    により、WおよびYを用いてWを初期化するステップと、
    規則


    により、WおよびYを用いてWを初期化するステップと、を含む、請求項に記載の方法。
  6. 顔画像のデータから顔特徴を抽出するシステムであって、
    前記顔画像のデータに対してフィルタリングして第1の次元を有する、第1の多チャンネルの特徴マップを形成し、且つ前記特徴マップを第2の次元を有する特徴マップにダウンサンプリングするように配置されている第1の特徴抽出ユニットと、
    第2の次元を有する特徴マップに対してフィルタリングして前記第2の次元を有する、第2の多チャンネルの特徴マップを形成し、且つ前記第2の多チャンネルの特徴マップを第3の次元を有する特徴マップにダウンサンプリングするように配置されている第2の特徴抽出ユニットと、
    前記第3の次元を有する特徴マップに対してフィルタリングして顔領域以外に位置する強い応答をさらに減少し、顔画像の同じ身元の中での差異を減少すると共に、前記顔画像の複数の身元の間の識別力を維持するように配置されている第3の特徴抽出ユニットと、
    各前記マップに対して重みを付け、且つ前記重み付けられたマップを、姿勢および照明の変化がない正面の顔画像に変換するように配置されている再構成ユニットと、を含むシステム。
JP2016549802A 2013-11-30 2013-11-30 顔画像のデータから顔特徴を抽出する方法、およびシステム Active JP6127219B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/088253 WO2015078017A1 (en) 2013-11-30 2013-11-30 Method and system for exacting face features from data of face images

Publications (2)

Publication Number Publication Date
JP2016538671A JP2016538671A (ja) 2016-12-08
JP6127219B2 true JP6127219B2 (ja) 2017-05-10

Family

ID=53198256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016549802A Active JP6127219B2 (ja) 2013-11-30 2013-11-30 顔画像のデータから顔特徴を抽出する方法、およびシステム

Country Status (7)

Country Link
US (1) US9710697B2 (ja)
EP (1) EP3074926A4 (ja)
JP (1) JP6127219B2 (ja)
KR (1) KR101721062B1 (ja)
CN (1) CN105981050B (ja)
HK (2) HK1223716A1 (ja)
WO (1) WO2015078017A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127120B (zh) * 2016-06-16 2018-03-13 北京市商汤科技开发有限公司 姿势估计方法和装置、计算机系统
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10467459B2 (en) * 2016-09-09 2019-11-05 Microsoft Technology Licensing, Llc Object detection based on joint feature extraction
CN108230294B (zh) * 2017-06-14 2020-09-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
US10043113B1 (en) * 2017-10-04 2018-08-07 StradVision, Inc. Method and device for generating feature maps by using feature upsampling networks
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
CN110443266B (zh) * 2018-05-04 2022-06-24 上海商汤智能科技有限公司 对象预测方法及装置、电子设备和存储介质
CN110660037B (zh) * 2018-06-29 2023-02-10 京东方科技集团股份有限公司 图像间脸部交换的方法、装置、系统和计算机程序产品
KR102161359B1 (ko) * 2018-12-07 2020-09-29 주식회사 포스코아이씨티 딥러닝 기반의 얼굴이미지 추출장치
KR102137329B1 (ko) * 2018-12-24 2020-07-23 주식회사 포스코아이씨티 딥러닝 기반의 얼굴인식모델을 이용하여 특징벡터를 추출하는 얼굴인식시스템
KR102184493B1 (ko) * 2018-12-31 2020-11-30 주식회사 포스코아이씨티 Ai 기반의 얼굴인식 시스템
KR102137328B1 (ko) * 2018-12-24 2020-07-23 주식회사 포스코아이씨티 오차감소 알고리즘을 이용하여 얼굴인식모델을 트레이닝시키는 얼굴인식시스템
CN111881708A (zh) * 2019-05-03 2020-11-03 爱唯秀股份有限公司 人脸识别系统
KR102481555B1 (ko) * 2020-12-29 2022-12-27 주식회사 테라젠바이오 유전정보 기반 미래 얼굴 예측 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720289B2 (en) * 2005-12-14 2010-05-18 Mitsubishi Electric Research Laboratories, Inc. Method for constructing covariance matrices from data features
US8218880B2 (en) * 2008-05-29 2012-07-10 Microsoft Corporation Linear laplacian discrimination for feature extraction
CN101968850B (zh) * 2010-10-21 2012-12-12 重庆大学 一种模拟生物视觉机制的人脸特征提取方法
US8593452B2 (en) 2011-12-20 2013-11-26 Apple Inc. Face feature vector construction
KR101738593B1 (ko) * 2015-07-23 2017-06-14 시스템테크 (주) 복합 사용자 인증 시스템 및 방법
KR101781358B1 (ko) * 2015-07-29 2017-09-26 대한민국 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법

Also Published As

Publication number Publication date
WO2015078017A1 (en) 2015-06-04
US9710697B2 (en) 2017-07-18
JP2016538671A (ja) 2016-12-08
EP3074926A1 (en) 2016-10-05
CN105981050A (zh) 2016-09-28
EP3074926A4 (en) 2017-10-11
CN105981050B (zh) 2019-05-07
HK1223717A1 (zh) 2017-08-04
KR20160073427A (ko) 2016-06-24
US20170004353A1 (en) 2017-01-05
HK1223716A1 (zh) 2017-08-04
KR101721062B1 (ko) 2017-03-29

Similar Documents

Publication Publication Date Title
JP6127219B2 (ja) 顔画像のデータから顔特徴を抽出する方法、およびシステム
CN112132023B (zh) 基于多尺度上下文增强网络的人群计数方法
KR102545128B1 (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
CN111310707B (zh) 基于骨骼的图注意力网络动作识别方法及系统
CN112750082B (zh) 基于融合注意力机制的人脸超分辨率方法及系统
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
CN108475415B (zh) 用于图像处理的方法和系统
CN107784322B (zh) 异常数据检测方法、装置、存储介质以及程序产品
CN109165660A (zh) 一种基于卷积神经网络的显著物体检测方法
Chen et al. Convolutional neural network based dem super resolution
CN109614874B (zh) 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统
CN113095370B (zh) 图像识别方法、装置、电子设备及存储介质
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN113421187B (zh) 一种超分辨率重建方法、系统、存储介质、设备
CN111160225B (zh) 基于深度学习的人体解析方法和装置
CN114283495A (zh) 一种基于二值化神经网络的人体姿态估计方法
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN112733710A (zh) 用于灌溉装置的灌溉水压控制的神经网络的训练方法
Li Image super-resolution using attention based densenet with residual deconvolution
CN109558880B (zh) 一种基于视觉整体和局部特征融合的轮廓检测方法
CN109658508B (zh) 一种多尺度细节融合的地形合成方法
CN112184555B (zh) 一种基于深度交互学习的立体图像超分辨率重建方法
CN111428809B (zh) 基于空间信息融合与卷积神经网络的人群计数方法
CN106663186B (zh) 用于脸部识别的方法和系统
CN113255569A (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160802

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160802

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170410

R150 Certificate of patent or registration of utility model

Ref document number: 6127219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250