JP6616017B2

JP6616017B2 - 物体ランドマーク検出のための深層変形ネットワーク

Info

Publication number: JP6616017B2
Application number: JP2018548057A
Authority: JP
Inventors: シアンユ、; フェンジョウ、; マンモハンチャンドラカー、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2016-03-11
Filing date: 2017-02-22
Publication date: 2019-12-04
Anticipated expiration: 2037-02-22
Also published as: JP2019507935A; US10572777B2; WO2017155691A1; US20170262736A1

Description

この出願は、２０１６年３月１１日に出願された米国仮特許出願第６２／３０６，８９４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、コンピュータビジョンに関し、特に物体の姿勢推定に関する。

物体の姿勢推定は、物体認証、人物追跡、顔画像解析等のコンピュータビジョンにおける多くの基本的な問題を解決するための必須手段である。姿勢推定問題は、人体姿勢推定、頭部姿勢推定等の広範囲なタイプをカバーする。それは研究者の注目を集め、多数の方法が開発されている。姿勢変動の非線形性及び各姿勢タイプの特殊性のために、本問題は未だに広く研究されている。今のところ、１つのタイプの姿勢推定問題よりも多くを扱うことができる方法はほとんど無い。

先進の姿勢推定問題の主な２つは、顔ランドマーク検出（facial landmark localization）及び人体姿勢推定である。頭部姿勢推定は、頭部の全体的な動きによって決定されるため、ニアリジッド（near-rigid）であると考えられる。しかしながら、例えば目頭・目尻及び口の主要な位置等、定義済みの重要な特徴をより精密に検出する必要がある場合、その重要な位置の動きは頭部の動きだけでなく、顔の皮膚及び表情の非線形性による局所的な変形にも依存するため、本問題は非線形になる。人体姿勢推定は、体の各部位が互いに関節で繋がっているため、典型的な非線形変形問題である。部位の動きはリジッドである。しかし、全体的な形状として各部位が繋がっている場合、各部位の動きは他の部位と一致しておらず、関節は各部位の折り重なりの原因となるため、体の動きは極めて非線形である。

本原理の一態様によれば、プロセッサで実行される、畳み込みニューラルネットワークを用いる方法が提供される。本方法は、４ステージ畳み込み構造を用いて、画像の応答マップを生成するプロセッサを含む。さらに、本方法は形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するプロセッサを含む。本方法は、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成するプロセッサもまた含む。また、本方法は、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成する認証システムを含む。本方法は、認証結果に基づいてハードウェアベース機構を動作させる工程を含む。

本原理の他の態様によれば、システムが提供される。本システムはプロセッサを含む。プロセッサは、４ステージ畳み込み構造を用いて、画像の応答マップを生成するように構成されている。プロセッサは、さらに形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するように構成されている。プロセッサは、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成するように構成されている。認証システムは、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成するように構成されている。プロセッサは、さらに認証結果に基づいてハードウェアベース機構を動作させるように構成されている。

本原理のさらなる他の態様によれば、プロセッサ構成が提供される。本システムはプロセッサを含む。プロセッサは、４ステージ畳み込み構造を用いて、画像の応答マップを生成するように構成されている。プロセッサは、さらに形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するように構成されている。プロセッサは、またポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づいて画像の最適形状を生成するように構成されている。プロセッサは、また生成された最適形状に基づいて画像を識別し、画像の認証結果を生成するように構成された認証システムから得られる認証結果に基づいてハードウェアベース機構を動作させるように構成されている。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、本発明の一実施形態による、高レベル畳み込みニューラルネットワークシステムを示すブロック図である。

図２は、本発明の一実施形態による、システムを示すブロック図である。

図３は、本発明の一実施形態による、高レベル畳み込みニューラルネットワークシステムを示す模式図である。

図４は、本発明の一実施形態による、コンピュータシステムを示すブロック図である。

図５は、本発明の一実施形態による、物体の姿勢を推定するための方法を示すフロー図である。

顔ランドマーク検出及び人体姿勢推定は極めて非線形であるために非常に難易度が高いが、本問題の特殊性に関して有効に対応する多くの成功した方法がある。顔ランドマーク検出において、ＡＳＭ（Active Shape Model）は、形状空間（shape space）を形状ベース（shape basis）の線形結合に分解する。それは、非線形な変形の次元を大きく低減する。しかしながら、線形結合は低ランク近似であり、大きな局所非線形情報（local non-linear information）を失ってしまう。ＡＳＭの精度はＡＡＭ（Active Appearance Model）及びＣＬＭ（Constrained Local Model）によってさらに改善され、全体的な形状制約だけでなく、外観の制約も考慮される。すなわち、１つの姿勢推定タスク用に設計された外観の特徴は、他の姿勢推定タスクでは使用することができない。例えば、形状インデックス付き特徴（shape indexed feature）及び局所バイナリ特徴（local binary feature）は、顔の外観の特殊性に基づいて設計される。体の関節ポイントは、顔の外観、すなわち目頭・目尻（コーナーパターン）、横顔（ラインパターン）等に現れる特徴パターンを示さない。

一方、人体姿勢推定において、関節は他の姿勢問題では現れない特殊性を示す。例えば、目は常に眉の下にある。しかし、足首は脚よりも高くなることがある。初期の研究は、絵で表された構造に基づいており、ＤＰＭ（Deformable Part Model）としてさらに展開されている。ＤＰＭは、体の各部位の幾何学的な繋がりを定義し、全ての部位を一緒に検出するグラフィカルモデルに適用できる。研究者は、ＤＰＭが顔ランドマーク検出にうまく適用されて、はじめてＤＰＭが姿勢問題に関する通常のハンドクラフトモデルであると気が付いた。ＤＰＭの性能は外観の特徴と大きく関連しているとはいえ、グラフィカルモデル推論の性能は個別の幾何学的接続に依存する。

近年、畳み込みニューラルネットワーク（Convolutional Neural Network:ＣＮＮ）が特徴表現において強い能力を示している。顔ランドマーク検出及び人体姿勢推定の両方において、多数のＣＮＮベースの研究がある。これらの方法の多くは、ＣＮＮ構造から生成される特徴マップを取り扱うことに焦点を当てている。ＣＮＮ構造を注意深く設計し、部位ベースモデル（part-based model）またはグラフィカルモデルと組み合わせることで、その性能は、先行する方法を越える著しい優位性を示している。しかしながら、特徴マップの操作は、訓練及びテストの複雑性の増大だけでなく、幾何学的な接続性をハードコードする。ＣＮＮベースの空間変圧器ネットワーク（spatial transformer network）は、幾何学変換をＣＮＮ構造に組み込むことができることを示している。追加的な部位ベースモデルまたはグラフィカルモデルの訓練及びテストを省略するため、発明者らは、特徴マップにとらわれることなく、幾何学変換をネットワークに組み込んだ、エンドツーエンドＣＮＮフレームワーク（end-to-end CNN framework）を用いる。

深層変形ネットワーク（Deep Deformation Network：ＤＤＮ）は、通常の姿勢推定問題を研究するために使用できる。ここでは姿勢タイプに関する形状またはランドマークが１つの形状空間を共有するものと仮定する。低ランク制約を含む形状空間を分解することは、良好な初期設定を提供するために精巧に設計した形状ベースネットワーク（Shape Basis Network：ＳＢＮ）における表現の複雑性を大きく低減する。任意の形状は、特定の制約、すなわちリジッド制約、アフィン（affine）制約等の下で一様に初期化された形状でマップを作成できると仮定する。また、発明者らは、幾何学変換を達成するため、ポイント変形ネットワーク（Point Deformation Network：ＰＤＮ）を用いる。例えば、特定ランドマーク注釈等の各姿勢推定タスクの特殊性に関して、ネットワークは畳み込み層及び損失関数層の両方からの情報を暗黙のうちに学習する。ここでは、顔ランドマーク検出、人体姿勢推定及び鳥姿勢推定の３つの姿勢推定タスクに関する通常のフレームワークを評価する。

顔ランドマーク検出、人体姿勢推定及び鳥姿勢推定は、現在、それぞれ用いられている。顔ランドマーク検出は、顔認識及び感情認識のアプリケーションで用いることができる。これは、犯罪行為の最中に得られる防犯カメラ映像から特定の人物を見つける司法当局の執行で用いることができる、あるいはソーシャルメディアサイトへアップロードされた画像が示す感情に基づいてユーザに表示する広告を選択するソーシャルメディアのアプリケーションを支援できる、あるいはドアへ接近しようとする人物の身元に基づき、施錠されたドアを解錠するために用いることができる。鳥姿勢推定は鳥類の認識に用いることができる。

人体姿勢推定は多数のアプリケーションがある。それは、介護付き住宅（assisted living homes）に配備される生活支援ロボットに用いることができる。高精度な人物検出及び姿勢推定は、介護付き住宅の居住者を守るために使用することができる。姿勢は、例えば意識を失っている等の健康危機の兆候を検出することが可能であり、その通知は困っている人がタイムリーに支援を得るために提供される。アバターアニメーションは、そのような例の１つであり、人物の姿勢はアニメーションの発展に役に立つ。インテリジェントドライバー支援システムは、居眠り運転検知に関するドライバー位置の検出や歩行者が車道に立ち入っているとき、警報の回避をドライバーへ提案するために車両前方の道路脇の歩行者の検出に、人体姿勢推定を用いることができる。他のアプリケーションとして、理学療法、子供達の認知機能の発達の研究、ビデオ監視、絶滅危惧種を保護するための動物追跡及び行動理解、手話検出、進化したヒューマンコンピュータインタラクション及びマーカレスモーションキャプチャリングを含む。

ＤＤＮは、効果的にかつ正確に物体のキーポイントを検出できる。その全体のネットワーク構造は、主として以下の３つの要素で構成される。（１）特異な視覚的特徴を抽出するため、高解像度な応答マップを生成するために少数の畳み込みステージを含めることで、ＶＧＧＮｅｔが部分的に修正される。（２）ランドマークをおおよそ検出するため、新しい形状ベースネットワーク（Shape Basis Network：ＳＢＮ）を畳み込み特徴から生成された重みを用いる形状ベースのセットと組み合わせる。（３）これらの粗い（coarse）ランドマークは、ＴＰＳ変換を用いるポイント変形ネットワーク（Point Deformation Network：ＰＤＮ）において精緻化（refine）される。ネットワーク全体はエンドツーエンドで訓練される。

発明者らは、様々なタスクにおける最高水準の性能のために、特徴抽出に関連してよく知られたＶＧＧ−１６を採用する。ほとんどの検出アルゴリズムと同様に、本ネットワークは、入力として物体検出器でインタレストクロップされた領域を取り込む。発明者らは、共通のセットアップに続いて、顔ランドマーク検出用に１００×１００解像度を用い、人体及び鳥姿勢推定用に２００×２００解像度を用いる。分類及び検出タスクと比べて、ランドマークを検出することは、画像の細部に関する多数の詳細情報の抽出を正確に必要とする。したがって、発明者らは、オリジナルの５ステージＶＧＧ−１６ネットワークにおける最終ステージを削除し、最初の４つの畳み込みステージを用いる。さらに、発明者らは、そのタスクが正確に重要な位置を検出した後に、プーリング層が実際にノイズを導入するという実験結果を見出した。プーリング層は、シフティング不変特徴（shifting invariant feature）を生成するが、その検出タスクに関する特徴はシフトセンシティブであるべきである。この見解に基づいて、発明者らはネットワークから全てのプーリング層を除去する。その結果、１００×１００解像度の画像が与えられると、４ステージ畳み込み層はｘで表される５１２チャネルの７×７応答マップを生成できる。

応答マップのサイズは入力画像のサイズ及び定義済みのネットワーク構造によって決定される。５１２チャネルはＶＧＧＮｅｔに由来し、チャネル数を５１２に設定することで最適性能を示す。

７×７応答マップは、発明者らの定義済み深層変形ネットワーク（deep deformation network：ＤＤＮ）に１００×１００の入力画像を送ることで生成される。ＤＤＮには、定義済みの１６層がある。各層の後に出力がある。５１２×７×７ブロブ（blob）は第１０層の出力である。基本的に、各層の出力はテンソル（tensor）である。５１２はチャネル数である。各チャネル内でフィルタ処理された画像サイズは７×７である。

発明者らは、訓練画像のセット

が与えられた仮定する。ここで、

は畳み込み層で抽出された低レベル特徴を示している。各画像にはｎ個の２−Ｄランドマーク、すなわち、

の注釈が付与されている。ランドマーク位置を予測するため、先行する研究のほとんどはＣＮＮ特徴ｘとグラウンドトゥルースのランドマークｙとの間のダイレクトマッピングを利用している。様々なタスクにおける成功にもかかわらず、バニラ回帰（vanilla regressor）を学習することは以下の２つの制限がある。（１）単一線形モデルは、人体のような大きな形状バリエーションをモデル化するのに十分に効果的ではなく、カスケード回帰は性能を大きく向上させることができるが、良好な解答を得るために適切な初期化が未だ非常に重要である。（２）制限されたデータが与えられると、大規模容量モデルの学習は、若干の幾何学的な制約を欠いているため、過学習となるリスクが高い。

従来の回帰ベース法の制限に対処するため、発明者らは、形状ベースネットワーク（Shape Basis Network：ＳＢＮ）を用い、訓練サンプルで定義される低ランクマニホールド内に存在する、可能な範囲内で最良の物体形状を推測する。このステップはフレームワーク全体において以下の２つの重要な役割を果たす。（１）それは、次のステップにおけるＰＤＮに関するグラウンドトゥルースのランドマークと近い良好な初期化を提供する。（２）それは、推測されたランドマークの大域的幾何学（global geometry）における制約を導入することで学習を正則化する。

顔アライメントに関するＡＳＭの先行する研究に触発されて、発明者らは、堅牢でシンプルな主成分分析（Principal Component Analysis：ＰＣＡ）に基づくパラメトリックモデルを取得した。特に、ＳＢＮは、形状

を

として予測する。ここで、

は全ての訓練画像の平均形状である。

の各列はＰＣＡで計算された上位ｋの直交基底を格納する。発明者らは、共分散行列

の９９％のエネルギーを保存するため、ｋを選択する。

は、入力としてＣＮＮ特徴ｘを取り込み、出力として基本重み

を生成する非線形マッピングである。そのマッピング

は、第１層が各入力を１０２４−Ｄベクトルとしてエンコードし、第２の全結合層でｋの次元をさらに低減する、２つの全結合層を連結することで表される。このマッピングのパラメータはｗ_ｓで示される。

発明者らは、エンドツーエンド法において、ＳＢＮを他のネットワークの構成要素と一緒に訓練する。誤差逆伝播法（back propagation）の期間でｙ_ｓに関する部分的な勾配が

として与えられると、ｘ_ｓに関する部分的な勾配は

として計算できる。その結果、全結合層（ｗ_ｓ）だけでなく低畳み込み層に関するパラメータを更新するために、発明者らはこの勾配を後方へ伝播させる。

ゼロからネットワーク全体を訓練することは難易度が高い。したがって、発明者らは、ＰＤＮが考慮されないシンプルなタスクにおいて、最初にＳＢＮを事前訓練することでカリキュラム学習のアイデアを取り込む。ＰＣＡ形状モデル

と、訓練画像（ｘ）のセットとが与えられると、発明者らは、

の最適な埋め込みに関するＳＢＮを事前訓練する。それは、予測とグラウンドトゥルース（ｙ）とのユークリッド距離（Euclidean distance）を最小化できる。すなわち、

である。ここで、λはラージｌ_２ノルムで係数にペナルティを科す正則化ファクターである。式（２）へアプローチするため、発明者らはｘ_ｓに関する損失Ｆの勾配を以下のように計算する。それは、全結合層（ｗ_ｓ）及び低畳み込み層のパラメータを更新するために後方へ伝播される。

形状ベースネットワークは、埋め込み係数ｘ_ｓを生成する高性能なＣＮＮを適用する。低ランク切り捨てのために予測における精度のわずかな損失を伴って、ＳＢＮは精緻化手順に関する良好な初期化を提供するために設計される。それは、次のセクションにおけるポイント変形ネットワークである。さらに、姿勢推定問題における関節は大きな非線形歪をもたらすため、ＳＢＮが形状バリエーションの全てのタイプをカバーする限り、ＳＢＮを導入することはポイント変形ネットワークに関する形状変換の複雑性を大きく低減する。

入力特徴ｘが与えられると、ＳＢＮは定義済み形状ベースの線形結合として物体のランドマークｙ_ｓを生成する。上述したように、この予測は、線形回帰モデルに限定されるため、不正確なことがある。より難易度が高い姿勢バリエーションを取り扱うため、グラウンドトゥルース（ｙ）とベストマッチな薄板スプライン（Thin-Plate-Spline：ＴＰＳ）変換を用いて初期形状（ｙ_ｓ）を変形させる、ポイント変形ネットワーク（ＰＤＮ）を用いる。

コンピュータグラフィクス及びコンピュータビジョンにおいて、ＴＰＳ変換は、複数点の２つのセット間の非線形変換のモデル化のために広く用いられている。ＳＴＮ（Spatial Transformer Network）は、弱教師あり手法における画像分類に関する様々な幾何学変換（ＴＰＳを含む）を学習できる。同様の変形原理を適用しても、発明者らのＰＤＮは３つの態様においてＳＴＮと著しく異なっている。第１に、ＳＴＮは後のタスクのための入力画像全体または特徴マップをワープすることを目指している。第２に、発明者らのＰＤＮは入力画像だけでなくランドマークまたは制御ポイントに対応する、より一般的なフレームワークである。第３に、高密度な２Ｄ画像または特徴マップをワープすることはより空間的な制約が加わるが、まばらな（sparse）ランドマークをワープすることは、より柔軟であり、良好な性能を達成できる。

ＴＰＳ変換は、アフィン（affine）変換と非線形変換の２つの部位から構成される。アフィン変換は行列

で定義されるが、非線形変換は対応する係数

を備えるｍ制御ポイント

によってパラメータ化される。制御ポイントは１０×１０グリッド（すなわち、ｍ＝１００）で形成されて固定される。あらゆる２−Ｄポイント

に関するＴＰＳ変換は以下のように定義できる。

ここで、

はホモジーニアス形式（homogeneous form）における座標ｚを示している。ＴＰＳを用いる１つの利点は、放射基底関数（Radial Basis Function：ＲＢＦ）

がパラメータフリーであることである。

ＴＰＳ変換を教師無し手法で用いる先行する大部分の研究とは異なり、発明者らはデータドリブン法においてＴＰＳを動作させるマッピングを学習する。畳み込み特徴ｘ及びＳＢＮによって提供される初期ランドマーク

が与えられると、ＰＤＮは、グラウンドトゥルース

とマッチさせるために、最適なＴＰＳ変換｛D,U｝を生成する非線形マッピング

を捜索する。ＳＢＮと同様に、このマッピング

は、連結された２つの全結合層によって達成され、それは１０２４−Ｄ中間表現を生成する。ＰＤＮは以下のように最適化する。

ここで、

は、

に関する変換ｇの二階導関数である。重みγは変換エラーと曲げエネルギーとの間のトレードオフである。式（４）を式（５）に代入すると、同等であるがより簡潔な式が得られる。

ここで、ＲＢＦカーネル

の各要素は

で計算する。

ＴＰＳパラメータＤ及びＵに関して式（６）を最適化することは閉形式で解決できる。しかしながら、発明者らのケースでは、オンザフライ（on-the-fly）で画像特徴ｘが与えられると、２つのパラメータが非線形マッピング

によって生成される。したがって、発明者らは、最適な解を計算する代わりに確率的勾配降下法（stochastic gradient descent）を用いて式（５）をｗ_ｐに関して最適化する。それは、最初にＴＰＳパラメータに関して以下のように勾配を計算し、

次にそれらを後方へ伝播してマッピングパラメータｗ_ｐを更新する。ネットワーク全体は一緒に訓練されるため、入力形状ｙ_ｓ（すなわち、ＳＴＮの出力）に関連して以下のように勾配を計算する必要がある。

ここで、Ｄ_ｓはアフィン行列Ｄの最初の２列である。Ｄは、構造にしたがってＤ＝［Ｄ_ｓ，Ｄ_ｉ］のように分解される。

は、形状

に関連する要素毎の導関数である。

ＰＤＮの訓練における主な困難の１つは、非線形マッピング

の過学習によってもたらされる。これは、ｗ_ｐにおけるパラメータの数がミニバッチから得られる情報量よりも非常に多いからである。例えば、ＬＦＷ（Labeled Faces in the Wild）の顔アライメント問題において、発明者らは、操作する大きい数（１００）の制御ポイントを除いて、各画像に関する僅かなラベル付きランドマーク（７）を有している。１つの一般的な解決法は、正則化重みγを増大させることである。しかしながら、大きなγは、人体のような高い非リジッド姿勢バリエーションを取り扱うためのＴＰＳ変換の柔軟性が低下する可能性がある。そこで、発明者らは、さらなる変形を抑制するために、ポイントグリッド正則化法（point grid regularization method）で制御する。

各訓練画像に関して、発明者らは、オフラインで意味形状

からグラウンドトゥルースｙまでの最適なＴＰＳ変換

を推定する。そして、このＴＰＳ変換にｍ制御ポイント

を適用し、変換後の位置

を取得する。これを行うことで、発明者らは、ｍ個の追加のランドマーク

をそれらのオリジナル位置

と合成した。その結果、発明者らは、Ｙｃに関する追加の損失を以下のように定義した。

ここで、項

は、式（６）と同様に定義される。オリジナル損失εにε_ｃを組み込むことで、発明者らはｍポイントから追加の情報を取得する。それが、過学習のリスクを低減し、性能全体の向上を促進する。γの典型的な値は０．５と２の間であるが、ρ及びσは０．１と１の間である。ランドマーク損失及び制御ポイント損失は同じ形式を共有するため、式（７）及び（８）で示すように、ネットワークの更新もまた同じ形式を共有する。

本システムは、特徴ｘを抽出するための畳み込み層、中間ランドマークｙ_ｓを計算するためのＳＢＮ及び最終位置ｙ_ｐを生成するためのＰＤＮの３つのステップで構成される。発明者らのネットワークは、エンドツーエンド法においてゼロから訓練できる。しかしながら、近年の研究は、深層学習モデルの訓練において適切な初期設定が極めて重要であることを示している。カリキュラム学習は、連結タスクをより単純な２つのタスクに分解し、ＳＢＮ及びＰＤＮを別々に事前訓練することで、成し遂げられている。ＳＢＮを事前訓練するため、発明者らはＰＤＮ部を持たずに式（３）を直接最小化する。畳み込み層に関して、ImageNetデータセットからの周知の学習は発明者らのタスクに利益をもたらすため、オリジナルのＶＧＧ１６モデルなどで、それらの重みを初期化する。事前訓練プロセスの期間、発明者らは最初に畳み込み重みを固定し、ＳＢＮのみの全結合層を更新する。１０エポック後にエラーが低減しない場合、そのネットワークは畳み込み層及び全結合層の両方を更新するために緩和される。ＰＤＮを事前訓練するため、発明者らはネットワークからＳＢＮコンポーネントを切り離し、入力ｙ_ｓを意味形状

に置き換える。同様に、発明者らはＳＢＮの事前訓練プロセスのように畳み込み重みを固定し、ＰＤＮのみの全結合層を更新する。１０エポック後、発明者らは畳み込み層及び全結合層の両方を一緒に訓練する。

ＳＢＮ及びＰＤＮを個別に訓練後、それらを、ＳＢＮが形状入力ｙ_ｓをＰＤＮへ提供するように結合ネットワークにおいて結合する。その損失エラーはＰＤＮの終端で生成され、全結合層及び畳み込み層を更新するために、後方へ伝播される。両方のネットワークの事前訓練に伴って、発明者らは最初にＰＤＮの重みを更新し、ＳＢＮの重みを固定する。次に、そして、ＳＢＮからの重みが緩和され、ネットワーク全体が一緒に更新される。先のセクションにて議論したように、過学習を防止するため、式（９）に２損失の目的関数を導入する。訓練データにより、初期化されたランドマークからグラウンドトゥルース注釈までマッピングすると、発明者らは、初期化されたランドマークの各セットからグラウンドトゥルースのランドマークへのＴＰＳ変換をオフラインで計算する。発明者らは、変換された制御ポイントを取得するため、画像の端から端まで均一にサンプルされた各制御ポイントに同じＴＰＳ変換を適用する。この方法において、発明者らはもう１つの訓練データを生成する。先に説明した全ての訓練手順は、新たに生成された訓練データが適用される。制御ポイントベースのネットワークが訓練されると、発明者らはネットワークにランドマークベースの訓練データを直接適用し、制御ポイントの損失及びランドマークからの損失の両方にペナルティを課す。ランドマークベースの訓練データを直接適用しない理由は、ネットワークがまばらなランドマーク注釈に基づいて訓練されると、過学習が定常化するためである。それに対して、最初に高密度な制御ポイントの訓練データを適用することは、ネットワークが過学習になることを防止する。その結果、ランドマーク制約を追加することは、検出タスクがより具体的となるようにネットワークが精緻化される。

各具体的なタスクの訓練、すなわち、顔検出、人体姿勢推定は独立しているべきである。異なるタスクの注釈は大きく異なることがある。画像外観もまた１つのタスクからその他のタスクまでかなり異なるものになる。例えば、人の顔の画像は顔セントリックレイアウトと共有するが、人体のレイアウトはより変わりやすい。体は、顔のジェスチャーよりもはるかに多いジェスチャーの全てのタイプ、すなわち、横になる、逆さになる、折り畳む等が現れることがある。そのため、畳み込み層内部のフィルタはかなり異なる応答になる可能性がある。異なるタスクは独立した訓練が必要ではあるが、発明者らは、姿勢推定またはランドマーク検出問題にわたる共通性を探索するため、一般的で均一なＣＮＮを提案する。

深層変形ネットワーク（ＤＤＮ）は、顔ランドマーク検出、人体姿勢推定及び鳥キーポイント予測を含む、多くの異なる姿勢推定で用いることができる。顔ランドマークを検出することは、顔画像分析における基本的な手順である。しかしながら、本問題は姿勢及び外観における大きなばらつき及び現実世界の顔画像におけるオクルージョンの存在に起因して未だに難易度が高い。顔と比べて人体は空間における変形の自由度が非常に大きい。高い非リジッド性のため、人体姿勢推定はさらにより難易度が高い。本方法はニューラルネットワーク構造を使用する。その差異は、体構造推定をネットワークに組み入れることである。例えば、形状ベースネットワークは柔軟な体構造推定を組み立てる。さらに、ポイント変形ネットワークは、最初に体ランドマーク位置を精緻化する。全てのモジュールは、訓練及びテストの両方のため、エンドツーエンドのネットワークに統合される。鳥キーポイント予測は人体姿勢推定とはなお一層異なっている。ランドマークのいくつかの空間的なシフトはランドマークの定義に違反しない。この趣旨において、鳥ランドマーク検出タスクは、その不確実性のために難易度が高い。

エンドツーエンドの深層変形ネットワークは、一般的に数個の独立した姿勢推定タスク、すなわち人姿勢推定、顔ランドマーク検出及び鳥姿勢推定を取り扱う。ＣＮＮ特徴表現からの恩恵により、発明者らは、特徴マップを気にすることなく、特徴からランドマーク変換まで直接マッピングのための形状ベースネットワークを作り上げる。ＳＢＮは、ポイント変形ネットワークに関する高速でかつ良好な初期設定を提供する。ＰＤＮは、ＳＢＮからの初期設定をさらに精緻化するため、ＣＮＮ特徴からその他のポイント変換まで、同様のマッピングを適用する。ＤＰＭとは対照的に、ＤＤＮ構造全体は、訓練及びテストのための複雑な設定を保存する、ハンドクラフト特徴とパスベース接続のどちらも組み込まない。エンドツーエンドの深層変形ネットワークは、異なる姿勢推定タスクを容易にし、全ての姿勢推定タスクに関する他の最先端と比べて有利な性能を達成できる。

本明細書に記載した実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。

実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもよい。コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体、または半導体システム（または機器もしくは装置）、あるいは伝搬媒体であってよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでもよい。

各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置（例えば、プログラムメモリまたは磁気ディスク）に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法でコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。

プログラムコードを記憶及び／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも１つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルク記憶装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルク記憶装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはＩ／Ｏ装置（限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む）は、直接またはＩ／Ｏコントローラを介してシステムに接続されてもよい。

ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたは遠隔プリンタもしくは記憶装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット（登録商標）カードは、現在利用可能なタイプのネットワークアダプタのほんの一握りのものである。

次に、同じ数字が同一または同様の要素を表す図面、まず図１を詳細に参照すると、図１には畳み込みニューラルネットワークシステム１００が例示的に示されている。畳み込みニューラルネットワークシステム１００は、４ステージ畳み込み構造１１０を含む。一実施形態において、４ステージ畳み込み構造１１０はハードウェアで構成される。４ステージ畳み込み構造１１０は、形状ベースニューラルネットワーク１２０で用いられる画像から応答マップを生成する。一実施形態において、形状ベースニューラルネットワーク１２０はハードウェアで構成される。形状ベースニューラルネットワーク１２０は、ポイント変形ニューラルネットワーク１４０で用いられるランドマークポイントのセットを生成するために応答マップを使用する。一実施形態において、ポイント変形ニューラルネットワーク１４０はハードウェアで構成される。ポイント変形ニューラルネットワーク１４０は、画像の最適形状を生成するために、応答マップ及びランドマークポイントのセットを使用する。

図２を参照すると、図２にはシステム２００が例示的に示されている。システム２００は画像２１０を有する。画像２１０は４ステージ畳み込み構造２２０に入力される。４ステージ畳み込み構造２２０は４つのステージを有する。一実施形態において、４ステージの第１ステージ２２１は、複数のＣ＆Ｒ６４（以下、Ｃ＆Ｒ６４）２２２及び複数のＣ＆Ｒストライド（Stride）（以下、Ｃ＆Ｒストライド）２２３を有する。Ｃ＆Ｒ６４２２２は、複数の畳み込み層及び複数の正規化線形ユニット層（rectified linear unit layer）を有する。画像２１０は、その結果がＣ＆Ｒストライド２２３へ送られる前に第１ステージ２２１のＣ＆Ｒ６４２２２で処理される。Ｃ＆Ｒストライド２２３は、その結果における画素をシフトさせる。画素シフトはストライド２とすればよい。

他の実施形態において、４ステージの第２ステージ２２４は、複数のＣ＆Ｒ１２８（以下、Ｃ＆Ｒ１２８）２２５及び複数のＣ＆Ｒストライド（以下、Ｃ＆Ｒストライド）２２３を有する。Ｃ＆Ｒ１２８２２５は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第１ステージ２２１の結果は、その結果がＣ＆Ｒストライド２２３へ送られる前に、第２ステージ２２４のＣ＆Ｒ１２８２２５で処理される。Ｃ＆Ｒストライド２２３は、その結果における画素をシフトさせる。画素シフトはストライド２とすればよい。

さらなる他の実施形態において、４ステージの第３ステージ２２６は、複数のＣ＆Ｒ２５６（以下、Ｃ＆Ｒ２５６）２２７及び複数のＣ＆Ｒストライド（以下、Ｃ＆Ｒストライド）２２３を有する。Ｃ＆Ｒ２５６２２７は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第２ステージ２２４の結果は、その結果がＣ＆Ｒストライド２２３へ送られる前に、第３ステージ２２６の複数のＣ＆Ｒ２５６２２７で複数回処理される。Ｃ＆Ｒストライド２２３は、その結果における画素をシフトさせる。画素シフトはストライド２とすればよい。

一実施形態において、４ステージの第４ステージ２２８は、複数のＣ＆Ｒ５１２（以下、Ｃ＆Ｒ５１２）２２９及び複数のＣ＆Ｒストライド（以下、Ｃ＆Ｒストライド）２２３を有する。Ｃ＆Ｒ５１２２２９は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第３ステージ２２６の結果は、その結果がＣ＆Ｒストライド２２３へ送られる前に、第４ステージ２２８の複数のＣ＆Ｒ５１２２２９で複数回処理される。Ｃ＆Ｒストライド２２３は、その結果における画素をシフトさせる。画素シフトはストライド２とすればよい。

４ステージ畳み込み構造２２０は応答マップを生成する。一実施形態において、応答マップは５１２チャネルの７×７応答マップである。応答マップは形状ベースニューラルネットワーク２３０で処理される。一実施形態において、形状ベースニューラルネットワークは、定義済み形状ベース２３８を有する。他の実施形態において、形状ベースニューラルネットワーク２３０は１つまたは複数の全結合層（以下、全結合層）２３４を有する。ある全結合層２３４は応答マップから第１のベクトルを生成する。他の全結合層２３４は第１のベクトルから第２のベクトルを生成する。さらなる他の実施形態において、形状ベースニューラルネットワーク２３０は複数のランドマークポイントを生成するために、第２のベクトルと定義済み形状ベース２３８の内積を取得する。

複数のランドマークポイントは、ポイント変形ニューラルネットワーク２４０によって処理される。一実施形態において、ポイント変形ニューラルネットワーク２４０は、１つまたは複数の全結合層（以下、全結合層）２３４を有する。ある全結合層２３４は応答マップから第３のベクトルを生成する。他の全結合層２３４は第３のベクトルから第４のベクトルを生成する。他の実施形態において、ポイント変形ニューラルネットワーク２４０は薄板スプライン変換２４５を有する。ポイント変形ニューラルネットワーク２４０は、第４のベクトルから最適形状を生成し、薄板スプライン変換２４５で複数のランドマークポイントを生成する。

画像からの最適形状は認証システム２５０で処理される。一実施形態において、認証システム２５０は定義済みユーザ認証データベース２５５を有する。認証システム２５０は、画像の認証結果を生成するために、最適形状及び定義済みユーザ認証データベース２５５を用いる。認証システムは、認証結果に基づいてハードウェアベース機構３６０へ信号を送信する。一実施形態において、ハードウェアベース機構３６０は電子錠３６５で構成される。認証結果に基づいてハードウェアベース機構３６０へ送信された信号は電子錠３６５を解錠する。

図３を参照すると、ネットワークインタフェース３００は、ネットワークを介して情報を交換する他のハードウェアに畳み込みニューラルネットワークシステム３５０を提供する。畳み込みニューラルネットワークシステム３５０は、ネットワーク３１０を通してサーバ３２０または複数のサーバ３３０と通信できる。畳み込みニューラルネットワークシステム３５０は、ネットワーク３１０を通して処理する画像３４０を取得できる。

図４を参照すると、図４には本発明の一実施形態による、ニューラルネットワークのノードを示す典型的なコンピュータシステム４００が示されている。コンピュータシステム４００は、システムバス４０２を介して他の構成要素が動作可能に接続された、少なくとも１つのプロセッサ（ＣＰＵ）４０５を含む。システムバス４０２には、キャッシュ４０６、リードオンリメモリ（ＲＯＭ）４０８、ランダムアクセスメモリ（ＲＡＭ）４１０、入力／出力（Ｉ／Ｏ）アダプタ４２０、音声アダプタ４３０、ネットワークアダプタ４４０、ユーザインターフェースアダプタ４５０及びディスプレイアダプタ４６０が動作可能に接続されている。

第１の記憶デバイス４２２及び第２の記憶デバイス４２４は、Ｉ／Ｏアダプタ４２０によってシステムバス４０２に動作可能に接続されている。記憶デバイス４２２及び４２４は、ディスク記憶デバイス（例えば、磁気または光ディスク記憶デバイス）、固体磁気デバイス等のうちのいずれであってもよい。記憶デバイス４２２及び４２４は、同じタイプの記憶デバイスであってもよく、異なるタイプの記憶デバイスであってもよい。

スピーカ４３２は、音声アダプタ４３０によってシステムバス４０２に動作可能に接続されている。トランシーバ４４５は、ネットワークアダプタ４４０によってシステムバス４０２に動作可能に接続されている。ディスプレイデバイス４６２は、ディスプレイアダプタ４６０によってシステムバス４０２に動作可能に接続されている。

第１のユーザ入力デバイス４５２、第２のユーザ入力デバイス４５４及び第３のユーザ入力デバイス４５６は、ユーザインタフェースアダプタ４５０によってシステムバス４０２に動作可能に接続されている。ユーザ入力デバイス４５２、４５４及び４５６は、センサ、キーボード、マウス、キーパッド、イメージキャプチャデバイス、モーション感知デバイス、電力測定デバイス、マイクロフォン、あるいはこれらの装置のうちの少なくとも２つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。もちろん、本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力デバイスを使用することも可能である。ユーザ入力デバイス４５２、４５４及び４５６は、同じタイプのユーザ入力デバイスであってもよく、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス４５２、４５４及び４５６は、システム４００に情報を入力し、システム４００から情報を出力するために使用される。

もちろん、コンピュータシステム４００は、当業者であれば容易に思いつくような他の要素（不図示）を含んでいてもよく、特定の要素を除いてもよい。例えば、当業者であれば容易に理解できるが、コンピュータシステム４００には、その詳細な実装に応じて他の様々な入力デバイス及び／または出力デバイスを含むことができる。例えば、無線及び／または有線による種々の入力デバイス及び／または出力デバイスを使用できる。さらに、当業者であれば容易に理解できるが、様々な構成において追加のプロセッサ、コントローラ、メモリ等を用いることも可能である。コンピュータシステム４００の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

図５を参照すると、図５には本発明の一実施形態による、物体の姿勢を推定する方法５００のフローチャートが示されている。ブロック５１０において、プロセッサにより、４ステージ畳み込み構造を用いて画像の応答マップを生成する。ブロック５２０において、プロセッサにより、形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成する。ブロック５３０において、プロセッサにより、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成する。ブロック５４０において、認証システムにより、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成する。ブロック５５０において、認証結果に基づいてハードウェアベース機構を動作させる。

上記は、あらゆる観点において説明的（illustrative）かつ典型的（exemplary）であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

畳み込みニューラルネットワークを用いる方法であって、
プロセッサにより、４ステージ畳み込み構造を用いて、画像の応答マップを生成し、
前記プロセッサにより、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、
前記プロセッサにより、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成し、
認証システムにより、前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成し、
前記認証結果に基づいてハードウェアベース機構を動作させる、方法。
前記ポイント変形ニューラルネットワークは、前記画像の前記複数のランドマークポイントに非線形変換を適用する、請求項１に記載の方法。
前記４ステージ畳み込み構造は、複数の畳み込み層及び複数の正規化線形ユニット層を有する、請求項１に記載の方法。
前記応答マップは、５１２チャネルの７×７応答マップである、請求項１に記載の方法。
前記ポイント変形ニューラルネットワークは、薄板スプライン（ＴＰＳ）変換を用いて前記画像の前記複数のランドマークを変形させる、請求項１に記載の方法。
前記画像の前記複数のランドマークポイントの変形は、ポイントグリッド正則化法で制御することで制約されている、請求項５に記載の方法。
前記形状ベースニューラルネットワークは、前記画像の前記複数のランドマークの大域的幾何学の制約を適用する、請求項１に記載の方法。
前記形状ベースニューラルネットワーク及び前記ポイント変形ニューラルネットワークは、複数の同じ画像を用いて一緒に訓練される、請求項１に記載の方法。
前記画像の前記複数のランドマークポイントは、定義済み形状ベースの線形結合を有する、請求項１に記載の方法。
前記形状ベースニューラルネットワークは、前記応答マップに非線形変換を適用する、請求項１に記載の方法。
前記認証システムが、前記画像を捕捉するセキュリティシステムに含まれる、請求項１に記載の方法。
前記認証結果に基づいてハードウェアベース機構を動作させることは、画像内で表現及び認証されたユーザに、装置及び設備から成るグループから選択された項目に対するアクセスを許可するため、鍵の解錠機構を作動させることを含む、請求項１に記載の方法。
前記認証結果に基づいてハードウェアベース機構を動作させることは、ハードウェアベース機構によって、ユーザを装うリスクを軽減するためにハードウェアベース機構を停止することを含む、請求項１に記載の方法。
請求項１に記載された手順をコンピュータに実行させるためのプログラム。
４ステージ畳み込み構造を用いて、画像の応答マップを生成し、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成するように構成されたプロセッサと、
前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成するように構成された認証システムと、
を有し、
前記プロセッサは、さらに前記認証結果に基づいてハードウェアベース機構を動作させるように構成されている、システム。
前記ポイント変形ニューラルネットワークは、前記画像の前記複数のランドマークポイントに非線形変換を適用する、請求項１５に記載のシステム。
前記４ステージ畳み込み構造は、複数の畳み込み層及び複数の正規化線形ユニット層を有する、請求項１５に記載のシステム。
前記ポイント変形ニューラルネットワークは、薄板スプライン（ＴＰＳ）変換を用いて前記画像の前記複数のランドマークを変形させる、請求項１５に記載のシステム。
前記形状ベースニューラルネットワークは、前記画像の前記複数のランドマークの大域的幾何学の制約を適用する、請求項１５に記載のシステム。
前記画像の前記複数のランドマークポイントは、定義済み形状ベースの線形結合を有する、請求項１５に記載のシステム。
４ステージ畳み込み構造を用いて、画像の応答マップを生成し、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成し、
前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成するように構成された認証システムから得られる認証結果に基づいてハードウェアベース機構を動作させるように構成されたプロセッサを有する、プロセッサ構成。