JP2019507935A - 物体ランドマーク検出のための深層変形ネットワーク - Google Patents

物体ランドマーク検出のための深層変形ネットワーク Download PDF

Info

Publication number
JP2019507935A
JP2019507935A JP2018548057A JP2018548057A JP2019507935A JP 2019507935 A JP2019507935 A JP 2019507935A JP 2018548057 A JP2018548057 A JP 2018548057A JP 2018548057 A JP2018548057 A JP 2018548057A JP 2019507935 A JP2019507935 A JP 2019507935A
Authority
JP
Japan
Prior art keywords
image
neural network
shape
response map
landmark points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018548057A
Other languages
English (en)
Other versions
JP6616017B2 (ja
Inventor
シアン ユ、
シアン ユ、
フェン ジョウ、
フェン ジョウ、
マンモハン チャンドラカー、
マンモハン チャンドラカー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2019507935A publication Critical patent/JP2019507935A/ja
Application granted granted Critical
Publication of JP6616017B2 publication Critical patent/JP6616017B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/754Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries involving a deformation of the sample pattern or of the reference pattern; Elastic matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

システム及び方法が提供される。本システムはプロセッサを含む。該プロセッサは、4ステージ畳み込み構造を用いて、画像の応答マップを生成するように構成されている。該プロセッサは、さらに形状ベースニューラルネットワークを用いて、応答マップに基づいて画像の複数のランドマークポイントを生成するように構成されている。該プロセッサは、またポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づいて画像の最適形状を生成するように構成されている。認証システムは、生成された最適形状に基づいて画像を識別し、該画像の認証結果を生成するように構成されている。上記プロセッサは、さらに認証結果に基づいてハードウェアベース機構を動作させるように構成されている。

Description

この出願は、2016年3月11日に出願された米国仮特許出願第62/306,894号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、コンピュータビジョンに関し、特に物体の姿勢推定に関する。
物体の姿勢推定は、物体認証、人物追跡、顔画像解析等のコンピュータビジョンにおける多くの基本的な問題を解決するための必須手段である。姿勢推定問題は、人体姿勢推定、頭部姿勢推定等の広範囲なタイプをカバーする。それは研究者の注目を集め、多数の方法が開発されている。姿勢変動の非線形性及び各姿勢タイプの特殊性のために、本問題は未だに広く研究されている。今のところ、1つのタイプの姿勢推定問題よりも多くを扱うことができる方法はほとんど無い。
先進の姿勢推定問題の主な2つは、顔ランドマーク検出(facial landmark localization)及び人体姿勢推定である。頭部姿勢推定は、頭部の全体的な動きによって決定されるため、ニアリジッド(near-rigid)であると考えられる。しかしながら、例えば目頭・目尻及び口の主要な位置等、定義済みの重要な特徴をより精密に検出する必要がある場合、その重要な位置の動きは頭部の動きだけでなく、顔の皮膚及び表情の非線形性による局所的な変形にも依存するため、本問題は非線形になる。人体姿勢推定は、体の各部位が互いに関節で繋がっているため、典型的な非線形変形問題である。部位の動きはリジッドである。しかし、全体的な形状として各部位が繋がっている場合、各部位の動きは他の部位と一致しておらず、関節は各部位の折り重なりの原因となるため、体の動きは極めて非線形である。
本原理の一態様によれば、プロセッサで実行される、畳み込みニューラルネットワークを用いる方法が提供される。本方法は、4ステージ畳み込み構造を用いて、画像の応答マップを生成するプロセッサを含む。さらに、本方法は形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するプロセッサを含む。本方法は、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成するプロセッサもまた含む。また、本方法は、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成する認証システムを含む。本方法は、認証結果に基づいてハードウェアベース機構を動作させる工程を含む。
本原理の他の態様によれば、システムが提供される。本システムはプロセッサを含む。プロセッサは、4ステージ畳み込み構造を用いて、画像の応答マップを生成するように構成されている。プロセッサは、さらに形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するように構成されている。プロセッサは、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成するように構成されている。認証システムは、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成するように構成されている。プロセッサは、さらに認証結果に基づいてハードウェアベース機構を動作させるように構成されている。
本原理のさらなる他の態様によれば、プロセッサ構成が提供される。本システムはプロセッサを含む。プロセッサは、4ステージ畳み込み構造を用いて、画像の応答マップを生成するように構成されている。プロセッサは、さらに形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成するように構成されている。プロセッサは、またポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づいて画像の最適形状を生成するように構成されている。プロセッサは、また生成された最適形状に基づいて画像を識別し、画像の認証結果を生成するように構成された認証システムから得られる認証結果に基づいてハードウェアベース機構を動作させるように構成されている。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、本発明の一実施形態による、高レベル畳み込みニューラルネットワークシステムを示すブロック図である。
図2は、本発明の一実施形態による、システムを示すブロック図である。
図3は、本発明の一実施形態による、高レベル畳み込みニューラルネットワークシステムを示す模式図である。
図4は、本発明の一実施形態による、コンピュータシステムを示すブロック図である。
図5は、本発明の一実施形態による、物体の姿勢を推定するための方法を示すフロー図である。
顔ランドマーク検出及び人体姿勢推定は極めて非線形であるために非常に難易度が高いが、本問題の特殊性に関して有効に対応する多くの成功した方法がある。顔ランドマーク検出において、ASM(Active Shape Model)は、形状空間(shape space)を形状ベース(shape basis)の線形結合に分解する。それは、非線形な変形の次元を大きく低減する。しかしながら、線形結合は低ランク近似であり、大きな局所非線形情報(local non-linear information)を失ってしまう。ASMの精度はAAM(Active Appearance Model)及びCLM(Constrained Local Model)によってさらに改善され、全体的な形状制約だけでなく、外観の制約も考慮される。すなわち、1つの姿勢推定タスク用に設計された外観の特徴は、他の姿勢推定タスクでは使用することができない。例えば、形状インデックス付き特徴(shape indexed feature)及び局所バイナリ特徴(local binary feature)は、顔の外観の特殊性に基づいて設計される。体の関節ポイントは、顔の外観、すなわち目頭・目尻(コーナーパターン)、横顔(ラインパターン)等に現れる特徴パターンを示さない。
一方、人体姿勢推定において、関節は他の姿勢問題では現れない特殊性を示す。例えば、目は常に眉の下にある。しかし、足首は脚よりも高くなることがある。初期の研究は、絵で表された構造に基づいており、DPM(Deformable Part Model)としてさらに展開されている。DPMは、体の各部位の幾何学的な繋がりを定義し、全ての部位を一緒に検出するグラフィカルモデルに適用できる。研究者は、DPMが顔ランドマーク検出にうまく適用されて、はじめてDPMが姿勢問題に関する通常のハンドクラフトモデルであると気が付いた。DPMの性能は外観の特徴と大きく関連しているとはいえ、グラフィカルモデル推論の性能は個別の幾何学的接続に依存する。
近年、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が特徴表現において強い能力を示している。顔ランドマーク検出及び人体姿勢推定の両方において、多数のCNNベースの研究がある。これらの方法の多くは、CNN構造から生成される特徴マップを取り扱うことに焦点を当てている。CNN構造を注意深く設計し、部位ベースモデル(part-based model)またはグラフィカルモデルと組み合わせることで、その性能は、先行する方法を越える著しい優位性を示している。しかしながら、特徴マップの操作は、訓練及びテストの複雑性の増大だけでなく、幾何学的な接続性をハードコードする。CNNベースの空間変圧器ネットワーク(spatial transformer network)は、幾何学変換をCNN構造に組み込むことができることを示している。追加的な部位ベースモデルまたはグラフィカルモデルの訓練及びテストを省略するため、発明者らは、特徴マップにとらわれることなく、幾何学変換をネットワークに組み込んだ、エンドツーエンドCNNフレームワーク(end-to-end CNN framework)を用いる。
深層変形ネットワーク(Deep Deformation Network:DDN)は、通常の姿勢推定問題を研究するために使用できる。ここでは姿勢タイプに関する形状またはランドマークが1つの形状空間を共有するものと仮定する。低ランク制約を含む形状空間を分解することは、良好な初期設定を提供するために精巧に設計した形状ベースネットワーク(Shape Basis Network:SBN)における表現の複雑性を大きく低減する。任意の形状は、特定の制約、すなわちリジッド制約、アフィン(affine)制約等の下で一様に初期化された形状でマップを作成できると仮定する。また、発明者らは、幾何学変換を達成するため、ポイント変形ネットワーク(Point Deformation Network:PDN)を用いる。例えば、特定ランドマーク注釈等の各姿勢推定タスクの特殊性に関して、ネットワークは畳み込み層及び損失関数層の両方からの情報を暗黙のうちに学習する。ここでは、顔ランドマーク検出、人体姿勢推定及び鳥姿勢推定の3つの姿勢推定タスクに関する通常のフレームワークを評価する。
顔ランドマーク検出、人体姿勢推定及び鳥姿勢推定は、現在、それぞれ用いられている。顔ランドマーク検出は、顔認識及び感情認識のアプリケーションで用いることができる。これは、犯罪行為の最中に得られる防犯カメラ映像から特定の人物を見つける司法当局の執行で用いることができる、あるいはソーシャルメディアサイトへアップロードされた画像が示す感情に基づいてユーザに表示する広告を選択するソーシャルメディアのアプリケーションを支援できる、あるいはドアへ接近しようとする人物の身元に基づき、施錠されたドアを解錠するために用いることができる。鳥姿勢推定は鳥類の認識に用いることができる。
人体姿勢推定は多数のアプリケーションがある。それは、介護付き住宅(assisted living homes)に配備される生活支援ロボットに用いることができる。高精度な人物検出及び姿勢推定は、介護付き住宅の居住者を守るために使用することができる。姿勢は、例えば意識を失っている等の健康危機の兆候を検出することが可能であり、その通知は困っている人がタイムリーに支援を得るために提供される。アバターアニメーションは、そのような例の1つであり、人物の姿勢はアニメーションの発展に役に立つ。インテリジェントドライバー支援システムは、居眠り運転検知に関するドライバー位置の検出や歩行者が車道に立ち入っているとき、警報の回避をドライバーへ提案するために車両前方の道路脇の歩行者の検出に、人体姿勢推定を用いることができる。他のアプリケーションとして、理学療法、子供達の認知機能の発達の研究、ビデオ監視、絶滅危惧種を保護するための動物追跡及び行動理解、手話検出、進化したヒューマンコンピュータインタラクション及びマーカレスモーションキャプチャリングを含む。
DDNは、効果的にかつ正確に物体のキーポイントを検出できる。その全体のネットワーク構造は、主として以下の3つの要素で構成される。(1)特異な視覚的特徴を抽出するため、高解像度な応答マップを生成するために少数の畳み込みステージを含めることで、VGGNetが部分的に修正される。(2)ランドマークをおおよそ検出するため、新しい形状ベースネットワーク(Shape Basis Network:SBN)を畳み込み特徴から生成された重みを用いる形状ベースのセットと組み合わせる。(3)これらの粗い(coarse)ランドマークは、TPS変換を用いるポイント変形ネットワーク(Point Deformation Network:PDN)において精緻化(refine)される。ネットワーク全体はエンドツーエンドで訓練される。
発明者らは、様々なタスクにおける最高水準の性能のために、特徴抽出に関連してよく知られたVGG−16を採用する。ほとんどの検出アルゴリズムと同様に、本ネットワークは、入力として物体検出器でインタレストクロップされた領域を取り込む。発明者らは、共通のセットアップに続いて、顔ランドマーク検出用に100×100解像度を用い、人体及び鳥姿勢推定用に200×200解像度を用いる。分類及び検出タスクと比べて、ランドマークを検出することは、画像の細部に関する多数の詳細情報の抽出を正確に必要とする。したがって、発明者らは、オリジナルの5ステージVGG−16ネットワークにおける最終ステージを削除し、最初の4つの畳み込みステージを用いる。さらに、発明者らは、そのタスクが正確に重要な位置を検出した後に、プーリング層が実際にノイズを導入するという実験結果を見出した。プーリング層は、シフティング不変特徴(shifting invariant feature)を生成するが、その検出タスクに関する特徴はシフトセンシティブであるべきである。この見解に基づいて、発明者らはネットワークから全てのプーリング層を除去する。その結果、100×100解像度の画像が与えられると、4ステージ畳み込み層はxで表される512チャネルの7×7応答マップを生成できる。
応答マップのサイズは入力画像のサイズ及び定義済みのネットワーク構造によって決定される。512チャネルはVGGNetに由来し、チャネル数を512に設定することで最適性能を示す。
7×7応答マップは、発明者らの定義済み深層変形ネットワーク(deep deformation network:DDN)に100×100の入力画像を送ることで生成される。DDNには、定義済みの16層がある。各層の後に出力がある。512×7×7ブロブ(blob)は第10層の出力である。基本的に、各層の出力はテンソル(tensor)である。512はチャネル数である。各チャネル内でフィルタ処理された画像サイズは7×7である。
発明者らは、訓練画像のセット
Figure 2019507935
が与えられた仮定する。ここで、
Figure 2019507935
は畳み込み層で抽出された低レベル特徴を示している。各画像にはn個の2−Dランドマーク、すなわち、
Figure 2019507935
の注釈が付与されている。ランドマーク位置を予測するため、先行する研究のほとんどはCNN特徴xとグラウンドトゥルースのランドマークyとの間のダイレクトマッピングを利用している。様々なタスクにおける成功にもかかわらず、バニラ回帰(vanilla regressor)を学習することは以下の2つの制限がある。(1)単一線形モデルは、人体のような大きな形状バリエーションをモデル化するのに十分に効果的ではなく、カスケード回帰は性能を大きく向上させることができるが、良好な解答を得るために適切な初期化が未だ非常に重要である。(2)制限されたデータが与えられると、大規模容量モデルの学習は、若干の幾何学的な制約を欠いているため、過学習となるリスクが高い。
従来の回帰ベース法の制限に対処するため、発明者らは、形状ベースネットワーク(Shape Basis Network:SBN)を用い、訓練サンプルで定義される低ランクマニホールド内に存在する、可能な範囲内で最良の物体形状を推測する。このステップはフレームワーク全体において以下の2つの重要な役割を果たす。(1)それは、次のステップにおけるPDNに関するグラウンドトゥルースのランドマークと近い良好な初期化を提供する。(2)それは、推測されたランドマークの大域的幾何学(global geometry)における制約を導入することで学習を正則化する。
顔アライメントに関するASMの先行する研究に触発されて、発明者らは、堅牢でシンプルな主成分分析(Principal Component Analysis:PCA)に基づくパラメトリックモデルを取得した。特に、SBNは、形状
Figure 2019507935

Figure 2019507935
として予測する。ここで、
Figure 2019507935
は全ての訓練画像の平均形状である。
Figure 2019507935
の各列はPCAで計算された上位kの直交基底を格納する。発明者らは、共分散行列
Figure 2019507935
の99%のエネルギーを保存するため、kを選択する。
Figure 2019507935
は、入力としてCNN特徴xを取り込み、出力として基本重み
Figure 2019507935
を生成する非線形マッピングである。そのマッピング
Figure 2019507935
は、第1層が各入力を1024−Dベクトルとしてエンコードし、第2の全結合層でkの次元をさらに低減する、2つの全結合層を連結することで表される。このマッピングのパラメータはwで示される。
発明者らは、エンドツーエンド法において、SBNを他のネットワークの構成要素と一緒に訓練する。誤差逆伝播法(back propagation)の期間でyに関する部分的な勾配が
Figure 2019507935
として与えられると、xに関する部分的な勾配は
Figure 2019507935
として計算できる。その結果、全結合層(w)だけでなく低畳み込み層に関するパラメータを更新するために、発明者らはこの勾配を後方へ伝播させる。
ゼロからネットワーク全体を訓練することは難易度が高い。したがって、発明者らは、PDNが考慮されないシンプルなタスクにおいて、最初にSBNを事前訓練することでカリキュラム学習のアイデアを取り込む。PCA形状モデル
Figure 2019507935
と、訓練画像(x)のセットとが与えられると、発明者らは、
Figure 2019507935
の最適な埋め込みに関するSBNを事前訓練する。それは、予測とグラウンドトゥルース(y)とのユークリッド距離(Euclidean distance)を最小化できる。すなわち、
Figure 2019507935
である。ここで、λはラージlノルムで係数にペナルティを科す正則化ファクターである。式(2)へアプローチするため、発明者らはxに関する損失Fの勾配を以下のように計算する。それは、全結合層(w)及び低畳み込み層のパラメータを更新するために後方へ伝播される。
Figure 2019507935
形状ベースネットワークは、埋め込み係数xを生成する高性能なCNNを適用する。低ランク切り捨てのために予測における精度のわずかな損失を伴って、SBNは精緻化手順に関する良好な初期化を提供するために設計される。それは、次のセクションにおけるポイント変形ネットワークである。さらに、姿勢推定問題における関節は大きな非線形歪をもたらすため、SBNが形状バリエーションの全てのタイプをカバーする限り、SBNを導入することはポイント変形ネットワークに関する形状変換の複雑性を大きく低減する。
入力特徴xが与えられると、SBNは定義済み形状ベースの線形結合として物体のランドマークyを生成する。上述したように、この予測は、線形回帰モデルに限定されるため、不正確なことがある。より難易度が高い姿勢バリエーションを取り扱うため、グラウンドトゥルース(y)とベストマッチな薄板スプライン(Thin-Plate-Spline:TPS)変換を用いて初期形状(y)を変形させる、ポイント変形ネットワーク(PDN)を用いる。
コンピュータグラフィクス及びコンピュータビジョンにおいて、TPS変換は、複数点の2つのセット間の非線形変換のモデル化のために広く用いられている。STN(Spatial Transformer Network)は、弱教師あり手法における画像分類に関する様々な幾何学変換(TPSを含む)を学習できる。同様の変形原理を適用しても、発明者らのPDNは3つの態様においてSTNと著しく異なっている。第1に、STNは後のタスクのための入力画像全体または特徴マップをワープすることを目指している。第2に、発明者らのPDNは入力画像だけでなくランドマークまたは制御ポイントに対応する、より一般的なフレームワークである。第3に、高密度な2D画像または特徴マップをワープすることはより空間的な制約が加わるが、まばらな(sparse)ランドマークをワープすることは、より柔軟であり、良好な性能を達成できる。
TPS変換は、アフィン(affine)変換と非線形変換の2つの部位から構成される。アフィン変換は行列
Figure 2019507935
で定義されるが、非線形変換は対応する係数
Figure 2019507935
を備えるm制御ポイント
Figure 2019507935
によってパラメータ化される。制御ポイントは10×10グリッド(すなわち、m=100)で形成されて固定される。あらゆる2−Dポイント
Figure 2019507935
に関するTPS変換は以下のように定義できる。
Figure 2019507935
ここで、
Figure 2019507935
はホモジーニアス形式(homogeneous form)における座標zを示している。TPSを用いる1つの利点は、放射基底関数(Radial Basis Function:RBF)
Figure 2019507935
がパラメータフリーであることである。
TPS変換を教師無し手法で用いる先行する大部分の研究とは異なり、発明者らはデータドリブン法においてTPSを動作させるマッピングを学習する。畳み込み特徴x及びSBNによって提供される初期ランドマーク
Figure 2019507935
が与えられると、PDNは、グラウンドトゥルース
Figure 2019507935
とマッチさせるために、最適なTPS変換{D,U}を生成する非線形マッピング
Figure 2019507935
を捜索する。SBNと同様に、このマッピング
Figure 2019507935
は、連結された2つの全結合層によって達成され、それは1024−D中間表現を生成する。PDNは以下のように最適化する。
Figure 2019507935
ここで、
Figure 2019507935
は、
Figure 2019507935
に関する変換gの二階導関数である。重みγは変換エラーと曲げエネルギーとの間のトレードオフである。式(4)を式(5)に代入すると、同等であるがより簡潔な式が得られる。
Figure 2019507935
ここで、RBFカーネル
Figure 2019507935
の各要素は
Figure 2019507935
で計算する。
TPSパラメータD及びUに関して式(6)を最適化することは閉形式で解決できる。しかしながら、発明者らのケースでは、オンザフライ(on-the-fly)で画像特徴xが与えられると、2つのパラメータが非線形マッピング
Figure 2019507935
によって生成される。したがって、発明者らは、最適な解を計算する代わりに確率的勾配降下法(stochastic gradient descent)を用いて式(5)をwに関して最適化する。それは、最初にTPSパラメータに関して以下のように勾配を計算し、
Figure 2019507935
次にそれらを後方へ伝播してマッピングパラメータwを更新する。ネットワーク全体は一緒に訓練されるため、入力形状y(すなわち、STNの出力)に関連して以下のように勾配を計算する必要がある。
Figure 2019507935
ここで、Dはアフィン行列Dの最初の2列である。Dは、構造にしたがってD=[D,D]のように分解される。
Figure 2019507935
は、形状
Figure 2019507935
に関連する要素毎の導関数である。
PDNの訓練における主な困難の1つは、非線形マッピング
Figure 2019507935
の過学習によってもたらされる。これは、wにおけるパラメータの数がミニバッチから得られる情報量よりも非常に多いからである。例えば、LFW(Labeled Faces in the Wild)の顔アライメント問題において、発明者らは、操作する大きい数(100)の制御ポイントを除いて、各画像に関する僅かなラベル付きランドマーク(7)を有している。1つの一般的な解決法は、正則化重みγを増大させることである。しかしながら、大きなγは、人体のような高い非リジッド姿勢バリエーションを取り扱うためのTPS変換の柔軟性が低下する可能性がある。そこで、発明者らは、さらなる変形を抑制するために、ポイントグリッド正則化法(point grid regularization method)で制御する。
各訓練画像に関して、発明者らは、オフラインで意味形状
Figure 2019507935
からグラウンドトゥルースyまでの最適なTPS変換
Figure 2019507935
を推定する。そして、このTPS変換にm制御ポイント
Figure 2019507935
を適用し、変換後の位置
Figure 2019507935
を取得する。これを行うことで、発明者らは、m個の追加のランドマーク
Figure 2019507935
をそれらのオリジナル位置
Figure 2019507935
と合成した。その結果、発明者らは、Ycに関する追加の損失を以下のように定義した。
Figure 2019507935
ここで、項
Figure 2019507935
は、式(6)と同様に定義される。オリジナル損失εにεを組み込むことで、発明者らはmポイントから追加の情報を取得する。それが、過学習のリスクを低減し、性能全体の向上を促進する。γの典型的な値は0.5と2の間であるが、ρ及びσは0.1と1の間である。ランドマーク損失及び制御ポイント損失は同じ形式を共有するため、式(7)及び(8)で示すように、ネットワークの更新もまた同じ形式を共有する。
本システムは、特徴xを抽出するための畳み込み層、中間ランドマークyを計算するためのSBN及び最終位置yを生成するためのPDNの3つのステップで構成される。発明者らのネットワークは、エンドツーエンド法においてゼロから訓練できる。しかしながら、近年の研究は、深層学習モデルの訓練において適切な初期設定が極めて重要であることを示している。カリキュラム学習は、連結タスクをより単純な2つのタスクに分解し、SBN及びPDNを別々に事前訓練することで、成し遂げられている。SBNを事前訓練するため、発明者らはPDN部を持たずに式(3)を直接最小化する。畳み込み層に関して、ImageNetデータセットからの周知の学習は発明者らのタスクに利益をもたらすため、オリジナルのVGG16モデルなどで、それらの重みを初期化する。事前訓練プロセスの期間、発明者らは最初に畳み込み重みを固定し、SBNのみの全結合層を更新する。10エポック後にエラーが低減しない場合、そのネットワークは畳み込み層及び全結合層の両方を更新するために緩和される。PDNを事前訓練するため、発明者らはネットワークからSBNコンポーネントを切り離し、入力yを意味形状
Figure 2019507935
に置き換える。同様に、発明者らはSBNの事前訓練プロセスのように畳み込み重みを固定し、PDNのみの全結合層を更新する。10エポック後、発明者らは畳み込み層及び全結合層の両方を一緒に訓練する。
SBN及びPDNを個別に訓練後、それらを、SBNが形状入力yをPDNへ提供するように結合ネットワークにおいて結合する。その損失エラーはPDNの終端で生成され、全結合層及び畳み込み層を更新するために、後方へ伝播される。両方のネットワークの事前訓練に伴って、発明者らは最初にPDNの重みを更新し、SBNの重みを固定する。次に、そして、SBNからの重みが緩和され、ネットワーク全体が一緒に更新される。先のセクションにて議論したように、過学習を防止するため、式(9)に2損失の目的関数を導入する。訓練データにより、初期化されたランドマークからグラウンドトゥルース注釈までマッピングすると、発明者らは、初期化されたランドマークの各セットからグラウンドトゥルースのランドマークへのTPS変換をオフラインで計算する。発明者らは、変換された制御ポイントを取得するため、画像の端から端まで均一にサンプルされた各制御ポイントに同じTPS変換を適用する。この方法において、発明者らはもう1つの訓練データを生成する。先に説明した全ての訓練手順は、新たに生成された訓練データが適用される。制御ポイントベースのネットワークが訓練されると、発明者らはネットワークにランドマークベースの訓練データを直接適用し、制御ポイントの損失及びランドマークからの損失の両方にペナルティを課す。ランドマークベースの訓練データを直接適用しない理由は、ネットワークがまばらなランドマーク注釈に基づいて訓練されると、過学習が定常化するためである。それに対して、最初に高密度な制御ポイントの訓練データを適用することは、ネットワークが過学習になることを防止する。その結果、ランドマーク制約を追加することは、検出タスクがより具体的となるようにネットワークが精緻化される。
各具体的なタスクの訓練、すなわち、顔検出、人体姿勢推定は独立しているべきである。異なるタスクの注釈は大きく異なることがある。画像外観もまた1つのタスクからその他のタスクまでかなり異なるものになる。例えば、人の顔の画像は顔セントリックレイアウトと共有するが、人体のレイアウトはより変わりやすい。体は、顔のジェスチャーよりもはるかに多いジェスチャーの全てのタイプ、すなわち、横になる、逆さになる、折り畳む等が現れることがある。そのため、畳み込み層内部のフィルタはかなり異なる応答になる可能性がある。異なるタスクは独立した訓練が必要ではあるが、発明者らは、姿勢推定またはランドマーク検出問題にわたる共通性を探索するため、一般的で均一なCNNを提案する。
深層変形ネットワーク(DDN)は、顔ランドマーク検出、人体姿勢推定及び鳥キーポイント予測を含む、多くの異なる姿勢推定で用いることができる。顔ランドマークを検出することは、顔画像分析における基本的な手順である。しかしながら、本問題は姿勢及び外観における大きなばらつき及び現実世界の顔画像におけるオクルージョンの存在に起因して未だに難易度が高い。顔と比べて人体は空間における変形の自由度が非常に大きい。高い非リジッド性のため、人体姿勢推定はさらにより難易度が高い。本方法はニューラルネットワーク構造を使用する。その差異は、体構造推定をネットワークに組み入れることである。例えば、形状ベースネットワークは柔軟な体構造推定を組み立てる。さらに、ポイント変形ネットワークは、最初に体ランドマーク位置を精緻化する。全てのモジュールは、訓練及びテストの両方のため、エンドツーエンドのネットワークに統合される。鳥キーポイント予測は人体姿勢推定とはなお一層異なっている。ランドマークのいくつかの空間的なシフトはランドマークの定義に違反しない。この趣旨において、鳥ランドマーク検出タスクは、その不確実性のために難易度が高い。
エンドツーエンドの深層変形ネットワークは、一般的に数個の独立した姿勢推定タスク、すなわち人姿勢推定、顔ランドマーク検出及び鳥姿勢推定を取り扱う。CNN特徴表現からの恩恵により、発明者らは、特徴マップを気にすることなく、特徴からランドマーク変換まで直接マッピングのための形状ベースネットワークを作り上げる。SBNは、ポイント変形ネットワークに関する高速でかつ良好な初期設定を提供する。PDNは、SBNからの初期設定をさらに精緻化するため、CNN特徴からその他のポイント変換まで、同様のマッピングを適用する。DPMとは対照的に、DDN構造全体は、訓練及びテストのための複雑な設定を保存する、ハンドクラフト特徴とパスベース接続のどちらも組み込まない。エンドツーエンドの深層変形ネットワークは、異なる姿勢推定タスクを容易にし、全ての姿勢推定タスクに関する他の最先端と比べて有利な性能を達成できる。
本明細書に記載した実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもよい。コンピュータで利用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体、または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでもよい。
各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置(例えば、プログラムメモリまたは磁気ディスク)に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法でコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。
プログラムコードを記憶及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルク記憶装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルク記憶装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/O装置(限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む)は、直接またはI/Oコントローラを介してシステムに接続されてもよい。
ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたは遠隔プリンタもしくは記憶装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一握りのものである。
次に、同じ数字が同一または同様の要素を表す図面、まず図1を詳細に参照すると、図1には畳み込みニューラルネットワークシステム100が例示的に示されている。畳み込みニューラルネットワークシステム100は、4ステージ畳み込み構造110を含む。一実施形態において、4ステージ畳み込み構造110はハードウェアで構成される。4ステージ畳み込み構造110は、形状ベースニューラルネットワーク120で用いられる画像から応答マップを生成する。一実施形態において、形状ベースニューラルネットワーク120はハードウェアで構成される。形状ベースニューラルネットワーク120は、ポイント変形ニューラルネットワーク140で用いられるランドマークポイントのセットを生成するために応答マップを使用する。一実施形態において、ポイント変形ニューラルネットワーク140はハードウェアで構成される。ポイント変形ニューラルネットワーク140は、画像の最適形状を生成するために、応答マップ及びランドマークポイントのセットを使用する。
図2を参照すると、図2にはシステム200が例示的に示されている。システム200は画像210を有する。画像210は4ステージ畳み込み構造220に入力される。4ステージ畳み込み構造220は4つのステージを有する。一実施形態において、4ステージの第1ステージ221は、複数のC&R64(以下、C&R64) 222及び複数のC&Rストライド(Stride)(以下、C&Rストライド)223を有する。C&R64 222は、複数の畳み込み層及び複数の正規化線形ユニット層(rectified linear unit layer)を有する。画像210は、その結果がC&Rストライド223へ送られる前に第1ステージ221のC&R64 222で処理される。C&Rストライド223は、その結果における画素をシフトさせる。画素シフトはストライド2とすればよい。
他の実施形態において、4ステージの第2ステージ224は、複数のC&R128(以下、C&R128) 225及び複数のC&Rストライド(以下、C&Rストライド)223を有する。C&R128 225は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第1ステージ221の結果は、その結果がC&Rストライド223へ送られる前に、第2ステージ224のC&R128 225で処理される。C&Rストライド223は、その結果における画素をシフトさせる。画素シフトはストライド2とすればよい。
さらなる他の実施形態において、4ステージの第3ステージ226は、複数のC&R256(以下、C&R256) 227及び複数のC&Rストライド(以下、C&Rストライド)223を有する。C&R256 227は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第2ステージ224の結果は、その結果がC&Rストライド223へ送られる前に、第3ステージ226の複数のC&R256 227で複数回処理される。C&Rストライド223は、その結果における画素をシフトさせる。画素シフトはストライド2とすればよい。
一実施形態において、4ステージの第4ステージ228は、複数のC&R512(以下、C&R512) 229及び複数のC&Rストライド(以下、C&Rストライド)223を有する。C&R512 229は、複数の畳み込み層及び複数の正規化線形ユニット層を有する。第3ステージ226の結果は、その結果がC&Rストライド223へ送られる前に、第4ステージ228の複数のC&R512 229で複数回処理される。C&Rストライド223は、その結果における画素をシフトさせる。画素シフトはストライド2とすればよい。
4ステージ畳み込み構造220は応答マップを生成する。一実施形態において、応答マップは512チャネルの7×7応答マップである。応答マップは形状ベースニューラルネットワーク230で処理される。一実施形態において、形状ベースニューラルネットワークは、定義済み形状ベース238を有する。他の実施形態において、形状ベースニューラルネットワーク230は1つまたは複数の全結合層(以下、全結合層)234を有する。ある全結合層234は応答マップから第1のベクトルを生成する。他の全結合層234は第1のベクトルから第2のベクトルを生成する。さらなる他の実施形態において、形状ベースニューラルネットワーク230は複数のランドマークポイントを生成するために、第2のベクトルと定義済み形状ベース238の内積を取得する。
複数のランドマークポイントは、ポイント変形ニューラルネットワーク240によって処理される。一実施形態において、ポイント変形ニューラルネットワーク240は、1つまたは複数の全結合層(以下、全結合層)234を有する。ある全結合層234は応答マップから第3のベクトルを生成する。他の全結合層234は第3のベクトルから第4のベクトルを生成する。他の実施形態において、ポイント変形ニューラルネットワーク240は薄板スプライン変換245を有する。ポイント変形ニューラルネットワーク240は、第4のベクトルから最適形状を生成し、薄板スプライン変換245で複数のランドマークポイントを生成する。
画像からの最適形状は認証システム250で処理される。一実施形態において、認証システム250は定義済みユーザ認証データベース255を有する。認証システム250は、画像の認証結果を生成するために、最適形状及び定義済みユーザ認証データベース255を用いる。認証システムは、認証結果に基づいてハードウェアベース機構360へ信号を送信する。一実施形態において、ハードウェアベース機構360は電子錠365で構成される。認証結果に基づいてハードウェアベース機構360へ送信された信号は電子錠365を解錠する。
図3を参照すると、ネットワークインタフェース300は、ネットワークを介して情報を交換する他のハードウェアに畳み込みニューラルネットワークシステム350を提供する。畳み込みニューラルネットワークシステム350は、ネットワーク310を通してサーバ320または複数のサーバ330と通信できる。畳み込みニューラルネットワークシステム350は、ネットワーク310を通して処理する画像340を取得できる。
図4を参照すると、図4には本発明の一実施形態による、ニューラルネットワークのノードを示す典型的なコンピュータシステム400が示されている。コンピュータシステム400は、システムバス402を介して他の構成要素が動作可能に接続された、少なくとも1つのプロセッサ(CPU)405を含む。システムバス402には、キャッシュ406、リードオンリメモリ(ROM)408、ランダムアクセスメモリ(RAM)410、入力/出力(I/O)アダプタ420、音声アダプタ430、ネットワークアダプタ440、ユーザインターフェースアダプタ450及びディスプレイアダプタ460が動作可能に接続されている。
第1の記憶デバイス422及び第2の記憶デバイス424は、I/Oアダプタ420によってシステムバス402に動作可能に接続されている。記憶デバイス422及び424は、ディスク記憶デバイス(例えば、磁気または光ディスク記憶デバイス)、固体磁気デバイス等のうちのいずれであってもよい。記憶デバイス422及び424は、同じタイプの記憶デバイスであってもよく、異なるタイプの記憶デバイスであってもよい。
スピーカ432は、音声アダプタ430によってシステムバス402に動作可能に接続されている。トランシーバ445は、ネットワークアダプタ440によってシステムバス402に動作可能に接続されている。ディスプレイデバイス462は、ディスプレイアダプタ460によってシステムバス402に動作可能に接続されている。
第1のユーザ入力デバイス452、第2のユーザ入力デバイス454及び第3のユーザ入力デバイス456は、ユーザインタフェースアダプタ450によってシステムバス402に動作可能に接続されている。ユーザ入力デバイス452、454及び456は、センサ、キーボード、マウス、キーパッド、イメージキャプチャデバイス、モーション感知デバイス、電力測定デバイス、マイクロフォン、あるいはこれらの装置のうちの少なくとも2つのデバイスの機能を組み込んだデバイス等のいずれであってもよい。もちろん、本発明の原理の趣旨を維持する限りにおいて、他のタイプの入力デバイスを使用することも可能である。ユーザ入力デバイス452、454及び456は、同じタイプのユーザ入力デバイスであってもよく、異なるタイプのユーザ入力デバイスであってもよい。ユーザ入力デバイス452、454及び456は、システム400に情報を入力し、システム400から情報を出力するために使用される。
もちろん、コンピュータシステム400は、当業者であれば容易に思いつくような他の要素(不図示)を含んでいてもよく、特定の要素を除いてもよい。例えば、当業者であれば容易に理解できるが、コンピュータシステム400には、その詳細な実装に応じて他の様々な入力デバイス及び/または出力デバイスを含むことができる。例えば、無線及び/または有線による種々の入力デバイス及び/または出力デバイスを使用できる。さらに、当業者であれば容易に理解できるが、様々な構成において追加のプロセッサ、コントローラ、メモリ等を用いることも可能である。コンピュータシステム400の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図5を参照すると、図5には本発明の一実施形態による、物体の姿勢を推定する方法500のフローチャートが示されている。ブロック510において、プロセッサにより、4ステージ畳み込み構造を用いて画像の応答マップを生成する。ブロック520において、プロセッサにより、形状ベースニューラルネットワークを用いて、応答マップに基づき画像の複数のランドマークポイントを生成する。ブロック530において、プロセッサにより、ポイント変形ニューラルネットワークを用いて、応答マップ及び画像の複数のランドマークポイントに基づき画像の最適形状を生成する。ブロック540において、認証システムにより、生成された最適形状に基づいて画像を識別し、画像の認証結果を生成する。ブロック550において、認証結果に基づいてハードウェアベース機構を動作させる。
上記は、あらゆる観点において説明的(illustrative)かつ典型的(exemplary)であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (21)

  1. 畳み込みニューラルネットワークを用いる方法であって、
    プロセッサにより、4ステージ畳み込み構造を用いて、画像の応答マップを生成し、
    前記プロセッサにより、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、
    前記プロセッサにより、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成し、
    認証システムにより、前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成し、
    前記認証結果に基づいてハードウェアベース機構を動作させる、方法。
  2. 前記ポイント変形ニューラルネットワークは、前記画像の前記複数のランドマークポイントに非線形変換を適用する、請求項1に記載の方法。
  3. 前記4ステージ畳み込み構造は、複数の畳み込み層及び複数の正規化線形ユニット層を有する、請求項1に記載の方法。
  4. 前記応答マップは、512チャネルの7×7応答マップである、請求項1に記載の方法。
  5. 前記ポイント変形ニューラルネットワークは、薄板スプライン(TPS)変換を用いて前記画像の前記複数のランドマークを変形させる、請求項1に記載の方法。
  6. 前記画像の前記複数のランドマークポイントの変形は、ポイントグリッド正則化法で制御することで制約されている、請求項5に記載の方法。
  7. 前記形状ベースニューラルネットワークは、前記画像の前記複数のランドマークの大域的幾何学の制約を適用する、請求項1に記載の方法。
  8. 前記形状ベースニューラルネットワーク及び前記ポイント変形ニューラルネットワークは、複数の同じ画像を用いて一緒に訓練される、請求項1に記載の方法。
  9. 前記画像の前記複数のランドマークポイントは、定義済み形状ベースの線形結合を有する、請求項1に記載の方法。
  10. 前記形状ベースニューラルネットワークは、前記応答マップに非線形変換を適用する、請求項1に記載の方法。
  11. 前記認証システムが、前記画像を捕捉するセキュリティシステムに含まれる、請求項1に記載の方法。
  12. 前記認証結果に基づいてハードウェアベース機構を動作させることは、画像内で表現及び認証されたユーザに、装置及び設備から成るグループから選択された項目に対するアクセスを許可するため、鍵の解錠機構を作動させることを含む、請求項1に記載の方法。
  13. 前記認証結果に基づいてハードウェアベース機構を動作させることは、ハードウェアベース機構によって、ユーザを装うリスクを軽減するためにハードウェアベース機構を停止することを含む、請求項1に記載の方法。
  14. 請求項1に記載された手順をコンピュータに実行させるためのコンピュータ可読プログラムを有形に包含する製造物の非一時的な製品。
  15. 4ステージ畳み込み構造を用いて、画像の応答マップを生成し、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成するように構成されたプロセッサと、
    前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成するように構成された認証システムと、
    を有し、
    前記プロセッサは、さらに前記認証結果に基づいてハードウェアベース機構を動作させるように構成されている、システム。
  16. 前記ポイント変形ニューラルネットワークは、前記画像の前記複数のランドマークポイントに非線形変換を適用する、請求項15に記載のシステム。
  17. 前記4ステージ畳み込み構造は、複数の畳み込み層及び複数の正規化線形ユニット層を有する、請求項15に記載のシステム。
  18. 前記ポイント変形ニューラルネットワークは、薄板スプライン(TPS)変換を用いて前記画像の前記複数のランドマークを変形させる、請求項15に記載のシステム。
  19. 前記形状ベースニューラルネットワークは、前記画像の前記複数のランドマークの大域的幾何学の制約を適用する、請求項15に記載のシステム。
  20. 前記画像の前記複数のランドマークポイントは、定義済み形状ベースの線形結合を有する、請求項15に記載のシステム。
  21. 4ステージ畳み込み構造を用いて、画像の応答マップを生成し、形状ベースニューラルネットワークを用いて、前記応答マップに基づいて前記画像の複数のランドマークポイントを生成し、ポイント変形ニューラルネットワークを用いて、前記応答マップ及び前記画像の複数のランドマークポイントに基づいて画像の最適形状を生成し、
    前記生成された最適形状に基づいて前記画像を識別し、前記画像の認証結果を生成するように構成された認証システムから得られる認証結果に基づいてハードウェアベース機構を動作させるように構成されたプロセッサを有する、プロセッサ構成。
JP2018548057A 2016-03-11 2017-02-22 物体ランドマーク検出のための深層変形ネットワーク Active JP6616017B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662306894P 2016-03-11 2016-03-11
US62/306,894 2016-03-11
US15/436,199 US10572777B2 (en) 2016-03-11 2017-02-17 Deep deformation network for object landmark localization
US15/436,199 2017-02-17
PCT/US2017/018839 WO2017155691A1 (en) 2016-03-11 2017-02-22 Deep deformation network for object landmark localization

Publications (2)

Publication Number Publication Date
JP2019507935A true JP2019507935A (ja) 2019-03-22
JP6616017B2 JP6616017B2 (ja) 2019-12-04

Family

ID=59786873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018548057A Active JP6616017B2 (ja) 2016-03-11 2017-02-22 物体ランドマーク検出のための深層変形ネットワーク

Country Status (3)

Country Link
US (1) US10572777B2 (ja)
JP (1) JP6616017B2 (ja)
WO (1) WO2017155691A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021210413A1 (ja) * 2020-04-17 2021-10-21
JPWO2021210414A1 (ja) * 2020-04-17 2021-10-21

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102808A (ja) * 2015-12-04 2017-06-08 ソニー株式会社 画像処理装置および方法
US10740596B2 (en) * 2016-11-08 2020-08-11 Nec Corporation Video security system using a Siamese reconstruction convolutional neural network for pose-invariant face recognition
JP6922284B2 (ja) * 2017-03-15 2021-08-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US10474908B2 (en) * 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation
CN107679490B (zh) * 2017-09-29 2019-06-28 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN107831765B (zh) * 2017-10-23 2021-07-13 广州视源电子科技股份有限公司 定位方法、装置、设备及存储介质
CN108021933B (zh) * 2017-11-23 2020-06-05 深圳市华尊科技股份有限公司 神经网络识别装置及识别方法
EP3495992A1 (en) * 2017-12-07 2019-06-12 IMRA Europe SAS Danger ranking using end to end deep neural network
US20200410210A1 (en) * 2018-03-12 2020-12-31 Carnegie Mellon University Pose invariant face recognition
US20210056292A1 (en) * 2018-05-17 2021-02-25 Hewlett-Packard Development Company, L.P. Image location identification
EP3791321A1 (en) * 2018-05-21 2021-03-17 Neurala, Inc. Systems and methods for deep neural networks on device learning (online and offline) with and without supervision
CN108803506A (zh) * 2018-05-22 2018-11-13 广东美的智能机器人有限公司 生产线工件识别方法、服务器及终端
WO2019232099A1 (en) * 2018-05-29 2019-12-05 Google Llc Neural architecture search for dense image prediction tasks
CN109190467A (zh) * 2018-07-26 2019-01-11 北京纵目安驰智能科技有限公司 一种基于关键点回归的多物体检测方法、系统、终端和存储介质
CN109271842A (zh) * 2018-07-26 2019-01-25 北京纵目安驰智能科技有限公司 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质
CN109272014B (zh) * 2018-08-03 2021-05-28 天津大学 一种基于畸变适应卷积神经网络的图像分类方法
CN109325945B (zh) * 2018-09-13 2021-01-08 北京旷视科技有限公司 图像处理方法、装置、电子设备及储存介质
CN111144560B (zh) * 2018-11-05 2024-02-02 杭州海康威视数字技术股份有限公司 一种深度神经网络运算方法及装置
FR3088467B1 (fr) * 2018-11-08 2022-11-04 Idemia Identity & Security France Procede de classification d'une image d'entree representative d'un trait biometrique au moyen d'un reseau de neurones a convolution
US11380003B2 (en) * 2019-06-25 2022-07-05 Black Sesame Technologies Inc. Monocular camera localization in large scale indoor sparse LiDAR point cloud
US20220147735A1 (en) * 2020-11-10 2022-05-12 Nec Laboratories America, Inc. Face-aware person re-identification system
WO2022191816A1 (en) * 2021-03-08 2022-09-15 Hewlett-Packard Development Company, L.P. Location identification with multiple images

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080260239A1 (en) * 2007-04-17 2008-10-23 Han Chin-Chuan Object image detection method
JP2009003659A (ja) * 2007-06-21 2009-01-08 Sony Corp 認証装置、入場管理装置、入退場管理装置、入場管理システム、入退場管理システム、これらの処理方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8174568B2 (en) * 2006-12-01 2012-05-08 Sri International Unified framework for precise vision-aided navigation
US8994499B2 (en) * 2011-03-16 2015-03-31 Apple Inc. Locking and unlocking a mobile device using facial recognition
US9489768B2 (en) * 2012-11-14 2016-11-08 Nec Corporation Semantic dense 3D reconstruction
WO2015180042A1 (en) * 2014-05-27 2015-12-03 Beijing Kuangshi Technology Co., Ltd. Learning deep face representation
CN105981041A (zh) * 2014-05-29 2016-09-28 北京旷视科技有限公司 使用粗到细级联神经网络的面部关键点定位

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080260239A1 (en) * 2007-04-17 2008-10-23 Han Chin-Chuan Object image detection method
JP2009003659A (ja) * 2007-06-21 2009-01-08 Sony Corp 認証装置、入場管理装置、入退場管理装置、入場管理システム、入退場管理システム、これらの処理方法およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021210413A1 (ja) * 2020-04-17 2021-10-21
JPWO2021210414A1 (ja) * 2020-04-17 2021-10-21
WO2021210414A1 (ja) * 2020-04-17 2021-10-21 株式会社Roxy 可視化方法、これに用いるプログラム、および、可視化装置、並びに、これを備える判別装置
WO2021210413A1 (ja) * 2020-04-17 2021-10-21 株式会社Roxy 判別対象の分類方法、これに用いるプログラム、および、判別装置
JP7309134B2 (ja) 2020-04-17 2023-07-18 株式会社Roxy 可視化方法、これに用いるプログラム、および、可視化装置、並びに、これを備える判別装置

Also Published As

Publication number Publication date
US10572777B2 (en) 2020-02-25
WO2017155691A1 (en) 2017-09-14
US20170262736A1 (en) 2017-09-14
JP6616017B2 (ja) 2019-12-04

Similar Documents

Publication Publication Date Title
JP6616017B2 (ja) 物体ランドマーク検出のための深層変形ネットワーク
Zhang et al. Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things
Dhiman et al. A review of state-of-the-art techniques for abnormal human activity recognition
Maiseli et al. Recent developments and trends in point set registration methods
Kang et al. Depth-adaptive deep neural network for semantic segmentation
Akinyelu et al. Convolutional neural network-based methods for eye gaze estimation: A survey
WO2017133009A1 (zh) 一种基于卷积神经网络的深度图像人体关节定位方法
Elgammal et al. Tracking people on a torus
Goulart et al. Visual and thermal image processing for facial specific landmark detection to infer emotions in a child-robot interaction
Shi et al. RoboCraft: Learning to see, simulate, and shape elasto-plastic objects in 3D with graph networks
Zeng et al. View-invariant gait recognition via deterministic learning
Eum et al. Continuous human action recognition using depth-MHI-HOG and a spotter model
JP2022510417A (ja) 関節のある身体姿勢を検出するシステムおよび方法
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
Sengan et al. Cost-effective and efficient 3D human model creation and re-identification application for human digital twins
US20240005650A1 (en) Representation learning
Mogan et al. Advances in vision-based gait recognition: From handcrafted to deep learning
Han et al. Research method of discontinuous-gait image recognition based on human skeleton keypoint extraction
Kareem et al. Using skeleton based optimized residual neural network architecture of deep learning for human fall detection
Dinh et al. Real-time 3D human pose recovery from a single depth image using principal direction analysis
Martis et al. Reckoning of emotions through recognition of posture features
Alavigharahbagh et al. Deep learning approach for human action recognition using a time saliency map based on motion features considering camera movement and shot in video image sequences
Shukla et al. Recurrent neural network based action recognition from 3D skeleton data
Polo-Rodríguez et al. Estimating frontal body landmarks from thermal sensors using residual neural networks
Felsberg et al. Computer Analysis of Images and Patterns: 17th International Conference, CAIP 2017, Ystad, Sweden, August 22-24, 2017, Proceedings, Part II

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191106

R150 Certificate of patent or registration of utility model

Ref document number: 6616017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350