JP2022532039A - 畳み込みニューラルネットワークベースのランドマークトラッカ - Google Patents

畳み込みニューラルネットワークベースのランドマークトラッカ Download PDF

Info

Publication number
JP2022532039A
JP2022532039A JP2021563376A JP2021563376A JP2022532039A JP 2022532039 A JP2022532039 A JP 2022532039A JP 2021563376 A JP2021563376 A JP 2021563376A JP 2021563376 A JP2021563376 A JP 2021563376A JP 2022532039 A JP2022532039 A JP 2022532039A
Authority
JP
Japan
Prior art keywords
image
landmarks
computing device
initial
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021563376A
Other languages
English (en)
Other versions
JP7417631B2 (ja
JPWO2020216804A5 (ja
Inventor
リ・ティアン・シン
ユー・チ
ケゼル・イリーナ
フォン・エドモンド
アーラビ・パラム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LOreal SA
Original Assignee
LOreal SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LOreal SA filed Critical LOreal SA
Publication of JP2022532039A publication Critical patent/JP2022532039A/ja
Publication of JPWO2020216804A5 publication Critical patent/JPWO2020216804A5/ja
Application granted granted Critical
Publication of JP7417631B2 publication Critical patent/JP7417631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

畳み込みニューラルネットワーク(CNN)を用いて顔のランドマークを検出するシステムおよび方法が提供される。CNNは第1段階と第2段階とを含み、第1段階は、ランドマークの初期ヒートマップと、ランドマークの初期位置と、を生成する。第2段階はヒートマップを処理し、クロップされた特徴を生成するために特徴アラインメントを保存しながら、関心領域ベースのプーリングを実行する。最後に、第2段階はクロップされた特徴から、それぞれの初期位置にオフセットされたそれぞれのリファインメント位置を予測する。それぞれの初期位置と、それぞれのリファインメント位置オフセットと、を組み合わせることにより、画像内のそれぞれのランドマークに対するそれぞれの最終座標(x,y)が得られる。このように、2段階位置決め設計を採用することで、演算効率を高めつつ、きめ細かなアライメントを実現する。このようにして得られたアーキテクチャは、サイズも推論時間も十分に小さく、製品シミュレーションや仮想現実などのリアルタイムウェブアプリケーションに適している。【選択図】図1

Description

本発明はコンピュータ及びコンピュータ処理、特に、画像処理およびニューラルネットワークの改良に関し、より詳細には、畳み込みニューラルネットワークベースのランドマークトラッカシステム及び方法に関する。
顔ランドマーク検出、画像内の人間の顔上の予め定義されたランドマークを見つける処理は、多くの画像処理/コンピュータビジョンアプリケーションにおいて一般的な要望である。実用的なアプリケーションを提供する関心のある画像処理アプリケーションは、とりわけ、顔認識、アニメーション、および拡張現実使用を含むことができる。拡張現実画像処理の一例は、個人に適用されるメイクアップまたは他の製品などの仮想試行アプリケーションである。仮想メイクアップ試行アプリケーションは、異なる照明、ポーズ、および顔の形状の変化の下で、正しい位置にメイクアップをレンダリングするように課せられる。特に、仮想試行アプリケーションで一般的に見られる正面顔ポーズのための正確なアライメントは、正確で心地よい体験を提供するために望ましい。さらに、クライアント側のウェブアプリケーションではロード時間が極めて重要であり、より大きなニューラルネットワークアーキテクチャの高速な実行に必要なGPUはそれほど効率的に利用することができない。
これらのリソース制約はリアルタイムアプリケーションのためのより良好なバランスをとるために、最新の顔アラインメントアーキテクチャ[1][2][3](それぞれ参照により本明細書に組み込まれる、以下の参考文献リストを参照されたい)にとって大きな関心事ではないが、理想的なアーキテクチャはアラインメント精度を維持または改善しながら、ロード時間および推論時間を最小限に抑えることが望ましい。
提案されたアーキテクチャでは、第1段階が初期予測を行い、そこから共有された畳み込み特徴のクロップが取られ、次に、これらの関心領域が第2段階によって処理されて、洗練された予測が生成される。この2段階位置決め設計は、残りの演算効率が良い一方で、きめ細かなアライメントを達成するのに役立つ。結果として得られるアーキテクチャは、リアルタイムウェブアプリケーションに適したロード時間および実行時間の両方が十分に小さい。
一態様では、処理ユニットと、それに結合された記憶デバイスと、処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスが提供される。コンピューティングデバイスは、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて画像を処理することを備える。第1段階は、それぞれの位置の初期予測を生成するように画像を処理し、第2段階は、第1段階によって画像から生成された中間的特徴と初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらにクロップされた特徴を処理して、それぞれの位置の初期予測に対して、それぞれのリファインメント位置オフセットを生成する。
一態様では、処理ユニットと、それに結合された記憶デバイスと、処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスが提供される。コンピューティングデバイスは、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて画像を処理することを備える。第1段階は、画像を受け取り、第1段階の第1部において、画像からの中間的特徴のボリュームを決定し、第1段階の第2部において、中間的特徴のボリュームを用いて画像内のランドマークの各々についてのそれぞれの初期位置を決定する。第2段階は、第2段階の第1部において、中間的特徴のボリュームを受信し、第2段階の第2部において、複数のランドマークの各々についてのそれぞれの初期位置を受信する。第2段階はさらに、中間的特徴をさらに洗練するようにボリュームの処理をすることと、複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして中間的特徴に対して実行することと、クロップされた特徴を用いて、各ランドマークについて、各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備える。処理は、複数のランドマークの各々の画像内の最終位置座標を決定するために、それぞれの初期位置の各々とそれぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する。
一態様では、コンピューティングデバイスは、処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように画像を処理する畳み込みニューラルネットワーク(CNN)を介して構成される。CNNは、第1段階において、それぞれの位置の初期座標を決定するように第1のヒートマップを採用し、第2段階において、初期座標のリファインメントオフセットを決定するように第2のヒートマップを採用する。第2段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする2段階位置決めアーキテクチャを備える。ここで、CNNはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされる。
方法、コンピュータプログラム製品、および他の態様は、当業者には明らかであろう。本明細書で使用されるコンピュータプログラム製品は、処理ユニットによって実行されるとき、コンピューティングデバイスを構成する命令を記憶する非一時的記憶デバイスを含む。
2段階CNNを示すネットワーク図である。 特徴マップ/ボリュームの反転残差ブロック図である。 図1のネットワークの第2段階の特徴マップ/ボリュームの予測ブロック図である。 オペレーションのフローチャートである。 オペレーションのフローチャートである。
本発明の概念は、添付の図面を参照し、本明細書で説明される特定の実施形態を通して最もよく説明され、ここで、同一の符号は全体を通して同一の特徴を指す。本明細書で使用される場合、「発明」という単語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することが意図されることを理解されたい。さらに、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明は、そのような観点から読まれるべきであることが理解されるべきである。2つ以上の発明概念が示され、説明されてもよく、それぞれは、別段の記載がない限り、独立のものであってもよく、又は1つ以上の他のものと組み合わされてもよい。
1. <コンテキスト>
1.1 <顔ランドマークアライメント>
顔ランドマークアライメントの問題は、古典的なコンピュータビジョンソリューションを用いた長い歴史を有する。例えば、高速アンサンブルツリーベース[4]アルゴリズムは妥当な精度を達成し、リアルタイム顔トラッキング[5]のために広く使用される。しかし、このような精度を達成するために必要なモデルサイズは非常に大きい。
顔ランドマークアライメントのための現在の最新の精度は、畳み込みニューラルネットワークに基づく方法によって達成される。非常に困難なデータセット[6][7][8]の精度を最大にするために、リアルタイムではなく、数十から数百メガバイト(MB)[3][9]のモデルサイズを有し、ウェブアプリケーションのための不合理なロード時間を伴う大きなニューラルネットワークが使用される。
1.2 <効率的なCNNアーキテクチャ>
畳み込みニューラルネットワークの性能をモバイルビジョンアプリケーションにもたらすために、MobileNetV2[10]、SqueezeNet[11]、及びShuffleNet[12]などの効率的なビルディングブロックを有する多数のアーキテクチャが最近リリースされた。これらのネットワークは、必要とされる学習可能パラメータの数(モデルサイズ)及び乗算加算からなる所与の演算バジェットの性能(例えば、分類精度)を最大化することを目的とする。
MobileNetV2に焦点が当てられ、その反転残差ブロックは、本設計の実装において用いられ得る。MobileNetV2が通常の畳み込みに対する深さ単位畳み込みを用いると、乗算加算および学習可能なパラメータの数が大幅に減少し、実行にわずかなコストがかかる[13]。さらに、ネットワーク表現性能を容量から分離することができるという原理に基づく反転設計は、ネットワーク内のクロスチャネル演算の数の大幅な削減を可能にする[10]。最後に、ResNet[14]から得られた残差設計は、より深いネットワークにおけるグラジェントプロパゲーションの問題を緩和する。
1.3 <ヒートマップ>
ヒートマップ回帰[15][16][17][18]に基づく完全畳み込みニューラルネットワークアーキテクチャは、人間の姿勢推定タスクに広く用いられている。ヒートマップの使用は、回路網の認識およびランドマーク回帰の信頼性に、視覚の直感的な手段と共に、高度の精度を提供する。この技術は、スタックドアワーグラスアーキテクチャ[3]のような最近の顔アライメントアルゴリズムにも用いられている。しかしながら、スタックドアワーグラスアプローチ[3]は、デコーデイングレイヤにおいて大量の演算を必要とする高分解能ヒートマップを使用する。ヒートマップは、画像全体の非常に集中して小さな部分にしか無視できない値がないため、ここでは最適化の余地がある。この観察はネットワークがその処理を関連領域(すなわち、関心のあるおおよその領域)に集中させることを可能にする領域処理を使用することを我々に動機付ける。
1.4 <Mask-RCNN>
Fast R-CNN[19]、Faster R-CNN[20]および完全構成ネットワーク[21]のような、オブジェクト検出および意味的セグメンテーションに対して柔軟かつロバストな一連のフレームワークがある。Faster R-CNNは、バウンディングボックス回帰および分類を並列に実行するためにマルチブランチ設計を使用する。Mask-RCNN[22]はFaster-RCNNの拡張であり、各関心領域に基づいてセグメンテーションマスクを予測するための新しい分岐を追加する。特に興味深いのはMask-RCNNのRoIAlign[22](ここで、RoIは単語「関心領域」からのイニシャル)の使用であり、これは共有された畳み込み特徴から生成物を採取することによって、演算時間の有意な節約を可能にする。これを行うことによって、重複する関心領域に対する特徴を再演算することを回避する。
1.5 <検証>
出力された顔の形状を有効に保つために、最終的な予測を返す前に検証ステップを実行してもよい。例えば、顔がない場合、顔の一部がある場合、顔が回転しすぎている場合などに、変な形状が返されるのを防ぐためである。顔の形状の標準参照を有するために、原理成分分析を使用して、トレーニングデータセットから最初の100の原理クラスタを得ることができる。変換された予測形状とクラスタ中心の1つとの間の最小距離を決定することができる。この最小距離は、予測された形状が有効であるかどうかを検証するためのスコアとして使用される。
2. <コンピューティングデバイス、システム、方法及びその他の側面>
以下は、本明細書に記載される特徴のいくつかである。
RoIAlign[22]は潜在的に重複する演算を節約し、ネットワークが非関連領域を回避することを可能にし、ネットワークに良好な共有される特徴を生成することを学習させるために、個々のランドマークごとに使用される。一例では、段階1からの8×8のヒートマップが(顔の)ランドマークの各々の座標を示す。これらのランドマークは、マスク平均法を使用することによって座標(x,y)を形成するように演算することができる。RoIAlignは、第1段階の予測座標を用いて、均一なサイズ4×4を有する中間的特徴マップをクロップする。例えば、正規化された座標において(0.5,0.5)に位置すると予測される第1のランドマークがあると仮定する。その後、32×32の特徴マップがクロップされる。クロップされた枠は[(14.0,14.0),(18.0,18.0)][top_left_corner,bottom_right_corner]になる。
補助座標回帰損失と共に提案した2段階位置決めアーキテクチャは、極端に小さく、演算的に安価なヒートマップを両段階で扱うことを可能にした。ヒートマップ損失と座標距離損失の2つの損失を組み合わせることができる。
2.1 <モデル構造>
CNNモデルは図1に示すように、2段階を持ち、エンドトゥーエンドでトレーニングされる。図1は次元128×128×3(高さ、幅、および色)の入力レイヤ102(例えば、顔のランドマークの例のための顔を有する画像)から始まる出力ボリューム(特徴マップ)を有するレイヤおよび/またはブロックのフローを含むCNN100を示す。224×224×3のような他の次元を使用してもよい。次元は調整可能であってもよい。異なる目的のために、異なる次元(解像度)を使用することができる。
フローは、第1段階104と第2段階106の2つの段階を含む。第1段階および第2段階のフローは、それぞれが第1部および第2部を有し、第1段階のレイヤ/ブロックおよび第2段階のレイヤ/ブロックを備えるレイヤおよび/またはブロックのそれぞれのグループに従って定義される。これらのレイヤ/ブロックのグループ(例えば、108,110,114,116)は当業者によって理解されるように、特徴マップ/ボリューム間の矢印によって表される。第1段階104は第1部にグループ108を、第2部にグループ110を含み、第2段階106は第1部にグループ114を、第2部にグループ116を含む。グループ108及び110はまた、第1段階の第1のグループ108及び第2のグループ110として参照されてもよい。グループ114及び116はまた、第2段階の第1グループ114及び第2グループ116として参照されてもよい。第1段階104はレイヤ112をさらに含み、第2段階106はレイヤ118をさらに含む。これらのレイヤ112および120はレイヤ120において組み合わされて、さらに説明されるように、CNN100の出力を提供する。
図1の網掛けの凡例は、CNN100のレイヤおよび/又はブロックのそれぞれについての処理オペレーションタイプを示す。さらに詳細には、グループ108が次元64×64×8の畳み込みレイヤ108Aと、それぞれ次元64×64×8及び32×32×8の反転残差ブロック108B及び108Cとを含む。それぞれのブロック又はレイヤの次元は、出力特徴マップのサイズを参照することが理解される。[10]による拡張反転残差ブロックの一般形を図2に示す。グループ110は、それぞれの次元16×16×16,8×8×32,8×8×32及び8×8×#Lの反転残差ブロック110A-110Dを含み、ここで、#L=複数のランドマークの数または数量である。トレーニングされ、試験されるとき、#L=16である。他のランドマーク数(サイズ)(例えば、#L)(例えば、65、86等)が実施されてもよい。#Lの値は調整可能であってもよい。グループ110に続くのはレイヤ112であり、次元#L×2のゲットマスク平均レイヤである。
グループ108の出力(例えば、118Cに続く)は、第1段階104の中間的特徴マップ(または中間的特徴のボリュームとして参照されることもある)であり、グループ114において第2段階106と共有される(例えば、入力)。グループ114は、それぞれの次元32×32×8,32×32×16及び32×32×16の反転残差ブロック114A-114Cを含む。
グループ114の出力(例えば、ブロック114A-114Cの処理によってさらに洗練された中間的特徴マップ)は、ランドマークの初期位置を表すレイヤ112の出力と共に、グループ116によって処理される。グループ116は、4×4×16の次元を有する#Lブロックの各々が連結されるとき、4×4×16#L出力特徴マップを与える#Lランドマークの各々に対して、#L RoI Crop+連結ブロック(ブロック116,116,・・・116#Lによって表される)を含む。連結された特徴マップは、次元4×4×#Lを有する予測ブロック117又はグループ116に提供される。予測ブロック117は、図3において拡張されている。
次に、予測ブロック117の出力は、次元#L×2の第2のゲットマスク平均レイヤであるレイヤ118に供給される。2つのレイヤ112及び118のそれぞれの出力は、#Lランドマークの初期位置およびそれに対するリファインメントオフセットを表す。これらは、組み合わされたときに、それぞれの#Lランドマークの各々について、入力レイヤ102に関して(x,y)座標が生成されるように、次元#L×2も有する出力レイヤ120に提供される。
したがって、第1段階104は、110Dまでに各顔ランドマークに1つずつ8×8のヒートマップを予測する一連の反転残差ブロックを示す。ヒートマップ上の正規化されたアクティブ化を確率分布として解釈し、これらのヒートマップの期待値を演算して、x,y座標を求める。これについては、以下でより詳細に説明する。
第2段階は、第1段階の一部から分岐するいくつかの共有レイヤ/ブロックを有する。前段階からの初期予測(ブロック114Cに続くグループ114によってさらに洗練されたブロック108Cに続くグループ108からの中間的特徴マップ)を用いて、RoIAlign[22]が最終的な共有された畳み込み特徴に適用される。クロップされた特徴の各々は、(予測ブロック117の)1つの最終畳み込みレイヤに入力され、個々のランドマークごとに個別の重みを有する。予測ブロック117は、グループ畳み込み[12]を利用して、これを簡単な方法で実施する。117における出力は、各ランドマークに対するヒートマップである。これらのヒートマップから得られた座標は、初期の「粗い」予測からの必要なオフセットを示している。すなわち、この段階でのヒートマップが完全に中央によせられていれば、実質的にリファイメントは必要ない。
グループ116によるこの関心領域ベースのプーリングは、112におけるマスク平均レイヤを110Dからの粗いヒートマップに適用することから導出される各ランドマークの座標[x_c,y_c]を有するクロップ中心として(レイヤ112からの)第1段階の予測を用いる。グループ116(予測ブロック117を介して)は、これらのクロップされた特徴(例えば、ブロック116,116,・・・116#Lからの連結された出力)を使用して、リファイメントオフセットを予測する(最初にヒートマップを予測し、次にリファイメントシフト距離[x_r,y_r]を得るようにマスク平均レイヤを用いる)。最終予測(出力レイヤ)は、第1段階からの粗い予測と第2段階からのリファイメント予測を加算する。
2.2 <ヒートマップからの座標回帰>
グランドトゥルースヒートマップに対しては、グランドトゥルースの座標の位置に対応するモードを持つGauss分布を用いた。x、yを特徴マップ内の任意のピクセルの座標で表すと、値は、以下の分布を使用して計算することができる。
Figure 2022532039000002
ここで、(x,y)は対応するランドマーク座標である。実験では、σ,σは、両方を0.8に構成する(例えば)。
ゲットマスク平均レイヤ(例えば、112と120の各々)に従って、回帰されたxpred,ypredは、その時、CNNによって予測されたヒートマップ(例えば、「予測ヒートマップ」)から計算された分布に従った、ピクセル位置の期待値である。予測ヒートマップのすべてのピクセルにわたってjインデックスを作成し、wは、そのピクセルのヒートマップ値を示す。
Figure 2022532039000003
2.3 <損失関数>
損失関数は、ピクセルワイズシグモイドクロスエントロピー[23]を用いてヒートマップを学習する。
さらに、境界付近のランドマークについてヒートマップがカットオフされる問題を軽減するために、距離損失Lが追加される。
Figure 2022532039000004
Figure 2022532039000005
ここで、
Figure 2022532039000006
は、nthサンプルのピクセル位置(i,j)における第l(エル)チャネルのヒートマップの予測値であり、一方、
Figure 2022532039000007
は、対応するグランドトゥルースである。
Figure 2022532039000008
は、数式4から計算されるピクセル位置(i,j)における重みであり、
Figure 2022532039000009
は、nth’サンプルのl(エル)thランドマークのグラウンドトゥルースの座標であり、
Figure 2022532039000010
は、同じランドマークの予測座標である。ここで、Lはランドマークの数であり、HおよびWはヒートマップの高さ及び幅(例えば、8×8)である。補助座標回帰損失は、(数式3)の2行目の平均二乗誤差損失である。組み合わされたピクセルワイズシグモイドクロスエントロピー損失およびL2損失を含む損失関数はそれぞれがトレーニング中にそれ自体の損失決定を有するように、それぞれの段階に適用される。上述したように、2つの段階の使用はより小さなヒートマップを容易にし、したがって、演算リソース消費を容易にする。
2.4 <ブロック>
2.4.1 <反転残留ブロック>
図2を参照すると、実質的に参考文献[10]に従った反転残差ブロック200の一般的な展開が示されている。図2は、参考文献[10]がReLU6を用い、本例がReLUを用いる点で異なる。そのような一般的なアプローチはCNN100の反転残差ブロックに適用され得るが、いくつかの次元は異なり得る。
実験的に、性能および効率の5つの最も適した競合するニーズの拡大比が見出された。
反転残差ブロック200の処理は、aからcの順番に実行される。a 1×1カーネルによるチャネル単位の畳み込み、それに続いて、次元H×W×Cを有する入力レイヤ202のBatchNorm及びReLUアクティブ化。ここで、Cは色自体ではなくチャネルを表す。出力は、次元H×W×C*5の特徴マップ204である。b 3×3カーネルを有する深さ単位の畳み込み、それに続いて、次元H×W×C*5を有する出力(特徴マップ)206を提供する特徴マップ204のBatchNormおよびReLUアクティブ化。c 1×1カーネルによるチャネル単位の畳み込み、それに続いて、次元H×W×Cを有する出力を提供するレイヤ202による加算演算を行う特徴マップ206上のBatchNorm。
2.4.2 <予測ブロック>
全てのRoIAlignクロップされた特徴を連結した後、チャネルの数は入力チャネルの数(例えば、16)にランドマークの数(#L)を乗算したものに等しい。各ランドマークのリファイメントヒートマップは独立して予測されるので、そのようなものは、図3が示すように、16チャネル単位の畳み込み[12]を使用して実施されてもよい。図3は、次元4×4×16*#Lを有するクロップされ連結された特徴(入力特徴マップ117A)の入力に作用するブロック117の拡張を示す。
予測ブロック117は、aからbの順番に実行する。a 3×3カーネルによるグループ単位の畳み込み、それに続いて、次元4×4×16*#Lを有する特徴マップ117Bを出力する入力特徴マップ117A上でBatchNormおよびReLUアクティブ化。b 1×1カーネルによるチャネル単位の畳み込み、それに続いて、次元4×4×#L(#Lランドマークの各々に対して4×4ヒートマップを定義する)のを有する特徴マップ117Cを出力するBatchNorm。
2.5 <データ拡張>
いくつかの一般的な方法が、データ拡張を実行するために用いられる。例えば、入力画像のランダムな回転、シフト、水平方向のフリップなどが使用される。眼鏡や手のような一般的な妨害ケースを取り扱うためのモデルをより良く装備するために、これらの物体はまた、その中の顔の周りの写真にランダムに貼り付けられる。
3. <結果と比較>
新しいモデルではバッチサイズ8を使用し、SGDオプティマイザーではラーニングレート8e‐5、モーメンタム=0.9を使用した。新モデルを自社テストセット上で評価し、眼球中心間距離で正規化した距離誤差を計算した。第1段階の正規化誤差は3.35%であり、全モデルの誤差は2.89%である。iPhone(登録商標)7を搭載したウェブブラウザでの新モデルの実行時間は約40ms/フレームで、学習可能なパラメータは合計約300KBになる。
表1及び表2は、より大きな社内モデルRFトラッカーとMobilenet_v2_0.35_128との比較を含む新モデルの比較データを示している。
Figure 2022532039000011
表1:自社製RFトラッカーと新モデルとの比較データ
Figure 2022532039000012
表2:MobilenetV2[10]と新モデルとの比較データ
図4及び図5は、コンピュータによって実施される方法の態様を示すオペレーションのフローチャートである。図4は、コンピュータ実装方法のオペレーション400を示す。402において、画像が処理のために受信される。画像は、セルフィー画像またはビデオベースのセルフィー画像とすることができる。画像は、本方法を実行するコンピューティングデバイス又はシステムの構成要素であるカメラから受信することができる。そのようなものは、モバイルデバイス、製品カウンターのキオスク(端末)、タブレットなどであってもよい。他のフォームファクタ、コンピューティングデバイス及びシステムは明らかであろう。ローカルコンピューティングデバイスがローカルカメラを介して画像を受信し、サービスとして実行するように構成されたリモートコンピューティングデバイスに画像を提供することができる、クラウド又は他のサービスベースのシステムを企図することができる。サービスは、ローカルコンピューティングデバイスのネイティブアプリケーション又はブラウザを介して提供されてもよい。
画像は、特定の次元に拡大縮小することなどによって前処理することができる(ステップ404)。406において、オペレーションは、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いることによって、複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理する。第1段階は、それぞれの位置の初期予測を生成するように画像を処理する。第2段階は、第1段階によって画像から生成された中間的特徴と初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらにクロップされた特徴を処理して、それぞれの位置の初期予測に対して、それぞれのリファインメント位置オフセットを生成する。
CNNは、それぞれの位置の初期予測とそれぞれのリファインメント位置オフセットとを組み合わせて、複数のランドマークの各々についてそれぞれの位置を提供することができる。ランドマークのそれぞれの位置は、初期予測をそれぞれのリファイメント位置オフセットと組み合わせることによって決定される最終位置を含んでもよく、または初期予測およびそれぞれのリファイメント位置オフセットを含む位置情報のセットを含んでもよい。位置情報は、その任意の形式で、ランドマーク位置の少なくとも1つで画像を修正するなどの使用のために提供されてもよい(ステップ408)。
CNNの第1段階は、中間的特徴を生成し、且つ、用いて、初期予測を生成するように初期ヒートマップを生成することができる。
第2段階は、ランドマークごとに、クロップされた特徴から第2のヒートマップを生成し、第2のヒートマップを用いて、それぞれのリファインメント位置オフセットを生成することができる。
図5は、コンピュータ実装方法のオペレーション500を示すフローチャートである。オペレーションは(例えば、図4に関連して、または他の方法で)本明細書で説明されるようなコンピューティングデバイス又はシステムによって実行され得る。ステップ502及び504は、ステップ402及び404と同様である。ステップ510は、画像が修正されるステップ408と同様である。
ステップ506は、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを示す。第1段階は、画像を受け取り、第1段階の第1部において、画像からの中間的特徴のボリュームを決定し、第1段階の第2部において、中間的特徴のボリュームを用いて画像内のランドマークの各々についてのそれぞれの初期位置を決定する。第2段階は、第2段階の第1部において、中間的特徴のボリュームを受信し、第2段階の第2部において、複数のランドマークの各々についてのそれぞれの初期位置を受信する。
第2段階はさらに、中間的特徴をさらに洗練するようにボリュームの処理をし、複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして中間的特徴に対して実行し、クロップされた特徴を用いて、各ランドマークに対して、各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定するように動作する。
オペレーション500はさらに、(例えば、508において)、複数のランドマークの各々の画像内の最終位置座標を決定するために、それぞれの初期位置の各々とそれぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作してもよい。
オペレーション500において、第1段階の第2部が中間的特徴のボリュームを使用して初期ヒートマップを決定し、初期ヒートマップを用いてランドマークの各々についてのそれぞれの初期位置の各々を予測してもよい。
図4又は図5のオペレーションでは、第1段階の少なくともいくつかは一連の反転残差ブロックを含み、第2段階の少なくともいくつかは一連の反転残差ブロックを含み得る。第2段階は、クロップされた特徴を生成するように特徴アラインメントを保存しながら、関心領域のプーリングのためのRoIAlignを用い、クロップされた特徴を連結することができる。
図4又は図5のオペレーションでは、第2段階は、クロップされた特徴を処理する予測ブロックを含むことができ、予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、1×1カーネルによるグループごとのチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、それぞれのリファインメント位置オフセットの各々を出力する。
図4又は図5のオペレーションでは、CNNモデルは、ガウス分布に従って定義された複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングすることができる。ガウス分布は、上述したように定義することができる。
オペレーション400又は500におけるCNNは、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされてもよい。損失関数は、距離損失Lをさらに含むことができる。損失関数は、上述したようなものであってもよい。
オペレーション400又は500において、画像を修正することは、画像に適用される製品をシミュレートすることを含み得る。画像は、ビデオ画像であってもよく、本方法は仮想現実をシミュレートするためにリアルタイムで修正された画像を提示してもよい。
オペレーション400又は500において、ランドマークは顔のランドマークであってもよく、画像は顔を含んでもよい。それぞれのオペレーションは、ランドマークのそれぞれの位置を用いて、少なくとも1つの製品シミュレーションで画像を更新することを含み得る。
コンピューティングデバイス(又はシステム)の態様および方法の態様に加えて、本明細書で開示される方法の態様のいずれかを実行するようにコンピューティングデバイスを構成するために、命令が非一時的記憶デバイス(たとえば、メモリ、CD-ROM、DVD-ROM、ディスクなど)に格納される、コンピュータプログラム製品の態様が開示されることを、当業者は理解するのであろう。
CNNは、画像のさらなる処理のためにそれぞれのランドマーク位置を提供することができることが理解されるのであろう。例えば、コンピューティングデバイスは、命令を介して画像を受信し、CNNを用いて画像上でランドマーク検出を実行するように構成され得る。
命令は、ランドマークのうちの少なくとも1つについての最終座標を用いて、ランドマークのうちの少なくとも1つ又はその周辺の画像を修正するようにコンピューティングデバイスを構成することができる。画像は例えば、境界ボックス又は領域を示す、マスクを示すなど、ランドマークの少なくとも1つにおいて、又はランドマークの周辺で、注釈付けされてもよい(修正の例)。画像を修正することは、画像に適用される製品をシミュレートすることを含み得る。製品は、画像が顔であり、ランドマークが顔のランドマークである場合のように、メイクアップ製品であってもよい。画像は、ビデオ画像であってもよく、コンピューティングデバイスは、仮想現実をシミュレートするために画像をリアルタイムで修正し提示するように命令を介して構成されてもよい。コンピューティングデバイスは、カメラをさらに含んでもよく、ビデオは、カメラによって撮影されたセルフィービデオであってもよい。
実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴、並びに様々な組み合わせは、方法、装置、システム、機能を実行するための手段、プログラム製品、及び、他の方法で、本明細書で説明される特徴を組み合わせて表され得る。多数の実施形態が記載されているが、本明細書で説明されるプロセス及び技術的思想および範囲から逸脱することなく、様々な修正を行うことができることが理解されるだろう。加えて、他のステップが提供されても良く、又は記載された方法からステップが排除されても良く、他の構成要素が記載されたシステムに対し、追加または除去されても良い。従って、他の態様は特許請求の範囲内にある。
上記の発明の実施形態が、少なくとも部分的に、汎用処理装置などのソフトウェア制御のプログラマブル処理装置を用いて実施可能である限りにおいて、この発明の実施形態は以下のとおりである。処理装置や特殊用途処理装置、デジタル信号処理装置、マイクロ処理装置、またはその他の処理装置、データ処理装置またはコンピュータシステムであることが理解される。前述した方法、装置およびシステムを実施するためにプログラマブルデバイス、装置またはシステムを構成するためのコンピュータプログラムは、本発明の一側面として想定されている。コンピュータプログラムは、ソースコード、オブジェクトコード、コンパイルコード、インタプリタコード、実行可能コード、静的コード、動的コードなど、任意の適切なタイプのコードとして具現化され得る。命令は、C、C++、Java(登録商標)、BASIC、Perl、Matlab(商標登録)、Pascal、Visual BASIC(登録商標)、JAVA(登録商標)、ActiveX(登録商標)、アセンブリ言語、マシンコードなどの任意の適切な高レベル、低レベル、オブジェクト指向、視覚、コンパイル及び/又は解釈プログラミング言語を使って実施されてもよい。当業者であれば、最も一般的な意味での「コンピュータ」という単語は、上記で言及したようなプログラマブルデバイス、およびデータ処理装置およびコンピュータシステム、例えば、デスクトップパソコン、ラップトップパソコン、タブレット、スマートフォン又は他のコンピューティングデバイスなど、それらが生じ得るあらゆる形式を包含することを容易に理解することができるであろう。
好適には、コンピュータプログラムは、機械可読形式でキャリア媒体に格納され、例えば、キャリア媒体は、メモリ、取り外し可能または非取り出し可能媒体、消去可能または非消去可能媒体、書き込み可能または再書き込み可能媒体、デジタル又はアナログ媒体、ハードディスク、フロッピーディスクで構成されてもよい。コンパクトディスクリードオンリーメモリ(CD-ROM)、コンパクトディスクレコーダブル(CD-R)、コンパクトディスクリライタブル(CD-RW)、光ディスク、磁気媒体、光磁気媒体、取り外し可能なメモリカードやディスク、様々な種類のデジタルバーサタイルディスク(DVD) 加入者識別モジュール、テープ、カセット 固体メモリなどである。コンピュータプログラムは、電子信号、無線周波数搬送波または光搬送波などの通信媒体に具現化されたリモートソースから供給されてもよい。このような搬送媒体も、本発明の態様として想定される。
本明細書の記載および特許請求の範囲を通して、単語「含む」及び「備える」及びそれらの変形表現は「含むがこれに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない(排除しない)。本明細書全体を通して、文脈が別途必要としない限り、単数は複数を包含する。特に、不定冠詞が使用されている場合、文脈上ほかに必要としない限り、単数だけでなく複数も意図していると理解されたい。
本発明の特定の態様、実施形態または例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと非互換でない限り、任意の他の態様、実施形態または例に適用可能であると理解されるべきである。本明細書に開示された特徴(添付の特許請求の範囲、要約書、及び、図面を含む)の全て、或いはそのように開示された任意の方法または処理のステップの全ては、そのような特徴或いはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約書、及び、図面を含む)に開示された特徴の任意の新規なもの、又は任意の新規な組み合わせ、又は開示された任意の手法または処理のステップの任意の新規なもの、又は任意の新規な組み合わせに拡張される。
本明細書で使用される場合、単語「含む」、「含んでいる」、「備え」、「有し」、「有している」またはその他の変形は、非排他的な包含をカバーすることを意図している。例えば、要素のリストから構成されるプロセス、方法、物品、または装置は、必ずしもそれらの要素のみに限定されず、明示的にリストされていない他の要素または当該プロセス、方法、物品、または装置に固有の要素を含んでもよい。さらに、明示的に反対を表明しない限り、「または」は包括的な「または」を指し、排他的な「または」を指さない。
さらに、「1つ」という語の使用は、本発明の要素および構成要素を説明するために採用される。これは単に便宜上、本発明の一般的な感覚を与えるために行われるものである。本明細書は、そうでないことを意味することが明らかでない限り、1つまたは少なくとも1つを含むように読まれるべきであり、単数形は複数形も含む。
前述の説明を考慮すると、当業者には、以下のことが明らかであろう。本発明の範囲内で様々な変更を加えることができる。
本開示の範囲は、請求された発明と関連するかどうか、または本発明によって対処される問題のいずれかまたはすべてに対して緩和するかどうかにかかわらず、それと矛盾しない限り、明示的または暗黙的にそこに開示された任意の新規な特徴または特徴の組み合わせ、あるいはその一般化を含む。本出願人は、本出願またはそこから派生するさらなる出願の審理中に、かかる特徴に対して新たな請求項を策定することができることをここに通知する。特に、添付の請求項を参照すると、従属請求項の特徴は、独立請求項の特徴と組み合わせてもよく、それぞれの独立請求項の特徴は、請求項に列挙された特定の組み合わせだけでなく、任意の適切な方法で組み合わせてもよい。
<参考文献(References)>
以下の参考文献は、参照により本明細書に組み込まれている。
[1]M.Kowalski,J.Naruniec,and T.Trzcinski,“Deep alignment network:A convolutional neural network for robust face alignment,”CoRR,vol.abs/1706.01789,2017.
[2]Y.Sun,X.Wang,and X.Tang,“Deep convolutional network cascade for facial point detection,”in2013 IEEE Conference on Computer Vision and Pattern Recognition,pp.3476-3483,June2013.
[3]K.Yuen and M.M.Trivedi,“An occluded stacked hourglass approach to facial landmark localization and occlusion estimation,”CoRR,vol.abs/1802.02137,2018.
[4]V.Kazemi and J.Sullivan,“One millisecond face alignment with an ensemble of regression trees,”2014 IEEE Conference on Computer Vision and Pattern Recognition, pp.1867-1874,2014.
[5]D.E.King,“Dlib-ml:A machine learning toolkit,”Journal of Machine Learning Research,vol.10,pp.1755-1758,2009.
[6]P.N.Belhumeur,D.W.Jacobs,D.J.Kriegman,and N.Kumar,“Localizing parts of faces using a consensus of exemplars,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.35,pp.2930-2940,Dec2013.
[7]V.Le,J.Brandt,Z.Lin,L.Bourdev,and T.S.Huang,“Interactive facial feature localization,”in Computer Vision-ECCV2012(A.Fitzgibbon,S.Lazebnik,P.Perona,Y.Sato,and C.Schmid,eds.),(Berlin,Heidelberg),pp.679-692,Springer Berlin Heidelberg,2012.
[8]G.Trigeorgis,P.Snape,M.A.Nicolaou,E.Antonakos,and S.Zafeiriou,“Mnemonic descent method:A recurrent process applied for end-to-end face alignment,”2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.4177-4187,2016.
[9]A.Newell,K.Yang,and J.Deng,“Stacked hourglass networks for human pose estimation,”CoRR,vol.abs/1603.06937,2016.
[10」M.Sandler,A.G.Howard,M.Zhu,A.Zhmoginov,and L.Chen,“MobileNetV2:Inverted residuals and linear bottlenecks:Mobile networks for classification,detection and segmentation,”CoRR,vol.abs/1801.04381,2018.
[11]F.N.Iandola,M.W.Moskewicz,K.Ashraf,S.Han,W.J.Dally,and K.Keutzer,“Squeezenet:Alexnet-level accuracy with 50x fewer parameters and <1mb model size,”CoRR,vol.abs/1602.07360,2016.
[12]X.Zhang,X.Zhou,M.Lin,and J.Sun,“Shufflenet:An extremely efficient convolutional neural network for mobile devices,”CoRR,vol.abs/1707.01083,2017.
[13]A.G.Howard,M.Zhu,B.Chen,D.Kalenichenko,W.Wang,T.Weyand,M.Andreetto,and H.Adam,“Mobilenets:Efficient convolutional neural networks for mobile vision applications,”CoRR,vol.abs/1704.04861,2017.
[14]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”CoRR,vol.abs/1512.03385,2015.
[15]A.Bulat and G.Tzimiropoulos,“Human pose estimation via convolutional part heat map regression,”CoRR,vol.abs/1609.01743,2016.
[16]S.Wei,V.Ramakrishna,T.Kanade,and Y.Sheikh,“Convolutional pose machines,”CoRR,vol.abs/1602.00134,2016.
[17]Y.Chen,C.Shen,X.Wei,L.Liu,and J.Yang,“Adversarial learning of structure-aware fully convolutional networks for landmark localization,”CoRR,vol.abs/1711.00253,2017.
[18]E.Insafutdinov,L.Pishchulin,B.Andres,M.Andriluka,and B.Schiele,“Deepercut:A deeper,stronger,and faster multi-person pose estimation model,”CoRR,vol.abs/1605.03170,2016.
[19]R.B.Girshick,“Fast R-CNN,”CoRR,vol.abs/1504.08083,2015.
[20]S.Ren,K.He,R.B.Girshick,and J.Sun,“Faster R-CNN:towards real-time object detection with region proposal networks,”CoRR,vol.abs/1506.01497,2015.
[21]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”CoRR,vol.abs/1411.4038,2014.
[22]K.He,G.Gkioxari,P.Dollar,and R.B.Girshick,“Mask R-CNN,”CoRR,vol.abs/1703.06870,2017.
[23]N.Zhang,E.Shelhamer,Y.Gao,and T.Darrell,“Fine-grained pose prediction,normalization,and recognition,”CoRR,vol.abs/1511.07063,2015.

Claims (43)

  1. 処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
    第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
    前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
    前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対して、それぞれのリファインメント位置オフセットを生成するコンピューティングデバイス。
  2. 前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測を生成するように初期ヒートマップを生成する請求項1記載のコンピューティングデバイス。
  3. 前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項1又は2に記載のコンピューティングデバイス。
  4. 前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について前記それぞれの位置を提供する請求項1から3のいずれかに記載のコンピューティングデバイス。
  5. 処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
    第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
    前記第1段階は、前記画像を受け取り、
    前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
    前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
    前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
    前記第2段階はさらに、
    前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
    前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
    前記クロップされた特徴を用いて、各ランドマークについて、前記各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備え、
    前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作するコンピューティングデバイス。
  6. 前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項5記載のコンピューティングデバイス。
  7. 前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む請求項1から6のいずれかに記載のコンピューティングデバイス。
  8. 前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、
    前記クロップされた特徴を連結する請求項1から7のいずれかに記載のコンピューティングデバイス。
  9. 前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、
    前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、
    1×1カーネルによるグループ単位のチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、
    前記それぞれのリファインメント位置オフセットの各々を出力する請求項1から8のいずれかに記載のコンピューティングデバイス。
  10. 前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項1から9のいずれかに記載のコンピューティングデバイス。
  11. 前記ガウス分布は、以下の数式1に従って定義され、
    x,yはトレーニング画像内の任意のピクセルの座標を示し、(x,y)は、対応するランドマーク座標である請求項10記載のコンピューティングデバイス。
    Figure 2022532039000013
  12. pred,ypred回帰は、以下の数式2のように、それぞれの予測されたヒートマップから計算された前記ガウス分布(数式1)による前記ピクセルの位置の期待値であって、
    jは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、wは、前記ピクセルのヒートマップ値を示す請求項11記載のコンピューティングデバイス。
    Figure 2022532039000014
  13. 前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされる請求項1から12のいずれかに記載のコンピューティングデバイス。
  14. 前記損失関数は、距離損失Lをさらに含む請求項13記載のコンピューティングデバイス。
  15. 前記損失関数は、以下の数式3および数式4で表され、
    Figure 2022532039000015
    Figure 2022532039000016
    Figure 2022532039000017
    は、nthサンプルのピクセル位置(i,j)における第lチャネルの前記ヒートマップの予測値であり、
    Figure 2022532039000018
    は、対応するグランドトゥルースであり、
    Figure 2022532039000019
    は、数式4から計算されるピクセル位置(i,j)の重みであって、
    Figure 2022532039000020
    は、nth’サンプルのlthランドマークの前記グランドトゥルースの座標であり、
    Figure 2022532039000021
    は、同じランドマークの予測座標である請求項13又は14に記載のコンピューティングデバイス。
  16. 前記画像を受信し、前記画像上でランドマーク検出を実行するための命令を介して、さらに構成される請求項1から15のいずれかに記載のコンピューティングデバイス。
  17. 前記それぞれの位置を用いて、前記ランドマークのうちの少なくとも1つ又はその周辺で前記画像を修正するための命令を介して、さらに構成される請求項1から16のいずれかに記載のコンピューティングデバイス。
  18. 前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項17記載のコンピューティングデバイス。
  19. 前記画像はビデオ画像であり、前記コンピューティングデバイスは、前記命令を介して、仮想現実をシミュレートするために前記画像をリアルタイムで修正および提示するように構成される請求項17又は18に記載のコンピューティングデバイス。
  20. カメラをさらに含み、前記ビデオは、前記カメラによって撮影されたセルフィービデオである請求項19記載のコンピューティングデバイス。
  21. 前記ランドマークは顔のランドマークであり、前記画像は顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む請求項16から20のいずれかに記載のコンピューティングデバイス。
  22. 第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
    前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
    前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対してそれぞれのリファインメント位置オフセットを生成する方法。
  23. 前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測が生成するように初期ヒートマップを生成する請求項22記載の方法。
  24. 前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項22又は23に記載の方法。
  25. 前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について、前記それぞれの位置を提供する請求項22から24のいずれかに記載の方法。
  26. 第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
    前記第1段階は、前記画像を受け取り、
    前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
    前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
    前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
    前記第2段階はさらに、
    前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
    前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
    前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
    前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する方法。
  27. 前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項26記載の方法。
  28. 前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む請求項22から27のいずれかに記載の方法。
  29. 前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、
    前記クロップされた特徴を連結する請求項22から28のいずれかに記載の方法。
  30. 前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、
    前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、
    1×1カーネルによるグループごとのチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、
    前記それぞれのリファインメント位置オフセットの各々を出力する請求項22から29のいずれかに記載の方法。
  31. 前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項22から30のいずれかに記載の方法。
  32. 前記ガウス分布は、以下の数式1に従って定義され、
    x,yはトレーニング画像内の任意のピクセルの座標を示し、(x,y)は、対応するランドマーク座標である請求項31記載の方法。
    Figure 2022532039000022
  33. pred,ypred回帰は、以下の数式2のように、それぞれの予測されたヒートマップから計算された前記ガウス分布(数式1)による前記ピクセルの位置の期待値であって、
    jは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、wは、前記ピクセルのヒートマップ値を示す請求項32記載の方法。
    Figure 2022532039000023
  34. 前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって規定される損失関数でトレーニングされる請求項22から33のいずれかに記載の方法。
  35. 前記損失関数は、距離損失Lをさらに含む請求項34記載の方法。
  36. 前記損失関数は、以下の数式3および数式4で表され、
    Figure 2022532039000024
    Figure 2022532039000025
    Figure 2022532039000026
    は、nthサンプルのピクセル位置(i,j)における第lチャネルの前記ヒートマップの予測値であり、
    Figure 2022532039000027
    は、対応するグランドトゥルースであり、
    Figure 2022532039000028
    は、数式4から計算されるピクセル位置(i,j)の重みであって、
    Figure 2022532039000029
    は、nth’サンプルのlthランドマークの前記グランドトゥルースの座標であり、
    Figure 2022532039000030
    は、同じランドマークの予測座標である請求項34又は35に記載の方法。
  37. 前記複数のランドマークのそれぞれの位置のうちの少なくとも1つ又はその周辺で前記画像を修正することをさらに含む請求項22から36のいずれかに記載の方法。
  38. 前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項37記載の方法。
  39. 前記画像がビデオ画像であり、前記方法が、仮想現実をシミュレートするためにリアルタイムで修正された前記画像を提示する請求項37又は38に記載の方法。
  40. カメラを有するパーソナルコンピューティングデバイス、好ましくはスマートフォン又はタブレットによって実行することをさらに含み、前記画像は、前記カメラによって撮影されたセルフィーである請求項37から39のいずれかに記載の方法。
  41. 前記ランドマークが顔のランドマークであり、前記画像が顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む請求項37から40のいずれかに記載の方法。
  42. 前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶する非一時記憶デバイスであって、
    第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
    前記第1段階は、前記画像を受け取り、
    前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
    前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
    前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記ランドマークの各々について前記それぞれの初期位置を受信し、
    前記第2段階はさらに、
    前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
    前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
    前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークの前記それぞれの初期位置についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
    前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する非一時記憶デバイス。
  43. 処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように前記画像を処理する畳み込みニューラルネットワーク(CNN)を介して構成されるコンピューティングデバイスであって、
    前記CNNは、第1段階において、前記それぞれの位置の初期座標を決定するように第1のヒートマップを採用し、第2段階において、前記初期座標のリファインメントオフセットを決定するように第2のヒートマップを採用し、前記第2段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする2段階位置決めアーキテクチャを備え、
    前記CNNはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされるコンピューティングデバイス。

JP2021563376A 2019-04-23 2020-04-22 畳み込みニューラルネットワークベースのランドマークトラッカ Active JP7417631B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962837386P 2019-04-23 2019-04-23
US62/837,386 2019-04-23
PCT/EP2020/061249 WO2020216804A1 (en) 2019-04-23 2020-04-22 Convolution neural network based landmark tracker

Publications (3)

Publication Number Publication Date
JP2022532039A true JP2022532039A (ja) 2022-07-13
JPWO2020216804A5 JPWO2020216804A5 (ja) 2022-12-27
JP7417631B2 JP7417631B2 (ja) 2024-01-18

Family

ID=70465040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021563376A Active JP7417631B2 (ja) 2019-04-23 2020-04-22 畳み込みニューラルネットワークベースのランドマークトラッカ

Country Status (6)

Country Link
US (2) US11227145B2 (ja)
EP (1) EP3942462B1 (ja)
JP (1) JP7417631B2 (ja)
KR (1) KR20220064346A (ja)
CN (1) CN113906435A (ja)
WO (1) WO2020216804A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248789A1 (en) * 2019-06-11 2020-12-17 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for facial landmark detection using facial component-specific local refinement
US20220067886A1 (en) * 2020-09-01 2022-03-03 Vingroup Joint Stock Company Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same
CN112597973A (zh) * 2021-01-29 2021-04-02 秒影工场(北京)科技有限公司 一种基于卷积神经网络的高清视频人脸对齐的方法
WO2024039225A1 (en) * 2022-08-18 2024-02-22 Samsung Electronics Co., Ltd. Method and electronic device of predicting next event in episode
WO2024071587A1 (ko) * 2022-09-29 2024-04-04 삼성전자 주식회사 객체를 추적하는 방법 및 전자 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014646A1 (en) * 2017-07-13 2019-01-17 Shiseido Americas Corporation REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING
US20210056701A1 (en) * 2019-08-19 2021-02-25 Fotonation Limited Method of image processing using a neural network

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6763781B2 (ja) * 2014-05-30 2020-09-30 ベンタナ メディカル システムズ, インコーポレイテッド 複数の染色で染色されている生物組織サンプルから取得されるマルチチャネル画像を分析するための画像処理方法及びシステム
CN108027972B (zh) * 2015-07-30 2022-03-15 北京市商汤科技开发有限公司 用于对象跟踪的系统和方法
AU2016314704A1 (en) * 2015-09-02 2018-02-22 Providence Health & Services - Oregon Image processing systems and methods for displaying multiple images of a biological specimen
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US10223788B2 (en) * 2016-08-31 2019-03-05 International Business Machines Corporation Skin lesion segmentation using deep convolution networks guided by local unsupervised learning
CN110168477B (zh) * 2016-11-15 2022-07-08 奇跃公司 用于长方体检测的深度学习系统
US10366491B2 (en) * 2017-03-08 2019-07-30 Siemens Healthcare Gmbh Deep image-to-image recurrent network with shape basis for automatic vertebra labeling in large-scale 3D CT volumes
CN108549863B (zh) * 2018-04-11 2019-11-26 腾讯科技(深圳)有限公司 人体姿态预测方法、装置、设备及存储介质
CN110111313B (zh) * 2019-04-22 2022-12-30 腾讯科技(深圳)有限公司 基于深度学习的医学图像检测方法及相关设备
US11348246B2 (en) * 2019-11-11 2022-05-31 Adobe Inc. Segmenting objects in vector graphics images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014646A1 (en) * 2017-07-13 2019-01-17 Shiseido Americas Corporation REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING
JP2020526809A (ja) * 2017-07-13 2020-08-31 シセイドウ アメリカズ コーポレイション 仮想顔化粧の除去、高速顔検出およびランドマーク追跡
US20210056701A1 (en) * 2019-08-19 2021-02-25 Fotonation Limited Method of image processing using a neural network

Also Published As

Publication number Publication date
KR20220064346A (ko) 2022-05-18
US11227145B2 (en) 2022-01-18
US20200342209A1 (en) 2020-10-29
EP3942462A1 (en) 2022-01-26
EP3942462C0 (en) 2024-03-13
WO2020216804A1 (en) 2020-10-29
JP7417631B2 (ja) 2024-01-18
EP3942462B1 (en) 2024-03-13
CN113906435A (zh) 2022-01-07
US20220075988A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
JP7417631B2 (ja) 畳み込みニューラルネットワークベースのランドマークトラッカ
US20210390653A1 (en) Learning robotic tasks using one or more neural networks
CN110168477B (zh) 用于长方体检测的深度学习系统
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
CN111985385A (zh) 一种行为检测方法、装置及设备
CN109272543B (zh) 用于生成模型的方法和装置
CN111104930B (zh) 视频处理方法、装置、电子设备及存储介质
WO2020123263A1 (en) Human pose estimation
CN109902588B (zh) 一种手势识别方法、装置及计算机可读存储介质
US11954755B2 (en) Image processing device and operation method thereof
CN112801265A (zh) 一种机器学习方法以及装置
Yang et al. TGAN: A simple model update strategy for visual tracking via template-guidance attention network
Sanchez-Matilla et al. Motion prediction for first-person vision multi-object tracking
JPWO2020216804A5 (ja)
CN112686300B (zh) 一种数据处理方法、装置及设备
Walch et al. Deep Learning for Image-Based Localization
US11636569B1 (en) Matrix transpose hardware acceleration
CN115115851B (zh) 一种商品姿态估计的方法、装置及存储介质
US11606512B2 (en) System and method for robust model-based camera tracking and image occlusion removal
Majcher et al. 3D Model-Based 6D Object Pose Tracking on RGB Images
Fiaz et al. Robust Tracking via Feature Enrichment and Overlap Maximization
Santavas et al. Self-attention for 2D Hand Pose Estimation
Yan et al. Light-Weight High-Performance HRNet for Human Pose Estimation
Ahmad et al. Occlusion handling for augmented reality environment using neural network image segmentation: A review

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7417631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150