JP2022532039A - 畳み込みニューラルネットワークベースのランドマークトラッカ - Google Patents
畳み込みニューラルネットワークベースのランドマークトラッカ Download PDFInfo
- Publication number
- JP2022532039A JP2022532039A JP2021563376A JP2021563376A JP2022532039A JP 2022532039 A JP2022532039 A JP 2022532039A JP 2021563376 A JP2021563376 A JP 2021563376A JP 2021563376 A JP2021563376 A JP 2021563376A JP 2022532039 A JP2022532039 A JP 2022532039A
- Authority
- JP
- Japan
- Prior art keywords
- image
- landmarks
- computing device
- initial
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 70
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000011176 pooling Methods 0.000 claims abstract description 10
- 238000004088 simulation Methods 0.000 claims abstract description 3
- 238000012545 processing Methods 0.000 claims description 48
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 6
- 230000001815 facial effect Effects 0.000 abstract description 4
- 239000002609 medium Substances 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000007792 addition Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000131971 Bradyrhizobiaceae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Chemical group 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000006163 transport media Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
1.1 <顔ランドマークアライメント>
顔ランドマークアライメントの問題は、古典的なコンピュータビジョンソリューションを用いた長い歴史を有する。例えば、高速アンサンブルツリーベース[4]アルゴリズムは妥当な精度を達成し、リアルタイム顔トラッキング[5]のために広く使用される。しかし、このような精度を達成するために必要なモデルサイズは非常に大きい。
畳み込みニューラルネットワークの性能をモバイルビジョンアプリケーションにもたらすために、MobileNetV2[10]、SqueezeNet[11]、及びShuffleNet[12]などの効率的なビルディングブロックを有する多数のアーキテクチャが最近リリースされた。これらのネットワークは、必要とされる学習可能パラメータの数(モデルサイズ)及び乗算加算からなる所与の演算バジェットの性能(例えば、分類精度)を最大化することを目的とする。
ヒートマップ回帰[15][16][17][18]に基づく完全畳み込みニューラルネットワークアーキテクチャは、人間の姿勢推定タスクに広く用いられている。ヒートマップの使用は、回路網の認識およびランドマーク回帰の信頼性に、視覚の直感的な手段と共に、高度の精度を提供する。この技術は、スタックドアワーグラスアーキテクチャ[3]のような最近の顔アライメントアルゴリズムにも用いられている。しかしながら、スタックドアワーグラスアプローチ[3]は、デコーデイングレイヤにおいて大量の演算を必要とする高分解能ヒートマップを使用する。ヒートマップは、画像全体の非常に集中して小さな部分にしか無視できない値がないため、ここでは最適化の余地がある。この観察はネットワークがその処理を関連領域(すなわち、関心のあるおおよその領域)に集中させることを可能にする領域処理を使用することを我々に動機付ける。
Fast R-CNN[19]、Faster R-CNN[20]および完全構成ネットワーク[21]のような、オブジェクト検出および意味的セグメンテーションに対して柔軟かつロバストな一連のフレームワークがある。Faster R-CNNは、バウンディングボックス回帰および分類を並列に実行するためにマルチブランチ設計を使用する。Mask-RCNN[22]はFaster-RCNNの拡張であり、各関心領域に基づいてセグメンテーションマスクを予測するための新しい分岐を追加する。特に興味深いのはMask-RCNNのRoIAlign[22](ここで、RoIは単語「関心領域」からのイニシャル)の使用であり、これは共有された畳み込み特徴から生成物を採取することによって、演算時間の有意な節約を可能にする。これを行うことによって、重複する関心領域に対する特徴を再演算することを回避する。
出力された顔の形状を有効に保つために、最終的な予測を返す前に検証ステップを実行してもよい。例えば、顔がない場合、顔の一部がある場合、顔が回転しすぎている場合などに、変な形状が返されるのを防ぐためである。顔の形状の標準参照を有するために、原理成分分析を使用して、トレーニングデータセットから最初の100の原理クラスタを得ることができる。変換された予測形状とクラスタ中心の1つとの間の最小距離を決定することができる。この最小距離は、予測された形状が有効であるかどうかを検証するためのスコアとして使用される。
以下は、本明細書に記載される特徴のいくつかである。
CNNモデルは図1に示すように、2段階を持ち、エンドトゥーエンドでトレーニングされる。図1は次元128×128×3(高さ、幅、および色)の入力レイヤ102(例えば、顔のランドマークの例のための顔を有する画像)から始まる出力ボリューム(特徴マップ)を有するレイヤおよび/またはブロックのフローを含むCNN100を示す。224×224×3のような他の次元を使用してもよい。次元は調整可能であってもよい。異なる目的のために、異なる次元(解像度)を使用することができる。
グランドトゥルースヒートマップに対しては、グランドトゥルースの座標の位置に対応するモードを持つGauss分布を用いた。x、yを特徴マップ内の任意のピクセルの座標で表すと、値は、以下の分布を使用して計算することができる。
損失関数は、ピクセルワイズシグモイドクロスエントロピー[23]を用いてヒートマップを学習する。
2.4.1 <反転残留ブロック>
図2を参照すると、実質的に参考文献[10]に従った反転残差ブロック200の一般的な展開が示されている。図2は、参考文献[10]がReLU6を用い、本例がReLUを用いる点で異なる。そのような一般的なアプローチはCNN100の反転残差ブロックに適用され得るが、いくつかの次元は異なり得る。
全てのRoIAlignクロップされた特徴を連結した後、チャネルの数は入力チャネルの数(例えば、16)にランドマークの数(#L)を乗算したものに等しい。各ランドマークのリファイメントヒートマップは独立して予測されるので、そのようなものは、図3が示すように、16チャネル単位の畳み込み[12]を使用して実施されてもよい。図3は、次元4×4×16*#Lを有するクロップされ連結された特徴(入力特徴マップ117A)の入力に作用するブロック117の拡張を示す。
いくつかの一般的な方法が、データ拡張を実行するために用いられる。例えば、入力画像のランダムな回転、シフト、水平方向のフリップなどが使用される。眼鏡や手のような一般的な妨害ケースを取り扱うためのモデルをより良く装備するために、これらの物体はまた、その中の顔の周りの写真にランダムに貼り付けられる。
新しいモデルではバッチサイズ8を使用し、SGDオプティマイザーではラーニングレート8e‐5、モーメンタム=0.9を使用した。新モデルを自社テストセット上で評価し、眼球中心間距離で正規化した距離誤差を計算した。第1段階の正規化誤差は3.35%であり、全モデルの誤差は2.89%である。iPhone(登録商標)7を搭載したウェブブラウザでの新モデルの実行時間は約40ms/フレームで、学習可能なパラメータは合計約300KBになる。
<参考文献(References)>
以下の参考文献は、参照により本明細書に組み込まれている。
[1]M.Kowalski,J.Naruniec,and T.Trzcinski,“Deep alignment network:A convolutional neural network for robust face alignment,”CoRR,vol.abs/1706.01789,2017.
[2]Y.Sun,X.Wang,and X.Tang,“Deep convolutional network cascade for facial point detection,”in2013 IEEE Conference on Computer Vision and Pattern Recognition,pp.3476-3483,June2013.
[3]K.Yuen and M.M.Trivedi,“An occluded stacked hourglass approach to facial landmark localization and occlusion estimation,”CoRR,vol.abs/1802.02137,2018.
[4]V.Kazemi and J.Sullivan,“One millisecond face alignment with an ensemble of regression trees,”2014 IEEE Conference on Computer Vision and Pattern Recognition, pp.1867-1874,2014.
[5]D.E.King,“Dlib-ml:A machine learning toolkit,”Journal of Machine Learning Research,vol.10,pp.1755-1758,2009.
[6]P.N.Belhumeur,D.W.Jacobs,D.J.Kriegman,and N.Kumar,“Localizing parts of faces using a consensus of exemplars,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.35,pp.2930-2940,Dec2013.
[7]V.Le,J.Brandt,Z.Lin,L.Bourdev,and T.S.Huang,“Interactive facial feature localization,”in Computer Vision-ECCV2012(A.Fitzgibbon,S.Lazebnik,P.Perona,Y.Sato,and C.Schmid,eds.),(Berlin,Heidelberg),pp.679-692,Springer Berlin Heidelberg,2012.
[8]G.Trigeorgis,P.Snape,M.A.Nicolaou,E.Antonakos,and S.Zafeiriou,“Mnemonic descent method:A recurrent process applied for end-to-end face alignment,”2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.4177-4187,2016.
[9]A.Newell,K.Yang,and J.Deng,“Stacked hourglass networks for human pose estimation,”CoRR,vol.abs/1603.06937,2016.
[10」M.Sandler,A.G.Howard,M.Zhu,A.Zhmoginov,and L.Chen,“MobileNetV2:Inverted residuals and linear bottlenecks:Mobile networks for classification,detection and segmentation,”CoRR,vol.abs/1801.04381,2018.
[11]F.N.Iandola,M.W.Moskewicz,K.Ashraf,S.Han,W.J.Dally,and K.Keutzer,“Squeezenet:Alexnet-level accuracy with 50x fewer parameters and <1mb model size,”CoRR,vol.abs/1602.07360,2016.
[12]X.Zhang,X.Zhou,M.Lin,and J.Sun,“Shufflenet:An extremely efficient convolutional neural network for mobile devices,”CoRR,vol.abs/1707.01083,2017.
[13]A.G.Howard,M.Zhu,B.Chen,D.Kalenichenko,W.Wang,T.Weyand,M.Andreetto,and H.Adam,“Mobilenets:Efficient convolutional neural networks for mobile vision applications,”CoRR,vol.abs/1704.04861,2017.
[14]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”CoRR,vol.abs/1512.03385,2015.
[15]A.Bulat and G.Tzimiropoulos,“Human pose estimation via convolutional part heat map regression,”CoRR,vol.abs/1609.01743,2016.
[16]S.Wei,V.Ramakrishna,T.Kanade,and Y.Sheikh,“Convolutional pose machines,”CoRR,vol.abs/1602.00134,2016.
[17]Y.Chen,C.Shen,X.Wei,L.Liu,and J.Yang,“Adversarial learning of structure-aware fully convolutional networks for landmark localization,”CoRR,vol.abs/1711.00253,2017.
[18]E.Insafutdinov,L.Pishchulin,B.Andres,M.Andriluka,and B.Schiele,“Deepercut:A deeper,stronger,and faster multi-person pose estimation model,”CoRR,vol.abs/1605.03170,2016.
[19]R.B.Girshick,“Fast R-CNN,”CoRR,vol.abs/1504.08083,2015.
[20]S.Ren,K.He,R.B.Girshick,and J.Sun,“Faster R-CNN:towards real-time object detection with region proposal networks,”CoRR,vol.abs/1506.01497,2015.
[21]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”CoRR,vol.abs/1411.4038,2014.
[22]K.He,G.Gkioxari,P.Dollar,and R.B.Girshick,“Mask R-CNN,”CoRR,vol.abs/1703.06870,2017.
[23]N.Zhang,E.Shelhamer,Y.Gao,and T.Darrell,“Fine-grained pose prediction,normalization,and recognition,”CoRR,vol.abs/1511.07063,2015.
Claims (43)
- 処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対して、それぞれのリファインメント位置オフセットを生成するコンピューティングデバイス。 - 前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測を生成するように初期ヒートマップを生成する請求項1記載のコンピューティングデバイス。
- 前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項1又は2に記載のコンピューティングデバイス。
- 前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について前記それぞれの位置を提供する請求項1から3のいずれかに記載のコンピューティングデバイス。
- 処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるコンピューティングデバイスであって、
第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
前記第1段階は、前記画像を受け取り、
前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
前記第2段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークについて、前記各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作するコンピューティングデバイス。 - 前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項5記載のコンピューティングデバイス。
- 前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む請求項1から6のいずれかに記載のコンピューティングデバイス。
- 前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、
前記クロップされた特徴を連結する請求項1から7のいずれかに記載のコンピューティングデバイス。 - 前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、
前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、
1×1カーネルによるグループ単位のチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、
前記それぞれのリファインメント位置オフセットの各々を出力する請求項1から8のいずれかに記載のコンピューティングデバイス。 - 前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項1から9のいずれかに記載のコンピューティングデバイス。
- 前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされる請求項1から12のいずれかに記載のコンピューティングデバイス。
- 前記損失関数は、距離損失L2をさらに含む請求項13記載のコンピューティングデバイス。
- 前記画像を受信し、前記画像上でランドマーク検出を実行するための命令を介して、さらに構成される請求項1から15のいずれかに記載のコンピューティングデバイス。
- 前記それぞれの位置を用いて、前記ランドマークのうちの少なくとも1つ又はその周辺で前記画像を修正するための命令を介して、さらに構成される請求項1から16のいずれかに記載のコンピューティングデバイス。
- 前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項17記載のコンピューティングデバイス。
- 前記画像はビデオ画像であり、前記コンピューティングデバイスは、前記命令を介して、仮想現実をシミュレートするために前記画像をリアルタイムで修正および提示するように構成される請求項17又は18に記載のコンピューティングデバイス。
- カメラをさらに含み、前記ビデオは、前記カメラによって撮影されたセルフィービデオである請求項19記載のコンピューティングデバイス。
- 前記ランドマークは顔のランドマークであり、前記画像は顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む請求項16から20のいずれかに記載のコンピューティングデバイス。
- 第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、
前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対してそれぞれのリファインメント位置オフセットを生成する方法。 - 前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測が生成するように初期ヒートマップを生成する請求項22記載の方法。
- 前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する請求項22又は23に記載の方法。
- 前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について、前記それぞれの位置を提供する請求項22から24のいずれかに記載の方法。
- 第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、
前記第1段階は、前記画像を受け取り、
前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、
前記第2段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する方法。 - 前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項26記載の方法。
- 前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む請求項22から27のいずれかに記載の方法。
- 前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、
前記クロップされた特徴を連結する請求項22から28のいずれかに記載の方法。 - 前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、
前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、
1×1カーネルによるグループごとのチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、
前記それぞれのリファインメント位置オフセットの各々を出力する請求項22から29のいずれかに記載の方法。 - 前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる請求項22から30のいずれかに記載の方法。
- 前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって規定される損失関数でトレーニングされる請求項22から33のいずれかに記載の方法。
- 前記損失関数は、距離損失L2をさらに含む請求項34記載の方法。
- 前記複数のランドマークのそれぞれの位置のうちの少なくとも1つ又はその周辺で前記画像を修正することをさらに含む請求項22から36のいずれかに記載の方法。
- 前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項37記載の方法。
- 前記画像がビデオ画像であり、前記方法が、仮想現実をシミュレートするためにリアルタイムで修正された前記画像を提示する請求項37又は38に記載の方法。
- カメラを有するパーソナルコンピューティングデバイス、好ましくはスマートフォン又はタブレットによって実行することをさらに含み、前記画像は、前記カメラによって撮影されたセルフィーである請求項37から39のいずれかに記載の方法。
- 前記ランドマークが顔のランドマークであり、前記画像が顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む請求項37から40のいずれかに記載の方法。
- 前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶する非一時記憶デバイスであって、
第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、
前記第1段階は、前記画像を受け取り、
前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、
前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、
前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記ランドマークの各々について前記それぞれの初期位置を受信し、
前記第2段階はさらに、
前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、
前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、
前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークの前記それぞれの初期位置についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する非一時記憶デバイス。 - 処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように前記画像を処理する畳み込みニューラルネットワーク(CNN)を介して構成されるコンピューティングデバイスであって、
前記CNNは、第1段階において、前記それぞれの位置の初期座標を決定するように第1のヒートマップを採用し、第2段階において、前記初期座標のリファインメントオフセットを決定するように第2のヒートマップを採用し、前記第2段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする2段階位置決めアーキテクチャを備え、
前記CNNはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされるコンピューティングデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962837386P | 2019-04-23 | 2019-04-23 | |
US62/837,386 | 2019-04-23 | ||
PCT/EP2020/061249 WO2020216804A1 (en) | 2019-04-23 | 2020-04-22 | Convolution neural network based landmark tracker |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022532039A true JP2022532039A (ja) | 2022-07-13 |
JPWO2020216804A5 JPWO2020216804A5 (ja) | 2022-12-27 |
JP7417631B2 JP7417631B2 (ja) | 2024-01-18 |
Family
ID=70465040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021563376A Active JP7417631B2 (ja) | 2019-04-23 | 2020-04-22 | 畳み込みニューラルネットワークベースのランドマークトラッカ |
Country Status (6)
Country | Link |
---|---|
US (2) | US11227145B2 (ja) |
EP (1) | EP3942462B1 (ja) |
JP (1) | JP7417631B2 (ja) |
KR (1) | KR20220064346A (ja) |
CN (1) | CN113906435A (ja) |
WO (1) | WO2020216804A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020248789A1 (en) * | 2019-06-11 | 2020-12-17 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for facial landmark detection using facial component-specific local refinement |
US20220067886A1 (en) * | 2020-09-01 | 2022-03-03 | Vingroup Joint Stock Company | Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same |
CN112597973A (zh) * | 2021-01-29 | 2021-04-02 | 秒影工场(北京)科技有限公司 | 一种基于卷积神经网络的高清视频人脸对齐的方法 |
WO2024039225A1 (en) * | 2022-08-18 | 2024-02-22 | Samsung Electronics Co., Ltd. | Method and electronic device of predicting next event in episode |
WO2024071587A1 (ko) * | 2022-09-29 | 2024-04-04 | 삼성전자 주식회사 | 객체를 추적하는 방법 및 전자 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019014646A1 (en) * | 2017-07-13 | 2019-01-17 | Shiseido Americas Corporation | REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING |
US20210056701A1 (en) * | 2019-08-19 | 2021-02-25 | Fotonation Limited | Method of image processing using a neural network |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6763781B2 (ja) * | 2014-05-30 | 2020-09-30 | ベンタナ メディカル システムズ, インコーポレイテッド | 複数の染色で染色されている生物組織サンプルから取得されるマルチチャネル画像を分析するための画像処理方法及びシステム |
CN108027972B (zh) * | 2015-07-30 | 2022-03-15 | 北京市商汤科技开发有限公司 | 用于对象跟踪的系统和方法 |
AU2016314704A1 (en) * | 2015-09-02 | 2018-02-22 | Providence Health & Services - Oregon | Image processing systems and methods for displaying multiple images of a biological specimen |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US10223788B2 (en) * | 2016-08-31 | 2019-03-05 | International Business Machines Corporation | Skin lesion segmentation using deep convolution networks guided by local unsupervised learning |
CN110168477B (zh) * | 2016-11-15 | 2022-07-08 | 奇跃公司 | 用于长方体检测的深度学习系统 |
US10366491B2 (en) * | 2017-03-08 | 2019-07-30 | Siemens Healthcare Gmbh | Deep image-to-image recurrent network with shape basis for automatic vertebra labeling in large-scale 3D CT volumes |
CN108549863B (zh) * | 2018-04-11 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 人体姿态预测方法、装置、设备及存储介质 |
CN110111313B (zh) * | 2019-04-22 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 基于深度学习的医学图像检测方法及相关设备 |
US11348246B2 (en) * | 2019-11-11 | 2022-05-31 | Adobe Inc. | Segmenting objects in vector graphics images |
-
2020
- 2020-04-22 KR KR1020217037037A patent/KR20220064346A/ko unknown
- 2020-04-22 EP EP20721519.5A patent/EP3942462B1/en active Active
- 2020-04-22 CN CN202080036825.2A patent/CN113906435A/zh active Pending
- 2020-04-22 JP JP2021563376A patent/JP7417631B2/ja active Active
- 2020-04-22 WO PCT/EP2020/061249 patent/WO2020216804A1/en unknown
- 2020-04-22 US US16/854,993 patent/US11227145B2/en active Active
-
2021
- 2021-11-17 US US17/528,294 patent/US20220075988A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019014646A1 (en) * | 2017-07-13 | 2019-01-17 | Shiseido Americas Corporation | REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING |
JP2020526809A (ja) * | 2017-07-13 | 2020-08-31 | シセイドウ アメリカズ コーポレイション | 仮想顔化粧の除去、高速顔検出およびランドマーク追跡 |
US20210056701A1 (en) * | 2019-08-19 | 2021-02-25 | Fotonation Limited | Method of image processing using a neural network |
Also Published As
Publication number | Publication date |
---|---|
KR20220064346A (ko) | 2022-05-18 |
US11227145B2 (en) | 2022-01-18 |
US20200342209A1 (en) | 2020-10-29 |
EP3942462A1 (en) | 2022-01-26 |
EP3942462C0 (en) | 2024-03-13 |
WO2020216804A1 (en) | 2020-10-29 |
JP7417631B2 (ja) | 2024-01-18 |
EP3942462B1 (en) | 2024-03-13 |
CN113906435A (zh) | 2022-01-07 |
US20220075988A1 (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7417631B2 (ja) | 畳み込みニューラルネットワークベースのランドマークトラッカ | |
US20210390653A1 (en) | Learning robotic tasks using one or more neural networks | |
CN110168477B (zh) | 用于长方体检测的深度学习系统 | |
JP7147078B2 (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN111985385A (zh) | 一种行为检测方法、装置及设备 | |
CN109272543B (zh) | 用于生成模型的方法和装置 | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
WO2020123263A1 (en) | Human pose estimation | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
US11954755B2 (en) | Image processing device and operation method thereof | |
CN112801265A (zh) | 一种机器学习方法以及装置 | |
Yang et al. | TGAN: A simple model update strategy for visual tracking via template-guidance attention network | |
Sanchez-Matilla et al. | Motion prediction for first-person vision multi-object tracking | |
JPWO2020216804A5 (ja) | ||
CN112686300B (zh) | 一种数据处理方法、装置及设备 | |
Walch et al. | Deep Learning for Image-Based Localization | |
US11636569B1 (en) | Matrix transpose hardware acceleration | |
CN115115851B (zh) | 一种商品姿态估计的方法、装置及存储介质 | |
US11606512B2 (en) | System and method for robust model-based camera tracking and image occlusion removal | |
Majcher et al. | 3D Model-Based 6D Object Pose Tracking on RGB Images | |
Fiaz et al. | Robust Tracking via Feature Enrichment and Overlap Maximization | |
Santavas et al. | Self-attention for 2D Hand Pose Estimation | |
Yan et al. | Light-Weight High-Performance HRNet for Human Pose Estimation | |
Ahmad et al. | Occlusion handling for augmented reality environment using neural network image segmentation: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7417631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |