JP7417631B2 - 畳み込みニューラルネットワークベースのランドマークトラッカ - Google Patents
畳み込みニューラルネットワークベースのランドマークトラッカ Download PDFInfo
- Publication number
- JP7417631B2 JP7417631B2 JP2021563376A JP2021563376A JP7417631B2 JP 7417631 B2 JP7417631 B2 JP 7417631B2 JP 2021563376 A JP2021563376 A JP 2021563376A JP 2021563376 A JP2021563376 A JP 2021563376A JP 7417631 B2 JP7417631 B2 JP 7417631B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- stage
- landmark
- features
- landmarks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims description 67
- 238000000034 method Methods 0.000 claims description 111
- 238000012545 processing Methods 0.000 claims description 50
- 230000001815 facial effect Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 31
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims 1
- 238000001994 activation Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Chemical group 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/143—Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
1.1 <顔ランドマークアライメント>
顔ランドマークアライメントの問題は、古典的なコンピュータビジョンソリューションを用いた長い歴史を有する。例えば、高速アンサンブルツリーベース[4]アルゴリズムは妥当な精度を達成し、リアルタイム顔トラッキング[5]のために広く使用される。しかし、このような精度を達成するために必要なモデルサイズは非常に大きい。
畳み込みニューラルネットワークの性能をモバイルビジョンアプリケーションにもたらすために、MobileNetV2[10]、SqueezeNet[11]、及びShuffleNet[12]などの効率的なビルディングブロックを有する多数のアーキテクチャが最近リリースされた。これらのネットワークは、必要とされる学習可能パラメータの数(モデルサイズ)及び乗算加算からなる所与の演算バジェットの性能(例えば、分類精度)を最大化することを目的とする。
ヒートマップ回帰[15][16][17][18]に基づく完全畳み込みニューラルネットワークアーキテクチャは、人間の姿勢推定タスクに広く用いられている。ヒートマップの使用は、回路網の認識およびランドマーク回帰の信頼性に、視覚の直感的な手段と共に、高度の精度を提供する。この技術は、スタックドアワーグラスアーキテクチャ[3]のような最近の顔アライメントアルゴリズムにも用いられている。しかしながら、スタックドアワーグラスアプローチ[3]は、デコーデイングレイヤにおいて大量の演算を必要とする高分解能ヒートマップを使用する。ヒートマップは、画像全体の非常に集中して小さな部分にしか無視できない値がないため、ここでは最適化の余地がある。この観察はネットワークがその処理を関連領域(すなわち、関心のあるおおよその領域)に集中させることを可能にする領域処理を使用することを我々に動機付ける。
Fast R-CNN[19]、Faster R-CNN[20]および完全構成ネットワーク[21]のような、オブジェクト検出および意味的セグメンテーションに対して柔軟かつロバストな一連のフレームワークがある。Faster R-CNNは、バウンディングボックス回帰および分類を並列に実行するためにマルチブランチ設計を使用する。Mask-RCNN[22]はFaster-RCNNの拡張であり、各関心領域に基づいてセグメンテーションマスクを予測するための新しい分岐を追加する。特に興味深いのはMask-RCNNのRoIAlign[22](ここで、RoIは単語「関心領域」からのイニシャル)の使用であり、これは共有された畳み込み特徴から生成物を採取することによって、演算時間の有意な節約を可能にする。これを行うことによって、重複する関心領域に対する特徴を再演算することを回避する。
出力された顔の形状を有効に保つために、最終的な予測を返す前に検証ステップを実行してもよい。例えば、顔がない場合、顔の一部がある場合、顔が回転しすぎている場合などに、変な形状が返されるのを防ぐためである。顔の形状の標準参照を有するために、原理成分分析を使用して、トレーニングデータセットから最初の100の原理クラスタを得ることができる。変換された予測形状とクラスタ中心の1つとの間の最小距離を決定することができる。この最小距離は、予測された形状が有効であるかどうかを検証するためのスコアとして使用される。
以下は、本明細書に記載される特徴のいくつかである。
CNNモデルは図1に示すように、2段階を持ち、エンドトゥーエンドでトレーニングされる。図1は次元128×128×3(高さ、幅、および色)の入力レイヤ102(例えば、顔のランドマークの例のための顔を有する画像)から始まる出力ボリューム(特徴マップ)を有するレイヤおよび/またはブロックのフローを含むCNN100を示す。224×224×3のような他の次元を使用してもよい。次元は調整可能であってもよい。異なる目的のために、異なる次元(解像度)を使用することができる。
グランドトゥルースヒートマップに対しては、グランドトゥルースの座標の位置に対応するモードを持つGauss分布を用いた。x、yを特徴マップ内の任意のピクセルの座標で表すと、値は、以下の分布を使用して計算することができる。
ここで、(xi,yi)は対応するランドマーク座標である。実験では、σx,σyは、両方を0.8に構成する(例えば)。
損失関数は、ピクセルワイズシグモイドクロスエントロピー[23]を用いてヒートマップを学習する。
ここで、
は、nthサンプルのピクセル位置(i,j)における第l(エル)チャネルのヒートマップの予測値であり、一方、
は、対応するグランドトゥルースである。
は、数式4から計算されるピクセル位置(i,j)における重みであり、
は、nth’サンプルのl(エル)thランドマークのグランドトゥルースの座標であり、
は、同じランドマークの予測座標である。ここで、Lはランドマークの数であり、HおよびWはヒートマップの高さ及び幅(例えば、8×8)である。補助座標回帰損失は、(数式3)の2行目の平均二乗誤差損失である。組み合わされたピクセルワイズシグモイドクロスエントロピー損失およびL2損失を含む損失関数はそれぞれがトレーニング中にそれ自体の損失決定を有するように、それぞれの段階に適用される。上述したように、2つの段階の使用はより小さなヒートマップを容易にし、したがって、演算リソース消費を容易にする。
2.4.1 <反転残差ブロック>
図2を参照すると、実質的に参考文献[10]に従った反転残差ブロック200の一般的な展開が示されている。図2は、参考文献[10]がReLU6を用い、本例がReLUを用いる点で異なる。そのような一般的なアプローチはCNN100の反転残差ブロックに適用され得るが、いくつかの次元は異なり得る。
全てのRoIAlignクロップされた特徴を連結した後、チャネルの数は入力チャネルの数(例えば、16)にランドマークの数(#L)を乗算したものに等しい。各ランドマークのリファインメントヒートマップは独立して予測されるので、そのようなものは、図3が示すように、16チャネル単位の畳み込み[12]を使用して実施されてもよい。図3は、次元4×4×16*#Lを有するクロップされ連結された特徴(入力特徴マップ117A)の入力に作用するブロック117の拡張を示す。
いくつかの一般的な方法が、データ拡張を実行するために用いられる。例えば、入力画像のランダムな回転、シフト、水平方向のフリップなどが使用される。眼鏡や手のような一般的な妨害ケースを取り扱うためのモデルをより良く装備するために、これらの物体はまた、その中の顔の周りの写真にランダムに貼り付けられる。
新しいモデルではバッチサイズ8を使用し、SGDオプティマイザーではラーニングレート8e‐5、モーメンタム=0.9を使用した。新モデルを自社テストセット上で評価し、眼球中心間距離で正規化した距離誤差を計算した。第1段階の正規化誤差は3.35%であり、全モデルの誤差は2.89%である。iPhone(登録商標)7を搭載したウェブブラウザでの新モデルの実行時間は約40ms/フレームで、学習可能なパラメータは合計約300KBになる。
<参考文献(References)>
以下の参考文献は、参照により本明細書に組み込まれている。
[1]M.Kowalski,J.Naruniec,and T.Trzcinski,“Deep alignment network:A convolutional neural network for robust face alignment,”CoRR,vol.abs/1706.01789,2017.
[2]Y.Sun,X.Wang,and X.Tang,“Deep convolutional network cascade for facial point detection,”in2013 IEEE Conference on Computer Vision and Pattern Recognition,pp.3476-3483,June2013.
[3]K.Yuen and M.M.Trivedi,“An occluded stacked hourglass approach to facial landmark localization and occlusion estimation,”CoRR,vol.abs/1802.02137,2018.
[4]V.Kazemi and J.Sullivan,“One millisecond face alignment with an ensemble of regression trees,”2014 IEEE Conference on Computer Vision and Pattern Recognition, pp.1867-1874,2014.
[5]D.E.King,“Dlib-ml:A machine learning toolkit,”Journal of Machine Learning Research,vol.10,pp.1755-1758,2009.
[6]P.N.Belhumeur,D.W.Jacobs,D.J.Kriegman,and N.Kumar,“Localizing parts of faces using a consensus of exemplars,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.35,pp.2930-2940,Dec2013.
[7]V.Le,J.Brandt,Z.Lin,L.Bourdev,and T.S.Huang,“Interactive facial feature localization,”in Computer Vision-ECCV2012(A.Fitzgibbon,S.Lazebnik,P.Perona,Y.Sato,and C.Schmid,eds.),(Berlin,Heidelberg),pp.679-692,Springer Berlin Heidelberg,2012.
[8]G.Trigeorgis,P.Snape,M.A.Nicolaou,E.Antonakos,and S.Zafeiriou,“Mnemonic descent method:A recurrent process applied for end-to-end face alignment,”2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),pp.4177-4187,2016.
[9]A.Newell,K.Yang,and J.Deng,“Stacked hourglass networks for human pose estimation,”CoRR,vol.abs/1603.06937,2016.
[10」M.Sandler,A.G.Howard,M.Zhu,A.Zhmoginov,and L.Chen,“MobileNetV2:Inverted residuals and linear bottlenecks:Mobile networks for classification,detection and segmentation,”CoRR,vol.abs/1801.04381,2018.
[11]F.N.Iandola,M.W.Moskewicz,K.Ashraf,S.Han,W.J.Dally,and K.Keutzer,“Squeezenet:Alexnet-level accuracy with 50x fewer parameters and <1mb model size,”CoRR,vol.abs/1602.07360,2016.
[12]X.Zhang,X.Zhou,M.Lin,and J.Sun,“Shufflenet:An extremely efficient convolutional neural network for mobile devices,”CoRR,vol.abs/1707.01083,2017.
[13]A.G.Howard,M.Zhu,B.Chen,D.Kalenichenko,W.Wang,T.Weyand,M.Andreetto,and H.Adam,“Mobilenets:Efficient convolutional neural networks for mobile vision applications,”CoRR,vol.abs/1704.04861,2017.
[14]K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”CoRR,vol.abs/1512.03385,2015.
[15]A.Bulat and G.Tzimiropoulos,“Human pose estimation via convolutional part heat map regression,”CoRR,vol.abs/1609.01743,2016.
[16]S.Wei,V.Ramakrishna,T.Kanade,and Y.Sheikh,“Convolutional pose machines,”CoRR,vol.abs/1602.00134,2016.
[17]Y.Chen,C.Shen,X.Wei,L.Liu,and J.Yang,“Adversarial learning of structure-aware fully convolutional networks for landmark localization,”CoRR,vol.abs/1711.00253,2017.
[18]E.Insafutdinov,L.Pishchulin,B.Andres,M.Andriluka,and B.Schiele,“Deepercut:A deeper,stronger,and faster multi-person pose estimation model,”CoRR,vol.abs/1605.03170,2016.
[19]R.B.Girshick,“Fast R-CNN,”CoRR,vol.abs/1504.08083,2015.
[20]S.Ren,K.He,R.B.Girshick,and J.Sun,“Faster R-CNN:towards real-time object detection with region proposal networks,”CoRR,vol.abs/1506.01497,2015.
[21]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networks for semantic segmentation,”CoRR,vol.abs/1411.4038,2014.
[22]K.He,G.Gkioxari,P.Dollar,and R.B.Girshick,“Mask R-CNN,”CoRR,vol.abs/1703.06870,2017.
[23]N.Zhang,E.Shelhamer,Y.Gao,and T.Darrell,“Fine-grained pose prediction,normalization,and recognition,”CoRR,vol.abs/1511.07063,2015.
<その他>
<手段>
技術的思想1のコンピューティングデバイスは、処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるものであって、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対して、それぞれのリファインメント位置オフセットを生成する。
技術的思想2のコンピューティングデバイスは、技術的思想1記載のコンピューティングデバイスにおいて、前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測を生成するように初期ヒートマップを生成する。
技術的思想3のコンピューティングデバイスは、技術的思想1又は2に記載のコンピューティングデバイスにおいて、前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する。
技術的思想4のコンピューティングデバイスは、技術的思想1から3のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について前記それぞれの位置を提供する。
技術的思想5のコンピューティングデバイスは、処理ユニットと、それに結合された記憶デバイスと、前記処理ユニットによって実行されたときに、複数のランドマークの各々に対してそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶している記憶ユニットと、を備えるものであって、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、前記第1段階は、前記画像を受け取り、前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、前記第2段階はさらに、前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、前記クロップされた特徴を用いて、各ランドマークについて、前記各ランドマークのそれぞれの初期位置の各々に対する、それぞれのリファインメント位置オフセットを決定することと、を備え、前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する。
技術的思想6のコンピューティングデバイスは、技術的思想5記載のコンピューティングデバイスにおいて、前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する。
技術的思想7のコンピューティングデバイスは、技術的思想1から6のいずれかに記載のコンピューティングデバイスにおいて、前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む。
技術的思想8のコンピューティングデバイスは、技術的思想1から7のいずれかに記載のコンピューティングデバイスにおいて、前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、前記クロップされた特徴を連結する。
技術的思想9のコンピューティングデバイスは、技術的思想1から8のいずれかに記載のコンピューティングデバイスにおいて、前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、1×1カーネルによるグループ単位のチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、前記それぞれのリファインメント位置オフセットの各々を出力する。
技術的思想10のコンピューティングデバイスは、技術的思想1から9のいずれかに記載のコンピューティングデバイスにおいて、前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる。
技術的思想11のコンピューティングデバイスは、技術的思想10記載のコンピューティングデバイスにおいて、前記ガウス分布は、以下の数式1に従って定義され、
x,yはトレーニング画像内の任意のピクセルの座標を示し、(x i ,y i )は、対応するランドマーク座標である。
技術的思想12のコンピューティングデバイスは、技術的思想11記載のコンピューティングデバイスにおいて、x pred ,y pred 回帰は、以下の数式2のように、それぞれの予測されたヒートマップから計算された前記ガウス分布(数式1)による前記ピクセルの位置の期待値であって、jは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、w j は、前記ピクセルのヒートマップ値を示す。
技術的思想13のコンピューティングデバイスは、技術的思想1から12のいずれかに記載のコンピューティングデバイスにおいて、前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって定義される損失関数でトレーニングされる。
技術的思想14のコンピューティングデバイスは、技術的思想13記載のコンピューティングデバイスにおいて、前記損失関数は、距離損失L 2 をさらに含む。
技術的思想15のコンピューティングデバイスは、技術的思想13又は14に記載のコンピューティングデバイスにおいて、前記損失関数は、以下の数式3および数式4で表され、
は、n th サンプルのピクセル位置(i,j)における第lチャネルの前記ヒートマップの予測値であり、
は、対応するグランドトゥルースであり、
は、数式4から計算されるピクセル位置(i,j)の重みであって、
は、n th’ サンプルのl th ランドマークの前記グランドトゥルースの座標であり、
は、同じランドマークの予測座標である。
技術的思想16のコンピューティングデバイスは、技術的思想1から15のいずれかに記載のコンピューティングデバイスにおいて、前記画像を受信し、前記画像上でランドマーク検出を実行するための命令を介して、さらに構成される。
技術的思想17のコンピューティングデバイスは、技術的思想1から16のいずれかに記載のコンピューティングデバイスにおいて、前記それぞれの位置を用いて、前記ランドマークのうちの少なくとも1つ又はその周辺で前記画像を修正するための命令を介して、さらに構成される。
技術的思想18のコンピューティングデバイスは、技術的思想17記載のコンピューティングデバイスにおいて、前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む。
技術的思想19のコンピューティングデバイスは、技術的思想17又は18に記載のコンピューティングデバイスにおいて、前記画像はビデオ画像であり、前記コンピューティングデバイスは、前記命令を介して、仮想現実をシミュレートするために前記画像をリアルタイムで修正および提示するように構成される。
技術的思想20のコンピューティングデバイスは、技術的思想19記載のコンピューティングデバイスにおいて、カメラをさらに含み、前記ビデオは、前記カメラによって撮影されたセルフィービデオである。
技術的思想21のコンピューティングデバイスは、技術的思想16から20のいずれかに記載のコンピューティングデバイスにおいて、前記ランドマークは顔のランドマークであり、前記画像は顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む。
技術的思想22の方法は、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、前記第1段階は、前記それぞれの位置の初期予測を生成するように前記画像を処理し、前記第2段階は、前記第1段階によって前記画像から生成された中間的特徴と前記初期予測とを用いて、関心領域に対する共有された畳み込み特徴のクロップを生成してクロップされた特徴を定義し、さらに前記クロップされた特徴を処理して、前記それぞれの位置の前記初期予測に対してそれぞれのリファインメント位置オフセットを生成する。
技術的思想23の方法は、技術的思想22記載の方法において、前記第1段階は、前記中間的特徴を生成し、且つ、用いて、前記初期予測が生成するように初期ヒートマップを生成する。
技術的思想24の方法は、技術的思想22又は23に記載の方法において、前記第2段階は、ランドマークごとに、前記クロップされた特徴から第2のヒートマップを生成し、前記第2のヒートマップを用いて前記それぞれのリファインメント位置オフセットを生成する。
技術的思想25の方法は、技術的思想22から24のいずれかに記載の方法において、前記CNNは、前記それぞれの位置の前記初期予測と、前記それぞれのリファインメント位置オフセットとを組み合わせて、前記複数のランドマークの各々について、前記それぞれの位置を提供する。
技術的思想26の方法は、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数のランドマークの各々についてそれぞれの位置を決定するように画像を処理することを備え、前記第1段階は、前記画像を受け取り、前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記複数のランドマークの各々についての前記それぞれの初期位置を受信し、前記第2段階はさらに、前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する。
技術的思想27の方法は、技術的思想26記載の方法において、前記第1段階の第2部が前記中間的特徴のボリュームを使用して初期ヒートマップを決定し、前記初期ヒートマップを用いて前記ランドマークの各々についてのそれぞれの初期位置の各々を予測する。
技術的思想28の方法は、技術的思想22から27のいずれかに記載の方法において、前記第1段階の少なくともいくつかは一連の反転残差ブロックを含み、前記第2段階の少なくともいくつかは一連の反転残差ブロックを含む。
技術的思想29の方法は、技術的思想22から28のいずれかに記載の方法において、前記第2段階は、前記クロップされた特徴を生成するように特徴アラインメントを保存しながら、前記関心領域のプーリングのためのRoIAlignを用い、前記クロップされた特徴を連結する。
技術的思想30の方法は、技術的思想22から29のいずれかに記載の方法において、前記第2段階は、前記クロップされた特徴を処理する予測ブロックを含み、前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、1×1カーネルによるグループごとのチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、前記それぞれのリファインメント位置オフセットの各々を出力する。
技術的思想31の方法は、技術的思想22から30のいずれかに記載の方法において、前記CNNモデルは、ガウス分布に従って定義された前記複数のランドマークのそれぞれのランドマークについて、グラウンドトゥルースヒートマップを有するそれぞれのトレーニング画像を用いて、前記それぞれのトレーニング画像内の前記グラウンドトゥルースヒートマップのそれぞれの座標位置に対応するモードでトレーニングされる。
技術的思想32の方法は、技術的思想31記載の方法において、前記ガウス分布は、以下の数式1に従って定義され、x,yはトレーニング画像内の任意のピクセルの座標を示し、(x i ,y i )は、対応するランドマーク座標である。
技術的思想33の方法は、技術的思想32記載の方法において、x pred ,y pred 回帰は、以下の数式2のように、それぞれの予測されたヒートマップから計算された前記ガウス分布(数式1)による前記ピクセルの位置の期待値であって、jは、それぞれのヒートマップ内のすべての前記ピクセルにわたるインデックスであり、w j は、前記ピクセルのヒートマップ値を示す。
技術的思想34の方法は、技術的思想22から33のいずれかに記載の方法において、前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって規定される損失関数でトレーニングされる。
技術的思想35の方法は、技術的思想34記載の方法において、前記損失関数は、距離損失L 2 をさらに含む。
技術的思想36の方法は、技術的思想34又は35に記載の方法において、前記損失関数は、以下の数式3および数式4で表され、
は、n th サンプルのピクセル位置(i,j)における第lチャネルの前記ヒートマップの予測値であり、
は、対応するグランドトゥルースであり、
は、数式4から計算されるピクセル位置(i,j)の重みであって、
は、n th’ サンプルのl th ランドマークの前記グランドトゥルースの座標であり、
は、同じランドマークの予測座標である。
技術的思想37の方法は、技術的思想22から36のいずれかに記載の方法において、前記複数のランドマークのそれぞれの位置のうちの少なくとも1つ又はその周辺で前記画像を修正することをさらに含む。
技術的思想38の方法は、技術的思想37記載の方法において、前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む。
技術的思想39の方法は、技術的思想37又は38に記載の方法において、前記画像がビデオ画像であり、前記方法が、仮想現実をシミュレートするためにリアルタイムで修正された前記画像を提示する。
技術的思想40の方法は、技術的思想37から39のいずれかに記載の方法において、カメラを有するパーソナルコンピューティングデバイス、好ましくはスマートフォン又はタブレットによって実行することをさらに含み、前記画像は、前記カメラによって撮影されたセルフィーである。
技術的思想41の方法は、技術的思想37から40のいずれかに記載の方法において、前記ランドマークが顔のランドマークであり、前記画像が顔を含み、前記ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む。
技術的思想42の非一時記憶デバイスは、前記処理ユニットによって実行されたときに、複数のランドマークの各々についてそれぞれの位置を決定し、画像を処理するようにコンピューティングデバイスを構成する命令を記憶するものであって、第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて前記画像を処理することを備え、前記第1段階は、前記画像を受け取り、前記第1段階の第1部において、前記画像からの中間的特徴のボリュームを決定し、前記第1段階の第2部において、前記中間的特徴のボリュームを用いて前記画像内の前記ランドマークの各々についてのそれぞれの初期位置を決定し、前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、前記第2段階の第2部において、前記ランドマークの各々について前記それぞれの初期位置を受信し、前記第2段階はさらに、前記中間的特徴をさらに洗練するように前記ボリュームの処理をすることと、前記複数のランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、関心領域のプーリングをさらに洗練されたものとして前記中間的特徴に対して実行することと、前記クロップされた特徴を用いて、各ランドマークに対して、前記各ランドマークの前記それぞれの初期位置についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、前記処理は、前記複数のランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する。
技術的思想43のコンピューティングデバイスは、処理装置と、記憶デバイスと、を備え、画像内の複数のランドマークのそれぞれの位置を検出するように前記画像を処理する畳み込みニューラルネットワーク(CNN)を介して構成されるものであって、前記CNNは、第1段階において、前記それぞれの位置の初期座標を決定するように第1のヒートマップを採用し、第2段階において、前記初期座標のリファインメントオフセットを決定するように第2のヒートマップを採用し、前記第2段階では、さらにそれぞれのランドマークごとの関心領域プーリングを用いて非関連領域を回避するように重複演算を減らし、関連する共有された特徴の生成をガイドする2段階位置決めアーキテクチャを備え、前記CNNはそれぞれのヒートマップのサイズと演算リソースの使用を最小化するために、補助座標回帰損失でトレーニングされる。
Claims (15)
- 第1段階および第2段階を有する畳み込みニューラルネットワーク(CNN)を用いて複数の顔ランドマークの各々についてそれぞれの位置を決定するように顔の画像を処理することを備え、
前記第1段階は、前記画像を受け取り、
畳み込みレイヤと反転残差ブロックとを備える前記第1段階の第1部において、前記画像から顔ランドマーク検出のための中間的特徴のボリュームを決定し、
前記中間的特徴のボリュームを受け取る反転残差ブロックを備える前記第1段階の第2部において、前記顔ランドマークの各々のためのヒートマップの過程と、初期ヒートマップの応答とにより、前記画像内の前記顔ランドマークの各々についてのそれぞれの初期位置を決定し、
反転残差ブロックを備える前記第2段階は、前記第2段階の第1部において、前記中間的特徴のボリュームを受信し、関心領域と、連結ブロックと、予測ブロックとを備える前記第2段階の第2部において、前記複数の顔ランドマークの各々についての前記それぞれの初期位置を受信し、
前記第2段階はさらに、
反転残差ブロックにより、前記中間的特徴をさらに洗練するように前記中間的特徴のボリュームの処理をすることと、
関心領域と連結ブロックとにより、前記複数の顔ランドマークの各々についてクロップされた特徴を生成するように特徴アライメントを保存しながら、前記顔ランドマークのそれぞれの初期位置を用いて、前記中間的特徴をさらに洗練して均一なサイズにクロップするように関心領域のプーリングを実行することと、前記クロップされた特徴を連結することと、
前記予測ブロックにより、前記クロップされた特徴を連結して用いて、各顔ランドマークに対して、前記各顔ランドマークのそれぞれの初期位置の各々についてのそれぞれのリファインメント位置オフセットを決定することと、を備え、
前記処理は、前記複数の顔ランドマークの各々の前記画像内の最終位置座標を決定するために、前記それぞれの初期位置の各々と前記それぞれのリファインメント位置オフセットとを組み合わせるようにさらに動作する方法。 - 前記第1段階の第2部が初期ヒートマップを用いて前記顔ランドマークの各々についてのそれぞれの初期位置の各々を予測する請求項1記載の方法。
- 前記第2段階の、前記関心領域と連結ブロックとは、前記中間的特徴をさらに洗練してクロップするように、前記関心領域のプーリングのためのRoIAlignを用いる請求項2記載の方法。
- 前記予測ブロックは、前記クロップされた特徴を処理し、
前記予測ブロックは、3×3カーネルによるチャネル単位の畳み込みと、それに続いて、BatchNorm及びReLUアクティベーションと、
1×1カーネルによるグループごとのチャネルの畳み込みと、それに続いて、BatchNormと、を順番に実行し、
前記それぞれのリファインメント位置オフセットの各々を出力する請求項3記載の方法。 - 前記CNNが、ヒートマップを学習するためのピクセルワイズシグモイドクロスエントロピーによって規定される損失関数でトレーニングされる請求項1から6のいずれかに記載の方法。
- 前記損失関数は、距離損失L2をさらに含む請求項7記載の方法。
- 前記複数の顔ランドマークのそれぞれの位置のうちの少なくとも1つ又はその周辺で前記画像を修正することをさらに含み、前記画像を修正することは、前記画像に適用される製品をシミュレートすることを含む請求項1から9のいずれかに記載の方法。
- 前記画像がビデオ画像であり、前記方法が、仮想現実をシミュレートするためにリアルタイムで修正された前記画像を提示する請求項10記載の方法。
- カメラを有するパーソナルコンピューティングデバイス、好ましくはスマートフォン又はタブレットによって実行することをさらに含み、前記画像は、前記カメラによって撮影されたセルフィーである請求項10又は11に記載の方法。
- 前記顔ランドマークの前記それぞれの位置を用いて、少なくとも1つの製品シミュレーションで前記画像を更新することをさらに含む請求項10から12のいずれかに記載の方法。
- 処理ユニットによって実行されたときに、請求項1から13のいずれかに記載の方法をコンピューティングデバイスに実行させる命令を記憶する非一時記憶デバイス。
- 処理装置と、記憶デバイスと、を備え、請求項1から13のいずれかに記載の方法を実行するように畳み込みニューラルネットワーク(CNN)を介して構成されるコンピューティングデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962837386P | 2019-04-23 | 2019-04-23 | |
US62/837,386 | 2019-04-23 | ||
PCT/EP2020/061249 WO2020216804A1 (en) | 2019-04-23 | 2020-04-22 | Convolution neural network based landmark tracker |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022532039A JP2022532039A (ja) | 2022-07-13 |
JPWO2020216804A5 JPWO2020216804A5 (ja) | 2022-12-27 |
JP7417631B2 true JP7417631B2 (ja) | 2024-01-18 |
Family
ID=70465040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021563376A Active JP7417631B2 (ja) | 2019-04-23 | 2020-04-22 | 畳み込みニューラルネットワークベースのランドマークトラッカ |
Country Status (6)
Country | Link |
---|---|
US (2) | US11227145B2 (ja) |
EP (1) | EP3942462B1 (ja) |
JP (1) | JP7417631B2 (ja) |
KR (1) | KR20220064346A (ja) |
CN (1) | CN113906435A (ja) |
WO (1) | WO2020216804A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113924603A (zh) * | 2019-06-11 | 2022-01-11 | Oppo广东移动通信有限公司 | 使用面部组分特定局部细化于面部界标检测的方法及系统 |
US20220067886A1 (en) * | 2020-09-01 | 2022-03-03 | Vingroup Joint Stock Company | Face-aware offset calculation module and method for facial frame interpolation and enhancement and a face video deblurring system and method using the same |
CN112597973A (zh) * | 2021-01-29 | 2021-04-02 | 秒影工场(北京)科技有限公司 | 一种基于卷积神经网络的高清视频人脸对齐的方法 |
WO2024039225A1 (en) * | 2022-08-18 | 2024-02-22 | Samsung Electronics Co., Ltd. | Method and electronic device of predicting next event in episode |
WO2024071587A1 (ko) * | 2022-09-29 | 2024-04-04 | 삼성전자 주식회사 | 객체를 추적하는 방법 및 전자 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019014646A1 (en) | 2017-07-13 | 2019-01-17 | Shiseido Americas Corporation | REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING |
US20210056701A1 (en) | 2019-08-19 | 2021-02-25 | Fotonation Limited | Method of image processing using a neural network |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3149653A4 (en) * | 2014-05-29 | 2017-06-14 | Beijing Kuangshi Technology Co., Ltd. | Facial landmark localization using coarse-to-fine cascaded neural networks |
WO2015181371A1 (en) * | 2014-05-30 | 2015-12-03 | Ventana Medical Systems, Inc. | An image processing method and system for analyzing a multi-channel image obtained from a biological tissue sample being stained by multiple stains |
CN104573731B (zh) * | 2015-02-06 | 2018-03-23 | 厦门大学 | 基于卷积神经网络的快速目标检测方法 |
WO2017015947A1 (en) * | 2015-07-30 | 2017-02-02 | Xiaogang Wang | A system and a method for object tracking |
CN108140249B (zh) * | 2015-09-02 | 2022-04-19 | 文塔纳医疗系统公司 | 用于显示生物标本的多个图像的图像处理系统和方法 |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US10223788B2 (en) * | 2016-08-31 | 2019-03-05 | International Business Machines Corporation | Skin lesion segmentation using deep convolution networks guided by local unsupervised learning |
CN115097937A (zh) * | 2016-11-15 | 2022-09-23 | 奇跃公司 | 用于长方体检测的深度学习系统 |
KR102036963B1 (ko) * | 2017-01-03 | 2019-11-29 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
US10366491B2 (en) * | 2017-03-08 | 2019-07-30 | Siemens Healthcare Gmbh | Deep image-to-image recurrent network with shape basis for automatic vertebra labeling in large-scale 3D CT volumes |
US10803378B2 (en) * | 2017-03-15 | 2020-10-13 | Samsung Electronics Co., Ltd | System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions |
US10496699B2 (en) * | 2017-03-20 | 2019-12-03 | Adobe Inc. | Topic association and tagging for dense images |
CN108549863B (zh) * | 2018-04-11 | 2019-11-26 | 腾讯科技(深圳)有限公司 | 人体姿态预测方法、装置、设备及存储介质 |
CN109543549B (zh) * | 2018-10-26 | 2021-09-07 | 北京陌上花科技有限公司 | 用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器 |
CN110111313B (zh) * | 2019-04-22 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 基于深度学习的医学图像检测方法及相关设备 |
US11348246B2 (en) * | 2019-11-11 | 2022-05-31 | Adobe Inc. | Segmenting objects in vector graphics images |
-
2020
- 2020-04-22 KR KR1020217037037A patent/KR20220064346A/ko unknown
- 2020-04-22 CN CN202080036825.2A patent/CN113906435A/zh active Pending
- 2020-04-22 EP EP20721519.5A patent/EP3942462B1/en active Active
- 2020-04-22 US US16/854,993 patent/US11227145B2/en active Active
- 2020-04-22 JP JP2021563376A patent/JP7417631B2/ja active Active
- 2020-04-22 WO PCT/EP2020/061249 patent/WO2020216804A1/en unknown
-
2021
- 2021-11-17 US US17/528,294 patent/US20220075988A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019014646A1 (en) | 2017-07-13 | 2019-01-17 | Shiseido Americas Corporation | REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING |
JP2020526809A (ja) | 2017-07-13 | 2020-08-31 | シセイドウ アメリカズ コーポレイション | 仮想顔化粧の除去、高速顔検出およびランドマーク追跡 |
US20210056701A1 (en) | 2019-08-19 | 2021-02-25 | Fotonation Limited | Method of image processing using a neural network |
Also Published As
Publication number | Publication date |
---|---|
JP2022532039A (ja) | 2022-07-13 |
US20220075988A1 (en) | 2022-03-10 |
KR20220064346A (ko) | 2022-05-18 |
WO2020216804A1 (en) | 2020-10-29 |
EP3942462B1 (en) | 2024-03-13 |
EP3942462C0 (en) | 2024-03-13 |
EP3942462A1 (en) | 2022-01-26 |
US11227145B2 (en) | 2022-01-18 |
US20200342209A1 (en) | 2020-10-29 |
CN113906435A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7417631B2 (ja) | 畳み込みニューラルネットワークベースのランドマークトラッカ | |
KR20190051697A (ko) | 뉴럴 네트워크의 디컨벌루션 연산을 수행하는 장치 및 방법 | |
WO2019213459A1 (en) | System and method for generating image landmarks | |
KR102140805B1 (ko) | 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치 | |
CN111612822B (zh) | 对象跟踪方法、装置、计算机设备和存储介质 | |
CN111008631B (zh) | 图像的关联方法及装置、存储介质和电子装置 | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN111209774A (zh) | 目标行为识别及显示方法、装置、设备、可读介质 | |
CN113673545A (zh) | 光流估计方法、相关装置、设备及计算机可读存储介质 | |
WO2022072199A1 (en) | Sparse optical flow estimation | |
KR20200095300A (ko) | 뉴럴 네트워크의 컨볼루션 연산을 처리하는 방법 및 장치 | |
EP4352692A1 (en) | Volumetric sampling with correlative characterization for dense estimation | |
CN116452631A (zh) | 一种多目标跟踪方法、终端设备及存储介质 | |
US20190114542A1 (en) | Electronic apparatus and control method thereof | |
EP3146502B1 (en) | Accelerated image processing | |
JPWO2020216804A5 (ja) | ||
Walch et al. | Deep Learning for Image-Based Localization | |
CN112686300B (zh) | 一种数据处理方法、装置及设备 | |
US11636569B1 (en) | Matrix transpose hardware acceleration | |
CN111626305B (zh) | 目标检测方法、装置和设备 | |
CN107944343A (zh) | 视频检测方法及装置 | |
Kalampokas et al. | Performance benchmark of deep learning human pose estimation for UAVs | |
CN115115851B (zh) | 一种商品姿态估计的方法、装置及存储介质 | |
CN114750147B (zh) | 机器人的空间位姿确定方法、装置和机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7417631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |