JP2022530907A - 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 - Google Patents
複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 Download PDFInfo
- Publication number
- JP2022530907A JP2022530907A JP2021564763A JP2021564763A JP2022530907A JP 2022530907 A JP2022530907 A JP 2022530907A JP 2021564763 A JP2021564763 A JP 2021564763A JP 2021564763 A JP2021564763 A JP 2021564763A JP 2022530907 A JP2022530907 A JP 2022530907A
- Authority
- JP
- Japan
- Prior art keywords
- branch
- cnn
- image
- computing device
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 113
- 238000012545 processing Methods 0.000 title claims description 40
- 238000000034 method Methods 0.000 claims abstract description 67
- 210000004905 finger nail Anatomy 0.000 claims abstract description 65
- 238000011176 pooling Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 93
- 230000006870 function Effects 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 3
- 238000004040 coloring Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 2
- 210000000282 nail Anatomy 0.000 abstract description 23
- 238000009877 rendering Methods 0.000 abstract description 14
- 238000012805 post-processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 210000003811 finger Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 244000141353 Prunus domestica Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 210000004934 left little finger Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000003371 toe Anatomy 0.000 description 2
- 210000000078 claw Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 210000004935 right thumb Anatomy 0.000 description 1
- 239000000126 substance Chemical group 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
指爪の追跡問題は、ビデオストリームからの指爪をピクセル精度においてリアルタイムで位置特定し、識別することである。さらに、拡張現実を提供するように、ビデオストリームからの画像を適応させるためのレンダリング技術をサポートすることが望ましい。ビデオストリーム内を含め、画像内の指紋以外のオブジェクトの位置を特定し、識別することが望まれる場合がある。
MobileNetV2[2]は、エンコーダ-デコーダニューラルネットワークアーキテクチャのエンコーダの基礎を形成する。この研究は、カスケードされた意味論的セグメンテーションモデルアーキテクチャにおけるバックボーンとして用いることにより、MobileNetV2上に構築される。さらに、モデルは、使用される特定のエンコーダモデルとは無視できるので、文献[3]、[4]、[5]、[6]からの既存の効率的なモデルは手で設計され、自動的に発見される(例えば、ネットワークプルーニングを介して)任意の将来の効率的なモデルと同様に、エンコーダのためのドロップイン置換として用いることができる。MobileNetV2は(例えば、ラップトップ、デスクトップ、ゲームコンピュータなどの大型コンピュータよりも少ないグラフィック処理リソースを有する)、スマートフォンで利用可能な、より少ないリソース上でのモデルの記憶および実行を可能にする効率の要件を満たす。
特に指爪追跡に関する従来の研究がないため、このタスクのために全く新しいデータセットが作成された。エゴセントリックデータは、参加者から収集され、参加者はあたかも彼らがソーシャルメディア上に投稿するために彼らの指爪を見せているかのように、彼らの手の写真またはビデオのいずれかを撮るように求められた。
爪追跡システム(例えば、本明細書に記載されるように構成されたコンピューティングデバイス)の核心は、方向性情報(例えば、基部先端方向フィールド)と同様に、フォアグラウンド/バックグラウンドセグメンテーションと、指爪クラスセグメンテーションと、を出力するようにトレーニングされたエンコーダ-デコーダ畳み込みニューラルネットワーク(CNN)アーキテクチャである。モデルアーキテクチャは、ICNet[8]に関連するが、モバイルデバイス上で実行するのに十分に高速であるようにモデルを適応させ、マルチタスク出力を生成するために変更が行われた。モデルアーキテクチャのトップレベル図を図3に示す。
ニューラルネットワークモデルは、PyTorchを用いてトレーニングされた[11]。トレーニングされたモデルはCore ML(登録商標)を用いてiOS(登録商標)に、及びTensorFlow.js(登録商標)を用いてウェブブラウザに配備された[1]。
バックグラウンド(過剰表現クラス)と指爪(過少表現クラス)とのクラス不均衡を扱うために、目標関数では、各ピクセルの損失の大きさでソートし、ピクセルの上位10%にわたる平均をミニバッチ損失として、ミニバッチの全ピクセルにわたってロスマックスプーリング[7]を用いた。ロスマックスプーリングを用いることは、指爪クラスをバックグラウンドよりも20×だけ重み付けしたばかりのベースラインと比較した場合、検証セットで評価されるように、mIoUの≒2%の増加をもたらし、ここで、mIoUの改善は、クラス境界に沿ったより鋭い爪縁の外観に反映された(ここで、ナイーブなベースラインは一貫して過剰セグメント化された)。
モデルからの出力は、入力画像を処理し、生成され、更新された画像を処理するために使用されてもよい。方法1(図10も参照)では、CNNモデルの追跡予測の出力を用いてユーザの指爪に現実的なマニキュア液を描く後処理およびレンダリング方法が記載されている。この方法は(CNNモデルを用いて)、指爪追跡モジュールによって予測された個々の指爪位置および方向性情報を用いて、勾配をレンダリングし、自然の爪の明るい色の遠位縁を隠す。
前処理は、例えば、必要なサイズの入力を生成し、画像の所望の部分をセンタリングし、照明を補正するために、モデルによる処理の前に使用されてもよいことが理解されよう。
マニキュア液レンダリングのための指爪追跡およびオペレーションのためのモデルが提示される。現在のソフトウェア及びハードウェアを用いて、スマートフォン又はタブレットのようなユーザコンピューティングデバイスを、iOS(登録商標)及びウェブプラットフォームの両方においてリアルタイムで実行するように構成することができる。カスケードされたモデルアーキテクチャ設計と結合したLMPの使用は、640×480解像度までのピクセル精度の指爪予測を同時に可能にした。モデルの複数の出力予測を利用して、個々の指爪に勾配を与え、爪マスクを指爪の先の方向に引き伸ばすことによって自然な指爪の上にレンダリングするときに明るい色の遠位縁を隠す後処理オペレーションが提案されている。
<参考文献(References)>
以下に列挙する参考文献[1]-[13]の各々は、参照することにより本明細書に組み込まれている。
[1]Daniel Smilkov, Nikhil Thorat, Yannick Assogba, Ann Yuan, Nick Kreeger, Ping Yu, Kangyi Zhang, Shanqing Cai, Eric Nielsen, David Soergel, Stan BileschI, Michael Terry, Charles Nicholson, Sandeep N. Gupta, Sarah Sirajuddin, D. Sculley, Rajat Monga, Greg Corrado, Fernanda B. Viegas, and Martin Wattenberg. Tensorflow.js: Machine learning for the web and beyond. arXiv preprint arXiv:1901.05350, 2019.
[2]Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. MobileNetV2: Inverted residuals and linear bottlenecks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[3]Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[4]Robert J Wang, Xiang Li, and Charles X Ling. Pelee: A real-time object detection system on mobile devices. In Advances in Neural Information Processing Systems 31, 2018.
[5]Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, and Kurt Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5mb model size. arXiv:1602.07360, 2016.
[6]Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V. Le. Learning transferable architectures for scalable image recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[7」Samuel Rota Bulo, Gerhard Neuhold, and Peter Kontschieder. Loss max-pooling for semantic image segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[8]Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, and Jiaya Jia. ICNet for realtime semantic segmentation on high-resolution images. In ECCV, 2018.
[9]J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009.
[10]Golnaz Ghiasi and Charless C. Fowlkes. Laplacian reconstruction and refinement for semantic segmentation. In ECCV, 2016.
[11」Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. Automatic differentiation in pytorch. In NIPS-W, 2017.
[12]Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv preprint arXiv:1606.00915, 2016.
[13]C. Grana, D. Borghesani, and R. Cucchiara. Optimized block-based connected components labeling with decision trees. IEEE Transactions on Image Processing, 2010.
Claims (71)
- 処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、CNNと、前記処理装置によって実行されるように構成する命令と、を記憶し、
前記CNNを有する複数のオブジェクトを含む画像を処理し、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力するコンピューティングデバイス。 - 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、前記CNNからの出力としての前記情報が方向性情報をさらに含む請求項1記載のコンピューティングデバイス。
- 前記第1の分岐は、前記第1の分岐のそれぞれの予測を生成するためのエンコーダ-デコーダバックボーンを備える請求項1又は2に記載のコンピューティングデバイス。
- 前記第1の分岐のそれぞれの予測は、前記第1の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第1の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む請求項3記載のコンピューティングデバイス。
- 前記初期予測および前記さらなる予測は、第1の分岐融合ブロックを用いて組み合わされて、前記第2の分岐のそれぞれの予測とさらに組み合わせるように提供する前記第1の分岐の前記それぞれの予測を生成する請求項4記載のコンピューティングデバイス。
- 前記第2の分岐のそれぞれの予測は、前記第1の分岐とカスケード接続された、前記第2の分岐のエンコーダフェーズによる処理に続いて生成される請求項1から3のいずれかに記載のコンピューティングデバイス。
- 前記第1の分岐のそれぞれの予測(F1)は、第2の分岐融合ブロックを用いて、前記第2の分岐の前記それぞれの予測(F2)と組み合わされる請求項6記載のコンピューティングデバイス。
- F1がアップサンプリングされた低解像度の高意味論的情報特徴を含み、F2が高解像度の低意味論的情報特徴を含み、前記第2の分岐融合ブロックは、F1とF2を組み合わせて、前記第2の分岐のデコーダフェーズで高解像度の融合特徴F2´を生成する請求項7記載のコンピューティングデバイス。
- 前記CNNは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測F1に適用される畳み込み分類器を用いる請求項8記載のコンピューティングデバイス。
- F2を処理するために、前記CNNは、多重出力デコーダ分岐を用いて、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する請求項2に従属する請求項8記載のコンピューティングデバイス。
- 前記多重出力デコーダ分岐は、
第1の出力デコーダ分岐が1×1畳み込みブロックと、前記フォアグラウンド/バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、
第2の出力デコーダ分岐が1×1畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、
第3の出力デコーダ分岐が前記方向性情報を生成するための1×1畳み込みブロックを有する請求項10記載のコンピューティングデバイス。 - 前記CNNは、前記フォアグラウンド/バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング(LMP)損失関数を用いてトレーニングされる請求項1から11のいずれかに記載のコンピューティングデバイス。
- 前記CNNは、ネガティブログライクリフッド損失(NLL)関数を用いてトレーニングされ、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、を決定する請求項1から12のいずれかに記載のコンピューティングデバイス。
- 前記CNNは、前記方向性情報を決定するためにHuber損失関数を用いてトレーニングされる請求項2から13のいずれかに記載のコンピューティングデバイス。
- 各オブジェクトが基部と先端とを有し、前記方向性情報が基部先端方向フィールドを含む請求項2から14までのいずれかに記載のコンピューティングデバイス。
- 前記第1の分岐は、MobileNetV2エンコーダ-デコーダ構造を用いて定義され、前記第2の分岐は、前記MobileNetV2エンコーダ-デコーダ構造からのエンコーダ構造を用いて定義され、前記CNNは、最初に、ImageNetからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる請求項1から15のいずれかに記載のコンピューティングデバイス。
- 前記命令は、前記情報の少なくとも一部を出力として用いて前記画像から更新された画像を生成し画像処理を実行するようにさらに構成する請求項1から16のいずれかに記載のコンピューティングデバイス。
- 画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる請求項2に従属する請求項17記載のコンピューティングデバイス。
- カメラを備え、
前記命令は、前記複数のオブジェクトに適用するための外観選択を受信し、前記画像として用いるためのセルフィービデオ画像を前記カメラから受信するためのユーザインタフェースを提示し、
前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理し、
拡張現実をシミュレートするために前記更新された画像を提示するように構成する請求項17又は18に記載のコンピューティングデバイス。 - スマートフォン又はタブレットを備える請求項1から19のいずれかに記載のコンピューティングデバイス。
- 前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む請求項1から20のいずれかに記載のコンピューティングデバイス。
- 処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、前記処理装置によって実行され、
複数のオブジェクトを含む画像を処理したCNNによって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含むCNN出力を受信し、
前記画像を処理して、更新された画像を生成し、
前記フォアグラウンド/バックグラウンドセグメンテーション(及び前記オブジェクトクラスセグメンテーション)に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画されるように構成する命令を記憶するコンピューティングデバイス。 - 前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用し、結果を混合するようにさらに構成される請求項22記載のコンピューティングデバイス。
- 描画の前に、前記フォアグラウンド/バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証するようにさらに構成される請求項23記載のコンピューティングデバイス。
- 描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々のそれぞれの領域の外側の少なくとも一部の隣接する領域を色付けし、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすようにさらに構成される請求項24記載のコンピューティングデバイス。 - 描画時に用いるために選択された色を受け取るようにさらに構成された請求項22から25のいずれかに記載のコンピューティングデバイス。
- 請求項22から26のいずれかに記載のコンピューティングデバイスであって、請求項2から21のいずれかに記載のコンピューティングデバイスによってさらに定義されるコンピューティングデバイス。
- 処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、CNNと、前記処理装置によって実行されてコンピューティングデバイスを以下のように構成する命令と、を記憶し、
前記CNNを有する複数のオブジェクトを含む画像を処理し、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションを含む情報を出力し、前記CNNは、ロスミーンポーリング損失関数を用いてトレーニングされるコンピューティングデバイス。 - 前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルのうちの少数によって表される請求項28記載のコンピューティングデバイス。
- 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記CNNは、NLL損失関数を用いてさらにトレーニングされる請求項28又は29に記載のコンピューティングデバイス。
- 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記CNNは、Huber損失関数またはL2損失関数を用いてさらにトレーニングされる請求項28から30のいずれかに記載のコンピューティングデバイス。
- 前記CNNは、出力情報のラプラシアンピラミッドを提供するように定義される請求項1から31のいずれかに記載のコンピューティングデバイス。
- 処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、前記処理装置によって実行されると、コンピューティングデバイスを以下のように構成する命令を記憶し、
CNNをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース(GUI)を提供し、前記GUIは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く(セグメント)ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、
前記画像に注釈を付ける入力を受け取り、
前記データセットを定義するために前記注釈に関連付けて前記画像を保存するコンピューティングデバイス。 - 前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される請求項33記載のコンピューティングデバイス。
- 前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、いかに有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する請求項33又は34に記載のコンピューティングデバイス。 - 畳み込みニューラルネットワーク(CNN)を有する複数のオブジェクトを備える画像処理であって、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、カスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する方法。 - 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、前記CNNによって出力される前記情報が方向性情報をさらに含む請求項36記載の方法。
- 前記第1の分岐は、前記第1の分岐のそれぞれの予測を生成するためのエンコーダ-デコーダバックボーンを備える請求項36又は37に記載の方法。
- 前記第1の分岐のそれぞれの予測は、前記第1の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第1の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む請求項38記載の方法。
- 前記初期予測およびさらなる予測は、第1の分岐融合ブロックを用いて前記CNNによって組み合わされて、前記第2の分岐の前記それぞれの予測とさらに組み合わさるように提供する前記第1の分岐のそれぞれの予測を生成する請求項39記載の方法。
- 前記第2の分岐のそれぞれの予測は、前記第1の分岐とカスケード接続された前記第2の分岐のエンコーダフェーズによる処理に続いて、前記CNNによって生成される請求項36から38のいずれかに記載の方法。
- 前記第1の分岐のそれぞれの予測(F1)は、第2の分岐融合ブロックを用いて、前記第2の分岐の前記それぞれの予測(F2)と組み合わされる請求項41記載の方法。
- F1がアップサンプリングされた低解像度の高意味論的情報特徴を含み、F2が高解像度の低意味論的情報特徴を含み、前記第2の分岐融合ブロックは、F1とF2とを組み合わせて、前記第2の分岐のデコーダフェーズで高解像度の融合特徴F2´を生成する請求項42記載の方法。
- 前記CNNは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測F1に適用される畳み込み分類器を用いる請求項43記載の方法。
- F2を処理するために、前記CNNは、多重出力デコーダ分岐を用いて、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する請求項2に従属する請求項43記載の方法。
- 前記多重出力デコーダ分岐は、
第1の出力デコーダ分岐が1×1畳み込みブロックと、前記フォアグラウンド/バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、
第2の出力デコーダ分岐が1×1畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、
第3の出力デコーダ分岐が前記方向性情報を生成するための1×1畳み込みブロックを有する請求項45記載の方法。 - 前記CNNは、前記フォアグラウンド/バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング(LMP)損失関数を用いてトレーニングされる請求項36から47のいずれかに記載の方法。
- 前記CNNは、ネガティブログライクリフッド損失(NLL)関数を用いてトレーニングされ、前記フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を決定する請求項36から47のいずれかに記載の方法。
- 前記CNNは、前記方向性情報を決定するためにHuber損失関数を用いてトレーニングされる請求項37から48のいずれかに記載の方法。
- 各オブジェクトが基部および先端を有し、前記方向性情報が基部先端方向フィールドを含む請求項37から49のいずれかに記載の方法。
- 前記第1の分岐は、MobileNetV2エンコーダ-デコーダ構造を用いて定義され、前記第2の分岐は、前記MobileNetV2エンコーダ-デコーダ構造からのエンコーダ構造を用いて定義され、前記CNNは、最初に、ImageNetからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる請求項36から50のいずれかに記載の方法。
- 前記情報の少なくとも一部を前記CNNからの出力として用いて前記画像から更新された画像を生成し画像処理を実行することを含む請求項36から51のいずれかに記載の方法。
- 画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる請求項37に従属する請求項52記載の方法。
- 前記複数のオブジェクトに適用するための外観選択を受信するためのユーザインタフェースを提示することと、
カメラから、前記画像として用いるためのセルフィービデオ画像を受信することと、
前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理することと、
拡張現実をシミュレートするために前記更新された画像を提示することと、を備える請求項52又は53に記載の方法。 - スマートフォン又はタブレットを備えるコンピューティングデバイスによって実行される請求項36から54のいずれかに記載の方法。
- 前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む請求項36から55のいずれかに記載の方法。
- 複数のオブジェクトを含む画像を処理した畳み込みニューラルネットワーク(CNN)によって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含む出力を受信することと、
更新された画像を生成するための画像を処理することと、
前記フォアグラウンド/バックグラウンドセグメンテーション(及び前記オブジェクトクラスセグメンテーション)に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画される方法。 - 前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用することと、混合することと、をさらに含む請求項57記載の方法。
- 描画の前に、前記フォアグラウンド/バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証することをさらに含む請求項58記載の方法。
- 描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々の前記それぞれの領域の外側の少なくとも一部の隣接する領域を着色することと、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすことと、をさらに含む請求項59記載の方法。 - 描画に用いるための選択された色を受け取ることを含む請求項57から60のいずれかに記載の方法。
- 請求項2から21のいずれかに記載のコンピューティングデバイスによって実行される請求項57から61のいずれかに記載の方法。
- 畳み込みニューラルネットワーク(CNN)を有する複数のオブジェクトを含む画像を処理することであって、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションを含む情報を出力し、前記CNNは、ロスミーンポーリング損失関数を用いてトレーニングされる方法。 - 前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルの少数によって表される請求項63記載の方法。
- 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記CNNは、NLL損失関数を用いてさらにトレーニングされる請求項63又は64に記載の方法。
- 前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記CNNは、Huber損失関数またはL2損失関数を用いてさらにトレーニングされる請求項63から65のいずれかに記載の方法。
- 前記情報の少なくとも一部を前記CNNからの出力として用いて前記画像から更新された画像を生成することをさらに含む請求項63から66のいずれかに記載の方法。
- 前記CNNは、出力情報のラプラシアンピラミッドを提供するように定義される請求項36から67のいずれかに記載の方法。
- CNNをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース(GUI)を提供することであって、前記GUIは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く(セグメント)ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、
前記画像に注釈を付ける入力を受け取り、
前記データセットを定義するために前記注釈に関連付けて前記画像を保存する方法。 - 前記GUIは、前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される請求項69記載の方法。
- 前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する請求項69又は70に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962840718P | 2019-04-30 | 2019-04-30 | |
US62/840,718 | 2019-04-30 | ||
PCT/CA2020/050566 WO2020220126A1 (en) | 2019-04-30 | 2020-04-29 | Image processing using a convolutional neural network to track a plurality of objects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022530907A true JP2022530907A (ja) | 2022-07-04 |
JPWO2020220126A5 JPWO2020220126A5 (ja) | 2023-01-06 |
Family
ID=73016577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021564763A Pending JP2022530907A (ja) | 2019-04-30 | 2020-04-29 | 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11410314B2 (ja) |
EP (1) | EP3948775A4 (ja) |
JP (1) | JP2022530907A (ja) |
KR (1) | KR20220002995A (ja) |
CN (1) | CN113924597A (ja) |
WO (1) | WO2020220126A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11210547B2 (en) * | 2019-03-20 | 2021-12-28 | NavInfo Europe B.V. | Real-time scene understanding system |
CN110472531B (zh) * | 2019-07-29 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
US11798270B2 (en) * | 2020-04-27 | 2023-10-24 | Molecular Devices, Llc | Systems and methods for image classification |
US11790535B2 (en) * | 2020-05-12 | 2023-10-17 | True Meeting Inc. | Foreground and background segmentation related to a virtual three-dimensional (3D) video conference |
US11687780B2 (en) * | 2020-07-02 | 2023-06-27 | Samsung Electronics Co., Ltd | Method and apparatus for data efficient semantic segmentation |
CN111738268B (zh) * | 2020-07-22 | 2023-11-14 | 浙江大学 | 一种基于随机块的高分遥感图像的语义分割方法及系统 |
US11461989B2 (en) | 2020-12-04 | 2022-10-04 | Himax Technologies Limited | Monitor method and monitor system thereof wherein mask is used to cover image for detecting object |
CN116615686A (zh) | 2020-12-16 | 2023-08-18 | 斯纳普公司 | 用于语音翻译的包括手语的护目镜 |
CN112734642B (zh) * | 2021-01-12 | 2023-03-10 | 武汉工程大学 | 多尺度纹理转移残差网络的遥感卫星超分辨率方法及装置 |
CN112801104B (zh) * | 2021-01-20 | 2022-01-07 | 吉林大学 | 基于语义分割的图像像素级伪标签确定方法及系统 |
CN113012220A (zh) * | 2021-02-02 | 2021-06-22 | 深圳市识农智能科技有限公司 | 一种果实计数方法、装置及电子设备 |
WO2022217470A1 (en) * | 2021-04-13 | 2022-10-20 | Shanghaitech University | Hair rendering system based on deep neural network |
CN113643330B (zh) * | 2021-10-19 | 2022-03-25 | 青岛根尖智能科技有限公司 | 一种基于动态语义特征的目标跟踪方法及系统 |
CN114004973B (zh) * | 2021-12-30 | 2022-12-27 | 深圳比特微电子科技有限公司 | 用于图像语义分割的解码器及其实现方法 |
WO2023234757A1 (ko) * | 2022-06-03 | 2023-12-07 | 주식회사 링커버스 | 손톱 분석을 위해 이미지를 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
CN117496160B (zh) * | 2023-12-29 | 2024-03-19 | 中国民用航空飞行学院 | 一种面向室内场景的无人机拍摄低光照图像语义分割方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150356669A1 (en) * | 2014-06-06 | 2015-12-10 | Myncla Mobile Llc | Designing nail wraps with an electronic device |
CN106570564B (zh) | 2016-11-03 | 2019-05-28 | 天津大学 | 基于深度网络的多尺度行人检测方法 |
US10176388B1 (en) * | 2016-11-14 | 2019-01-08 | Zoox, Inc. | Spatial and temporal information for semantic segmentation |
US10467458B2 (en) * | 2017-07-21 | 2019-11-05 | Altumview Systems Inc. | Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems |
US10755115B2 (en) * | 2017-12-29 | 2020-08-25 | Here Global B.V. | Method, apparatus, and system for generating synthetic image data for machine learning |
US10937169B2 (en) * | 2018-12-18 | 2021-03-02 | Qualcomm Incorporated | Motion-assisted image segmentation and object detection |
-
2020
- 2020-04-29 WO PCT/CA2020/050566 patent/WO2020220126A1/en unknown
- 2020-04-29 CN CN202080039718.5A patent/CN113924597A/zh active Pending
- 2020-04-29 EP EP20799210.8A patent/EP3948775A4/en active Pending
- 2020-04-29 KR KR1020217038172A patent/KR20220002995A/ko active Search and Examination
- 2020-04-29 US US16/861,368 patent/US11410314B2/en active Active
- 2020-04-29 JP JP2021564763A patent/JP2022530907A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20200349711A1 (en) | 2020-11-05 |
US11410314B2 (en) | 2022-08-09 |
WO2020220126A1 (en) | 2020-11-05 |
CN113924597A (zh) | 2022-01-11 |
EP3948775A4 (en) | 2022-12-21 |
KR20220002995A (ko) | 2022-01-07 |
EP3948775A1 (en) | 2022-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022530907A (ja) | 複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
Dash et al. | Designing of marker-based augmented reality learning environment for kids using convolutional neural network architecture | |
CN110874594A (zh) | 基于语义分割网络的人体外表损伤检测方法及相关设备 | |
Abu Alhaija et al. | Geometric image synthesis | |
Lin et al. | Roi tanh-polar transformer network for face parsing in the wild | |
US20220301295A1 (en) | Recurrent multi-task convolutional neural network architecture | |
Chen et al. | Sem2nerf: Converting single-view semantic masks to neural radiance fields | |
JPWO2020220126A5 (ja) | ||
Beyeler | OpenCV with Python blueprints | |
Ntavelis et al. | AIM 2020 challenge on image extreme inpainting | |
Avola et al. | 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition | |
Hoang et al. | Improving traffic signs recognition based region proposal and deep neural networks | |
Liu et al. | Image neural style transfer with preserving the salient regions | |
Szemenyei et al. | Fully neural object detection solutions for robot soccer | |
CN114842035A (zh) | 基于深度学习的车牌脱敏方法、装置、设备及存储介质 | |
Syahputra et al. | Finger recognition as interaction media in Augmented Reality for historical buildings in Matsum and Kesawan regions of Medan City | |
Vaishali | Real-time object detection system using caffe model | |
Liang et al. | Hand parsing and gesture recognition with a commodity depth camera | |
Tang et al. | Two-stage filtering method to improve the performance of object detection trained by synthetic dataset in heavily cluttered industry scenes | |
Zhu et al. | Co-occurrent structural edge detection for color-guided depth map super-resolution | |
Stahl et al. | Ist-style transfer with instance segmentation | |
Song et al. | Real-time single camera natural user interface engine development | |
Pei et al. | RISAT: real-time instance segmentation with adversarial training | |
Türkmen | Scene understanding through semantic image segmentation in augmented reality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240430 |