JP7096925B2 - 直方体検出のための深層機械学習システム - Google Patents
直方体検出のための深層機械学習システム Download PDFInfo
- Publication number
- JP7096925B2 JP7096925B2 JP2021041261A JP2021041261A JP7096925B2 JP 7096925 B2 JP7096925 B2 JP 7096925B2 JP 2021041261 A JP2021041261 A JP 2021041261A JP 2021041261 A JP2021041261 A JP 2021041261A JP 7096925 B2 JP7096925 B2 JP 7096925B2
- Authority
- JP
- Japan
- Prior art keywords
- rectangular parallelepiped
- image
- layer
- refined
- roi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 53
- 238000010801 machine learning Methods 0.000 title description 10
- 238000000034 method Methods 0.000 claims description 113
- 238000013527 convolutional neural network Methods 0.000 claims description 95
- 238000011176 pooling Methods 0.000 claims description 75
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 230000001052 transient effect Effects 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 71
- 230000006870 function Effects 0.000 description 58
- 230000008569 process Effects 0.000 description 30
- 238000012545 processing Methods 0.000 description 25
- 230000001976 improved effect Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 9
- 230000003190 augmentative effect Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 6
- 210000000887 face Anatomy 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 238000003709 image segmentation Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000256837 Apidae Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04815—Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/12—Acquisition of 3D measurements of objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Image Processing (AREA)
- Eye Examination Apparatus (AREA)
Description
本願は、2016年11月15日に出願され“DEEP CUBOID DETECTION: BEYOND 2D BOUNDING BOXES”と題された米国特許出願第62/422,547号に対する優先権の利益を主張するものであり、該米国特許出願の内容は、その全体が参照により本明細書中に援用される。
本発明は、例えば、以下の項目を提供する。
(項目1)
直方体検出および特徴点位置特定のためのシステムであって、
非一過性メモリであって、前記非一過性メモリは、
実行可能命令と、
直方体検出のための画像と、
直方体検出器であって、
畳み込み特徴マップを前記画像から生成するための第1の畳み込みニューラルネットワーク(CNN)の複数の畳み込み層および非畳み込み層と、
前記畳み込み特徴マップを使用して直方体を前記画像の直方体画像場所に備える少なくとも1つの着目領域(RoI)を決定するための第2のCNNを備える領域提案ネットワーク(RPN)と、
前記畳み込み特徴マップおよび前記直方体を備えるRoIを使用して精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現を決定するためのプーリング層および少なくとも1つのリグレッサ層と
を備える、直方体検出器と
を記憶するように構成される、非一過性メモリと、
前記非一過性メモリと通信するハードウェアプロセッサであって、前記ハードウェアプロセッサは、前記実行可能命令によって、
前記画像を受信することと、
前記第1のCNNの複数の畳み込み層および前記非畳み込み層および前記画像を使用して、前記畳み込み特徴マップを生成することと、
前記RPNを使用して、前記直方体を前記画像の直方体画像場所に備える少なくとも1つのRoIを決定することと、
前記プーリング層および前記直方体画像場所を使用して、前記直方体を備えるRoIに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記少なくとも1つのリグレッサ層および前記直方体を備えるRoIに対応する前記畳み込み特徴マップのサブマップを使用して、前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現を決定することと
を行うようにプログラムされる、ハードウェアプロセッサと
を備える、システム。
(項目2)
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所を使用して、前記直方体を備える精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層、前記少なくとも1つのリグレッサ層、および前記直方体を備える精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたRoIおよび前記直方体のさらなる定義された表現を決定することと
を行うようにプログラムされる、項目1に記載のシステム。
(項目3)
前記直方体画像場所は、2次元(2D)境界ボックスとして表される、項目1に記載のシステム。
(項目4)
前記精緻化された直方体画像場所は、2次元(2D)境界ボックスとして表される、項目1に記載のシステム。
(項目5)
前記少なくとも1つのリグレッサ層は、2つ以上の層を備える、項目1に記載のシステム。
(項目6)
前記2つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、項目5に記載のシステム。
(項目7)
RPNは、深層ニューラルネットワーク(DNN)を備える、項目1に記載のシステム。
(項目8)
前記直方体の表現は、前記直方体のパラメータ化された表現を備える、項目1に記載のシステム。
(項目9)
前記直方体のパラメータ化された表現は、前記画像内の直方体の複数の特徴点の場所を備える、項目8に記載のシステム。
(項目10)
前記複数の特徴点は、前記画像内の直方体の8つの頂点を備える、項目9に記載のシステム。
(項目11)
前記パラメータ化された表現は、前記画像の中心からの前記直方体の複数の特徴点の正規化されたオフセットを備える、項目8に記載のシステム。
(項目12)
前記直方体のパラメータ化された表現は、12のパラメータを備える、項目8に記載のシステム。
(項目13)
前記直方体のパラメータ化された表現は、消失点パラメータ化を備える、項目8に記載のシステム。
(項目14)
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現に基づいて、前記システムのユーザと相互作用する
ようにプログラムされる、項目1に記載のシステム。
(項目15)
前記直方体は、定常ボックスに対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記直方体の精緻化された画像場所および前記直方体の表現に基づいて、前記定常ボックスに関連してキャラクタ動画を生成する
ようにプログラムされる、項目14に記載のシステム。
(項目16)
前記直方体は、手で持てるサイズの直方体に対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記直方体の表現を使用して、前記直方体の姿勢を決定することと、
前記直方体の姿勢に基づいて、前記システムのユーザと相互作用することと
を行うようにプログラムされる、項目14に記載のシステム。
(項目17)
前記直方体は、第3のCNNによって認識不可能な稀有なオブジェクトに対応し、
前記システムのユーザと相互作用するために、前記ハードウェアプロセッサはさらに、
前記ユーザに、第3のCNNによって認識不可能な稀有なオブジェクトが検出されたことの通知を提供する
ようにプログラムされる、項目14に記載のシステム。
(項目18)
前記直方体は、人工構造に対応し、
前記ハードウェアプロセッサはさらに、
無人飛行の間、前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現に基づいて、前記システムのユーザを補助する
ようにプログラムされる、項目1に記載のシステム。
(項目19)
前記直方体は、マーカに対応し、
前記ハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現に基づいて、同時位置特定およびマッピング(SLAM)を実施する
ようにプログラムされる、項目1に記載のシステム。
(項目20)
直方体検出および特徴点位置特定のための方法であって、
ハードウェアプロセッサの制御下で、
画像を受信することと、
直方体検出器の第1の畳み込みニューラルネットワーク(CNN)の複数の畳み込み層および非畳み込み層および前記画像を使用して、畳み込み特徴マップを生成することと、
前記直方体検出器の第2のCNNを備える領域提案ネットワーク(RPN)を使用して、直方体を前記画像の直方体画像場所に備える少なくとも1つのRoIを決定することと、
前記直方体検出器のプーリング層および前記直方体画像場所を使用して、前記直方体を備えるRoIに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記直方体検出器の少なくとも1つのリグレッサ層および前記直方体を備えるRoIに対応する前記畳み込み特徴マップのサブマップを使用して、精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現を決定することと
を含む、方法。
(項目21)
前記精緻化された直方体画像場所を使用して、前記直方体を備える精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層、前記少なくとも1つのリグレッサ層、および前記直方体を備える精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを使用して、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたRoIおよび前記直方体のさらなる定義された表現を決定することと
をさらに含む、項目20に記載の方法。
(項目22)
前記直方体画像場所は、2次元(2D)境界ボックスとして表され、前記精緻化された直方体画像場所は、2次元(2D)境界ボックスとして表される、項目20に記載の方法。
(項目23)
前記第1のCNNの非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを備える、項目20に記載の方法。
(項目24)
前記少なくとも1つのリグレッサ層は、2つ以上の層を備え、前記2つ以上の層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、項目20に記載の方法。
(項目25)
前記直方体の表現は、前記画像内の直方体の複数の特徴点の場所を備える前記直方体のパラメータ化された表現を備える、項目20に記載の方法。
関数、アルゴリズム、システム、および同等物等のデータ関係およびパターンを表す、モデルは、入力を受け取り、何らかの方法において、入力に対応する出力を生産し得る。例えば、モデルは、畳み込みニューラルネットワーク(CNN)または深層ニューラルネットワーク(DNN)等の機械学習方法として実装されてもよい。深層学習は、タスク特有アルゴリズムとは対照的に、学習データ表現の概念に基づく、機械学習方法のより広義の系統の一部であって、拡張現実、複合現実、仮想現実、および機械知能に有用な視聴覚計算問題を解法する際、著しい有望性を示す。機械学習では、畳み込みニューラルネットワーク(CNNまたはConvNet)は、深層フィードフォワード人工ニューラルネットワークのクラスを含むことができ、CNNは、視覚的画像の分析の適用に成功を収めている。機械学習方法は、眼画像セグメント化および眼追跡を含む、様々な問題に対するロバストかつ正確なソリューションを有効にし得る、方法の系統を含む。
(例えば、加重値)は、モデルが正しいまたは好ましい出力を生産する(またはそれに「収束する」)まで、試行錯誤プロセスに相当する量で修正されることができる。例えば、加重値の修正は、「誤差逆伝播法」と称されるプロセスを通して実施されてもよい。誤差逆伝播法は、予期されるモデル出力と取得されるモデル出力との間の差異を決定し、次いで、モデルの一部または全部のパラメータの値を修正する方法を決定し、予期されるモデル出力と取得されるモデル出力との間の差異を低減させることを含む。
世界の3D表現を単一単眼画像から構築することは、コンピュータビジョンにおける重要な問題である。いくつかの用途では、明示的3Dモデルを有するオブジェクトが、推定されたその姿勢を用いて位置特定される。しかし、そのような3Dモデルがない場合、人物またはコンピュータシステム(例えば、図10を参照して説明されるウェアラブルディスプレイシステム1000)は、依然として、直方体、円柱、および球体のような幾何学的形状の単純組み合わせの観点から、その周囲について推測する必要があり得る。時として、ジオンとも称される、そのようなプリミティブは、ヒトが推測することが容易であり得る。ヒトは、これらの単純幾何学的プリミティブの姿勢について大まかな推定を難なく行い、さらに、異種インスタンスを横断して、長さ、半径、または面積のような幾何学的パラメータを比較することができる。多くのオブジェクトは、複数の幾何学的プリミティブから成るが、多数の実オブジェクトは、1つ程度のプリミティブによって十分に近似され得る。
図2は、直方体検出器の例示的アーキテクチャを描写する。直方体検出器200は、以下のコンポーネント、すなわち、畳み込み層204(本明細書では、CNNタワーとも称される)、領域提案ネットワーク(RPN)208、少なくとも1つのプーリング層212、または1つ以上の全結合層216(例えば、領域CNN(R-CNN)リグレッサ(または分類子))のうちの1つ以上のものを含むことができる。プーリング層212および全結合層216は、反復特徴プーリングを実装することができ、これは、直方体特徴点場所を精緻化する。R-CNNは、高速R-CNNであることができる。
その性能を決定するために、直方体検出器200の実施形態が、カフェを使用して実装され、高速R-CNNの実装の上に構築された。性能を決定するために、ImageNet上の画像分類のタスクに関して事前に訓練されたVGG-MまたはVGG16ネットワークが、使用された。VGG-Mは、7層を伴うより小さいモデルである一方、VGG16は、16層を含有する。全てのモデルは、学習レート0.001(30万回の反復後、10分の1に低減された)を用いて、確率的勾配降下法(SGD)を使用して、50万回の反復にわたって微調整された。使用された付加的パラメータは、慣性0.9、加重減衰0.0005、およびドロップアウト0.5を含む。段階毎訓練の代わりに、直方体検出器200のコンポーネントは、1(例えば、方程式[3]におけるλi=1)としての全ての損失加重の値を用いてともに最適化された。
SUN Primitiveデータセット(ttps://groups.csail.mit.edu/vision/SUN/から利用可能な多種多様な環境場面、場所、およびオブジェクトを網羅する注釈が付けられた画像の包括的集合)が、深層直方体検出器200を訓練するために使用された。データセットは、3516枚の画像から成り、多くの雑然を伴う屋内場面、単一直方体のみを含有するインターネット画像、および同様に直方体のように見える建物の屋外画像の混合である。直方体境界ボックスおよび直方体特徴点は両方とも、グラウンドトゥルース注釈を有する。本データセットは、1269の注釈が付けられた直方体を785枚の画像内に含む。画像の残りは、負であって、例えば、それらは、任意の直方体を含有していない。データセットは、3000枚の画像の訓練セットおよびその水平に反転されたバージョンと、516枚の試験画像を伴う試験セットとを作成するように分割された。
それぞれ、異なる複数のタスクを実施する、複数のネットワークが、訓練された。単に、直方体の周囲の境界ボックスを出力する、ベースネットワークが、訓練された。本ベースネットワークは、実施される直方体を包囲する長方形を使用して、一般的オブジェクト検出を実施した。ベースネットワークは、ボックスのクラスおよび境界ボックス回帰値を出力した。次に、角の場所についての付加的監視を伴う異なるネットワークが、訓練された。本ネットワークは、境界ボックス回帰座標を出力しなかった。次いで、境界ボックス回帰値および頂点の座標の両方を出力する、ネットワーク(例えば、直方体検出器200)が、訓練された。対応する項が、付加的タスク毎に、損失関数に追加された。試験から、より多くのタスク(境界ボックス検出、特徴点位置特定、または境界ボックス検出および特徴点位置特定の両方)の追加は、直方体検出器の性能に影響を及ぼした(表1参照)。
R-CNNでは、最終出力は、領域提案毎の分類スコアおよび境界ボックス回帰値である。境界ボックス回帰は、最終境界ボックスがオブジェクトのみを位置特定するように、領域提案を移動させ、それをスケーリングすることを可能にする。これは、そこから特徴がプーリングされ、本予測を行う、初期領域が、全体的に正しくなかったことを含意する。いくつかの実施形態では、直方体検出器200は、後退し、特徴を精緻化された境界ボックスからプーリングする。これは、ネットワーク自体内に実装されることができ、直方体検出器200が、正確に同一方法において訓練および試験しながら、反復境界ボックス回帰を実施することを意味する。リグレッサの全結合層216への入力は、conv5層からの異なる領域提案からプーリングされた特徴を含む、畳み込み特徴マップ228のサブマップである、固定サイズ特徴マップである。R-CNN出力は、境界ボックス回帰を入力オブジェクト提案に使用し、新しい提案を生産することができる。次いで、特徴は、これらの新しい提案からプーリングされ、再び、リグレッサの全結合層216を通して通過されることができる。いくつかの実施形態では、直方体検出器200は、「随時予測システム」であって、待ち時間によって境界されない用途に関して、境界ボックス回帰は、1回を上回って実施されることができる。性能結果(表2参照)は、反復特徴プーリングが境界ボックス検出および頂点位置特定の両方を大幅に改良し得ることを示す(図5A-5C参照)。特徴が2回またはそれを上回って(例えば、2、3、4、5、6、またはそれよりも多くの回数)反復的にプーリングされても、有意な性能変化は、認められなかった。いくつかの実装では、2回の反復が、使用される。図5A-5Cは、反復特徴プーリングを介した特徴点精緻化を伴う改良された性能を図示する、例示的画像500a1-500l1、500a2-500l2を示す(例えば、画像500a1、500a2内の直方体の表現108b1、108b2とこれらの画像504内の本棚504内の形状を比較)。直方体検出領域は、予測される境界ボックスを使用して、conv5からの特徴を再プーリングすることによって精緻化された。
2つの基本モデルVGG16およびVGG-Mが、試験された。VGG16は、16層を伴う非常に深層のアーキテクチャを有する一方、VGG-Mは、7層を伴うより小さいモデルである。表3は、試験の結果を示す。興味深いことに、本データセットおよびタスクに関して、より浅層のネットワークを通した2回の反復が、より深層のネットワークを通した1回の反復より優れていた。反復を伴うより浅層のネットワークが2倍速く起動されるという事実とあいまって、直方体検出器200は、有利には、10より少ない層(例えば、5、7、または9層)を伴うより浅層のCNNタワーを含むことができる。いくつかの実施形態では、直方体検出器200は、より深層のCNNタワー(例えば、12、15、20、またはそれよりも多くの層)を含むことができる。それぞれ試験された4つのモデルは、HOGベースのシステムのAP(24.0)より高い平均適合率(AP)を認めた。
訓練データのサイズの増加の影響が、測定された。可変サイズ1,000、2,000、および3,000枚の画像の3つのデータセットが一般的ネットワークを訓練するために、作成および使用された(VGG-M+反復)。結果(表4参照)は、より大きい訓練セットサイズを使用するとき、有意に改良された性能を示す。
直方体検出器200は、Titan Z GPU上でインタラクティブレートで起動可能であった一方、HOGベースのアプローチは、単一画像を処理するために数分かかるであろう。システムのリアルタイム性質は、高速R-CNNがリグレッサとして使用される結果であり得る。いくつかの実施形態では、直方体検出器200は、シングルショットマルチボックス検出器(SSD)を実装し、その速度性能をさらに改良することができる。表3は、モバイルデバイス(例えば、図10を参照して説明されるウェアラブルディスプレイシステム1000)上で低減され得る、モデルサイズを示す。
直方体検出器200の実施形態は、直方体の頂点を直接出力することができる。多くの凸面直方体は、8つの頂点と、6つの面と、12の縁とを有する(その全ては、画像内で可視ではない場合がある)。しかしながら、ある視点は、固有の曖昧性を有し得、これは、図4Gに示される不適切な直方体識別につながった。例えば、これは、図4Gでは、立方体のどの面が、正面とラベルされるべきか?直方体検出器200検出器は、そのような構成に対処する必要があり得るため、代替直方体パラメータ化が、模索された。世界原点が、カメラ中心座標と一致すると見なされる場合、直方体のパラメータ化は、12の数字を用いて表されることができる。以下のパラメータ化は、最小限であり得る。他のパラメータ化では、付加的または異なるパラメータが、使用されることができる。
(X,Y,Z)-3Dにおける直方体の中心の座標
(L,W,H)-直方体の次元
(θ,ψ,φ)-直方体の回転の3つの角度(例えば、オイラー角)
(f,cx,cy)-固有のカメラパラメータ(例えば、焦点距離および光学中心の座標)
代替パラメータ化では、8つの直方体頂点の6つのみの座標が、検出器によって予測された。残りの2つの座標の場所は、直方体内に平行縁が存在し得るという関係を使用して推測された。例えば、3Dにおいて平行である縁は、画像内の消失点において出会う。2対の平行線が直方体600の上辺に、2対の平行線が直方体の底面に存在し得る。直方体600の上面上の対の平行線604a、604bおよび直方体の底面上の対の平行線606a、606bは、図6に示されるように、同一消失点608aにおいて出会うはずである。直方体600の上面上の対の平行線604c、604dおよび直方体の底面上の対の平行線606c、606dは、同一消失点608bにおいて出会うはずである。故に、残りの2つの点612a、612bの位置が、推測されることができる。これは、いくつかの実装では、直方体検出器200が、12の数字の出力をパラメータ化することを可能にする。図6は、例示的直方体消失点608a、608bを図式的に図示する。立方体の縁を外挿することによって生産された消失点608a、608bは、消失線616を形成し、パラメータの数を低減させるために使用されることができる。前-上-左(FTL)特徴点612aおよび後-下-右(BBR)特徴点612bは、パラメータ化から除外され、推定消失点(VP)技法を使用して推測されることができる。
別の再パラメータ化は、2つの消失点の場所と、直方体の縁を形成するであろう、6つの線の傾きとを使用する(図6参照)。これらの消失点は、特定の直方体に対応し、画像全体の消失点と異なり得ることに留意されたい。これらの6つの線の交点は、本実施例では、直方体の頂点を与えるであろう。しかしながら、消失点の場所の多くは、着目領域外にあり、わずかなまたは交絡する視覚的証拠を着目領域または画像自体全体内に有する。また、標的を正規化し、消失点を直接予測することは、困難となり得る。6つの線の傾きは、-∞と+∞との間で変動し得る。傾きを直接予測する代わりに、傾きは、sin(tan-1(θ))の値に回帰されることができる。本ネットワークの実施形態が訓練され得る、ハイパーパラメータのセット(例えば、損失加重、学習率、ソルバ等)が、存在し得る。
(直方体検出器を訓練する例示的プロセス)
(RoI)を決定することができる。例えば、着目領域は、直方体画像場所における直方体を包囲する、2次元(2D)境界ボックスとして表されることができる。直方体は、直方体、円柱、球体、または任意のそれらの組み合わせを備えることができる。RPNは、訓練の間、対数損失関数および平滑L1損失関数等の少なくとも2つの損失関数と関連付けられることができる。
図9は、直方体検出および特徴点位置特定のための直方体検出器を使用する例示的プロセス900のフロー図である。プロセス900は、ブロック904から開始し、そこで、システム(例えば、図10を参照して説明されるウェアラブルディスプレイシステム1000)が、可能性として考えられる直方体を含む、入力画像を受信する。画像は、1つ以上の直方体を含むことができる。画像は、カラー画像(例えば、RGBまたはRGB-D)を備えることができ、画像は、単眼であってもよい。画像は、ビデオのフレームであってもよく、図10を参照して説明されるウェアラブルディスプレイシステム1000の外向きに面した結像システム1044を使用して取得されてもよい。
画像内のボックス状オブジェクトを検出し、姿勢のような3D情報を抽出することは、全体的場面理解に役立ち得る。多くの高レベル意味論問題は、最初に、場面内のボックスを検出する(例えば、場面内のオブジェクトをボックスにまとめ、場面内の支持表面を推定し、場面レイアウトを推定することによって、部屋内の自由空間を抽出する)ことに悩まされ得る。
いくつかの実施形態では、直方体検出器は、ボトムアップ画像処理に依拠せず、実画像上でリアルタイムで満足の行くように機能する。直方体検出器は、3Dモデルの大量の訓練データベースおよび2D/3D整合のためのある種類の学習を使用して訓練されることができる。いくつかの実装では、直方体検出器は、幾何学形状ベースの方法、変形部品モデル、勾配方向ヒストグラム(HOG)ベースのモデル(例えば、HOG分類子)を実装することができる。直方体検出器は、異なるビュー内の直方体頂点を検出し、HOG分類子、2D頂点変位、縁整合スコア、および予測される頂点の3D内の直方体との近接度を考慮する、3D形状スコアからのスコアに基づいて、最終直方体構成を決定することができる。直方体検出器は、同時に、実際の3D直方体から離れすぎている予測にペナルティを課しながら、画像内に見出される視覚的証拠(角および縁)を最適化することができる。
深層ニューラルネットワーク(DNN)等のニューラルネットワーク(NN)の層は、線形または非線形変換をその入力に適用し、その出力を生成することができる。深層ニューラルネットワーク層は、正規化層、畳み込み層、ソフトサイン層、正規化線形層、連結層、プーリング層、再帰層、インセプション様層、または任意のそれらの組み合わせであることができる。正規化層は、その入力の明度を正規化し、例えば、L2正規化を用いて、その出力を生成することができる。正規化層は、例えば、複数の画像の明度を相互に対して一度に正規化し、複数の正規化された画像をその出力として生成することができる。明度を正規化するための方法の非限定的実施例は、ローカルコントラスト正規化(LCN)またはローカル応答正規化(LRN)を含む。ローカルコントラスト正規化は、ピクセルベースで画像のローカル領域を正規化し、ゼロの平均値および1の分散値(または平均値および分散値の他の値)を有することによって、画像のコントラストを非線形に正規化することができる。ローカル応答正規化は、ローカル入力領域にわたって画像を正規化し、ゼロの平均値および1の分散値(または平均値および分散値の他の値)を有することができる。正規化層は、訓練プロセスを加速させ得る。
いくつかの実施形態では、ユーザデバイスは、ウェアラブルディスプレイデバイスであることができる、またはその中に含まれることができ、これは、有利には、より没入型の仮想現実(VR)、拡張現実(AR)、または複合現実(MR)体験を提供し得、デジタル的に再現された画像またはその一部が、それらが現実であるように見える、またはそのように知覚され得る様式で装着者に提示される。
第1の側面では、直方体検出および特徴点位置特定のためのシステムが、開示される。本システムは、実行可能命令と、直方体検出のための画像と、直方体検出器であって、該直方体検出器は、畳み込み特徴マップを画像から生成するための第1の畳み込みニューラルネットワーク(CNN)の複数の畳み込み層および非畳み込み層と、畳み込み特徴マップを使用して、直方体を画像の直方体画像場所に備える少なくとも1つの着目領域(RoI)を決定するための、第2のCNNを備える、領域提案ネットワーク(RPN)と、畳み込み特徴マップおよび直方体を備えるRoIを使用して、精緻化された直方体画像場所における精緻化されたRoIおよび直方体の表現を決定するための、プーリング層および少なくとも1つのリグレッサ層と、を備える、直方体検出器と、を記憶するように構成される、非一過性メモリと、非一過性メモリと通信する、ハードウェアプロセッサであって、実行可能命令によって、画像を受信し、第1のCNNの複数の畳み込み層および非畳み込み層および画像を使用して、畳み込み特徴マップを生成し、RPNを使用して、直方体を画像の直方体画像場所に備える少なくとも1つのRoIを決定し、プーリング層および直方体画像場所を使用して、直方体を備えるRoIに対応する畳み込み特徴マップのサブマップを決定し、少なくとも1つのリグレッサ層および直方体を備えるRoIに対応する畳み込み特徴マップのサブマップを使用して、精緻化された直方体画像場所における精緻化されたRoIおよび直方体の表現を決定するようにプログラムされる、ハードウェアプロセッサとを備える。
本明細書に説明される、および/または添付される図に描写されるプロセス、方法、およびアルゴリズムはそれぞれ、具体的かつ特定のコンピュータ命令を実行するように構成される、1つ以上の物理的コンピューティングシステム、ハードウェアコンピュータプロセッサ、特定用途向け回路、および/または電子ハードウェアによって実行される、コードモジュールにおいて具現化され、それによって完全または部分的に自動化され得る。例えば、コンピューティングシステムは、具体的コンピュータ命令でプログラムされた汎用コンピュータ(例えば、サーバ)または専用コンピュータ、専用回路等を含むことができる。コードモジュールは、実行可能プログラムにコンパイルおよびリンクされ得る、動的リンクライブラリ内にインストールされ得る、または解釈されるプログラミング言語において書き込まれ得る。いくつかの実装では、特定の動作および方法が、所与の機能に特有の回路によって実施され得る。
Claims (18)
- 実行可能命令を記憶するように構成された非一過性メモリと、
前記非一過性メモリと通信する1つ以上のハードウェアプロセッサと
を備えるシステムであって、前記1つ以上のハードウェアプロセッサは、
画像にアクセスすることと、
第1の畳み込みニューラルネットワーク(CNN)および前記画像に少なくとも部分的に基づいて、畳み込み特徴マップを生成することと、
領域提案ネットワーク(RPN)に少なくとも部分的に基づいて、少なくとも1つの着目領域(RoI)を決定することであって、前記RoIは、直方体を前記画像の直方体画像場所に備える、ことと、
プーリング層および前記直方体画像場所に少なくとも部分的に基づいて、前記RoIに対応する前記畳み込み特徴マップのサブマップを決定することと、
少なくとも1つのリグレッサ層と前記RoIに対応する前記畳み込み特徴マップの前記サブマップとに少なくとも部分的に基づいて、精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現を決定することと、
前記精緻化された直方体画像場所に少なくとも部分的に基づいて、前記精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層と、前記少なくとも1つのリグレッサ層と、前記精緻化されたRoIに対応する前記畳み込み特徴マップの前記精緻化されたサブマップとに少なくとも部分的に基づいて、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたRoIおよび前記直方体のさらなる定義された表現を決定することと
を行うために前記実行可能命令によってプログラムされている、システム。 - 前記直方体画像場所または前記精緻化された直方体画像場所は、2次元(2D)境界ボックスとして表される、請求項1に記載のシステム。
- 前記少なくとも1つのリグレッサ層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、請求項1に記載のシステム。
- 前記RPNは、深層ニューラルネットワーク(DNN)を備える、請求項1に記載のシステム。
- 前記直方体の表現は、前記直方体のパラメータ化された表現を備える、請求項1に記載のシステム。
- 前記直方体のパラメータ化された表現は、前記画像内の直方体の複数の特徴点の場所を備える、請求項5に記載のシステム。
- 前記パラメータ化された表現は、前記画像の中心からの前記直方体の複数の特徴点の正規化されたオフセットを備える、請求項6に記載のシステム。
- 前記直方体のパラメータ化された表現は、消失点パラメータ化を備える、請求項5に記載のシステム。
- 前記1つ以上のハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現に基づいて、ユーザと相互作用する
ようにプログラムされている、請求項1に記載のシステム。 - 前記直方体は、定常ボックスに対応し、
前記ユーザと相互作用するために、前記1つ以上のハードウェアプロセッサはさらに、
前記直方体の精緻化された画像場所および前記直方体の表現に基づいて、前記定常ボックスに関連してキャラクタ動画を生成する
ようにプログラムされている、請求項9に記載のシステム。 - 前記直方体は、手で持てるサイズの直方体に対応し、
前記システムのユーザと相互作用するために、前記1つ以上のハードウェアプロセッサはさらに、
前記直方体の表現を使用して、前記直方体の姿勢を決定することと、
前記直方体の姿勢に基づいて、前記システムのユーザと相互作用することと
を行うようにプログラムされている、請求項9に記載のシステム。 - 前記直方体は、第2のCNNによって認識不可能な稀有なオブジェクトに対応し、
前記システムのユーザと相互作用するために、前記1つ以上のハードウェアプロセッサはさらに、
前記ユーザに、前記第2のCNNによって認識不可能な稀有なオブジェクトが検出されたことの通知を提供する
ようにプログラムされている、請求項9に記載のシステム。 - 前記直方体は、マーカに対応し、
前記1つ以上のハードウェアプロセッサはさらに、
前記精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現に基づいて、同時位置特定およびマッピング(SLAM)を実施する
ようにプログラムされている、請求項1に記載のシステム。 - 直方体検出および特徴点位置特定のための方法であって、1つ以上のハードウェアプロセッサの制御下で、
画像にアクセスすることと、
第1の畳み込みニューラルネットワーク(CNN)および前記画像に少なくとも部分的に基づいて、畳み込み特徴マップを生成することと、
直方体検出器の領域提案ネットワーク(RPN)に少なくとも部分的に基づいて、少なくとも1つの着目領域(RoI)を決定することであって、前記RoIは、直方体を前記画像の直方体画像場所に備える、ことと、
前記直方体検出器のプーリング層および前記直方体画像場所に少なくとも部分的に基づいて、前記RoIに対応する前記畳み込み特徴マップのサブマップを決定することと、
前記直方体検出器の少なくとも1つのリグレッサ層および前記RoIに対応する前記畳み込み特徴マップの前記サブマップに少なくとも部分的に基づいて、精緻化された直方体画像場所における精緻化されたRoIおよび前記直方体の表現を決定することと、
前記精緻化された直方体画像場所に少なくとも部分的に基づいて、前記精緻化されたRoIに対応する前記畳み込み特徴マップの精緻化されたサブマップを決定することと、
前記プーリング層と、前記少なくとも1つのリグレッサ層と、前記精緻化されたRoIに対応する前記畳み込み特徴マップの前記精緻化されたサブマップとに少なくとも部分的に基づいて、さらなる精緻化された直方体画像場所におけるさらなる精緻化されたRoIおよび前記直方体のさらなる定義された表現を決定することと
を含む、方法。 - 前記直方体画像場所または前記精緻化された直方体画像場所は、2次元(2D)境界ボックスとして表される、請求項14に記載の方法。
- 前記第1のCNNの非畳み込み層は、正規化層、明度正規化層、バッチ正規化層、正規化線形層、アップサンプリング層、連結層、プーリング層、ソフトサイン層、または任意のそれらの組み合わせを備える、請求項14に記載の方法。
- 前記直方体の表現は、前記画像内の直方体の複数の特徴点の場所を備える前記直方体のパラメータ化された表現を備える、請求項14に記載の方法。
- 前記少なくとも1つのリグレッサ層は、全結合層、非全結合層、または任意のそれらの組み合わせを備える、請求項14に記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022101621A JP7151016B2 (ja) | 2016-11-15 | 2022-06-24 | 直方体検出のための深層機械学習システム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662422547P | 2016-11-15 | 2016-11-15 | |
US62/422,547 | 2016-11-15 | ||
JP2019524982A JP6854344B2 (ja) | 2016-11-15 | 2017-11-14 | 直方体検出のための深層機械学習システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019524982A Division JP6854344B2 (ja) | 2016-11-15 | 2017-11-14 | 直方体検出のための深層機械学習システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022101621A Division JP7151016B2 (ja) | 2016-11-15 | 2022-06-24 | 直方体検出のための深層機械学習システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021108138A JP2021108138A (ja) | 2021-07-29 |
JP7096925B2 true JP7096925B2 (ja) | 2022-07-06 |
Family
ID=62108632
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019524982A Active JP6854344B2 (ja) | 2016-11-15 | 2017-11-14 | 直方体検出のための深層機械学習システム |
JP2021041261A Active JP7096925B2 (ja) | 2016-11-15 | 2021-03-15 | 直方体検出のための深層機械学習システム |
JP2022101621A Active JP7151016B2 (ja) | 2016-11-15 | 2022-06-24 | 直方体検出のための深層機械学習システム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019524982A Active JP6854344B2 (ja) | 2016-11-15 | 2017-11-14 | 直方体検出のための深層機械学習システム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022101621A Active JP7151016B2 (ja) | 2016-11-15 | 2022-06-24 | 直方体検出のための深層機械学習システム |
Country Status (9)
Country | Link |
---|---|
US (4) | US10621747B2 (ja) |
EP (1) | EP3542250A4 (ja) |
JP (3) | JP6854344B2 (ja) |
KR (3) | KR102610030B1 (ja) |
CN (2) | CN115097937A (ja) |
AU (2) | AU2017361061B2 (ja) |
CA (1) | CA3043352A1 (ja) |
IL (3) | IL297846B2 (ja) |
WO (1) | WO2018093796A1 (ja) |
Families Citing this family (154)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334831A1 (en) * | 2016-01-28 | 2020-10-22 | Pointgrab Ltd. | Method and system for analyzing occupancy in a space |
KR102648770B1 (ko) | 2016-07-14 | 2024-03-15 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
AU2017361061B2 (en) | 2016-11-15 | 2022-02-03 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US10289925B2 (en) * | 2016-11-29 | 2019-05-14 | Sap Se | Object classification in image data using machine learning models |
EP3549109B1 (en) | 2016-12-05 | 2023-04-19 | Magic Leap, Inc. | Virtual user input controls in a mixed reality environment |
CN108229488B (zh) * | 2016-12-27 | 2021-01-01 | 北京市商汤科技开发有限公司 | 用于检测物体关键点的方法、装置及电子设备 |
US10657376B2 (en) | 2017-03-17 | 2020-05-19 | Magic Leap, Inc. | Room layout estimation methods and techniques |
US10943176B2 (en) * | 2017-03-22 | 2021-03-09 | Ebay Inc. | Visual aspect localization presentation |
US10048753B1 (en) * | 2017-04-20 | 2018-08-14 | Robert C. Brooks | Perspective or gaze based visual identification and location system |
WO2018217280A1 (en) | 2017-05-23 | 2018-11-29 | Walmart Apollo, Llc | Automated inspection system |
US10679428B1 (en) * | 2017-05-26 | 2020-06-09 | Snap Inc. | Neural network-based image stream modification |
AU2018308418A1 (en) | 2017-07-26 | 2020-01-16 | Magic Leap, Inc. | Training a neural network with representations of user interface devices |
CN110019896B (zh) * | 2017-07-28 | 2021-08-13 | 杭州海康威视数字技术股份有限公司 | 一种图像检索方法、装置及电子设备 |
CN108022238B (zh) * | 2017-08-09 | 2020-07-03 | 深圳科亚医疗科技有限公司 | 对3d图像中对象进行检测的方法、计算机存储介质和系统 |
CN110663048B (zh) * | 2017-09-05 | 2023-10-24 | 松下电器(美国)知识产权公司 | 用于深度神经网络的执行方法、执行装置、学习方法、学习装置以及记录介质 |
CN109819675B (zh) * | 2017-09-12 | 2023-08-25 | 松下知识产权经营株式会社 | 图像生成装置以及图像生成方法 |
US10719951B2 (en) | 2017-09-20 | 2020-07-21 | Magic Leap, Inc. | Personalized neural network for eye tracking |
US10438371B2 (en) | 2017-09-22 | 2019-10-08 | Zoox, Inc. | Three-dimensional bounding box from two-dimensional image and point cloud data |
US10402724B2 (en) * | 2017-10-03 | 2019-09-03 | StradVision, Inc. | Method for acquiring a pseudo-3D box from a 2D bounding box by regression analysis and learning device and testing device using the same |
US10635813B2 (en) | 2017-10-06 | 2020-04-28 | Sophos Limited | Methods and apparatus for using machine learning on multiple file fragments to identify malware |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
CA3078530A1 (en) | 2017-10-26 | 2019-05-02 | Magic Leap, Inc. | Gradient normalization systems and methods for adaptive loss balancing in deep multitask networks |
US10565729B2 (en) * | 2017-12-03 | 2020-02-18 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
WO2019145912A1 (en) | 2018-01-26 | 2019-08-01 | Sophos Limited | Methods and apparatus for detection of malicious documents using machine learning |
US11941491B2 (en) | 2018-01-31 | 2024-03-26 | Sophos Limited | Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content |
US10685239B2 (en) * | 2018-03-18 | 2020-06-16 | Tusimple, Inc. | System and method for lateral vehicle detection |
US11448632B2 (en) | 2018-03-19 | 2022-09-20 | Walmart Apollo, Llc | System and method for the determination of produce shelf life |
US11669746B2 (en) | 2018-04-11 | 2023-06-06 | Samsung Electronics Co., Ltd. | System and method for active machine learning |
US10690457B2 (en) * | 2018-04-26 | 2020-06-23 | AI Incorporated | Method and apparatus for overexposing images captured by drones |
WO2019222401A2 (en) | 2018-05-17 | 2019-11-21 | Magic Leap, Inc. | Gradient adversarial training of neural networks |
US11244027B2 (en) | 2018-05-30 | 2022-02-08 | Samsung Electronics Co., Ltd. | Processor, electronics apparatus and control method thereof |
CN108830199B (zh) * | 2018-05-31 | 2021-04-16 | 京东方科技集团股份有限公司 | 识别交通灯信号的方法、装置、可读介质及电子设备 |
US11373411B1 (en) | 2018-06-13 | 2022-06-28 | Apple Inc. | Three-dimensional object estimation using two-dimensional annotations |
US11080562B1 (en) | 2018-06-15 | 2021-08-03 | Apple Inc. | Key point recognition with uncertainty measurement |
US10725629B2 (en) * | 2018-06-25 | 2020-07-28 | Google Llc | Identifying and controlling smart devices |
WO2020023399A1 (en) | 2018-07-23 | 2020-01-30 | Magic Leap, Inc. | Deep predictor recurrent neural network for head pose prediction |
WO2020023762A1 (en) * | 2018-07-26 | 2020-01-30 | Walmart Apollo, Llc | System and method for produce detection and classification |
CN109271842B (zh) * | 2018-07-26 | 2024-08-09 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的通用物体检测方法、系统、终端和存储介质 |
CN109190467B (zh) * | 2018-07-26 | 2024-08-16 | 北京纵目安驰智能科技有限公司 | 一种基于关键点回归的多物体检测方法、系统、终端和存储介质 |
US10769543B2 (en) | 2018-08-01 | 2020-09-08 | Forcepoint Llc | Double-layered image classification endpoint solution |
CN110569696A (zh) * | 2018-08-31 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 用于车辆部件识别的神经网络系统、方法和装置 |
US10832437B2 (en) * | 2018-09-05 | 2020-11-10 | Rakuten, Inc. | Method and apparatus for assigning image location and direction to a floorplan diagram based on artificial intelligence |
US10839234B2 (en) | 2018-09-12 | 2020-11-17 | Tusimple, Inc. | System and method for three-dimensional (3D) object detection |
US10733800B2 (en) * | 2018-09-17 | 2020-08-04 | Facebook Technologies, Llc | Reconstruction of essential visual cues in mixed reality applications |
WO2020061702A1 (en) * | 2018-09-26 | 2020-04-02 | Element Ai Inc. | System and method for bounding box tool |
US11120592B2 (en) | 2018-09-26 | 2021-09-14 | Element Ai Inc. | System and method for oriented bounding box tool defining an orientation of a tilted or rotated object |
US11315278B1 (en) | 2018-09-27 | 2022-04-26 | Apple Inc. | Object detection and orientation estimation |
US10304009B1 (en) * | 2018-10-08 | 2019-05-28 | StradVision, Inc. | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same |
US10528867B1 (en) * | 2018-10-08 | 2020-01-07 | StradVision, Inc. | Learning method and learning device for neural network at adaptive learning rate, and testing method and testing device using the same |
CN109472205B (zh) * | 2018-10-09 | 2021-07-30 | 深兰科技(上海)有限公司 | 商品识别方法、商品识别装置及存储介质 |
US11715059B2 (en) | 2018-10-12 | 2023-08-01 | Walmart Apollo, Llc | Systems and methods for condition compliance |
US11947668B2 (en) | 2018-10-12 | 2024-04-02 | Sophos Limited | Methods and apparatus for preserving information between layers within a neural network |
US10438082B1 (en) * | 2018-10-26 | 2019-10-08 | StradVision, Inc. | Learning method, learning device for detecting ROI on the basis of bottom lines of obstacles and testing method, testing device using the same |
CN109685762A (zh) * | 2018-11-09 | 2019-04-26 | 五邑大学 | 一种基于多尺度深度语义分割网络的天线下倾角测量方法 |
EP3881232A4 (en) | 2018-11-15 | 2022-08-10 | Magic Leap, Inc. | DEEP NEURON NETWORK POSE ESTIMATION SYSTEM |
US11010592B2 (en) * | 2018-11-15 | 2021-05-18 | Toyota Research Institute, Inc. | System and method for lifting 3D representations from monocular images |
WO2020106332A1 (en) | 2018-11-20 | 2020-05-28 | Walmart Apollo, Llc | Systems and methods for assessing products |
CN109527733A (zh) * | 2018-11-22 | 2019-03-29 | 广东工业大学 | 一种智能拐杖 |
US11164326B2 (en) | 2018-12-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for calculating depth map |
EP3899874A4 (en) * | 2018-12-20 | 2022-09-07 | Packsize, LLC | SYSTEMS AND METHODS FOR SIZING OBJECTS BASED ON PARTIAL VISUAL INFORMATION |
US10839606B2 (en) * | 2018-12-28 | 2020-11-17 | National Tsing Hua University | Indoor scene structural estimation system and estimation method thereof based on deep learning network |
US10402692B1 (en) * | 2019-01-22 | 2019-09-03 | StradVision, Inc. | Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same |
US10346693B1 (en) * | 2019-01-22 | 2019-07-09 | StradVision, Inc. | Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same |
US10509987B1 (en) | 2019-01-22 | 2019-12-17 | StradVision, Inc. | Learning method and learning device for object detector based on reconfigurable network for optimizing customers' requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same |
US10395140B1 (en) * | 2019-01-23 | 2019-08-27 | StradVision, Inc. | Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same |
CN109886121B (zh) * | 2019-01-23 | 2021-04-06 | 浙江大学 | 一种遮挡鲁棒的人脸关键点定位方法 |
US10387753B1 (en) * | 2019-01-23 | 2019-08-20 | StradVision, Inc. | Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same |
US10496899B1 (en) * | 2019-01-25 | 2019-12-03 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same |
US10402978B1 (en) * | 2019-01-25 | 2019-09-03 | StradVision, Inc. | Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same |
US10445611B1 (en) * | 2019-01-25 | 2019-10-15 | StradVision, Inc. | Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same |
US10410120B1 (en) * | 2019-01-25 | 2019-09-10 | StradVision, Inc. | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same |
US10551845B1 (en) * | 2019-01-25 | 2020-02-04 | StradVision, Inc. | Method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same |
US10373323B1 (en) * | 2019-01-29 | 2019-08-06 | StradVision, Inc. | Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles |
US10726303B1 (en) * | 2019-01-30 | 2020-07-28 | StradVision, Inc. | Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same |
US10373027B1 (en) * | 2019-01-30 | 2019-08-06 | StradVision, Inc. | Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same |
US10713815B1 (en) * | 2019-01-31 | 2020-07-14 | StradVision, Inc. | Method and device for supporting administrators to processes of object detectors to provide logical driving |
US11574052B2 (en) * | 2019-01-31 | 2023-02-07 | Sophos Limited | Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts |
CN109948446B (zh) * | 2019-02-20 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种视频片段处理方法、装置及计算机可读存储介质 |
US11126835B2 (en) | 2019-02-21 | 2021-09-21 | Tata Consultancy Services Limited | Hand detection in first person view |
CN110070519B (zh) * | 2019-03-13 | 2023-07-14 | 西安电子科技大学 | 基于相位一致性的拼接图像质量测定方法、图像拼接系统 |
US11023763B2 (en) * | 2019-03-19 | 2021-06-01 | Boston Dynamics, Inc. | Detecting boxes |
US10984560B1 (en) * | 2019-03-29 | 2021-04-20 | Amazon Technologies, Inc. | Computer vision using learnt lossy image compression representations |
US11222069B2 (en) * | 2019-03-31 | 2022-01-11 | Cortica Ltd. | Low-power calculation of a signature of a media unit |
US11205112B2 (en) * | 2019-04-01 | 2021-12-21 | Honeywell International Inc. | Deep neural network-based inertial measurement unit (IMU) sensor compensation method |
CN110163081A (zh) * | 2019-04-02 | 2019-08-23 | 宜通世纪物联网研究院(广州)有限公司 | 基于ssd的实时区域入侵检测方法、系统及存储介质 |
IL287060B2 (en) | 2019-04-11 | 2024-08-01 | Agilent Technologies Inc | Deep learning based training of momentary segmentation through regression layers |
EP3942462B1 (en) * | 2019-04-23 | 2024-03-13 | L'oreal | Convolution neural network based landmark tracker |
US11282180B1 (en) | 2019-04-24 | 2022-03-22 | Apple Inc. | Object detection with position, pose, and shape estimation |
FR3095878B1 (fr) * | 2019-05-10 | 2021-10-08 | Univ De Brest | Procédé d'analyse automatique d'images pour reconnaître automatiquement au moins une caractéristique rare |
WO2020230244A1 (ja) * | 2019-05-13 | 2020-11-19 | 日本電信電話株式会社 | 学習方法、学習プログラム、および、学習装置 |
CN113892127A (zh) | 2019-05-17 | 2022-01-04 | 奇跃公司 | 使用神经网络和角点检测器进行角点检测的方法和装置 |
US11335021B1 (en) | 2019-06-11 | 2022-05-17 | Cognex Corporation | System and method for refining dimensions of a generally cuboidal 3D object imaged by 3D vision system and controls for the same |
US11605177B2 (en) | 2019-06-11 | 2023-03-14 | Cognex Corporation | System and method for refining dimensions of a generally cuboidal 3D object imaged by 3D vision system and controls for the same |
US20200394458A1 (en) * | 2019-06-17 | 2020-12-17 | Nvidia Corporation | Weakly-supervised object detection using one or more neural networks |
CN110288033B (zh) * | 2019-06-28 | 2023-04-07 | 广西民族大学 | 一种基于卷积神经网络的甘蔗蔗节特征识别与定位方法 |
CN110503088B (zh) * | 2019-07-03 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于深度学习的目标检测方法及电子装置 |
EP3772042A3 (en) | 2019-08-02 | 2021-04-07 | Samsung Electronics Co., Ltd. | Electronic apparatus for augmented reality and control method thereof |
US12014320B2 (en) | 2019-08-12 | 2024-06-18 | Walmart Apollo, Llc | Systems, devices, and methods for estimating stock level with depth sensor |
CN110503643B (zh) * | 2019-08-23 | 2021-10-01 | 闽江学院 | 一种基于多尺度快速场景检索的目标检测方法和装置 |
KR20210029586A (ko) * | 2019-09-06 | 2021-03-16 | 엘지전자 주식회사 | 이미지 내의 특징적 객체에 기반하여 슬램을 수행하는 방법 및 이를 구현하는 로봇과 클라우드 서버 |
KR20210030147A (ko) * | 2019-09-09 | 2021-03-17 | 삼성전자주식회사 | 3d 렌더링 방법 및 장치 |
KR20210036574A (ko) | 2019-09-26 | 2021-04-05 | 삼성전자주식회사 | 자세 추정 방법 및 장치 |
US11532093B2 (en) | 2019-10-10 | 2022-12-20 | Intermap Technologies, Inc. | First floor height estimation from optical images |
CN110738673A (zh) * | 2019-10-21 | 2020-01-31 | 哈尔滨理工大学 | 基于实例分割的视觉slam方法 |
WO2021078377A1 (en) * | 2019-10-23 | 2021-04-29 | Huawei Technologies Co., Ltd. | Feature detector and descriptor |
US11580333B2 (en) * | 2019-11-12 | 2023-02-14 | Objectvideo Labs, Llc | Training image classifiers |
CN110929774B (zh) * | 2019-11-18 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 图像中目标物的分类方法、模型训练方法和装置 |
CN111160111B (zh) * | 2019-12-09 | 2021-04-30 | 电子科技大学 | 一种基于深度学习的人体关键点检测方法 |
CN111126385A (zh) * | 2019-12-13 | 2020-05-08 | 哈尔滨工程大学 | 一种可变形活体小目标的深度学习智能识别方法 |
US11776215B1 (en) * | 2019-12-16 | 2023-10-03 | Scale AI, Inc. | Pre-labeling data with cuboid annotations |
JP7310927B2 (ja) * | 2019-12-26 | 2023-07-19 | 日本電気株式会社 | 物体追跡装置、物体追跡方法及び記録媒体 |
US11200671B2 (en) * | 2019-12-31 | 2021-12-14 | International Business Machines Corporation | Reference image guided object detection in medical image processing |
CN111369617B (zh) * | 2019-12-31 | 2022-06-21 | 浙江大学 | 一种基于卷积神经网络的单目视图的3d目标检测方法 |
CN111191621B (zh) * | 2020-01-03 | 2024-06-28 | 北京同方软件有限公司 | 一种大焦距监控场景下多尺度目标的快速精准识别方法 |
US11574494B2 (en) | 2020-01-27 | 2023-02-07 | Ford Global Technologies, Llc | Training a neural network to determine pedestrians |
WO2021155029A1 (en) * | 2020-01-28 | 2021-08-05 | Embodied Intelligence Inc. | Confidence-based bounding boxes for three dimensional objects |
EP3866113A1 (en) | 2020-02-17 | 2021-08-18 | Agile Robots AG | Image segmentation methods and apparatus |
CN111325766B (zh) * | 2020-02-20 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 三维边缘检测方法、装置、存储介质和计算机设备 |
US11481862B2 (en) * | 2020-02-26 | 2022-10-25 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for real-time, simultaneous object detection and semantic segmentation |
AU2021259170B2 (en) * | 2020-04-21 | 2024-02-08 | Google Llc | Supervised contrastive learning with multiple positive examples |
US11270459B2 (en) * | 2020-04-22 | 2022-03-08 | Dell Products L.P. | Enterprise system augmented reality detection |
US11604946B2 (en) * | 2020-05-06 | 2023-03-14 | Ford Global Technologies, Llc | Visual behavior guided object detection |
US11494932B2 (en) * | 2020-06-02 | 2022-11-08 | Naver Corporation | Distillation of part experts for whole-body pose estimation |
KR102270198B1 (ko) * | 2020-06-08 | 2021-06-28 | 주식회사 에스아이에이 | 앵커-프리 rpn 기반의 물체 검출 방법 |
KR102429272B1 (ko) * | 2020-06-15 | 2022-08-04 | 주식회사 베이리스 | 딥러닝에 기반한 객체 검출 장치 및 그 방법 |
US11915419B1 (en) | 2020-06-25 | 2024-02-27 | Verily Life Sciences Llc | Auto-normalization for machine learning |
WO2022016368A1 (zh) * | 2020-07-21 | 2022-01-27 | 深圳市大疆创新科技有限公司 | 3d框标注方法、设备及计算机可读存储介质 |
US10902290B1 (en) * | 2020-08-04 | 2021-01-26 | Superb Ai Co., Ltd. | Methods for training auto labeling device and performing auto labeling related to object detection while performing automatic verification by using uncertainty scores and devices using the same |
WO2022081717A1 (en) * | 2020-10-13 | 2022-04-21 | Flyreel, Inc. | Generating measurements of physical structures and environments through automated analysis of sensor data |
KR20220052620A (ko) | 2020-10-21 | 2022-04-28 | 삼성전자주식회사 | 객체 추적 방법 및 이를 수행하는 장치 |
CN112464769A (zh) * | 2020-11-18 | 2021-03-09 | 西北工业大学 | 一种基于一致多阶段检测的高分遥感图像目标检测方法 |
CN112529005B (zh) * | 2020-12-11 | 2022-12-06 | 西安电子科技大学 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
CN112766185B (zh) * | 2021-01-22 | 2022-06-14 | 燕山大学 | 基于深度学习的头部姿态监控方法、装置及系统 |
US11551366B2 (en) * | 2021-03-05 | 2023-01-10 | Intermap Technologies, Inc. | System and methods for correcting terrain elevations under forest canopy |
CN113065402B (zh) * | 2021-03-05 | 2022-12-09 | 四川翼飞视科技有限公司 | 一种基于变形注意力机制的人脸检测方法 |
US11922640B2 (en) | 2021-03-08 | 2024-03-05 | Toyota Research Institute, Inc. | Semi-supervised 3D object tracking in videos via 2D semantic keypoints |
US11710254B2 (en) * | 2021-04-07 | 2023-07-25 | Ford Global Technologies, Llc | Neural network object detection |
US12010129B2 (en) | 2021-04-23 | 2024-06-11 | Sophos Limited | Methods and apparatus for using machine learning to classify malicious infrastructure |
US11557129B2 (en) | 2021-04-27 | 2023-01-17 | Argo AI, LLC | Systems and methods for producing amodal cuboids |
US11854280B2 (en) | 2021-04-27 | 2023-12-26 | Toyota Research Institute, Inc. | Learning monocular 3D object detection from 2D semantic keypoint detection |
CN113379794B (zh) * | 2021-05-19 | 2023-07-25 | 重庆邮电大学 | 基于注意力-关键点预测模型的单目标跟踪系统及方法 |
WO2022261772A1 (en) * | 2021-06-16 | 2022-12-22 | 3Rdi Laboratory Incorporated | Deep-learning method for automated content creation in augmented and virtual reality |
US11978259B2 (en) | 2021-07-09 | 2024-05-07 | Ford Global Technologies, Llc | Systems and methods for particle filter tracking |
CN113343991B (zh) * | 2021-08-02 | 2023-06-09 | 四川新网银行股份有限公司 | 一种特征内增强的弱监督学习方法 |
US20230053464A1 (en) * | 2021-08-19 | 2023-02-23 | Data-Core Systems, Inc. | Systems, Methods, and Devices for Automatically Converting Explanation of Benefits (EOB) Printable Documents into Electronic Format using Artificial Intelligence Techniques |
US12056888B2 (en) | 2021-09-07 | 2024-08-06 | Intermap Technologies, Inc. | Methods and apparatuses for calculating building heights from mono imagery |
US12073588B2 (en) | 2021-09-24 | 2024-08-27 | Ford Global Technologies, Llc | Neural network object pose determination |
CN113837965B (zh) * | 2021-09-26 | 2024-06-18 | 北京百度网讯科技有限公司 | 图像清晰度识别方法、装置、电子设备及存储介质 |
US11417069B1 (en) * | 2021-10-05 | 2022-08-16 | Awe Company Limited | Object and camera localization system and localization method for mapping of the real world |
CN113723377B (zh) * | 2021-11-02 | 2022-01-11 | 南京信息工程大学 | 一种基于ld-ssd网络的交通标志检测方法 |
KR102599192B1 (ko) * | 2022-04-19 | 2023-11-09 | 주식회사 인피닉 | 객체 검출 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
CN114639102B (zh) * | 2022-05-11 | 2022-07-22 | 珠海横琴圣澳云智科技有限公司 | 基于关键点与尺寸回归的细胞分割方法和装置 |
US11776206B1 (en) | 2022-12-23 | 2023-10-03 | Awe Company Limited | Extended reality system and extended reality method with two-way digital interactive digital twins |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015157526A1 (en) | 2014-04-09 | 2015-10-15 | Entrupy Inc. | Authenticating physical objects using machine learning from microscopic variations |
US20150332474A1 (en) | 2014-05-18 | 2015-11-19 | Edge 3 Technologies, Inc. | Orthogonal and Collaborative Disparity Decomposition |
Family Cites Families (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5291560A (en) | 1991-07-15 | 1994-03-01 | Iri Scan Incorporated | Biometric personal identification system based on iris analysis |
US6222525B1 (en) | 1992-03-05 | 2001-04-24 | Brad A. Armstrong | Image controllers with sheet connected sensors |
US5583795A (en) | 1995-03-17 | 1996-12-10 | The United States Of America As Represented By The Secretary Of The Army | Apparatus for measuring eye gaze and fixation duration, and method therefor |
US5670988A (en) | 1995-09-05 | 1997-09-23 | Interlink Electronics, Inc. | Trigger operated electronic device |
US7856055B2 (en) | 2002-03-13 | 2010-12-21 | Imax Corporation | Systems and methods for digitally re-mastering or otherwise modifying motion pictures or other image sequences data |
US7508961B2 (en) * | 2003-03-12 | 2009-03-24 | Eastman Kodak Company | Method and system for face detection in digital images |
US8098901B2 (en) | 2005-01-26 | 2012-01-17 | Honeywell International Inc. | Standoff iris recognition system |
KR20050025927A (ko) | 2003-09-08 | 2005-03-14 | 유웅덕 | 홍채인식을 위한 동공 검출 방법 및 형상기술자 추출방법과 그를 이용한 홍채 특징 추출 장치 및 그 방법과홍채인식 시스템 및 그 방법 |
USD514570S1 (en) | 2004-06-24 | 2006-02-07 | Microsoft Corporation | Region of a fingerprint scanning device with an illuminated ring |
US7248720B2 (en) | 2004-10-21 | 2007-07-24 | Retica Systems, Inc. | Method and system for generating a combined retina/iris pattern biometric |
US20070052672A1 (en) | 2005-09-08 | 2007-03-08 | Swisscom Mobile Ag | Communication device, system and method |
US20070081123A1 (en) | 2005-10-07 | 2007-04-12 | Lewis Scott W | Digital eyewear |
US8696113B2 (en) | 2005-10-07 | 2014-04-15 | Percept Technologies Inc. | Enhanced optical and perceptual digital eyewear |
US11428937B2 (en) | 2005-10-07 | 2022-08-30 | Percept Technologies | Enhanced optical and perceptual digital eyewear |
JP4824420B2 (ja) | 2006-02-07 | 2011-11-30 | アイテック株式会社 | 視線ベクトル検出方法及び同装置 |
JP4894369B2 (ja) * | 2006-06-19 | 2012-03-14 | 富士通株式会社 | 3次元モデルの画像処理装置 |
US7970179B2 (en) | 2006-09-25 | 2011-06-28 | Identix Incorporated | Iris data extraction |
US8363783B2 (en) | 2007-06-04 | 2013-01-29 | Oraya Therapeutics, Inc. | Method and device for ocular alignment and coupling of ocular structures |
JP5088024B2 (ja) | 2007-07-11 | 2012-12-05 | 沖電気工業株式会社 | 試供品配布システム、試供品配布情報サーバ、試供品配布方法及び試供品配布情報処理プログラム |
US20090129591A1 (en) | 2007-11-21 | 2009-05-21 | Hayes Gregory A | Techniques for Securing Document Content in Print and Electronic Form |
US8098891B2 (en) | 2007-11-29 | 2012-01-17 | Nec Laboratories America, Inc. | Efficient multi-hypothesis multi-human 3D tracking in crowded scenes |
US8064653B2 (en) | 2007-11-29 | 2011-11-22 | Viewdle, Inc. | Method and system of person identification by facial image |
US8411910B2 (en) | 2008-04-17 | 2013-04-02 | Biometricore, Inc. | Computationally efficient feature extraction and matching iris recognition |
WO2010003044A2 (en) | 2008-07-03 | 2010-01-07 | Nec Laboratories America, Inc. | Epithelial layer detector and related methods |
WO2010129074A1 (en) | 2009-01-14 | 2010-11-11 | Indiana University Research & Technology Corporation | System and method for identifying a person with reference to a sclera image |
US8374404B2 (en) | 2009-02-13 | 2013-02-12 | Raytheon Company | Iris recognition using hyper-spectral signatures |
US20100232654A1 (en) | 2009-03-11 | 2010-09-16 | Harris Corporation | Method for reconstructing iris scans through novel inpainting techniques and mosaicing of partial collections |
WO2011091326A1 (en) | 2010-01-22 | 2011-07-28 | Optimedica Corporation | Apparatus for automated placement of scanned laser capsulorhexis incisions |
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
US20150309316A1 (en) | 2011-04-06 | 2015-10-29 | Microsoft Technology Licensing, Llc | Ar glasses with predictive control of external device based on event input |
US8553989B1 (en) * | 2010-04-27 | 2013-10-08 | Hrl Laboratories, Llc | Three-dimensional (3D) object recognition system using region of interest geometric features |
US20120092329A1 (en) * | 2010-10-13 | 2012-04-19 | Qualcomm Incorporated | Text-based 3d augmented reality |
US9304319B2 (en) | 2010-11-18 | 2016-04-05 | Microsoft Technology Licensing, Llc | Automatic focus improvement for augmented reality displays |
US9691289B2 (en) | 2010-12-22 | 2017-06-27 | Brightstar Learning | Monotonous game-like task to promote effortless automatic recognition of sight words |
CA2822978C (en) | 2010-12-24 | 2019-02-19 | Hong Hua | An ergonomic head mounted display device and optical system |
US10156722B2 (en) | 2010-12-24 | 2018-12-18 | Magic Leap, Inc. | Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality |
JP6316186B2 (ja) | 2011-05-06 | 2018-04-25 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 広範囲同時遠隔ディジタル提示世界 |
US10795448B2 (en) | 2011-09-29 | 2020-10-06 | Magic Leap, Inc. | Tactile glove for human-computer interaction |
US20130159939A1 (en) | 2011-10-12 | 2013-06-20 | Qualcomm Incorporated | Authenticated gesture recognition |
RU2017115669A (ru) | 2011-10-28 | 2019-01-28 | Мэджик Лип, Инк. | Система и способ для дополненной и виртуальной реальности |
KR102116697B1 (ko) | 2011-11-23 | 2020-05-29 | 매직 립, 인코포레이티드 | 3차원 가상 및 증강 현실 디스플레이 시스템 |
KR102028732B1 (ko) | 2012-04-05 | 2019-10-04 | 매직 립, 인코포레이티드 | 능동 포비에이션 능력을 갖는 와이드-fov(field of view) 이미지 디바이스들 |
US9310559B2 (en) | 2012-06-11 | 2016-04-12 | Magic Leap, Inc. | Multiple depth plane three-dimensional display using a wave guide reflector array projector |
US9671566B2 (en) | 2012-06-11 | 2017-06-06 | Magic Leap, Inc. | Planar waveguide apparatus with diffraction element(s) and system employing same |
US9141916B1 (en) | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
EP2826414B1 (en) | 2012-07-31 | 2016-11-30 | Japan Science and Technology Agency | Point-of-gaze detection device, point-of-gaze detection method, personal parameter calculating device, personal parameter calculating method, program, and computer-readable storage medium |
US8369595B1 (en) | 2012-08-10 | 2013-02-05 | EyeVerify LLC | Texture features for biometric authentication |
AU2013315607A1 (en) | 2012-09-11 | 2015-04-02 | Magic Leap, Inc | Ergonomic head mounted display device and optical system |
JP2014092940A (ja) | 2012-11-02 | 2014-05-19 | Sony Corp | 画像表示装置及び画像表示方法、並びにコンピューター・プログラム |
US9195890B2 (en) | 2012-12-10 | 2015-11-24 | Sri International | Iris biometric matching system |
IL293789B2 (en) | 2013-01-15 | 2023-08-01 | Magic Leap Inc | A system for scanning electromagnetic imaging radiation |
CN105188516B (zh) | 2013-03-11 | 2017-12-22 | 奇跃公司 | 用于增强和虚拟现实的系统与方法 |
US9147154B2 (en) | 2013-03-13 | 2015-09-29 | Google Inc. | Classifying resources using a deep network |
KR102458124B1 (ko) | 2013-03-15 | 2022-10-21 | 매직 립, 인코포레이티드 | 디스플레이 시스템 및 방법 |
CN103218825B (zh) * | 2013-03-15 | 2015-07-08 | 华中科技大学 | 一种尺度不变的时空兴趣点快速检测方法 |
US9269003B2 (en) * | 2013-04-30 | 2016-02-23 | Qualcomm Incorporated | Diminished and mediated reality effects from reconstruction |
WO2014182769A1 (en) | 2013-05-07 | 2014-11-13 | The Johns Hopkins University | Automated and non-mydriatic fundus-perimetry camera for irreversible eye diseases |
US9275308B2 (en) | 2013-05-31 | 2016-03-01 | Google Inc. | Object detection using deep neural networks |
US9874749B2 (en) | 2013-11-27 | 2018-01-23 | Magic Leap, Inc. | Virtual and augmented reality systems and methods |
US10262462B2 (en) | 2014-04-18 | 2019-04-16 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
US20140380249A1 (en) | 2013-06-25 | 2014-12-25 | Apple Inc. | Visual recognition of gestures |
CN103431840B (zh) | 2013-07-31 | 2016-01-20 | 北京智谷睿拓技术服务有限公司 | 眼睛光学参数检测系统及方法 |
US9934611B2 (en) * | 2013-09-11 | 2018-04-03 | Qualcomm Incorporated | Structural modeling using depth sensors |
US10025982B2 (en) | 2013-10-08 | 2018-07-17 | Princeton Identity, Inc. | Collecting and targeting marketing data and information based upon iris identification |
KR20150041453A (ko) | 2013-10-08 | 2015-04-16 | 엘지전자 주식회사 | 안경형 영상표시장치 및 그것의 제어방법 |
IL302408B2 (en) | 2013-10-16 | 2024-09-01 | Magic Leap Inc | An augmented or virtual reality head device with intrapupillary distance adjustment |
US9202144B2 (en) | 2013-10-30 | 2015-12-01 | Nec Laboratories America, Inc. | Regionlets with shift invariant neural patterns for object detection |
US10095917B2 (en) | 2013-11-04 | 2018-10-09 | Facebook, Inc. | Systems and methods for facial representation |
JP6236296B2 (ja) * | 2013-11-14 | 2017-11-22 | 株式会社デンソーアイティーラボラトリ | 学習装置、学習プログラム、及び学習方法 |
CN110542938B (zh) | 2013-11-27 | 2023-04-18 | 奇跃公司 | 虚拟和增强现实系统与方法 |
US9857591B2 (en) | 2014-05-30 | 2018-01-02 | Magic Leap, Inc. | Methods and system for creating focal planes in virtual and augmented reality |
US9430829B2 (en) | 2014-01-30 | 2016-08-30 | Case Western Reserve University | Automatic detection of mitosis using handcrafted and convolutional neural network features |
NZ722903A (en) | 2014-01-31 | 2020-05-29 | Magic Leap Inc | Multi-focal display system and method |
CN106461955B (zh) | 2014-01-31 | 2019-08-13 | 奇跃公司 | 显示增强现实的方法 |
KR20150098119A (ko) * | 2014-02-19 | 2015-08-27 | 삼성전자주식회사 | 의료 영상 내 거짓양성 병변후보 제거 시스템 및 방법 |
US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
IL231862A (en) | 2014-04-01 | 2015-04-30 | Superfish Ltd | Image representation using a neural network |
WO2015161307A1 (en) | 2014-04-18 | 2015-10-22 | Magic Leap, Inc. | Systems and methods for augmented and virtual reality |
WO2015164807A1 (en) | 2014-04-25 | 2015-10-29 | Texas State University | Detection of brain injury and subject state with eye movement biometrics |
WO2016018488A2 (en) | 2014-05-09 | 2016-02-04 | Eyefluence, Inc. | Systems and methods for discerning eye signals and continuous biometric identification |
USD759657S1 (en) | 2014-05-19 | 2016-06-21 | Microsoft Corporation | Connector with illumination region |
CN113253476B (zh) | 2014-05-30 | 2022-12-27 | 奇跃公司 | 采用虚拟或增强现实装置生成虚拟内容显示的方法和系统 |
USD752529S1 (en) | 2014-06-09 | 2016-03-29 | Comcast Cable Communications, Llc | Electronic housing with illuminated region |
US9330329B2 (en) | 2014-07-09 | 2016-05-03 | Ditto Labs, Inc. | Systems, methods, and devices for image matching and object recognition in images using minimal feature points |
JPWO2016013269A1 (ja) | 2014-07-22 | 2017-04-27 | ソニー株式会社 | 画像表示装置及び画像表示方法、並びにコンピューター・プログラム |
US9536293B2 (en) | 2014-07-30 | 2017-01-03 | Adobe Systems Incorporated | Image assessment using deep convolutional neural networks |
US20160034811A1 (en) | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
KR102216126B1 (ko) | 2014-07-31 | 2021-02-16 | 삼성전자주식회사 | 정맥 인증을 이용하여 동작하는 웨어러블 디바이스 및 웨어러블 디바이스의 동작 방법 |
US9740963B2 (en) * | 2014-08-05 | 2017-08-22 | Sri International | Multi-dimensional realization of visual content of an image collection |
KR20160020918A (ko) * | 2014-08-14 | 2016-02-24 | 삼성전자주식회사 | 적응형 컴퓨터 보조 진단 장치 및 방법 |
US9659384B2 (en) | 2014-10-03 | 2017-05-23 | EyeEm Mobile GmbH. | Systems, methods, and computer program products for searching and sorting images by aesthetic quality |
EP3204888A4 (en) * | 2014-10-09 | 2017-10-04 | Microsoft Technology Licensing, LLC | Spatial pyramid pooling networks for image processing |
WO2016054802A1 (en) | 2014-10-10 | 2016-04-14 | Beijing Kuangshi Technology Co., Ltd. | Hierarchical interlinked multi-scale convolutional network for image parsing |
KR102276339B1 (ko) | 2014-12-09 | 2021-07-12 | 삼성전자주식회사 | Cnn의 근사화를 위한 학습 장치 및 방법 |
US10691997B2 (en) | 2014-12-24 | 2020-06-23 | Deepmind Technologies Limited | Augmenting neural networks to generate additional outputs |
KR20160096460A (ko) * | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
US9524450B2 (en) * | 2015-03-04 | 2016-12-20 | Accenture Global Services Limited | Digital image processing using convolutional neural networks |
WO2016145379A1 (en) | 2015-03-12 | 2016-09-15 | William Marsh Rice University | Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification |
US9678664B2 (en) | 2015-04-10 | 2017-06-13 | Google Inc. | Neural network for keyboard input decoding |
CN104778464B (zh) * | 2015-05-04 | 2018-06-05 | 中国科学院重庆绿色智能技术研究院 | 一种基于深度卷积神经网络的服装定位检测方法 |
CN107438866B (zh) | 2015-05-13 | 2020-12-01 | 谷歌公司 | 深度立体:学习从现实世界形象预测新视图 |
USD758367S1 (en) | 2015-05-14 | 2016-06-07 | Magic Leap, Inc. | Virtual reality headset |
CN105139454B (zh) * | 2015-08-06 | 2018-01-19 | 北京工业大学 | 一种三维ct图像中肝脏三维感兴趣区域的自动提取方法 |
CN112836664A (zh) | 2015-08-21 | 2021-05-25 | 奇跃公司 | 使用眼睛姿态测量的眼睑形状估计 |
US9767565B2 (en) | 2015-08-26 | 2017-09-19 | Digitalglobe, Inc. | Synthesizing training data for broad area geospatial object detection |
JP6678930B2 (ja) | 2015-08-31 | 2020-04-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム |
CN105160678A (zh) * | 2015-09-02 | 2015-12-16 | 山东大学 | 基于卷积神经网络的无参考立体图像质量评估方法 |
US20170124409A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Cascaded neural network with scale dependent pooling for object detection |
US20170161506A1 (en) | 2015-12-07 | 2017-06-08 | Dell Products L.P. | Information Handling System Encrypted Image Display Through Secondary Device |
US9665799B1 (en) * | 2016-01-29 | 2017-05-30 | Fotonation Limited | Convolutional neural network |
US10497089B2 (en) * | 2016-01-29 | 2019-12-03 | Fotonation Limited | Convolutional neural network |
USD805734S1 (en) | 2016-03-04 | 2017-12-26 | Nike, Inc. | Shirt |
USD794288S1 (en) | 2016-03-11 | 2017-08-15 | Nike, Inc. | Shoe with illuminable sole light sequence |
JP6889728B2 (ja) | 2016-03-11 | 2021-06-18 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 畳み込みニューラルネットワークにおける構造学習 |
CN105956608A (zh) * | 2016-04-21 | 2016-09-21 | 恩泊泰(天津)科技有限公司 | 一种基于深度学习的目标定位、分类算法 |
US10423830B2 (en) | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
CN105975941B (zh) * | 2016-05-31 | 2019-04-12 | 电子科技大学 | 一种基于深度学习的多方向车型检测识别系统 |
CN106097353B (zh) | 2016-06-15 | 2018-06-22 | 北京市商汤科技开发有限公司 | 基于多层次局部区域融合的物体分割方法及装置、计算设备 |
KR102648770B1 (ko) | 2016-07-14 | 2024-03-15 | 매직 립, 인코포레이티드 | 홍채 식별을 위한 딥 뉴럴 네트워크 |
KR102442569B1 (ko) | 2016-07-14 | 2022-09-08 | 매직 립, 인코포레이티드 | 각막 곡률을 이용한 홍채 경계 추정 |
EP3501010B1 (en) * | 2016-08-19 | 2023-11-01 | Movidius Ltd. | Rendering operations using sparse volumetric data |
KR102529137B1 (ko) | 2016-08-22 | 2023-05-03 | 매직 립, 인코포레이티드 | 딥 러닝 센서들을 갖는 증강 현실 디스플레이 디바이스 |
RU2016138608A (ru) | 2016-09-29 | 2018-03-30 | Мэджик Лип, Инк. | Нейронная сеть для сегментации изображения глаза и оценки качества изображения |
US10489680B2 (en) | 2016-10-04 | 2019-11-26 | Magic Leap, Inc. | Efficient data layouts for convolutional neural networks |
AU2017361061B2 (en) | 2016-11-15 | 2022-02-03 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US10657376B2 (en) * | 2017-03-17 | 2020-05-19 | Magic Leap, Inc. | Room layout estimation methods and techniques |
AU2018383539A1 (en) * | 2017-12-14 | 2020-06-18 | Magic Leap, Inc. | Contextual-based rendering of virtual avatars |
-
2017
- 2017-11-14 AU AU2017361061A patent/AU2017361061B2/en active Active
- 2017-11-14 WO PCT/US2017/061618 patent/WO2018093796A1/en unknown
- 2017-11-14 CA CA3043352A patent/CA3043352A1/en active Pending
- 2017-11-14 JP JP2019524982A patent/JP6854344B2/ja active Active
- 2017-11-14 KR KR1020217018412A patent/KR102610030B1/ko active IP Right Grant
- 2017-11-14 KR KR1020197015993A patent/KR102267553B1/ko active IP Right Grant
- 2017-11-14 US US15/812,928 patent/US10621747B2/en active Active
- 2017-11-14 CN CN202210712339.9A patent/CN115097937A/zh active Pending
- 2017-11-14 IL IL297846A patent/IL297846B2/en unknown
- 2017-11-14 CN CN201780082830.5A patent/CN110168477B/zh active Active
- 2017-11-14 KR KR1020237041389A patent/KR20230170119A/ko not_active Application Discontinuation
- 2017-11-14 EP EP17870853.3A patent/EP3542250A4/en not_active Withdrawn
- 2017-11-14 IL IL285121A patent/IL285121B2/en unknown
-
2019
- 2019-05-06 IL IL266482A patent/IL266482B/en unknown
-
2020
- 2020-03-05 US US16/810,584 patent/US10937188B2/en active Active
-
2021
- 2021-01-12 US US17/146,799 patent/US11328443B2/en active Active
- 2021-03-15 JP JP2021041261A patent/JP7096925B2/ja active Active
-
2022
- 2022-04-11 US US17/717,696 patent/US11797860B2/en active Active
- 2022-04-22 AU AU2022202694A patent/AU2022202694A1/en not_active Abandoned
- 2022-06-24 JP JP2022101621A patent/JP7151016B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015157526A1 (en) | 2014-04-09 | 2015-10-15 | Entrupy Inc. | Authenticating physical objects using machine learning from microscopic variations |
US20150332474A1 (en) | 2014-05-18 | 2015-11-19 | Edge 3 Technologies, Inc. | Orthogonal and Collaborative Disparity Decomposition |
Non-Patent Citations (4)
Title |
---|
Georgios Georgakis,Multiview RGB-D Dataset for Object Instance Detection,2016 Fourth International Conference on 3D Vision,米国,IEEE,2016年10月28日,P.426-434 |
Sangdoo Yun,Voting-based 3D Object Cuboid Detection Robust to Partial Occlusion from RGB-D Images,2016 IEEE Winter Conference on Applications of Computer Vision,米国,IEEE,2016年03月10日 |
Yu Xiang,ObjectNet3D: A Large Scale Database for 3D Object Recognition,International Conference on Financial Cryptography and Data Scurity,NL,Springer,2016年09月17日,P.160-176 |
岡谷 貴之,画像認識のための深層学習の研究動向 -畳込みニューラルネットワークとその利用法の発展-,人工知能 第31巻 第2号,Vol.31 No.2 2016/3,日本,(一社)人工知能学会,2016年03月01日,P.169-179 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7096925B2 (ja) | 直方体検出のための深層機械学習システム | |
EP2880633B1 (en) | Animating objects using the human body | |
US8610723B2 (en) | Fully automatic dynamic articulated model calibration | |
US9344707B2 (en) | Probabilistic and constraint based articulated model fitting | |
KR20200087780A (ko) | 뉴럴 네트워크들에 대한 멀티-태스크 학습을 위한 메타-학습 | |
US10713847B2 (en) | Method and device for interacting with virtual objects | |
NZ793982A (en) | Deep learning system for cuboid detection | |
Akturk | Back2Future-SIM: Creating Real-Time Interactable Immersive Virtual World For Robot Teleoperation | |
Thierfelder | Modified Particle Swarm Optimization for a 6DOF Local Pose Estimation Algorithm by Using a RGB-D Camera | |
Navarro Sostres | Improvement of Arm Tracking using Body Part Detectors | |
Diener | Measurement and synthesis of motion of plants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210315 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220527 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096925 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |