JP2023516674A - 屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法 - Google Patents
屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023516674A JP2023516674A JP2022552796A JP2022552796A JP2023516674A JP 2023516674 A JP2023516674 A JP 2023516674A JP 2022552796 A JP2022552796 A JP 2022552796A JP 2022552796 A JP2022552796 A JP 2022552796A JP 2023516674 A JP2023516674 A JP 2023516674A
- Authority
- JP
- Japan
- Prior art keywords
- room
- processor
- wall
- classification
- instructions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 185
- 230000003287 optical effect Effects 0.000 claims description 173
- 230000011218 segmentation Effects 0.000 claims description 91
- 238000004422 calculation algorithm Methods 0.000 claims description 85
- 238000012549 training Methods 0.000 claims description 61
- 230000009471 action Effects 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 32
- 238000000638 solvent extraction Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 16
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 description 71
- 230000006870 function Effects 0.000 description 67
- 210000001747 pupil Anatomy 0.000 description 49
- 238000013459 approach Methods 0.000 description 45
- 238000011176 pooling Methods 0.000 description 40
- 239000013598 vector Substances 0.000 description 40
- RVCKCEDKBVEEHL-UHFFFAOYSA-N 2,3,4,5,6-pentachlorobenzyl alcohol Chemical compound OCC1=C(Cl)C(Cl)=C(Cl)C(Cl)=C1Cl RVCKCEDKBVEEHL-UHFFFAOYSA-N 0.000 description 36
- 238000010586 diagram Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 32
- 238000005070 sampling Methods 0.000 description 28
- 238000001514 detection method Methods 0.000 description 27
- 230000008878 coupling Effects 0.000 description 23
- 238000010168 coupling process Methods 0.000 description 23
- 238000005859 coupling reaction Methods 0.000 description 23
- 239000000835 fiber Substances 0.000 description 21
- 238000012545 processing Methods 0.000 description 18
- 239000000758 substrate Substances 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 15
- 230000003190 augmentative effect Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 13
- 230000036961 partial effect Effects 0.000 description 13
- 210000003128 head Anatomy 0.000 description 11
- 230000008447 perception Effects 0.000 description 11
- 238000003491 array Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 238000009877 rendering Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000009499 grossing Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 238000005192 partition Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 239000013307 optical fiber Substances 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 241000153282 Theope Species 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 230000000739 chaotic effect Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 208000029436 dilated pupil Diseases 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 230000001902 propagating effect Effects 0.000 description 4
- 210000001525 retina Anatomy 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 238000005253 cladding Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000000869 ion-assisted deposition Methods 0.000 description 2
- 238000001659 ion-beam spectroscopy Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005240 physical vapour deposition Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000010146 3D printing Methods 0.000 description 1
- 102100028162 ATP-binding cassette sub-family C member 3 Human genes 0.000 description 1
- 102100028187 ATP-binding cassette sub-family C member 6 Human genes 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 239000004593 Epoxy Substances 0.000 description 1
- 240000001973 Ficus microcarpa Species 0.000 description 1
- 241000597800 Gulella radius Species 0.000 description 1
- 101000986633 Homo sapiens ATP-binding cassette sub-family C member 3 Proteins 0.000 description 1
- 101000986621 Homo sapiens ATP-binding cassette sub-family C member 6 Proteins 0.000 description 1
- 101001014572 Homo sapiens MARCKS-related protein Proteins 0.000 description 1
- 229910018487 Ni—Cr Inorganic materials 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000004718 Panda Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000004087 cornea Anatomy 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 239000003989 dielectric material Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000916 dilatatory effect Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 150000002222 fluorine compounds Chemical class 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000007517 polishing process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- HFQQZARZPUDIFP-UHFFFAOYSA-M sodium;2-dodecylbenzenesulfonate Chemical compound [Na+].CCCCCCCCCCCCC1=CC=CC=C1S([O-])(=O)=O HFQQZARZPUDIFP-UHFFFAOYSA-M 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 150000003568 thioethers Chemical class 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/04—Architectural design, interior design
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Generation (AREA)
Abstract
本願は、屋内場面の3D走査からの効率的間取図生成のためのシステムおよび方法に関する。屋内場面の間取図を生成するための方法、システム、およびウェアラブルエクステンデッドリアリティデバイスが、提供される。部屋の部屋分類および部屋に関する壁の壁分類が、屋内場面の入力画像から決定され得る。間取図が、少なくとも部分的に、部屋分類および壁分類に基づいて、屋内場面内の部屋の総数または部屋のサイズを制約せずに、決定され得る。
Description
本願は、コンピューティング、学習ネットワーク構成、および接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想および/または拡張現実動作のために利用され得る、少なくとも1つのウェアラブルコンポーネントを特徴とする、モバイルコンピューティングシステム、方法、および構成に関する。
コンピュータは、ヒューマンユーザインターフェースを制御し、ユーザによって知覚されるにつれて、XR環境の一部または全部がコンピュータによって生成される、クロスリアリティ(XRまたはクロスリアリティ)環境を作成し得る。これらのXR環境は、XR環境の一部または全部が、部分的に、環境を説明するデータを使用して、コンピュータによって生成され得る、仮想現実(VR)、拡張現実(AR)、および複合現実(MR)環境であり得る。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、または触知的(または触覚的)インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。
XRシステムは、科学的可視化、医療訓練、工作、およびプロトタイプ化、遠隔操作およびテレプレゼンス、および個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。ARおよびMRは、VRと対照的に、物理的世界の実オブジェクトと関連して、1つまたはそれを上回る仮想オブジェクトを含む。実オブジェクトと相互作用する、仮想オブジェクトの体験は、XRシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る様子についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。
部屋レイアウトまたは間取図を推定することは、場面再構築、屋内位置特定、および拡張現実等の広範囲のタスクに対する用途を伴う、基本屋内場面理解問題である。画像からの部屋レイアウトまたは間取図推定は、屋内場面の2Dボックス状表現の輪郭を描くことを狙いとし、様々なコンピュータビジョンタスクのための重要なステップであって、近年、いくつかの用途から大きな注目を集めている。これらは、屋内ナビゲーション、場面再構築/レンダリング、拡張現実等を含む。部屋レイアウト推定の本分野は、主に、ローカル色、テクスチャ、および縁キュー等のボトムアップ画像特徴、その後、消失点検出を使用することに焦点が当てられている。別個の後処理段階が、特徴誤対応をクリーンアップし、構造化SVM(サポートベクトルマシン)または条件付き確率場(CRF)を用いて、大規模な部屋レイアウト仮説の集合を生成/ランク付けするために使用される。
原理上、部屋レイアウトの3D再構築物は、2Dレイアウトおよび消失点の知識を用いて取得されることができる(正確な縮尺で)。しかしながら、実践では、最終レイアウト予測の正確度は、多くの場合、主として、抽出された低レベル画像特徴の品質に依存し、これは、本質的には、ローカル雑音、場面クラッタ、およびオクルージョンを被りやすい。単一ビューRGB画像を検討すると、レイアウトまたは間取図推定タスクは、壁-天井、壁-床、および壁-壁境界の輪郭を描くことである。既存の研究は、最大で5つの平面(例えば、天井、床、左壁、正面壁、および右壁)を備える、部屋レイアウトの特殊な場合のみを標的化する。
従来の深層学習ベースの方法は、典型的には、2Dのピクセル毎の縁マップまたはセグメント化マップ(例えば、天井、床、左、正面、および右)を予測し、その後、古典的消失点/線サンプリング方法が続き、部屋レイアウトを生産する。しかしながら、これらの方法のいずれも、直接、非ボックス形状の部屋レイアウトトポロジに適用され得ない。例えば、より多くのセグメント化標識が、3つを上回る壁を含有する部屋に関するレイアウトを生成するために、フレームワーク内で定義される必要がある。加えて、これらの方法は、3つの相互に直交する消失点の抽出の正確度に大きく依存し、これは、時として、紛らわしいテクスチャに起因して、失敗する。
これらの問題に対する既存のソリューションは、多くの場合、手動で工作された特徴および消失点検出に大きく依拠し、これは、クラッタの存在下では、失敗を受けやすい。雑然とした屋内場面(例えば、乱雑な教室)の空間レイアウトを推定するタスクを検討する。しかしながら、特に、大量のクラッタの存在下でレイアウトを推測することは、困難なタスクである。屋内場面は、高クラス内分散度を有し、部屋の角等のレイアウトを推測するために要求される重要な情報は、多くの場合、オクルードされ、間接的に推測されなければならない。いくつかの従来のアプローチが、深度情報(例えば、RGBDフレームまたは赤緑青深度)またはそこから深度が推測され得る単眼画像のシーケンスのいずれかを前提として、これらの問題に対処する。これらの従来のアプローチは、多くの場合、明示的または暗示的に、例えば、消費者グレードコンピューティングデバイスを使用して処理され得る、走査の数、推定されるべきレイアウト内の少数の部屋等、限界を課し、せいぜい、これらの従来のアプローチを非実践的にする程度である。ある他の従来のアプローチは、入力を、最も一般的場合、すなわち、単一RGB画像に制限する。本問題に対するいくつかの以前のアプローチは、通常、2段階プロセスに従う。最初に、一連のレイアウト仮説が、生成される。次に、これらが、ランク付けされ、最終レイアウトに達する。第1の段階は、通常、多くの場合、縁等の低レベル特徴によって誘導される、場面内の3つの直交する消失点を検出することによって遂行される。例えば、主要となっている研究は、消失点を推測し、次いで、構造化SVM(サポートベクトルマシン)を使用して、それらをランク付けすることによって、レイアウト候補を生成するものである。残念ながら、本第1の段階は、クラッタを著しく被りやすく、多くの場合、十分に正確な仮説を生産することに失敗する。後続研究は、本プロセスの第2の段階(例えば、レイアウトをランク付けする)に対する改良を提案しているが、それらは、候補生成の脆弱性によって損なわれている。
最近、意味論セグメント化のための深層畳み込みニューラルネットワーク(CNN)における急速な進歩に伴って、研究者は、部屋レイアウト推定のためにそのようなCNNを使用することの可能性を模索している。例えば、いくつかの以前のアプローチは、最初に、完全畳み込みネットワーク(FCN)モデルを訓練し、手動で工作される低レベル画像特徴抽出に取って代わる、「有益な縁マップ」を生産するものである。予測される縁マップは、次いで、レイアウト仮説生成およびランク付けのために、消失線をサンプリングするために使用される。ある他の以前のアプローチは、FCNを使用して、左壁、正面壁、右壁、天井、および接地面等の意味論表面標識を学習する。次いで、接続成分および穴埋め技法が、FCNの未加工ピクセルあたり予測を精緻化するために使用され、その後、古典的消失点/線サンプリング方法が続き、部屋レイアウトを生産する。しかしながら、改良された結果にもかかわらず、これらの方法は、CNNを使用して、新しい「低レベル」特徴の集合を生成し、CNNのエンドツーエンド学習能力を利用することに達しない。換言すると、未加工CNN予測は、最終レイアウトを生産するために、後に、高価な仮説試験段階によって処理される必要がある。これは、例えば、パイプラインが、各フレームを処理するために、30秒かからせ、実践的用途において完全に役に立たないとはいかないまでも、非実践的である。
ある他の以前のアプローチは、完全畳み込みニューラルネットワークを採用する。これらの以前のアプローチは、既存の汎用意味論セグメント化方法の直接適用を妨害する、レイアウト推定に一意の制約に悩まされる。例えば、3つの潜在的壁クラスは、任意の特性外観を保有しない。複数のサブオブジェクトが、その境界内に含有され得、したがって、CRF(条件付き確率場)方法によって行われる色一貫性仮定は、有効ではない。さらに、意味論レイアウト標識を用いることで、固有の曖昧性が存在する。これは、標識が一意に定義される、従来的意味論セグメント化問題と対照的である。
さらに、実世界屋内環境を捕捉することと関連付けられる記号論理学的難点と結び付けられる、意味論セグメント化およびオブジェクト認識を伴う、間取図推定は、必然的に、付随の3D点群/メッシュ表現とともに、注釈が付けられた間取図を伴う、屋内環境のデータセットの不足を反映している。さらに、単一原点のそのようなデータセットが、自然な状態で良好に性能を発揮することが可能な深層ネットワークを訓練するために必要とされる、多数かつ種々の異なるレイアウトタイプを伴う、サンプルを保有することが可能となることは、著しく可能性が低い。さらに、多くの意味論セグメント化技法は、最先端サーバによって提供され得るものよりもはるかに多くの算出リソースを要求し、したがって、種々の容量のコンピューティングデバイスへの広適用および展開を欠いている。高算出リソース要件に加え、これらの従来の意味論セグメント化技法は、多くの場合、入力データの次元がより高くなるにつれて、不良性能を呈する。
間取図推定における別の課題は、例えば、ユーザの周囲の3次元世界に関連し得る、コンピュータビジョンおよび/またはオブジェクト認識課題等において、決定をユーザに有用および/または重要なものにする際の種々の動作可能に結合されるセンサによって捕捉されたデータの利用に関する。グローバルグラフ最適化技法を使用する、「FloorSP」として知られるもの等の方法および構成では、問題の複雑性は、ひいては、最適化されるべきグラフのサイズに比例する、部屋の数および部屋あたりの壁の数の観点からの入力のサイズに伴ってそれほどスケール変換されない。さらに、クラスタ化は、クラスタの数に関する事前知識を要求する、研究において、また、クラスタの数を体系的に決定する、アルゴリズムにおいては、深く調査されている。
場面理解および分析におけるさらに別の課題は、例えば、ユーザの周囲の3次元世界に関連し得る、コンピュータビジョンおよび/またはオブジェクト認識課題等において、決定をユーザに有用および/または重要なものにする際の種々の動作可能に結合されるセンサによって捕捉されたデータの利用に関する。多くの公的に入手可能なデータセットおよびライブラリは、場面理解および分析のための種々のモデルを訓練および検証する際と、1つまたはそれを上回る目印に基づいて、屋外環境のより小さい断片の再構築されたレイアウトをスティッチングすることによって、屋外環境の環境マップの構築とにおいて使用され得る。なお、そのようなデータセットおよびライブラリは、屋内環境のはるかに雑然とした性質は言うまでもなく、屋内環境に関して、せいぜい(全く存在しないわけではないにしても)、乏しい状態である。
したがって、従来のアプローチの少なくとも前述の欠点、課題、短所、および難点に対処するために、屋内場面の走査からの間取図の効率的生成のための改良された方法、システム、およびコンピュータプログラム製品の必要性が存在する。
いくつかの実施形態によると、屋内場面の間取図を生成するための方法が、説明される。これらの実施形態では、部屋の部屋分類および部屋に関する壁の壁分類が、屋内場面の入力画像から決定されてもよく、間取図は、少なくとも部分的に、部屋分類および壁分類に基づいて、屋内場面内の部屋の総数または部屋のサイズを制約せずに、生成されてもよい。
これらの実施形態のうちのいくつかでは、部屋分類および壁分類を決定するステップは、入力画像を識別するステップであって、入力画像は、屋内場面の3次元走査からの1つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとを含んでもよい。
先行実施形態のうちのいくつかでは、部屋分類および壁分類を決定するために、入力点群のサブセットが、決定されてもよく、深層ネットワークは、少なくとも合成データセットを用いて訓練されてもよい。直前の先行実施形態のうちのいくつかでは、1つまたはそれを上回る部屋クラスタ標識が、深層ネットワークにおいて、サブセット内に表される1つまたはそれを上回る頂点に関して、壁クラスタ標識が、壁に関して生成され、部屋の部屋分類および壁の壁分類を決定してもよい。
これらの実施形態のうちのいくつかでは、ネスト化されたパーティション化が、点の集合上で実施され、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、点の集合を複数の重複ローカル領域に分割してもよく、ローカル特徴が、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉するように抽出されてもよい。
直前の先行実施形態のうちのいくつかでは、ローカル特徴は、より高レベルの特徴または表現に抽象化されてもよく、複数のローカル特徴が、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、複数の異なるスケールまたは分解能において適応的に加重されてもよい。
いくつかの実施形態では、複数の異なるスケールまたは分解能における複数のローカル特徴は、組み合わせられてもよく、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識は、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するために、少なくとも部分的に、距離メトリックに基づいて、屋内場面に関するメトリック空間に割り当てられてもよい。
いくつかの実施形態によると、プロセッサと、メモリとを有する、システムが、提供される。メモリは、プロセッサによって実行されると、プロセッサに、本明細書に説明される方法のいずれかを実施させる、命令を記憶する。
いくつかの実施形態によると、非一過性コンピュータ可読媒体が、提供される。非一過性コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサに、本明細書に説明される方法のいずれかを実施させる、命令をその上に記憶する。
本開示のいくつかの実施形態の概要列挙
1.屋内場面の間取図を生成するための方法であって、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、方法。
2.部屋の部屋分類および壁の壁分類を決定するステップは、入力画像を識別するステップであって、入力画像は、屋内場面の3次元走査からの1つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとを含む、請求項1に記載の方法。
3.部屋の部屋分類および壁の壁分類を決定するステップはさらに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとを含む、請求項2に記載の方法。
4.部屋の部屋分類および壁の壁分類を決定するステップはさらに、深層ネットワークを使用する際、サブセット内に表される1つまたはそれを上回る頂点に関する1つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとを含む、請求項3に記載の方法。
5.1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとを含む、請求項4に記載の方法。
6.1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとを含む、請求項5に記載の方法。
7.1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップは、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとを含む、請求項6に記載の方法。
8.間取図を決定するステップは、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の1つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる1つまたはそれを上回る壁クラスタ標識を備え、1つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、DeepPerimeterタイプのポリゴンを備える、ステップとを含む、請求項1に記載の方法。
9.形状を生成するステップは、深層推定を屋内場面の入力画像のRGB(赤緑青)フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、PSPNet(ピラミッド場面解析ネットワーク)およびResNet(残差ネットワーク)に基づく、ステップとを含む、請求項8に記載の方法。
10.形状を生成するステップはさらに、少なくとも、マーチングキューブアルゴリズムを使用して、1つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を3次元(3D)点群に投影するステップとを含む、請求項9に記載の方法。
11.形状を生成するステップはさらに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、1つまたはそれを上回る点を検出することによって、3D点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとを含む、請求項10に記載の方法。
12.間取図を生成するステップは、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとを含む、請求項8に記載の方法。
13.間取図を生成するステップはさらに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、1つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとを含む、請求項12に記載の方法。
14.間取図を生成するステップはさらに、少なくとも部分的に、1つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる1つまたはそれを上回る投票を決定するステップとを含む、請求項13に記載の方法。
15.間取図を生成するステップはさらに、投票クラスタ化を1つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとを含む、請求項14に記載の方法。
16.投票クラスタ化を実施するステップは、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、1つまたはそれを上回る部屋インスタンスおよび1つまたはそれを上回る壁インスタンスを決定するステップとを含む、請求項15に記載の方法。
17.投票クラスタ化を実施するステップはさらに、少なくとも、予測される部屋投票を1つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を1つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を1つまたはそれを上回る部屋投票および1つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとを含む、請求項16に記載の方法。
18.投票クラスタ化を実施するステップはさらに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の1つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとを含む、請求項17に記載の方法。
19.間取図に関する部屋周囲を推定するステップは、部屋に関する部屋点および壁点を標識を用いて識別するステップと、DeepPerimeterモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとを含む、請求項15に記載の方法。
20.間取図に関する部屋周囲を推定するステップは、壁点に関する2次元(2D)線分を予測するステップを含む、請求項19に記載の方法。
21.間取図に関する部屋周囲を推定するステップは、少なくとも部分的に、基準に基づいて、1つまたはそれを上回る2D線分を除去するステップを含む、請求項19に記載の方法。
22.間取図に関する部屋周囲を推定するステップは、少なくとも2D線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップを含む、請求項20に記載の方法。
23.屋内場面の間取図を生成するためのシステムであって、プロセッサと、プロセッサに動作可能に結合され、プロセッサによって実行されると、プロセッサに、ある行為のセットを実施させる、命令のシーケンスを記憶する、メモリであって、行為のセットは、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、メモリとを備える、システム。
24.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力画像を識別するステップであって、入力画像は、屋内場面の3次元走査からの1つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項23に記載のシステム。
25.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項24に記載のシステム。
26.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層ネットワークを使用する際、サブセット内に表される1つまたはそれを上回る頂点に関する1つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項25に記載のシステム。
27.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項26に記載のシステム。
28.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項27に記載のシステム。
29.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項28に記載のシステム。
30.プロセッサによって実行されると、プロセッサに、間取図を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の1つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる1つまたはそれを上回る壁クラスタ標識を備え、1つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、DeepPerimeterタイプのポリゴンを備える、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項23に記載のシステム。
31.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層推定を屋内場面の入力画像のRGB(赤緑青)フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、PSPNet(ピラミッド場面解析ネットワーク)およびResNet(残差ネットワーク)に基づく、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項30に記載のシステム。
32.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、マーチングキューブアルゴリズムを使用して、1つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を3次元(3D)点群に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項31に記載のシステム。
33.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、1つまたはそれを上回る点を検出することによって、3D点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項32に記載のシステム。
34.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項30に記載のシステム。
35.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、1つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項34に記載のシステム。
36.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、1つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる1つまたはそれを上回る投票を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項35に記載のシステム。
37.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、投票クラスタ化を1つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項36に記載のシステム。
38.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、1つまたはそれを上回る部屋インスタンスおよび1つまたはそれを上回る壁インスタンスを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項37に記載のシステム。
39.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、予測される部屋投票を1つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を1つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を1つまたはそれを上回る部屋投票および1つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項38に記載のシステム。
40.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の1つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項39に記載のシステム。
41.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋に関する部屋点および壁点を標識を用いて識別するステップと、DeepPerimeterモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項37に記載のシステム。
42.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、壁点に関する2次元(2D)線分を予測するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項41に記載のシステム。
43.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、基準に基づいて、1つまたはそれを上回る2D線分を除去するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項41に記載のシステム。
44.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも2D線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項42に記載のシステム。
45.屋内場面の間取図を生成するためのウェアラブルエクステンデッドリアリティデバイスであって、デジタルコンテンツをユーザの眼に提示するためのマイクロディスプレイまたはマイクロプロジェクタのアレイを有する、光学システムと、光学システムに結合される、プロセッサと、プロセッサに動作可能に結合され、プロセッサによって実行されると、プロセッサに、ある行為のセットを実施させる、命令のシーケンスを記憶する、メモリであって、行為のセットは、部屋の部屋分類および部屋に関する壁の壁分類を屋内場面の入力画像から決定するステップと、少なくとも部分的に、部屋分類および壁分類に基づいて、間取図内の部屋の総数または部屋のサイズを制約せずに、間取図を決定するステップとを含む、メモリとを備える、ウェアラブルエクステンデッドリアリティデバイス。
46.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力画像を識別するステップであって、入力画像は、屋内場面の3次元走査からの1つの画像または画像のシーケンスを備える、ステップと、入力画像に関する入力点群を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項45に記載のウェアラブルエクステンデッドリアリティデバイス。
47.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、入力点群のサブセットを識別するステップと、深層ネットワークを少なくとも合成データセットを用いて訓練するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項46に記載のウェアラブルエクステンデッドリアリティデバイス。
48.プロセッサによって実行されると、プロセッサに、部屋の部屋分類および壁の壁分類を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層ネットワークを使用する際、サブセット内に表される1つまたはそれを上回る頂点に関する1つまたはそれを上回る部屋クラスタ標識と、壁に関する壁クラスタ標識とを生成するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項47に記載のウェアラブルエクステンデッドリアリティデバイス。
49.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、点の集合を複数の重複ローカル領域に分割するステップと、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、屋内場面内の幾何学的構造を捕捉する、ローカル特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項48に記載のウェアラブルエクステンデッドリアリティデバイス。
50.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、ローカル特徴をより高レベルの特徴または表現に抽象化するステップと、複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項49に記載のウェアラブルエクステンデッドリアリティデバイス。
51.プロセッサによって実行されると、プロセッサに、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、複数の異なるスケールまたは分解能における複数のローカル特徴を組み合わせるステップと、少なくとも部分的に、距離メトリックに基づいて、1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を屋内場面に関するメトリック空間に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項50に記載のウェアラブルエクステンデッドリアリティデバイス。
52.プロセッサによって実行されると、プロセッサに、間取図を決定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を使用して、部屋に関する形状を生成するステップであって、部屋分類は、部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、壁分類は、部屋の1つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる1つまたはそれを上回る壁クラスタ標識を備え、1つまたはそれを上回る壁は、壁を構成する、ステップと、少なくとも部分的に、形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、間取図を生成するステップであって、形状は、DeepPerimeterタイプのポリゴンを備える、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項45に記載のウェアラブルエクステンデッドリアリティデバイス。
53.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、深層推定を屋内場面の入力画像のRGB(赤緑青)フレーム上で実施するステップと、少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成するステップであって、セグメント化モジュールは、少なくとも部分的に、PSPNet(ピラミッド場面解析ネットワーク)およびResNet(残差ネットワーク)に基づく、ステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項52に記載のウェアラブルエクステンデッドリアリティデバイス。
54.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、マーチングキューブアルゴリズムを使用して、1つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出するステップと、少なくとも、深層セグメント化ネットワークを訓練することによって、壁点群に対応する、深度予測を単離するステップと、深度予測を3次元(3D)点群に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項53に記載のウェアラブルエクステンデッドリアリティデバイス。
55.プロセッサによって実行されると、プロセッサに、形状を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、深層セグメント化ネットワークにおいて、同一平面インスタンスに属する、1つまたはそれを上回る点を検出することによって、3D点群を複数のクラスタにクラスタ化するステップと、複数のクラスタを、間取図に関する周囲レイアウトを形成する、平面の集合の中に平行移動させるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項54に記載のウェアラブルエクステンデッドリアリティデバイス。
56.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋インスタンスおよび壁インスタンスを屋内環境の走査から識別するステップと、部屋インスタンスに関する閉鎖された周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項52に記載のウェアラブルエクステンデッドリアリティデバイス。
57.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測するステップと、少なくとも、1つまたはそれを上回るスケールにおける複数の特徴を算出する、部屋または壁回帰を実施することによって、複数の特徴を抽出するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項56に記載のウェアラブルエクステンデッドリアリティデバイス。
58.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、1つまたはそれを上回るスケールにおける複数の特徴に基づいて、入力点群のサブサンプリングされたバージョンを決定するステップと、入力点群のサブサンプリングされたバージョン内のシード点によって投じられる1つまたはそれを上回る投票を決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項57に記載のウェアラブルエクステンデッドリアリティデバイス。
59.プロセッサによって実行されると、プロセッサに、間取図を生成するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、投票クラスタ化を1つまたはそれを上回る投票上で実施するステップと、間取図に関する部屋周囲を推定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項58に記載のウェアラブルエクステンデッドリアリティデバイス。
60.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、予測される投票の集合を識別するステップと、少なくとも、入力点群のサブサンプリングされたバージョン内のシード点に関するクラスタ標識を生成することによって、1つまたはそれを上回る部屋インスタンスおよび1つまたはそれを上回る壁インスタンスを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項59に記載のウェアラブルエクステンデッドリアリティデバイス。
61.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、予測される部屋投票を1つまたはそれを上回る部屋投票の中に連結することによって、および予測される壁投票を1つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を準備するステップと、密度ベースの空間クラスタ化を1つまたはそれを上回る部屋投票および1つまたはそれを上回る壁投票上で実施し、部屋分類を部屋に、および壁分類を壁に割り当てるステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項60に記載のウェアラブルエクステンデッドリアリティデバイス。
62.プロセッサによって実行されると、プロセッサに、投票クラスタ化を実施するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも、部屋分類および壁分類を予測される投票の集合から入力点群のサブサンプリングされたバージョン内の1つまたはそれを上回るシード点に逆追跡することによって、割当を生成するステップと、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、部屋に関する壁点のリストを決定するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項61に記載のウェアラブルエクステンデッドリアリティデバイス。
63.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、部屋に関する部屋点および壁点を標識を用いて識別するステップと、DeepPerimeterモジュールを使用して、個々の部屋周囲を決定するステップと、部屋に関する部屋点または壁点内の点を平面に投影するステップとをさらに含む、行為のセットを実施させる、命令を備える、請求項59に記載のウェアラブルエクステンデッドリアリティデバイス。
64.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、壁点に関する2次元(2D)線分を予測するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項63に記載のウェアラブルエクステンデッドリアリティデバイス。
65.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも部分的に、基準に基づいて、1つまたはそれを上回る2D線分を除去するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項63に記載のウェアラブルエクステンデッドリアリティデバイス。
66.プロセッサによって実行されると、プロセッサに、部屋周囲を推定するステップを実施させる、命令のシーケンスを備える、メモリはさらに、プロセッサによって実行されると、プロセッサに、少なくとも2D線分を使用することによって、間取図に関する部屋周囲として、複数のノードに沿って、閉鎖された経路を形成するステップをさらに含む、行為のセットを実施させる、命令を備える、請求項64に記載のウェアラブルエクステンデッドリアリティデバイス。
前述の説明は、例証として提供され、限定することを意図するものではない。
添付の図面は、縮尺通りに描かれることを意図していない。図面では、種々の図に図示される、各同じまたはほぼ同じコンポーネントは、同様の数字で表される。明確性の目的のために、全てのコンポーネントが、全ての図面において標識されているわけではない。
詳細な説明
以下の説明では、ある具体的詳細が、種々の開示される実施形態の完全な理解を提供するために記載される。しかしながら、当業者は、実施形態は、これらの具体的詳細のうちの1つまたはそれを上回るものを伴わずに、または他の方法、コンポーネント、材料等を用いて、実践されてもよいことを認識するであろう。他の事例では、空間コンピューティングヘッドセットと、アイウェアのつるのアームのためのヒンジシステムとを含む、アイウェアと関連付けられる周知の構造は、実施形態の説明を不必要に曖昧にすることを回避するために、図示または詳細に説明されていない。
以下の説明では、ある具体的詳細が、種々の開示される実施形態の完全な理解を提供するために記載される。しかしながら、当業者は、実施形態は、これらの具体的詳細のうちの1つまたはそれを上回るものを伴わずに、または他の方法、コンポーネント、材料等を用いて、実践されてもよいことを認識するであろう。他の事例では、空間コンピューティングヘッドセットと、アイウェアのつるのアームのためのヒンジシステムとを含む、アイウェアと関連付けられる周知の構造は、実施形態の説明を不必要に曖昧にすることを回避するために、図示または詳細に説明されていない。
文脈によって別様に要求されない限り、本明細書および続く請求項全体を通して、単語「comprise(~を備える)」および「comprises(~を備える)」および「comprising(~を備える)」等のその変形例は、「限定ではないが、~を含む」という制限のない、包含的意味で解釈されるべきである。
本明細書全体を通して、「一実施形態」または「ある実施形態」の言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも一実施形態に含まれることを意味する。したがって、本明細書全体を通した種々の場所における語句「一実施形態では」または「ある実施形態では」の表出は、必ずしも、全て同一実施形態を参照するわけではない。さらに、特定の特徴、構造、または特性は、1つ以上の実施形態では、任意の好適な様式において組み合わせられてもよい。
以下の説明では、ある具体的詳細が、種々の開示される実施形態の完全な理解を提供するために記載される。しかしながら、当業者は、実施形態が、これらの具体的詳細のうちの1つまたはそれを上回るものを伴わずに、または他の方法、コンポーネント、材料等を伴って、実践されてもよいことを認識するであろう。他の事例では、仮想現実(VR)、拡張現実(AR)、複合現実(MR)、およびエクステンデッドリアリティ(XR)システムと関連付けられる周知の構造は、実施形態の説明を不必要に曖昧にすることを回避するために、図示または詳細に説明されていない。用語「仮想現実(VR)」、「拡張現実(AR)」、「複合現実(MR)」、および「エクステンデッドリアリティ(XR)」は、本開示では、同義的に使用され、少なくとも、少なくともウェアラブルXRデバイスおよびウェアラブルXRデバイスをサポートする1つまたはそれを上回る遠隔コンピューティングデバイスを介して、少なくとも仮想コンテンツをユーザに表示するための方法またはシステムを示し得るものとすることに留意されたい。
文脈によって別様に要求されない限り、本明細書および続く請求項全体を通して、単語「comprise(~を備える)」および「comprises(~を備える)」および「comprising(~を備える)」等のその変形例は、「限定ではないが、~を含む」という制限のない、包含的意味で解釈されるべきである。
種々の実施形態では、ユーザが、図1に描写されるもの等の拡張現実システムを装着している場合があり、これは、動作されるときのユーザの周囲の3次元世界とのそのようなシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。そのようなシステムは、例えば、頭部ウェアラブルディスプレイコンポーネント(2)を備えてもよく、ユーザの周囲の環境をマッピングする、または壁、床、椅子、および同等物等のユーザの周囲の環境内の種々のオブジェクトの幾何学形状を表す、種々の点を備える、そのような環境の「メッシュ」を作成するように構成され得る、種々のタイプのカメラ等、上記に説明されるような環境感知能力を特徴とし得る。空間コンピューティングシステムは、ユーザの周囲の環境をマッピングまたはメッシュ化し、部屋のマップまたはメッシュを利用して、ユーザが、ユーザの周囲の3次元空間内で、種々のオブジェクトおよび要素を設置、操作、可視化、作成、および修正することを補助するように構成され得る、Magic Leap, Inc.(Planation, Florida)から利用可能なもの等のソフトウェアを起動または動作させるように構成されてもよい。図1に戻って参照すると、本システムは、クラウドまたは他のコネクティビティ構成によって、他のコンピューティングシステム等の付加的リソースに動作可能に結合されてもよい。
空間コンピューティングにおける課題のうちの1つは、例えば、ユーザの周囲の3次元世界に関連し得る、コンピュータビジョンおよび/またはオブジェクト認識課題等において、決定をユーザにとって有用および/または重要なものにする際における種々の動作可能に結合されるセンサ(図1のシステムの要素22、24、26、28等)によって捕捉されたデータの利用に関する。いくつかの実施形態は、少なくとも部分的に、関連屋内環境の構造要素の走査に基づいて、ユーザの周囲に位置付けられ、配向され得る、物理的環境に関する間取図の推定を正確に決定するために、本明細書では「FloorVoter」と称され得る、アプローチを導入する。説明される方法およびシステム構成のある変形例は、2段階アプローチを組み込み、初期段階は、ニューラルネットワークを使用して、場面の無秩序点群表現を部屋インスタンスおよび壁インスタンスにクラス化する。これらの方法および構成は、適切なセンサおよび関連付けられるデータが利用可能であることを条件として、ウェアラブル空間コンピューティングの領域外の種々のシナリオにも広く適用可能である。後続段階は、予測される部屋および壁特徴点に沿って最短経路を見出すことによって、個々の部屋毎に、単純ポリゴンによってパラメータ化された閉鎖された周囲を推定する。FloorVoterパイプラインは、既存の方法と比較して、高度に並列化可能であって、非常に効率的である。いくつかの実施形態は、完全合成データセット上で訓練された深層ネットワークを採用し、方法を公的に入手可能なStructured3DおよびBKEデータセット上で評価し、最先端技法を凌ぐ優れた定質的および定量的結果を実証している。
屋内環境を構成する、意味論成分の詳細な理解は、ますます重要となる問題に徐々に成長しつつある。場面理解として一般的に知られる、広範囲にわたる主題に該当する、そのような洞察は、種々の方法、例えば、とりわけ、屋内環境の2D/3Dデータの意味論セグメント化、オブジェクト検出/認識、家具のCAD走査置換、および間取図推定において表され得る。本説明は、屋内場面の正確な間取図を効率的に生成し、そのような場面理解を補助するタスクの種々の側面に焦点を当てる。間取図を3D走査から生成する能力は、複数の学術研究および商業分野において、広範囲に及ぶ関連事項を有する。住宅産業、建築設計、および内装設計は、以前よりも技術によって普及されつつあり、FloorVoter等の自動化されたツールは、そのような産業の設計可能性の効率および範囲を大幅に増加させ得る。同様に、環境のより賢明な理解は、拡張および仮想現実(AR/VR)デバイスが、消費者のためのより豊かなより双方向体験を提供するために絶対不可欠である。
実世界屋内環境を捕捉することと関連付けられる記号論理学的難点と結び付けられる、意味論セグメント化およびオブジェクト認識を伴う、一般に認められる深層学習問題と比較して、特定分野タスクである、間取図推定は、必然的に、付随の3D点群/メッシュ表現とともに、注釈が付けられた間取図を伴う、屋内環境のデータセットの不足を反映している。さらに、単一原点のそのようなデータセットが、自然な状態で良好に性能を発揮することが可能な深層ネットワークを訓練するために必要とされる、多数かつ種々の異なるレイアウトタイプを伴う、サンプルを保有することが可能となることは、著しく可能性が低い。
いくつかの実施形態は、壁、ドア、および窓を含み得る、環境の構造要素の3D走査等の捕捉されたデータから、単一または複数の部屋を伴う、屋内環境の間取図を抽出する。学術研究機関およびまた産業における広範な研究は、屋内環境内の2Dおよび3Dデータの意味論セグメント化に関して実施されているため、いくつかの実施形態は、理性の境界内において、部屋の形状および数に関する制限を伴わずに、制約されないレイアウトを推定する比較的に未開拓のタスクに焦点を当てている。これらの実施形態は、3D走査のためのMinkowskiNet、ScanComplete、および/または2Dセグメント化のためのMask RCNN、PSPNet(付随のRGB/グレースケール画像が利用可能な場合)として知られるもの等の最先端技法が、FloorVoterが、次いで、間取図を生成するために処理し得る、構造要素の走査を作成するために利用され得ると仮定する。
グローバルグラフ最適化技法を使用する、「FloorSP」として知られるもの等の方法および構成では、問題の複雑性は、ひいては、最適化されるべきグラフのサイズに比例する、部屋の数および部屋あたりの壁の数の観点からの入力のサイズに伴ってそれほどスケール変換されない。対照的に、本主題のFloorVoter方法および構成は、グローバル問題を、並行方式において効率的に処理され得る、複数のより小さい問題に分割することによって、スケール変換の問題点に対処することを狙いとする。
いくつかの実施形態では、本明細書に説明される方法および構成は、大まかには、2ステップアプローチに従う。最初に、PointNet++バックボーンに基づく深層ネットワークが、屋内場面を構成する、部屋/面積を識別するために、入力点群の知覚的に均一なサブセットの頂点に関するクラスタ標識を生成する。同時に、本ネットワークの別の出力もまた、所与の場面内の各壁を識別するためのクラスタ標識である。次に、いくつかの実施形態は、部屋および壁標識をともに利用し、単純ポリゴンによって表される、部屋毎のDeepPerimeterタイプの形状を作成する。最終間取図は、単純に、オリジナル点群のグローバル座標系内にまとめられた、全ての推定される部屋周囲の集合となる。
要するに、いくつかの実施形態は、詳細な間取図を屋内場面の3D走査から生成するための新規技法を説明する。いくつかの実施形態では、本明細書に説明される方法および構成は、部屋の数、その構成、またはその形状に関する制約を課さない。いくつかの実施形態は、間取図推定の問題が、効率的に生成され、また、全ての側面において高度に構成可能であり得る、単純合成データセット上で、深層ネットワークを訓練することによって、解決され得ることを実証している。これらの実施形態は、付随の例証とともに、そのようなデータセットを生成するために使用される、アルゴリズムを詳細に説明する。本ネットワークは、下層機能を正常に近似させるためのアーキテクチャの能力に影響力を及ぼす、有意なドメイン適合問題点を伴わずに、実際のデータ上で見事に性能を発揮する。提案されるソリューションは、複数の段階において高度に並列化可能であって、ランタイム効率および正確度の観点から現在の最先端技術より優れている。
無秩序点群上の特徴抽出:拡張および仮想現実産業および自律車両産業の増加する動向に伴って、スマートフォン、消費者グレード深度センサ、およびLiDAR(光検出および測距)システム等の種々のソースからの「2.5D」および3次元(「3D」)データの可用性が、大きく後押しされている。複雑な学習タスクをそのようなデータ上で実施する必要性もまた、需要を増している。点ベクトルに直接作用するアーキテクチャは、入力空間を構造化されたグリッドにパーティション化し、入力を量子化し、したがって、3D畳み込みを導出されたグリッド上で起動することが可能である。より最近のアプローチは、疎畳み込みを3D点集合上で実施し、オブジェクト検出に関する見事な結果を達成する一方、いくつかのアプローチは、入力データ点をグラフにパラメータ化し、グラフ接続および構造を利用して、特徴を抽出する。
クラスタ化:クラスタ化の問題は、広義には、類似特徴を伴うデータ点が同一標識を割り当てられることになる、標識割当タスクとして定義され得る。従来的に、クラスタ化は、クラスタの数に関する事前の知識を要求する研究において、また、クラスタの数を体系的に決定するアルゴリズムにおいては、深く調査されている。最近、深層ニューラルネットワークはまた、教師ありまたは半教師ありおよび教師なし設定において本タスクを実施するためにも利用されている。本明細書に説明されるいくつかの実施形態と同様に、ある他の説明は、クラスタ化のための投票機構に焦点を当てる、いくつかの以前の研究を含む。
間取図推定:間取図推定における以前の研究は、そのような表現を表す汎用かつ標準化された方法が存在しないため、出力間取図のパラメータ化実践において、大変動を有することが観察されている。同様に、屋内環境は、手に入るセンサスイートの可用性、また、捕捉の次元および所望の分解能に応じて、種々の方法で捕捉されることができる。
従来的方法は、パノラマRGBD画像を使用して、手順通り、構造文法を使用して、空間を再構築する一方、その他は、3D走査を利用して、平面プリミティブを抽出し、構築情報モデルをヒューリスティックに生成する。
深層学習ベースの方法は、単一画像(例えば、ピンホールまたはパノラマ画像)を処理して、単一部屋に関する直方体ベースのレイアウトを生成する。典型的には、これらの方法は、消失点および壁縁等の視覚的キューに依拠して、レイアウトを推定し、多くの場合、最良マッチングを事前にコンパイルされたManhattan式部屋形状のライブラリから選択する。いくつかのアプローチは、場面の単眼ビデオを使用して、多角形周囲を生成する、単一部屋レイアウト推定方法を使用する。
アパート/住宅スケールでの間取図は、3D走査を処理し、比較的により詳細かつ半制約された間取図を生成するであろう。しかしながら、その方法の高算出要件は、消費者グレードハードウェアを使用して容認可能時間内に処理され得る、走査の数を限定する。
FloorVoter-システム概要:図2を参照すると、FloorVoterは、詳細な間取図を屋内環境の3D走査から抽出する、ロバストかつ効率的方法である。本節は、下記において、2D間取図を屋内場面の3D走査から推測する際に関わるコンポーネントを詳細に説明する。重要となるステップは、部屋毎に、部屋インスタンスおよび壁インスタンスをオリジナル3D走査から識別し、その後、部屋インスタンス毎に、閉鎖された周囲を推定するステップが続く。
部屋および壁クラスタ化:いくつかの実施形態は、入力3D点群202を、その構成部屋(例えば、204の部屋クラスタ)および壁(例えば、206の壁クラスタ)に、クラスタの数に関する任意の事前の仮定を伴わずに、間取図208、次いで、1つまたはそれを上回る壁クラスタ210にさらに処理される、3Dデータ点の非排他的クラスタ化として、分離する問題を呈する。本ステップが、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測することを可能にするために、いくつかの実施形態は、投票ベースの技法を採用する。
部屋および壁中心回帰:投票モジュールのアーキテクチャは、図3に要約される。いくつかの実施形態は、PointNet++バックボーンを特徴抽出器として使用し、それに対する入力は、
となるような点p302の点群である。バックボーン318内の集合抽象化304(ダウンサンプリングのためのSA層)層および特徴伝搬306(例えば、アップサンプリングのためのFP層)層は、種々のスケールにおいて特徴を算出し、
となるように、C個の付加的特徴寸法を有する、M個の点(M≦N)を伴う、sによって示される、入力のサブサンプリングされたバージョン(例えば、シード点308)を生産する。いくつかの実施形態は、以降、集合sをシード点308として参照し、その各要素は、投票生成器310FC1(全結合ネットワーク1)および312FC2(全結合ネットワーク2)を介して、
となるように、投票vを投じる。各シード点siは、いくつかの実施形態では、3つの投票(例えば、シードあたり3つの3Dオフセットベクトル、すなわち、部屋投票314に関して2つと、壁投票316に関して1つ)を投じ、q=R0またはq=R1は、投票が、siが属する、部屋の中心を示すことを暗示し、q=Wは、投票が、siが属する、壁の中心を示すことを暗示する。
となるような点p302の点群である。バックボーン318内の集合抽象化304(ダウンサンプリングのためのSA層)層および特徴伝搬306(例えば、アップサンプリングのためのFP層)層は、種々のスケールにおいて特徴を算出し、
となるように、C個の付加的特徴寸法を有する、M個の点(M≦N)を伴う、sによって示される、入力のサブサンプリングされたバージョン(例えば、シード点308)を生産する。いくつかの実施形態は、以降、集合sをシード点308として参照し、その各要素は、投票生成器310FC1(全結合ネットワーク1)および312FC2(全結合ネットワーク2)を介して、
となるように、投票vを投じる。各シード点siは、いくつかの実施形態では、3つの投票(例えば、シードあたり3つの3Dオフセットベクトル、すなわち、部屋投票314に関して2つと、壁投票316に関して1つ)を投じ、q=R0またはq=R1は、投票が、siが属する、部屋の中心を示すことを暗示し、q=Wは、投票が、siが属する、壁の中心を示すことを暗示する。
シード点siが、単一部屋に属する場合、vi
R0およびvi
R1は、同じである一方、壁点が、2つの部屋間で共有される場合、それらは、明確に異なる。壁中心vi
Wを決定するために投じられる投票に関して、いくつかの実施形態は、各点が、単純性の目的のために、一意の壁のみに属し得ると仮定する。
投票vi
qを各シードsiから生成するために、いくつかの実施形態は、複数の投票生成器を使用し、これは、全結合層の後、BatchNorm(バッチ正規化)およびReLU(正規化線形ユニット)層が続く。投票生成器は、
となるように、投票オフセットxiを単一シード点siから抽出する。投票オフセットは、vi q=si+xi qとなるようなシード点からその投票までのオフセットベクトルにすぎない。実践では、いくつかの実施形態は、部屋投票(q∈{R0,R1})のために1つと、壁投票(q=W)のために1つの、2つの投票生成器を使用する。任意の特定の投票生成器のパラメータは、全M個のシード点間で共有され、故に、各siは、任意の他のシード点から独立して、xi qを生成することが可能である。
となるように、投票オフセットxiを単一シード点siから抽出する。投票オフセットは、vi q=si+xi qとなるようなシード点からその投票までのオフセットベクトルにすぎない。実践では、いくつかの実施形態は、部屋投票(q∈{R0,R1})のために1つと、壁投票(q=W)のために1つの、2つの投票生成器を使用する。任意の特定の投票生成器のパラメータは、全M個のシード点間で共有され、故に、各siは、任意の他のシード点から独立して、xi qを生成することが可能である。
いくつかの実施形態が、2つの無秩序対のグラウンドトゥルースおよび予測を有する、
の場合、これらの実施形態は、最低誤差をもたらす、対毎差を選定する。これは、部屋投票に関する人工的秩序化を強化せずに、ネットワークパラメータを最適化することを可能にする。Structured3Dデータセットからの実施例に関する壁および部屋投票の可視化は、図4に表示される。さらに、図4は、部屋および壁中心に関する投票を図示する。いくつかの実施形態では、図4は、投票モジュールへの点群入力が、投票モジュールへの点群入力402と、投票点vを伴うシード点s404と、明確に異なり、かつ共有される部屋投票に関する投票オフセットベクトルx406と、投票点vを伴うシード点s408と、壁に関する投票オフセットベクトルxとを含み得ることを図示する。
の場合、これらの実施形態は、最低誤差をもたらす、対毎差を選定する。これは、部屋投票に関する人工的秩序化を強化せずに、ネットワークパラメータを最適化することを可能にする。Structured3Dデータセットからの実施例に関する壁および部屋投票の可視化は、図4に表示される。さらに、図4は、部屋および壁中心に関する投票を図示する。いくつかの実施形態では、図4は、投票モジュールへの点群入力が、投票モジュールへの点群入力402と、投票点vを伴うシード点s404と、明確に異なり、かつ共有される部屋投票に関する投票オフセットベクトルx406と、投票点vを伴うシード点s408と、壁に関する投票オフセットベクトルxとを含み得ることを図示する。
投票クラスタ化-図5:
予測される中心vi
qの集合を前提として、いくつかの実施形態は、ここで、シード点に関する対応するクラスタ標識を生成し、部屋および壁インスタンスを取得することを意図する。本動作を実施するために、いくつかの実施形態は、vi
R0およびvi
R1を連結し、部屋に関するクラスタ化入力(例えば、投票モジュールへの点群入力502)を準備し、単に、壁に関するvi
Wを使用する。いくつかの実施形態は、eps=εを伴う、クラスタ化アルゴリズム(DBSCAN)を、部屋および壁投票上で別個に起動し、q’∈{R,W}となるように、クラスタ標識li
q’を各投票vi
q’に割り当て、q’=Rは、標識が部屋に関するクラスタ割当であることを暗示する一方、q’=Wは、標識が壁に関するクラスタ割当であることを暗示する。DBSCANの使用は、最大数のクラスタに関する制限を伴わずに、単純に、その空間密度分布に基づいて、投票をクラスタ化することを可能にする。いくつかの実施形態は、次いで、クラスタ標識li
q’を投票vi
q’からシードsiに逆追跡し、割当si
q’、L(例えば、部屋504に関して、投票vからシード点sまで逆追跡される、クラスタ標識、および壁506に関して、投票vからシード点sまで逆追跡される、クラスタ標識)を作成し、式中、L=li
q’である。これに続いて、いくつかの実施形態はまた、部屋に関して、0.05×M、および壁に関して、0.01×M未満の要素強度を伴う、任意のクラスタを除去し、最後に、CR個の部屋クラスタの数およびCW個の壁クラスタの数を作成する。部屋に属する壁点のリストを取得するために、いくつかの実施形態は、下記に説明されるように、積集合演算を部屋および壁点集合上で実施する。
式中、rkは、k番目の部屋に属する、点の集合であって、wm,kは、k番目の部屋のm番目の壁に属する、点の集合である。全ての壁が、全ての部屋に属するわけではないため、多数の積集合wm,kが、ヌル集合である。表記の容易性のために、いくつかの実施形態は、全てのそのようなヌル集合を無視し、wm,kをwm’,kとして再定義し、
であり、Cmkは、
内の非空集合の数である。
であり、Cmkは、
内の非空集合の数である。
部屋周囲推定:
クラスタ標識kを伴う部屋に関する、部屋点rkおよび部屋壁点
を取得することに応じて、いくつかの実施形態は、DeepPerimeterに説明される方法を踏まえ、個々の部屋周囲の輪郭を描く。最終間取図は、いくつかの実施形態では、2Dであるため、いくつかの実施形態は、全ての壁がX-Y平面に直交するという仮定の下、rkおよび
内の全ての点をX-Y平面に投影するステップに進む。wh,kは、k番目の部屋のh番目の壁に属する、点の集合を示すとする。RANSACを使用することによって、いくつかの実施形態は、線分終点によってパラメータ化されたph,kによって示される、wh,k内の全ての点に関する2D線分を予測する。いくつかの実施形態は、具体的には、その傾きにおける差異が≦θminであって、そのバイアスにおける差異が≦βminである場合に複製であると見なされる、
内の任意の線分を除去する。最も近くの直交軸とθorthの角度を伴う、任意の線分は、該軸と整合するようにスナップされる。非Manhattanレイアウトを可能にしながら、また、RANSAC線適合におけるわずかな誤差を考慮するために、いくつかの実施形態は、下記に説明されるように、θorthの値を比較的に低く保つ。
を取得することに応じて、いくつかの実施形態は、DeepPerimeterに説明される方法を踏まえ、個々の部屋周囲の輪郭を描く。最終間取図は、いくつかの実施形態では、2Dであるため、いくつかの実施形態は、全ての壁がX-Y平面に直交するという仮定の下、rkおよび
内の全ての点をX-Y平面に投影するステップに進む。wh,kは、k番目の部屋のh番目の壁に属する、点の集合を示すとする。RANSACを使用することによって、いくつかの実施形態は、線分終点によってパラメータ化されたph,kによって示される、wh,k内の全ての点に関する2D線分を予測する。いくつかの実施形態は、具体的には、その傾きにおける差異が≦θminであって、そのバイアスにおける差異が≦βminである場合に複製であると見なされる、
内の任意の線分を除去する。最も近くの直交軸とθorthの角度を伴う、任意の線分は、該軸と整合するようにスナップされる。非Manhattanレイアウトを可能にしながら、また、RANSAC線適合におけるわずかな誤差を考慮するために、いくつかの実施形態は、下記に説明されるように、θorthの値を比較的に低く保つ。
図6に示されるように、ノードの集合に沿って、閉鎖された経路を形成するために、いくつかの実施形態は、2-optアルゴリズムの修正バージョンを実装し、そこから準最適O(n2)解を悪評のある指数関数時間巡回セールスマン問題に提供する。より具体的には、図6は、部屋に関する周囲推定モジュールへのクラスタ化された壁点の集合の入力602と、最短経路アルゴリズムによって決定された壁のセグメント終点の秩序化602と、線分を押出または拡張させ、ポリゴン頂点を生成することによって、ポリゴンとして決定される、部屋周囲606とを図示する。それを通していくつかの実施形態が最短経路を算出する、ノードの集合は、線分の始点
および終点
の集合である。これは、事実上、入力ノードの数を2倍にするだけではなく、また、
の中央値のみをその集合のノードとして使用する、より複雑なレイアウト形状の場合、より最適な解を提供する。セグメントph,kの対の終点p1 h,kおよびp2 h,kは、常時、縁によって接続され得るため、いくつかの実施形態は、最適化問題において、全てのそのような対の縁に関する横断のコストを0に設定する。
および終点
の集合である。これは、事実上、入力ノードの数を2倍にするだけではなく、また、
の中央値のみをその集合のノードとして使用する、より複雑なレイアウト形状の場合、より最適な解を提供する。セグメントph,kの対の終点p1 h,kおよびp2 h,kは、常時、縁によって接続され得るため、いくつかの実施形態は、最適化問題において、全てのそのような対の縁に関する横断のコストを0に設定する。
データセット:
本節では、いくつかの実施形態は、FloorVoterの訓練および評価のために使用される、種々のデータセットを説明する。本システムは、単純に、手順通り生成された合成データセット上で訓練されながら、観測されていない実際のおよび合成データセット上で優位性のある性能を達成することが可能であることに留意することが重要である。
合成データセット:
本明細書に説明されるネットワークを完全合成データセット上で訓練することの背後にある、重要となる動機要因は、注釈が付けられた間取図とともに、屋内場面の完全3D表現を伴う、公的に入手可能なデータセットの不足に基づく。いくつかの実施形態が生成する、合成データセットは、全ての側面において高度に構成可能であって、これは、必要に応じて、サンプルの分布を、部屋形状、サイズ、構成、および雑音パターンの観点から、任意の標的試験データセットにマッチングするように改変することを可能にする。さらに、アルゴリズムの単純性およびそのようなデータセットの高速生成は、可能性として考えられるレイアウトにおける豊かな多様性を伴う、多数のサンプル上における訓練を可能にする。
本データセットを生成するために、いくつかの実施形態は、図7Aに示される形状のライブラリから開始し、これは、単に、バイナリ3×3カーネル上におけるビットの種々の組み合わせである。N0の部屋を伴う、合成レイアウトを作成するために、いくつかの実施形態は、形状をライブラリからランダムに選択し、それを、占有グリッドと称される、32×32グリッドの中心の上に設置し、部屋標識l=0をそれに割り当てる。隣のN0-1の部屋およびその標識を追加するために、いくつかの実施形態は、反復的に、隣接する占有されていないグリッド空間のいずれかを選択し、現在占有されている空間と重複しない限り、別のランダム形状をライブラリから設置する。随時、いくつかの実施形態は、「上位部屋」をランダムに作成し、これは、いくつかの実施形態が、同一標識lをいくつかの接続される形状に割り当てるときに該当する。実施例は、図7Bに見られることができ、赤色の部屋は、ライブラリ形状の組み合わせから作成される一方、その他は、単一形状から作成される。さらに、図7Aは、形状ライブラリからのいくつかの例示的形状702Aを図示し、図7Bは、データセットのサンプルに関して生成される、標識された占有グリッド704Aを図示し、図7Cは、占有グリッドから生成される、最終点群706Aを図示し、これは、パイプラインを訓練または試験するために使用されてもよい。
いったん占有グリッドが、0からNomaxまでのランダム数の部屋を用いて作成されると、いくつかの実施形態は、占有グリッドにわたって反復し、壁場所を識別し、全ての壁が固定された仰角を有すると仮定して、平面上の点をランダムにサンプリングすることによって、壁平面の3D表現を作成し、それに続いて、いくつかの実施形態は、点毎に2つの部屋標識および壁標識を伴う、3D点群を生成することが可能である。2つの部屋標識は、点が、単一部屋に属する場合、同じであるように設定され、点が、同時に、2つの異なる部屋に属する場合、それらは、明確に異なる。各点は、単一壁のみに属すると仮定される。部屋寸法において、さらにより多くの分散を作成するために、いくつかの実施形態は、占有グリッドの行および列の幅および高さをランダムにスケール変換する。また、ドアまたは窓が壁の一部であり得る、シナリオにおいて、欠失点を表すように、ランダムに定寸された矩形ブロックを切り出すことも可能である。結果として生じる点群は、図7Cに見られることができる。
訓練時、いくつかの実施形態は、ランダム回転、また、スケール変換を、X、Y、およびZ軸毎に、各サンプルに適用し、入力を第1の象限内の2m×2mボックスに正規化する。同一正規化は、同様に、推定の際にも強化される。
Structured3Dデータセット:
いくつかの実施形態は、Structured3Dデータセットを使用して、本明細書に説明されるシステムまたは方法の定量的および定質的性能を評価する。本データセットは、部屋形状およびその構成において難解な分散を伴う、専門家設計者によって作成された3,500枚の詳しく注釈が付けられたアパート走査の集合物である。
BKEデータセット:
いくつかの実施形態はまた、BKEデータセットを使用して、本明細書に説明されるシステムまたは方法の定量的および定質的性能を評価する。いくつかの実施形態は、入力走査が、壁、ドア、窓等の構造要素のみを含有するという仮定の下で動作するため、いくつかの実施形態は、本データセットの2つの異なるバージョンを使用することによって、実験を実施する。いくつかの実施形態がBKE-synと称する、第1のバージョンでは、いくつかの実施形態は、データセット内に提供される、角、縁、および部屋注釈を使用して、合成点群を構築する。本データセットからのサンプルは、クリーンで、雑音がなく、全ての壁に沿って、点の均一サンプリングを含有する。いくつかの実施形態がBKE-structと称する、第2のバージョンは、BKE-syn内の同一場面からの最も近くの対応する点に対して0.15mより近くにある、点をオリジナル走査内に留保することによって取得されてもよい。いくつかの実施形態は、内部クラッタを破棄しながら、間取図推定に不可欠な構造要素を表す、オリジナル走査の点のサブセットを取得する。また、MinkowskiNetまたはScanComplete等の公的に入手可能な意味論セグメント化ネットワークを使用して、本フィルタリングを実施することも可能である。しかしながら、BKEに関する訓練データセットの不在および観測されていないデータセット上で事前訓練されたMinkowskiNetの不良性能に起因して、いくつかの実施形態は、代わりに、データセット自体内に提供される注釈に依拠する。
実験:
いくつかの実施形態は、間取図を3D走査から生成するための経路上で実施される、種々の実験を詳述し、上記前節に議論されるデータセットに関するパイプラインの異なる部分の定量的および定質的結果について議論する。
例示的実装詳細:
いくつかの実施形態は、オリジナル点群をランダムにサブサンプリングすることによる訓練および評価のために、ネットワークに入力される点の数をN=16384として設定する。投票モジュール内のPointNetバックボーンに関して、いくつかの実施形態は、同一アーキテクチャを使用する。いくつかの実施形態は、全ての入力点を2×2mボックス内にあるように正規化するため、いくつかの実施形態は、それぞれ、4つの集合抽象化層の半径を[0.2,0.4,0.8,1.2]に設定し、あらゆる可能性として考えられるスケールにおける特徴の算出を可能にする。特徴チャネルの数は、シード点毎に、C=256に設定され、作成されることになるシード点の数は、M=1024となる。図3における第1の投票生成器(部屋に関する)は、[256,256,6]のサイズの出力を伴う層を有する一方、第2の隠れ層(壁に関する)は、[256,256,3]のサイズの出力を伴う層を有する。
DBSCANクラスタ化ステップに関して、いくつかの実施形態は、部屋投票に関して、ε=5cm、壁投票に関して、ε=2.5cmの値を設定する。εは、ある意味では、それらを同一クラスタの中に群化するための2つの点間の最大距離の測定値である。周囲推定ステップの間、いくつかの実施形態は、θmin=15、βmin=15cm、およびθorth=15を設定する。上記に議論される合成訓練データセットは、サンプルあたり最大で10部屋のみを伴って生成されるが、しかしながら、評価の際、ネットワークは、部屋の数が10を上回るときでも、同様に、優れた性能を達成することが可能である。
例示的結果および実施例メトリック:
本明細書に説明されるいくつかの実施形態によって生成された結果を最先端方法と比較するために、いくつかの実施形態は、FloorSPと同一メトリックに関して報告し、全ての角場所、縁、および部屋に関する精度および再現率値IOU(積集合を和集合で割った値)を生成する。いくつかの実施形態は、レイアウトを合同グローバルグラフとしてパラメータ化せず、代わりに、各部屋をメトリックを算出するための独立単純ポリゴンと見なすことに留意されたい。FloorSPアプローチと同様に、いくつかの実施形態は、グラウンドトゥルースと予測角および縁の両方をともに変換し、256×256画像グリッド上に投影し、メトリックを計算するための以下のルールを使用する。
角:角のリストは、その場所に関係なく、全ての部屋の角の連結である。これは、複数の角が同一2D座標を有し得る場合でも、いくつかの実施形態が、それらが明確に異なる部屋に属する場合、それらを統合しないことを暗示する。本論理に従って、グラウンドトゥルースおよび予測される角の両方に関して、いくつかの実施形態は、Hungarian行列を使用して、割当問題を解法し、精度および再現率を算出し、予測は、そこから10ピクセルの距離以内のGT内の一意の角が存在する場合、正検出と見なされる。
縁:角と同様に、いくつかの実施形態は、全ての部屋を横断して、縁を連結し、その角の両方が正検出である場合、縁が正検出であると見なす。
部屋:部屋は、グラウンドトゥルースから一意の部屋を伴って、0.7を上回るIOUスコアを有する場合、正検出であると見なされる。FloorSPと対照的に、いくつかの実施形態は、後処理において、任意の部屋重複をすでに解決しており、したがって、FloorVoterによって生成された任意の部屋ポリゴンは、2D空間内で相互に排他的であることが保証される。
本方法の効率を査定するために、いくつかの実施形態は、パイプラインの異なるモジュールを計時する。上記に説明される深層ネットワークの順方向通過は、入力点群がN=16384点を有するとき、Nvidia GTX-Ti GPU上で平均1.99秒かかる。後続部屋あたりタスクは、各部屋が並列方式で処理されるように、8コアを伴うIntel-XEON CPU上で起動される。上記に説明されるアルゴリズムは、初期レイアウトを生成するために、場面あたり1.77秒かかる。これに続いて、いくつかの実施形態は、全ての部屋レイアウトを共通座標系内に組み立て、いくつかの後処理ステップを起動し、共線形角を除去し、部屋ポリゴンの中の任意の重複を解決する。本ステップは、平均0.192秒を要し、Structured3Dデータセットに関する場面あたり3.96秒の平均エンドツーエンドランタイムを提供する。比較として、同一ハードウェア上でエンドツーエンドで起動される、FloorSPパイプライン全体は、場面あたり15~30分を上回り、高価な最終グローバルグラフ最適化ステップが、処理時間の主要な部分を消費する。
FloorVoterは、図8A-8Bに示されるように、種々の形状に関する正確な間取図を生成することが可能である。図8Aでは、802Aは、いくつかの例示的グラウンドトゥルース画像を表し、804Aは、従来のFloorSP方法からのある例示的結果を表し、806Aは、同一の公的に入手可能なStructured3DおよびBKEデータセットからのサンプル上で本明細書に説明されるいくつかの実施形態によって生成された、ある例示的間取図を表す。図8Bでは、802Bは、いくつかの例示的グラウンドトゥルース画像を表し、804Bは、従来のFloorSP方法からのある例示的結果を表し、806Bは、同一の公的に入手可能なStructured3DおよびBKEデータセットからのサンプル上で本明細書に説明されるいくつかの実施形態によって生成された、ある例示的間取図を表す。いくつかの実施形態は、Manhattanスタイルレイアウトのみを用いて、投票ネットワークを訓練する場合でも、部屋および壁クラスタ化は、非Manhattanスタイルレイアウト、また、訓練セット内に存在しない、部屋形状上でも等しく成功することを理解されたい。これは、いくつかの実施形態がデータセット内に導入する、拡張、主に、いくつかの実施形態が入力上に適用する、ランダム化された回転が、ネットワークを軸整合されない部屋および壁上で訓練することに起因して、可能となる。
図9Aにおけるもの等の極度に雑然としたレイアウトの場合、いくつかの小部屋は、2つの小さい接続された部屋が同一標識を割り当てられる、最初の不完全なクラスタ化と、いくつかの実施形態が、上記に説明されるように、少数の点を伴う壁を省略する、周囲推定における次の処理ステップの組み合わせのため、省略される。さらに、図9Aは、グラウンドトゥルース902A内のより小さい部屋が、面積906Aによって示されるように、予測904A内で不在である、非常に雑然としたレイアウトに及ぼされる、誤ったクラスタ化のある例示的影響を図示する。図9Bは、湾曲壁をグラウンドトゥルース902B内に伴う場合における、ある例示的不正確な部屋周囲推定を図示する一方、予測904Bは、面積906Bによって示されるように、不正確な予測を示す。図9Cは、入力点群902Cが推定される間取図906Cを生成するように提供される、壁カリングのある例示的有害な影響を図示する。図9Cに示されるように、入力点群092Cおよびグラウンドトゥルース904Cの両方内の左上角における小角は、推定される間取図906C内の面積908Cによって示されるように、推定される間取図906内に精密に表されていない。図9Dは、欠失点を伴う入力において非グローバル方法を使用することのいくつかの欠点を図示する。より具体的には、欠失点を伴う入力点群902Dは、推定される間取図906Dを生成するように提供される。図9Dに示されるように、グラウンドトゥルース904Dは、部屋が相互に接続されることを示す一方、推定される間取図906Dは、入力点群902D内のこれらの対応する面積における欠失点に起因して、908Dによって示されるように、3つの占有されていない面積を示す。
本壁カリングの1つのさらなる影響は、図9Cに見られることができ、間取図内の小切り欠きが、省略されている。いくつかの例示的方法の別の限界は、図9C等の湾曲壁を伴う走査を介して明らかになり、グラウンドトゥルースでは、曲率は、一連の角によって表される一方、クラスタ化モジュールは、複数のこれらの非常に小さいセグメントを1つの大セグメントの中に組み合わせる。
Structured3DおよびBKE-synデータセット(下記の表1参照)上では、例示的実装は、部屋再現率を除き、全てのカテゴリにおいて、最先端技術を凌ぐ。これは、本明細書に説明されるいくつかの例示的方法が、複数の部屋をともに群化するステップ、または図9において議論されるシナリオでは、部屋を完全に省略するステップを被りやすくあり得るという事実によって解説され得る。BKE-struct上では、角および縁に関する精度-再現率において低下が存在する。本相違は、入力走査自体が、上記に説明される不完全なフィルタリングプロシージャに起因して、場面内の構造要素の複数のセクションを欠失している、図9Dを参照することによって解説され得る。しかしながら、部屋の大部分の全体的形状は、留保されるため、部屋再現率メトリックは、優位性のあるままである一方、部屋再現率は、いくつかのシナリオでは、部屋全体の省略を引き起こす、フィルタリングに起因して、低い。
本研究の将来的反復では、それに応じていくつかの実施形態が改良することを狙いとする、本パイプラインの複数の面積が存在する。本方法のランタイムをさらに改良するために、周囲推定段階は、クラスタ化段階と組み合わせられ、エンドツーエンド訓練可能システムを形成することができる。そのようなシステムは、同一点群を入力としてとり、場面内の部屋毎に、レイアウトまたは一連のポリゴンのラスタ化されたバージョンのいずれかを提供されるであろう。これは、本システムを入力における加算性および減算性雑音に対してさらによりロバストなものにし、また、周囲推定タスクから逆伝搬される誤差を伴うクラスタ化タスクを補助するであろう。さらに、また、バックボーンネットワークが、特徴を3D走査上に生成し、ドアおよび窓場所を識別する付加的タスクを実施し、さらに、意味論情報の別の次元を現在の推定に追加することが可能となるはずである。
「FloorVoter」の方法および構成は、正確な間取図を屋内場面の3D走査から生成するための効率的トップダウンアプローチを対象とする。FloorVoterは、深層ネットワークに依拠し、部屋および壁クラスタ化を実施し、下記にも説明される合成データセット上で完全に訓練可能である。手続型アルゴリズムを使用して、個々の部屋周囲を予測する、パイプラインの後の部分は、高度に並列化可能であって、全体として、本方法は、速度および正確度において、現在の最新の技法を凌ぐ。FloorVoterは、部屋の形状、サイズ、数、および構成に関する仮定を伴わずに、場面のレイアウトを生成することが可能にし、これは、自然な状態における3Dデータからの間取図推定のために有益なものにする。
本開示の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本開示のより広義に適用可能な側面を例証するために提供される。種々の変更が、説明される本開示に行われてもよく、本開示の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本開示の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本開示の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項に記載の範囲内であることが意図される。
本開示は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含んでもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それをアクティブ化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序およびイベントの列挙された順序で行われてもよい。
本開示の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本開示の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことは、一般または論理的に採用されるような付加的作用の観点から、本開示の方法ベースの側面に関しても当てはまり得る。
加えて、本開示は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されたが、本開示は、開示の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本開示に行われてもよく、均等物(本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず)は、本開示の真の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本開示内に包含されるものと理解されたい。
また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の1つまたはそれを上回るものと組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「a」、「an」、「said」、および「the」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項における本主題のアイテムのうちの「少なくとも1つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。
そのような排他的専門用語を使用しなければ、本開示と関連付けられる請求項における用語「~を備える(comprising)」は、所与の数の要素がそのような請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に画定される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。
本開示の範疇は、提供される実施例および/または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の言語の範囲によってのみ限定されるべきである。
図10は、1つまたはそれを上回る実施形態における、改良された安定性およびねじれに対する向上された能力を提供する、2つの対向するつるのアームと、ねじれバンドとを備える、例示的アイウェアデバイスの上面図を図示する。より具体的には、例示的アイウェアデバイス1000は、例えば、光学要素、電子コンポーネント、ファイバプロジェクタ、それらのための任意の統合コンポーネント、または任意の他の好適なコンポーネントまたは要素等を収容するための1つまたはそれを上回る空間1004を備え得る、フレーム正面1002を含んでもよい。従来の仮想現実ゴーグルと異なり、例示的アイウェアデバイス1000は、従来の対の眼眼鏡に類似し、右つるのアーム1006と、左つるのアーム1012と、右および左つるのアームに動作可能に取り付けられる、拡張可能かつ圧壊可能ねじれバンドアセンブリ1008とを備えてもよい。例示的アイウェアデバイス1000はさらに、例えば、例示的アイウェアデバイス1000におよびそこから、電力を提供し、および/またはデータを伝送し得る、ケーブルまたはケーブル1010の束を受容するためのプロビジョニングを含んでもよい。
図11Aは、1つまたはそれを上回る実施形態における、光学システムまたはXRデバイスに動作可能に結合される、電子機器のための例示的アーキテクチャ2500を示す。光学システムまたはXRデバイス自体またはXRデバイスに結合される外部デバイス(例えば、ベルトパック)は、1つまたはそれを上回る印刷回路基板コンポーネント、例えば、左(2502)および右(2504)印刷回路基板アセンブリ(PCBA)を含んでもよい。図示されるように、左PCBA2502は、アクティブ電子機器の大部分を含む一方、右PCBA604支持体は、主に、ディスプレイまたはプロジェクタ要素を支持する。
右PCBA2504は、いくつかのプロジェクタドライバ構造を含んでもよく、これは、画像情報および制御信号を画像生成コンポーネントに提供する。例えば、右PCBA2504は、第1の、すなわち、左プロジェクタドライバ構造2506と、第2の、すなわち、右プロジェクタドライバ構造2508とを搬送してもよい。第1または左プロジェクタドライバ構造2506は、第1の、すなわち、左プロジェクタファイバ2510と、信号線(例えば、ピエゾドライバワイヤ)の集合を継合する。第2、すなわち、右プロジェクタドライバ構造2508は、第2、すなわち、右プロジェクタファイバ2512と、信号線(例えば、ピエゾドライバワイヤ)の集合を継合する。第1、すなわち、左プロジェクタ駆動構造2506は、第1、すなわち、左画像プロジェクタに通信可能に結合される一方、第2、すなわち、右プロジェクタ駆動構造2508は、第2、すなわち、右画像プロジェクタに通信可能に結合される。
動作時、画像プロジェクタは、個別の光学コンポーネント、例えば、導波管および/または補償レンズを介して、仮想コンテンツをユーザの左および右眼(例えば、網膜)にレンダリングし、仮想画像と関連付けられる光を改変する。
画像プロジェクタは、例えば、左および右プロジェクタアセンブリを含んでもよい。プロジェクタアセンブリは、種々の異なる画像形成または生産技術、例えば、ファイバ走査式プロジェクタ、液晶ディスプレイ(LCD)、LCOS(シリコン上液晶)ディスプレイ、デジタル光処理(DLP)ディスプレイを使用してもよい。ファイバ走査式プロジェクタが、採用される場合、画像は、光ファイバに沿って送達され、そこから、光ファイバの先端を介して、投影され得る。先端は、導波管の中に配索されるように配向されてもよい。光ファイバの先端は、画像を投影してもよく、これは、撓曲または発振するように支持されてもよい。いくつかの圧電アクチュエータが、先端の発振(例えば、周波数、振幅)を制御してもよい。プロジェクタドライバ構造は、画像を個別の光ファイバに提供し、制御信号を制御し、圧電アクチュエータを制御し、画像をユーザの眼に投影する。
右PCBA2504を継続すると、ボタンボードコネクタ2514は、通信および物理的結合をボタンボード2516に提供してもよく、これは、種々のユーザアクセス可能ボタン、キー、スイッチ、または他の入力デバイスを搬送する。右PCBA2504は、右イヤホンまたはスピーカコネクタ2518を含み、オーディオ信号を頭部装着型コンポーネントの右イヤホン2520またはスピーカに通信可能に結合してもよい。右PCBA2504はまた、右マイクロホンコネクタ2522を含み、オーディオ信号を頭部装着型コンポーネントのマイクロホンから通信可能に結合してもよい。右PCBA2504はさらに、右オクルージョンドライバコネクタ2524を含み、オクルージョン情報を頭部装着型コンポーネントの右オクルージョンディスプレイ2526に通信可能に結合してもよい。右PCBA2504はまた、ボード間コネクタを含み、そのボード間コネクタ2534を介して、左PCBA2502との通信を提供してもよい。
右PCBA2504は、身体または頭部装着型である、1つまたはそれを上回る右の外向きに面した、すなわち、世界ビューカメラ2528と、随意に、他者に画像が捕捉されていることを示すために照明する、右カメラ視覚的インジケータ(例えば、LED)とに通信可能に結合されてもよい。右PCBA2504は、右眼の画像を捕捉し、右眼の配向および/または移動の追跡、検出、または監視を可能にするように位置付けられ、配向される、頭部装着型コンポーネントによって搬送される、1つまたはそれを上回る右眼カメラ2532に通信可能に結合されてもよい。右PCBA2504は、随意に、1つまたはそれを上回る右眼照明源2530(例えば、LED)に通信可能に結合されてもよく、これは、本明細書に解説されるように、右眼を照明の(例えば、時間的、空間的)パターンで照明し、右眼の配向および/または移動の追跡、検出、または監視を促進する。
左PCBA2502は、制御サブシステムを含んでもよく、これは、1つまたはそれを上回るコントローラ(例えば、マイクロコントローラ、マイクロプロセッサ、デジタル信号プロセッサ、グラフィカル処理ユニット、中央処理ユニット、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)2540、および/またはプログラマブル論理ユニット(PLU))を含んでもよい。制御システムは、実行可能論理または命令および/またはデータまたは情報を記憶する、1つまたはそれを上回る非一過性コンピュータまたはプロセッサ可読媒体を含んでもよい。非一過性コンピュータまたはプロセッサ可読媒体は、例えば、揮発性および不揮発性形態、例えば、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM、DRAM、SD-RAM)、フラッシュメモリ等の種々の形態をとってもよい。非一過性コンピュータまたはプロセッサ可読媒体は、例えば、マイクロプロセッサ、FPGA、またはASICの1つまたはそれを上回るレジスタとして形成されてもよい。
左PCBA2502は、左イヤホンまたはスピーカコネクタ2536を含み、オーディオ信号を頭部装着型コンポーネントの左イヤホンまたはスピーカ2538に通信可能に結合してもよい。左PCBA2502は、オーディオ信号増幅器(例えば、ステレオ増幅器)2542を含んでもよく、これは、左イヤホンまたはスピーカに通信可能に結合される。左PCBA2502はまた、左マイクロホンコネクタ2544を含み、オーディオ信号を頭部装着型コンポーネントのマイクロホンから通信可能に結合してもよい。左PCBA2502はさらに、左オクルージョンドライバコネクタ2546を含み、オクルージョン情報を頭部装着型コンポーネントの左オクルージョンディスプレイ2548に通信可能に結合してもよい。
左PCBA2502はまた、1つまたはそれを上回るセンサまたは変換器を含んでもよく、これは、周囲環境について、および/またはユーザについての情報を検出、測定、捕捉、または別様に感知する。例えば、加速変換器2550(例えば、3軸加速度計)は、3つの軸における加速を検出し、それによって、移動を検出してもよい。ジャイロスコープセンサ2552は、配向および/または磁気またはコンパス進行方向または配向を検出してもよい。他のセンサまたは変換器も、同様に採用されてもよい。
左PCBA2502は、身体または頭部装着型であり得る、1つまたはそれを上回る左外向きに面したまたは世界ビューカメラ2554と、随意に、他者に画像が捕捉されていることを示すために照明する、左カメラ視覚的インジケータ(例えば、LED)2556とに通信可能に結合されてもよい。左PCBAは、左眼の画像を捕捉し、左眼の配向および/または移動の追跡、検出、または監視を可能にするように位置付けられ、配向される、頭部装着型コンポーネントによって搬送される、1つまたはそれを上回る左眼カメラ2558に通信可能に結合されてもよい。左PCBA2502は、随意に、1つまたはそれを上回る左眼照明源(例えば、LED)2556に通信可能に結合されてもよく、これは、本明細書に解説されるように、左眼を照明の(例えば、時間的、空間的)パターンで照明し、左眼の配向および/または移動の追跡、検出、または監視を促進する。
PCBA2502および2504は、1つまたはそれを上回るポート、コネクタ、および/または経路を介して、明確に異なる算出コンポーネント(例えば、ベルトパック)と通信可能に結合される。例えば、左PCBA2502は、1つまたはそれを上回る通信ポートまたはコネクタを含み、ベルトパックとの通信(例えば、双方向通信)を提供してもよい。1つまたはそれを上回る通信ポートまたはコネクタはまた、電力をベルトパックから左PCBA2502に提供してもよい。左PCBA2502は、通信ポートまたはコネクタに電気的に結合され、調整する(例えば、電圧を逓増させる、電圧を逓減させる、電流を平滑化する、過渡電流を低減させる)ように動作可能である、電力調整回路網2580(例えば、DC/DC電力コンバータ、入力フィルタ)を含んでもよい。
通信ポートまたはコネクタは、例えば、データおよび電力コネクタまたは送受信機2582(例えば、Thunderbolt(登録商標)ポート、USB(登録商標)ポート)の形態をとってもよい。右PCBA2504は、ポートまたはコネクタを含み、電力をベルトパックから受電してもよい。画像生成要素は、電力をポータブル電源(例えば、化学バッテリセル、一次または二次バッテリセル、ウルトラキャパシタセル、燃料セル)から受電してもよく、これは、例えば、ベルトパック内に位置してもよい。
図示されるように、左PCBA2502は、アクティブ電子機器の大部分を含む一方、右PCBA2504支持体は、主に、ディスプレイまたはプロジェクタおよび関連付けられるピエゾ駆動信号を支持する。電気および/または光ファイバ接続は、光学システムまたはXRデバイスの身体または頭部装着型コンポーネントの正面、背面、または上部を横断して採用される。PCBA2502および2504は両方とも、ベルトパックに通信可能に(例えば、電気的に、光学的に)結合される。左PCBA2502は、電力サブシステムと、高速通信サブシステムとを含む。右PCBA2504は、ファイバディスプレイピエゾ駆動信号をハンドリングする。図示される実施形態では、右PCBA2504のみが、ベルトパックに光学的に接続される必要がある。他の実施形態では、右PCBAおよび左PCBAは両方とも、ベルトパックに接続されてもよい。
2つのPCBA2502および2504を採用するように図示されるが、身体または頭部装着型コンポーネントの電子機器は、他のアーキテクチャを採用してもよい。例えば、いくつかの実装は、より少ないまたはより多い数のPCBAを使用してもよい。別の実施例として、種々のコンポーネントまたはサブシステムは、図11Aに図示されるものと異なるように配列されてもよい。例えば、いくつかの代替実施形態では、一方のPCBA上に常駐するような図11Aに図示されるコンポーネントのうちのいくつかは、一般性を失うことなく、他方のPCBA上に位置してもよい。
例えば、図1を参照して上記に説明されるように、本明細書に説明される光学システムまたはXRデバイスは、いくつかの実施形態では、仮想コンテンツが3次元コンテンツとして知覚され得るように、仮想コンテンツをユーザに提示してもよい。いくつかの他の実施形態では、光学システムまたはXRデバイスは、仮想コンテンツを4または5次元ライトフィールド(またはライトフィールド)においてユーザに提示してもよい。
図11B-Cに図示されるように、ライトフィールド生成サブシステム(例えば、それぞれ、1100Cおよび1102C)は、好ましくは、ライトフィールドを生産するように動作可能である。例えば、光学装置1160Cまたはサブシステムは、光を生成または投影し、実3次元オブジェクトまたは場面から反射する光によって生産されるであろう、4次元(4D)または5次元(5D)ライトフィールドをシミュレートしてもよい。例えば、導波管反射体アレイプロジェクタ(WRAP)装置1110Cまたは複数の深度面3次元(3D)ディスプレイシステム等の光学装置は、いくつかの実施形態では、複数の仮想深度面を個別の半径方向焦点距離に生成または投影し、4Dまたは5Dライトフィールドをシミュレートしてもよい。これらの実施形態では、光学システムまたはXRデバイスは、入力画像をライトフィールドを表す4D関数の2次元(2D)スライスとして解釈することによって、4Dまたは5Dライトフィールドの接眼ライトフィールド生成器およびディスプレイとして機能する。図11B-Cは、いくつかの実施形態では、本明細書に説明されるライトフィールド生成サブシステム、またはいくつかの他の実施形態では、複数の深度面に対応する光ビームをユーザの眼に投影する、立体視仮想コンテンツ生成サブシステムを有する、光学システムまたはXRデバイスを図示し得ることに留意されたい。
いくつかの実施形態では、光学システムまたはXRデバイスは、仮想コンテンツの異なるビューを事前に入手または事前に算出された像の集合から生成する、画像ベースのレンダリングを用いて、仮想コンテンツの立体視表現をユーザにレンダリングする。仮想コンテンツは、例えば、環境マップ、世界マップ、トポロジマップ(例えば、個別の場所を表す点ノード、および/またはノードを接続し、接続されるノード間の1つまたはそれを上回る関係を表す、特徴および縁等を有する、マップ)のうちの1つまたはそれを上回るものを使用することによって、その中に仮想コンテンツを視認しているユーザが位置する、環境内に混成または設置されてもよい。これらの実施形態では、光学システムまたはXRデバイスは、特に、仮想コンテンツのリアルタイム実装において、比較的に控え目な(例えば、同一仮想コンテンツのためのライトフィールドの生成と比較して)算出リソースを要求する、画像ベースのレンダリングのために、1つまたはそれを上回るディスプレイまたはレンダリングアルゴリズムを使用する。さらに、生成された仮想コンテンツとの相互作用のコストは、仮想コンテンツの複雑性から独立し得る。さらに、仮想コンテンツを生成する際に使用される画像のソースは、実際のもの(例えば、物理的オブジェクトの写真またはビデオシーケンス)または仮想のもの(例えば、1つまたはそれを上回るモデルから)であってもよい。
画像ベースのレンダリングおよび1つまたはそれを上回るマップに基づく、これらの実施形態は、1つまたはそれを上回る固定された視点(例えば、そこから画像ベースの仮想コンテンツをレンダリングするための画像の集合が入手される、視点)に基づいてもよい。これらの実施形態のうちのいくつかは、深度値(例えば、深度センサによって入手された、または三角測量等の位置特定技法によって算出された、深度情報)を使用して、ビュー補間によって、固定された視点限界を緩和する。これらの実施形態では、光学システムまたはXRデバイスは、点を、例えば、環境マップ(例えば、マップ内の特徴、点等の詳細な幾何学的および/または地理的情報を有する、幾何学的マップ)内に、例えば、ユーザの場所、配向、および/または視線方向に基づいて、ユーザに対して再投影するために、ビュー解釈のための深度情報(例えば、画像内のピクセルのより小さいサブセットまたは画像内の全てのピクセルに関する深度データ)を使用する。
画像ベースのレンダリングおよび1つまたはそれを上回るマップを使用する、いくつかの他の実施形態は、少なくとも部分的に、一対の画像を捕捉する画像センサの位置に基づいて、仮想コンテンツをレンダリングするために使用される、対の画像内の対応する点および/または対応を決定することによって、固定された視点限界を緩和する。画像ベースのレンダリングを伴う、両方のクラスの実施形態は、視認ユーザによって立体視として知覚され得る、仮想コンテンツを事実上生成および提示するが、例えば、画像の対間の対応を決定するステップが、必ずしも、決定論的に実施されるとは限らない、状況が存在し得る。
いくつかの他の実施形態は、したがって、前述の画像ベースのレンダリングを採用するのではなく、光学システムまたはXRデバイスを用いて、4Dまたは5Dライトフィールドを生成する。ライトフィールドは、5D関数(例えば、5Dプレノプティック関数)を用いて生成されてもよく、3次元空間内の所与の方向におけるある点に放射輝度を含む。したがって、ライトフィールドは、空間角度画像の集合を画定する、5D関数を含み得る。これらの実施形態では、方向D(φ,θ)に沿って伝搬する空間内の座標(x,y,z)を有する、点Aにおける放射輝度Rが、R(x,y,z,φ,θ)の形態を有し得、φは、[0,π]の範囲(それらの値を含む)を有し、θは、[0,2π]の範囲(同様に、それらの値を含む)を有する。本形態では、φは、x-軸およびy-軸によって画定された水平平面からの角度を示し、θは、3D空間内の点と座標系の原点を接続するベクトルと基準単位ベクトル(例えば、x-軸に沿った単位ベクトル)との間の角度を示す。
いくつかの実施形態では、放射輝度は、媒体(例えば、空気等の透明媒体)内に保存される。上記の5D関数は、放射輝度保存に起因して、ある量の冗長性を呈する。これらの実施形態では、ライトフィールドを表す、前述の5D関数は、光学システムまたはXRデバイスが5D関数を表面(例えば、平面z=0)内に作成すると、4D関数R(x,y,φ,θ)に還元され、したがって、事実上、3つの空間次元(x,y,z)と、2つの角度次元(φ,θ)とを有する5D関数を、2つの空間次元(x,y)と、2つの角度次元(φ,θ)とを有する、4D関数に還元し得る。5D関数から4D関数へのライトフィールド関数の次元の還元は、仮想コンテンツのためのライトフィールドの生成を促すだけではなく、また、算出リソースを節約する。
これらの実施形態では、本明細書に説明される光学システムまたはXRデバイスは、前述の4D関数(またはライトフィールド技法のより一般的用途では、5D関数)を用いて、仮想コンテンツのための複数の点の個別の放射輝度を算出することによって、仮想コンテンツのためのライトフィールドを生成し、ユーザに提示する。ある点に関して算出された放射輝度(または放射輝度束)は、その点によって放出、反射、透過、または受信される光に関するデータを含み、投影された面積当たりベースに基づいて算出されてもよい。ある点に関する放射輝度はまた、周波数および/または波長情報を含んでもよく、放射輝度が、光学システムまたはXRデバイスのユーザによって知覚され得る、仮想コンテンツの点(例えば、ピクセルまたはピクセルの集合)または一部を表す、点を表すように指向性である。放射輝度は、正投影画像または同次座標を使用した固定された視野を伴う画像を用いて、点および方向によって、線(例えば、ユーザの眼から仮想コンテンツの点までの線)をパラメータ化する等、任意の技法を用いて算出されてもよい。例えば、ある点の放射輝度は、光スラブ技法を使用して、仮想コンテンツのための点およびユーザの眼を表す点を個別の凸四辺形内にあるように制限し、線形投影マップ(例えば、3×3行列)を用いて、仮想コンテンツ(例えば、仮想コンテンツの画像ピクセル)の点とユーザの眼を表す点との間でマッピングすることによって、決定されてもよい。
例えば、光学システムまたはXRデバイスまたは電子機器(例えば、前述のベルトパック)は、画像の2Dアレイをレンダリングすることによって、光スラブを生成してもよく、各画像は、4D光スラブのスライスを固定された平面に表し、仮想カメラの投影の中心を、立体対の画像を生成するために使用されるものと実質的に類似する、剪断透視投影を実施することによって、仮想コンテンツの点に対応する、サンプル場所に設置することによって形成される。いくつかの実施形態では、光スラブは、正投影ビューの2Dアレイから形成されてもよい。
光学システムまたはXRデバイスを介して、仮想コンテンツのためのライトフィールド表現を生成し、ユーザに提示するために、光学システムまたはXRデバイスのレンズ(例えば、図1における12aまたは12b)は、1つまたはそれを上回る平面または自由形態導波管のスタックを含んでもよく、導波管は、それぞれ、1つまたはそれを上回る明確に異なる焦点距離に対応する、1つまたはそれを上回る明確に異なる焦点面を画定してもよい。1つまたはそれを上回る平面または自由形態導波管のスタックは、いくつかの実施形態では、したがって、対応する焦点距離に位置する、複数の焦点面を画定してもよい。画像の2Dスライスは、具体的焦点距離における焦点面上にレンダリングされてもよく、2Dスライスの集合は、したがって、複数の焦点面にレンダリングされ、次いで、光学システムまたはXRデバイスのユーザによって立体視として知覚され得る、仮想コンテンツを表してもよい。
いくつかの実施形態では、導波管は、内部結合光ビームを第1の直交光ビームレットの集合に分割するために平面光学導波管の第1の面と関連付けられる第1の直交瞳拡張(OPE)要素と、内部結合光ビームを第2の直交光ビームレットの集合に分割するために平面光学導波管の第2の面と関連付けられる第2の直交瞳拡張(OPE)要素とを備える。いくつかの実施形態では、第1のOPE要素は、平面光学導波管の第1の面上に配置され、第2のOPE要素は、平面光学導波管の第2の面上に配置される。内部結合要素は、内部結合光ビームの一部が、TIRを介して、第2の平行光学経路に沿って、平面光学導波管内を伝搬する、個別の第1の直交光ビームレットの集合および第2の直交光ビームレットの集合として偏向されるように、画像投影アセンブリからコリメート光ビームを、伝搬のために、内部結合光ビームとして、全内部反射(TIR)を介して、第1のOPE要素および第2のOPE要素と交互に交差する、第1の光学経路に沿って、平面光学導波管内で光学的に結合するために構成されてもよい。この場合、第2の平行光学経路は、第1の光学経路に直交してもよい。
いくつかの実施形態では、半反射性界面は、内部結合された光ビームを少なくとも2つの内部結合される光ビームレットに分割させるために構成される。この場合、DOEは、それぞれ、少なくとも2つの内部結合された光ビームレットを少なくとも2つの直交光ビームレットの集合に分割させるために構成される、直交瞳拡張(OPE)要素を備え、半反射性界面はさらに、少なくとも2つの直交光ビームレットの集合を少なくとも4つの直交光ビームレットの集合に分割させるために構成され、DOEは、少なくとも4つの直交光ビームレットの集合を外部結合された光ビームレットの集合に分割させるために構成される、射出瞳拡張(EPE)要素を備える。OPE要素およびEPE要素は、光学平面導波管の面上に配置されてもよい。
いくつかの実施形態では、導波管は、直交光ビームレットを平面光学導波管から退出する外部結合光ビームレットのアレイ(例えば、2次元の外部結合光ビームレットアレイ)に分割するために平面光学導波管と関連付けられる、射出瞳拡張(EPE)要素を備えてもよい。コリメート光ビームは、入射瞳を画定してもよく、外部結合光ビームレットアレイは、入射瞳より大きい射出瞳を画定してもよく、例えば、入射瞳より少なくとも10倍大きい、またはさらに、入射瞳より少なくとも100倍大きい。
いくつかの実施形態では、EPE要素は、平面光学導波管の第1および第2の表面のうちの1つ上に配置される。第1の直交光ビームレットの集合および第2の直交光ビームレットの集合は、第1の直交光ビームレットの集合および第2の直交光ビームレットの集合の一部が、外部結合光ビームレットアレイとして平面光学導波管から外に偏向されるように、EPE要素と交差してもよい。いくつかの実施形態では、EPE要素は、凸面波面外形を平面光学導波管から退出する外部結合光ビームレットアレイ上に付与するために構成される。この場合、凸面波面外形は、半径の中心を集光点に有し、画像を所与の焦点面に生産してもよい。別の実施形態では、IC要素、OPE要素、およびEPE要素はそれぞれ、回折性である。
仮想画像生成システムはさらに、複数の一次光ビームレットを平面光学導波管の面から退出する外部結合光ビームレットのアレイ(例えば、2次元の外部結合されたビームレットアレイ)にさらに分割するために平面光学導波管と関連付けられる、1つまたはそれを上回る回折光学要素(DOE)を備える。コリメート光ビームは、入射瞳を画定してもよく、外部結合光ビームレットアレイは、入射瞳より大きい射出瞳を画定してもよく、例えば、入射瞳より少なくとも10倍大きい、またはさらに、入射瞳より少なくとも100倍大きい。いくつかの実施形態では、一次基板の第1の厚さおよび二次基板の第2の厚さは、外部結合光ビームレットのうちの少なくとも2つの隣接するものの中心間の間隔がコリメート光ビームの幅と等しいまたはそれ未満であるように選択される。別の実施形態では、第1の厚さおよび第2の厚さは、外部結合光ビームレットの隣接するものの半分を上回る間隙が縁間に常駐しないように選択される。
いくつかの実施形態では、半反射性界面は、内部結合光ビームを少なくとも2つの内部結合光ビームレットに分割するために構成される。この場合、DOEは、それぞれ、少なくとも2つの内部結合光ビームレットを少なくとも2つの直交光ビームレットの集合に分割するために構成される、直交瞳拡張(OPE)要素を備え、半反射性界面は、少なくとも2つの直交光ビームレットの集合を少なくとも4つの直交光ビームレットの集合にさらに分割するために構成され、DOEは、少なくとも4つの直交光ビームレットの集合を外部結合光ビームレットの集合に分割するために構成される、射出瞳拡張(EPE)要素を備える。OPE要素およびEPE要素は、光学平面導波管の面上に配置されてもよい。
少なくとも2つの内部結合光ビームレットは、少なくとも2つの内部結合光ビームレットの一部が、TIRを介して、第2の平行光学経路に沿って、平面光学導波管内を伝搬する、少なくとも2つの直交光ビームレットの集合として回折されるように、全内部反射(TIR)を介して、OPE要素と交差する第1の光学経路に沿って、平面光学導波管内を伝搬してもよい。第2の平行光学経路は、第1の光学経路に直交してもよい。少なくとも2つの直交光ビームレットの集合は、少なくとも2つの直交光ビームレットの集合の一部が、平面光学導波管の面から外に外部結合される光ビームレットの集合として回折されるように、EPE要素と交差してもよい。いくつかの実施形態では、EPE要素は、凸面波面外形を平面光学導波管から退出する外部結合光ビームレットアレイ上に付与するために構成されてもよい。この場合、凸面波面外形は、半径の中心を集光点に有し、画像を所与の焦点面に生産してもよい。
本開示の第3の側面によると、仮想画像生成システムは、第1の厚さを有する一次基板と、それぞれ少なくとも1つの第2の厚さを有する少なくとも1つの二次基板とを含む、複数の基板と、それぞれ、基板間に配置される、少なくとも1つの半反射性界面とを備える、平面光学導波管を備える。
第1の厚さは、少なくとも1つの第2の厚さのそれぞれの少なくとも2倍である。いくつかの実施形態では、第1の厚さは、第2の厚さのそれぞれの非倍数である。別の実施形態では、二次基板は、複数の二次基板を備える。この場合、第2の厚さは、相互に等しくてもよい、または二次基板のうちの2つまたはそれを上回るものは、相互に等しくない第2の厚さを有してもよい。第1の厚さは、第2の厚さのうちの少なくとも1つの非倍数であってもよい。等しくない第2の厚さのうちの少なくとも2つは、相互の非倍数であってもよい。
いくつかの実施形態では、半反射性界面はそれぞれ、半反射性コーティングを備え、これは、例えば、それぞれ、物理蒸着(PVD)、イオン支援蒸着(IAD)、およびイオンビームスパッタリング(IBS)のうちの1つを介して、基板間に配置されてもよい。コーティングはそれぞれ、例えば、金属(Au、Al、Ag、Ni-Cr、Cr等)、誘電体(酸化物、フッ化物、および硫化物)、および半導体(Si、Ge)のうちの1つまたはそれを上回るものを含んでもよい。さらに別の実施形態では、基板の隣接するものは、異なる屈折率を有する材料から成る。
仮想画像生成システムはさらに、伝搬のために画像投影アセンブリからコリメート光ビームを内部結合光ビームとして平面光学導波管内で光学的に結合するために構成される、内部結合(IC)要素を備える。画像投影アセンブリは、コリメート光ビーム走査のために構成される、走査デバイスを備えてもよい。半反射性界面は、内部結合光ビームを一次基板内を伝搬する複数の一次光ビームレットに分割するために構成される。
仮想画像生成システムはさらに、複数の一次光ビームレットを平面光学導波管の面から退出する外部結合光ビームレットのアレイ(例えば、2次元の外部結合されたビームレットアレイ)にさらに分割するために平面光学導波管と関連付けられる、1つまたはそれを上回る回折光学要素(DOE)を備える。コリメート光ビームは、入射瞳を画定してもよく、外部結合光ビームレットアレイは、入射瞳より大きい射出瞳を画定してもよく、例えば、入射瞳より少なくとも10倍大きい、またはさらに、入射瞳より少なくとも100倍大きい。いくつかの実施形態では、一次基板の第1の厚さおよび二次基板の第2の厚さは、外部結合光ビームレットのうちの少なくとも2つの隣接するものの中心間の間隔がコリメート光ビームの幅と等しいまたはそれ未満であるように選択される。別の実施形態では、第1の厚さおよび第2の厚さは、外部結合光ビームレットの隣接するものの半分を上回る間隙が縁間に常駐しないように選択される。
いくつかの実施形態では、半反射性界面は、内部結合光ビームを少なくとも2つの内部結合光ビームレットに分割するために構成される。この場合、DOEは、それぞれ、少なくとも2つの内部結合光ビームレットを少なくとも2つの直交光ビームレットの集合に分割するために構成される、直交瞳拡張(OPE)要素を備え、半反射性界面は、少なくとも2つの直交光ビームレットの集合を少なくとも4つの直交光ビームレットの集合にさらに分割するために構成され、DOEは、少なくとも4つの直交光ビームレットの集合を外部結合光ビームレットの集合に分割するために構成される、射出瞳拡張(EPE)要素を備える。OPE要素およびEPE要素は、光学平面導波管の面上に配置されてもよい。
少なくとも2つの内部結合光ビームレットは、少なくとも2つの内部結合光ビームレットの一部が、TIRを介して、第2の平行光学経路に沿って、平面光学導波管内を伝搬する、少なくとも2つの直交光ビームレットの集合として回折されるように、全内部反射(TIR)を介して、OPE要素と交差する第1の光学経路に沿って、平面光学導波管内を伝搬してもよい。第2の平行光学経路は、第1の光学経路に直交してもよい。少なくとも2つの直交光ビームレットの集合は、少なくとも2つの直交光ビームレットの集合の一部が、平面光学導波管の面から外に外部結合される光ビームレットの集合として回折されるように、EPE要素と交差してもよい。いくつかの実施形態では、EPE要素は、凸面波面外形を平面光学導波管から退出する外部結合光ビームレットアレイ上に付与するために構成されてもよい。この場合、凸面波面外形は、半径の中心を集光点に有し、画像を所与の焦点面に生産してもよい。
本開示の第4の側面によると、仮想画像生成システムは、結像要素からコリメート光ビームを受光し、コリメート光ビームを初期外部結合光ビームレットの集合に分割するために構成される、前置瞳拡張(PPE)要素を備える。仮想画像生成システムはさらに、平面光学導波管と、初期外部結合光ビームレットの集合を平面光学導波管の中に内部結合光ビームレットの集合として光学的に結合するために構成される、内部結合(IC)要素と、内部結合光ビームレットの集合を平面光学導波管の面から退出する最終外部結合光ビームレットの集合に分割するために平面光学導波管と関連付けられる1つまたはそれを上回る回折要素とを備える。回折要素は、内部結合光ビームレットの集合を直交光ビームレットの集合にさらに分割するために平面光学導波管と関連付けられる、直交瞳拡張(OPE)要素と、直交光ビームレットの集合を最終外部結合光ビームレットの集合に分割するために平面光学導波管と関連付けられる、射出瞳拡張(EPE)要素とを備えてもよい。
いくつかの実施形態では、コリメート光ビームは、入射瞳を画定し、初期外部結合光ビームレットの集合は、入射瞳より大きい事前拡張瞳を画定し、最終外部結合光ビームレットの集合は、事前拡張瞳より大きい射出瞳を画定する。一実施例では、事前拡張瞳は、入射瞳より少なくとも10倍大きく、射出瞳は、事前拡張瞳より少なくとも10倍大きい。いくつかの実施形態では、初期外部結合光ビームレットの集合は、2次元の光ビームレットアレイとして、平面光学導波管の中に光学的に結合され、最終外部結合光ビームレットの集合は、2次元の光ビームレットアレイとして、平面光学導波管の面から退出する。別の実施形態では、初期外部結合光ビームレットの集合は、1次元の光ビームレットアレイとして、平面光学導波管の中に光学的に結合され、最終的に外部結合される光ビームレットの集合は、2次元の光ビームレットアレイとして、平面光学導波管の面から退出する。
いくつかの実施形態では、PPE要素は、小型平面光学導波管と、コリメート光ビームを初期直交光ビームレットの集合に分割するために小型平面光学導波管と関連付けられる、小型OPE要素と、初期直交光ビームレットの集合を小型平面光学導波管の面から退出する初期外部結合光ビームレットの集合に分割するために小型平面光学導波管と関連付けられる、小型EPE要素とを備える。PPEはさらに、コリメート光ビームを平面光学導波管の中に光学的に結合するために構成される、小型IC要素を備えてもよい。
別の実施形態では、PPE要素は、コリメート光ビームを発散する光ビームレットの初期集合に分割するために構成される、回折ビームスプリッタ(例えば、1×NビームスプリッタまたはM×Nビームスプリッタ)と、発散する光ビームレットの初期集合を初期外部結合光ビームレットの集合に再コリメートするために構成される、レンズ(例えば、回折レンズ)とを備える。
さらに別の実施形態では、PPE要素は、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、プリズム(例えば、中実プリズムまたは空洞プリズム)を備える。プリズムは、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、半反射性プリズム平面を備えてもよい。プリズムは、コリメート光ビームを内部結合光ビームレットの集合に分割するために構成される、複数の平行プリズム平面を備えてもよい。この場合、平行プリズム平面は、半反射性プリズム平面を備えてもよい。複数の平行プリズム平面は、完全反射性プリズム平面を備えてもよく、その場合、コリメート光ビームの一部は、少なくとも1つの半反射性プリズムによって第1の方向に反射されてもよく、コリメート光ビームの一部は、第1の方向における反射のために、完全反射性プリズム平面に透過されてもよい。プリズムは、コリメート光ビームを第1の方向に反射される初期直交光ビームレットの集合に分割するために構成される、第1の平行プリズム平面の集合と、初期直交光ビームレットを第1の方向と異なる第2の方向に反射される内部結合光ビームレットの集合に分割するために構成される、第2の平行プリズム平面の集合とを備えてもよい。第1および第2の指向性は、相互に直交してもよい。
さらに別の実施形態では、PPE要素は、コリメート光ビームを第1の平面光学導波管アセンブリの面から退出する2次元の外部結合光ビームレットのアレイ(例えば、N×N光ビームレットアレイ)に分割するために構成される、第1の平面光学導波管アセンブリと、2次元の外部結合光ビームレットアレイを第2の平面光学導波管アセンブリの面から内部結合光ビームレットの集合として退出する複数の2次元の外部結合光ビームレットのアレイに分割するために構成される、第2の平面光学導波管アセンブリとを備える。第1および第2の平面光学導波管アセンブリはそれぞれ、等しくない厚さを有してもよい。
2次元の外部結合光ビームレットアレイは、ビームレット間間隔を有し、複数の2次元の外部結合光ビームレットアレイは、2次元の外部結合光ビームレットアレイのビームレット間間隔と異なるアレイ間間隔によって、相互から空間的にオフセットされる。いくつかの実施形態では、複数の2次元の外部結合光ビームレットアレイのアレイ間間隔および2次元の外部結合光ビームレットアレイのビームレット間間隔は、相互の非倍数である。複数の2次元の外部結合光ビームレットアレイのアレイ間間隔は、2次元の外部結合光ビームレットアレイのビームレット間間隔を上回ってもよい。
いくつかの実施形態では、第1の平面光学導波管アセンブリは、対向する第1および第2の面を有する、第1の平面光学導波管と、伝搬のために、コリメート光ビームを、全内部反射(TIR)を介して、第1の光学経路に沿って、第1の平面光学導波管内で光学的に結合するために構成される、第1の内部結合(IC)要素と、コリメート光ビームを第1の平面光学導波管の第2の面から退出する1次元の光ビームレットアレイに分割するために第1の平面光学導波管と関連付けられる、第1の射出瞳エクスパンダ(EPE)要素と、対向する第1および第2の面を有する、第2の平面光学導波管と、伝搬のために、1次元の光ビームレットアレイを、TIRを介して、第1の光学経路と垂直な個別の第2の光学経路に沿って、第2の平面光学導波管内で光学的に結合するために構成される、第2のIC要素と、1次元の光ビームレットアレイを第2の平面光学導波管の第2の面から退出する2次元の光ビームレットアレイに分割するために第2の平面光学導波管と関連付けられる、第2の射出瞳エクスパンダ(EPE)要素とを備える。この場合、第2の平面光学導波管の第1の面は、第1の平面光学導波管の第2の面に添着されてもよい。第1および第2の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよい。
第2の平面光学導波管アセンブリは、対向する第1および第2の面を有する、第3の平面光学導波管と、伝搬のために、第1の2次元の光ビームレットアレイを、TIRを介して、個別の第3の光学経路に沿って、第3の平面光学導波管内で光学的に結合するために構成される、第3のIC要素と、2次元の光ビームレットアレイを第3の平面光学導波管の第2の面から退出する複数の2次元の光ビームレットアレイに分割するために第3の平面光学導波管と関連付けられる、第3のEPE要素と、対向する第1および第2の面を有する、第4の平面光学導波管と、伝搬のために、複数の2次元の光ビームレットアレイを、TIRを介して、第3の光学経路と垂直な個別の第4の光学経路に沿って、第4の平面光学導波管内で光学的に結合するために構成される、第4のIC要素と、複数の2次元の光ビームレットアレイを第4の平面光学導波管の第2の面から光ビームレットの入力集合として退出する複数の2次元の光ビームレットアレイに分割するために第4の平面光学導波管と関連付けられる、第4のEPE要素とを備えてもよい。この場合、第4の平面光学導波管の第1の面は、第3の平面光学導波管の第2の面に添着されてもよく、第3の平面光学導波管の第1の面は、第2の平面光学導波管の第2の面に添着されてもよい。第1および第2の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよく、第3および第4の平面光学導波管は、それぞれ、実質的に等しい厚さを有してもよい。この場合、第1および第2の平面光学導波管の実質的に等しい厚さは、第3および第4の平面光学導波管の実質的に等しい厚さと異なってもよい。第3および第4の平面光学導波管の等しい厚さは、第1および第2の平面光学導波管の等しい厚さを上回ってもよい。
WRAP装置1110Cまたは複数の深度面3Dディスプレイシステムの形態における光学装置1160Cは、例えば、直接または間接的にのいずれかにおいて、画像をユーザの各眼の中に投影してもよい。仮想深度面の数および半径方向設置が、半径方向距離の関数として、ヒト視覚系の深度分解能に匹敵するとき、投影された深度面の離散集合は、実際の持続的3次元オブジェクトまたは場面によって生産される、精神物理的効果を模倣する。1つまたはそれを上回る実施形態では、システム1100Cは、ARユーザ毎にカスタマイズされ得る、フレーム1170Cを備えてもよい。システム1100Cの付加的コンポーネントは、電子機器1130C(例えば、図11Aに図示される電子機器のいくつかまたは全て)を含み、ARシステムの種々の電気および電子サブパーツを相互に接続する。
システム1100Cはさらに、1つまたはそれを上回る仮想画像と関連付けられる光を導波管プリズム1110Cの中に投影する、マイクロディスプレイ1120Cを備えてもよい。図11Bに示されるように、マイクロディスプレイ1120Cから生産された光は、導波管1110C内を進行し、光の一部は、ユーザの眼1190Cに到達する。1つまたはそれを上回る実施形態では、システム1100Cはさらに、1つまたはそれを上回る補償レンズ1180Cを備え、仮想画像と関連付けられる光を改変してもよい。図11Cは、図11Bと同一コンポーネントを図示するが、マイクロディスプレイ1120Cからの光が、導波管1110Cを通して進行し、ユーザの眼1190Cに到達する、方法を図示する。
光学装置1160Cは、それぞれ、線形導波管のそれぞれ内に内蔵される、位置する、または形成される、個別の一連の分解された湾曲球状反射体またはミラーを伴う、いくつかの線形導波管を含んでもよいことを理解されたい。一連の分解された湾曲球状反射体またはミラーは、無限遠集束光を具体的半径方向距離に再集束させるように設計される。凸面球状ミラーが、出力球面波を生産し、凸面球状ミラーの背後の画定された距離に位置するように現れる、仮想点源を表すために使用されることができる。
線形または矩形導波管内において、ある形状(例えば、2つの軸を中心とする曲率半径)および配向の一連のマイクロ反射体をともに連結することによって、仮想点源によって生産された球面波面に対応する3D画像を特定のx、y、z座標に投影することが可能である。2D導波管または層はそれぞれ、他の導波管に対する独立光学経路を提供し、波面を成形し、入射光を集束させ、個別の半径方向距離に対応する、仮想深度面を投影する。それぞれ、焦点面を異なる焦点深度に提供する、複数の2D導波管を用いることで、投影された仮想深度面を視認するユーザは、3D効果を体験する。
図14Fは、いくつかの実施形態における、3×3受容野を有する、1-膨張畳み込みの簡略化された実施例を図示する。より具体的には、図14Fは、膨張が分解能または網羅率の損失を伴わずに、受容野の指数関数的拡張をサポートすることを図示する。図14Fにおける各要素(円形ドット)は、3×3の受容野を有し、各層と関連付けられるパラメータの数は、1-膨張畳み込みと同じである。
図14Gは、いくつかの実施形態における、図14Fにおける1-膨張畳み込みから生産され、2-膨張畳み込みに起因して、7×7受容野を有する、2-膨張畳み込みの簡略化された実施例を図示する。図14Hは、いくつかの実施形態における、図14Gにおける2-膨張畳み込みから生産され、3-膨張畳み込みに起因して、11×11受容野を有する、3-膨張畳み込みの簡略化された実施例を図示する。図14Iは、いくつかの実施形態における、図14Hにおける2-膨張畳み込みから生産され、4-膨張畳み込みに起因して、15×15受容野を有する、4-膨張畳み込みの簡略化された実施例を図示する。図14F-14Iから分かり得るように、受容野は、指数関数的に増加するサイズの正方形である。すなわち、各要素の個別の野は、
(2i+1-1)2であって、式中、i=1、2、3、….、nであって、iは、膨張係数を示す。
(2i+1-1)2であって、式中、i=1、2、3、….、nであって、iは、膨張係数を示す。
図14Hは、いくつかの実施形態における、図7Cにおける2-膨張畳み込みから生産され、11×11受容野を有する、3-膨張畳み込みの簡略化された実施例を図示する。図14Iは、いくつかの実施形態における、図7Dにおける2-膨張畳み込みから生産され、15×15受容野を有する、4-膨張畳み込みの簡略化された実施例を図示する。図14Jは、いくつかの実施形態における、周囲推定のための例示的パイプラインを図示する。
図14Kは、いくつかの実施形態における、周囲推定のための別の例示的パイプラインを図示する。
図15Aは、いくつかの実施形態における、場面の間取図を生成するための高レベルフロー図を図示する。より具体的には、図15Aは、2ステッププロセスを伴う、推定される間取図を生成するための高レベルフロー図を図示する。第1のステップの間、部屋分類および壁分類が、いくつかの実施形態では、1502Aにおいて、場面の入力画像から決定され得る。入力画像は、いくつかの実施形態では、カメラによって捕捉された写真等の静止画、いくつかの他の実施形態では、画像のシーケンス、他の実施形態では、ビデオを含んでもよい。入力画像は、入力点群とも称され得る、点または特徴の集合を決定するように処理されてもよい。分類が、標識(例えば、第1の壁標識、第2の壁標識、第1の部屋標識、第2の部屋標識等)を各点または特徴に割り当てるために実施されてもよい。
第2のステップ1504Aの間、間取図が、部屋分類および壁分類に基づいて、推定または少なくとも部分的に決定され得る。現代の間取図推定アプローチと異なり、間取図は、1504Aにおいて、いくつかの実施形態では、部屋の数、部屋の任意の具体的構成、または部屋の任意の形状に関する制約を伴わずに、決定され得る。図15Aに図示される2つのステップのそれぞれについてのさらなる詳細は、下記に説明されるであろう。
図15Bは、いくつかの実施形態における、場面の間取図を生成するための図15Aに図示される高レベルフロー図についてのさらなる詳細を図示する。より具体的には、図15Bは、図15Aにおける1502Aでの部屋分類および壁分類の決定についてのさらなる詳細を図示する。これらの1つまたはそれを上回る実施形態では、入力画像は、1502Bにおいて識別され得る。画像は、場面(例えば、1つまたはそれを上回る壁を伴う、1つまたはそれを上回る部屋を有する、内環境)の走査から取得されてもよい。例えば、入力画像は、場面の3D走査から取得されてもよい。上記に説明されるように、入力画像は、いくつかの実施形態では、カメラによって捕捉された写真等の静止画、いくつかの他の実施形態では、画像のシーケンス、他の実施形態では、ビデオを含んでもよい。入力画像は、入力点群とも称され得る、点または特徴の集合を決定するように処理されてもよい。画像は、2次元(2D)平面画像(または画像のシーケンス)またはより高次元の画像(またはユークリッド空間内の3D画像等の画像のシーケンス、時間的および空間的次元を伴う、4D画像、4Dライトフィールド表現、5Dライトフィールド表現等)であってもよい。
入力点群は、1504Bにおいて、入力画像から決定されてもよい。例えば、種々の技法が、入力画像に適用され、点または特徴(例えば、頂点、縁等)を入力画像から抽出し、これらの抽出された点または特徴を、入力画像から取得される点の集合を備える、入力点群の中に記憶してもよい。いくつかの実施形態では、入力点群のサブセットが、1506Bにおいて、識別または決定されてもよい。これらの実施形態のうちのいくつかでは、入力点群の均一サブセットが、1506Bにおいて、識別または決定されてもよい。深層ネットワークが、識別され、随意に、1508Bにおいて、少なくとも1つのデータセットを用いて訓練されてもよい。いくつかの実施形態では、雑音を含まない、単純合成データセットが、深層ネットワークを訓練するために使用されてもよい。
1510Bでは、1つまたはそれを上回る部屋に関する1つまたはそれを上回る部屋クラスタ標識が、入力点群(または随意に、そのサブセット)に関して生成されてもよい。いくつかの実施形態では、部屋クラスタ標識および壁クラスタ標識が、個別の部屋および壁に関して、深層ネットワークを用いて、並行して生成されてもよい。いくつかの実施形態では、クラスタ標識が、図15Dを参照して下記により詳細に説明される、PointNet++ベースのクラスタ化モジュールを使用することによって、入力点群(またはそのサブセット)に関して生成されてもよい。加えて、または代替として、クラスタ標識は、クラスタの既存の数を識別し、クラスタの総数を体系的に決定し、教師ありまたは半教師あり設定または教師なし設定において、1つまたはそれを上回る深層ニューラルネットワークを使用することによって、クラスタを決定し、および/またはいくつかの他の実施形態では、投票機構を使用することによって、クラスタ化することによって、生成されてもよい。
図15Cは、いくつかの実施形態における、場面の間取図を生成するための図15Aに図示される高レベルフロー図についてのさらなる詳細を図示する。より具体的には、図15Cは、図15Aの1504Aにおける間取図を決定するステップについてのさらなる詳細を図示する。これらの実施形態では、DeepPerimeterタイプの形状(例えば、DeepPerimeterモジュールを用いて生成された部屋周囲)が、1502Cにおいて、完全または部分的に、入力画像内に捕捉される(故に、入力点群内に表される)、部屋に関して生成されてもよい。これらの実施形態のうちのいくつかは、部屋毎に、DeepPerimeterタイプの形状を生成し、DeepPerimeterタイプの形状は、部屋をポリゴンとして表し、本明細書では、推定される部屋周囲と称され得る。間取図は、1504Cにおいて、少なくとも、推定される部屋周囲と、同一入力画像または1つまたはそれを上回る別個の入力画像からの場面に関して決定された1つまたはそれを上回る他の推定される部屋周囲を集約または統合することによって、生成されてもよい。1502CにおいてDeepPerimeterタイプの形状を生成するステップについてのさらなる詳細は、図15Eを参照して下記に説明される。
図15Dは、いくつかの実施形態における、場面の間取図を生成するための図15Bに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図15Dは、図15Bの1510Bにおける、部屋クラスタ標識を生成するステップについてのさらなる詳細を図示する。これらの実施形態では、点の集合は、1502Dにおいて、少なくとも部分的に、下層空間の距離メトリックに基づいて、重複ローカル領域にパーティション化されてもよい。点集合の重複パーティション化を生成するために、パーティションは、下層ユークリッド空間内の近傍ボールとして定義されてもよく、そのパラメータは、いくつかの実施形態では、重心場所およびスケールを含む。集合全体を均一に網羅するために、重心は、これらの実施形態のうちのいくつかでは、最遠点サンプリング(FPS)アルゴリズムによって、入力点集合の中から選択される。いくつかの実施形態では、点のパーティション化は、ローカル特徴学習器の加重が畳み込み設定におけるように共有され得るように、パーティションを横断して、共通構造を生産する。
幾何学的構造を捕捉する、1つまたはそれを上回るローカル特徴が、1504Dにおいて、少なくとも、意味論特徴抽出を点の集合のネスト化されたパーティション化上で再帰的に実施することによって、抽出されてもよい。PointNetベースのモジュールが、ローカル特徴または点を抽出するために採用されてもよい。
ビジョン分野は、短時間周期にわたって、オブジェクト検出および意味論セグメント化結果を、急速に改良している。大部分において、これらの進歩は、それぞれ、オブジェクト検出および意味論セグメント化のためのFast/Faster R-CNNおよび完全畳み込みネットワーク(FCN)フレームワーク等の強力なベースラインシステムによって駆動されている。これらの方法は、概念的に直感的であって、高速訓練および推定時間とともに、フレキシビリティおよびロバスト性をもたらす。
これらの技法は、フレームワーク、例えば、セグメント化を発展させている。インスタンスセグメント化は、各インスタンスを精密にセグメント化もしながら、画像内の全てのオブジェクトの正しい検出を要求するため、困難である。これらの技法は、したがって、その目的が、個々のオブジェクトを分類し、各境界ボックスを使用して、それぞれを位置特定することである、オブジェクト検出、およびその目的が、オブジェクトインスタンスを区別せずに、各ピクセルをカテゴリの固定された集合に分類することである、意味論セグメント化の古典的コンピュータビジョンタスクからの要素を組み合わせる。
意味論セグメント化に基づく場面解析は、コンピュータビジョンにおける基本主題である。その目標は、画像内の各ピクセルに、カテゴリ標識を割り当てることである。場面解析は、場面の完全理解を提供する。これは、要素毎に、標識、場所、および形状を予測する。本主題は、いくつか挙げると、自動運転、ロボット感知のポテンシャル用途に関する広範な関心を集めている。場面解析の困難性は、場面および標識多様性に非常に関連する。先駆的場面解析タスクは、LMOデータセット上の2,688枚の画像に関して、33個の場面を分類するものである。より最近のPASCAL VOC意味論セグメント化およびPASCALコンテキストデータセットは、椅子およびソファ、ウマおよびウシ等の類似コンテキストを伴う、より多くの標識を含む。新しいADE20Kデータセットは、大規模かつ制限されていないオープン語彙およびより多くの場面クラスを伴う、最も困難なものである。
意味論フィルタリングまたは意味論セグメント化は、2D/3D知覚、場面分析、および場面理解等のコンピュータビジョンにおいて重要であって、XR(エクステンデッドリアリティ)、AR(拡張現実)、MR(複合現実)、VR(仮想現実)、LiDAR(光検出および測距)、ロボット等の技術分野において、広範囲の用途を有する。意味論セグメント化またはフィルタリングは、環境の知覚等のコンピュータビジョンのための入力画像を受信する。種々のアプローチは、2D畳み込みニューラルネットワーク等の技法を用いて、2D画像のための意味論セグメント化の成功を実証している。
Microsoft Kinect、Intel RealSence、およびGoogle Tango等の汎用RGB-Dセンサの広可用性に伴って、屋内空間の3D再構築物が、急速に増している。3D再構築物は、グラフィック用途、および高品質3Dモデルを周囲環境から取得することに依拠する、仮想および拡張現実用途のためのコンテンツを作成することに役立ち得る。有意な進歩が、大空間を走査するための追跡正確度および効率的データ構造において成されているが、結果として生じる再構築された3Dモデル品質は、満足の行かないままである。品質における1つの基本限界は、一般に、走査がオクルージョンおよび測距センサの物理的限界に悩まされるため、所与の場面の部分的かつ不完全な再構築物のみを取得し得ることである。実践では、ヒト専門家による慎重な走査を用いても、事実上、再構築物内に穴を伴わずに、部屋を走査することは不可能である。穴は、審美的に魅力的ではなく、かつ走査のある面積が自由空間または占有される空間を表すかどうかが不明であるため、3D印刷または場面編集等の下流処理における深刻な問題につながり得ることの両方をもたらす。Laplacian穴埋めまたはPoisson表面再構築等の従来的アプローチは、小穴を埋めることができる。しかしながら、欠失壁または椅子脚部等の高レベル場面幾何学形状を完成させることは、はるかに困難である。本問題を解法することに向けた1つの有望な方向性は、完成のために、機械学習を使用するものである。ごく最近では、単一オブジェクトまたは深度フレームを伴う、3D完成および他の生成タスクのための深層学習アプローチが、示される有望な結果を示している。しかしながら、3Dにおける生成モデル化および構造化された出力予測は、困難なままである。立体グリッドを用いて表されるとき、データサイズは、空間のサイズが増加するにつれて、3乗で成長し、これは、分解能を著しく限定する。屋内場面は、特に、それらが、大きいだけではなく、また、可変空間範囲を伴って、不規則的に成形され得るため、困難である。
最先端場面解析フレームワークは、主に、完全畳み込みネットワーク(FCN)に基づく。深層畳み込みニューラルネットワーク(CNN)ベースの方法は、動的オブジェクト理解を後押するが、依然として、多様な場面および制限されていない語彙を考慮して、課題に直面する。これらの誤差は、オブジェクトの類似外観に起因する。しかし、場面が川の近傍のボート小屋として説明された、コンテキスト先行値に関する画像を視認するとき、正しい予測が、もたらされるはずである。正確な場面知覚に向かって、知識グラフは、場面コンテキストの先行情報に依拠する。現在のFCNベースのモデルに関する主要な問題点のうちの1つは、グローバル場面カテゴリ手掛かりを利用するための好適な方略の欠如である。典型的複雑な場面理解のため、以前は、グローバル画像レベル特徴を得るために、空間統計が全体的場面解釈のための良好な記述子を提供する、空間ピラミッドプーリングが、広く採用されていた。空間ピラミッドプーリングネットワークは、本能力をさらに向上させる。
3Dまたはさらにより高次元(例えば、4D時空間または時間的・空間的画像またはさらにより高次元の画像)の出現に伴って、これらの技法は、不良性能に悩まされ、通常、より高い次元の入力画像または画像シーケンス(例えば、3Dビデオ)に伴ってスケール変換しない。
入力画像または画像シーケンス(例えば、ビデオ)が、3Dまたはより高次元のデータ(例えば、3Dビデオ、4D時空間画像シーケンス等)を備える、いくつかの実施形態では、いくつかの実施形態は、意味論フィルタリングまたはセグメント化が場面分析および理解を実施するために、MinkowskiNetベースのアルゴリズム、ScanCompleteベースのアルゴリズム等のアルゴリズムを利用する。入力画像または画像シーケンス(例えば、ビデオ)が、2Dデータを備える、いくつかの他の実施形態では、いくつかの実施形態は、意味論フィルタリングまたはセグメント化が場面分析および理解を実施するために、Mask RCNNベースのアルゴリズム、PSPNetベースのアルゴリズム等のアルゴリズムを利用する。
例えば、LIDARスキャナおよび深度カメラが、より入手可能かつロボット用途のために広く使用されるようになるにつれて、3D-ビデオは、ロボットシステムまたはAR/VR用途のための入力の容易に利用可能なソースとなった。しかしながら、高レベル知覚タスクのために3Dビデオを使用する際に、多くの技術的課題が存在する。第1に、3Dデータは、異種表現および処理を要求し、それらは、ユーザを遠ざけるか、またはより大きいシステムの中に統合することを困難にするかのいずれかとなる。第2に、3D畳み込みニューラルネットワークの性能は、2D畳み込みニューラルネットワークより劣るか、またはそれに匹敵するかである。第3に、高速大規模3Dデータのための限定された数のオープンソースライブラリが存在する。
高次元知覚における課題の、全部ではないにしても、大部分を解決するために、いくつかの実施形態は、問題のために疎テンソルを採用し、一般化された疎畳み込みを提案する。一般化された疎畳み込みは、全ての離散畳み込みをそのサブクラスとして包含し、高次元知覚のために重要である。いくつかの実施形態は、一般化された疎畳み込みおよび第4節およびオープンソースライブラリ内の全ての標準的ニューラルネットワーク機能を実装する。
いくつかの実施形態は、いくつかの理由から、疎表現を採用する。現在、3D知覚のための種々の同時研究、すなわち、稠密3D畳み込み、PointNet-バリアント、持続的畳み込み、表面畳み込み、および八分木畳み込みが存在する。これらの表現のうち、いくつかの実施形態は、高次元空間のためのその表現力および一般化可能性に起因して、疎テンソルを選定する。また、それらの大部分が疎テンソルをサポートするため、従来的ニューラルネットワークライブラリ内で同種データ表現を可能にする。第2に、疎畳み込みは、標準的畳み込み(第3節)に非常に類似し、これは、2D知覚および3D再構築、特徴学習、および意味論セグメント化において成功していることが証明されている。第3に、疎畳み込みは、効率的かつ高速である。これは、所定の座標に関する出力のみを算出し、それらをコンパクトな疎テンソル(第3節)の中に保存する。これは、特に、空間の大部分が空である、3D走査または高次元データのために、メモリおよび算出の両方を保存する。したがって、いくつかの実施形態は、問題に関する疎表現を採用し、最初の大規模3D/4DネットワークまたはMinkowskiネットワークを作成する。
しかしながら、効率的表現を用いても、単に、3D畳み込みを高次元空間にスケール変換することは、次元の呪いに起因して、有意な算出オーバーヘッドおよびメモリ消費をもたらす。カーネルサイズ5を伴う、2D畳み込みは、52=25加重を要求し、これは、3D立方体では、53=125、4Dテッセラクトでは、625まで指数関数的に増加する。しかしながら、本指数関数的増加は、必ずしも、より良好な性能につながらず、ネットワークを有意に減速させる。本課題を克服するために、いくつかの実施形態は、一般化された疎畳み込みを使用して、非(ハイパー)立方体形状を伴う、カスタムカーネルを提案する。最後に、4D時間的・空間的一般化された疎畳み込みニューラルネットワークからの予測は、必ずしも、空間および時間全体を通して一貫しない。一貫性を強化するために、いくつかの実施形態は、定常対毎一貫性関数を伴う、7D三辺空間(空間-時間-色)に定義される、高次元条件付き確率場を採用する。いくつかの実施形態は、変分推定を使用して、条件付き確率場を弁別可能再帰層に変換する、これは、7D一般化疎畳み込みニューラルネットワークとして実装され、4Dおよび7Dネットワークの両方をエンドツーエンドで訓練することができる。
3D畳み込みを伴わない、ニューラルネットワーク。最近、3D知覚のための3D畳み込みを伴わない、ニューラルネットワークの使用が、著しく増加している。3D走査は、薄い観察可能な表面から成るため、意味論セグメント化のために、2D畳み込みを表面上で使用することが提案されている。別の方向性は、PointNetベースの方法である。PointNetは、入力座標の集合を多層パーセプトロンのための特徴として使用する。しかしながら、本アプローチは、限定された数の点を処理し、したがって、セクションを入力からクロップピングするためのスライディングウィンドウが、大空間が、限定されるのではなく、受容野サイズを作製するために使用された。いくつかのアプローチは、複数のPointNet上で再帰ネットワークを用いて、そのような欠点を解決することを試み、PointNetの下位層のための3D持続的畳み込みのバリアントを提案し、有意な性能上昇を得た。
疎テンソルおよび畳み込み:従来的発話、テキスト、または画像データでは、特徴が、稠密に抽出される。したがって、これらのデータの最も一般的表現は、ベクトル、行列、およびテンソルである。しかしながら、3次元走査またはさらにより高次元の空間に関して、そのような稠密表現は、疎密性に起因して、非効率的である。代わりに、いくつかの実施形態は、その座標および関連付けられる特徴として、空間の非空部分のみを保存することができる。本表現は、疎行列のN次元拡張であって、したがって、疎テンソルとして知られる。そのような疎テンソルをコンパクトなに保存するための多くの方法が存在するが、いくつかの実施形態は、近傍クエリのために効率的であるため、COOフォーマットに従う。
一般化された疎畳み込み:いくつかの実施形態は、汎用入力および出力座標および恣意的カーネル形状に関して、疎畳み込みを一般化する。一般化された疎畳み込みは、全ての疎畳み込みだけではなく、また、従来の稠密畳み込みも包含する。
をu∈RD(D次元座標)におけるD次元空間内のNin次元入力特徴ベクトルとし、畳み込みカーネル加重を
とする。いくつかの実施形態は、加重を、{i}=KDに関するWiとして、サイズNout×NinのKD行列を伴う、空間加重に分割する。したがって、D次元における従来の稠密畳み込みは、以下となる。
をu∈RD(D次元座標)におけるD次元空間内のNin次元入力特徴ベクトルとし、畳み込みカーネル加重を
とする。いくつかの実施形態は、加重を、{i}=KDに関するWiとして、サイズNout×NinのKD行列を伴う、空間加重に分割する。したがって、D次元における従来の稠密畳み込みは、以下となる。
式中、VD(k)は、原点に心合されるD次元超立方体内のオフセットのリストであって、例えば、V1(3)={-1,0,1}である。方程式15D-3における一般化された疎畳み込みは、以下のように、方程式15D-2を緩和する。
式中、NDは、カーネルの形状を定義する、オフセットの集合であって、Cin内に存在する、現在の中心uからのオフセットの集合として、ND(u,Cin)={i|u+i∈Cin(i∈ND)}である。CinおよびCoutは、疎テンソルの所定の入力および出力座標である。第1に、入力座標および出力座標は、必ずしも、同一ではないことに留意されたい。第2に、いくつかの実施形態は、NDに伴って、畳み込みカーネルの形状を恣意的に定義する。本一般化は、膨張畳み込みおよび典型的超立方体カーネル等の多くの特殊な場合を包含する。別の興味深い特殊な場合は、いくつかの実施形態が、Cout=CinおよびND=VD(K)を設定するときの、「疎部分多様体畳み込み」である。Cin=Cout=ZDおよびND=VD(k)が、設定される場合、一般化された疎畳み込みは、従来の稠密畳み込み(方程式15D-2)となる。CinおよびCoutが、自然数の倍数として定義され、ND=VD(k)である場合、ストライド稠密畳み込みが、取得され得る。
いくつかの実施形態は、上記に説明される疎テンソルおよび一般化された疎畳み込みのために、Minkowskiエンジンおよび自動分化ライブラリを利用する。疎畳み込みニューラルネットワークにおける第1のステップは、疎テンソルを生成するためのデータ処理であって、これは、入力を一意の座標、関連付けられる特徴、随意に、意味論セグメント化のために訓練するとき、標識に変換する。アルゴリズム1では、いくつかの実施形態は、本プロセスのためのGPU関数をリスト化する。稠密標識が、与られると、これらの実施形態は、1つを上回る一意の標識を伴うボクセルを無視することが重要である。これは、これらのボクセルをIGNORE_LABELでマーキングすることによって行われることができる。最初に、これらの実施形態は、全ての座標をハッシュキーに変換し、全ての一意のハッシュキー-標識対を見出し、衝突を除去する。SortByKey、UniqueByKey、およびReducedByKeyは全て、標準的Thrustライブラリ関数であることに留意されたい。還元関数f((lx;ix);(ly;iy))=>(IGNORE_LABEL;ix)は、標識-キー対をとり、同一キー内の少なくとも2つの標識-キー対が、標識衝突が存在することを意味するため、IGNORE_LABELを返す。CPU-バージョンも、全ての還元およびソートが順次処理されることを除き、同様に機能する。
パイプラインにおける次のステップは、入力座標Cinを前提として、出力座標Coutを生成する(方程式15D-3)。従来のニューラルネットワーク内で使用されるとき、本プロセスは、畳み込みストライドサイズ、入力座標、および入力疎テンソルのストライドサイズ(座標間の最小距離)のみを要求する。アルゴリズムは、補助資料に提示される。いくつかの実施形態は、本出力座標を動的に作成し、一般化された疎畳み込みのための恣意的出力座標Coutを可能にする。次に、入力をカーネルを用いて畳み込むために、いくつかの実施形態は、どの入力がどの出力に影響を及ぼすかを識別するためのマッピングを必要とする。本マッピングは、容易に推測され得るため、従来の稠密畳み込みでは要求されない。しかしながら、座標が恣意的に散乱される、疎畳み込みに関して、いくつかの実施形態は、マッピングを規定する。本マッピングは、カーネルマップと称され、入力インデックスおよび出力インデックスの対のリストM={(Ii,Oi)}i(i∈NDに対して)として定義され得る。最後に、入力および出力座標、カーネルマップ、およびカーネル加重Wiを前提として、いくつかの実施形態は、オフセットi∈ND(アルゴリズム2)のそれぞれを通して反復することによって、一般化された疎畳み込みを算出することができ、式中、I[n]およびO[n]は、それぞれ、インデックスIおよびOのリストのn番目の要素を示し、FinおよびFonもまた、それぞれ、n番目の入力および出力特徴ベクトルである。転置された一般化された疎畳み込み(逆畳み込み)も、入力および出力座標の役割が逆転されることを除き、同様に機能する。
稠密テンソルと異なり、疎テンソル上では、入力特徴の数は、出力あたりで変動する。したがって、これは、最大/平均プーリングのために簡単ではない実装をもたらす。IおよびOを、それぞれ、i∈NDに関して、全ての{Ii}iiおよび{Oi}iを連結したベクトルとする。いくつかの実施形態は、最初に、各出力座標あたりの入力の数およびそれらの入力のインデックスを見出す。アルゴリズム3は、同一出力座標にマッピングされる、入力特徴を還元する。シーケンス(n)は、0からn-1までの整数のシーケンスおよび還元関数f((k1,v1),(k2,v2))=min(v1,v2)を生成し、これは、2つのキー/値対を前提として、最小値を返す。MaxPoolKernelは、同一出力にマッピングされる、Iの最初のインデックスを含有する、S’と、対応する出力インデックスO”とを使用して、規定されたチャネルにおいて、全ての特徴を還元する、カスタムCUDAカーネルである。
平均プーリングおよびグローバルプーリング層は、平均プーリングのための出力座標またはグローバルプーリングのための1つの出力座標毎に、入力特徴の平均を算出する。これは、複数の方法で実装されることができる。いくつかの実施形態は、ハードウェア上で、またはより高速の疎BLASライブラリを使用して、最適化され得るため、疎行列乗算を使用する。特に、いくつかの実施形態は、疎行列-行列(cusparse_csrmm)および行列ベクトル積(cusparse_csrmv)のためのcuSparseライブラリを使用して、これらの層を実装する。最大プーリングアルゴリズムと同様に、Mは、(I,O)入/出力カーネルマップである。グローバルプーリングに関して、いくつかの実施形態は、全ての入力を原点にマッピングし、同一アルゴリズム4を使用する、カーネルマップを作成する。転置されたプーリング(アンプーリング)も同様に、機能する。アルゴリズム4の最後の行では、いくつかの実施形態は、プーリングされた特徴を各出力にマッピングされた入力の数によって除算する。しかしながら、本プロセスは、密度情報を除去し得る。したがって、いくつかの実施形態は、入力の数で除算せず、和プーリングと命名される、変形例を提案する。
ReLU等の空間情報(座標)を要求しない、関数に関して、いくつかの実施形態は、関数を直接特徴Fに適用することができる。また、バッチ正規化に関して、Fの各行が特徴を表すため、いくつかの実施形態は、1Dバッチ正規化関数を直接F上で使用してもよい。
いくつかの実施形態は、時間的・空間的知覚のために、4次元時間的・空間的畳み込みニューラルネットワークを導入する。いくつかの実施形態は、時間次元を余剰空間次元として取り扱い、4次元畳み込みを伴う、ネットワークを作成する。しかしながら、高次元畳み込みから生じる一意の問題が存在する。第1に、算出コストおよびネットワーク内のパラメータの数は、いくつかの実施形態が次元を増加させるにつれて、指数関数的に増加する。しかしながら、いくつかの実施形態は、これらの増加が、必ずしも、より良好な性能につながるわけではないことを実験的に実証している。第2に、ネットワークは、予測を空間および時間全体を通して従来のクロスエントロピ損失のみと一貫させるための動因を有していない。第1の問題を解決するために、いくつかの実施形態は、一般化された疎畳み込みの特殊性質を利用して、メモリおよび算出を節約するだけではなく、また、より良好に性能を発揮する、非従来のカーネル形状を提案する。第2に、時間的・空間的一貫性を強化するために、いくつかの実施形態は、ネットワーク予測をフィルタリングする、高次元条件付き確率場(7D空間-時間-色空間)を採用する。いくつかの実施形態は、変分推定を使用して、基本ネットワークおよび条件付き確率場の両方をエンドツーエンドで訓練する。
テッセラクトカーネルおよびハイブリッドカーネル:3Dデータの表面積は、時間に対して一次式的に、空間分解能に対して二次式的に増加する。しかしながら、いくつかの実施形態が、畳み込みカーネルのために、従来の4D超立方体またはテッセラクトを使用するとき、パラメータの数の指数関数的増加は、過剰パラメータ化、過剰適合、および高算出コストおよびメモリ消費につながる。代わりに、いくつかの実施形態は、ハイブリッドカーネル(非超立方体、非置換多面体)を採用し、算出を節約する。いくつかの実施形態は、一般化された疎畳み込みの恣意的カーネルオフセットN Dを使用して、ハイブリッドカーネルを実装する。ハイブリッドカーネルは、十字形カーネルと従来の立方体カーネルの組み合わせである。空間次元に関して、いくつかの実施形態は、立方体カーネルを使用して、空間幾何学形状を正確に捕捉する。時間的次元に関して、いくつかの実施形態は、十字形カーネルを使用して、時間を横断して、空間内の同一点を接続する。いくつかの実施形態は、ハイブリッドカーネルが、速度および正確度の両方において、テッセラクトカーネルを凌ぐことを実験的に実証している。
残差Minkowskiネットワーク:一般化された疎畳み込みは、ストライドおよびカーネル形状を恣意的に定義することを可能にする。したがって、いくつかの実施形態は、一般化された疎畳み込みのみを用いて、高次元ネットワークを作成し、実装をより容易かつ汎用性のあるものにすることができる。加えて、これは、2Dにおける最近のアーキテクチャ革新を直接高次元ネットワークに対して採用することを可能にする。実証するために、いくつかの実施形態は、図12Aにおける残差ネットワークの高次元バージョンを作成する。図12Aでは、例示的アーキテクチャは、ResNet18を左側に、MinkowskiNet18を右側に備える。本例示的アーキテクチャでは、「x」は、超立方体カーネルを示し、「+」は、ハイパークロスカーネルを示すことに留意されたい。第1の層に関して、7×72D畳み込みの代わりに、いくつかの実施形態は、5×5×5×1の一般化された疎畳み込みを使用する。しかしながら、ネットワークの残りに関して、いくつかの実施形態は、オリジナルネットワークアーキテクチャに従う。U形状のバリアントに関して、いくつかの実施形態は、基本残差ネットワーク上で同一ストライドサイズを伴う層を接続するスキップ接続(図12B参照)を伴って、多重ストライド疎畳み込みおよびストライド疎転置畳み込みを追加する。いくつかの実施形態は、意味論セグメント化実験のために、同一アーキテクチャの複数の変形例を使用する。図12Bは、MinkowskiUNet32の例示的アーキテクチャを図示する。図12Bでは、「x」は、超立方体カーネルを示し、「+」は、ハイパークロスカーネルを示す。
三辺定常-CRF:意味論セグメント化のために、クロスエントロピ損失が、ピクセルまたはボクセル毎に適用される。しかしながら、損失は、対毎項を有していないため、一貫性を強化しない。そのような一貫性をより明示的にするために、いくつかの実施形態は、1つの画像意味論セグメント化で使用されるものに類似する、高次元条件付き確率場(CRF)を採用する。画像セグメント化では、2D空間および3D色から成る、二辺空間が、CRFのために使用される。3D-ビデオに関して、いくつかの実施形態は、3D空間、1D時間、および3D色彩空間から成る、三辺空間を使用する。色空間は、(例えば、境界上で)空間的に隣接する、異なる色を伴う点間の「空間」間隙を作成する。したがって、これは、情報が異なる領域に「漏出」しないように防止する。ガウシアンエッジポテンシャルおよび稠密接続を伴う、従来のCRFと異なり、いくつかの実施形態は、適合度関数をガウシアンになるように制限しない。代わりに、いくつかの実施形態は、制約を緩和し、定常性条件のみを適用する。分布のグローバル最適条件を見出すために、いくつかの実施形態は、変分推定を使用して、一連の固定点更新方程式を類似する再帰ニューラルネットワークに変換する。いくつかの実施形態は、一般化された疎畳み込みを7D空間内で使用し、再帰を実装し、単項ポテンシャルを生成する基本ネットワークとCRFの両方をエンドツーエンドでともに訓練する。
7D(空間-時間-色)空間内のCRFノードをxiとして、単項ポテンシャルをφu(xi)として、対毎ポテンシャルをφp(xi,xj)とし、xjは、xj、N7(xi)の近傍である。条件付き確率場が、以下のように定義される。
式中、Zは、パーティション関数であって、Xは、全てのノードの集合であって、φpは、τu,τv∈RDに関して、定常性条件φp(u+τu,v+τv)を充足させなければならない。いくつかの実施形態は、カメラ付帯性質を使用して、世界座標系内のノードxiの空間座標を定義することに留意されたい。これは、定常点が、時間全体を通して同一座標を有することを可能にする。
最適化アルゴリズムmaxxP(x)は、扱いにくい。代わりに、いくつかの実施形態は、変分推定を使用して、最適P(X)と近似される分布Q(X)との間の発散を最小限にする。具体的には、いくつかの実施形態は、閉形式解が存在するため、平均場近似Q=ΠiQi(xi)を使用する。定理11.9から、Qは、以下の場合に限り、極大値である。
7D疎畳み込みを用いた学習:方程式15D-4における加重和φp(xi,xj)Qj(xj)は、φp(xi,xj)が、定常であって、各縁xi,xj間の各縁が、N7を使用してエンコードされ得るため、7D空間における一般化された疎畳み込みに匹敵する。したがって、これらの実施形態は、固定点更新方程式である方程式15D-4をアルゴリズム5におけるアルゴリズムに変換する。
7D疎畳み込みを用いた学習:方程式15D-4における加重和φp(xi,xj)Qj(xj)は、φp(xi,xj)が、定常であって、各縁xi,xj間の各縁が、N7を使用してエンコードされ得るため、7D空間における一般化された疎畳み込みに匹敵する。したがって、これらの実施形態は、固定点更新方程式である方程式15D-4をアルゴリズム5におけるアルゴリズムに変換する。
最後に、いくつかの実施形態は、φuを4DMinkowskiネットワークのロジット予測として使用し、下記の方程式15D-5を使用する、1つの4Dおよび1つの7DMinkowskiネットワークを使用して、φuおよびφpの両方をエンドツーエンドで訓練する。
上記の説明は、意味論セグメント化およびフィルタリングのためのMinkowskiNetベースのアルゴリズムを利用するためのものである。以下の説明は、意味論セグメント化またはフィルタリングのためのScanCompleteベースのアルゴリズムを利用するためのものである。
いくつかの実施形態は、空間範囲に関する制限を伴わずに、大3D環境上で動作する、新規アプローチである、ScanCompleteを提案する。いくつかの実施形態は、より小さいサブ体積上で訓練されるが、試験時に、恣意的サイズの場面環境に適用され得る、完全畳み込みニューラルネットワークを活用する。本能力は、非常に大きい屋内場面の3D走査の効率的処理を可能にし、いくつかの実施形態は、最大1,480×1,230×64ボクセル(≒70×60×3m)の境界を伴う、実施例を示す。いくつかの実施形態は、具体的には、場面完了および意味論推定のタスクに焦点を当て、所与の部分的入力走査に関して、いくつかの実施形態は、欠失幾何学形状を推測し、意味論標識をボクセル毎ベースで予測する。高品質出力を取得するために、モデルは、十分に高分解能を使用して、微細スケール詳細を予測しなければならない。しかしながら、また、十分に大コンテキストを検討し、大構造を認識し、グローバル一貫性を維持しなければならない。これらの競合懸念を解消するために、いくつかの実施形態は、その中でモデルが出力の多分解能階層を予測する、粗大/微細方略を採用する。第1の階層レベルは、場面幾何学形状および意味論を、低分解能であるが、大空間コンテキストで予測する。続くレベルは、より小さい空間コンテキストであるが、より高い分解能を使用して、グローバルコンテキストを活用するために、先行階層レベルの出力を入力としてとる。いくつかの実施形態では、場面完成および意味論標識化が、前例のない空間範囲で観察されている。加えて、いくつかの実施形態は、モデルを合成データ上で訓練し、それを汎用走査デバイスから得られた実RGB-D走査の完成物に転写することが可能であることを実証している。結果は、既存の完成方法を凌ぎ、意味論ボクセル標識化のための有意に高い正確度を取得する。要するに、いくつかの実施形態は、少なくとも以下の技術的利点、すなわち、恣意的空間範囲を伴う3D場面を処理するための3D完全畳み込み完成ネットワーク、ローカル詳細およびグローバル構造の両方を捕捉する、粗大/微細完成方略、および両方とも有意な許容差で既存の方法を凌ぐ、場面完成および意味論標識化を提供する。
ScanComplete方法は、入力として、立体グリッド内に記憶される切り捨て符号付き距離場(TSDF)によって表される、部分的3D走査をとる。TSDFは、立体融合アプローチに続く深度フレームから生成され、これは、現代のRGB-D走査方法によって広く採用されている。いくつかの実施形態は、本部分的TSDFを新しい立体ニューラルネットワークの中にフィードし、これは、切り捨て符号なし距離場(TDF)を出力する。訓練時、いくつかの実施形態は、ネットワークに、標的TDFを提供し、これは、完全グラウンドトゥルースメッシュから生成される。ネットワークは、TDFを出力するように訓練され、これは、本標的完全TDFに可能な限り類似する。ネットワークは、3次元フィルタバンクとともに、完全畳み込みアーキテクチャを使用する。その重要となる性質は、入力空間範囲に対するその不変性であって、これは、特に、そのサイズが有意に変動し得る、大3D場面を完成するために重要である。すなわち、いくつかの実施形態は、サンプリングされた訓練場面からのランダム空間クロップを使用して、ネットワークを訓練し、次いで、試験時、異なる空間範囲上で試験することができる。立体グリッドのメモリ要件は、空間範囲に伴って、3乗で成長し、これは、管理可能な分解能を限定する。小ボクセルサイズは、ローカル詳細を捕捉するが、空間コンテキストを欠いており、大ボクセルサイズは、大空間コンテキストを提供するが、ローカル詳細を欠いている。高分解能を維持しながら、両方の世界の最良点を得るために、いくつかの実施形態は、粗大/微細階層方略を使用する。ネットワークは、最初に、入力からのよりグローバルな情報を活用するために、低分解能において、出力を予測する。後続階層レベルは、より高い分解能およびより小さいコンテキストサイズで動作する。それらは、現在のレベルの不完全なTSDFに加え、先行レベルの出力に条件付ける。いくつかの実施形態は、最粗大レベルにおける数メートル(約6m3)の大コンテキストから、約5cm3の微細スケールボクセル分解能まで、3つの階層レベルを使用する。ネットワークは、自動回帰アーキテクチャを使用する。いくつかの実施形態は、同一群からのボクセルが相互に隣接しないように、所与の階層レベルの立体空間を8つのボクセル群の集合に分割する。ネットワークは、群1内の全てのボクセルを予測し、その後、群2内の全てのボクセルの予測が続く等となる。群毎の予測は、それに先行する、群に関する予測に関して条件付けられる。したがって、いくつかの実施形態は、ボクセル群毎に1つずつ、8つの別個のネットワークを使用する。いくつかの実施形態はまた、ネットワーク出力とグラウンドトゥルース標的TDFとの間の差異にペナルティを科す、訓練損失関数に関して、複数のオプションを模索する。1つのオプションとして、いくつかの実施形態は、決定的`1-距離を使用し、これは、ネットワークに、単一モード上に焦点を当てさせる。本設定は、部分的走査が、十分なコンテキストを含有し、欠失幾何学形状の単一解説を可能にするとき、理想的である。別のオプションとして、いくつかの実施形態は、分類問題として公式化される、確率論的モデルを使用し、例えば、TDF値は、ビンに離散化され、その確率は、TDF値の大きさに基づいて加重される。本設定は、予測がマルチモード式であり得るため、非常に疎の入力に関してより好適であり得る。完全幾何学形状を予測することに加え、モデルは、意味論標識をボクセルあたりベースでともに予測する。意味論標識予測はまた、完全畳み込み自動回帰アーキテクチャおよび粗大/微細予測方略を活用して、場面の正確な意味論セグメント化を取得する。結果として、いくつかの実施形態は、完成が意味論推定にどれほど有用であるかを実証している。
ScanCompleteCNNアーキテクチャを訓練するために、いくつかの実施形態は、部分的TSDF走査とその完成TDF対応物の訓練対を準備する。いくつかの実施形態は、以前の研究からの訓練-試験対合から5,359枚の訓練場面と、155枚の試験場面とを使用して、SUNCGから訓練実施例を生成する。ネットワークが、深度入力のみを要求するため、いくつかの実施形態は、実世界走査経路を模倣する走査軌道を生成することによって、深度データを仮想的に走査する。これを行うために、いくつかの実施形態は、軌道統計をScanNetデータセットから抽出し、接地面の上方のカメラ高さおよび注視ベクトルと世界上方向ベクトルとの間のカメラ角度の平均値および分散値を算出する。SUNCG場面内の部屋毎に、いくつかの実施形態は、次いで、本分布からサプリングし、カメラ高さおよび角度を選択する。
部屋内の各1.5m3領域において、いくつかの実施形態は、1つのカメラを選択し、訓練走査軌道に追加する。いくつかの実施形態は、その結果として生じる深度画像D(c)がScanNetからの深度画像に最も類似する、カメラcを選定する。本類似性を定量化するために、いくつかの実施形態は、最初に、ScanNet内の全てのカメラに関する値の深度のヒストグラムH(D(c))を算出し、次いで、平均ヒストグラム
を算出する。いくつかの実施形態は、次いで、ScanNet内の全てのカメラに関するヒストグラムと、ScanNet内の全てのカメラに関する
との間のEarth Mover’s Distance、例えば、
を算出する。いくつかの実施形態は、これらの距離値の平均値μEMDおよび分散値σEMD 2を求める。これは、実走査軌道内で予期される平均深度ヒストグラムまでの距離にわたるガウス分布を与える。候補カメラc毎に、いくつかの実施形態は、本分布下のその確率、例えば、
を算出する。いくつかの実施形態は、人々が、深度センサを直接接地面または壁に向けるのではなく、走査を関心のあるオブジェクト上に合焦させる傾向にあるという仮定を反映して、(例えば、床、天井、または壁ではない)場面オブジェクトを網羅する、D(c)内のピクセルのパーセンテージを用いて、本項の線形組み合わせを求める。本組み合わせられた対象下の最高スコアカメラc*は、訓練走査軌道に追加される。
を算出する。いくつかの実施形態は、次いで、ScanNet内の全てのカメラに関するヒストグラムと、ScanNet内の全てのカメラに関する
との間のEarth Mover’s Distance、例えば、
を算出する。いくつかの実施形態は、これらの距離値の平均値μEMDおよび分散値σEMD 2を求める。これは、実走査軌道内で予期される平均深度ヒストグラムまでの距離にわたるガウス分布を与える。候補カメラc毎に、いくつかの実施形態は、本分布下のその確率、例えば、
を算出する。いくつかの実施形態は、人々が、深度センサを直接接地面または壁に向けるのではなく、走査を関心のあるオブジェクト上に合焦させる傾向にあるという仮定を反映して、(例えば、床、天井、または壁ではない)場面オブジェクトを網羅する、D(c)内のピクセルのパーセンテージを用いて、本項の線形組み合わせを求める。本組み合わせられた対象下の最高スコアカメラc*は、訓練走査軌道に追加される。
レンダリングされたビューに関して、いくつかの実施形態は、ピクセル毎深度をメートル単位で記憶する。これらの実施形態は、次いで、データを稠密な規則的グリッドの中に立体的に融合させ、各ボクセルは、切り捨て符号付き距離値を記憶する。いくつかの実施形態は、切り捨てを3×ボクセルサイズに設定し、これらの実施形態は、TSDF値をボクセル距離メトリック内に記憶する。これらの実施形態は、4.7cm3、9.4cf’m3、および18.8cm3のボクセルサイズを伴う、3つの階層レベルに関して、独立して、本プロセスを繰り返す。いくつかの実施形態は、SUNCGからの完全メッシュを使用して訓練するために、標的TDFを生成する。これを行うために、これらの実施形態は、Battyによる等位集合生成ツールキットを採用する。ボクセル毎に、これらの実施形態は、切り捨て距離値(符号なし、すなわち、3×ボクセルサイズの切り捨て)およびボクセル中心に最も近いオブジェクトの意味論標識を記憶する。TSDFと同様に、TDF値は、ボクセル距離メトリック内に記憶され、これらの実施形態は、3つの階層レベル毎に、本グラウンドトゥルースデータ生成を繰り返す。
訓練するために、いくつかの実施形態は、訓練場面のそれぞれから3m間隔でサブ体積を均一にサンプリングする。これらの実施形態は、任意の非構造オブジェクトボクセル(例えば、テーブル、椅子)を含有する、全てのサブ体積を保ち、90%確率を伴う、構造ボクセル(例えば、壁/天井/床)のみを含有する、サブ体積をランダムに破棄する。これは、合計225,414個の訓練サブ体積をもたらす。いくつかの実施形態は、レベル毎に、[32×16×32]、[32×32×32]、および[32×64×32]のボクセルグリッド分解能を使用し、それぞれ、[6m×3m×6m]、[3m3]、[1.5m×3m×1.5m]の空間範囲をもたらす。試験のために、いくつかの実施形態は、場面全体上で試験する。入力される部分的TSDFおよび完全標的TDFは両方とも、場面の完全範囲に及ぶ均一グリッドとして記憶され、これは、試験集合を横断して変動する。完全畳み込みアーキテクチャは、異なるサイズ上で訓練および試験を可能にし、可変訓練空間範囲をサポートする。
入力TSDFの符号は、カメラ可視性に従って、既知および未知の空間をエンコードし、例えば、負の値を伴うボクセルは、観察される表面の背後にあって、したがって、未知であることに留意されたい。対照的に、いくつかの実施形態は、全てのボクセルがグラウンドトゥルース内で既知であるため、グラウンドトゥルース標的体積に関して、符号なし距離場(TDF)を使用する。標的距離場は、符号を使用して、オブジェクトの内側の空間を表すべきであると異議が唱えられ得る。しかしながら、これは、そこからグラウンドトゥルース距離場が生成される、合成3Dモデルが完璧であることは稀であるため、実践では、実行不可能である。離散占有グリッドではなく、暗示的関数(TSDFおよびTDF)の使用は、訓練プロセスにおけるより良好な勾配を可能にし、これは、以前の研究における異なるタイプのグリッド表現上での種々の実験によって実証されている。
いくつかの実施形態では、単一階層レベルのためのScanCompleteネットワークアーキテクチャは、直接3D内で動作する、完全畳み込みアーキテクチャを備え、これは、異なる訓練および試験入力データサイズに対して不変にする。各階層レベルでは、ネットワークは、入力される部分的走査(立体グリッド内のTSDFとしてエンコードされる)および先行低分解能TDF予測(基本レベルではない場合)および任意の先行ボクセル群TDF予測を入力としてとる。入力体積はそれぞれ、1×1×1畳み込みショートカットを伴う一連の3D畳み込みを用いて、処理される。それらは、次いで、特徴毎に全ての連結され、ショートカットを伴う3D畳み込みを用いて、さらに処理される。終了時、ネットワークは、2つの経路に分裂し、一方は、幾何学的完成物を出力し、他方は、意味論セグメント化を出力し、これは、それぞれ、`1損失およびボクセル毎ソフトマックスクロスエントロピを用いて測定される。階層レベル間のアーキテクチャの概要。
ネットワークを訓練するために、いくつかの実施形態は、上記に説明されるように、SUNCGデータセットから生成された訓練データを使用する。訓練時、いくつかの実施形態は、グラウンドトゥルース体積をネットワークへの先行ボクセル群入力としてフィードする。しかしながら、先行階層レベル入力に関して、いくつかの実施形態は、先行階層レベルネットワークによって予測される体積をフィードする。代わりに、先行階層レベルの予測される体積を入力として使用することによって、ネットワークは、よりグローバルなより低周波数の情報(壁および床における大穴を充填する方法等)に関する先行レベルの入力のみに依拠して、現在のレベルの部分的入力走査を使用して、詳細を分解するように学習しなければならない。本アプローチの1つの欠点は、ネットワークが、階層レベル毎に、もはや並列に訓練されることができないことである。それらは、ネットワークが、階層レベル毎に、先行レベルにおいて訓練されたネットワークからの出力予測に依存するため、順次、訓練されなければならない。いくつかの実施形態では、全ての階層レベルは、単一のエンドツーエンドプロシージャにおいて訓練されてもよい。しかしながら、現在のGPUメモリ限界は、これを扱いにくいものにする。いくつかの実施形態は、モデルを合成データ上で訓練するため、これらの実施形態は、訓練サンプルが過剰適合に対抗するために、高さジッタを導入し、[0, 0.1875]mの範囲内の(均一)ランダムジッタによって、全ての訓練サンプルを高さにおいてジッタさせる。訓練データは、壁および床に向かって、歪まされるため、いくつかの実施形態は、構造クラス(例えば、壁/床/天井)対全ての他のオブジェクトクラスに関して、1:10比率を使用して、再加重を意味論損失内に適用する。最終モデルに関して、いくつかの実施形態は、学習率0.001(0.0001まで減衰される)を伴うAdamオプティマイザを使用して、全てのネットワークをNVIDIA GTX1080上で訓練する。いくつかの実施形態は、合計24個の訓練されたネットワークに関して、3つの階層レベルのそれぞれにおいて、8つのボクセル群毎に、1つのネットワークを訓練する。各階層レベル内の8つのネットワークは、並列に訓練され、完全階層のための総訓練時間は、約3日であることに留意されたい。
3Dまたは他のより高次元のデータセット(例えば、3D走査)上での意味論セグメント化が、前述の修正MinkowskiNetベースのアルゴリズム、ScanCompleteベースのアルゴリズム等を使用することによって、実施されてもよい一方、2Dデータセット上での意味論セグメント化は、修正Mask RCNNベースのアルゴリズム、修正PSPNetベースのアルゴリズム等を使用することによって、実施されてもよい。以下の説明は、2Dデータセット上での意味論セグメント化またはフィルタリングのために使用され得る、修正Mask RCCベースのアルゴリズムを対象とする。
良好な結果を達成するために、複雑な方法を提供することは要求されず、いくつかの実施形態は、驚くべきことに、現在の最先端インスタンスセグメント化結果を上回る、単純、フレキシブル、かつ高速のシステムを提供する。Mask R-CNNとも称される、これらの実施形態は、分類および境界ボックス回帰のための既存の分岐と並列に、各着目領域(RoI)上でセグメント化マスクを予測するための分岐を追加することによって、Faster R-CNNを拡張させる(図14A)。図14Aは、画像または画像シーケンス等の入力1402Aを受信する、修正Mask RCNNベースのアーキテクチャのための簡略化されたアーキテクチャを図示する。修正Mask RCNNベースのアーキテクチャは、1404Aにおいて本明細書に説明されるRoIAlignを使用することによって、入力画像1402Aを処理し、着目領域(RoI)を整合させる。RoIAlign1404Aの出力は、第1の畳み込み1406A(これはまた、その出力を分類ボックスに提供してもよい)に提供され、その後、下記に説明されるように、第2の畳み込み1408Aが続き、出力1410Aを生成する。
マスク分岐は、各RoIに適用される小FCNであって、ピクセル毎様式において、セグメント化マスクを予測する。Mask R-CNNは、Faster R-CNNフレームワークを前提として、実装および訓練が単純であって、これは、広範囲のフレキシブルアーキテクチャ設計を促進する。加えて、マスク分岐は、小算出オーバーヘッドのみを追加し、高速システムおよび高速実験を可能にする。原理上、Mask R-CNNは、Faster R-CNNの直感的拡張であるが、マスク分岐を適切に構築することは、良好な結果のために重要である。最も重要なこととして、Faster R-CNNは、ネットワーク入力と出力との間のピクセル毎整合のために設計されなかった。これは、インスタンスに対応するための事実上のコア動作であるRoIPoolが、特徴抽出のために粗大空間量子化を実施する方法において最も明らかである。不整合を修正するために、我々は、正確な空間場所を忠実に保存する、RoIAlignと呼ばれる、単純な量子化のない層を提案する。見掛け上、わずかな変化であるにもかかわらず、RoIAlignは、大きな影響を及ぼす。すなわち、マスク正確度を相対的に10%~50%改良し、より厳密な位置特定メトリック下でより大きい利得を示す。第2に、我々は、マスクおよびクラス予測を分断することが不可欠であることを見出した。すなわち、クラス間で競合せずに、独立して、クラス毎にバイナリマスクを予測し、ネットワークのRoI分類分岐に依拠して、カテゴリを予測する。対照的に、FCN(完全畳み込みネットワーク)は、通常、ピクセル毎のマルチクラスカテゴリ化を実施し、これは、セグメント化および分類を結合し、種々の実験に基づいて、例えば、セグメント化に関して、不良に機能する。
Mask R-CNNは、概念的に単純である。すなわち、Faster R-CNNは、候補オブジェクト毎の2つの出力、クラス標識、および境界ボックスオフセットを有する。このために、我々は、オブジェクトマスクを出力する、第3の分岐を追加する。Mask R-CNNは、したがって、自然かつ直感的概念である。しかし、付加的マスク出力は、クラスおよびボックス出力と明確に異なり、オブジェクトのはるかに微細な空間レイアウトの抽出を要求する。次に、我々は、Fast/Faster R-CNNの主要な欠失断片である、ピクセル毎整合を含む、Mask R-CNNの重要な要素を導入する。
いくつかの実施形態は、Faster R-CNN検出器を簡単に精査することによって開始する。Faster R-CNNは、2つの段階から成る。領域提案ネットワーク(RPN)と呼ばれる、第1の段階は、候補オブジェクト境界ボックスを提案する。本質的に、Fast R-CNNである、第2の段階は、特徴を、RoIPoolを使用して、各候補ボックスから抽出し、分類および境界ボックス回帰を実施する。両方の段階によって使用される特徴は、より高速の推定において共有されることができる。Faster R-CNNと他のフレームワークとの間の最新の包括的比較に関しては、読者は、いくつかの実施形態を参照されたい。
Mask R-CNNは、同一2段階プロシージャを採用し、同じ第1の段階(RPNである)を伴う。第2の段階では、クラスおよびボックスオフセットを予測することと並行して、Mask R-CNNはまた、RoI毎に、バイナリマスクを出力する。これは、分類がマスク予測に依存する、最も最近のシステムと対照的である。いくつかの実施形態は、境界ボックス分類および回帰を並行して適用する(オリジナルR-CNNの多段階パイプラインを大きく簡略化することが分かる)、Fast R-CNNの精神に従う。形式上、訓練の間、いくつかの実施形態は、各サンプリングされるRoI上のマルチタスク損失をL=Lcls+Lbox+Lmaskとして定義する。分類損失Lclsおよび境界ボックス損失Lboxは、そこで定義されるものと同じである。マスク分岐は、RoI毎にKm2寸法出力を有し、これは、K個のクラス毎に1つずつ、分解能m×mのK個のバイナリマスクをエンコードする。この目的を達成するために、いくつかの実施形態は、ピクセル毎のシグモイドを適用し、Lmaskを平均バイナリクロスエントロピ損失として定義する。グラウンドトゥルースクラスkと関連付けられる、RoIに関して、Lmaskは、k番目のマスク上にのみ定義される(他のマスク出力は、損失に寄与しない)。Lmaskの定義は、ネットワークが、クラス間で競合せずに、クラス毎にマスクを生成することを可能にする。いくつかの実施形態は、専用分類分岐に依拠して、出力マスクを選択するために使用されるクラス標識を予測する。これは、マスクおよびクラス予測を分断する。これは、典型的には、ピクセル毎のソフトマックスおよび多項クロスエントロピ損失を使用する、FCNを意味論セグメント化に適用するときの一般的実践と異なる。その場合、クラスを横断したマスクは、競合し、ピクセル毎のシグモイドおよびバイナリ損失を伴う、いくつかの実施形態では、それらは、競合しない。いくつかの実施形態は、本公式が良好なインスタンスセグメント化結果のために重要であることを示す。
マスク表現:マスクは、入力オブジェクトの空間レイアウトをエンコードする。したがって、全結合(fc)層によって、短出力ベクトルの中に不可避的に折り畳まれる、クラス標識またはボックスオフセットと異なり、マスクの空間構造を抽出するステップは、畳み込みによって提供されるピクセル毎対応によって、必然的に対処され得る。具体的には、いくつかの実施形態は、FCNを使用して、m×m個のマスクを各RoIから予測する。これは、マスク分岐内の各層が、それを空間次元を欠いているベクトル表現の中に折り畳まずに、明示的m×m個のオブジェクト空間レイアウトを維持することを可能にする。マスク予測のためのfc層に依拠する、以前の方法と異なり、完全畳み込み表現は、より少ないパラメータを要求し、実験によって実証されるように、より正確である。本ピクセル毎挙動は、それ自体が小特徴マップである、RoI特徴が、明示的ピクセル毎の空間対応を忠実に保存するように良好に整合されることを要求する。これは、マスク予測において重要な役割を担う、続くRoIAlign層を開発することの動機付けとなった。
RoIAlign:RoIPoolは、小特徴マップ(例えば、7×7)を各RoIから抽出するための標準的演算である。RoIPoolは、最初に、浮動数RoIを特徴マップの離散粒度に量子化し、本量子化されたRoIは、次いで、空間ビンに細分割され、これ自体が量子化され、最後に、各ビンによって網羅される特徴値が、集約される(通常、最大プーリングによって)。量子化は、例えば、[x/16]を算出することによって、持続的座標x上で実施されて、16は、特徴マップストライドであって、および[・]は、丸めである。同様に、量子化は、ビンを分割する(例えば、7×7)ときにも実施される。これらの量子化は、RoIと抽出された特徴との間の不整合を導入する。これは、分類に影響を及ぼさず、これは、小平行移動に対してロバストであり得るが、ピクセルに正確なマスクを予測するステップに大きな負の影響を及ぼす。これに対処するために、いくつかの実施形態は、RoIPoolの厳格な量子化を除去し、抽出された特徴と入力を適切に整合させる、RoIAlign層を採用する。いくつかの提案される変更は、単純である。すなわち、いくつかの実施形態は、RoI境界またはビンの任意の量子化を回避する(例えば、いくつかの実施形態は、[x/16]の代わりに、x/16を使用する)。いくつかの実施形態は、双線形補間を使用して、各RoIビン内の4つの定期的にサンプリングされる場所における入力特徴の正確な値を算出し、結果を集約する(最大または平均を使用して)(詳細に関しては、図14B参照)。図14Bは、RoIAlign(例えば、図14Aにおける1404A)についてのさらなる詳細を図示する。より具体的には、破線グリッド1406Bは、特徴マップを表し、実線1402Bは、着目領域を表し、これは、2×2ビンを備える。各ビン内の4つのドット1404Bは、ビン内のサンプリング点を表す。本明細書に説明される、説明されたRoIAlignモジュール(例えば、図14Aにおける1404A)は、例えば、特徴マップ上の近隣のグリッド点からの双線形補間によって、各サンプリング点の値を算出する。いくつかの実施形態では、量子化は、RoI、そのビン、またはサンプリング点に関わる任意の座標上では実施されない。結果は、量子化が実施されない限り、正確なサンプリング場所またはサンプリングされる点の数に敏感ではないことに留意されたい。RoIAlignモジュールは、いくつかの実施形態が以下の段落において示すように、大改良につながる。いくつかの実施形態はまた、RoIWarp演算に匹敵する。RoIAlignと異なり、RoIWarpは、整合問題点を許容し、RoIPoolのように、RoIを量子化する際に実装された。したがって、RoIWarpはまた、それによって動機付けられた双線形再サンプリングを採用する場合でも、実験(表2cにさらなる詳細)によって示されるように、RoIPoolに匹敵する性能を発揮し、整合の重要な役割を実証している。
ネットワークアーキテクチャ:いくつかの実施形態の汎用性を実証するために、いくつかの実施形態は、複数のアーキテクチャを用いて、Mask R-CNNをインスタンス化する。明確にするために、いくつかの実施形態は、(i)画像全体にわたる特徴抽出のために使用される、畳み込みバックボーンアーキテクチャと、(ii)各RoIに別個に適用される、境界ボックス認識(分類および回帰)およびマスク予測のためのネットワークヘッドとを区別する。いくつかの実施形態は、命名ネットワーク-深度-特徴を使用する、バックボーンアーキテクチャを示す。いくつかの実施形態は、深度50または101層のResNetおよびResNextネットワークを評価する。ResNetを伴う、Faster R-CNNのオリジナル実装は、特徴を、C4と称され得る、4番目の段階の最終畳み込み層からの抽出した。ResNet-50を伴う、本バックボーンは、例えば、ResNet-50-C4によって示される。これは、そこで使用される一般的選択肢である。いくつかの実施形態はまた、特徴ピラミッドネットワーク(FPN)等の別のより効果的バックボーンを模索する。FPNは、側方接続を伴う、トップダウンアーキテクチャを使用して、ネットワーク内特徴ピラミッドを単一スケール入力から構築する。FPNバックボーンを伴う、Faster R-CNNは、そのスケールに従って、RoI特徴を異なるレベルの特徴ピラミッドから抽出するが、そうでなければ、アプローチの残りは、vanillaResNetに類似する。Mask R-CNNを用いた特徴抽出のためにResNet-FPNバックボーンを使用することは、正確度および速度の両方において、優れた利得を与える。FPNに関するさらなる詳細に関しては、読者は、いくつかの実施形態を参照されたい。ネットワークヘッドに関して、いくつかの実施形態は、以前の研究に提示されるアーキテクチャに従い、それに対していくつかの実施形態は、完全畳み込みマスク予測分岐を追加する。具体的には、いくつかの実施形態は、Faster R-CNNボックスヘッドをResNetおよびFPNから拡張させる。詳細は、図14Cに示される。ResNet-C4バックボーン上のヘッドは、ResNetの5番目の段階(すなわち、9層「res5」)を含み、これは、算出上集約的である。FPNに関して、バックボーンは、すでに、res5を含み、したがって、より少ないフィルタを使用する、より効率的ヘッドを可能にする。マスク分岐は、簡単な構造を有することに留意されたい。より複雑な設計は、性能を改良するための潜在性を有するが、本研究の焦点ではない。
図14Cでは、ヘッドアーキテクチャ内にResNet1400Cを伴うFaster R-CNNは、1402Cにおいて、RoI1401Cを識別し、これは、res5ブロック1406Cを介して、別の7×7×2048ブロック1404Cへの出力を生産する、7×7×1024ブロックである。ブロック1404Cの出力は、分類および境界ボックスを提供するための、ブロック1408C(1,024個のチャネルに対応する)、および/またはその出力を14×14×80ブロック1418Cにさらに提供する、14×14×256ブロック1416Cに提供されてもよい。FPN1420Cを伴うFaster R-CNNブロックでは、RoI1401Cは、7×7×256ブロック1422Cおよび/または14×14×256ブロック1428Cに提供されてもよい。7×7×256ブロック1422Cの出力は、分類出力1412Cおよび/または境界ボックス1414Cを生成する、ブロック1026C(また、1,024個のチャネルに対応する)への出力をさらに生産する、ブロック1424C(1,024個のチャネルに対応する)に提供されてもよい。14×14×256ブロック1428Cの出力は、第1の14×14×256ブロック1430Cに、その後、28×28×256ブロック1432Cに提供され、28×28×80ブロック1434Cに続いてもよい。
ヘッドアーキテクチャ:いくつかの実施形態は、2つの既存のFaster R-CNNヘッドを拡張させる。2つのブロックは、それぞれ、ResNetC4(1400C)およびFPN(1420C)バックボーンのためのヘッドを示し、それに対してマスク分岐が追加される。7×7×1,025等の以下の数は、空間分解能(7×7)およびチャネル(1024)を示す。矢印は、コンテキストから推測され得るように、畳み込み、逆畳み込み、またはfc(全結合)層のいずれかを示す(畳み込みは、空間次元を保存する一方、逆畳み込みは、それを増加させる)。全ての畳み込みは、3×3であるが、出力畳み込みは、1×1であって、逆畳み込みは、ストライド2を伴う、2×2であって、いくつかの実施形態は、ReLU(正規化線形ユニット)を隠れ層内で使用する。左:「res5」は、ResNetの第5段階を示し、便宜上、いくつかの実施形態は、第1の畳み込みがストライド1を伴う7×7RoI(14×14/ストライド2の代わりに)に作用するように改変される。右:「×4」は、4つの連続畳み込みのスタックを示す。
例示的実装詳細:いくつかの実施形態は、既存のFast/Faster R-CNN研究に従う、ハイパーパラメータを設定する。これらの決定は、オリジナルでは、オブジェクト検出のために行われたが、いくつかの実施形態は、インスタンスセグメント化システムが、それらに対してロバストであることを見出した。
訓練:Fast R-CNNにおけるように、RoIは、少なくとも0.5のグラウンドトゥルースボックスを伴う、IoUを有する場合、正であって、そうでなければ、負であると見なされる。マスク損失Lmaskは、正のRoI上にのみ定義される。マスク標的は、RoIとその関連付けられるグラウンドトゥルースマスクとの間の積集合である。いくつかの実施形態は、画像中心訓練を採用する。画像は、そのスケール(より短い縁)が800ピクセルであるように、サイズ変更される。各ミニバッチは、GPUあたり2つの画像を有し、各画像は、N個のサンプリングされるRoIを有し、正対負の1:3の比率を伴う。Nは、C4バックボーンに関して、64であって、FPNに関して、512である。いくつかの実施形態は、160k回の反復にわたって、120k回の反復時、10減少される、0.02の学習率を用いて、8つのGPU上で訓練する(したがって、有効ミニバッチサイズは、16である)。いくつかの実施形態は、0.0001の加重減衰と、0.9のモーメンタムとを使用する。ResNextを用いることで、いくつかの実施形態は、0.01の開始学習率を伴って、GPUあたり1つの画像および同一数の反復を用いて訓練する。その後、RPNアンカは、5つのスケールおよび3つのアスペクト比に及ぶ。便宜的アブレーションのために、RPNは、規定されない限り、別個に訓練され、Mask R-CNNと特徴を共有しない。エントリ毎に、RPNおよびMask R-CNNは、同一バックボーンを有し、したがって、それらは、共有可能である。推定:試験時、提案数は、C4バックボーンに関して、300であって、FPNに関して、1,000である。いくつかの実施形態は、ボックス予測分岐をこれらの提案上で起動し、その後、非最大値抑制が続く。マスク分岐は、次いで、最高スコアの100個の検出ボックスに適用される。これは、訓練する際に使用される並列算出と異なるが、推定を加速させ、正確度を改良する(より少ない、より正確なRoIの使用に起因して)。マスク分岐は、RoIあたりK個のマスクを予測することができるが、いくつかの実施形態は、k番目のマスクのみを使用し、kは、分類分岐によって予測されるクラスである。m×m個の浮動数マスク出力は、次いで、RoIサイズにサイズ変更され、0.5の閾値においてバイナリ化される。いくつかの実施形態は、マスクを上位100個の検出ボックス上でのみ算出するため、Mask R-CNNは、小オーバーヘッドをそのFaster R-CNN対応物に追加する(例えば、典型的モデルに関して約20%)ことに留意されたい。
上記は、意味論セグメント化またはフィルタリングのための修正Mask RCNNモジュールのいくつかの例示的実装詳細を説明する。上記に説明されるように、3Dまたは他のより高次元のデータセット(例えば、3D走査)上の意味論セグメント化は、前述の修正MinkowskiNetベースのアルゴリズム、ScanCompleteベースのアルゴリズム等を使用することによって、実施されてもよいが、2Dデータセット上の意味論セグメント化は、修正Mask RCNNベースのアルゴリズム、修正PSPNetベースのアルゴリズム等を使用することによって、実施されてもよい。以下の説明は、2Dデータセット上での意味論セグメント化またはフィルタリングのために使用され得る、修正Mask RCCベースのアルゴリズムを対象とする。以下の節は、意味論セグメント化またはフィルタリングのための修正PSPNetベースのアルゴリズムを対象とする。
上記に説明されるように、最先端場面解析フレームワークは、主に、完全畳み込みネットワーク(FCN)に基づく。深層畳み込みニューラルネットワーク(CNN)ベースの方法は、動的オブジェクト理解を後押するが、依然として、多様な場面および制限されていない語彙を考慮すると、課題に直面する。これらの方法と異なり、好適なグローバル特徴を組み込むために、いくつかの実施形態は、ピラミッド場面解析ネットワーク(PSPNet)を提案する。ピクセル予測のための従来的膨張FCNに加え、いくつかの実施形態は、ピクセルレベル特徴を特別に設計されたグローバルピラミッドプーリングのものに拡張する。ローカルおよびグローバル手掛かりはともに、最終予測をより信頼性があるものにする。いくつかの実施形態は、深層教師あり損失を伴う、最適化方略を採用する。いくつかの実施形態は、全ての実装に詳細を与え、これは、適切な性能に重要であって、コードおよび訓練されたモデルを公的に入手可能にする。いくつかの実施形態は、最先端性能を全ての利用可能なデータセット上で達成し、PSPNetが、ピクセルレベル予測タスクのための有望な方向性を与えることを明らかにし、これは、追随研究におけるCNNベースのステレオマッチング、光学フロー、深度推定等においても有益であり得る。利点のうちのいくつかは、困難な場面コンテキスト特徴をFCNベースのピクセル予測フレームワーク内に埋め込む、ピラミッド場面解析ネットワークの利用、深層教師あり損失に基づく、深層ResNetのための効果的最適化方略、および全ての重要な実装詳細が含まれる、最先端場面解析および意味論セグメント化のための実践的システムのプロビジョニングを含む。
いくつかの実施形態は、有効グローバルコンテキスト先行値としてのピラミッドプーリングモジュールを用いて、FCN方法を場面解析に適用するときの、代表的失敗の場合の観察および分析から開始する。図14Dに図示されるピラミッド場面解析ネットワーク(PSPNet)は、複雑な場面解析におけるオープン語彙オブジェクトおよび事物識別のための性能を改良するために説明される。
ピラミッドプーリングモジュール:いくつかの実施形態は、ピラミッドプーリングモジュール1450Dを採用し、これは、有効グローバルコンテキスト先行値であることが証明されている。深層ニューラルネットワークでは、受容野のサイズは、使用されるコンテキスト情報量を大まかに示し得る。理論上、ResNetの受容野は、入力画像よりすでに大きいが、CNNの経験的受容野は、特に、高レベル層上において、理論的なものよりはるかに小さい。これは、多くのネットワークを瞬間グローバル場面先行値を組み込むために不十分にする。いくつかの実施形態は、有効グローバル先行値表現を提案することによって、本問題点に対処する。いくつかの実施形態では、グローバル平均プーリングは、グローバルコンテキスト先行値として良好なベースラインモデルであって、これは、一般に、画像分類タスクで使用される。いくつかの実施形態では、グローバル平均プーリングは、意味論セグメント化に正常に適用され得る。複雑な場面画像に関する、いくつかの実施形態では、本方略は、単独では、必要な情報を網羅するために不十分であり得る。これらの場面画像内のピクセルは、多くの事物およびオブジェクトに関して注釈が付けられる。それらを直接融合させ、単一ベクトルを形成することは、空間関係を喪失させ、曖昧性を引き起こし得る。グローバルコンテキスト情報は、サブ領域コンテキストとともに、本点について、種々のカテゴリの中で区別するために有用である。
より強力な表現は、これらの受容野を用いた、異なるサブ領域からの融合情報であり得る。いくつかの実施形態では、ピラミッドプーリングによって生成された、異なるレベルにおける特徴マップは、最終的に、平坦化され、連結され、分類のために、全結合層の中にフィードされた。本グローバル先行値は、画像分類のためのCNNの固定サイズ制約を除去するように設計される。異なるサブ領域間のコンテキスト情報損失をさらに低減させるために、いくつかの実施形態は、異なるスケールを伴う情報を備え、異なるサブ領域間で変動する、階層グローバル先行値を提案する。これは、図14Dに図示されるように、深層ニューラルネットワークの最終-層-特徴-マップに応じて、グローバル場面先行値構築のためのピラミッドプーリングモジュール(例えば、1450D)と称され得る。
ピラミッドプーリングモジュール(1450D)は、プーリングブロック1408Dを使用して、4つの異なるピラミッドスケール下で特徴を融合させる。最粗大レベル(1430D)は、グローバルプーリングであって、単一ビン出力を生成する。続くピラミッドレベル(1432D)は、特徴マップを異なるサブ領域に分離し、異なる場所に関するプーリングされた表現を形成する。ピラミッドプーリングモジュール1450D内の異なるレベル(1430D、1432D、1434D、および1436D)における出力は、可変サイズを伴う、特徴マップを備え、それぞれ、その対応する畳み込みブロック(例えば、1430Dのための畳み込みブロック1412D、1432Dのための畳み込みブロック1414D、1434Dのための畳み込みブロック1416D、および1436Dのための畳み込みブロック1418D)に提供され、アップサンプリングブロック1420Dにさらに提供される、個別の畳み込み出力を生成する。アップサンプリングブロック1420Dの出力は、個別の畳み込みブロック出力を、連結された出力を出力1428D(例えば、予測マップ)の中に畳み込む、畳み込み層1426Dに提供される、連結された出力の中に連結する、連結層1422Dに提供される。
図14Dは、処理ブロックの特定の配列を図示するが、本特定の配列は、異なる配列またはブロックの構成を有する、他の実施形態を限定することを意図するものではないことに留意されたい。例えば、いくつかの実施形態は、ピラミッドプーリングモジュール1450Dのための最大プーリングブロックを採用してもよい一方、いくつかの他の実施形態は、ピラミッドプーリングモジュール1450Dのための平均プーリングブロックを採用してもよい。さらに、いくつかの実施形態は、個別の処理ブロックを、{1×1}のビンサイズを有する、プーリングされる特徴マップの中で利用してもよい一方、他の実施形態は、異なる処理ブロックを、{1×1}、{2×2}、{3×3}、{6×6}、または他の適切なサイズ等、またはそれらの任意の組み合わせの1つまたはそれを上回るビンサイズを有する、プーリングされる特徴マップの中で利用してもよい。いくつかの実施形態はさらに、プーリングブロック1408後、次元低減ブロックを含んでもよい一方、いくつかの他の実施形態は、そのような次元低減ブロックを含まなくてもよい。
グローバル特徴の加重を維持するために、いくつかの実施形態は、各ピラミッドレベル後、1×1畳み込み層を使用して、ピラミッドのレベルサイズがNである場合、コンテキスト表現の寸法をオリジナルのものの1/Nに低減させる。これらの実施形態は、次いで、低次元特徴マップを直接アップサンプリングし、双線形補間を介して、オリジナル特徴マップと同一サイズ特徴を得る。最後に、異なるレベルの特徴が、最終ピラミッドプーリンググローバル特徴として連結される。ピラミッドレベルの数および各レベルのサイズは、修正され得ることに留意されたい。それらは、ピラミッドプーリング層の中にフィードされる、特徴マップのサイズに関連する。構造は、可変サイズプーリングカーネルを数ストライド内で採用することによって、異なるサブ領域を抽象化する。多段階カーネルは、合理的間隙を表現内に維持するべきである。ピラミッドプーリングモジュール1450Dは、それぞれ、1×1、2×2、3×3、および6×6のビンサイズを伴う、4レベルのものである。
ピラミッドプーリングモジュール1450Dを用いることで、いくつかの実施形態は、図14Dに図示されるように、ピラミッド場面解析ネットワーク(PSPNet)を採用する。図14Dにおける入力画像1402Dを前提として、いくつかの実施形態は、畳み込みニューラルネットワーク(CNN)1404Dを用いて、入力画像1402Dを処理し、膨張ネットワーク方略を伴う、事前訓練されたResNetモデルを使用して、特徴マップを抽出する。最終特徴マップまたは特徴表現(1406D)サイズは、図14Dに示されるように、入力画像1402Dの1/8である。マップの上部では、これらの実施形態は、ピラミッドプーリングモジュール1450Dを使用して、コンテキスト情報を集める。4レベルピラミッドを使用して、プーリングカーネルは、画像の全体、半分、および小部分を網羅する。これらの全体、半分、および小部分は、グローバル先行値として融合される。
次いで、先行値は、連結層1422D内において、オリジナル特徴マップ1406Dと連結される。連結後、畳み込み層1426Dが続き、最終予測マップ1428Dを生成する。本アーキテクチャを解説するために、PSPNetは、ピクセルレベル場面解析のための有効グローバルコンテキスト先行値を提供する。ピラミッドプーリングモジュールは、グローバルプーリングより代表的である、情報のレベルを収集することができる。PSPNetは、オリジナル膨張FCNネットワークと比較して、算出コストを著しく増加させない。エンドツーエンド学習では、グローバルピラミッドプーリングモジュールおよびローカルFCN特徴は、同時に最適化されることができる。
深層事前訓練ネットワークは、良好な性能につながる。ある場合には、ネットワークの深度を増加させることは、画像分類に関する付加的最適化困難度を導入し得る。ResNetは、各ブロック内のスキップ接続を用いて、本問題を解決する。深層ResNetの後の層は、主に、先行するものに基づいて、残留物を学習する。いくつかの実施形態は、付加的損失を用いた教師によって、初期結果を生成し、その後、最終損失を用いて残留物を学習するステップを提案する。これらの実施形態では、深層ネットワークの最適化は、2つに分解され得、それぞれ、解法することがより単純である。深層教師ありResNet101モデルの実施例は、ResNet101における補助損失の導入を図示する、図14Eに図示される。図14Eでは、深層教師ありResNet101モデルは、第4の段階におけるres4b22残留物ブロック1404Eに動作可能に結合される、最初の3つの段階における第1の複数の残留物ブロック1402Eを含み、その後、2つの第1の残留物ブロック1402Eが、第5および第6の段階として続く。補助損失1406Eは、res4b22残留物ブロック1404E後に追加される。res4b22ブロック1404Eの出力は、最終損失1410Eを伴う、Res5Cブロック1408Eに提供される。図14Eに図示される例示的アーキテクチャでは、後のブロックは、少なくとも部分的に、先行ブロックに基づいて、残留物を学習する一方、例示的アーキテクチャは、付加的損失(1406E)を伴う教師によって、初期結果を生成し、その後、最終損失(1410E)を用いて、残留物を学習する。
ソフトマックス損失を使用して、最終分類子を訓練する、主要な分岐以外に、別の分類子は、第4の段階、例えば、res4b22残留物ブロック後に適用される。いくつかの浅層への後方補助損失をブロックする、中継逆伝搬と異なり、いくつかの実施形態は、2つの損失関数を全ての先行層を通して通過させる。補助損失は、学習プロセスを最適化することに役立つ一方、マスタ分岐損失は、最も責任を負う。いくつかの実施形態は、加重を追加し、補助損失を平衡する。試験相では、いくつかの実施形態は、本補助分岐を放棄し、最終予測のために、良好に最適化されたマスタ分岐のみを使用する。ResNetベースのFCN(完全畳み込みネットワーク)のための本種類の深層教師あり訓練方略は、事前に訓練されたResNetモデルを用いて、異なる実験設定および研究下で広く有用である。これは、そのような学習方略の汎用性を明らかにする。
図15Dに戻って参照すると、ローカル特徴が、1506Dにおいて、より高いレベル特徴または表現の中に抽象化されてもよい。いくつかの実施形態では、PointNetベースのモジュールは、ローカル点または特徴の集合をより高いレベル表現の中に抽象化する。これらの実施形態では、PointNet++ベースのモジュールは、PointNetを入力集合のネスト化されたパーティション化上で再帰的に適用する。さらに、複数の異なるスケールおよび/または分解能を有する、特徴または表現は、1508Dにおいて、学習を通して、適応的に加重され、組み合わせられてもよい。クラスタ標識が、1510Dにおいて、1つまたはそれを上回る集合関数(sf)によって、前述の距離メトリックを有する、メトリック空間に割り当てられてもよい。集合関数が、分類関数を含み、メトリック空間を、入力として、点毎の付加的特徴とともに受信し、メトリック空間に関する意味論的関心の情報を生産してもよい。集合関数はまた、標識をメトリック空間の一部に割り当ててもよい、またはセグメント化関数が、点あたり標識を点の集合の各要素に割り当ててもよい。上記のプロセスは、1512Dにおいて、例えば、点の集合全体が同様に処理され得るまで、繰り返されてもよい。
PointNet-および/またはPointNet++ベースのモジュールを採用する、これらの実施形態では、これらの実施形態は、幾何学的点集合を分析し、これは、ユークリッド空間内の点の集合である。特に、幾何学的点集合の重要なタイプは、例えば、適切に装備された自律車両から3Dスキャナによって捕捉された点群である。集合として、そのようなデータは、その要素の順列に対して不変である必要がある。加えて、距離メトリックは、異なる性質を呈し得る、ローカル近傍を定義する。例えば、点の密度および他の属性は、異なる場所を横断して均一ではない場合がある、すなわち、3D走査では、密度変動性が、見掛け効果、半径方向密度変動、運動等から生じ得る。いくつかの以前の研究は、点集合に関する深層学習を研究上している。PointNetは、点集合を直接処理する、先駆的試みである。
PointNetを伴う種々の実施形態は、各点の空間エンコーディングを学習し、次いで、全ての個々の点特徴をグローバル点群シグネチャに集約するためのものである。その設計上、PointNetは、メトリックによって誘発されるローカル構造を捕捉しない。しかしながら、ローカル構造を利用することは、畳み込みアーキテクチャの成功に重要であることが証明されている。CNNは、規則的グリッド上に定義されるデータを入力としてとり、マルチ分解能階層に沿って、ますますより大きいスケールにおいて、徐々に特徴を捕捉することが可能である。より低いレベルでは、ニューロンは、より小さい受容野を有する一方、より高いレベルでは、それらは、より大きい受容野を有する。要約階層に沿ってローカルパターンを抽象化する能力は、観測されていない場合に対するより良好な一般化可能性を可能にする。いくつかの実施形態は、PointNet++と命名される、階層ニューラルネットワークを導入し、階層方式においてメトリック空間内でサンプリングされる、点の集合を処理する。
PointNet++を伴う種々の実施形態は、最初に、下層空間の距離メトリックによって、点の集合を重複ローカル領域の中にパーティション化する。CNNと同様に、これらの実施形態のうちのいくつかは、ローカル特徴を抽出し、微細幾何学的構造を小近傍から捕捉する。そのようなローカル特徴はさらに、より大きいユニットに群化され、より高いレベル特徴を生産するように処理される。本プロセスは、これらの実施形態が点集合全体の特徴を取得するまで、繰り返される。PointNet++の設計は、2つの問題点、すなわち、(1)点集合のパーティション化を生成する方法と、(2)ローカル特徴学習器を通して、点の集合またはローカル特徴を抽象化する方法とに対処する。2つの問題点は、ローカル特徴学習器の加重が畳み込み設定におけるように共有され得るように、点集合のパーティション化がパーティションを横断して共通構造を生産する必要があるため、相関する。いくつかの実施形態は、意味論特徴抽出のために、点の無秩序集合を処理するための効果的アーキテクチャである、PointNetとなるようにローカル特徴学習器を選定する。加えて、本アーキテクチャは、入力データ破損にロバストである。基本的構築ブロックとして、PointNetは、ローカル点または特徴の集合をより高いレベル表現の中に抽象化する。本観点では、PointNet++は、PointNetを入力集合のネスト化されたパーティション化上で再帰的に適用する。
点集合の重複パーティション化を生成するために、パーティションは、下層ユークリッド空間内の近傍ボールとして定義され、そのパラメータは、重心場所およびスケールを含む。集合全体を均一に網羅するために、重心は、最遠点サンプリング(FPS)アルゴリズムによって、入力点集合の中から選択される。固定ストライドを伴う空間を走査する、立体CNNと比較して、PointNet++を伴うローカル受容野は、入力データおよびメトリックの両方に依存し、したがって、より効率的および効果的であり得る。しかしながら、ローカル近傍ボールの適切なスケールを決定することは、特徴スケールの交絡および入力点集合の非均一性に起因して、より困難であるが、興味深い問題である。これらの実施形態のうちのいくつかは、入力点集合が、異なる面積において、可変密度を有し得、これが、構造センサ走査等の実データにおいて非常に一般的であると仮定する。いくつかの実施形態では、入力点集合は、したがって、均一一定密度を伴う規則的グリッド上に定義されるデータと見なされ得る、CNN入力と非常に異なる。CNNでは、ローカルパーティションスケールの対応物は、カーネルのサイズである。いくつかの実施形態は、より小さいカーネルを使用することが、CNNの能力を改良することに役立つことを実証している。利点のうちの1つは、PointNet++が、ロバスト性および詳細捕捉の両方を達成するために、複数のスケールにおける近傍を活用することである。訓練の間のランダム入力ドロップアウトによる補助を得ることで、ネットワークは、異なるスケールにおいて検出されたパターンに適応的に加重し、入力データに従って、マルチスケール特徴を組み合わせることを学習する。実験は、PointNet++ベースのモジュールが、点集合を効率的かつロバストに処理することが可能であることを示す。特に、最先端より有意に良好な結果が、3D点群の困難であるベンチマーク上で取得されている。
いくつかの実施形態では、X=(M,d)が、そのメトリックがユークリッド空間Rnから継承される、離散メトリック空間であって、式中、M⊆Rnは、点の集合を示し、dは、距離メトリックであると仮定する。加えて、周囲ユークリッド空間内のMの密度は、あらゆる場所で均一ではない場合がある。これらの実施形態は、そのようなXを入力(点毎の付加的特徴とともに)として受信し、Xに関する意味論的関心の情報を生産する、集合関数fを学習する。いくつかの実施形態では、そのようなfは、標識をXに割り当てる、分類関数、または点あたり標識をMの各要素に割り当てる、セグメント化関数であってもよい。
いくつかの実施形態は、追加される階層構造を伴う、PointNetの拡張と見なされ得る。これらの実施形態は、階層構造を伴う、PointNetの基本拡張を導入し、非均一にサンプリングされる点集合内でも特徴をロバストに学習する。
PointNet:
式中、γおよびhは、通常、多層パーセプトロン(MLP)ネットワークである。方程式15D-(1)における集合関数fは、入力点順列に対して不変であって、恣意的に、任意の連続集合関数に近似させることができる。hの応答は、点の空間エンコーディングとして解釈され得ることに留意されたい。PointNetは、見事な性能をいくつかのベンチマーク上で達成した。しかしながら、ローカルコンテキストを異なるスケールで捕捉する能力を欠いている。いくつかの実施形態は、以下の階層特徴学習フレームワークを導入し、限界を解決する。
階層点集合特徴学習:
PointNetは、単一最大プーリング演算を使用して、点集合全体を集約するが、いくつかの実施形態は、点の階層群化を構築し、階層に沿って、ますます大きいローカル領域を徐々に抽象化する。本階層構造は、いくつかの集合抽象化レベル(図12E)によって構成される。図12Eは、1つまたはそれを上回る実施形態における、修正PointNet++のための例示的アーキテクチャを図示する。より具体的には、図12Eは、実施例として、2Dユークリッド空間内で点を使用する、階層特徴学習アーキテクチャおよび集合セグメント化および分類へのその適用を図示する。図12Eは、単一点群化を図示するが、同じまたは実質的に類似アプローチもまた、密度適応群化に適用されてもよいことに留意されたい。
これらの実施形態では、例示的ネットワークアーキテクチャは、第1のサンプリングおよび群化モジュール1202Eと、PointNetモジュール1204Eとをさらに含む、第1の集合抽象化1250Eを有する、階層点集合特徴学習モジュールを含む。図12Eにおける本階層点集合特徴学習モジュールアーキテクチャはさらに、本明細書に説明されるように、第2の集合抽象化1252Eを含む、第2のサンプリングおよび群化モジュール1206Eと、第2のPointNetモジュール1208Eとを有する。階層点集合特徴学習モジュール(1250E、1252E)1210Eの出力は、直列または並列のいずれかにおいて、セグメント化1254Eおよび分類1256Eのために提供されてもよい。セグメント化処理1254Eは、補間1212E、ユニットPointNet1214E((N1、d+C2+C1))、補間1216E((N1、d+C3))、別のユニットPointNet1218E((N、d+C3+C))を含み、点毎スコア(N, k))を生成する。サンプリングおよび群化モジュール1202Eの出力は、下記に説明されるように、ユニットPointNet1214Eと連結されてもよく、第2のサンプリングおよび群化モジュール1206Eの出力は、スキップリンク連結を介して、第2のユニットPointNet1218Eと連結されてもよい。
分類処理1256Eは、階層点集合特徴学習出力1210Eを、PointNet出力1224E((1, C4))を生成し、これが、ひいては、全結合(FC)層1226Eの集合を生成するために使用される、PointNetモジュール1222Eに提供する。プロセスは、次いで、クラススコア1228Eの集合を生成してもよい。図12Eについてのさらなる詳細は、下記に説明される。
各レベルでは、点の集合は、処理および抽象化され、より少ない要素を伴う、新しい集合を生産する。集合抽象化レベルは、3つの重要となる層、すなわち、サンプリング層、群化層、およびPointNet層を含んでもよい。サンプリング層は、点の集合を入力点から選択し、これは、ローカル領域の重心を定義する。群化層は、次いで、重心の周囲の「近傍」点を見出すことによって、ローカル領域集合を構築する。PointNet層は、ミニPointNettoを使用して、ローカル領域パターンを特徴ベクトルの中にエンコードする。集合抽象化レベルは、d-dim座標およびC-dim点特徴を伴う、N個の点から、N×(d+C)行列を入力としてとる。これは、ローカルコンテキストを要約する、d-dim座標および新しいC’-dim特徴ベクトルを伴うN’個のサブサンプリングされた点のN’×(d+C’)行列を出力する。いくつかの実施形態は、以下の段落において、集合抽象化レベルの層を導入する。
サンプリング層。入力点{x1,x2,...,xn}を前提として、いくつかの実施形態は、反復最遠点サンプリング(FPS)を使用し、xijが、静止点に関して集合{xi1,xi2,...,xij-1}から最も離れた点(メトリック距離において)であるように、点のサブセット{xi1,xi2,...,xim}を選定する。ランダムサンプリングと比較して、これは、同一数の重心を前提として、点集合全体のより良好な網羅率を有する。データ分布に依存しない、ベクトル空間を走査する、CNNと対照的に、サンプリング方略は、データ依存様式において、受容野を生成する。
群化層。いくつかの実施形態では、本層への入力は、サイズN×(d+C)の点集合およびサイズN’×dの重心の集合の座標である。出力は、サイズN’×K×(d+C)の点集合の群であって、各群は、ローカル領域に対応し、Kは、重心点の近傍における点の数である。Kは、群を横断して変動するが、後続PointNet層は、フレキシブルな点の数を固定長ローカル領域特徴ベクトルに変換することが可能であることに留意されたい。畳み込みニューラルネットワークでは、ピクセルのローカル領域は、ピクセルのあるManhattan距離(カーネルサイズ)内のアレイインデックスを伴う、ピクセルから成る。メトリック空間からサンプリングされる点集合では、点の近傍は、メトリック距離によって定義される。ボールクエリは、クエリ点に対してある半径の全ての点を見出す(Kの上限が、実装において設定される)。代替RangeQueryは、K最近傍(kNN)検索であって、これは、固定数の近傍点を見出す。kNNと比較して、ボールクエリのローカル近傍は、固定領域スケールを保証し、したがって、空間を横断して、ローカル領域特徴をより一般的化可能にし、これは、ローカルパターン認識(例えば、意味論点標識化)を要求するタスクに好ましい。
PointNet層。本層では、入力は、データサイズN’×K×(d+C)を伴う、点のN’個のローカル領域である。出力内の各ローカル領域は、その重心と、重心の近傍をエンコードする、ローカル特徴とによって、抽象化される。出力データサイズは、N’×(d+C’)である。
ローカル領域内の点の座標は、最初に、重心点に対するローカルフレームの中に平行移動される、すなわち、i=1,2,...,Kおよびj=1,2,...,dに関して、
であって、式中、^xは、重心の座標である。いくつかの実施形態は、上記のPointNetをローカルパターン学習のための基本的構築ブロックとして使用する。相対的座標を点特徴とともに使用することによって、いくつかの実施形態は、ローカル領域内の2地点間関係を捕捉することができる。
であって、式中、^xは、重心の座標である。いくつかの実施形態は、上記のPointNetをローカルパターン学習のための基本的構築ブロックとして使用する。相対的座標を点特徴とともに使用することによって、いくつかの実施形態は、ローカル領域内の2地点間関係を捕捉することができる。
非均一サンプリング密度下のロバストな特徴学習:
上記に議論されるように、点集合が異なる面積内に非均一密度を備えることは、一般的であり得る。そのような非均一性は、点集合特徴学習に関して有意な課題を導入する。稠密データ内で学習された特徴は、疎らにサンプリングされる領域に一般化され得ない。その結果、疎点群に関して訓練されたモデルは、微粒度ローカル構造を認識しない場合がある。いくつかの実施形態は、稠密にサンプリングされた領域内の最微細詳細を捕捉するために、点集合の中に可能な限り細かく点検する。しかしながら、そのような細かい点検は、ローカルパターンがサンプリング不足によって破損され得るため、低密度面積では禁じられる。この場合、これらの実施形態は、より大きな近傍において、より大きいスケールパターンを探す。本目標を達成するために、いくつかの実施形態は、入力サンプリング密度が変化すると、異なるスケールの領域からの特徴を組み合わせるように学習する、密度適応PointNet層を提案する。いくつかの実施形態は、密度適応PointNet層を伴う階層ネットワークをPointNet++として呼び出す。上記に説明されるように、各抽象化レベルは、単一スケールの群化および特徴抽出を含有する。PointNet++では、各抽象化レベルは、ローカルパターンの複数のスケールを抽出し、ローカル点密度に従って、それらを知的に組み合わせる。ローカル領域を群化し、特徴を異なるスケールから組み合わせる観点から、いくつかの実施形態は、下記に列挙されるように、2つのタイプの密度適応層を採用する。
マルチスケール群化(MSG):
マルチスケールパターンを捕捉するための単純であるが、効果的方法は、異なるスケールを伴う層を群化し、その後、PointNetsに従って、各スケールの特徴を抽出するステップを適用することである。異なるスケールにおける特徴は、マルチスケール特徴を形成するように連結される。いくつかの実施形態は、ネットワークを訓練し、最適化された方略を学習し、マルチスケール特徴を組み合わせる。これは、インスタンス毎に、ランダム化された確率を用いて、入力点をランダムにドロップアウトすることによって達成されてもよく、いくつかの実施形態は、ランダム入力ドロップアウトと称する。具体的には、訓練点集合毎に、いくつかの実施形態は、[0,p](式中、p≦1)から均一にサンプリングされるドロップアウト比θを選定する。点毎に、いくつかの実施形態は、確率θを用いて、点をランダムにドロップする。実践では、いくつかの実施形態は、空点集合を生成することを回避するために、p=0.95を設定する。そうすることによって、これらの実施形態は、ネットワークに、種々の疎密性の訓練集合(θによって誘発される)を提示し、均一性を変動させる(ドロップアウトにおけるランダム性によって誘発される)。試験の間、いくつかの実施形態は、全ての利用可能な点を保つ。
マルチ分解能群化(MRG):
上記のMSGアプローチは、重心点毎にローカルPointNetat大規模近傍を起動するため、算出上高価である。特に、重心点の数は、通常、最低レベルにおいて、非常に大きいため、時間コストは、有意である。いくつかの実施形態は、そのような高価な算出を回避するが、依然として、点の分布性質に従って、情報を適応的に集約する能力を保存する。これらの実施形態では、あるレベルLiにおける領域の特徴は、2つのベクトルの連結である。1つのベクトル(図中の左)は、集合抽象化レベルを使用して、より低いレベルLi-1からの各サブ領域における特徴を要約することによって取得される。他のベクトル(右)は、単一PointNetを使用して、ローカル領域内の全ての未加工点を直接処理することによって取得される、特徴である。ローカル領域の密度が、低いとき、第1のベクトルは、第1のベクトルを算出する際のサブ領域が、さらにより疎の点を含有し、よりサンプリング不足に悩まされるため、第2のベクトルほど信頼性がない場合がある。そのような場合、第2のベクトルは、より高く加重されるべきである。他方では、ローカル領域の密度が、高いとき、第1のベクトルは、より低いレベルにおいてより高い分解能で再帰的に点検する能力を保有するため、より微細な詳細の情報を提供する。MSGと比較して、本方法は、これらの実施形態が最低レベルにおける大規模近傍での特徴抽出を回避するため、算出上より効率的である。
集合セグメント化のための点特徴伝搬:
集合抽象化層では、オリジナル点集合が、サブサンプリングされる。しかしながら、意味論点標識化等の集合セグメント化タスクでは、いくつかの実施形態は、全てのオリジナル点に関する点特徴を取得する。1つのソリューションは、常時、全ての点を全ての集合抽象化レベル内の重心としてサンプリングすることであるが、しかしながら、これは、高算出コストをもたらす。別の方法は、サブサンプリングされた点からの特徴をオリジナル点に伝搬することである。いくつかの実施形態は、距離ベースの補間およびレベル横断スキップリンクを伴う、階層伝搬方略を採用する(図12Eに示されるように)。特徴伝搬レベルでは、いくつかの実施形態は、Nl×(d+C)個の点からの点特徴をNl-1個の点に伝搬し、Nl-1およびNl(Nl≦Nl-1)は、入力の点集合サイズおよび集合抽象化レベルlの出力である。いくつかの実施形態は、Nl-1個の点の座標におけるNl個の点の特徴値fを補間することによって、特徴伝搬を達成する。補間のための多くの選択肢のうち、いくつかの実施形態は、k最近傍に基づいて、逆距離加重平均を使用する(方程式15D-(2)におけるように、デフォルトにおいて、いくつかの実施形態は、p=2、k=3を使用する)。Nl-1個の点上に補間される特徴は、次いで、集合抽象化レベルからのスキップリンクされた点特徴と連結される。次いで、連結された特徴は、「ユニットPointNet」を通して通過され、これは、CNNにおける1つずつの畳み込みに類似する。いくつかの共有全結合およびReLU層が、各点の特徴ベクトルを更新するために適用される。プロセスは、いくつかの実施形態が特徴を点のオリジナル集合に伝搬するまで、繰り返される。
図15Eは、いくつかの実施形態における、場面の間取図を生成するための図15Cに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図15Eは、図15Cの1502CにおいてDeepPerimeterタイプの形状を生成するステップについてのさらなる詳細を図示する。これらの実施形態は、1502Eにおいて、深層推定を環境の入力画像シーケンス内の1つまたはそれを上回るRGBフレーム上で実施する。深度マップおよび壁セグメント化マスクは、1504Eにおいて、例えば、マルチビュー深度推定ネットワークおよびPSPNetベースおよび/またはResNetベースのセグメント化モジュールを使用することによって、生成されてもよい。いくつかの実施形態では、フレーム毎稠密深度マップが、1502Eにおいて、例えば、マルチビュー深度推定ネットワークを用いて、生成されてもよい。
壁点群が、1506Eにおいて、マーチングキューブモジュールを使用することによって、1つまたはそれを上回るマスク深度画像と1つまたはそれを上回る姿勢軌道を融合させることによって、抽出されてもよい。これらの実施形態はさらに、少なくとも、1508Eにおいて、深層セグメント化ネットワークを訓練することによって、壁点に対応する、深度予測を単離する。深度予測は、1510Eにおいて、3次元(3D)点群に投影されてもよい。3D点群は、1512Eにおいて、少なくとも、深層ネットワークを用いて、同一平面インスタンスに属する点を検出することによって、1つまたはそれを上回るクラスタにクラスタ化されてもよい。いくつかの実施形態は、これらの実施形態が、点(例えば、角、縁等に対応する、点)がオクルードされるとき、不利にならないように、直接、壁点をクラスタ化する。いくつかの実施形態は、合成的に生成されたグラウンドトゥルースを使用して、点群を長距離平面領域にクラスタ化するためのエンドツーエンドモデルを採用する。1512Eにおいて決定されたクラスタは、1514Eにおいて、周囲レイアウトを形成する、平面の集合の中に平行移動されてもよい。図15Eについてのさらなる詳細は、下記に説明される。
DeepPerimeterモジュールを利用して、屋内環境の3Dレイアウトの理解を得る、いくつかの実施形態は、拡張現実、ナビゲーション、および一般的場面理解における無数の用途を伴う、空間の長距離幾何学形状を理解するために重要であり得る。そのようなレイアウトは、直方体パラメータから、より意味論的に豊かな完全間取図に対する単眼角座標およびその接続性まで、種々の方法で提示されることができる。これらの方法は、それらが入力および部屋幾何学形状に関するその仮定において要求する、情報の量において異なる(例えば、いくつかのアプローチは、クリーン3D点群を入力において要求する一方、他のアプローチは、単眼視点またはパノラマ画像を要求する)。本関連問題の集合間の一貫性の欠如は、屋内場面に関してあるべきレイアウト予測に関する標準的設定にわたる一般的不一致を明らかにする。いくつかの実施形態は、その課題、すなわち、自然な状態で最も容易に利用可能なデータのタイプおよび現代のビジョン用途に関する最も差し迫った必要性を満たすレイアウトのタイプに回答することを対象とする。
センサデータの観点から、RGB(赤緑青)カメラおよび姿勢データを多くの現代のデバイス(例えば、スマートフォン、AR/VRHMD等)から取得することは、容易であり得る。完全ビデオシーケンスへのアクセスは、単眼レイアウト推定に一般的である、角および縁推定の域を超えることを可能にし、かつ内部空間の完全周囲マップの推定を可能にする。空間範囲および空間の形状に関するそのようなメトリック情報は、内部空間の基本不変条件であって(動的に偏移し得る、部屋内のオブジェクトと異なる)、したがって、モバイル拡張現実プラットフォームのための面積および体積測定を有効にすることによる、種々の下流3D用途のために有用である。
DeepPerimeterフレームワークを採用する、いくつかの実施形態は、可能性として考えられる部屋のタイプの任意の手作業で作られる列挙される集合を伴わずに、本周囲を精密に推測する。DeepPerimeterはまた、実世界場面において頻出する、角および縁オクルージョンに対してロバストである。説明および例証の容易性のために、下記の説明は、水平周囲(例えば、外壁の場所)を予測するが、これは、これらが、部屋レイアウト内の構造の大部分を含有する一方、床および天井が、通常、単一平面によって明確に近似されるためである。例示的パイプラインの基本概要に関しては、図14Jを参照されたい。図14Jでは、場面の入力姿勢付きビデオ1402Jが、本明細書に説明されるDeepPerimeterモジュール等の深層ネットワークに提供され、クラスタ化結果1404Jを生産し、これは、ひいては、深層ネットワークによって処理され、推定される周囲1408J(例えば、DeepPerimeterタイプの形状によって生産された推定される周囲)を生産する。同一場面のグラウンドトゥルース1404Jもまた、推定される周囲または任意の他の中間結果を訓練または検証するために参照されてもよい。
パイプラインは、ビデオシーケンスのRGBフレーム上での深層深度推定から開始してもよい。実際、深層学習の一般的3D再構築用途に関する最も制限的ボトルネックのうちの1つは、深層深度推定モデルの正確度である。NYUv2データセットにおけるもののような雑然とした屋内場面では、そのようなネットワークは、依然として、単眼入力を前提として、RMS誤差の0.5~0.6mより良好に性能を発揮することに苦戦する。いくつかの実施形態は、代わりに、現代のマルチビューステレオ方法を使用することによって、複数視点を深度推定モジュールの中に組み込むことによって、本性能ボトルネックを避ける。これらの実施形態は、次いで、深層セグメント化ネットワークを訓練し、壁点に対応する深度予測を単離する。これらの予測は、3D点群に投影され、次いで、同一平面インスタンスに属する点を検出するように調整される、深層ネットワークを通してクラスタ化される。
いったん点クラスタが、割り当てられると、標準的方法は、クラスタを、完全周囲レイアウトを形成する、平面の完全集合の中に平行移動させる。いくつかの実施形態では、直接、壁点をクラスタ化することによって、いくつかの実施形態は、角がオクルードされるとき、不利とならない。いくつかの実施形態は、屋内周囲を姿勢付きRGB画像の単眼シーケンスから予測するための深層学習ベースのパイプラインを提供する。これらの実施形態は、オクルードされる角にロバストであることと、かつ先験的部屋形状の列挙される集合に依存しないこととの両方である。いくつかの実施形態は、合成的に生成されたグラウンドトゥルースを使用して、点群を長距離平面領域の中にクラスタ化するためのエンドツーエンドモデルを開発する。
パイプライン概要:
パイプラインは、2つの重要となる段階、すなわち、壁点群を抽出するための深層マルチビュー深度推定およびセグメント化(3.1)と、平面インスタンスを検出するための深層クラスタ化(3.2)とを含んでもよい。最終周囲は、後処理において、単純最小二乗法平面適合(3.3)によって生成される。完全パイプラインは、図14Kに図示される。
図14Kは、周囲推定のための例示的パイプラインを図示する。いくつかの実施形態は、その相対的姿勢とともに、画像の姿勢付き単眼シーケンスから開始する。これらの実施形態は、マルチビューステレオアルゴリズムを通して、壁に関する意味論セグメント化マップと、稠密深度マップとを抽出する。これらの2つの出力は、標準的投影解除を通して組み合わせられ、壁ピクセルのみから成る3D点群を形成する。これらの壁ピクセルは、次いで、深層クラスタ化ネットワークを使用して、壁インスタンス候補の中に着色され、線形最小二乗法および最短経路アルゴリズムを用いて、後処理され、最終周囲予測を形成する。図14Kでは、例えば、軌道1402K、ビデオ1404K、画像、姿勢付き画像、姿勢付きビデオ、または任意の他の好適な入力、またはそれらの任意の組み合わせを含む、1つまたはそれを上回る入力1400Kが、それぞれ、深度マップ1410Kおよび意味論セグメント化1412Kを生成し得る、マルチビュー深度ネットワーク1406K(MVDepthNet)およびPSPNet(ピラミッド場面解析ネットワーク)1408K等の意味論セグメント化モジュールに提供されてもよい。
深度マップ1410Kおよび意味論セグメント化は、組み合わせらる、または別様に、投影解除モジュール1414Kを通して、マージされ、壁点群の集合1416Kを生成してもよい。壁点群1416Kは、クラスタモジュール1418K(例えば、本明細書に説明されるClusterNet)に提供され、標識されたクラスタ1420Kを生産してもよい。標識されたクラスタ1420Kはさらに、本明細書に説明される深層ネットワークまたは深層境界ネットワーク等の周囲推定モジュール1422Kに提供され、DeepPerimeterタイプの形状を生産し、部屋およびそれに関する壁を表してもよい。
壁点群の抽出:
いくつかの実施形態は、種々の姿勢からの同一実世界場面の複数の観察を利用して、最新のマルチビュー深度推定ネットワークを通して、フレーム毎稠密深度マップを生成する。これらの実施形態は、次いで、ResNet-50バックボーンを伴う、標準的ピラミッド場面解析(PSP)ネットワークを通して、天井、床、および壁を分類するために、セグメント化アルゴリズムを最適化する。入力フレーム毎に、深度マップおよび壁セグメント化マスクを取得後、いくつかの実施形態は、壁クラスに属する深度ピクセルのみを使用して、統合されていない点群を生成する。そのために、これらの実施形態は、マスクされた深度画像の集合と暗示的表面表現内の既知の姿勢軌道を融合させ、マーチングキューブ方法の導関数によって、点群を抽出する。単に各深度ピクセルを投影解除するよりも、暗示的表面表現を使用することの利点は、図14Kに示されるように、それが、冗長点を除去し、複数の観察にわたって雑音を平均化し、点のより平滑かつクリーンな集合につながることである。最後に、内壁点を除去するために、いくつかの実施形態は、α形状の概念を使用して、その凹包を表す、点群のサブセットを作成する。
ClusterNet:
場面内の壁のαカリングかれ、サブサンプリングされた、点群表現を取得することに応じて、いくつかの実施形態は、本点群の深層クラスタ化を実施することによって、壁インスタンスを分離するステップに進む。いくつかの実施形態は、推定の間、表面法線または平面パラメータを明示的に算出せずに、平面セクションに基づいて、無秩序点群をクラスタ化する、完全教師なし技法を採用する。ClusterNetは、合成データセットのみを使用して訓練されてもよく、追加される容量のための予測ヘッドの直前に2つの付加的128→128フィルタ畳み込み層を伴う、PointNetアーキテクチャを使用する。PointNetグローバル特徴が、次いで、入力点毎に、クラスタ確率を出力するために使用される。別個の壁インスタンスに関する一意のクラスタ割当を生成するために、いくつかの実施形態は、3D場所雑音、オクルージョン、および可変点密度に対してロバストである必要がある。さらに、クラスタ化は、同一点法線を共有する、平行平面壁を区別する必要がある。いくつかの実施形態は、明確に異なる壁インスタンス上にある2つの点が同一標識を割り当てられるとき、ネットワークにペナルティを科す、対毎損失関数を公式化する。しかしながら、いくつかの実施形態は、クラスタマージが後処理において容易に遂行され得るため、過剰セグメント化にペナルティを科さない。3D座標Pi=(xi,yi,zi)、点法線=(xi
(n),yi
(n),zi
(n))、および予測されるクラスタ確率ベクトルP(x)=(p(x),…,pk+1
(x))を伴う、N個の点×iを求める。(k+1)番目のクラスが、ネットワークが雑音点をフィルタ除去する能力を可能にするために確信を持って任意の平面インスタンス上に設置されることができない、点のために留保される。クラスタ化損失Lclusterは、以下のように与えられる。
項D(xi,xj)は、xiおよびxjが異なる平面(平行平面を含む)上にあるとき、高値を、xiおよびxjが同一平面上にあるとき、低値を有する。さらに、xiおよびxjが、類似クラスタ割当確率ベクトルを有する場合、P(xi,xj)は、高くあり得る。いくつかの実施形態は、2つの対が、明確に異なる壁に属するが、類似クラスタ割当確率を有するとき、ペナルティを科す。全ての点が(k+1)番目のクラスタに割り当てられる、自明な解を防止するために、いくつかの実施形態は、以下のように、正則化損失Lregを使用する。
これらの実施形態は、点が任意の平面に属する確率が小さいときは、常時、ペナルティを科す。総損失は、したがって、Lcluster+βLregであって、いくつかの実施形態は、これらの実施形態では、βを1.0に設定する。
周囲推定:
全ての壁がZ-軸と平行であるという仮定に従って、いくつかの実施形態は、全てのクラスタ化される3d壁点をX-Y平面に投影し、点群の上下図を生成する。いくつかの実施形態は、線形最小二乗法を使用して、クラスタ毎に、2D線パラメータを推定する。複製壁予測を除去するために、<θマージの相対的正常逸脱=30°および<eマージのクラスタ間点/線誤差=0.3mを伴う、線パラメータを有する、クラスタは、同一標識を割り当てられる。クラスタ間の接続性を確立するために、いくつかの実施形態は、全てのクラスタ中央値に沿って、閉鎖された最短経路を見出す。解は、巡回セールスマン問題に基づいて、アルゴリズムを使用して計算され、2D線パラメータが、再推定される。結果として生じる線は、次いで、最も近くの直交軸にスナップされ、交差するように自明に拡張される。2つの近傍の壁セグメントの交点が、角として定義される。主要なオクルージョンが、生じ、2つの接続された平行セグメントもたらすとき、いくつかの実施形態は、交差を強制するように、直交方向におけるセグメントのうちの1つの終点を拡張させる。そのような発生は、稀であって、確実に、角オクルージョンよりはるかに稀であって、これは、直接角予測を通して動作する、多くのレイアウト推定パイプラインにおいて問題点を引き起こすことに留意されたい。
データセット:
いくつかの実施形態は、深層クラスタ化モデルを訓練するための合成的に生成されたデータセットを含む、種々のネットワークを訓練するために使用される、データセットを説明する。
公的データセット:
いくつかの実施形態は、以下のデータセットを使用して、種々のモデルを評価する。深度ネットワークを訓練し、推定される周囲を評価し、深度およびセグメント化モジュールを評価するためのScanNetデータセット。セグメント化ネットワークを訓練するためのADE20KおよびSunRGBDデータセット。クラスタ化解除された点群からの周囲の推定の付加的評価のためのFloorNetデータセット。
種々の実施形態は、種々の形状(矩形、L形状、T形状、またはU形状)からランダムにサンプリングされる、部屋周囲スケルトンから開始する、法線標識とともに、完全合成データセットを構築する。各縁の長さおよび角配向および部屋の高さが、均一にサンプリングされる。ガウス雑音が、追加され、いくつかの実施形態はまた、円筒形面積内の点のランダム削除を含み、点群測定において一般に生じる、欠失点を模倣する。
図15Fは、いくつかの実施形態における、場面の間取図を生成するための図15Cに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図15Eは、図15Cにおける1504Cにおいて間取図を生成するステップについてのさらなる詳細を図示する。これらの実施形態では、1つまたはそれを上回る部屋インスタンスおよび1つまたはそれを上回る壁インスタンスが、1502Fにおいて、乏しい公的に入手可能なデータセットおよび/またはライブラリを有する、屋内環境等の環境の走査から識別されてもよい。閉鎖された周囲が、1504Fにおいて、部屋インスタンスに関して推定されてもよい。
クラスタの数が、1506Fにおいて、少なくとも、例えば、投票アーキテクチャを使用することによって、予測されてもよい。いくつかの実施形態は、下記により詳細に説明される、深層Hough投票アーキテクチャ等の投票ベースのアーキテクチャを使用することによって、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測する。いくつかの実施形態では、クラスタの数を予測するステップは、いくつかの実施形態における、クラスタの数に関する以前の仮定を伴わずに、少なくとも、3Dデータ点の非排他的クラスタ化として、入力3D点群を1つまたはそれを上回る構成部屋および壁に分離することによって、部屋クラスタ化および壁クラスタ化を並列に実施する、投票ベースのアーキテクチャを使用することによって、ネットワークアーキテクチャから独立して、制約されない数のクラスタを予測するステップを含んでもよい。加えて、または代替として、1506Fにおいて、(1)真下の図12C-12Dを参照してより詳細に説明される、投票ベースの技法を使用することによって、入力点群(3d)を構成部屋および壁に分離することによって、クラスタの数を予測するステップは、クラスタの数に関する以前の仮定を伴わずに、3Dデータ点の非排他的クラスタ化を実施するステップを含んでもよい。
従来的Hough投票2D検出器は、オフラインおよびオンラインステップを備える。最初に、注釈が付けられたオブジェクト境界ボックスを伴う、画像の集合を前提として、コードブックが、画像パッチ(またはその特徴)と対応するオブジェクト中心に対するそのオフセットとの間の記憶されたマッピングとともに構築される。推定時、着目点が、画像から選択され、その周囲のパッチを抽出する。これらのパッチは、次いで、コードブック内のパッチに対して比較され、オフセットを読み出し、投票を算出する。オブジェクトパッチは、賛成投票する傾向にあるであろうため、クラスタは、近傍オブジェクト中心を形成するであろう。最後に、オブジェクト境界が、クラスタ投票をその生成パッチに戻るようにトレースすることによって読み出される。いくつかの実施形態は、その中で本技法が着目問題に非常に好適である、2つの点を識別する。第1に、投票ベースの検出は、領域提案ネットワーク(RPN)より疎集合と適合性がある。後者に関して、RPNは、提案をオブジェクト中心の近くに生成する必要があり、これは、虚空内にある可能性が高く、余剰算出を引き起こす。第2に、これは、ボトムアップ原理に基づき、部分的情報のごく一部が、確実な検出を形成するように蓄積される。ニューラルネットワークが、潜在的に、コンテキストを大受容野から集約し得る場合でも、依然として、投票空間内で集約するために有益であり得る。しかしながら、従来的Hough投票は、複数の分離されたモジュールを備えるため、それを最先端点群ネットワークの中に統合することは、未解決の研究主題である。この目的を達成するために、いくつかの実施形態は、異なるパイプライン構成要素に対する以下の適合を備える。
着目点が、手作業で作られた特徴に依存する代わりに、深層ニューラルネットワークによって記述および選択される。投票生成が、コードブックを使用する代わりに、ネットワークによって学習される。より大きい受容野を活用することによって、投票は、より曖昧性が少なくされ、したがって、より効果的となり得る。加えて、投票場所は、特徴ベクトルを用いて拡張され、より良好な集約を可能にすることができる。投票集約は、訓練可能パラメータを用いて、点群処理層を通して実現される。投票特徴を利用することによって、ネットワークは、潜在的に、低品質投票をフィルタ除去し、改良された提案を生成することができる。場所、次元、配向、およびさらに意味論クラスの形態における、オブジェクト提案が、直接、集約された特徴から生成され、投票の原点に戻るようにトレースする必要性を軽減することができる。以降では、いくつかの実施形態は、全ての前述の構成要素をVoteNetと命名された単一エンドツーエンド訓練可能ネットワークの中に組み合わせる方法を説明する。
VoteNetアーキテクチャ:
図12C-12Dは、例示的エンドツーエンド検出ネットワーク(VoteNet)を図示する。ネットワーク全体は、2つの部分、すなわち、既存の点を処理し、投票を生成するための1つの部分と、仮想点、すなわち、投票に作用し、オブジェクトを提案および分類するための他の部分とに分裂されてもよい。図12Cは、点群内の3Dオブジェクト検出のための、投票モジュール1250Cと、オブジェクト提案および分類モジュール1252Cとを備える、VoteNetの例示的アーキテクチャ1256Cを図示する。これらの実施形態では、XYZ座標を伴う、N個の点の入力点群を前提として、バックボーンネットワーク(例えば、本明細書に説明されるPointNet++層を用いて実装される)が、点上の深層特徴をサブサンプリングおよび学習し、M個の点であるが、C-dim特徴によって拡張される、サブセットを出力する。本点のサブセットは、シード点と見なされ得る。
シードは、投票モジュール(例えば、1208C)を通して、投票を独立して生成してもよい。これらの投票は、クラスタに群化され、提案および分類モジュール(例えば、1220C)によって処理され、最終提案を生成してもよい。分類(1222C)およびNMS(1224)された提案は、最終3D境界ボックス出力(1226C)となる。図12Cでは、N×3入力点群1202Cが、M×(3+C)個の(例えば、XYZ+特徴)シード点1206Cを生成する、点群特徴学習モジュール1204Cを備える、投票モジュール1250Cに提供される。投票モジュール1250Cの出力1210Cは、M×(3+C)の寸法を有し、さらに、それぞれ、共有され得る、対応する提案および分類モジュール(1220C)に提供される、出力(1214C、1216C、1218C等)を生成する、オブジェクト提案および分類モジュール1252C内のサンプリングおよび群化モジュール1212Cに提供されてもよい。提案および分類モジュール1220Cの出力1222Cはさらに、0.25のIoU閾値を伴う、3DNMSモジュール1224Cによって処理され、最終出力1226C(例えば、3D境界ボックス)を生成してもよい。
図12Dは、図12Cに図示される前述の例示的アーキテクチャを用いて処理または生成された、種々のタイプの前述のデータのいくつかのグラフィカル実施例を図示する。1202Dは、入力点群のグラフィカル実施例を図示する。1204Dは、個別のXYZ座標および特徴に対応する、いくつかのシード点のグラフィカル実施例を図示する。1206Dは、シード点に投じられた投票のグラフィカル実施例を図示する。1208Dは、投票クラスタのグラフィカル実施例を図示する。1210Dは、3D境界ボックスのグラフィカル例示的出力を図示する。
点群における投票の学習:
N個の点毎に3D座標を伴う、サイズN×3の入力点群から、いくつかの実施形態は、M個の投票を生成することを狙いとし、各投票は、3D座標および高次元特徴ベクトルの両方を有する。2つの主要なステップ、すなわち、バックボーンネットワークを通した点群特徴学習と、シード点からの学習されたHough投票とが存在する。
点群特徴学習:
正確な投票を生成するステップは、幾何学的推測およびコンテキストを要求する。手作業で作られる特徴に依拠する代わりに、いくつかの実施形態は、点特徴学習のために、最近提案された深層ネットワークを点群上で活用する。いくつかの他の実施形態は、任意の点群ネットワークに制限されないが、いくつかの実施形態は、その単純性と、法線推定から、意味論セグメント化、3Dオブジェクト位置特定に及ぶ、タスクに関する実証された成功とに起因して、PointNet++をバックボーンとして採用する。バックボーンネットワークは、スキップ接続とともに、いくつかの集合抽象化層および特徴伝搬(アップサンプリング)層を有し、これは、XYZおよび付加されたC次元特徴ベクトルを伴う、入力点のサブセットを出力する。結果は、寸法(3+C)のM個のシード点となる。各シード点は、1つの投票を生成する。
深層ネットワークを伴う、Hough投票:
投票(ローカル特徴点からのオフセット)が事前に算出されたコードブックをルックアップすることによって決定される、従来的Hough投票と比較して、いくつかの実施形態は、深層ネットワークベースの投票モジュールを用いて、投票を生成し、これは、より効率的(kNNルックアップを伴わない)であることと、かつパイプラインの残りとともに訓練されるため、より正確であることとの両方である。
シード点の集合
(式中、xi∈R3およびfi∈RCを伴って、si={xi;fi})を前提として、共有投票モジュールは、投票を各シードから独立して生成する。具体的には、投票モジュールは、全結合層、ReLU(正規化線形ユニット)、およびバッチ正規化を伴う、多層パーセプトロン(MLP)ネットワークを用いて実現される。MLPは、シードsiから生成された投票vi=[yi;gi]が、yi=xi+Δxiおよびgi=fi+Δfiを有するように、シード特徴fiを求め、ユークリッド空間オフセットΔxi∈R3および特徴オフセットΔfi∈RCを出力する。予測される3DオフセットΔxiは、回帰損失によって明示的に監視される。
(式中、xi∈R3およびfi∈RCを伴って、si={xi;fi})を前提として、共有投票モジュールは、投票を各シードから独立して生成する。具体的には、投票モジュールは、全結合層、ReLU(正規化線形ユニット)、およびバッチ正規化を伴う、多層パーセプトロン(MLP)ネットワークを用いて実現される。MLPは、シードsiから生成された投票vi=[yi;gi]が、yi=xi+Δxiおよびgi=fi+Δfiを有するように、シード特徴fiを求め、ユークリッド空間オフセットΔxi∈R3および特徴オフセットΔfi∈RCを出力する。予測される3DオフセットΔxiは、回帰損失によって明示的に監視される。
式中、1[si on object]は、シード点siがオブジェクト表面上にあるかどうかを示し、Mposは、オブジェクト表面上のシードの総数のカウントである。Δxi
*は、シード位置xiからそれが属するオブジェクトの境界ボックス中心までのグラウンドトゥルース変位である。
投票は、テンソル表現内のシードと同一であるが、もはやオブジェクト表面上に基づいていない。より根本的差異は、その位置であるが、同一オブジェクト上のシードから生成された投票は、ここで、シードより相互に近くなり、これは、オブジェクトの異なる部分からのキューを組み合わせることをより容易にする。次に、いくつかの実施形態は、本意味論を意識した局所性を利用し、オブジェクト提案のための投票特徴を集約するであろう。
投票からのオブジェクト提案および分類:
投票は、オブジェクトの異なる部分からのコンテキスト集約のための規準「衝合点」を作成する。これらの投票をクラスタ化後、いくつかの実施形態は、その特徴を集約し、オブジェクト提案を生成し、それらを分類する。
サンプリングおよび群化を通した投票クラスタ化。投票をクラスタ化するための多くの方法が存在するが、いくつかの実施形態は、空間近接度に従った均一サンプリングおよび群化の単純方略を選ぶ。具体的には、投票の集合
から、いくつかの実施形態は、3Dユークリッド空間内の{yi}に基づいて、最遠点サンプリングを使用して、K個の投票のサブセットをサンプリングし、k=1,...,Kを伴う、{vik}を求める。次いで、これらの実施形態は、vikの3D場所のそれぞれに対する近傍投票を見出すことによって、K個のクラスタCk={vi (k)|||vi-vil||<r}(k=1,...,K)を形成する。単純であるが、本クラスタ化技法は、エンドツーエンドパイプラインの中に統合することが容易であって、実践において良好に機能する。
から、いくつかの実施形態は、3Dユークリッド空間内の{yi}に基づいて、最遠点サンプリングを使用して、K個の投票のサブセットをサンプリングし、k=1,...,Kを伴う、{vik}を求める。次いで、これらの実施形態は、vikの3D場所のそれぞれに対する近傍投票を見出すことによって、K個のクラスタCk={vi (k)|||vi-vil||<r}(k=1,...,K)を形成する。単純であるが、本クラスタ化技法は、エンドツーエンドパイプラインの中に統合することが容易であって、実践において良好に機能する。
投票クラスタからの提案および分類:
投票クラスタは、本質的に、高dim点の集合であるため、いくつかの実施形態は、オブジェクト提案を生成するために、汎用点集合学習ネットワークを活用して、投票を集約してもよい。オブジェクト境界を識別するための従来的Hough投票の逆トレースステップと比較して、本プロシージャは、非形式的境界を部分的観察からさえ提案し、および配向、クラス等のような他のパラメータを予測することを可能にする。いくつかの例示的実装では、いくつかの実施形態は、クラスタ内の投票集約および提案のために、共有PointNetを使用する。i=1,...,nおよびそのクラスタ中心wiを伴う、投票クラスタC={wi}(式中、投票場所としてのzi∈R3および投票特徴としてのhi∈RCを伴って、wi=[zi;hi])を前提とする。ローカル投票幾何学形状の使用を可能にするために、いくつかの実施形態は、
によって、投票場所をローカル正規化座標系に変換する。次いで、本クラスタp(C)に関するオブジェクト提案が、集合入力をPointNet様モジュールを通して通過させることによって生成される。
によって、投票場所をローカル正規化座標系に変換する。次いで、本クラスタp(C)に関するオブジェクト提案が、集合入力をPointNet様モジュールを通して通過させることによって生成される。
上記の方程式15F-(2)において、各クラスタからの投票は、独立して、単一特徴ベクトルに最大プーリングされ(チャネル毎)異なる投票からの情報がさらに組み合わせられる、MLP2に、通過される前に、MLP1によって処理される。いくつかの実施形態は、オブジェクト性スコア、境界ボックスパラメータ(パラメータ化された中心、進行方向、およびスケール)、および意味論分類スコアとともに、提案pを多次元ベクトルとして表す。
損失関数:
提案および分類段階における損失関数は、オブジェクト性、境界ボックス推定、および意味論分類損失から成る。いくつかの実施形態は、グラウンドトゥルースオブジェクト中心の近く(0.3メートル以内)、または任意の中心から離れて(0.6メートルを上回って)のいずれかに位置する、投票に関するオブジェクト性スコアを監視する。いくつかの実施形態は、それらの投票から生成された提案を、それぞれ、正および負の提案と見なす。他の提案に関するオブジェクト性予測は、ペナルティを科されない。オブジェクト性は、バッチ内の無視されない提案の数によって正規化されたクロスエントロピ損失を介して監視される。正の提案に関して、いくつかの実施形態はさらに、最も近いグラウンドトゥルース境界ボックスに従って、境界ボックス推定およびクラス予測を監視する。具体的には、いくつかの実施形態は、ボックス損失を中心回帰、進行方向角度推定、およびボックスサイズ推定に対して分断する。意味論分類に関して、いくつかの実施形態は、標準的クロスエントロピ損失を使用する。検出損失における全ての回帰では、いくつかの実施形態は、Huber(平滑-L1)損失を使用する。さらなる詳細は、付属に提供される。
実装詳細:
入力およびデータ拡張。検出ネットワークへの入力は、ポップアップ深度画像(N=20k)または3D走査(メッシュ頂点、N=40k)のいずれかからサブサンプリングランダムにされる、N個の点の点群である。XYZ座標に加え、いくつかの実施形態はまた、点毎に、その床までの距離を示す、高さ特徴を含む。床高は、全ての点の高さの1%パーセンタイルとして推定される。訓練データを拡張させるために、いくつかの実施形態は、場面点からの点をオンザフライでランダムにサブサンプリングする。いくつかの実施形態はまた、点群を両水平方向にランダムにフリップし、場面点を直立軸の周囲で均一[-5°, 5°]だけランダムに回転させ、点を均一[0.9,1.1]だけランダムにスケール変換する。
ネットワークの訓練:
いくつかの実施形態は、ネットワーク全体を、エンドツーエンドで、最初から、Adamオプティマイザ、バッチサイズ8、および0.001の初期学習率を用いて、訓練する。学習率は、80基準時点後、10分の1減少され、次いで、120基準時点後、さらに10分の1減少される。モデルを収束に向かって1つのVolta Quadro GP100 GPU上で訓練することは、推定上、SUN RGB-Dに関して約10時間およびScanNetV2に関して4時間未満かかる。いくつかの実施形態では、VoteNetは、場面全体の点群を求め、提案を1回の順方向通過において生成することが可能である。提案は、0.25のIoU閾値を用いて、3DNMSモジュールによって後処理される。評価は、平均適合率の平均値を使用する際のものと同一プロトコルに従う。
いくつかの実施形態は、1508Fにおいて、少なくとも、特徴を1つまたはそれを上回るスケールにおいて算出し、入力点群のサブサンプリングされたバージョン(例えば、シード点の集合)を決定し、入力点群のサブサンプリングされたバージョンによって投じられる投票を決定することによって、部屋および/または壁回帰を実施し、特徴を抽出する。いくつかの実施形態では、1508Fにおける部屋および/または壁回帰は、PointNetベースおよび/またはPointNet++ベースのモジュールとともに実施されてもよく、これは、上記の図15Dを参照してより詳細に下記に説明される。投票クラスタ化は、1510Fにおいて実施されてもよく、部屋周囲は、1512Fにおいて推定されてもよい。
図15Gは、いくつかの実施形態における、場面の間取図を生成するための図15Fに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図15Gは、図15Fの1510Fにおいて投票クラスタ化を実施するステップについてのさらなる詳細を図示する。これらの実施形態では、投票または予測される投票の集合が、1502Gにおいて識別されてもよい。1つまたはそれを上回る部屋インスタンスおよび1つまたはそれを上回る壁インスタンスが、少なくとも、シード点に関するクラスタ標識を生成することによって、1504Gにおいて決定されてもよい。いくつかの実施形態は、1506Gにおいて、少なくとも、部屋投票(または予測される部屋投票)を1つまたはそれを上回る部屋投票の中に連結することによって、さらに、少なくとも、壁投票(または予測される壁投票)を1つまたはそれを上回る壁投票の中に連結することによって、クラスタ化入力を調製する。
クラスタ化が、1508Gにおいて、1つまたはそれを上回る部屋投票および/または1つまたはそれを上回る壁投票上に実施され、1つまたはそれを上回る部屋標識および/または1つまたはそれを上回る壁標識を割り当ててもよい。いくつかの実施形態では、密度ベースの空間クラスタ化(例えば、雑音を伴う用途のDBSCANまたは密度ベースの空間クラスタ化)が、1508Gにおいて、最大数のクラスタ(例えば、部屋または壁)に関する制限を伴わずに、単純に、投票の空間密度分布に基づいて、eps=εを用いて、部屋および壁投票上に別個に実施され、q’が{R,W}に属するように、クラスタ標識li
q’を各投票vi
q’に割り当ててもよく、式中、q’=Rは、標識が部屋に関するクラスタ割当であることを暗示し、q’=Wは、標識が壁に関するクラスタ割当であることを暗示する。
DBSCANモデルは、半径ε(恣意的距離測定値を伴う)以内の近傍の数に関する閾値MinPtsに基づく、単純最小密度レベル推定を使用する。本半径(クエリ点を含む)内のMinPts上回る近傍を伴うオブジェクトは、コア点と見なされる。DBSCANの直感力は、本最小密度を充足させ、より低い密度の面積によって分離される、それらの面積を見出すことである。効率性の理由から、DBSCANは、点間密度推定を実施しない。代わりに、コア点のε半径内の全ての近傍は、コア点と同一クラスタの一部と見なされる(直接密度到達可能と呼ばれる)。これらの近傍のいずれかが、再び、コア点である場合、その近傍は、推移的に含まれる(密度到達可能)。本集合内の非コア点は、境界線点と呼ばれ、同一集合内の全ての点は、密度接続される。任意のコア点から到達可能密度ではない、点は、雑音と見なされ、任意のクラスタに属しない。
さらに、DBSCANモジュールは、上記のモデルに従って、クラスタを算出する(複数のクラスタに属する境界線点が、それらのうちの1つのみに割り当てられることを除く)。本アルゴリズムでは、データベースは、まだ処理されていない、オブジェクトに関して、線形に走査される。非コア点は、雑音に割り当てられ、コア点が発見されると、その近傍は、反復的に拡張され、クラスタに追加される。クラスタに割り当てられている、オブジェクトは、次いで、後に線形走査によって遭遇されると、スキップされるであろう。本基本アルゴリズムは、コア点のみが拡張される、最小限の修正を伴って、関係の推移的閉鎖を算出するための標準的アプローチである。しかし、これは、データベースインデックスが使用される場合合理的に効率的アルゴリズムをもたらし得る。アルゴリズム1は、本DBSCANアルゴリズムに関する簡略化された擬似コードを与える。本擬似コードでは、関数RangeQueryに対する2つのコールが存在する。ライン3およびライン13は両方とも、点がまだ標識されていない場合のみ、実行され、その場合、点は、続いて、標識される。これは、以下の性質が認められることを容易にする。すなわち、(i)近傍クエリが、定義されていない標識された点に関してのみ実行される。(ii)近傍クエリが、ある点上で実行される場合、点は、続いて、クラスタ標識または雑音のいずれかで標識される。(iii)点が再標識される、唯一のときは、その標識が、ライン11において、雑音からクラスタ標識に変化するときである。したがって、いくつかの実施形態は、データベース内の点毎に、正確に1つの近傍クエリを実行する。ライン10においてシード集合反復が、適正に実装される場合、本ループは、データベース内の点毎に、最大で1回、実行され、いくつかの実施形態は、O(C+n×Q+Σiri)のランタイム複雑性を求め、式中、Qは、関数RangeQueryの複雑性であって、riは、i番目のクエリの結果サイズである。データが、まだインデックス化されたデータベース内に記憶されていない場合、いくつかの実施形態は、インデックス構築時間Cを考慮し、これは、O(C+n×Q+Σiri)の総ランタイム複雑性をもたらす。インデックスはまた、付加的記憶を必要とし得、したがって、いくつかの実施形態は、空間複雑性O(n+I)を有し、クラスタ標識およびインデックスを記憶する。
しかしながら、インデックスは、アルゴリズムの複数の工程を横断して共有され得、異なるアルゴリズムは、RangeQuery(クエリの中でもとりわけ)をサポートする、「汎用」インデックス(R*-ツリー等)である場合、同一インデックスから利益を享受することができる。RangeQueryを線形走査を用いて実装することは、2つの点の距離を算出するコストDを伴う、Q∈Θ(n・D)をもたらし、したがって、DBSCANランタイム複雑性は、Θ(n2・D)となる。次元dのユークリッド空間に関して、これは、Θ(n2・d)であるが、共有最近傍距離等の高価な距離関数を使用すると、複雑性はさらに、O(n3)になり得る。DBSCANは、決して、ユークリッド距離の使用またはRd内の点に制約されず、を有する、常時、地理的データ、ポリゴン、および他のデータタイプとも併用されるように意図されている。本「オリジナルDBSCAN」アルゴリズムは、理論的DBSCANクラスタモデルに基づいてクラスタ化を生産するための唯一のアルゴリズムではない。例えば、scikit-learn 0.16は、最初に、全ての近傍を実体化し(最悪二次メモリをもたらす)、次いで、「ベクトル化」方法において、クラスタ拡張をコア点上でのみ実施する、バリアントを含む。全体的ランタイム複雑性は、改良されないが、これは、Python/NumPyランタイム環境によって実行するためにより効率的である。本DBSCANアルゴリズムの結果は、決定的であるが、データセットが順列化される場合、変化し得る。最初に、クラスタ標識は、クラスタが発見された順序に応じて、自明に変化し得る。次に、DBSCAN理論的モデル内の境界線点は、1つを上回るクラスタから到達可能な密度となり得る。オリジナルDBSCANアルゴリズムは、一意のクラスタ割当が、多くの場合、ユーザの視点から望ましく、これが、最小量のメモリを要求するため、単に、境界線点を、それらが到達可能である、第1のクラスタに割り当てる。これは、殆ど着目されない稀な状況であるため、データセットの異なる順列を試みるために必要ない。HDBSCAN*の改良されたクラスタモデルでは、本変則は、境界線点がそれ以上存在しないため、除去されている。いくつかの実施形態では、オリジナルDBSCANアルゴリズムの複雑性についての議論に対する疑問は、近傍クエリRangeQueryのランタイム複雑性Qである。本クエリは、データマイニングアルゴリズムをデータベースの上で効率的に実装および最適化するための再使用可能(他のアルゴリズムもまた、RangeQueryを使用することができる)かつ強力なインターフェースを構成する。しかし、本クエリが、加速されない場合、ランタイムは、Θ(n2・D)であって、Dは、距離算出のコストである。
点のサンプル集合を調べるとき、いくつかの実施形態は、容易かつ明確に、点のクラスタと、それらのクラスタのいずれかにも属しない、雑音点とを検出し得る。これらの実施形態がクラスタを認識する、主要な理由は、各クラスタ内において、これらの実施形態が、クラスタの外側より著しく高い、典型的点の密度を有することである。さらに、雑音の面積内の密度は、クラスタのいずれか内の密度より低い。以下では、いくつかの実施形態は、あるk次元空間Sの点のデータベースD内の「クラスタ」および「雑音」の本直感的概念を形式化する。クラスタおよびアルゴリズムDBSCANの両方の概念は、ある高次元特徴空間に関する2Dまたは3Dユークリッド空間にも同様に適用されることに留意されたい。重要となる概念は、クラスタの点毎に、所与の半径の近傍が、少なくとも点の最小数を含有する必要があることであって、例えば、近傍内の密度は、ある閾値を超える必要がある。近傍の形状は、dist(p, q)によって示される、2つの点pおよびqに関する距離関数の選択肢によって決定される。例えば、Manhattan距離を2D空間内で使用するとき、近傍の形状は、矩形である。本明細書に説明されるDBSCANを用いる種々の実施形態は、適切な関数がある所与の用途に関して選定され得るように、任意の距離関数と機能することに留意されたい。適切な可視化の目的のために、全ての実施例は、ユークリッド距離を使用して、2D空間内にあるであろう。
定義1:(点のEps-近傍)NEps(p)によって示される、点pのEps-近傍は、NEps(p)={q∈D|dist(p,q)≦Eps}によって定義される。
本来のアプローチは、クラスタ内の点毎に、少なくとも、点の最小数(MinPts)がその点のEps-近傍内に存在することを要求し得る。しかしながら、本アプローチは、2つの種類の点、すなわち、クラスタの内側の点(コア点)と、クラスタの境界線上の点(境界線点)とがクラスタ内に存在するため、失敗する。一般に、境界線点のEps-近傍は、コア点のEps-近傍より有意に少ない点を含有する。したがって、いくつかの実施形態は、同一クラスタに属する全ての点を含むために、点の最小数を比較的に低値に設定する。しかしながら、本値は、特に、雑音の存在下では、個別のクラスタに関して特性的ではないであろう。したがって、いくつかの実施形態は、クラスタC内の点p毎に、pが、qのEps-近傍の内側にあり、NEps(q)が、少なくとも、MinPts点を含有するように、C内に点qが存在することを要求する。本定義は、以下に詳述される。
定義2:(直接密度到達可能)点pは、1)q∈NEps(q)であって、2)|NEps(q)|≧MinPts(core point conditin)である場合、Eps、MinPtsに対する点から直接密度到達可能である。
直接密度到達可能は、対のコア点に関して対称である。しかしながら、一般に、1つのコア点および1つの境界線点が関わる場合、対称ではない。
定義3:(密度到達可能)点pは、Pi+1がpiから直接密度到達可能であるように、一連の点p1,...,pn(p1=q、pn=p)が存在する場合、EpsおよびMinPtsに対する点qから密度到達可能である。
密度到達可能性は、直接密度到達可能性の規準拡張である。本関係は、推移的であるが、対称ではない。対称ではないが、一般に、密度到達可能性は、コア点に関して対称であることが明白である。同一クラスタCの2つの境界線点は、コア点条件がそれらの両方に関して当てはまらない場合があるため、可能性として、相互から密度到達可能ではない。しかしながら、そこからCの両方の境界線点が密度到達可能である、C内に、コア点が存在しなければならない。したがって、いくつかの実施形態は、密度接続性の概念を導入し、これは、境界線点の本関係を網羅する。
定義4:(密度接続)点「p」は、pおよびqの両方がEpsおよびMinPtsに対するoから密度到達可能であるように、点「o」が存在する場合、EpsおよびMinPtsに対する点「q」に密度集中される。
密度接続性は、対称関係である。密度到達可能点に関して、密度接続性の関係もまた、反映される。ここで、いくつかの実施形態は、クラスタの密度ベースの概念を定義することが可能である。直感的に、クラスタは、密度到達可能性に対する最大値である、密度接続点の集合であると定義される。雑音は、所与の集合のクラスタに対して定義されるであろう。雑音は、単に、そのクラスタのいずれにも属しない、D内の点の集合である。
定義5:(クラスタ)Dを点のデータベースとする。EpsおよびMinPtsに対するクラスタCは、以下の条件、すなわち、1)
p∈Cであり、そしてqが、EpsおよびMinPtsに対するpから密度到達可能である場合、q∈C(最大性)であって、2)
pが、EpsおよびMinPtsに対するqに密度接続される(接続性)ことを充足させる、Dの非空サブセットである。
p∈Cであり、そしてqが、EpsおよびMinPtsに対するpから密度到達可能である場合、q∈C(最大性)であって、2)
pが、EpsおよびMinPtsに対するqに密度接続される(接続性)ことを充足させる、Dの非空サブセットである。
定義6:(雑音)C1,...,CkをパラメータEpsiおよびMinPtsi(i=1、…, k)に対するデータベースDのクラスタとする。したがって、雑音は、任意のクラスタCiに属しない、データベースD内の点の集合、例えば、
として定義される。
として定義される。
EpsおよびMinPtsに対するクラスタCは、以下の理由のため、少なくともMinPts点を含有することに留意されたい。Cは、少なくとも1つの点pを含有するため、pは、ある点o(pに等しくあり得る)を介して、それ自体に密度接続されなければならない。したがって、少なくともoは、コア点条件を充足させる必要があり、その結果、oのEps-近傍は、少なくともMinPts点を含有する。以下の補題は、クラスタ化アルゴリズムの正確性を検証するために重要である。直感的に、それらは、以下を述べる。パラメータEpsおよびMinPtsを前提として、いくつかの実施形態は、2ステップアプローチにおいて、クラスタを発見し得る。第1に、コア点条件を充足させるデータベースからの恣意的点をシードとして選定する。第2に、シードから密度到達可能な全ての点を読み出し、シードを含有するクラスタを取得する。
補題1:pをD内の点とし、|NEps(p)|≧MinPtsとする。したがって、set 0={o|o∈Dであって、oは、EpsおよびMinPtsに対するpから密度到達可能である}は、EpsおよびMinPtsに対するクラスタである。EpsおよびMinPtsに対するクラスタCは、そのコア点のいずれかによって一意に決定されることは、明白ではない。しかしながら、C内の各点は、Cのコア点のいずれかから密度到達可能であって、したがって、クラスタCは、正確に、Cの恣意的コア点から密度到達可能な点を含有する。
補題2:CをEpsおよびMinPtsに対するクラスタとし、pを|NEps(p)|≧MinPtsを伴う、C内の任意の点とする。したがって、Cは、set 0={oIoは、EpsおよびMinPtsに対するpから密度到達可能である}に等しい。
雑音を伴う用途の密度ベースの空間クラスタ化:
いくつかの実施形態は、アルゴリズムDBSCAN(雑音を伴う用途の密度ベースの空間クラスタ化)を提示し、これは、定義5および6に従って、空間データベース内のクラスタおよび雑音を発見するように設計される。理想的には、いくつかの実施形態は、各クラスタの適切なパラメータEpsおよびMinPtsおよび個別のクラスタからの少なくとも1つの点を把握する必要があるであろう。次いで、これらの実施形態は、正しいパラメータを使用して、所与の点から密度到達可能な全ての点を読み出し得る。しかし、データベースの全てのクラスタに関して本情報を事前に得るための容易な方法が存在しない。しかしながら、データベース内の「最薄」、例えば、最低密度のクラスタのパラメータEpsおよびMinPtsを決定するための単純かつ効果的ヒューリスティック(第4.2節に提示される)が存在する。したがって、DBSCANは、EpsおよびMinPtsに関するグローバル値、例えば、全てのクラスタに関して同一値を使用する。「最薄」クラスタの密度パラメータは、最低密度を規定するこれらのグローバルパラメータ値に関する良好な候補であって、これは、雑音と見なされない。
クラスタを見出すために、DBSCANは、恣意的点pから開始し、EpsおよびMinPtsに対するpから密度到達可能な全ての点を読み出す。pが、コア点である場合、本プロシージャは、EpsおよびMinPtsに対するクラスタをもたらす(補題2参照)。pが、境界線点である場合、いずれの点も、pから密度到達可能ではなく、DBSCANは、データベースの次の点に移る。いくつかの実施形態は、EpsおよびMinPtsに関するグローバル値を使用するため、DBSCANは、異なる密度の2つのクラスタが相互に「近接」する場合、2つのクラスタを、定義5に従って、1つのクラスタにマージしてもよい。2つの点の集合S1とS2との間の距離をdist(S1,S2)=min{dist(p,q)|p∈S1,q∈S2}として定義する。したがって、少なくとも、最薄クラスタの密度を有する、2つの点の集合は、2つの集合間の距離がEpsより大きい場合のみ、相互から分離されるであろう。その結果、DBSCANの回帰的コールが、MinPtsに関するより高い値を伴う、検出されたクラスタのために必要であり得る。しかしながら、これは、DBSCANの回帰的適用が簡潔かつ非常に効率的基本アルゴリズムをもたらすため、不利ではない。さらに、クラスタの点の回帰的クラスタ化は、容易に検出され得る条件下でのみ必要である。以下では、いくつかの実施形態は、DBSCANの基本バージョンを提示し、データタイプの詳細およびクラスタについての付加的情報の生成を省略する。
SetOfPointsは、データベース全体または前の工程から発見されたクラスタのいずれかである。EpsおよびMinPtsは、手動で、または第4.2節に提示されるヒューリスティックに従ってのいずれかで決定されたグローバル密度パラメータである。関数SetOfPoints.get(i)は、SetOfPointsのi番目の要素を返す。DBSCANによって使用される最も重要な関数は、Exp and Clusterであって、これは、下記に提示される。
SetOfPoints.regionQuery(Point, Eps)のコールは、SetOfPoints内の点のEps-近傍を点のリストとして返す。regionQueryは、いくつかのタイプの空間クエリの効率的処理のためにSDBSにおいて利用可能であると仮定される、R*-ツリー等の空間アクセス方法によって効率的にサポートされることができる。R*-ツリーの高さは、最悪の場合における点のデータベースに関するO(logn)であって、「小」クエリ領域を伴うクエリは、R*-ツリー内の限定された数の経路のみをトラバースする必要がある。Eps-近傍は、データ空間全体のサイズと比較して、小さいことが予期されるため、単一regionQueryの平均ランタイム複雑性は、O(logn)である。データベースのn個の点毎に、いくつかの実施形態は、最大で1つのregionQueryを有する。したがって、DBSCANの平均ランタイム複雑性は、O(n*logn)である。雑音であるとマークされ得る、点のClId(Clusterld)は、それらがデータベースのある他の点から密度到達可能である場合、後に、変化されてもよい。これは、クラスタの境界線点に関して起こる。それらの点は、いくつかの実施形態が、NOISEのClldを伴う点がコア点ではないことをすでに把握しているため、シードリストに追加されない。それらの点をシードに追加することは、付加的regionQueryのみをもたらし、これは、新しい回答をもたらさないであろう。2つのクラスタC1およびC2が、相互に非常に近い場合、ある点pがC1およびC2の両方に属することが起こる場合がある。次いで、pは、いくつかの実施形態がグローバルパラメータを使用するため、そうでなければC1がC2に等しいであろうため、クラスタの両方内の境界線点とならなければならない。この場合、点pは、最初に発見されたクラスタに割り当てられるであろう。これらの稀な状況を除き、DBSCANの結果は、データベースの点が補題2に起因して移られる、順序から独立する。
パラメータEpsおよびMinPtsを決定するために、いくつかの実施形態は、ヒューリスティックを使用して、データベース内の「最薄」クラスタのパラメータEpsおよびMinPtsを決定する。本ヒューリスティックは、以下の観察に基づく。dを点pのそのk番目の最近傍までの距離とすると、したがって、pのd-近傍は、ほぼ全ての点pに関して、正確にk+I個の点を含有する。pのd-近傍は、いくつかの点が、pから正確に同一距離dを有する場合のみ、k+1個を上回る点を含有するが、これは、非常に可能性が低い。さらに、クラスタ内のある点に関するkを変化させることは、dの大変化をもたらさない。これは、p(k=1,2,3,...)のk番目の最近傍が、ほぼ直線上に位置する場合のみ起こり、これは、一般に、クラスタ内のある点に関しては、該当しない。所与のkに関して、いくつかの実施形態は、データベースDから実数までの関数k-distを定義し、各点をそのk番目の最近傍からの距離にマッピングする。データベース内の点をそのk-dist値の降順でソートするとき、本関数のグラフは、データベース内の密度分布に関するいくつかのヒントを与える。本グラフは、ソートされたk-dist graphと呼ばれ得る。恣意的点pが、選定される場合、いくつかの実施形態は、パラメータEpsをk-dist(p)に設定し、パラメータMinPtsをkに設定し、等しいまたはより小さいk-dist値を伴う、全ての点は、コア点となるであろう。最大限のk-dist値を伴う閾値点がDの「最薄」クラスタ内に存在する場合、所望のパラメータ値が、取得され得る。閾値点は、ソートされたk-dist graphの第1の「谷」内の第1の点である。より高いk-dist値を伴う、全ての点(閾値の左)は、雑音と見なされ、全ての他の点(閾値の右)は、あるクラスタに割り当てられる。
一般に、第1の「谷」を自動的に検出することは、困難であり得るが、ユーザが本谷をグラフィカル表現において認めることは、比較的に単純である。したがって、いくつかの実施形態は、閾値点を決定するための双方向アプローチに従う。DBSCANは、2つのパラメータ、すなわち、EpsおよびMinPtsを必要とする。しかしながら、実験は、k-dist graphs(k>4)が、4-dist graphと有意に異ならず、さらに、それらが、著しくより多くの算出を必要とすることを示す。したがって、これらの実施形態は、全てのデータベースに関して(2次元データに関して)、それを4に設定することによって、パラメータMinPtsを排除する。
いくつかの実施形態では、DBSCANによって導入されるモデルは、半径ε(恣意的距離測定値を伴う)以内の近傍の数に関する閾値MinPtsに基づく、単純最小密度レベル推定を使用する。本半径(クエリ点を含む)内のMinPts上回る近傍を伴うオブジェクトは、コア点と見なされる。DBSCANの直感力は、本最小密度を充足させ、より低い密度の面積によって分離される、それらの面積を見出すことである。効率性の理由から、DBSCANは、点間密度推定を実施しない。代わりに、コア点のε半径内の全ての近傍は、コア点と同一クラスタの一部と見なされる(直接密度到達可能と呼ばれる)。これらの近傍のいずれかが、再び、コア点である場合、その近傍は、推移的に含まれる(密度到達可能)。本集合内の非コア点は、境界線点と呼ばれ、同一集合内の全ての点は、密度接続される。任意のコア点から到達可能密度ではない、点は、雑音と見なされ、任意のクラスタに属しない。
DBSCANモジュールはさらに、上記のモデルに従って、クラスタを算出する(複数のクラスタに属する境界線点が、それらのうちの1つのみに割り当てられることを除く)。本アルゴリズムでは、データベースは、まだ処理されていない、オブジェクトに関して、線形に走査される。非コア点は、雑音に割り当てられ、コア点が発見されると、その近傍は、反復的に拡張され、クラスタに追加される。クラスタに割り当てられている、オブジェクトは、次いで、後に線形走査によって遭遇されると、スキップされるであろう。本基本アルゴリズムは、コア点のみが拡張される、最小限の修正を伴って、関係の推移的閉鎖を算出するための標準的アプローチである。しかし、これは、データベースインデックスが使用される場合合理的に効率的アルゴリズムをもたらし得る。アルゴリズム1は、本DBSCANアルゴリズムに関する簡略化された擬似コードを与える。本擬似コードでは、関数RangeQueryに対する2つのコールが存在する。ライン3およびライン13は両方とも、点がまだ標識されていない場合のみ、実行され、その場合、点は、続いて、標識される。これは、以下の性質が認められることを容易にする。すなわち、(i)近傍クエリが、定義されていない標識された点に関してのみ実行される。(ii)近傍クエリが、ある点上で実行される場合、点は、続いて、クラスタ標識または雑音のいずれかで標識される。(iii)点が再標識される、唯一のときは、その標識が、ライン11において、雑音からクラスタ標識に変化するときである。したがって、いくつかの実施形態は、データベース内の点毎に、正確に1つの近傍クエリを実行する。ライン10においてシード集合反復が、適正に実装される場合、本ループは、データベース内の点毎に、最大で1回、実行され、いくつかの実施形態は、O(C+n×Q+Σiri)のランタイム複雑性を求め、式中、Qは、関数RangeQueryの複雑性であって、riは、i番目のクエリの結果サイズである。データが、まだインデックス化されたデータベース内に記憶されていない場合、いくつかの実施形態は、インデックス構築時間Cを考慮し、これは、O(C+n×Q+Σiri)の総ランタイム複雑性をもたらす。インデックスはまた、付加的記憶を必要とし得、したがって、いくつかの実施形態は、空間複雑性O(n+I)を有し、クラスタ標識およびインデックスを記憶する。
しかしながら、インデックスは、アルゴリズムの複数の工程を横断して共有され得、異なるアルゴリズムは、RangeQuery(クエリの中でもとりわけ)をサポートする、「汎用」インデックス(R*-ツリー等)である場合、同一インデックスから利益を享受することができる。RangeQueryを線形走査を用いて実装することは、2つの点の距離を算出するコストDを伴う、Q∈Θ(n・D)をもたらし、したがって、DBSCANランタイム複雑性は、Θ(n2・D)となる。次元dのユークリッド空間に関して、これは、Θ(n2・d)であるが、共有最近傍距離等の高価な距離関数を使用すると、複雑性はさらに、O(n3)になり得る。DBSCANは、決して、ユークリッド距離の使用またはRd内の点に制約されず、を有する、常時、地理的データ、ポリゴン、および他のデータタイプとも併用されるように意図されている。
1508Gにおいて実施されるクラスタ化を用いることで、割当は、1510Gにおいて、少なくとも、1つまたはそれを上回る部屋標識および/または1つまたはそれを上回る壁標識を対応する部屋投票および/または壁投票から対応するシード点まで逆追跡することによって、生成されてもよい。壁点のリストは、1512Gにおいて、少なくとも、積集合演算を部屋点の集合および壁点の集合上で実施することによって、決定されてもよい。
図15Hは、いくつかの実施形態における、場面の間取図を生成するための図15Fに図示されるフロー図についてのさらなる詳細を図示する。より具体的には、図15Hは、図15Fの1512Fにおいて部屋周囲を推定するステップについてのさらなる詳細を図示する。これらの実施形態では、部屋に関する部屋点の集合およびの1つまたはそれを上回る集合壁点が、1502Hにおいて識別されてもよい。個々の部屋周囲が、1504Hにおいて、エクステンデッドリアリティ、場面理解等の技術分野における屋内環境のレイアウトの理解および空間の長距離幾何学形状の理解を取得することによって、決定されてもよい。いくつかの実施形態では、個々の部屋周囲は、1504Hにおいて、少なくとも、上記の図15Eを参照して上記に説明されるDeepPerimeterモジュールを使用することによって、決定されてもよい。
部屋に関する部屋点および壁点内の点は、1506Hにおいて、平面に投影されてもよい。例えば、これらの点は、X-Y平面等の水平平面に投影されてもよく、Z-方向は、重力方向を示す。2次元(2D)線分が、1508Hにおいて、場面分析または場面理解モジュールを使用することによって、壁点の1つまたはそれを上回る集合内の点に関して予測されてもよい。いくつかの実施形態では、2D線分は、1508Hにおいて、ランダムサンプルコンセンサス(RANSAC)モデルを使用することによって、壁点に関して予測されてもよい。
モデルを実験データに適合するために開発された、ランダムサンプルコンセンサス(RANSAC)モデルが、場面分析および自動化された地図作成で使用されてもよい。議論される用途である、場所決定問題(LOP)は、RANSACパラダイムの使用の単なる実施例を超えたレベルで取り扱われる。すなわち、その下でLDPが解法されるべき、条件に関する新しい基本発見が、提示され、いくつかの実施形態が、近々実践的用途を有するであろうことを予期する、本問題の解に対する包括的アプローチが、説明される。大方の場合、場面分析(実際には、科学全般)は、所定のモデルの集合の観点から感知されるデータの解釈に関する。概念上、解釈は、2つの明確に異なるアクティビティを伴う。すなわち、1つ目は、データと利用可能なモデルのうちの1つとの間の最良マッチングを見出す問題(分類問題)であって、2つ目は、選択されたモデルの自由パラメータに関する最良値を算出する問題(パラメータ推定問題)である。実践では、これらの2つの問題は、独立していない。すなわち、パラメータ推定問題に対する解は、多くの場合、分類問題を解法するために要求される。最小二乗法等のパラメータ推定に関する古典的技法は、提示されるデータの全てへの機能的記述(モデル)の適合を最適化する(規定された目的関数に従って)。これらの技法は、大誤差を検出および除斥するための内部機構を有しない。それらは、仮定されるモデルからの任意のデータの最大予期逸脱がデータセットのサイズの一次関数であるという仮定(平滑化仮定)に依拠する、平均化技法であって、したがって、データセットのサイズにかかわらず、常時、任意の大逸脱を平滑化するために十分な良好な値が存在するであろう。
多くの実践的パラメータ推定問題では、平滑化仮定は、当てはまらない。例えば、データは、補償されない大誤差を含有する。本状況に対処するために、いくつかのヒューリスティックが、提案されている。通常採用される、技法は、最初に、全てのデータを使用して、モデルパラメータを導出し、次いで、それが大誤差であると仮定して、インスタンス化されたモデルとの一致から最も遠い、データを位置特定し、それを削除し、最大逸脱が事前設定閾値未満となるか、またはもはや進めるための十分なデータが存在しなくなるかのいずれかまで、本プロセスを反復するステップの、ある変形例である。良好なデータの集合と混合される、単一大誤差(「毒された点」)は、上記のヒューリスティック(例えば、図13A参照)を失敗させ得ることが容易に示され得る。平均化を採用する、従来のアプローチは、照合されていないデータセットに適用するために適切な技法ではない場合がある。
いくつかの実施形態では、RANSACモデルは、大誤差の有意なパーセンテージを含む、データを平滑化する。本モデルはまた、頻繁に誤りを犯す、ローカル特徴検出器が、解釈アルゴリズムに提供されるデータのソースであるため、場面分析にも適用可能である。ローカル特徴検出器は、2つのタイプの誤り、すなわち、分類誤差および測定誤差を犯す。分類誤差は、特徴検出器が、画像の一部を特徴の発生として正しくなく識別するときに生じる。測定誤差は、特徴検出器が、特徴を正しく識別するが、若干、そのパラメータのうちの1つ(例えば、その画像場所)を誤算するときに生じる。測定誤差は、概して、正規分布に従い、したがって、平滑化仮定が、それらに適用可能である。しかしながら、分類誤差は、測定誤差より有意に大きい影響を及ぼす、大誤差であって、平均化されない。RANSACモデルが、場所決定問題「その場所がある座標フレーム内で既知である、「目印」(「制御点」)の集合を前提として、そこから目印の画像が取得された空間内の(目印の座標フレームに対する)その点の場所を決定する」に対処するために使用されてもよい。
RANSAC要件に応答して、いくつかの新しい結果が、解を取得するために必要とされる、最小数の目印上で導出され、次いで、アルゴリズムが、これらの最小目印解を閉形式において算出するために提示される。(従来の技法は、収束を保証するために、反復的であって、良好な初期推測を要求する。)これらの結果は、過酷な視認および分析条件下でLDPを解法し得る、自動システムのための基礎を形成する。特に、本システムは、有意な数の目印が、低可視性、地形変化、または画像分析誤差に起因して、正しくなく位置特定される場合でも、適切に性能を発揮する。実装詳細および実験結果が、LDP用途の説明を完了するために提示される。
RANSACモデル内のプロシージャは、従来の平滑化技法のものと対照的である。すなわち、可能な限り多くのデータを使用して、初期解を取得し、次いで、無効データ点を排除するように試みるのではなく、RANSACは、実行可能である限り小初期データセットを使用して、可能であるとき、一貫したデータを用いて、本セットを拡大させる。例えば、円形の弧を2次元点の集合に適合させるタスクを前提として、RANSACアプローチは、3つの点の集合を選択し(3つの点が、円形を決定するために要求されるため)、暗示される円形の中心および半径を算出し、その円形に十分に近似する点の数をカウントし、それとのその適合性を示唆するであろう(例えば、その逸脱は、測定誤差であるために十分に小さい)。十分な適合性がある点が存在する場合、RANSACは、最小二乗法等の平滑化技法を採用し、現時点で、相互に一貫した点の集合が識別されている、円形のパラメータに関する改良された推定値を算出するであろう。RANSACパラダイムは、以下のように、より形式的に述べられる。
その自由パラメータをインスタンス化するための最小n個のデータ点と、P内の点の数がn[#(P)2≧n]を上回るように、データ点Pの集合とを要求する、モデルを前提として、n個のデータ点のサブセットS1をPからランダムに選択し、モデルをインスタンス化する。インスタンス化されたモデルM1を使用して、M1のある誤差許容度内のP内の点のサブセットS1*を決定する。集合S1*は、SIの共有項集合と呼ばれる。
#(S1*)が、P内の大誤差の数の推定値の関数である、ある閾値tを上回る場合、Sl*を使用して、新しいモデルM1*を算出する(可能性として、最小二乗法を使用して)。#(S1*)が、t未満である場合、新しいサブセットS2をランダムに選択し、上記のプロセスを繰り返す。ある所定の数の試行後、tまたはそれを上回る要素を伴う共有項集合が、見出されない場合、見出される最大共有項集合を用いてモデルを解法するか、または失敗に終了するかのいずれかである。
RANSACモデルによる上記のアルゴリズムに対して、2つの明白な改良点が存在する。第1に、点を選択し、Sを形成するための問題関連論拠が存在する場合、ランダムなものの代わりに、決定的選択プロセスを使用する。第2に、いったん好適な共有項集合S*が、見出され、モデルM*が、インスタンス化されると、M*と一致するPからの任意の新しい点をS*に追加し、新しいモデルに基づいて、本より大きい集合を算出する。RANSACパラダイムは、3つの規定されていないパラメータ、すなわち、(I)点がモデルと適合性があるかどうかを決定するために使用される、誤差許容度と、(2)試行するためのサブセットの数と、(3)正しいモデルが見出されたことを暗示するために使用される、適合性がある点の数である、閾値tとを備える。以下の項において、これらのパラメータのための合理的値を算出するための方法が、議論される。
データ/モデル適合性を確立するための誤差許容度:モデルからのデータの逸脱は、データと関連付けられる誤差とモデルと関連付けられる誤差の関数である(部分的に、モデルをインスタンス化するために使用されるデータと関連付けられる、誤差の関数である)。モデルが、データ点の単純関数である場合、誤差許容度に関する合理的境界を分析的に確立することが実践的であり得る。しかしながら、本簡単なアプローチは、多くの場合、機能不能である。そのような場合に関して、概して、誤差許容度に関する境界を実験的に推定することが可能である。サンプル逸脱は、データを摂動させ、モデルを算出し、暗示される誤差を測定することによって生産されることができる。誤差許容度は、次いで、測定された平均誤差を超える1つまたは2つの標準偏差に設定され得る。仮定されるモデルからのデータの予期される逸脱は、概して、データの関数であって、したがって、誤差許容度は、データ毎に、異なるはずである。しかしながら、誤差許容度における変動は、通常、大誤差のサイズと比較して、比較的に小さい。したがって、全てのデータに関する単一誤差許容度が、多くの場合、十分である。
共有項集合を見出すための試行の最大数:Pの新しいサブセットを選択することを停止することの決定は、n個の良好なデータ点のサブセットを選択するために要求される、予期される試行の数kに基づくことができる。wを任意の選択されたデータ点がモデルの誤差許容度内にある確率とする。したがって、これらの実施形態は、以下を有する。
E(k)=b+2*(1-b)*b+3*(1-b)2*b...+i*(l-b)i-l*b+...
E(k)=b*[l+2*a+3*a2・・・+i*ai-l+...]
式中、E(k)は、kの予期される値、b=wn、およびa=(1-b)である。
等比級数の和に関する恒等式は、a/(1-a)=a+a2+a3・・・+ai+...である。
aに対する上記の恒等式を微分すると、これらの実施形態は、1/(1-a)2=l+2*a+3*a2・・・+i*ai-1+...を有する。
したがって、E(k)=l/b=W-nとなる。
いくつかの実施形態は、プロセスが終了する前に、1または2標準偏差だけ、E(k)回の試行回数を超え得る。kの標準偏差SD(k)は、以下によって与えられることに留意されたい。
SD(k)=sqrt[E(k2)-E(k)2
したがって、以下となる。
しかし、等比級数恒等式および2つの微分を使用すると、以下となる。
したがって、以下となる。
E(k2)=(2-b)/(b2)
および
SD(k)=[sqrt(1-wn)]*(1/wn)
E(k)=b+2*(1-b)*b+3*(1-b)2*b...+i*(l-b)i-l*b+...
E(k)=b*[l+2*a+3*a2・・・+i*ai-l+...]
式中、E(k)は、kの予期される値、b=wn、およびa=(1-b)である。
等比級数の和に関する恒等式は、a/(1-a)=a+a2+a3・・・+ai+...である。
aに対する上記の恒等式を微分すると、これらの実施形態は、1/(1-a)2=l+2*a+3*a2・・・+i*ai-1+...を有する。
したがって、E(k)=l/b=W-nとなる。
いくつかの実施形態は、プロセスが終了する前に、1または2標準偏差だけ、E(k)回の試行回数を超え得る。kの標準偏差SD(k)は、以下によって与えられることに留意されたい。
SD(k)=sqrt[E(k2)-E(k)2
したがって、以下となる。
しかし、等比級数恒等式および2つの微分を使用すると、以下となる。
したがって、以下となる。
E(k2)=(2-b)/(b2)
および
SD(k)=[sqrt(1-wn)]*(1/wn)
概して、SD(k)は、E(k)とほぼ等しいであろうことに留意されたい。したがって、例えば、(w=0.5)および(n=4)である場合、E(k)=16およびSD(k)=15.5である。これは、2または3回、kによって暗示されるランダム選択の予期される数(上記で表化されるように)を試行し、t個の要素を上回る共有項集合を取得することが所望され得ることを意味する。若干異なる視点から、いくつかの実施形態が、確率zを伴って、ランダム選択のうちの少なくとも1つが誤差のないn個のデータ点の集合であることを確実にすることになる場合、これらの実施形態は、少なくともk個の選択(選択あたりn個のデータ点)を行うことを予期しなければならず、(I-b)k=(l-z)であって、
k=[log(l-z)]/[log(l-b)]である。
例えば、(w=0.5)および(n=4)である場合、(b=1/16)である。少なくとも1つの誤差のない選択を行うことの90パーセント保証を取得するために、
k=log(O.l)/log(l5/16)=35.7である。
wn<<lである場合、k~log(l-z)E(k)であることに留意されたい。したがって、z=0.90およびwn<<1である場合、k~2.3E(k)であって、z=0.95およびwn<<1である場合、k~3.0E(k)である。
k=[log(l-z)]/[log(l-b)]である。
例えば、(w=0.5)および(n=4)である場合、(b=1/16)である。少なくとも1つの誤差のない選択を行うことの90パーセント保証を取得するために、
k=log(O.l)/log(l5/16)=35.7である。
wn<<lである場合、k~log(l-z)E(k)であることに留意されたい。したがって、z=0.90およびwn<<1である場合、k~2.3E(k)であって、z=0.95およびwn<<1である場合、k~3.0E(k)である。
容認可能共有項集合のサイズに関する下限:RANSACパラダイムの形式的命題における規定されていないパラメータである、閾値tが、Pのn個のサブセットが、アルゴリズムが終了することを可能にするための十分に大きい共有項集合を暗示することが見出されていることを決定するための基礎として使用される。したがって、tは、2つの目的、すなわち、正しいモデルが、データに関して見出されていることと、十分な数の相互に一貫した点が、(モデルパラメータに関する改良された推定値を算出する)最終平滑化プロシージャの必要性を充足させるために見出されていることとを充足させるために十分に大きいように選定されなければならない。最終共有項集合が正しくないモデルと適合性がある可能性を防ぐことを確実にするために、yが、任意の所与のデータ点が正しくないモデルの誤差許容度内にある確率であると仮定すると、いくつかの実施形態は、yt-nが非常に小さいことを所望するであろう。yを精密に決定する一般的方法は、存在しないが、それがw未満であると仮定することは、確実に合理的である(例えば、wは、所与のデータ点が正しいモデルの誤差許容度内にあることの先験的確率である)。y<0.5であると仮定すると、5に等しいt-nの値は、正しくないモデルとの適合性が生じないであろう、95パーセントより良好な確率を提供するであろう。最終平滑化プロシージャの必要性を充足させるために、採用されるべき特定のプロシージャが、規定されなければならない。最小二乗平滑化が、使用されるべきである場合、形式的方法が所望の精度を生産するために要求される点の数を決定するために呼び出され得る、多くの状況が存在する。
いくつかの実施形態は、RANSACを図13Aに説明される実施例に適用する。0.85に等しいw(任意の選択されたデータ点がモデルの誤差許容度内である確率)の値が、データと一致し、(データ/モデル適合性を確立するための)0.8ユニットの許容度が、問題命題の一部として供給された。RANSAC供給モデルは、最終共有項集合の外部平滑化を伴わずに承認されるであろう。したがって、いくつかの実施形態は、全7つデータ点を備える、共有項集合を取得し得る。これらの点のうちの1つは、大誤差であるため、いくつかの実施形態は、所望のサイズの共有項集合を見出さないであろうことが明白であって、したがって、これらの実施形態は、これらの実施形態が見出すことが可能である、最大集合で終了するであろう。前述で提示される理論は、いくつかの実施形態が、2つのデータ点を一度に求め、それらを通した線を算出し、本線からの残りの点の逸脱を測定する場合、これらの実施形態が、2または3回の試行以内に好適な共有項集合を見出すことを予期するはずであることを示す。しかしながら、限定されるデータの量のため、いくつかの実施形態は、全21個の組み合わせを試行し、最大共有項集合を見出し得る。いずれの場合も、いくつかの実施形態は、6つの有効データ点と、それらが暗示する、線とを含有する、共有項集合を容易に見出し得る。
場所決定問題(LDP):画像分析における基本問題は、所与の場面の2つの表現の要素間の対応を確立する。特に、地図作成において重要である、本問題の1つの変形例は、そこから画像または写真が画像内に現れる目印(制御点)の集合を認識することによって取得される、空間内の場所を決定することである(これは、外部カメラ配向の要素を決定する問題、またはカメラ較正問題、または画像/データベース対応問題と様々に呼ばれる)。これは、ヒトオペレータが、双方向に像点と対応する制御点の3次元座標との間の関連付けを確立することを伴って、最小二乗技法[11,8]を使用して、日常的に解法される。しかしながら、対応が、わずかに有能な特徴検出器の決定に基づかなければならない、完全に自動化されたシステムでは、最小二乗法は、多くの場合、生じ得る、大誤差に対処することが不可能である。第II節に詳細に議論される、本考慮点は、第IV節に提示される実施例において、LDPに関して例証される。本節では、LDPに対する新しい解が、RANSACパラダイムに基づいて提示され、これは、入力データ内の大誤差を許容するその能力において一意である。いくつかの実施形態は、最初に、その下でLDPに対する解が可能性として考えられる、条件を検査し、本質問に関する新しい結果を説明するであろう。これらの実施形態は、次いで、RANSACベースのアルゴリズムの完全説明を提示し、最後に、アルゴリズムの使用を通して取得される、実験結果を説明する。
LDPは、以下のように、形式的に定義されてもよい。すなわち、m個の制御点の集合を前提として、その3次元座標は、ある座標フレーム内で既知であって、その中でそれら制御点のあるサブセットが可視である、画像を前提として、そこから画像が取得された場所を決定する(制御点の座標系に対して)。いくつかの実施形態は、最初に、これらの実施形態がn個の像点と制御点との間の対応を把握すると仮定するであろう。すなわち、いくつかの他の実施形態は、その中でこれらの対応のうちのいくつかが無効である、状況を検討する。いくつかの実施形態はまた、像面内の主点(カメラの光学軸が像面を貫く場所)および結像システムの焦点距離(透視の中心から像面内の主点までの距離)の両方が既知であると仮定するであろう。したがって(図13B参照)、いくつかの実施形態は、透視の中心(CP)から任意の対の制御点に対する角度を容易に算出することができる。最後に、いくつかの実施形態は、カメラが、制御点を包囲する凸包の外側かつその上方に常駐すると仮定する。いくつかの実施形態が、CPから制御点のうちの3つまでの光線の長さを算出し得る場合、これらの実施形態は、直接、CPの場所(および所望に応じて、像面の配向)を解法することができる。したがって、LDPの、同等であるが、数学的により簡潔な命題は、n個の制御点の相対的空間の場所を前提として、および透視の中心(CP)と呼ばれる付加的点からの制御点の全ての対に対する角度を前提として、CPを継合する線分(「辺」)から制御点のそれぞれまでの長さを見出す。これは、「n点透視」問題(PnP)と称され得る。RANSACパラダイムを適用するために、いくつかの実施形態は、それに関してPnP問題を解法することが可能である、nの最小値を決定してもよい。
n点透視問題の解:PIP問題(n=I)は、いかなる制約情報も提供せず、したがって、無限の解が、可能性として考えられる。図13Cに図示される、P2P問題(n=2)もまた、無限の解につながる。すなわち、CPは、2つの制御点AおよびBを継合する弦(線)を中心とする空間内で回転される、直径Rab/sin(Oab)の円形上の任意の場所に常駐することができる。P3P問題(n=3)は、いくつかの実施形態が、対向する三面体角度の基本寸法および面角を前提として、四面体の3つの辺の長さを決定することを要求する(図13D参照)。本問題に対する解は、3つの方程式[A*]によって暗示される。
n個の独立多項式(nは、未知数である)は、その個別の度の積以下の解を有し得ることが知られている[2]。したがって、本系A*は、最大8つの解を有することができる。しかしながら、本系A*内の全ての項は、定数次数または二次のいずれかであるため、実数の正の解毎に、幾何学的に同型の負の解が存在する。したがって、A*に対して、最大で4つの正の解が存在し、図13E-(a)-13E-(c)では、いくつかの実施形態は、4つの解の上界が達成可能であることを実証する、実施例を実証している。
いくつかの実施形態は、本系A*に関する明示的代数解を導出する。これは、A*を、四面体の2つの辺の比率を表す、1つの未知数における四次(4乗)多項式まで還元し、次いで、本方程式を直接解法することによって遂行される(いくつかの実施形態はまた、解を所与の問題データから取得するための非常に単純な反復方法を提示し得る)。
場合n=4に関して、全4つの制御点が、共通平面にある(CPを含有せず、制御点のうちの2つ以下が任意の単一線上にあるように)とき、いくつかの実施形態は、常時、一意の解を生産するであろう、技法を提供する。驚くべきことに、全4つの制御点が、同一平面にないとき、一意の解は、常時、保証されることができない。例えば、図13F-(a)-13F-(c)は、少なくとも2つの解が、「一般的位置」における制御点を伴う、P4P問題に関して、可能性として考えられることを示す。4つの非平面制御点の場合のCPの場所を解法するために、いくつかの実施形態は、アルゴリズムを3つ一度に得られる制御点の2つの明確に異なるサブセット上で使用することができる。すなわち、両方のサブセットに共通の解は、所与の情報において固有の曖昧性内でCPを位置特定する。図13F-(a)-13F-(c)に示される実施例を構築するために使用されるアプローチは、任意の数の付加的点に拡張されることができる。
これは、図13Cに描写される原理に基づく。すなわち、CPおよび任意の数の制御点が、同一円形上にある場合、任意の対の制御点とCPとの間の角度は、CPの円形上の場所から独立するであろう(故に、CPの場所は、決定されることができない)。したがって、いくつかの実施形態は、その中で一般的位置における5つの制御点がP5P問題に対する2つの解を暗示する、図13Gに示される実施例を構築することが可能である。同一技法は、6つまたはそれを上回る制御点に関して機能するであろうが、これらの点のうちの4つまたはそれを上回るものは、ここでは、同一平面上になければならず、したがって、もはや一般的位置にはない。一般的位置における6つの(またはそれを上回る)制御点が、常時、P6P問題に対する一意の解を生産するであろうことを証明するために、本場合に関して、いくつかの実施形態は、常時、3-空間から2-空間へのマッピング規定する(同次座標内で)、3×4行列Tの12個の係数を解法することができることに留意されたい。すなわち、6つの対応はそれぞれ、3つの新しい方程式を提供し、1つの付加的未知数(同次座標スケール係数)を導入する。したがって、6つの制御点に関して、いくつかの実施形態は、18個の線形方程式を有し、18個の未知数を解法する(実際には、最大で、17個の未知数が独立することが示され得る)。変換行列Tを前提として、いくつかの実施形態は、所与の制御点のうちの3つとともに、共通平面にある、付加的(合成)制御点を構築し、像面内のその場所を算出し、一意の解が、取得され得る。
図13E-(a)における四面体を検討する。基本ABCは、等辺三角形であって、「辺」(例えば、LA、LB、およびLC)は全て、等しい。したがって、Lにおける3つの面角(例えば、<ALB、<ALC、および<BLC)は全て、等しい。余弦の法則によって、以下、すなわち、Cos(α)=5/8が、確立され得る。本四面体は、P3P問題に対する1つの解を定義する。第2の解が、図13E-(b)に示される。これは、第1の解から、LをBCを中心として回転させることによって取得される。これは、剛性三角形ABCおよび角度アルファを前提として、L’Aの長さが、1であり得ることを照合するために必要である。余弦の法則から、以下が、確立され得る
これは、以下に還元される。
(L’A-1)*(L’A-4)=0
これは、以下に還元される。
(L’A-1)*(L’A-4)=0
したがって、L’Aは、1または4のいずれかであることができる。図13E-(a)は、L’A=4の場合を図示し、図13E-(b)は、L’A=1の場合を図示する。その頂点が辺上の異なる場所に移動するように、基本三角形を再位置付けすることは、Lを再位置付けすることに匹敵することに留意されたい。図13E-(c)は、第2の解に対応する、基本三角形の位置を示す。図13E-(a)における四面体は、三回回転対称であるため、さらに2つの解が、三角形をABおよびACを中心として回転させることによって取得されることができる。
RANSAC/LDアルゴリズム:RANSAC/LDアルゴリズムは、入力として、以下のデータを受け取る。(I)m個の6-タプルのリストL-各6-タプルは、制御点の3-D空間座標と、その対応する2-D像面座標と、像面内の所与の場所の予期される誤差(ピクセル単位)を与える、随意の数とを含有する。(2)結像システムの焦点距離および主点の像面座標。(3)6-タプルが大不整合を構成する、確率(1-w)。(4)解に寄与する中間結果の承認に関する内部閾値を設定するために使用される、「信頼度」数G.1の信頼度数は、非常に保守的挙動をアルゴリズム上で強制し、ゼロの信頼度数は、ほぼあらゆるものを有効解と呼ぶであろう。
RANSAC(ランダムサンプルコンセンサス)/LD(場所決定)アルゴリズムは、出力として、以下の情報、すなわち、(I)レンズ中心の3-D空間座標(例えば、透視の中心)および対応する誤差の推定値と、(2)像面の空間配向とを生産する。
RANSAC/LDアルゴリズムは、以下のように動作する。(I)3つの6-タプルが、対応する制御点に関する合理的空間分布を確実にする、準ランダム方法によって、リストLから選択される。本初期選択は、SIと呼ばれる。(2)選択SIに対応する、CP(CPIと呼ばれる)が、閉形式の解を使用して決定される。複数の解は、それらが、以下のステップにおいて、別個の選択から取得されるかのように取り扱われる。(3)CPIの導出される場所における誤差は、3つの選択された制御点の所与の像面座標を摂動させ(6-タプル内に規定された量または1つのピクセルのデフォルト値のいずれかによって)、CPIの場所に及ぼされるであろう、影響を再算出することによって推定される。(4)CPIに関する誤差推定値を前提として、いくつかの実施形態は、[I]に説明される技法を使用して、リストL内に規定された制御点毎に、像面内の誤差楕円形(供給される信頼度数に基づく寸法)を決定し、関連付けられる画像座標が、対応する誤差楕円形内に常駐する場合、6-タプルは、共有項集合SI/CPIに付加される。(5)SI/CPIのサイズが、ある閾値t(公称上、7とmwとの間の値に等しい)に等しいまたはそれを超える場合、共有項集合SI/CPIは、CP場所および像面配向の最終決定のために、最小二乗ルーチンに供給される。そうでなければ、上記のステップは、新しいランダム選択S2、S3、...等を用いて繰り返される。(6)上記のステップの反復の数が、k=[log(I-G)]/[log(l-w3)]を超える場合、これまで見出された最大共有項集合が、最終解を算出するために使用される(または本最大共有項集合が6つより少ない要素、を備える場合、失敗に終了する)。
1508Hにおいて予測される2D線分を用いることで、1つまたはそれを上回る線分は、1510Hにおいて、少なくとも部分的に、1つまたはそれを上回る基準に基づいて、除去されてもよい。例えば、傾き間の差異≦θminを有する、線分のうちの少なくとも1つは、いくつかの実施形態において上記に説明されるように、1510Hにおいて、除去されてもよい。閉鎖された経路が、1512Hにおいて、少なくとも、例えば、解を上記に説明されるように、指数関数時間巡回セールスマンに提供する、修正2-optアルゴリズムを実行することによって、点またはノードに沿って、推定される部屋周囲に関して作成されてもよい。
図16A-Iは、1つまたはそれを上回る実施形態における、マイクロプロジェクタのアレイのいくつかの非限定的例示的構成と、マイクロプロジェクタのアレイと光学システムの結合を示す、概略を図示する。図16Gを参照すると、多数の入射ビームレット(11332)がそれぞれ、離散化された波面ディスプレイ構成において、眼1158に対して、小射出瞳(11330)を通して通過する。図16Hを参照すると、ビームレット(11332)の群のサブセット(11334)が、それらが同一のより大きいサイズの光線の一部であるかのように知覚される(太線サブ群(11334)は、「集約されたビーム」と見なされ得る)ように、マッチングする色および強度レベルを伴って、駆動されてもよい。この場合、ビームレットのサブセットは、相互に平行であって、光学無限遠からのコリメートされた集約ビーム(離れた山から生じる光等)を表す。眼は、無限遠に遠近調節され、したがって、ビームレットのサブセットは、眼の角膜および水晶体によって偏向され、全て、実質的に、網膜の同一場所上に当たり、単一の合焦しているピクセルを備えるように知覚される。
図16Iは、ビームレットの別のサブセットを示し、眼1158が上方から冠状式平面視で視認される場合、ユーザ眼58の視野の右側から生じる、集約されたコリメートされたビーム(11336)を表す。再び、眼は、無限遠に遠近調節されるように示され、したがって、ビームレットは、網膜の同一スポット上に当たり、ピクセルは、合焦しているように知覚される。対照的に、光線の発散扇として眼に到達した、ビームレットの異なるサブセットが、選定される場合、それらのビームレットは、眼が、遠近調節を、光線のその扇の原点の幾何学的点にマッチングする、近くの点に偏移されるまで、網膜の同一場所上に当たらない(かつ合焦しているように知覚されない)であろう。
ビームレットと眼の解剖学的瞳孔の交差のパターン(例えば、射出瞳のパターン)に関して、交差は、断面効率的六角格子模様または正方形格子模様または他の2次元アレイ等の構成に編成されてもよい。さらに、射出瞳の3次元アレイが、射出瞳の時変アレイと同様に作成され得る。
離散化された集約波面は、付加的中間視認光学系、連続空間光変調アレイ技法、または導波管技法を伴わずに、それらが眼に直接光を投影するように、視野基板(眼鏡レンズ等)に直接結合される、視認光学系、マイクロディスプレイ、またはマイクロプロジェクタアレイの射出瞳と光学的に共役されるように設置される、マイクロディスプレイまたはマイクロプロジェクタのアレイ等のいくつかの構成を使用して、作成されてもよい。
図16Aを参照すると、一実施形態では、立体視(例えば、3次元)または4または5次元ライトフィールドが、小プロジェクタまたはディスプレイユニット(走査式ファイバディスプレイ等)の群を束化することによって作成されてもよい。図16Aは、六角形格子模様投影束11338を描写し、これは、例えば、7mm径六角形アレイを作成し得、各ファイバディスプレイは、サブ画像(11340)を出力する。そのようなアレイが、アレイが眼の入射瞳と光学的に共役されて設置されるように、その正面に設置される、レンズ等の光学システムを有する場合、これは、図16Bに示されるように、アレイの画像を眼の瞳孔に作成し、これは、本質的に、図16Gの実施形態と同一光学配列を提供する。
本構成の小射出瞳はそれぞれ、走査式ファイバディスプレイ等の束11338内の専用小ディスプレイによって作成される。光学的に、これは、六角形アレイ11338全体が、いくつかの実施形態では、解剖学的瞳孔1145に真っ直ぐ位置付けられるかのようになる。そのような実施形態は、異なるサブ画像を、多数の入射角および眼瞳孔との交差を伴う、ビームレットの上位集合を備える、眼のより大きい解剖学的入射瞳1145内の異なる小射出瞳に駆動するために使用されてもよい。別個のプロジェクタまたはディスプレイはそれぞれ、異なる光強度および色で駆動されるように光線の異なる集合を引き出す、サブ画像が、作成され得るように、若干異なる画像を用いて駆動されてもよい。
一実施形態では、厳密な画像共役が、図16Bの実施形態におけるように作成されてもよく、その場合、アレイ11338と瞳孔1145の直接1対1マッピングが存在する。別の変形例では、間隔は、アレイと眼瞳孔の共役マッピングを受信する代わりに、眼瞳孔が、光線をある他の距離におけるアレイから捕捉し得るように、アレイ内のディスプレイと光学システム(図16Bにおけるレンズ11342)との間で変化されてもよい。そのような構成を用いることで、依然として、それを通して離散化された集約波面表現を作成し得る、ビームの角度多様性を得るであろうが、どの光線を、どの電力および強度で駆動すべきかの方法に関する数学は、より複雑となり得る(但し、他方では、そのような構成は、と視認光学系の観点からより単純であると見なされ得る)。ライトフィールド画像捕捉に関わる数学が、これらの計算のために活用されてもよい。
図16Cを参照すると、別のライトフィールド作成実施形態が、描写され、マイクロディスプレイまたはマイクロプロジェクタ11346のアレイが、眼鏡フレーム等のフレーム(11344)に結合され得る。本構成は、眼1158の正面に位置付けられてもよい。描写される構成は、非共役配列であって、アレイ11346のディスプレイ(例えば、走査式ファイバディスプレイ)と眼1158との間に介在される、大規模光学要素が存在しない。一対の眼鏡が想像され得、それらの眼鏡に、走査式ファイバエンジン等の複数のディスプレイが結合され、それらがユーザの瞳孔に向いているように、眼鏡表面に直交して位置付けられ、全て内向きに角度付けられる。各ディスプレイは、ビームレット上位集合の異なる要素を表す、光線の集合を作成するように構成され得る。
そのような構成を用いることで、解剖学的瞳孔1145において、ユーザは、図16Gを参照して議論される実施形態においた受光されたものと類似結果を受光し得、その中では、ユーザの瞳孔における全ての点は、異なるディスプレイから寄与されている、多数の入射角および交差を伴う、光線を受光する。図16Dは、図16Cのものに類似する、非共役構成を図示するが、図16Dの実施形態は、反射表面(11348)を特徴とし、ディスプレイアレイ11346を眼58の視野から離れるように移動させることを促進する一方、また、反射性表面(11348)を通した実世界11144のビューも可能にする。
離散化された集約波面ディスプレイのための角度多様性を作成するための別の構成も、提示される。そのような構成を最適化するために、ディスプレイのサイズは、最大値まで減少され得る。ディスプレイとして利用され得る、走査式ファイバディスプレイは、1mmの範囲内のベースライン直径を有し得るが、エンクロージャおよび投影レンズハードウェアにおける低減は、そのようなディスプレイの直径を約0.5mmまたはそれ未満まで減少させ得、これは、ユーザを殆ど煩わせない。別のサイズ縮小幾何学的精緻化は、直接、コリメートレンズ(例えば、勾配屈折率、すなわち、「GRIN」レンズ、従来の湾曲レンズ、または回折レンズを備えてもよい)を、ファイバ走査ディスプレイアレイの場合、走査式ファイバ自体の先端に結合することによって達成されてもよい。例えば、図16Eを参照すると、GRIN(勾配屈折率)レンズ(11354)が、単一モード光ファイバの端部に融合されて示される。圧電アクチュエータ等のアクチュエータ11350が、ファイバ11352に結合されてもよく、ファイバ先端走査のために使用されてもよい。
別の実施形態では、ファイバの端部は、光ファイバの湾曲研磨処理を使用して、半球形状に成形され、レンズ効果を作成してもよい。別の実施形態では、標準的屈折レンズが、接着剤を使用して、各光ファイバの端部に結合されてもよい。別の実施形態では、レンズが、エポキシ等のわずかな透過性ポリマー材料またはガラスから構築されてもよい。別の実施形態では、光ファイバの端部は、溶融され、レンズ効果のための湾曲表面を作成してもよい。
図16Fは、ディスプレイ構成(例えば、図16Eの拡大図に示される、GRINレンズを伴う、走査式ファイバディスプレイ)が、好ましくは、ファイバ自体が、描写されるアセンブリを横断した外界の視認のために実質的に可視ではないように、光ファイバ11352のクラッディングに近似的にマッチングする、屈折率を有する、単一透明基板11356を通してともに結合され得る、実施形態を示す。クラッディングの屈折率整合が、精密に行われる場合、より大きいクラッディング/筐体は、透明になり、好ましくは、約3ミクロンの直径である、小コアのみが、ビューを遮るであろうことを理解されたい。一実施形態では、ディスプレイの行列11358は全て、それらがユーザの解剖学的瞳孔に向かって指向されるように内向きに角度付けられてもよい(別の実施形態では、それらは、相互に平行に留まり得るが、そのような構成は、あまり効率的ではない)。
これらおよび他の変更は、上記の詳細な説明に鑑みて、その実施形態に対して行われ得る。一般に、以下の特許請求の範囲において、使用される用語は、その特許請求の範囲を、本明細書および特許請求の範囲に開示される具体的実施形態に限定するとは解釈されるべきではなく、このような特許請求の範囲に権利が付与される均等物の全範囲とともに、全ての可能な実施形態を含むと解釈されるべきである。
本開示の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本開示のより広義に適用可能な側面を例証するために提供される。種々の変更が、説明される本開示に行われてもよく、本開示の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本開示の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本開示の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本開示と関連付けられる請求項に記載の範囲内であることが意図される。
本開示は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を含んでもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それをアクティブ化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序およびイベントの列挙された順序で行われてもよい。
本開示の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本開示の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことは、一般または論理的に採用されるような付加的作用の観点から、本開示の方法ベースの側面に関しても当てはまり得る。
加えて、本開示は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されたが、本開示は、開示の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本開示に行われてもよく、均等物(本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず)は、本開示の真の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本開示内に包含されるものと理解されたい。
また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の1つまたはそれを上回るものと組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「a」、「an」、「said」、および「the」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明および本開示と関連付けられる請求項における本主題のアイテムのうちの「少なくとも1つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。
そのような排他的専門用語を使用しなければ、本開示と関連付けられる請求項における用語「~を備える(comprising)」は、所与の数の要素がそのような請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に画定される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。
本開示の範疇は、提供される実施例および/または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の言語の範囲によってのみ限定されるべきである。
図示される実施形態の上記の説明は、包括的である、または実施形態を開示される精密な形態に限定することを意図するものではない。具体的実施形態および実施例は、例証目的のために、本明細書に説明されるが、種々の同等修正が、当業者によって認識されるであろうように、本開示の精神および範囲から逸脱することなく、行われてもよい。種々の実施形態の本明細書に提供される教示は、必ずしも、上記に概して説明される例示的光学システムまたはXRデバイスではなく、VR、AR、MR、XR、またはハイブリッドシステムを実装し、および/またはユーザインターフェースを採用する、他のデバイスに適用されてもよい。
例えば、前述の詳細な説明は、ブロック図、概略図、および実施例の使用を介して、デバイスおよび/またはプロセスの種々の実施形態を記載している。ブロック図、概略図、および実施例が、1つまたはそれを上回る機能および/または動作を含有する限りにおいて、当業者によって、そのようなブロック図、フローチャート、または実施例内の各機能および/または動作は、個々におよび/または集合的に、広範囲のハードウェア、ソフトウェア、ファームウェア、またはそれらの仮想的任意の組み合わせによって実装されてもよいことが理解されるであろう。
一実施形態では、本主題は、特定用途向け集積回路(ASIC)を介して実装されてもよい。しかしながら、当業者は、本明細書に開示される実施形態が、全体または部分的に、同等に、標準的集積回路内に、1つまたはそれを上回るコンピュータによって実行される1つまたはそれを上回るコンピュータプログラムとして、(例えば、1つまたはそれを上回るコンピュータシステム上で起動する1つまたはそれを上回るプログラムとして)、1つまたはそれを上回るコントローラ(例えば、マイクロコントローラ)によって上で実行される1つまたはそれを上回るプログラムとして、1つまたはそれを上回るプロセッサ(例えば、マイクロプロセッサ)によって実行される1つまたはそれを上回るプログラムとして、ファームウェアとして、またはそれらの仮想的任意の組み合わせとして実装されてもよく、回路網を設計し、および/またはソフトウェアおよび/またはファームウェアのためのコードを書き込むことが、本開示の教示に照らして、優に当業者の技能内にあるであろうことを認識するであろう。
論理が、ソフトウェアとして実装され、メモリ内に記憶されるとき、論理または情報は、任意のプロセッサ関連システムまたは方法による、またはそれに関連した使用のために、任意のコンピュータ可読媒体上に記憶されてもよい。本開示の文脈では、メモリは、コンピュータおよび/またはプロセッサプログラムを含有または記憶する、電子、磁気、光学、または他の物理的デバイスまたは手段手段である、コンピュータ可読媒体である。論理および/または情報は、命令を命令実行システム、装置、またはデバイスからフェッチし、論理および/または情報と関連付けられる命令を実行し得る、コンピュータベースのシステム、プロセッサ含有システム、または他のシステム等、命令実行システム、装置、またはデバイスによる、またはそれに関連した使用のために、任意のコンピュータ可読媒体内に具現化されてもよい。
本明細書の文脈において、「コンピュータ可読媒体」は、命令実行システム、装置、および/またはデバイスによる、またはそれに関連した使用のために、論理および/または情報と関連付けられるプログラムを記憶し得る、任意の要素であってもよい。コンピュータ可読媒体は、例えば、限定ではないが、電子、磁気、光学、電磁、赤外線、または半導体システム、装置、またはデバイスであってもよい。コンピュータ可読媒体のより具体的実施例(非包括的リスト)は、以下、すなわち、ポータブルコンピュータディスケット(磁気、コンパクトフラッシュ(登録商標)カード、セキュアデジタル、または同等物)、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROM、EEPROM、またはフラッシュメモリ)、ポータブルコンパクトディスク読取専用メモリ(CD ROM)、デジタルテープ、および他の非一過性媒体を含むであろう。
本明細書に説明される方法の多くは、変動を伴って実施されてもよい。例えば、本方法の多くは、付加的行為を含む、いくつかの行為を省略する、および/または行為を図示または説明されるものと異なる順序において実施してもよい。
上記に説明される種々の実施形態は、組み合わせられ、さらなる実施形態を提供してもよい。それらが本明細書の具体的教示および画定と矛盾しない限り、本明細書で参照され、および/またはアプリケーションデータシートに列挙される、米国特許、米国特許出願公開、米国特許出願、外国特許、外国特許出願、および非特許刊行物は全て、参照することによって全体として本明細書に組み込まれる。実施形態の側面は、必要な場合、なおもさらなる実施形態を提供するために、種々の特許、出願、および刊行物のシステム、回路、および概念を採用するように修正されてもよい。
これらおよび他の変更は、上記の詳細な説明に鑑みて、その実施形態に対して行われ得る。一般に、以下の特許請求の範囲において、使用される用語は、その特許請求の範囲を、本明細書および特許請求の範囲に開示される具体的実施形態に限定するとは解釈されるべきではなく、このような特許請求の範囲に権利が付与される均等物の全範囲とともに、全ての可能な実施形態を含むと解釈されるべきである。故に、特許請求の範囲は、本開示によって限定されない。
さらに、上記に説明される種々の実施形態は、組み合わせられ、さらなる実施形態を提供してもよい。実施形態の側面は、必要な場合、なおもさらなる実施形態を提供するために、種々の特許、出願、および刊行物のシステム、回路、および概念を採用するように修正されてもよい。
これらおよび他の変更は、上記の詳細な説明に鑑みて、その実施形態に対して行われ得る。一般に、以下の特許請求の範囲において、使用される用語は、その特許請求の範囲を、本明細書および特許請求の範囲に開示される具体的実施形態に限定するとは解釈されるべきではなく、このような特許請求の範囲に権利が付与される均等物の全範囲とともに、全ての可能な実施形態を含むと解釈されるべきである。故に、特許請求の範囲は、本開示によって限定されない。
Claims (20)
- 屋内場面の間取図を生成するための方法であって、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、方法。 - 前記部屋の部屋分類および前記壁の壁分類を決定することは、
前記入力画像を識別することであって、前記入力画像は、前記屋内場面の3次元走査からの1つの画像または画像のシーケンスを備える、ことと、
前記入力画像に関する入力点群を決定することと
を含む、請求項1に記載の方法。 - 前記部屋の部屋分類および前記壁の壁分類を決定することはさらに、
前記入力点群のサブセットを識別することと、
深層ネットワークを少なくとも合成データセットを用いて訓練することと
を含む、請求項2に記載の方法。 - 前記部屋の部屋分類および前記壁の壁分類を決定することはさらに、
深層ネットワークにおいて、前記サブセット内に表される1つまたはそれを上回る頂点に関する1つまたはそれを上回る部屋クラスタ標識と、前記壁に関する壁クラスタ標識とを生成すること
を含む、請求項3に記載の方法。 - 前記1つまたはそれを上回る部屋クラスタ標識および前記壁クラスタ標識を生成することは、
少なくとも部分的に、前記屋内場面に関する距離メトリックに基づいて、ネスト化されたパーティション化を点の集合上で実施し、前記点の集合を複数の重複ローカル領域に分割することと、
少なくとも、意味論特徴抽出を前記点の集合の前記ネスト化されたパーティション化上で再帰的に実施することによって、前記屋内場面内の幾何学的構造を捕捉するローカル特徴を抽出することと
を含む、請求項4に記載の方法。 - 前記1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成することは、
前記ローカル特徴をより高レベルの特徴または表現に抽象化することと、
複数の異なるスケールまたは分解能における複数のローカル特徴に適応的に加重することと
を含む、請求項5に記載の方法。 - 前記1つまたはそれを上回る部屋クラスタ標識および壁クラスタ標識を生成することは、
前記複数の異なるスケールまたは分解能における前記複数のローカル特徴を組み合わせることと、
少なくとも部分的に、前記距離メトリックに基づいて、前記1つまたはそれを上回る部屋クラスタ標識および前記壁クラスタ標識を前記屋内場面に関するメトリック空間に割り当てることと
を含む、請求項6に記載の方法。 - 屋内場面の間取図を生成するためのシステムであって、
プロセッサと、
前記プロセッサに動作可能に結合されたメモリであって、前記メモリは、命令のシーケンスを記憶しており、前記命令のシーケンスは、前記プロセッサによって実行されると、前記プロセッサに、行為のセットを実施させ、前記行為のセットは、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、メモリと
を備える、システム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記間取図を決定することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記部屋分類および前記壁分類を使用して、前記部屋に関する形状を生成することであって、前記部屋分類は、前記部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、前記壁分類は、前記部屋の1つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる1つまたはそれを上回る壁クラスタ標識を備え、前記1つまたはそれを上回る壁は、前記壁を構成する、ことと、
少なくとも部分的に、前記形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、前記間取図を生成することであって、前記形状は、DeepPerimeterタイプのポリゴンを備える、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項8に記載のシステム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
深層推定を前記屋内場面の入力画像のRGB(赤緑青)フレーム上で実施することと、
少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成することであって、前記セグメント化モジュールは、少なくとも部分的に、PSPNet(ピラミッド場面解析ネットワーク)およびResNet(残差ネットワーク)に基づく、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項9に記載のシステム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、マーチングキューブアルゴリズムを使用して、1つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出することと、
少なくとも、深層セグメント化ネットワークを訓練することによって、前記壁点群に対応する深度予測を単離することと、
前記深度予測を3次元(3D)点群に投影することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項10に記載のシステム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記深層セグメント化ネットワークにおいて、同一平面インスタンスに属する1つまたはそれを上回る点を検出することによって、前記3D点群を複数のクラスタにクラスタ化することと、
前記複数のクラスタを、前記間取図に関する周囲レイアウトを形成する平面の集合の中に平行移動させることと
をさらに含む前記行為のセットを実施させる命令を備える、請求項11に記載のシステム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
部屋インスタンスおよび壁インスタンスを前記屋内環境の走査から識別することと、
前記部屋インスタンスに関する閉鎖された周囲を推定することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項9に記載のシステム。 - 前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、投票アーキテクチャを使用することによって、クラスタの数を予測することと、
少なくとも、1つまたはそれを上回るスケールにおける複数の特徴を算出する部屋または壁回帰を実施することによって、前記複数の特徴を抽出することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項13に記載のシステム。 - 屋内場面の間取図を生成するためのウェアラブルエクステンデッドリアリティデバイスであって、
デジタルコンテンツをユーザの眼に提示するためのマイクロディスプレイまたはマイクロプロジェクタのアレイを有する光学システムと、
前記光学システムに結合されるプロセッサと、
前記プロセッサに動作可能に結合されたメモリであって、前記メモリは、命令のシーケンスを記憶しており、前記命令のシーケンスは、前記プロセッサによって実行されると、前記プロセッサに、行為のセットを実施させ、前記行為のセットは、
部屋の部屋分類および前記部屋に関する壁の壁分類を屋内場面の入力画像から決定することと、
少なくとも部分的に、前記部屋分類および前記壁分類に基づいて、前記屋内場面内の部屋の総数または前記部屋のサイズを制約せずに、間取図を決定することと
を含む、メモリと
を備える、ウェアラブルエクステンデッドリアリティデバイス。 - 前記プロセッサによって実行されると、前記プロセッサに、前記間取図を決定することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記部屋分類および前記壁分類を使用して、前記部屋に関する形状を生成することであって、前記部屋分類は、前記部屋に割り当てられるかまたはそれと関連付けられる部屋クラスタ標識を備え、前記壁分類は、前記部屋の1つまたはそれを上回る壁に割り当てられるかまたはそれと関連付けられる1つまたはそれを上回る壁クラスタ標識を備え、前記1つまたはそれを上回る壁は、前記壁を構成する、ことと、
少なくとも部分的に、前記形状に基づいて、少なくとも、グローバル座標系に対して推定される部屋周囲を集約または統合することによって、前記間取図を生成することであって、前記形状は、DeepPerimeterタイプのポリゴンを備える、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項15に記載のウェアラブルエクステンデッドリアリティデバイス。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
深層推定を前記屋内場面の入力画像のRGB(赤緑青)フレーム上で実施することと、
少なくとも、マルチビュー深度推定ネットワークおよびセグメント化モジュールを使用することによって、深度マップおよび壁セグメント化マスクを生成することであって、前記セグメント化モジュールは、少なくとも部分的に、PSPNet(ピラミッド場面解析ネットワーク)およびResNet(残差ネットワーク)に基づく、ことと
をさらに含む前記行為のセットを実施させる命令を備える、請求項16に記載のウェアラブルエクステンデッドリアリティデバイス。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、マーチングキューブアルゴリズムを使用して、1つまたはそれを上回るマスク深度画像と姿勢軌道を融合させることによって、壁点群を抽出することと、
少なくとも、深層セグメント化ネットワークを訓練することによって、前記壁点群に対応する深度予測を単離することと、
前記深度予測を3次元(3D)点群に投影することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項17に記載のウェアラブルエクステンデッドリアリティデバイス。 - 前記プロセッサによって実行されると、前記プロセッサに、前記形状を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
少なくとも、前記深層セグメント化ネットワークにおいて、同一平面インスタンスに属する1つまたはそれを上回る点を検出することによって、前記3D点群を複数のクラスタにクラスタ化することと、
前記複数のクラスタを、前記間取図に関する周囲レイアウトを形成する平面の集合の中に平行移動させることと
をさらに含む前記行為のセットを実施させる命令を備える、請求項18に記載のウェアラブルエクステンデッドリアリティデバイス。 - 前記プロセッサによって実行されると、前記プロセッサに、前記間取図を生成することを実施させる前記命令のシーケンスを備える前記メモリはさらに、前記プロセッサによって実行されると、前記プロセッサに、
部屋インスタンスおよび壁インスタンスを前記屋内環境の走査から識別することと、
前記部屋インスタンスに関する閉鎖された周囲を推定することと
をさらに含む前記行為のセットを実施させる命令を備える、請求項16に記載のウェアラブルエクステンデッドリアリティデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062985263P | 2020-03-04 | 2020-03-04 | |
US62/985,263 | 2020-03-04 | ||
PCT/US2021/020668 WO2021178537A1 (en) | 2020-03-04 | 2021-03-03 | Systems and methods for efficient floorplan generation from 3d scans of indoor scenes |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023516674A true JP2023516674A (ja) | 2023-04-20 |
JPWO2021178537A5 JPWO2021178537A5 (ja) | 2024-03-11 |
Family
ID=77556504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022552796A Pending JP2023516674A (ja) | 2020-03-04 | 2021-03-03 | 屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11928873B2 (ja) |
EP (1) | EP4115392A4 (ja) |
JP (1) | JP2023516674A (ja) |
CN (1) | CN115516516A (ja) |
WO (1) | WO2021178537A1 (ja) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019205069A1 (en) * | 2018-04-27 | 2019-10-31 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for updating 3d model of building |
US11756129B1 (en) | 2020-02-28 | 2023-09-12 | State Farm Mutual Automobile Insurance Company | Systems and methods for light detection and ranging (LIDAR) based generation of an inventory list of personal belongings |
EP3872770A1 (en) * | 2020-02-28 | 2021-09-01 | Inter Ikea Systems B.V. | A computer implemented method, a device and a computer program product for augmenting a first image with image data from a second image |
US11501478B2 (en) * | 2020-08-17 | 2022-11-15 | Faro Technologies, Inc. | System and method of automatic room segmentation for two-dimensional laser floorplans |
US11699001B2 (en) * | 2020-10-13 | 2023-07-11 | Flyreel, Inc. | Generating measurements of physical structures and environments through automated analysis of sensor data |
US11657572B2 (en) * | 2020-10-21 | 2023-05-23 | Argo AI, LLC | Systems and methods for map generation based on ray-casting and semantic class images |
US20220130013A1 (en) * | 2020-10-26 | 2022-04-28 | Nvidia Corporation | Training one or more neural networks using synthetic data |
US20220165029A1 (en) * | 2020-11-25 | 2022-05-26 | Insurance Services Office, Inc. | Computer Vision Systems and Methods for High-Fidelity Representation of Complex 3D Surfaces Using Deep Unsigned Distance Embeddings |
CN112785643A (zh) * | 2021-02-02 | 2021-05-11 | 武汉科技大学 | 一种基于机器人平台的室内墙角二维语义地图构建方法 |
US11823415B2 (en) * | 2021-03-03 | 2023-11-21 | Nvidia Corporation | 3D pose estimation in robotics |
US11507713B2 (en) * | 2021-03-05 | 2022-11-22 | Flyreel, Inc. | Semi-supervised 3D indoor layout estimation from a single 360 degree panorama |
US11527047B2 (en) | 2021-03-11 | 2022-12-13 | Quintar, Inc. | Augmented reality system for viewing an event with distributed computing |
US11657578B2 (en) | 2021-03-11 | 2023-05-23 | Quintar, Inc. | Registration for augmented reality system for viewing an event |
US11645819B2 (en) | 2021-03-11 | 2023-05-09 | Quintar, Inc. | Augmented reality system for viewing an event with mode based on crowd sourced images |
US12003806B2 (en) * | 2021-03-11 | 2024-06-04 | Quintar, Inc. | Augmented reality system for viewing an event with multiple coordinate systems and automatically generated model |
US11816841B2 (en) * | 2021-03-17 | 2023-11-14 | Huawei Technologies Co., Ltd. | Method and system for graph-based panoptic segmentation |
JP2022145001A (ja) * | 2021-03-19 | 2022-10-03 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US11710272B2 (en) * | 2021-03-24 | 2023-07-25 | Disney Enterprises, Inc. | Volumetric representation of digital objects from depth renderings |
US11972524B2 (en) * | 2021-03-30 | 2024-04-30 | Hcl Technologies Limited | Method and system for generating tightest revolve envelope for computer-aided design (CAD) model |
CN113240789B (zh) * | 2021-04-13 | 2023-05-23 | 青岛小鸟看看科技有限公司 | 虚拟对象构建方法及装置 |
KR20220150582A (ko) * | 2021-05-04 | 2022-11-11 | 현대자동차주식회사 | 라이다 센서를 이용한 객체 추적 방법 및 장치와 이 방법을 실행하기 위한 프로그램을 기록한 기록 매체 |
US12008821B2 (en) * | 2021-05-07 | 2024-06-11 | Google Llc | Machine-learned models for unsupervised image transformation and retrieval |
US11657611B2 (en) * | 2021-05-28 | 2023-05-23 | Verizon Patent And Licensing Inc. | Methods and systems for augmented reality room identification based on room-object profile data |
US20230074420A1 (en) * | 2021-09-07 | 2023-03-09 | Nvidia Corporation | Transferring geometric and texture styles in 3d asset rendering using neural networks |
US11989848B2 (en) * | 2021-09-17 | 2024-05-21 | Yembo, Inc. | Browser optimized interactive electronic model based determination of attributes of a structure |
CN114066804A (zh) * | 2021-09-24 | 2022-02-18 | 北京交通大学 | 一种基于深度学习的曲面断层片牙位识别方法 |
CN113887373B (zh) * | 2021-09-27 | 2022-12-16 | 中关村科学城城市大脑股份有限公司 | 基于城市智慧体育的并行融合网络的姿态识别方法和系统 |
TWI816206B (zh) * | 2021-10-27 | 2023-09-21 | 財團法人資訊工業策進會 | 產生延展實境空間裝置及方法 |
CN114119889B (zh) * | 2021-11-12 | 2024-04-09 | 杭州师范大学 | 基于跨模态融合的360度环境深度补全和地图重建方法 |
CN114120110B (zh) * | 2021-11-22 | 2022-08-05 | 中国科学院紫金山天文台 | 一种混杂场景机载激光点云分类的多粒度计算方法 |
CN113837171B (zh) * | 2021-11-26 | 2022-02-08 | 成都数之联科技有限公司 | 候选区域提取方法及系统及装置及介质及目标检测方法 |
CN116547713A (zh) | 2021-12-03 | 2023-08-04 | 宁德时代新能源科技股份有限公司 | 一种用于缺陷检测的方法和系统 |
CN114299243A (zh) * | 2021-12-14 | 2022-04-08 | 中科视语(北京)科技有限公司 | 基于多尺度融合的点云特征增强方法和装置 |
CN114240991A (zh) * | 2021-12-16 | 2022-03-25 | 浙江大学 | 一种rgb图像的实例分割方法 |
CN114241087B (zh) * | 2021-12-21 | 2023-05-05 | 中设数字技术股份有限公司 | 一种基于气泡图的建筑平面布局生成方法 |
CN114241031B (zh) * | 2021-12-22 | 2024-05-10 | 华南农业大学 | 基于双视角融合的鱼类体尺测量和体重预测的方法及装置 |
CN114494284B (zh) * | 2021-12-29 | 2023-04-18 | 电子科技大学 | 一种基于显式监督区域关系的场景解析模型及方法 |
CN114882495B (zh) * | 2022-04-02 | 2024-04-12 | 华南理工大学 | 一种基于上下文感知特征聚集的3d目标检测方法 |
CN114820901B (zh) * | 2022-04-08 | 2024-05-31 | 浙江大学 | 一种基于神经网络的大场景自由视点插值方法 |
CN114494329B (zh) * | 2022-04-15 | 2022-07-26 | 之江实验室 | 用于移动机器人在非平面环境自主探索的导引点选取方法 |
CN114549608B (zh) * | 2022-04-22 | 2022-10-18 | 季华实验室 | 点云融合方法、装置、电子设备及存储介质 |
US11900542B2 (en) * | 2022-05-17 | 2024-02-13 | Autodesk, Inc. | Computer-aided techniques for designing 3D surfaces based on gradient specifications |
CN114998906B (zh) * | 2022-05-25 | 2023-08-08 | 北京百度网讯科技有限公司 | 文本检测方法、模型的训练方法、装置、电子设备及介质 |
CN114897951B (zh) * | 2022-05-30 | 2023-02-28 | 中国测绘科学研究院 | 聚合多视角深度信息的单张光场影像深度估计方法及系统 |
US11989834B1 (en) * | 2022-06-03 | 2024-05-21 | Amazon Technologies, Inc. | Three-dimensional room modeling |
WO2023244949A1 (en) * | 2022-06-14 | 2023-12-21 | The Regents Of The University Of California | Super-resolution image display and free space communication using diffractive decoders |
CN115130743A (zh) * | 2022-06-22 | 2022-09-30 | 国网山东省电力公司电力科学研究院 | 一种基于变分推断的风电机组调节速率预测方法及系统 |
US20230419526A1 (en) * | 2022-06-22 | 2023-12-28 | Geomagical Labs, Inc. | Method, apparatus, and computer-readable medium for room layout extraction |
CN115100269B (zh) * | 2022-06-28 | 2024-04-23 | 电子科技大学 | 一种光场图像深度估计方法、系统、电子设备及存储介质 |
DE102022116720B3 (de) | 2022-07-05 | 2023-11-23 | Sm@rt Home Team GmbH | Verfahren zur Raumplanerstellung |
CN115081569B (zh) * | 2022-07-20 | 2022-11-04 | 合肥龙旗智能科技有限公司 | 阵列led贴片管理方法、阵列led控制系统及方法 |
CN115423982B (zh) * | 2022-09-19 | 2023-11-17 | 南京航空航天大学 | 基于图像和深度的桌面冰壶三维检测方法 |
DE102022126640A1 (de) | 2022-10-13 | 2024-04-18 | Dräger Safety AG & Co. KGaA | Verfahren und Vorrichtung zur Generierung eines Raumplans von einer Etage eines Gebäudes |
WO2023102275A1 (en) * | 2022-11-04 | 2023-06-08 | Innopeak Technology, Inc. | Multi-pipeline and jittered rendering methods for mobile |
CN115457540B (zh) * | 2022-11-11 | 2023-03-24 | 整数智能信息技术(杭州)有限责任公司 | 点云目标检测模型的构建方法、目标检测标注方法及装置 |
CN115937461B (zh) * | 2022-11-16 | 2023-09-05 | 泰瑞数创科技(北京)股份有限公司 | 多源融合模型构建及纹理生成方法、装置、介质及设备 |
CN115880685B (zh) * | 2022-12-09 | 2024-02-13 | 之江实验室 | 一种基于votenet模型的三维目标检测方法和系统 |
CN115953292A (zh) * | 2022-12-30 | 2023-04-11 | 中国人民公安大学 | 一种基于深度相机的现场平面图生成方法 |
CN115994937A (zh) * | 2023-03-22 | 2023-04-21 | 科大讯飞股份有限公司 | 深度估计方法、装置及机器人 |
CN116188480B (zh) * | 2023-04-23 | 2023-07-18 | 安徽同湃特机器人科技有限公司 | 喷涂机器人天花板作业时agv行进路径点的计算方法 |
CN116342817B (zh) * | 2023-05-30 | 2023-08-15 | 华南理工大学 | 一种室外大规模三维场景重建方法、系统、设备和介质 |
CN116579955B (zh) * | 2023-07-13 | 2023-10-20 | 厦门微图软件科技有限公司 | 一种新能源电芯焊缝反光点去噪和点云补全方法及系统 |
CN116707143B (zh) * | 2023-08-03 | 2024-01-12 | 李智博 | 一种基于三维视觉信息处理的电网智能视频监控管理系统 |
CN117171853B (zh) * | 2023-09-15 | 2024-04-26 | 中建七局建筑装饰工程有限公司 | 一种基于bim+c#的下挂板正向设计与施工方法 |
CN117496517B (zh) * | 2024-01-03 | 2024-04-05 | 广东工业大学 | 一种城市级实景三维建设中激光雷达智慧管控方法及系统 |
CN117523418B (zh) * | 2024-01-08 | 2024-04-12 | 山东省国土测绘院 | 一种多源遥感图像分析方法及系统 |
CN117601135B (zh) * | 2024-01-23 | 2024-03-29 | 四川省铁路建设有限公司 | 智能砌墙机器人姿态调整方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11164394B2 (en) * | 2012-02-24 | 2021-11-02 | Matterport, Inc. | Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications |
US9953111B2 (en) * | 2014-06-06 | 2018-04-24 | Matterport, Inc. | Semantic understanding of 3D data |
US10572970B2 (en) * | 2017-04-28 | 2020-02-25 | Google Llc | Extracting 2D floor plan from 3D GRID representation of interior space |
EP3401815B1 (en) * | 2017-05-09 | 2022-12-21 | Dassault Systèmes | Determining an architectural layout |
US10915114B2 (en) * | 2017-07-27 | 2021-02-09 | AI Incorporated | Method and apparatus for combining data to construct a floor plan |
CN111801708B (zh) * | 2017-12-22 | 2022-04-29 | 奇跃公司 | 使用光线投射和实时深度进行遮挡渲染的方法 |
US11551422B2 (en) * | 2020-01-17 | 2023-01-10 | Apple Inc. | Floorplan generation based on room scanning |
-
2021
- 2021-03-03 EP EP21763943.4A patent/EP4115392A4/en active Pending
- 2021-03-03 CN CN202180032804.8A patent/CN115516516A/zh active Pending
- 2021-03-03 WO PCT/US2021/020668 patent/WO2021178537A1/en unknown
- 2021-03-03 US US17/190,889 patent/US11928873B2/en active Active
- 2021-03-03 JP JP2022552796A patent/JP2023516674A/ja active Pending
-
2024
- 2024-01-16 US US18/414,163 patent/US20240203138A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4115392A4 (en) | 2023-08-23 |
WO2021178537A1 (en) | 2021-09-10 |
CN115516516A (zh) | 2022-12-23 |
US20240203138A1 (en) | 2024-06-20 |
EP4115392A1 (en) | 2023-01-11 |
US20210279950A1 (en) | 2021-09-09 |
US11928873B2 (en) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023516674A (ja) | 屋内場面の3d走査からの効率的間取図生成のためのシステムおよび方法 | |
Fahim et al. | Single-View 3D reconstruction: A Survey of deep learning methods | |
Whelan et al. | ElasticFusion: Real-time dense SLAM and light source estimation | |
US20220414911A1 (en) | Three-dimensional reconstruction method and three-dimensional reconstruction apparatus | |
KR102635777B1 (ko) | 분자 결합 부위를 검출하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체 | |
US20230281955A1 (en) | Systems and methods for generalized scene reconstruction | |
Liu et al. | 3D Point cloud analysis | |
Satkin et al. | 3DNN: 3D Nearest Neighbor: Data-Driven Geometric Scene Understanding Using 3D Models | |
US11682166B2 (en) | Fitting 3D primitives to a high-resolution point cloud | |
Hasnat et al. | Model-based hierarchical clustering with Bregman divergences and Fishers mixture model: application to depth image analysis | |
Salas-Moreno | Dense Semantic SLAM. | |
Mohan et al. | Room layout estimation in indoor environment: a review | |
Qi | Deep learning on point clouds for 3D scene understanding | |
Socher et al. | Qualitative scene descriptions from images for integrated speech and image understanding | |
US11699256B1 (en) | Apparatus for generating an augmented reality | |
US11986846B1 (en) | Apparatus and method for displaying digital content onto a vehicle | |
Stentiford | Face recognition by detection of matching cliques of points | |
Morariu | Linguistic techniques for event recognition | |
Tepsa | AI-Based Object Recognition on RGBD Camera Images | |
Kalkan et al. | Perceptual operations and relations between 2D or 3D visual entities | |
Zabardast | A deep learning approach to surface reconstruction for surgical navigation during laparoscopic, endoscopic or robotic surgery | |
Shinde et al. | A REVIEW ON DESIGN AND ANALYSIS OF AN ALGORITHM FOR UNSUPERVISED RECURRENT ALL-PAIRS FIELD TRANSFORM OF OPTICAL FLOW | |
Kinauer et al. | Monocular surface reconstruction using 3D deformable part models | |
Zhang et al. | A new profile shape matching stereovision algorithm for real-time human pose and hand gesture recognition | |
Qian et al. | What does the occluding contour tell us about quantitative shape? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240229 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240229 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240229 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240612 |