JP2023539865A - リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 - Google Patents
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 Download PDFInfo
- Publication number
- JP2023539865A JP2023539865A JP2023513468A JP2023513468A JP2023539865A JP 2023539865 A JP2023539865 A JP 2023539865A JP 2023513468 A JP2023513468 A JP 2023513468A JP 2023513468 A JP2023513468 A JP 2023513468A JP 2023539865 A JP2023539865 A JP 2023539865A
- Authority
- JP
- Japan
- Prior art keywords
- network
- loss
- visual
- real
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 7
- 230000000737 periodic effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 2
- 230000002085 persistent effect Effects 0.000 claims 4
- 238000013501 data transformation Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 20
- 238000012545 processing Methods 0.000 description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 230000004378 blood-retinal barrier Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000004321 preservation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 102100035971 Molybdopterin molybdenumtransferase Human genes 0.000 description 1
- 101710119577 Molybdopterin molybdenumtransferase Proteins 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/521—Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Optics & Photonics (AREA)
- Image Analysis (AREA)
Abstract
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)ことを含む。【選択図】図10
Description
この出願は、2020年10月9日に出願された米国特許仮出願第63/089,703号及び2021年10月6日に出願された米国特許出願第17/494,979号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。
本発明は、クロススペクトル変換及びマッチングに関し、より詳細には、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定に関する。
複数のセンサ様式で捕捉されたデータを統合して、オブジェクトの位置を検出及び特定し、深度を把握することは、センサの避けられない物理的な変位及び様々なタイプのセンサストリームにおける非常に異なるセマンティックな情報のために困難な作業である。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用することを含む。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムは、コンピュータで実行されると、コンピュータに、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成させ、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムが提示される。本システムは、メモリと、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用するように構成された、前記メモリと通信する1つまたは複数のプロセッサとを含む。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
多くの新しいアプリケーションは、センシング機能の向上につながる、弱点を相殺しつつ様々なセンシング様式の長所を補完的に活用するために、様々なセンサからのデータストリームを組み合わせている。このようなセンサの統合は、個々のセンサの情報、範囲及び精度の制限を排除する、豊富なコンテキストアウェアデータを生成する。例として、自動運転車が考えられる。課題は、手頃なセンサコストと組み込みコンピュータの制約の下で、車の3D環境をリアルタイムで適切に理解することである。車のあらゆる側面に設置されたカメラは、オブジェクトを認識し、周囲の360度の景色をまとめようとする。レーダーは、夜間の運転等の視界が悪いときにカメラの視界を補い、オブジェクトの速度及び位置に関するデータを提供する。LiDARは、カメラやレーダーでは不可能な暗い場所でもオブジェクトとの距離を測定し、深度を把握する。そのため、自動運転車は1種類のセンサだけに頼るのではなく、様々なセンサからのデータを組み合わせて、リアルタイムな視覚、自律性、信頼性及び冗長性を実現する。視覚カメラと深度センサとを同時に用いるその他のアプリケーションには、人物の姿勢推定、行動認識、位置特定とマッピングの同時実行、人物の追跡等がある。バイオメトリック決済システム、認証及び無人アクセス制御システム等の顔認識ベースのアプリケーション、健康あるいは体温上昇等の人の状態を推測する発熱スクリーニングソリューション、並びに様々な新しいビデオ監視システムの精度及び速度を向上させるために、視覚センサと温度センサを併用することが増えている。
観察される3Dシーンにおけるオブジェクトの検出、位置特定及び深度を把握する能力は、自動製造、検査及び品質保証、並びに人とロボットとの相互作用等の多くの用途における重要な必要条件である。但し、単一様式のセンシングシステムには、克服するのが本質的に困難な制限があり、多くの新しいセンシングアプリケーションでは不十分である。例えば、単一のカメラの認識システムでは、信頼性の高い3D形状を提供できず、平均精度はLiDARベースのシステムよりも60%低下する。複数のカメラシステム(ステレオカメラ)は、正確な3D形状を提供できるが、計算コストが高く、オクルージョンが多くテクスチャのない環境、または照明が不十分な環境ではパフォーマンスが低下する。LiDARは、周囲の光に関係なく、高精度な3D形状を提供するが、コストが高いこと、大雨、霧、雪等の厳しい気象条件でのパフォーマンスが低いこと、オブジェクトや視覚カメラを認識または分類できないことで制限される。単一様式のセンシングシステムの制限を軽減するために、視覚カメラ及びLiDARからのデータストリームのセンサの統合、視覚データストリーム及び温度データストリームの統合、LiDAR及び温度データストリームの統合等のクロススペクトル統合が新たな研究テーマである。
複数のセンサ様式で捕捉されたデータを統合するときの一般的な問題は、該データストリームにおける対応する領域を見つけることである。これは自明ではないタスクである。第1に、センサの物理的な位置ずれにより、それらの視野が一致しない。第2に、センサストリームに含まれるセマンティック情報とデータフォーマットとが大きく異なる。視覚(RGB)カメラは、実世界をピクセル強度の密で規則的で順序付けられた離散2D配列、つまりオブジェクトを認識または分類するための豊富な視覚情報を含む画像を投影する。対照的に、LiDAR等の深度センサからのデータは、まばらで不規則で順序のない点群において3D形状と構造情報を保持し、物理距離の連続する値を保持する。視覚カメラや深度センサとは対照的に、サーマルカメラは、オブジェクトで透過及び反射されることで放出された、温度とともに増加する放射エネルギーを検出する。温度データにより、人は温度の変化を確認し、識別可能な温度シグネチャを計算できる。第3に、複数のセンサ様式を用いた3Dシーンのオブジェクトの特定、検出、認識及び深度の把握は、アプリケーションに固有の手頃なコスト及びリソースの制約の下でリアルタイムなパフォーマンスを提供する必要があるため、さらに複雑になる。
それを考慮して、例示的な方法は、リアルタイムなアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を導入する。例示的な方法は、視覚及び温度データストリームを用いた概念で示すが、提案する技術はセンサタイプとセンシング様式の他の組み合わせにも適用できる。利点には、少なくとも次のものが含まれる。
温度データから視覚スペクトルオブジェクト画像を合成するクロススペクトル深層学習敵対的生成ネットワークであるCS-GANを使用する。CS-GANは、合成された画像が視覚的に均一であり、視覚スペクトルで検出されたオブジェクトと一意に関連付けるために必要な主要な代表的なオブジェクトレベルの特徴を備えることを確実にする。これは、視覚ストリームと温度ストリームにおけるオブジェクトのリアルタイムな特徴レベルの関連付けを可能にする第1の手法として現れる。
CS-GANは、計算集約型のピクセルレベルのアプローチでは実現が困難であった、対応する領域の高品質なペアリングをリアルタイムでもたらす特徴保存損失関数をさらに含む。スキップ接続を備える二重ボトルネック残差層を活用してリアルタイムな推論を加速し、モデル訓練中の収束を高速化するネットワーク拡張機能も導入される。CS-GANからのオブジェクトの特徴レベルの対応を活用して位置を推定するための多変数線形回帰モデルも提供される。これにより、通常、視覚RGBカメラとサーマルカメラとの間に内在する(光学中心及び焦点距離)、並びに付帯的な(カメラの位置)のパラメータを考慮する必要がある、視覚カメラ及びサーマルカメラの幾何学的な較正を考慮する必要がなくなる。
フルハイビジョン(HD)の視覚的及び非視覚的データストリームにおいて対応するオブジェクトを見つけるためのリアルタイムシステムがさらに導入される。オブジェクトの特徴レベル対応を用いることで、例示的な方法は、より計算集中的なピクセルレベルのクロススペクトル立体映像を回避する。
図1は、提案するオブジェクトの位置特定アプローチを示している。
視覚ストリーム102は、オブジェクト検出器104に提供される。温度ストリーム112は、適応空間検索器114に提供される。視覚ストリーム102からオブジェクト検出器104によって判定または抽出された視覚オブジェクト105は、特徴抽出器106だけでなく、適応空間検索器114にも提供される。温度ストリーム112から抽出された温度オブジェクト115は、CS-GAN116に提供され、そこでデータが変換されて特徴抽出器118に提供される。特徴抽出器106、118からのデータは、深度知覚ネットワーク122を生成し、オブジェクトの位置を判定する、特徴統合器120によって統合または組み合わされる。
入力温度ストリームデータは、紫外(UV)、近赤外線または遠赤外線等の様々な電磁スペクトルのものである。例示的な方法は、視覚及び温度データストリームのみを考慮しているが、例示的なアプローチは、深度ストリーム(点群)等の他のスペクトル様式と共に用いてもよい。図1では、入力視覚ストリーム102が目標領域である。例示的な方法は、該目標領域におけるオブジェクト検出器104を用いて、顔、人または車両等のオブジェクトを検出する。オブジェクト検出器104からの境界ボックスを用いて、例示的な方法は、ソース領域でもある温度スペクトルにおいて適応空間検索114を実行し、いくつかの候補境界ボックス案を形成する。これにより、そのようなデータのテクスチャのない性質に起因する、正確なオブジェクト検出が既知の問題である温度領域における良好なオブジェクト検出器の必要性が回避される。
センサの変位により、クロススペクトル画像ペアにおける対応するオブジェクトは整列していない。対応するクロススペクトルオブジェクト画像の空間的な変位及び向きは、2つのセンサの軸に対する距離とオフセットの両方の関数である。例示的な方法は、すぐに利用できる目標領域(視覚)のための良好な特徴抽出器のみを有するため、最初に敵対的生成ネットワークCS-GAN116を用いることで画像をソース領域(温度)から目標領域(視覚)に変換する。これは、CycleGANの変更版である。
CycleGANモデルは、多くの場合、色変換、オブジェクト変形及びスタイル転送等の用途向けのリアルな見た目の画像を生成するために使用される。CycleGANは、サイズ256×256の入力画像を処理し、(例示的な方法が目標領域内のオブジェクトレベルの特徴を抽出できる)豊富なテクスチャ目標画像を合成するのに要する時間は、オブジェクト画像タイルあたり数百ミリ秒である。この処理速度は、リアルタイムなアプリケーションには適していない。オブジェクト検出及び特徴抽出をリアルタイムで実行するため、例示的な方法は、64×64の画像サイズが正確な推論パイプラインを設計するのに十分であることを示している。但し、画像サイズを64×64等の低解像度に縮小しても、CycleGANの推論時間は大幅に改善されない。さらに、生成された視覚イメージは品質が高くなく、ソース領域における特徴抽出には適していない。リアルタイムなビデオ処理シナリオ(25fps)では、フレームを40ミリ秒未満で処理する必要がある。この目標を達成するため、例示的な方法は、(敵対的及び周期損失に加えて)カスタムな知覚的損失関数及び特徴損失関数と共にボトルネックカスケード残差層を用いる、新しい深層学習ネットワークCS-GAN116を提案する。これらの変更により、例示的な方法では推論時間を40ミリ秒未満に改善することが可能になり、生成された画像はよりシャープで、良好で許容できる品質になる。
クロススペクトルGANに関して、CS-GAN116は2つのネットワークを有する。図2は、温度画像から視覚スペクトルオブジェクト画像を合成する第1のネットワーク200を示している。温度パッチ(境界ボックス)が与えられると、第1のネットワーク200における生成器(generator)210は、温度パッチにおける空間的な情報を保存する視覚画像を合成する。一方、第1のネットワーク200の弁別器(discriminator)220は、合成された視覚画像が構造的に健全で、視覚的に均一であり、画像が代表的なオブジェクトレベルの特徴を有するか否かを判断することを学習する。結果は、CS-GAN116(図1)が、より低いフレシェ開始距離(FID:Frechet Inception Distance)スコアで、最先端の生成品質を達成できることを示している。図3で示す第2のネットワーク300は、視覚画像を温度領域に変換する。このような視覚領域から温度領域への逆方向の変換により、CycleGANの循環特性が維持される。
温度から視覚への合成ネットワーク200に関して、ネットワーク200は、生成器ネットワーク210及び弁別器ネットワーク220を含む。生成器ネットワーク210は、対応する温度パッチから視覚画像を合成する。弁別器ネットワーク220は、実際の視覚画像と生成された視覚画像とを区別するために使用される。生成器210と弁別器220との間のこの綱引きは、生成器が良好な合成視覚画像を生成できるように、両方のネットワークの訓練につながる。
温度画像Xが与えられると、生成器GYは、合成視覚画像GY(X)を合成する。合成視覚画像は、元の視覚画像Yと合成視覚画像GY(X)とを区別する弁別器DYを訓練するために使用される。弁別器ネットワーク220は、画像が本物か偽物かを予測することが可能であり、その出力によって弁別器220と生成器210の両方の敵対的損失の計算が可能になる。生成器ネットワークGXは、合成視覚画像GY(X)から元の温度画像を再構成するために使用される。再構成された温度画像はX’=GX(GY(X))である。元の温度画像と合成温度画像との差(つまり、X、X’)を用いて生成器ネットワークGY及びGXを訓練するために必要な周期的損失205を計算する。
合成視覚画像が良好な品質であることを確実にするために、例示的な方法は、画像の超解像及びスタイル転送タスクで通常使用される知覚的損失207を利用する。知覚的損失207は、鮮明な画像を生成するために良好な品質の画像を合成するのに役に立つ。例示的な方法は、事前訓練されたVGG-19ネットワーク225を用いることで知覚的損失207を推定する。図2で示すように、例示的な方法は、元の視覚画像GY(X)をVGGネットワーク225に入力する。特徴は、各最大値プール層の前のネットワークのスライスから抽出される。これらの出力特徴は、L1ノルムを用いて知覚的損失207を計算するために使用される。
合成画像が鮮明で、良好な品質であることを確実にするだけでは不十分である。例示的な方法は、合成画像がオブジェクトにおける重要なランドマークを保持することもまた確実にする。例示的な方法は、新しい損失関数を導入して、顔の特徴や顔のランドマークなどの高レベルのオブジェクトの特徴を合成視覚画像に保持する。ランドマークまたは特徴は、一般的なものでもタスク固有のものでもかまわない。例えば、オブジェクトが顔である場合、例示的な方法は、視覚画像から顔のランドマークを抽出し、特徴間のユークリッド距離を計算する。ソース領域画像及び目標領域画像におけるランドマークを考慮することで、例示的な方法は特徴損失関数209を計算する。
視覚から温度への合成ネットワーク300に関して、視覚から温度への合成ネットワークは、生成器GX及び弁別器DXを有する。再び、例示的な方法は、敵対的損失307を用いて、現実の合成された温度画像を用いて生成器GX及び弁別器DXを訓練する。周期的損失305に関して、例示的な方法は、現実のYと再構成された視覚画像Y'=GY(GX(Y))との間のL1ノルムを計算する。知覚的損失関数309は、現実の温度画像と合成された温度画像X(GX(Y))から計算される。
但し、例示的な方法は、温度から視覚への合成との1つの主要な違いに注目する。温度から視覚へのGANの設計とは異なり、視覚領域ランドマーク推定器は温度画像の特徴を抽出できず、温度領域には既知の信頼できる正確なランドマーク推定器がないため、例示的な方法では生成器GXの訓練に特徴損失を使用できない。
損失関数に関して。
弁別器DY及びDXの出力から計算された敵対的損失(LADV)は、両方の生成器
に適用され、弁別器DY及びDXにそれぞれフィードバックされる。温度領域からの訓練サンプルは
であり、視覚領域からの訓練サンプルは
であり、データ分布は
でそれぞれ示される。
敵対的訓練は、生成器のコストを最小化し、弁別器のそれを最大化し、最終的に両方のネットワークの訓練につながる。
温度領域GX(GY(x))における元の画像間の差は、可能な限り小さくあるべきである。次のように表される画像の周期的な一貫性を満たす必要がある。
知覚的損失に関して、クロススペクトル入力画像は解像度が低いことが多いため、知覚的損失を目的関数に追加すると、そのような画像におけるオブジェクトのより細かいテクスチャを抽出するのに役に立つ。この改善は、例示的な方法の入力画像サイズを小さくしてリアルタイムな処理を可能にする。
ここで、Nはスライスの数であり、VsiはVGG19ネットワークのi番目のスライスであり、Vsi(・)はそれに対応する特徴である。損失は、両方の領域で現実の画像と生成された画像との間で計算され、生成器にフィードバックされる。
特徴保存損失に関して、例示的な方法は、特徴保存損失(以下のアルゴリズム1)を導入して生成器GYを最適化する。例示的な方法は、視覚スペクトル領域における現実の画像と生成された画像の特徴点の座標間のユークリッドノルムを推定し、訓練が進むにつれてこの誤差を最小化する。これにより、生成器はテクスチャ付きの合成画像を生成できるようになり、様々なオブジェクトや関連するランドマークを簡単かつ高精度に検出できるようになる。
ここで、
は、生成画像及び現実の画像の特徴点であり、
は画像内の特徴点の座標であり、
は、それを超えるとFPLが追加されるしきい値であり、mRatioは、(特徴を有さない画像の#)/(バッチサイズ)である。
ペアになった視覚的画像及び対応する視覚的オブジェクト画像は、訓練目的で使用される。主な目標は、合成画像がランドマーク/視覚領域内の画像との対応を維持することを確実にし、より少ない反復で写像関数を学習するように生成器を訓練することである。これにより、訓練中にモデルをすばやく収束させることができる。これにより、CS-GANは特徴点セントリックとなり、推論中にオブジェクト固有の特徴が保存される。
特徴保存損失の推定は、以下のアルゴリズム1で説明される。初期の繰り返しにおいて、生成器は正確な特徴を有する画像を再現できない。したがって、例示的な方法は、特徴を検出できず、損失(ミス率)が高すぎる場合、特徴の損失を考慮しない。これにより、この損失が他の損失を支配することが防止される。生成器が顕著な特徴を有する画像を生成できるようになると、例示的な方法は特徴の損失を目的関数全体に追加する。アルゴリズム1で示されるように、例示的な方法は、訓練中に、最初は偽に設定される状態変数フラグを保持する。各バッチの終わりにおいて、例示的な方法は、生成された画像GY(x)から特徴を抽出できたか否かをチェックする。
例示的な方法は、サイズmのバッチにおいて、tfeatを超える特徴が検出できると、フラグを真に設定し、mRatioに関係なく、全体的な損失に特徴損失を含めることを開始する。mRatioは、特徴保存損失に重み付き誤差μを追加することで補償される。これらのエラーはflに追加されないため、μの値は見逃したケースを補うために高い値で維持される。
二重ボトルネック残差ブロックに関して、勾配消失は、より多くのネットワークにおいて共通の問題である。偏導関数の連鎖積により、勾配は前の層に逆伝播されるにつれてますます小さくなる。残差ブロックを用いたスキップ接続は、モデルの収束に役に立つスキップ層によって勾配の代替パスを提供する。スキップ層の背後にある直感は、元の参照されていないマッピングを最適化するよりも残差マッピングを最適化する方が簡単だということである。スキップ接続により、初期層(特徴が下位のセマンティック情報に対応する)で捕捉された情報をより多くの層で利用できるようになる。スキップ接続が無いと、低レベルの情報はネットワークにおいてより多く移動するため、難しくなる。基本的な残差ブロックの代わりにボトルネックブロックを使用すると、畳み込みのチャネル数が減るため有益である。これにより、フォワードパスの計算時間が大幅に短縮される。また、オプティマイザの検索スペースが削減されるため、訓練が改善される。
例示的な方法は、図4で示す
を用いる4つの畳み込みブロックを含む、二重ボトルネック(二重BRB400)の使用を導入する。関数G(.)は、チャネル数を4分の1に圧縮する。この減少により、恒等関数F(.)のチャネル数が減少する。次に、例示的な方法は、入力チャネルと同様に、チャネル数を4倍に拡張する関数H(.)を有する。例示的な方法は、Dual-BRB400に2つのスキップ接続を有する。内側のスキップ接続は恒等関数F(.)として機能するが、外側のスキップ接続は完全なDual-BRBの恒等式である。外側のスキップ接続は、基本的な残差ブロックと同様に、恒等写像を提供するのに役に立つ。
二重BRB400のブロックは、以下のように表される。
二重BRB400からの出力は、
基本ボトルネック上に追加される3×3畳み込みは、初期エポック中のロバスト性を追加するが、訓練中の後のエポックでは適切に収束しない。
F(.)にわたる内部スキップ接続は、モデルのロバスト性及び収束を助けながら、それにわたって残差を学習するのを助ける。内部スキップ接続に関する直感は、訓練後のエポック中に勾配の誤差逆伝播法の代替パスを作成することである。これにより、収束が促進され、訓練中の安定性が提供される。
yの最終式には、F(G(x))及びG(x)の組み合わせを含む。勾配の誤差逆伝播法にこの代替パスがあると、ブロック全体を削除するのではなく、特定のブロックに関して必要な場合に関数F(.)を削除するのに役に立つ。
また、yは、H(・)とxの組み合わせを含み、全ブロックにわたる勾配の誤差逆伝播法のための別の代替パスを有する。トランスフォーマ(Transformer)ブロックにおけるこの変更は、生成された画像のリアルタイムな推論、品質及び精度を達成するのに役に立つ。
推論に関して、推論ブロック500が図5で強調されている。適応空間検索から得られる温度オブジェクト画像タイル502は、それらを視覚スペクトル領域に変換する生成器GY(504)に供給される。これらの変換された視覚スペクトル画像506は、特徴点を抽出できるように温度画像の構造情報を保持する。
深度及びオフセット推定器600に関して、図6で示すように、センサに対するシーン内のオブジェクトの距離及びオフセットを推定するため、例示的な方法は、オブジェクト固有の深度知覚ネットワークを導入する。
視覚カメラからの各入力フレームYについて、2Dオブジェクト検出器を用いて対象のオブジェクトが識別される。2Dオブジェクト検出器の性能は、高精度な組み込みシステムでもリアルタイムな推論に適している。視覚センサ及び温度センサの両方は、同一平面上になくベースライン距離で分離されているため、画像は互いに位置合わせされていない。オブジェクトの境界ボックスが視覚領域で識別されると、適応空間検索114(図1)が実行され、温度領域における、センサの変位、センサの視野、ズームレベル、解像度及び相対的な向きの関数であるオブジェクト案が特定される。
温度画像をXとし、関連する温度境界ボックス案は以下とする。
ペア(RY、RX)及び(fY、fX)は、視覚及び温度画像センサの解像度及び焦点距離を表すものとする。
温度オブジェクト案Bxを用いて、各視覚(yi)及び対応する温度(xi)クロップされた案が同じサイズを有するように、視覚オブジェクト案Byが拡張される。
例示的な実施形態は、2kの説明変数を用いて多変数線形回帰を訓練することで、センサからの距離(d)及び視覚カメラからの温度画像のオフセット(o)を回帰分析する。例示的な方法は、残りの二乗和を最小化することでリグレッサを訓練する。距離推定モデルの係数を
とし、オフセット推定係数を
とすると、距離は次のように推定される。
例示的なネットワークアーキテクチャ700において、図7で示すように、生成器ネットワークは、エンコーダ710、トランスフォーマ720及びデコーダブロック730を含む。エンコーダネットワーク710は、7×7畳み込み層を含み、その後に2つの(ストライド2の)3×3畳み込み層を用いるダウンサンプリングが続く。トランスフォーマネットワーク720は、9つの二重ボトルネック残差ブロック(二重BRB)を含む。各二重BRBには、1×1畳み込み、残差ブロックが含まれ、それに続いて再び1×1畳み込みが含まれ、チャネル数を圧縮して拡張し、計算を削減する。例示的な方法は、3×3畳み込みのフルプレアクティベーション(full pre-activation)残差ブロックを使用する。
残差ブロック間のスキップ接続に加えて、二重BRBの入力からブロックの出力にスキップ接続が追加される。二重BRBは、基本的な残差ブロックの実装と比べて、画質を低下させることなく、推論時間を3.5分の1に短縮する。デコーダネットワーク730は、3×3転置畳み込み(T.CONV)の2つのアップサンプリング層と、tanh活性化を備える7×7畳み込み層とを含む。全ての畳み込み層の後にインスタンス正規化(IN)が続く。弁別器ネットワークDY及びDXは、元の画像と生成された画像においてパッチが本物か偽物かを分類する。
結論として、例示的な方法は、リアルタイムなクロススペクトルアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を提示する。クロススペクトル敵対的生成ネットワーク(CS-GANは、視覚スペクトルと温度スペクトル全体でオブジェクトを一意に関連付けるために必要な、主要な代表的なオブジェクトレベルの特徴を有する視覚画像を合成する。CS-GANの特徴には、対応するクロススペクトルオブジェクトの高品質なペアリングをもたらす損失関数を保持する機能、並びにリアルタイム推論を高速化するだけでなく、モデル訓練中の収束を高速化するスキップ接続(新しいネットワーク拡張機能)を備えた二重ボトルネック残差層を含む。CS-GANからの特徴レベルの対応を用いることで、温度とフルHD視覚データストリームの情報を正確に統合する新しいリアルタイムなシステムが作成される。
図8は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための実際のアプリケーションのブロック/フロー図800である。
1つの実際例において、1つまたは複数のセンサ802が、オブジェクト804、806等のオブジェクトを検出し、視覚ストリーム及び温度ストリームをCS-GAN116に提供する。CS-GAN116は、特徴保存損失関数850及びスキップ接続を備える二重ボトルネック残差層接続860を含む。結果810(例えば、対象オブジェクト)は、ユーザ814によって取り扱われるユーザインターフェース812に提供または表示できる。
図9は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な処理システムを示す図である。
処理システムは、システムバス902を介して他のコンポーネントと動作可能に接続された少なくとも1つのプロセッサ(CPU)904を含む。システムバス1002には、GPU905、キャッシュ906、読み取り専用メモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ9400及び/またはディスプレイアダプタ960が動作可能に接続されている。さらに、CS-GAN116が、特徴保存損失関数850及びスキップ接続860を備える二重ボトルネック残差層を用いることで採用される。
記憶装置922は、I/Oアダプタ920によってシステムバス902に動作可能に接続されている。記憶装置922は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置等のいずれであってもよい。
トランシーバ932は、ネットワークアダプタ930によってシステムバス902に動作可能に接続されている。
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902に動作可能に接続されている。ユーザ入力装置942は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置942は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置942は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図10は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な方法のブロック/フロー図である。
ブロック1010において、クロススペクトル敵対的生成ネットワーク(CS-GAN)により、複数の異なるタイプのセンサから得られた異なるデータストリームからの視覚画像を合成する。
ブロック1020において、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす、特徴保存損失関数を適用する。
ブロック1030において、リアルタイム推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図する。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。
Claims (20)
- リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法であって、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)、方法。 - 第1のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも1つのデータストリームにおいてオブジェクト検出が実行される、請求項1に記載の方法。
- 第2のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも1つのデータストリームにおいて適応空間検索が実行される、請求項2に記載の方法。
- 前記第1のオブジェクトが第1の特徴抽出器に供給され、前記第2のオブジェクトが、データ変換のために前記CS-GANに供給された後、第2の特徴抽出器に供給される、請求項3に記載の方法。
- 前記CS-GANは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項1に記載の方法。
- 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークである、請求項1に記載の方法。
- 前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項6に記載の方法。
- 周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項7に記載の方法。
- オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項1に記載の方法。
- リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成させ(1010)、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ(1020)、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる(1030)、非一時的なコンピュータで読み取り可能な記録媒体。 - 第1のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも1つのデータストリームにおいてオブジェクト検出が実行される、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 第2のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも1つのデータストリームにおいて適応空間検索が実行される、請求項11に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 前記第1のオブジェクトが第1の特徴抽出器に供給され、前記第2のオブジェクトが、データ変換のために前記CS-GANに供給された後、第2の特徴抽出器に供給される、請求項12に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 前記CS-GANは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークである、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項15に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- 周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項16に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
- リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムであって、
メモリと、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
を有するシステム。 - 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークであり、前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別し、周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用された、請求項19に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063089703P | 2020-10-09 | 2020-10-09 | |
US63/089,703 | 2020-10-09 | ||
US17/494,979 US20220114380A1 (en) | 2020-10-09 | 2021-10-06 | Real-time cross-spectral object association and depth estimation |
US17/494,979 | 2021-10-06 | ||
PCT/US2021/053919 WO2022076655A1 (en) | 2020-10-09 | 2021-10-07 | Real-time cross-spectral object association and depth estimation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023539865A true JP2023539865A (ja) | 2023-09-20 |
Family
ID=81079315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023513468A Pending JP2023539865A (ja) | 2020-10-09 | 2021-10-07 | リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220114380A1 (ja) |
JP (1) | JP2023539865A (ja) |
DE (1) | DE112021005375T5 (ja) |
WO (1) | WO2022076655A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863293B (zh) * | 2022-05-07 | 2023-07-18 | 中国石油大学(华东) | 一种基于双分支gan网络的高光谱溢油检测方法 |
US11836825B1 (en) * | 2022-05-23 | 2023-12-05 | Dell Products L.P. | System and method for detecting postures of a user of an information handling system (IHS) during extreme lighting conditions |
US11895344B1 (en) | 2022-12-09 | 2024-02-06 | International Business Machines Corporation | Distribution of media content enhancement with generative adversarial network migration |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE1014791A6 (nl) | 2002-04-22 | 2004-04-06 | Picanol Nv | Weefmachine. |
EP3598344A1 (en) * | 2018-07-19 | 2020-01-22 | Nokia Technologies Oy | Processing sensor data |
-
2021
- 2021-10-06 US US17/494,979 patent/US20220114380A1/en active Pending
- 2021-10-07 WO PCT/US2021/053919 patent/WO2022076655A1/en active Application Filing
- 2021-10-07 DE DE112021005375.2T patent/DE112021005375T5/de active Pending
- 2021-10-07 JP JP2023513468A patent/JP2023539865A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220114380A1 (en) | 2022-04-14 |
WO2022076655A1 (en) | 2022-04-14 |
DE112021005375T5 (de) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832432B2 (en) | Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image | |
de La Garanderie et al. | Eliminating the blind spot: Adapting 3d object detection and monocular depth estimation to 360 panoramic imagery | |
US11205298B2 (en) | Method and system for creating a virtual 3D model | |
US20210227126A1 (en) | Deep learning inference systems and methods for imaging systems | |
JP2023539865A (ja) | リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 | |
JP2019211900A (ja) | 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置 | |
AU2013407879A1 (en) | Slam on a mobile device | |
KR20210025942A (ko) | 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법 | |
US11810311B2 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
JP7091485B2 (ja) | 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器 | |
KR20200132468A (ko) | 첨단 운전자 지원 장치 및 이의 객체를 검출하는 방법 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN116194951A (zh) | 用于基于立体视觉的3d对象检测与分割的方法和装置 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
WO2022208440A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN112257617B (zh) | 多模态目标识别方法和系统 | |
CN105374043B (zh) | 视觉里程计背景过滤方法及装置 | |
KR101189043B1 (ko) | 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 | |
Yang et al. | Towards generic 3d tracking in RGBD videos: Benchmark and baseline | |
Liu et al. | Deep learning for 3D human pose estimation and mesh recovery: A survey | |
Zhang et al. | Spatio-temporal fusion of LiDAR and camera data for omnidirectional depth perception | |
Guo et al. | Robust Full-Fov Depth Estimation in Tele-Wide Camera System | |
Bühler et al. | Deep Unsupervised Common Representation Learning for LiDAR and Camera Data using Double Siamese Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231212 |