JP2023539865A - リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 - Google Patents

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 Download PDF

Info

Publication number
JP2023539865A
JP2023539865A JP2023513468A JP2023513468A JP2023539865A JP 2023539865 A JP2023539865 A JP 2023539865A JP 2023513468 A JP2023513468 A JP 2023513468A JP 2023513468 A JP2023513468 A JP 2023513468A JP 2023539865 A JP2023539865 A JP 2023539865A
Authority
JP
Japan
Prior art keywords
network
loss
visual
real
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023513468A
Other languages
English (en)
Inventor
ムルガン サンカラダス、
クナル ラオ、
イ ヤン、
ビプロブ デブナス、
ウツァブ ドロリア、
スリマット チャクラッダー、
アミット レドカー、
ラヴィ カイラサム ラジェンドラン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2023539865A publication Critical patent/JP2023539865A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)

Abstract

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)ことを含む。【選択図】図10

Description

この出願は、2020年10月9日に出願された米国特許仮出願第63/089,703号及び2021年10月6日に出願された米国特許出願第17/494,979号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。
本発明は、クロススペクトル変換及びマッチングに関し、より詳細には、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定に関する。
複数のセンサ様式で捕捉されたデータを統合して、オブジェクトの位置を検出及び特定し、深度を把握することは、センサの避けられない物理的な変位及び様々なタイプのセンサストリームにおける非常に異なるセマンティックな情報のために困難な作業である。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用することを含む。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムは、コンピュータで実行されると、コンピュータに、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成させ、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムが提示される。本システムは、メモリと、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用するように構成された、前記メモリと通信する1つまたは複数のプロセッサとを含む。
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
図1は、本発明の実施形態による、例示的なオブジェクトの位置特定アーキテクチャのブロック/フロー図である。
図2は、本発明の実施形態による、例示的な温度対視覚合成アーキテクチャのブロック/フロー図である。
図3は、本発明の実施形態による、例示的な視覚対温度合成アーキテクチャのブロック/フロー図である。
図4は、本発明の実施形態による、例示的な二重ボトルネック残差ブロックのブロック/フロー図である。
図5は、本発明の実施形態による、例示的なクロススペクトル敵対的生成ネットワーク(CS-GAN:cross-spectral generative adversarial network)推論のブロック/フロー図である。
図6は、本発明の実施形態による、例示的な深度及びオフセット推定器のブロック/フロー図である。
図7は、本発明の実施形態による、例示的な生成器ネットワークアーキテクチャのブロック/フロー図である。
図8は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な実際のアプリケーションを示す図である。
図9は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な処理システムを示す図である。
図10は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な方法のブロック/フロー図である。
多くの新しいアプリケーションは、センシング機能の向上につながる、弱点を相殺しつつ様々なセンシング様式の長所を補完的に活用するために、様々なセンサからのデータストリームを組み合わせている。このようなセンサの統合は、個々のセンサの情報、範囲及び精度の制限を排除する、豊富なコンテキストアウェアデータを生成する。例として、自動運転車が考えられる。課題は、手頃なセンサコストと組み込みコンピュータの制約の下で、車の3D環境をリアルタイムで適切に理解することである。車のあらゆる側面に設置されたカメラは、オブジェクトを認識し、周囲の360度の景色をまとめようとする。レーダーは、夜間の運転等の視界が悪いときにカメラの視界を補い、オブジェクトの速度及び位置に関するデータを提供する。LiDARは、カメラやレーダーでは不可能な暗い場所でもオブジェクトとの距離を測定し、深度を把握する。そのため、自動運転車は1種類のセンサだけに頼るのではなく、様々なセンサからのデータを組み合わせて、リアルタイムな視覚、自律性、信頼性及び冗長性を実現する。視覚カメラと深度センサとを同時に用いるその他のアプリケーションには、人物の姿勢推定、行動認識、位置特定とマッピングの同時実行、人物の追跡等がある。バイオメトリック決済システム、認証及び無人アクセス制御システム等の顔認識ベースのアプリケーション、健康あるいは体温上昇等の人の状態を推測する発熱スクリーニングソリューション、並びに様々な新しいビデオ監視システムの精度及び速度を向上させるために、視覚センサと温度センサを併用することが増えている。
観察される3Dシーンにおけるオブジェクトの検出、位置特定及び深度を把握する能力は、自動製造、検査及び品質保証、並びに人とロボットとの相互作用等の多くの用途における重要な必要条件である。但し、単一様式のセンシングシステムには、克服するのが本質的に困難な制限があり、多くの新しいセンシングアプリケーションでは不十分である。例えば、単一のカメラの認識システムでは、信頼性の高い3D形状を提供できず、平均精度はLiDARベースのシステムよりも60%低下する。複数のカメラシステム(ステレオカメラ)は、正確な3D形状を提供できるが、計算コストが高く、オクルージョンが多くテクスチャのない環境、または照明が不十分な環境ではパフォーマンスが低下する。LiDARは、周囲の光に関係なく、高精度な3D形状を提供するが、コストが高いこと、大雨、霧、雪等の厳しい気象条件でのパフォーマンスが低いこと、オブジェクトや視覚カメラを認識または分類できないことで制限される。単一様式のセンシングシステムの制限を軽減するために、視覚カメラ及びLiDARからのデータストリームのセンサの統合、視覚データストリーム及び温度データストリームの統合、LiDAR及び温度データストリームの統合等のクロススペクトル統合が新たな研究テーマである。
複数のセンサ様式で捕捉されたデータを統合するときの一般的な問題は、該データストリームにおける対応する領域を見つけることである。これは自明ではないタスクである。第1に、センサの物理的な位置ずれにより、それらの視野が一致しない。第2に、センサストリームに含まれるセマンティック情報とデータフォーマットとが大きく異なる。視覚(RGB)カメラは、実世界をピクセル強度の密で規則的で順序付けられた離散2D配列、つまりオブジェクトを認識または分類するための豊富な視覚情報を含む画像を投影する。対照的に、LiDAR等の深度センサからのデータは、まばらで不規則で順序のない点群において3D形状と構造情報を保持し、物理距離の連続する値を保持する。視覚カメラや深度センサとは対照的に、サーマルカメラは、オブジェクトで透過及び反射されることで放出された、温度とともに増加する放射エネルギーを検出する。温度データにより、人は温度の変化を確認し、識別可能な温度シグネチャを計算できる。第3に、複数のセンサ様式を用いた3Dシーンのオブジェクトの特定、検出、認識及び深度の把握は、アプリケーションに固有の手頃なコスト及びリソースの制約の下でリアルタイムなパフォーマンスを提供する必要があるため、さらに複雑になる。
それを考慮して、例示的な方法は、リアルタイムなアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を導入する。例示的な方法は、視覚及び温度データストリームを用いた概念で示すが、提案する技術はセンサタイプとセンシング様式の他の組み合わせにも適用できる。利点には、少なくとも次のものが含まれる。
温度データから視覚スペクトルオブジェクト画像を合成するクロススペクトル深層学習敵対的生成ネットワークであるCS-GANを使用する。CS-GANは、合成された画像が視覚的に均一であり、視覚スペクトルで検出されたオブジェクトと一意に関連付けるために必要な主要な代表的なオブジェクトレベルの特徴を備えることを確実にする。これは、視覚ストリームと温度ストリームにおけるオブジェクトのリアルタイムな特徴レベルの関連付けを可能にする第1の手法として現れる。
CS-GANは、計算集約型のピクセルレベルのアプローチでは実現が困難であった、対応する領域の高品質なペアリングをリアルタイムでもたらす特徴保存損失関数をさらに含む。スキップ接続を備える二重ボトルネック残差層を活用してリアルタイムな推論を加速し、モデル訓練中の収束を高速化するネットワーク拡張機能も導入される。CS-GANからのオブジェクトの特徴レベルの対応を活用して位置を推定するための多変数線形回帰モデルも提供される。これにより、通常、視覚RGBカメラとサーマルカメラとの間に内在する(光学中心及び焦点距離)、並びに付帯的な(カメラの位置)のパラメータを考慮する必要がある、視覚カメラ及びサーマルカメラの幾何学的な較正を考慮する必要がなくなる。
フルハイビジョン(HD)の視覚的及び非視覚的データストリームにおいて対応するオブジェクトを見つけるためのリアルタイムシステムがさらに導入される。オブジェクトの特徴レベル対応を用いることで、例示的な方法は、より計算集中的なピクセルレベルのクロススペクトル立体映像を回避する。
図1は、提案するオブジェクトの位置特定アプローチを示している。
視覚ストリーム102は、オブジェクト検出器104に提供される。温度ストリーム112は、適応空間検索器114に提供される。視覚ストリーム102からオブジェクト検出器104によって判定または抽出された視覚オブジェクト105は、特徴抽出器106だけでなく、適応空間検索器114にも提供される。温度ストリーム112から抽出された温度オブジェクト115は、CS-GAN116に提供され、そこでデータが変換されて特徴抽出器118に提供される。特徴抽出器106、118からのデータは、深度知覚ネットワーク122を生成し、オブジェクトの位置を判定する、特徴統合器120によって統合または組み合わされる。
入力温度ストリームデータは、紫外(UV)、近赤外線または遠赤外線等の様々な電磁スペクトルのものである。例示的な方法は、視覚及び温度データストリームのみを考慮しているが、例示的なアプローチは、深度ストリーム(点群)等の他のスペクトル様式と共に用いてもよい。図1では、入力視覚ストリーム102が目標領域である。例示的な方法は、該目標領域におけるオブジェクト検出器104を用いて、顔、人または車両等のオブジェクトを検出する。オブジェクト検出器104からの境界ボックスを用いて、例示的な方法は、ソース領域でもある温度スペクトルにおいて適応空間検索114を実行し、いくつかの候補境界ボックス案を形成する。これにより、そのようなデータのテクスチャのない性質に起因する、正確なオブジェクト検出が既知の問題である温度領域における良好なオブジェクト検出器の必要性が回避される。
センサの変位により、クロススペクトル画像ペアにおける対応するオブジェクトは整列していない。対応するクロススペクトルオブジェクト画像の空間的な変位及び向きは、2つのセンサの軸に対する距離とオフセットの両方の関数である。例示的な方法は、すぐに利用できる目標領域(視覚)のための良好な特徴抽出器のみを有するため、最初に敵対的生成ネットワークCS-GAN116を用いることで画像をソース領域(温度)から目標領域(視覚)に変換する。これは、CycleGANの変更版である。
CycleGANモデルは、多くの場合、色変換、オブジェクト変形及びスタイル転送等の用途向けのリアルな見た目の画像を生成するために使用される。CycleGANは、サイズ256×256の入力画像を処理し、(例示的な方法が目標領域内のオブジェクトレベルの特徴を抽出できる)豊富なテクスチャ目標画像を合成するのに要する時間は、オブジェクト画像タイルあたり数百ミリ秒である。この処理速度は、リアルタイムなアプリケーションには適していない。オブジェクト検出及び特徴抽出をリアルタイムで実行するため、例示的な方法は、64×64の画像サイズが正確な推論パイプラインを設計するのに十分であることを示している。但し、画像サイズを64×64等の低解像度に縮小しても、CycleGANの推論時間は大幅に改善されない。さらに、生成された視覚イメージは品質が高くなく、ソース領域における特徴抽出には適していない。リアルタイムなビデオ処理シナリオ(25fps)では、フレームを40ミリ秒未満で処理する必要がある。この目標を達成するため、例示的な方法は、(敵対的及び周期損失に加えて)カスタムな知覚的損失関数及び特徴損失関数と共にボトルネックカスケード残差層を用いる、新しい深層学習ネットワークCS-GAN116を提案する。これらの変更により、例示的な方法では推論時間を40ミリ秒未満に改善することが可能になり、生成された画像はよりシャープで、良好で許容できる品質になる。
クロススペクトルGANに関して、CS-GAN116は2つのネットワークを有する。図2は、温度画像から視覚スペクトルオブジェクト画像を合成する第1のネットワーク200を示している。温度パッチ(境界ボックス)が与えられると、第1のネットワーク200における生成器(generator)210は、温度パッチにおける空間的な情報を保存する視覚画像を合成する。一方、第1のネットワーク200の弁別器(discriminator)220は、合成された視覚画像が構造的に健全で、視覚的に均一であり、画像が代表的なオブジェクトレベルの特徴を有するか否かを判断することを学習する。結果は、CS-GAN116(図1)が、より低いフレシェ開始距離(FID:Frechet Inception Distance)スコアで、最先端の生成品質を達成できることを示している。図3で示す第2のネットワーク300は、視覚画像を温度領域に変換する。このような視覚領域から温度領域への逆方向の変換により、CycleGANの循環特性が維持される。
温度から視覚への合成ネットワーク200に関して、ネットワーク200は、生成器ネットワーク210及び弁別器ネットワーク220を含む。生成器ネットワーク210は、対応する温度パッチから視覚画像を合成する。弁別器ネットワーク220は、実際の視覚画像と生成された視覚画像とを区別するために使用される。生成器210と弁別器220との間のこの綱引きは、生成器が良好な合成視覚画像を生成できるように、両方のネットワークの訓練につながる。
温度画像Xが与えられると、生成器GYは、合成視覚画像GY(X)を合成する。合成視覚画像は、元の視覚画像Yと合成視覚画像GY(X)とを区別する弁別器DYを訓練するために使用される。弁別器ネットワーク220は、画像が本物か偽物かを予測することが可能であり、その出力によって弁別器220と生成器210の両方の敵対的損失の計算が可能になる。生成器ネットワークGXは、合成視覚画像GY(X)から元の温度画像を再構成するために使用される。再構成された温度画像はX’=GX(GY(X))である。元の温度画像と合成温度画像との差(つまり、X、X’)を用いて生成器ネットワークGY及びGXを訓練するために必要な周期的損失205を計算する。
合成視覚画像が良好な品質であることを確実にするために、例示的な方法は、画像の超解像及びスタイル転送タスクで通常使用される知覚的損失207を利用する。知覚的損失207は、鮮明な画像を生成するために良好な品質の画像を合成するのに役に立つ。例示的な方法は、事前訓練されたVGG-19ネットワーク225を用いることで知覚的損失207を推定する。図2で示すように、例示的な方法は、元の視覚画像GY(X)をVGGネットワーク225に入力する。特徴は、各最大値プール層の前のネットワークのスライスから抽出される。これらの出力特徴は、L1ノルムを用いて知覚的損失207を計算するために使用される。
合成画像が鮮明で、良好な品質であることを確実にするだけでは不十分である。例示的な方法は、合成画像がオブジェクトにおける重要なランドマークを保持することもまた確実にする。例示的な方法は、新しい損失関数を導入して、顔の特徴や顔のランドマークなどの高レベルのオブジェクトの特徴を合成視覚画像に保持する。ランドマークまたは特徴は、一般的なものでもタスク固有のものでもかまわない。例えば、オブジェクトが顔である場合、例示的な方法は、視覚画像から顔のランドマークを抽出し、特徴間のユークリッド距離を計算する。ソース領域画像及び目標領域画像におけるランドマークを考慮することで、例示的な方法は特徴損失関数209を計算する。
視覚から温度への合成ネットワーク300に関して、視覚から温度への合成ネットワークは、生成器GX及び弁別器DXを有する。再び、例示的な方法は、敵対的損失307を用いて、現実の合成された温度画像を用いて生成器GX及び弁別器DXを訓練する。周期的損失305に関して、例示的な方法は、現実のYと再構成された視覚画像Y'=GY(GX(Y))との間のL1ノルムを計算する。知覚的損失関数309は、現実の温度画像と合成された温度画像X(GX(Y))から計算される。
但し、例示的な方法は、温度から視覚への合成との1つの主要な違いに注目する。温度から視覚へのGANの設計とは異なり、視覚領域ランドマーク推定器は温度画像の特徴を抽出できず、温度領域には既知の信頼できる正確なランドマーク推定器がないため、例示的な方法では生成器GXの訓練に特徴損失を使用できない。
損失関数に関して。
弁別器DY及びDXの出力から計算された敵対的損失(LADV)は、両方の生成器
Figure 2023539865000002
に適用され、弁別器DY及びDXにそれぞれフィードバックされる。温度領域からの訓練サンプルは
Figure 2023539865000003
であり、視覚領域からの訓練サンプルは
Figure 2023539865000004
であり、データ分布は
Figure 2023539865000005
でそれぞれ示される。
Figure 2023539865000006
敵対的訓練は、生成器のコストを最小化し、弁別器のそれを最大化し、最終的に両方のネットワークの訓練につながる。
周期的損失(LCYC)は、元の画像と両方の生成器を通過する再構成された画像との間のエラーを最小化するように機能する。
Figure 2023539865000007
温度領域GX(GY(x))における元の画像間の差は、可能な限り小さくあるべきである。次のように表される画像の周期的な一貫性を満たす必要がある。
Figure 2023539865000008
知覚的損失に関して、クロススペクトル入力画像は解像度が低いことが多いため、知覚的損失を目的関数に追加すると、そのような画像におけるオブジェクトのより細かいテクスチャを抽出するのに役に立つ。この改善は、例示的な方法の入力画像サイズを小さくしてリアルタイムな処理を可能にする。
Figure 2023539865000009
ここで、Nはスライスの数であり、VsiはVGG19ネットワークのi番目のスライスであり、Vsi(・)はそれに対応する特徴である。損失は、両方の領域で現実の画像と生成された画像との間で計算され、生成器にフィードバックされる。
特徴保存損失に関して、例示的な方法は、特徴保存損失(以下のアルゴリズム1)を導入して生成器GYを最適化する。例示的な方法は、視覚スペクトル領域における現実の画像と生成された画像の特徴点の座標間のユークリッドノルムを推定し、訓練が進むにつれてこの誤差を最小化する。これにより、生成器はテクスチャ付きの合成画像を生成できるようになり、様々なオブジェクトや関連するランドマークを簡単かつ高精度に検出できるようになる。
バッチサイズm及びkの特徴点が与えられると、例示的な方法は特徴保存損失を次のように定義する。
Figure 2023539865000010
ここで、
Figure 2023539865000011
は、生成画像及び現実の画像の特徴点であり、
Figure 2023539865000012
は画像内の特徴点の座標であり、
Figure 2023539865000013
は、それを超えるとFPLが追加されるしきい値であり、mRatioは、(特徴を有さない画像の#)/(バッチサイズ)である。
ペアになった視覚的画像及び対応する視覚的オブジェクト画像は、訓練目的で使用される。主な目標は、合成画像がランドマーク/視覚領域内の画像との対応を維持することを確実にし、より少ない反復で写像関数を学習するように生成器を訓練することである。これにより、訓練中にモデルをすばやく収束させることができる。これにより、CS-GANは特徴点セントリックとなり、推論中にオブジェクト固有の特徴が保存される。
特徴保存損失の推定は、以下のアルゴリズム1で説明される。初期の繰り返しにおいて、生成器は正確な特徴を有する画像を再現できない。したがって、例示的な方法は、特徴を検出できず、損失(ミス率)が高すぎる場合、特徴の損失を考慮しない。これにより、この損失が他の損失を支配することが防止される。生成器が顕著な特徴を有する画像を生成できるようになると、例示的な方法は特徴の損失を目的関数全体に追加する。アルゴリズム1で示されるように、例示的な方法は、訓練中に、最初は偽に設定される状態変数フラグを保持する。各バッチの終わりにおいて、例示的な方法は、生成された画像GY(x)から特徴を抽出できたか否かをチェックする。
例示的な方法は、サイズmのバッチにおいて、tfeatを超える特徴が検出できると、フラグを真に設定し、mRatioに関係なく、全体的な損失に特徴損失を含めることを開始する。mRatioは、特徴保存損失に重み付き誤差μを追加することで補償される。これらのエラーはflに追加されないため、μの値は見逃したケースを補うために高い値で維持される。
全体の目的関数は、次で与えられる。
Figure 2023539865000014
ここで、
Figure 2023539865000015
は、周期的損失、知覚的損失及び特徴保存損失に関するハイパーパラメータの重みである。
Figure 2023539865000016
二重ボトルネック残差ブロックに関して、勾配消失は、より多くのネットワークにおいて共通の問題である。偏導関数の連鎖積により、勾配は前の層に逆伝播されるにつれてますます小さくなる。残差ブロックを用いたスキップ接続は、モデルの収束に役に立つスキップ層によって勾配の代替パスを提供する。スキップ層の背後にある直感は、元の参照されていないマッピングを最適化するよりも残差マッピングを最適化する方が簡単だということである。スキップ接続により、初期層(特徴が下位のセマンティック情報に対応する)で捕捉された情報をより多くの層で利用できるようになる。スキップ接続が無いと、低レベルの情報はネットワークにおいてより多く移動するため、難しくなる。基本的な残差ブロックの代わりにボトルネックブロックを使用すると、畳み込みのチャネル数が減るため有益である。これにより、フォワードパスの計算時間が大幅に短縮される。また、オプティマイザの検索スペースが削減されるため、訓練が改善される。
例示的な方法は、図4で示す
Figure 2023539865000017
を用いる4つの畳み込みブロックを含む、二重ボトルネック(二重BRB400)の使用を導入する。関数G(.)は、チャネル数を4分の1に圧縮する。この減少により、恒等関数F(.)のチャネル数が減少する。次に、例示的な方法は、入力チャネルと同様に、チャネル数を4倍に拡張する関数H(.)を有する。例示的な方法は、Dual-BRB400に2つのスキップ接続を有する。内側のスキップ接続は恒等関数F(.)として機能するが、外側のスキップ接続は完全なDual-BRBの恒等式である。外側のスキップ接続は、基本的な残差ブロックと同様に、恒等写像を提供するのに役に立つ。
二重BRB400のブロックは、以下のように表される。
Figure 2023539865000018
二重BRB400からの出力は、
Figure 2023539865000019
である。
基本ボトルネック上に追加される3×3畳み込みは、初期エポック中のロバスト性を追加するが、訓練中の後のエポックでは適切に収束しない。
F(.)にわたる内部スキップ接続は、モデルのロバスト性及び収束を助けながら、それにわたって残差を学習するのを助ける。内部スキップ接続に関する直感は、訓練後のエポック中に勾配の誤差逆伝播法の代替パスを作成することである。これにより、収束が促進され、訓練中の安定性が提供される。
yの最終式には、F(G(x))及びG(x)の組み合わせを含む。勾配の誤差逆伝播法にこの代替パスがあると、ブロック全体を削除するのではなく、特定のブロックに関して必要な場合に関数F(.)を削除するのに役に立つ。
また、yは、H(・)とxの組み合わせを含み、全ブロックにわたる勾配の誤差逆伝播法のための別の代替パスを有する。トランスフォーマ(Transformer)ブロックにおけるこの変更は、生成された画像のリアルタイムな推論、品質及び精度を達成するのに役に立つ。
推論に関して、推論ブロック500が図5で強調されている。適応空間検索から得られる温度オブジェクト画像タイル502は、それらを視覚スペクトル領域に変換する生成器GY(504)に供給される。これらの変換された視覚スペクトル画像506は、特徴点を抽出できるように温度画像の構造情報を保持する。
深度及びオフセット推定器600に関して、図6で示すように、センサに対するシーン内のオブジェクトの距離及びオフセットを推定するため、例示的な方法は、オブジェクト固有の深度知覚ネットワークを導入する。
視覚カメラからの各入力フレームYについて、2Dオブジェクト検出器を用いて対象のオブジェクトが識別される。2Dオブジェクト検出器の性能は、高精度な組み込みシステムでもリアルタイムな推論に適している。視覚センサ及び温度センサの両方は、同一平面上になくベースライン距離で分離されているため、画像は互いに位置合わせされていない。オブジェクトの境界ボックスが視覚領域で識別されると、適応空間検索114(図1)が実行され、温度領域における、センサの変位、センサの視野、ズームレベル、解像度及び相対的な向きの関数であるオブジェクト案が特定される。
視覚画像Yが
Figure 2023539865000020
を含むとする。ここで、nはオブジェクトの数である。
視覚的境界ボックスは、
Figure 2023539865000021
である。ここで、
Figure 2023539865000022
は境界ボックスの幅及び高さでピクセル座標(x、y)を特定する。
温度画像をXとし、関連する温度境界ボックス案は以下とする。
Figure 2023539865000023
ここで、Φは、温度画像の境界ボックスを推定するための変換関数である。Bxは、複数のパラメータを用いて推定される。オブジェクトの境界ボックスの領域は、カメラとオブジェクトとの間の距離が変化しない場合、カメラの焦点距離と正比例する。すなわち、焦点距離が長くなると、視野の範囲が狭くなり、オブジェクトが近くなる。適応検索は、オフセット、画角及び画像解像度を決定するベースライン(カメラ間の距離)bにも依存する。例示的な方法では、両方のカメラの画像解像度が同じであり、視野は95%を超えて交差する。関数Φは、カメラの焦点距離とオフセットの比率を用いてヒューリスティックに計算される。
ペア(RY、RX)及び(fY、fX)は、視覚及び温度画像センサの解像度及び焦点距離を表すものとする。
Figure 2023539865000024
が与えられると、ヒューリスティックな境界ボックスは、
Figure 2023539865000025
として推定される。ここで、
Figure 2023539865000026
は水平オフセットである。
温度オブジェクト案Bxを用いて、各視覚(yi)及び対応する温度(xi)クロップされた案が同じサイズを有するように、視覚オブジェクト案Byが拡張される。
次に、ランドマーク検出がyiに関して実行され、特徴ベクトル
Figure 2023539865000027
が抽出される。
ランドマーク検出はxに関して直接実行できないため、上述したCS-GAN116を用いてGY(xi)にカバーされる。GY(xi)に関してランドマーク検出を行い、特徴ベクトル
Figure 2023539865000028
が抽出される。
zをオブジェクトの特徴視差ベクトルとする。zには、k特徴点間のユークリッド距離とk特徴点間の角度が含まれる。例えば、
Figure 2023539865000029
である。
ここで、
Figure 2023539865000030
である。
例示的な実施形態は、2kの説明変数を用いて多変数線形回帰を訓練することで、センサからの距離(d)及び視覚カメラからの温度画像のオフセット(o)を回帰分析する。例示的な方法は、残りの二乗和を最小化することでリグレッサを訓練する。距離推定モデルの係数を
Figure 2023539865000031
とし、オフセット推定係数を
Figure 2023539865000032
とすると、距離は次のように推定される。
Figure 2023539865000033
ここで、
Figure 2023539865000034
は、距離及びオフセットの残差である。
例示的なネットワークアーキテクチャ700において、図7で示すように、生成器ネットワークは、エンコーダ710、トランスフォーマ720及びデコーダブロック730を含む。エンコーダネットワーク710は、7×7畳み込み層を含み、その後に2つの(ストライド2の)3×3畳み込み層を用いるダウンサンプリングが続く。トランスフォーマネットワーク720は、9つの二重ボトルネック残差ブロック(二重BRB)を含む。各二重BRBには、1×1畳み込み、残差ブロックが含まれ、それに続いて再び1×1畳み込みが含まれ、チャネル数を圧縮して拡張し、計算を削減する。例示的な方法は、3×3畳み込みのフルプレアクティベーション(full pre-activation)残差ブロックを使用する。
残差ブロック間のスキップ接続に加えて、二重BRBの入力からブロックの出力にスキップ接続が追加される。二重BRBは、基本的な残差ブロックの実装と比べて、画質を低下させることなく、推論時間を3.5分の1に短縮する。デコーダネットワーク730は、3×3転置畳み込み(T.CONV)の2つのアップサンプリング層と、tanh活性化を備える7×7畳み込み層とを含む。全ての畳み込み層の後にインスタンス正規化(IN)が続く。弁別器ネットワークDY及びDXは、元の画像と生成された画像においてパッチが本物か偽物かを分類する。
生成器アーキテクチャの訓練は、以下のアルゴリズムによって実行できる。
Figure 2023539865000035
結論として、例示的な方法は、リアルタイムなクロススペクトルアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を提示する。クロススペクトル敵対的生成ネットワーク(CS-GANは、視覚スペクトルと温度スペクトル全体でオブジェクトを一意に関連付けるために必要な、主要な代表的なオブジェクトレベルの特徴を有する視覚画像を合成する。CS-GANの特徴には、対応するクロススペクトルオブジェクトの高品質なペアリングをもたらす損失関数を保持する機能、並びにリアルタイム推論を高速化するだけでなく、モデル訓練中の収束を高速化するスキップ接続(新しいネットワーク拡張機能)を備えた二重ボトルネック残差層を含む。CS-GANからの特徴レベルの対応を用いることで、温度とフルHD視覚データストリームの情報を正確に統合する新しいリアルタイムなシステムが作成される。
図8は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための実際のアプリケーションのブロック/フロー図800である。
1つの実際例において、1つまたは複数のセンサ802が、オブジェクト804、806等のオブジェクトを検出し、視覚ストリーム及び温度ストリームをCS-GAN116に提供する。CS-GAN116は、特徴保存損失関数850及びスキップ接続を備える二重ボトルネック残差層接続860を含む。結果810(例えば、対象オブジェクト)は、ユーザ814によって取り扱われるユーザインターフェース812に提供または表示できる。
図9は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な処理システムを示す図である。
処理システムは、システムバス902を介して他のコンポーネントと動作可能に接続された少なくとも1つのプロセッサ(CPU)904を含む。システムバス1002には、GPU905、キャッシュ906、読み取り専用メモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ9400及び/またはディスプレイアダプタ960が動作可能に接続されている。さらに、CS-GAN116が、特徴保存損失関数850及びスキップ接続860を備える二重ボトルネック残差層を用いることで採用される。
記憶装置922は、I/Oアダプタ920によってシステムバス902に動作可能に接続されている。記憶装置922は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置等のいずれであってもよい。
トランシーバ932は、ネットワークアダプタ930によってシステムバス902に動作可能に接続されている。
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902に動作可能に接続されている。ユーザ入力装置942は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置942は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置942は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図10は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な方法のブロック/フロー図である。
ブロック1010において、クロススペクトル敵対的生成ネットワーク(CS-GAN)により、複数の異なるタイプのセンサから得られた異なるデータストリームからの視覚画像を合成する。
ブロック1020において、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす、特徴保存損失関数を適用する。
ブロック1030において、リアルタイム推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図する。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法であって、
    複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、
    対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、
    リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)、方法。
  2. 第1のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも1つのデータストリームにおいてオブジェクト検出が実行される、請求項1に記載の方法。
  3. 第2のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも1つのデータストリームにおいて適応空間検索が実行される、請求項2に記載の方法。
  4. 前記第1のオブジェクトが第1の特徴抽出器に供給され、前記第2のオブジェクトが、データ変換のために前記CS-GANに供給された後、第2の特徴抽出器に供給される、請求項3に記載の方法。
  5. 前記CS-GANは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項1に記載の方法。
  6. 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークである、請求項1に記載の方法。
  7. 前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項6に記載の方法。
  8. 周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項7に記載の方法。
  9. オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項1に記載の方法。
  10. リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
    前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
    複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成させ(1010)、
    対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ(1020)、
    リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる(1030)、非一時的なコンピュータで読み取り可能な記録媒体。
  11. 第1のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも1つのデータストリームにおいてオブジェクト検出が実行される、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  12. 第2のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも1つのデータストリームにおいて適応空間検索が実行される、請求項11に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  13. 前記第1のオブジェクトが第1の特徴抽出器に供給され、前記第2のオブジェクトが、データ変換のために前記CS-GANに供給された後、第2の特徴抽出器に供給される、請求項12に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  14. 前記CS-GANは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  15. 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークである、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  16. 前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項15に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  17. 周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項16に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  18. オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  19. リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムであって、
    メモリと、
    複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク(CS-GAN)によって合成し(1010)、
    対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し(1020)、
    リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する(1030)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
    を有するシステム。
  20. 前記CS-GANは第1のネットワーク及び第2のネットワークを含み、前記第1のネットワークは温度対視覚合成ネットワークであり、前記第2のネットワークは視覚対温度合成ネットワークであり、前記第1のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別し、周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用された、請求項19に記載のシステム。
JP2023513468A 2020-10-09 2021-10-07 リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定 Pending JP2023539865A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063089703P 2020-10-09 2020-10-09
US63/089,703 2020-10-09
US17/494,979 US20220114380A1 (en) 2020-10-09 2021-10-06 Real-time cross-spectral object association and depth estimation
US17/494,979 2021-10-06
PCT/US2021/053919 WO2022076655A1 (en) 2020-10-09 2021-10-07 Real-time cross-spectral object association and depth estimation

Publications (1)

Publication Number Publication Date
JP2023539865A true JP2023539865A (ja) 2023-09-20

Family

ID=81079315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023513468A Pending JP2023539865A (ja) 2020-10-09 2021-10-07 リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定

Country Status (4)

Country Link
US (1) US20220114380A1 (ja)
JP (1) JP2023539865A (ja)
DE (1) DE112021005375T5 (ja)
WO (1) WO2022076655A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863293B (zh) * 2022-05-07 2023-07-18 中国石油大学(华东) 一种基于双分支gan网络的高光谱溢油检测方法
US11836825B1 (en) * 2022-05-23 2023-12-05 Dell Products L.P. System and method for detecting postures of a user of an information handling system (IHS) during extreme lighting conditions
US11895344B1 (en) 2022-12-09 2024-02-06 International Business Machines Corporation Distribution of media content enhancement with generative adversarial network migration

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1014791A6 (nl) 2002-04-22 2004-04-06 Picanol Nv Weefmachine.
EP3598344A1 (en) * 2018-07-19 2020-01-22 Nokia Technologies Oy Processing sensor data

Also Published As

Publication number Publication date
US20220114380A1 (en) 2022-04-14
WO2022076655A1 (en) 2022-04-14
DE112021005375T5 (de) 2023-07-27

Similar Documents

Publication Publication Date Title
US10832432B2 (en) Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image
de La Garanderie et al. Eliminating the blind spot: Adapting 3d object detection and monocular depth estimation to 360 panoramic imagery
US11205298B2 (en) Method and system for creating a virtual 3D model
US20210227126A1 (en) Deep learning inference systems and methods for imaging systems
JP2023539865A (ja) リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定
JP2019211900A (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
AU2013407879A1 (en) Slam on a mobile device
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
US11810311B2 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
JP7091485B2 (ja) 運動物体検出およびスマート運転制御方法、装置、媒体、並びに機器
KR20200132468A (ko) 첨단 운전자 지원 장치 및 이의 객체를 검출하는 방법
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN116194951A (zh) 用于基于立体视觉的3d对象检测与分割的方法和装置
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN112257617B (zh) 多模态目标识别方法和系统
CN105374043B (zh) 视觉里程计背景过滤方法及装置
KR101189043B1 (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
Yang et al. Towards generic 3d tracking in RGBD videos: Benchmark and baseline
Liu et al. Deep learning for 3D human pose estimation and mesh recovery: A survey
Zhang et al. Spatio-temporal fusion of LiDAR and camera data for omnidirectional depth perception
Guo et al. Robust Full-Fov Depth Estimation in Tele-Wide Camera System
Bühler et al. Deep Unsupervised Common Representation Learning for LiDAR and Camera Data using Double Siamese Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212