JP2023539865A

JP2023539865A - リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定

Info

Publication number: JP2023539865A
Application number: JP2023513468A
Authority: JP
Inventors: ムルガンサンカラダス、; クナルラオ、; イヤン、; ビプロブデブナス、; ウツァブドロリア、; スリマットチャクラッダー、; アミットレドカー、; ラヴィカイラサムラジェンドラン、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2020-10-09
Filing date: 2021-10-07
Publication date: 2023-09-20
Also published as: US20220114380A1; WO2022076655A1; DE112021005375T5

Abstract

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成し（１０１０）、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し（１０２０）、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する（１０３０）ことを含む。【選択図】図１０

Description

この出願は、２０２０年１０月９日に出願された米国特許仮出願第６３／０８９，７０３号及び２０２１年１０月６日に出願された米国特許出願第１７／４９４，９７９号を基礎とする優先権を主張し、それぞれの開示の全てをここに取り込む。

本発明は、クロススペクトル変換及びマッチングに関し、より詳細には、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定に関する。

複数のセンサ様式で捕捉されたデータを統合して、オブジェクトの位置を検出及び特定し、深度を把握することは、センサの避けられない物理的な変位及び様々なタイプのセンサストリームにおける非常に異なるセマンティックな情報のために困難な作業である。

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法が提示される。本方法は、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用することを含む。

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体が提示される。コンピュータで読み取り可能なプログラムは、コンピュータで実行されると、コンピュータに、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成させ、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる。

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムが提示される。本システムは、メモリと、複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成し、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し、リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用するように構成された、前記メモリと通信する１つまたは複数のプロセッサとを含む。

これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。

図１は、本発明の実施形態による、例示的なオブジェクトの位置特定アーキテクチャのブロック／フロー図である。

図２は、本発明の実施形態による、例示的な温度対視覚合成アーキテクチャのブロック／フロー図である。

図３は、本発明の実施形態による、例示的な視覚対温度合成アーキテクチャのブロック／フロー図である。

図４は、本発明の実施形態による、例示的な二重ボトルネック残差ブロックのブロック／フロー図である。

図５は、本発明の実施形態による、例示的なクロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ：cross-spectral generative adversarial network）推論のブロック／フロー図である。

図６は、本発明の実施形態による、例示的な深度及びオフセット推定器のブロック／フロー図である。

図７は、本発明の実施形態による、例示的な生成器ネットワークアーキテクチャのブロック／フロー図である。

図８は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な実際のアプリケーションを示す図である。

図９は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な処理システムを示す図である。

図１０は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための例示的な方法のブロック／フロー図である。

多くの新しいアプリケーションは、センシング機能の向上につながる、弱点を相殺しつつ様々なセンシング様式の長所を補完的に活用するために、様々なセンサからのデータストリームを組み合わせている。このようなセンサの統合は、個々のセンサの情報、範囲及び精度の制限を排除する、豊富なコンテキストアウェアデータを生成する。例として、自動運転車が考えられる。課題は、手頃なセンサコストと組み込みコンピュータの制約の下で、車の３Ｄ環境をリアルタイムで適切に理解することである。車のあらゆる側面に設置されたカメラは、オブジェクトを認識し、周囲の３６０度の景色をまとめようとする。レーダーは、夜間の運転等の視界が悪いときにカメラの視界を補い、オブジェクトの速度及び位置に関するデータを提供する。ＬｉＤＡＲは、カメラやレーダーでは不可能な暗い場所でもオブジェクトとの距離を測定し、深度を把握する。そのため、自動運転車は１種類のセンサだけに頼るのではなく、様々なセンサからのデータを組み合わせて、リアルタイムな視覚、自律性、信頼性及び冗長性を実現する。視覚カメラと深度センサとを同時に用いるその他のアプリケーションには、人物の姿勢推定、行動認識、位置特定とマッピングの同時実行、人物の追跡等がある。バイオメトリック決済システム、認証及び無人アクセス制御システム等の顔認識ベースのアプリケーション、健康あるいは体温上昇等の人の状態を推測する発熱スクリーニングソリューション、並びに様々な新しいビデオ監視システムの精度及び速度を向上させるために、視覚センサと温度センサを併用することが増えている。

観察される３Ｄシーンにおけるオブジェクトの検出、位置特定及び深度を把握する能力は、自動製造、検査及び品質保証、並びに人とロボットとの相互作用等の多くの用途における重要な必要条件である。但し、単一様式のセンシングシステムには、克服するのが本質的に困難な制限があり、多くの新しいセンシングアプリケーションでは不十分である。例えば、単一のカメラの認識システムでは、信頼性の高い３Ｄ形状を提供できず、平均精度はＬｉＤＡＲベースのシステムよりも６０％低下する。複数のカメラシステム（ステレオカメラ）は、正確な３Ｄ形状を提供できるが、計算コストが高く、オクルージョンが多くテクスチャのない環境、または照明が不十分な環境ではパフォーマンスが低下する。ＬｉＤＡＲは、周囲の光に関係なく、高精度な３Ｄ形状を提供するが、コストが高いこと、大雨、霧、雪等の厳しい気象条件でのパフォーマンスが低いこと、オブジェクトや視覚カメラを認識または分類できないことで制限される。単一様式のセンシングシステムの制限を軽減するために、視覚カメラ及びＬｉＤＡＲからのデータストリームのセンサの統合、視覚データストリーム及び温度データストリームの統合、ＬｉＤＡＲ及び温度データストリームの統合等のクロススペクトル統合が新たな研究テーマである。

複数のセンサ様式で捕捉されたデータを統合するときの一般的な問題は、該データストリームにおける対応する領域を見つけることである。これは自明ではないタスクである。第１に、センサの物理的な位置ずれにより、それらの視野が一致しない。第２に、センサストリームに含まれるセマンティック情報とデータフォーマットとが大きく異なる。視覚（ＲＧＢ）カメラは、実世界をピクセル強度の密で規則的で順序付けられた離散２Ｄ配列、つまりオブジェクトを認識または分類するための豊富な視覚情報を含む画像を投影する。対照的に、ＬｉＤＡＲ等の深度センサからのデータは、まばらで不規則で順序のない点群において３Ｄ形状と構造情報を保持し、物理距離の連続する値を保持する。視覚カメラや深度センサとは対照的に、サーマルカメラは、オブジェクトで透過及び反射されることで放出された、温度とともに増加する放射エネルギーを検出する。温度データにより、人は温度の変化を確認し、識別可能な温度シグネチャを計算できる。第３に、複数のセンサ様式を用いた３Ｄシーンのオブジェクトの特定、検出、認識及び深度の把握は、アプリケーションに固有の手頃なコスト及びリソースの制約の下でリアルタイムなパフォーマンスを提供する必要があるため、さらに複雑になる。

それを考慮して、例示的な方法は、リアルタイムなアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を導入する。例示的な方法は、視覚及び温度データストリームを用いた概念で示すが、提案する技術はセンサタイプとセンシング様式の他の組み合わせにも適用できる。利点には、少なくとも次のものが含まれる。

温度データから視覚スペクトルオブジェクト画像を合成するクロススペクトル深層学習敵対的生成ネットワークであるＣＳ－ＧＡＮを使用する。ＣＳ－ＧＡＮは、合成された画像が視覚的に均一であり、視覚スペクトルで検出されたオブジェクトと一意に関連付けるために必要な主要な代表的なオブジェクトレベルの特徴を備えることを確実にする。これは、視覚ストリームと温度ストリームにおけるオブジェクトのリアルタイムな特徴レベルの関連付けを可能にする第１の手法として現れる。

ＣＳ－ＧＡＮは、計算集約型のピクセルレベルのアプローチでは実現が困難であった、対応する領域の高品質なペアリングをリアルタイムでもたらす特徴保存損失関数をさらに含む。スキップ接続を備える二重ボトルネック残差層を活用してリアルタイムな推論を加速し、モデル訓練中の収束を高速化するネットワーク拡張機能も導入される。ＣＳ－ＧＡＮからのオブジェクトの特徴レベルの対応を活用して位置を推定するための多変数線形回帰モデルも提供される。これにより、通常、視覚ＲＧＢカメラとサーマルカメラとの間に内在する（光学中心及び焦点距離）、並びに付帯的な（カメラの位置）のパラメータを考慮する必要がある、視覚カメラ及びサーマルカメラの幾何学的な較正を考慮する必要がなくなる。

フルハイビジョン（ＨＤ）の視覚的及び非視覚的データストリームにおいて対応するオブジェクトを見つけるためのリアルタイムシステムがさらに導入される。オブジェクトの特徴レベル対応を用いることで、例示的な方法は、より計算集中的なピクセルレベルのクロススペクトル立体映像を回避する。

図１は、提案するオブジェクトの位置特定アプローチを示している。

視覚ストリーム１０２は、オブジェクト検出器１０４に提供される。温度ストリーム１１２は、適応空間検索器１１４に提供される。視覚ストリーム１０２からオブジェクト検出器１０４によって判定または抽出された視覚オブジェクト１０５は、特徴抽出器１０６だけでなく、適応空間検索器１１４にも提供される。温度ストリーム１１２から抽出された温度オブジェクト１１５は、ＣＳ－ＧＡＮ１１６に提供され、そこでデータが変換されて特徴抽出器１１８に提供される。特徴抽出器１０６、１１８からのデータは、深度知覚ネットワーク１２２を生成し、オブジェクトの位置を判定する、特徴統合器１２０によって統合または組み合わされる。

入力温度ストリームデータは、紫外（ＵＶ）、近赤外線または遠赤外線等の様々な電磁スペクトルのものである。例示的な方法は、視覚及び温度データストリームのみを考慮しているが、例示的なアプローチは、深度ストリーム（点群）等の他のスペクトル様式と共に用いてもよい。図１では、入力視覚ストリーム１０２が目標領域である。例示的な方法は、該目標領域におけるオブジェクト検出器１０４を用いて、顔、人または車両等のオブジェクトを検出する。オブジェクト検出器１０４からの境界ボックスを用いて、例示的な方法は、ソース領域でもある温度スペクトルにおいて適応空間検索１１４を実行し、いくつかの候補境界ボックス案を形成する。これにより、そのようなデータのテクスチャのない性質に起因する、正確なオブジェクト検出が既知の問題である温度領域における良好なオブジェクト検出器の必要性が回避される。

センサの変位により、クロススペクトル画像ペアにおける対応するオブジェクトは整列していない。対応するクロススペクトルオブジェクト画像の空間的な変位及び向きは、２つのセンサの軸に対する距離とオフセットの両方の関数である。例示的な方法は、すぐに利用できる目標領域（視覚）のための良好な特徴抽出器のみを有するため、最初に敵対的生成ネットワークＣＳ－ＧＡＮ１１６を用いることで画像をソース領域（温度）から目標領域（視覚）に変換する。これは、ＣｙｃｌｅＧＡＮの変更版である。

ＣｙｃｌｅＧＡＮモデルは、多くの場合、色変換、オブジェクト変形及びスタイル転送等の用途向けのリアルな見た目の画像を生成するために使用される。ＣｙｃｌｅＧＡＮは、サイズ２５６×２５６の入力画像を処理し、（例示的な方法が目標領域内のオブジェクトレベルの特徴を抽出できる）豊富なテクスチャ目標画像を合成するのに要する時間は、オブジェクト画像タイルあたり数百ミリ秒である。この処理速度は、リアルタイムなアプリケーションには適していない。オブジェクト検出及び特徴抽出をリアルタイムで実行するため、例示的な方法は、６４×６４の画像サイズが正確な推論パイプラインを設計するのに十分であることを示している。但し、画像サイズを６４×６４等の低解像度に縮小しても、ＣｙｃｌｅＧＡＮの推論時間は大幅に改善されない。さらに、生成された視覚イメージは品質が高くなく、ソース領域における特徴抽出には適していない。リアルタイムなビデオ処理シナリオ（２５ｆｐｓ）では、フレームを４０ミリ秒未満で処理する必要がある。この目標を達成するため、例示的な方法は、（敵対的及び周期損失に加えて）カスタムな知覚的損失関数及び特徴損失関数と共にボトルネックカスケード残差層を用いる、新しい深層学習ネットワークＣＳ－ＧＡＮ１１６を提案する。これらの変更により、例示的な方法では推論時間を４０ミリ秒未満に改善することが可能になり、生成された画像はよりシャープで、良好で許容できる品質になる。

クロススペクトルＧＡＮに関して、ＣＳ－ＧＡＮ１１６は２つのネットワークを有する。図２は、温度画像から視覚スペクトルオブジェクト画像を合成する第１のネットワーク２００を示している。温度パッチ（境界ボックス）が与えられると、第１のネットワーク２００における生成器（generator）２１０は、温度パッチにおける空間的な情報を保存する視覚画像を合成する。一方、第１のネットワーク２００の弁別器（discriminator）２２０は、合成された視覚画像が構造的に健全で、視覚的に均一であり、画像が代表的なオブジェクトレベルの特徴を有するか否かを判断することを学習する。結果は、ＣＳ－ＧＡＮ１１６（図１）が、より低いフレシェ開始距離（ＦＩＤ：Frechet Inception Distance）スコアで、最先端の生成品質を達成できることを示している。図３で示す第２のネットワーク３００は、視覚画像を温度領域に変換する。このような視覚領域から温度領域への逆方向の変換により、ＣｙｃｌｅＧＡＮの循環特性が維持される。

温度から視覚への合成ネットワーク２００に関して、ネットワーク２００は、生成器ネットワーク２１０及び弁別器ネットワーク２２０を含む。生成器ネットワーク２１０は、対応する温度パッチから視覚画像を合成する。弁別器ネットワーク２２０は、実際の視覚画像と生成された視覚画像とを区別するために使用される。生成器２１０と弁別器２２０との間のこの綱引きは、生成器が良好な合成視覚画像を生成できるように、両方のネットワークの訓練につながる。

温度画像Ｘが与えられると、生成器Ｇ_Yは、合成視覚画像Ｇ_Y（Ｘ）を合成する。合成視覚画像は、元の視覚画像Ｙと合成視覚画像Ｇ_Y（Ｘ）とを区別する弁別器Ｄ_Yを訓練するために使用される。弁別器ネットワーク２２０は、画像が本物か偽物かを予測することが可能であり、その出力によって弁別器２２０と生成器２１０の両方の敵対的損失の計算が可能になる。生成器ネットワークＧ_Xは、合成視覚画像Ｇ_Y（Ｘ）から元の温度画像を再構成するために使用される。再構成された温度画像はＸ’＝Ｇ_X（Ｇ_Y（Ｘ））である。元の温度画像と合成温度画像との差（つまり、Ｘ、Ｘ’）を用いて生成器ネットワークＧ_Y及びＧ_Xを訓練するために必要な周期的損失２０５を計算する。

合成視覚画像が良好な品質であることを確実にするために、例示的な方法は、画像の超解像及びスタイル転送タスクで通常使用される知覚的損失２０７を利用する。知覚的損失２０７は、鮮明な画像を生成するために良好な品質の画像を合成するのに役に立つ。例示的な方法は、事前訓練されたＶＧＧ－１９ネットワーク２２５を用いることで知覚的損失２０７を推定する。図２で示すように、例示的な方法は、元の視覚画像Ｇ_Y（Ｘ）をＶＧＧネットワーク２２５に入力する。特徴は、各最大値プール層の前のネットワークのスライスから抽出される。これらの出力特徴は、Ｌ１ノルムを用いて知覚的損失２０７を計算するために使用される。

合成画像が鮮明で、良好な品質であることを確実にするだけでは不十分である。例示的な方法は、合成画像がオブジェクトにおける重要なランドマークを保持することもまた確実にする。例示的な方法は、新しい損失関数を導入して、顔の特徴や顔のランドマークなどの高レベルのオブジェクトの特徴を合成視覚画像に保持する。ランドマークまたは特徴は、一般的なものでもタスク固有のものでもかまわない。例えば、オブジェクトが顔である場合、例示的な方法は、視覚画像から顔のランドマークを抽出し、特徴間のユークリッド距離を計算する。ソース領域画像及び目標領域画像におけるランドマークを考慮することで、例示的な方法は特徴損失関数２０９を計算する。

視覚から温度への合成ネットワーク３００に関して、視覚から温度への合成ネットワークは、生成器Ｇ_X及び弁別器Ｄ_Xを有する。再び、例示的な方法は、敵対的損失３０７を用いて、現実の合成された温度画像を用いて生成器Ｇ_X及び弁別器Ｄ_Xを訓練する。周期的損失３０５に関して、例示的な方法は、現実のＹと再構成された視覚画像Ｙ'＝Ｇ_Y（Ｇ_X（Ｙ））との間のＬ１ノルムを計算する。知覚的損失関数３０９は、現実の温度画像と合成された温度画像Ｘ（Ｇ_X（Ｙ））から計算される。

但し、例示的な方法は、温度から視覚への合成との１つの主要な違いに注目する。温度から視覚へのＧＡＮの設計とは異なり、視覚領域ランドマーク推定器は温度画像の特徴を抽出できず、温度領域には既知の信頼できる正確なランドマーク推定器がないため、例示的な方法では生成器Ｇ_Xの訓練に特徴損失を使用できない。

損失関数に関して。

弁別器Ｄ_Y及びＤ_Xの出力から計算された敵対的損失（Ｌ_ADV）は、両方の生成器

に適用され、弁別器Ｄ_Y及びＤ_Xにそれぞれフィードバックされる。温度領域からの訓練サンプルは

であり、視覚領域からの訓練サンプルは

であり、データ分布は

でそれぞれ示される。

敵対的訓練は、生成器のコストを最小化し、弁別器のそれを最大化し、最終的に両方のネットワークの訓練につながる。

周期的損失（Ｌ_CYC）は、元の画像と両方の生成器を通過する再構成された画像との間のエラーを最小化するように機能する。

温度領域Ｇ_X（Ｇ_Y（x））における元の画像間の差は、可能な限り小さくあるべきである。次のように表される画像の周期的な一貫性を満たす必要がある。

知覚的損失に関して、クロススペクトル入力画像は解像度が低いことが多いため、知覚的損失を目的関数に追加すると、そのような画像におけるオブジェクトのより細かいテクスチャを抽出するのに役に立つ。この改善は、例示的な方法の入力画像サイズを小さくしてリアルタイムな処理を可能にする。

ここで、Ｎはスライスの数であり、Ｖ_siはＶＧＧ１９ネットワークのｉ番目のスライスであり、Ｖ_si（・）はそれに対応する特徴である。損失は、両方の領域で現実の画像と生成された画像との間で計算され、生成器にフィードバックされる。

特徴保存損失に関して、例示的な方法は、特徴保存損失（以下のアルゴリズム１）を導入して生成器Ｇ_Yを最適化する。例示的な方法は、視覚スペクトル領域における現実の画像と生成された画像の特徴点の座標間のユークリッドノルムを推定し、訓練が進むにつれてこの誤差を最小化する。これにより、生成器はテクスチャ付きの合成画像を生成できるようになり、様々なオブジェクトや関連するランドマークを簡単かつ高精度に検出できるようになる。

バッチサイズｍ及びｋの特徴点が与えられると、例示的な方法は特徴保存損失を次のように定義する。

ここで、

は、生成画像及び現実の画像の特徴点であり、

は画像内の特徴点の座標であり、

は、それを超えるとＦＰＬが追加されるしきい値であり、ｍＲａｔｉｏは、（特徴を有さない画像の＃）／（バッチサイズ）である。

ペアになった視覚的画像及び対応する視覚的オブジェクト画像は、訓練目的で使用される。主な目標は、合成画像がランドマーク／視覚領域内の画像との対応を維持することを確実にし、より少ない反復で写像関数を学習するように生成器を訓練することである。これにより、訓練中にモデルをすばやく収束させることができる。これにより、ＣＳ－ＧＡＮは特徴点セントリックとなり、推論中にオブジェクト固有の特徴が保存される。

特徴保存損失の推定は、以下のアルゴリズム１で説明される。初期の繰り返しにおいて、生成器は正確な特徴を有する画像を再現できない。したがって、例示的な方法は、特徴を検出できず、損失（ミス率）が高すぎる場合、特徴の損失を考慮しない。これにより、この損失が他の損失を支配することが防止される。生成器が顕著な特徴を有する画像を生成できるようになると、例示的な方法は特徴の損失を目的関数全体に追加する。アルゴリズム１で示されるように、例示的な方法は、訓練中に、最初は偽に設定される状態変数フラグを保持する。各バッチの終わりにおいて、例示的な方法は、生成された画像Ｇ_Y（ｘ）から特徴を抽出できたか否かをチェックする。

例示的な方法は、サイズｍのバッチにおいて、ｔ_featを超える特徴が検出できると、フラグを真に設定し、ｍＲａｔｉｏに関係なく、全体的な損失に特徴損失を含めることを開始する。ｍＲａｔｉｏは、特徴保存損失に重み付き誤差μを追加することで補償される。これらのエラーはｆｌに追加されないため、μの値は見逃したケースを補うために高い値で維持される。

全体の目的関数は、次で与えられる。

ここで、

は、周期的損失、知覚的損失及び特徴保存損失に関するハイパーパラメータの重みである。

二重ボトルネック残差ブロックに関して、勾配消失は、より多くのネットワークにおいて共通の問題である。偏導関数の連鎖積により、勾配は前の層に逆伝播されるにつれてますます小さくなる。残差ブロックを用いたスキップ接続は、モデルの収束に役に立つスキップ層によって勾配の代替パスを提供する。スキップ層の背後にある直感は、元の参照されていないマッピングを最適化するよりも残差マッピングを最適化する方が簡単だということである。スキップ接続により、初期層（特徴が下位のセマンティック情報に対応する）で捕捉された情報をより多くの層で利用できるようになる。スキップ接続が無いと、低レベルの情報はネットワークにおいてより多く移動するため、難しくなる。基本的な残差ブロックの代わりにボトルネックブロックを使用すると、畳み込みのチャネル数が減るため有益である。これにより、フォワードパスの計算時間が大幅に短縮される。また、オプティマイザの検索スペースが削減されるため、訓練が改善される。

例示的な方法は、図４で示す

を用いる４つの畳み込みブロックを含む、二重ボトルネック（二重ＢＲＢ４００）の使用を導入する。関数Ｇ（．）は、チャネル数を４分の１に圧縮する。この減少により、恒等関数Ｆ（．）のチャネル数が減少する。次に、例示的な方法は、入力チャネルと同様に、チャネル数を４倍に拡張する関数Ｈ（．）を有する。例示的な方法は、Ｄｕａｌ－ＢＲＢ４００に２つのスキップ接続を有する。内側のスキップ接続は恒等関数Ｆ（．）として機能するが、外側のスキップ接続は完全なＤｕａｌ－ＢＲＢの恒等式である。外側のスキップ接続は、基本的な残差ブロックと同様に、恒等写像を提供するのに役に立つ。

二重ＢＲＢ４００のブロックは、以下のように表される。

二重ＢＲＢ４００からの出力は、

である。

基本ボトルネック上に追加される３×３畳み込みは、初期エポック中のロバスト性を追加するが、訓練中の後のエポックでは適切に収束しない。

Ｆ（．）にわたる内部スキップ接続は、モデルのロバスト性及び収束を助けながら、それにわたって残差を学習するのを助ける。内部スキップ接続に関する直感は、訓練後のエポック中に勾配の誤差逆伝播法の代替パスを作成することである。これにより、収束が促進され、訓練中の安定性が提供される。

ｙの最終式には、Ｆ（Ｇ（ｘ））及びＧ（ｘ）の組み合わせを含む。勾配の誤差逆伝播法にこの代替パスがあると、ブロック全体を削除するのではなく、特定のブロックに関して必要な場合に関数Ｆ（．）を削除するのに役に立つ。

また、ｙは、Ｈ（・）とｘの組み合わせを含み、全ブロックにわたる勾配の誤差逆伝播法のための別の代替パスを有する。トランスフォーマ（Transformer）ブロックにおけるこの変更は、生成された画像のリアルタイムな推論、品質及び精度を達成するのに役に立つ。

推論に関して、推論ブロック５００が図５で強調されている。適応空間検索から得られる温度オブジェクト画像タイル５０２は、それらを視覚スペクトル領域に変換する生成器Ｇ_Y（５０４）に供給される。これらの変換された視覚スペクトル画像５０６は、特徴点を抽出できるように温度画像の構造情報を保持する。

深度及びオフセット推定器６００に関して、図６で示すように、センサに対するシーン内のオブジェクトの距離及びオフセットを推定するため、例示的な方法は、オブジェクト固有の深度知覚ネットワークを導入する。

視覚カメラからの各入力フレームＹについて、２Ｄオブジェクト検出器を用いて対象のオブジェクトが識別される。２Ｄオブジェクト検出器の性能は、高精度な組み込みシステムでもリアルタイムな推論に適している。視覚センサ及び温度センサの両方は、同一平面上になくベースライン距離で分離されているため、画像は互いに位置合わせされていない。オブジェクトの境界ボックスが視覚領域で識別されると、適応空間検索１１４（図１）が実行され、温度領域における、センサの変位、センサの視野、ズームレベル、解像度及び相対的な向きの関数であるオブジェクト案が特定される。

視覚画像Ｙが

を含むとする。ここで、ｎはオブジェクトの数である。

視覚的境界ボックスは、

である。ここで、

は境界ボックスの幅及び高さでピクセル座標（ｘ、ｙ）を特定する。

温度画像をＸとし、関連する温度境界ボックス案は以下とする。

ここで、Φは、温度画像の境界ボックスを推定するための変換関数である。Ｂ_xは、複数のパラメータを用いて推定される。オブジェクトの境界ボックスの領域は、カメラとオブジェクトとの間の距離が変化しない場合、カメラの焦点距離と正比例する。すなわち、焦点距離が長くなると、視野の範囲が狭くなり、オブジェクトが近くなる。適応検索は、オフセット、画角及び画像解像度を決定するベースライン（カメラ間の距離）ｂにも依存する。例示的な方法では、両方のカメラの画像解像度が同じであり、視野は９５％を超えて交差する。関数Φは、カメラの焦点距離とオフセットの比率を用いてヒューリスティックに計算される。

ペア（Ｒ_Y、Ｒ_X）及び（ｆ_Y、ｆ_X）は、視覚及び温度画像センサの解像度及び焦点距離を表すものとする。

が与えられると、ヒューリスティックな境界ボックスは、

として推定される。ここで、

は水平オフセットである。

温度オブジェクト案Ｂ_xを用いて、各視覚（ｙ_i）及び対応する温度（ｘ_i）クロップされた案が同じサイズを有するように、視覚オブジェクト案Ｂ_yが拡張される。

次に、ランドマーク検出がｙ_iに関して実行され、特徴ベクトル

が抽出される。

ランドマーク検出はｘに関して直接実行できないため、上述したＣＳ－ＧＡＮ１１６を用いてＧ_Y（ｘ_i）にカバーされる。Ｇ_Y（ｘ_i）に関してランドマーク検出を行い、特徴ベクトル

が抽出される。

ｚをオブジェクトの特徴視差ベクトルとする。ｚには、ｋ特徴点間のユークリッド距離とｋ特徴点間の角度が含まれる。例えば、

である。

ここで、

である。

例示的な実施形態は、２ｋの説明変数を用いて多変数線形回帰を訓練することで、センサからの距離（ｄ）及び視覚カメラからの温度画像のオフセット（ｏ）を回帰分析する。例示的な方法は、残りの二乗和を最小化することでリグレッサを訓練する。距離推定モデルの係数を

とし、オフセット推定係数を

とすると、距離は次のように推定される。

ここで、

は、距離及びオフセットの残差である。

例示的なネットワークアーキテクチャ７００において、図７で示すように、生成器ネットワークは、エンコーダ７１０、トランスフォーマ７２０及びデコーダブロック７３０を含む。エンコーダネットワーク７１０は、７×７畳み込み層を含み、その後に２つの（ストライド２の）３×３畳み込み層を用いるダウンサンプリングが続く。トランスフォーマネットワーク７２０は、９つの二重ボトルネック残差ブロック（二重ＢＲＢ）を含む。各二重ＢＲＢには、１×１畳み込み、残差ブロックが含まれ、それに続いて再び１×１畳み込みが含まれ、チャネル数を圧縮して拡張し、計算を削減する。例示的な方法は、３×３畳み込みのフルプレアクティベーション（full pre-activation）残差ブロックを使用する。

残差ブロック間のスキップ接続に加えて、二重ＢＲＢの入力からブロックの出力にスキップ接続が追加される。二重ＢＲＢは、基本的な残差ブロックの実装と比べて、画質を低下させることなく、推論時間を３．５分の１に短縮する。デコーダネットワーク７３０は、３×３転置畳み込み（Ｔ．ＣＯＮＶ）の２つのアップサンプリング層と、ｔａｎｈ活性化を備える７×７畳み込み層とを含む。全ての畳み込み層の後にインスタンス正規化（ＩＮ）が続く。弁別器ネットワークＤ_Y及びＤ_Xは、元の画像と生成された画像においてパッチが本物か偽物かを分類する。

生成器アーキテクチャの訓練は、以下のアルゴリズムによって実行できる。

結論として、例示的な方法は、リアルタイムなクロススペクトルアプリケーションのためのクロススペクトルオブジェクトの関連付け及び深度推定技術を提示する。クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮは、視覚スペクトルと温度スペクトル全体でオブジェクトを一意に関連付けるために必要な、主要な代表的なオブジェクトレベルの特徴を有する視覚画像を合成する。ＣＳ－ＧＡＮの特徴には、対応するクロススペクトルオブジェクトの高品質なペアリングをもたらす損失関数を保持する機能、並びにリアルタイム推論を高速化するだけでなく、モデル訓練中の収束を高速化するスキップ接続（新しいネットワーク拡張機能）を備えた二重ボトルネック残差層を含む。ＣＳ－ＧＡＮからの特徴レベルの対応を用いることで、温度とフルＨＤ視覚データストリームの情報を正確に統合する新しいリアルタイムなシステムが作成される。

図８は、本発明の実施形態による、リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための実際のアプリケーションのブロック／フロー図８００である。

１つの実際例において、１つまたは複数のセンサ８０２が、オブジェクト８０４、８０６等のオブジェクトを検出し、視覚ストリーム及び温度ストリームをＣＳ－ＧＡＮ１１６に提供する。ＣＳ－ＧＡＮ１１６は、特徴保存損失関数８５０及びスキップ接続を備える二重ボトルネック残差層接続８６０を含む。結果８１０（例えば、対象オブジェクト）は、ユーザ８１４によって取り扱われるユーザインターフェース８１２に提供または表示できる。

処理システムは、システムバス９０２を介して他のコンポーネントと動作可能に接続された少なくとも１つのプロセッサ（ＣＰＵ）９０４を含む。システムバス１００２には、ＧＰＵ９０５、キャッシュ９０６、読み取り専用メモリ（ＲＯＭ）９０８、ランダムアクセスメモリ（ＲＡＭ）９１０、入出力（Ｉ／Ｏ）アダプタ９２０、ネットワークアダプタ９３０、ユーザインタフェースアダプタ９４００及び／またはディスプレイアダプタ９６０が動作可能に接続されている。さらに、ＣＳ－ＧＡＮ１１６が、特徴保存損失関数８５０及びスキップ接続８６０を備える二重ボトルネック残差層を用いることで採用される。

記憶装置９２２は、Ｉ／Ｏアダプタ９２０によってシステムバス９０２に動作可能に接続されている。記憶装置９２２は、ディスク記憶装置（例えば、磁気または光ディスク記憶装置）、固体磁気装置等のいずれであってもよい。

トランシーバ９３２は、ネットワークアダプタ９３０によってシステムバス９０２に動作可能に接続されている。

ユーザ入力装置９４２は、ユーザインタフェースアダプタ９４０によってシステムバス９０２に動作可能に接続されている。ユーザ入力装置９４２は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロホン、あるいはこれらの装置のうちの少なくとも２つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置９４２は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置９４２は、処理システムに情報を入力し、処理システムから情報を出力するために使用される。

ディスプレイ装置９５２は、ディスプレイアダプタ９５０によってシステムバス９０２に動作可能に接続されている。

もちろん、処理システムは、当業者であれば容易に思いつくような他の要素（図示せず）を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システムには、その特定の実装に応じて他の様々なタイプの入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による様々な入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

ブロック１０１０において、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）により、複数の異なるタイプのセンサから得られた異なるデータストリームからの視覚画像を合成する。

ブロック１０２０において、対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす、特徴保存損失関数を適用する。

ブロック１０３０において、リアルタイム推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する。

本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び／または保存可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、１つ以上の中間計算デバイス、例えば１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び／または同様のもの等の１つ以上の中間計算デバイスを介して間接的に送信してもよい。

当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、１つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。

１つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例（以下に限定されない）は、１つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。

コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。

コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、ＲＦ等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。

本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、（例えば、インターネットサービスプロバイダを利用したインターネットを介して）外部コンピュータと接続されてもよい。

本発明の態様について、本発明の実施形態による方法、装置（システム）、並びにコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して以下で説明する。フローチャート及び／またはブロック図の各ブロック、並びにフローチャート及び／またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定される機能／動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。

これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に保存された命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に保存できる。

コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び／またはブロック図のブロックまたはモジュールに指定された機能／動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。

本明細書で使用する「プロセッサ」という用語は、例えばＣＰＵ（central processing unit）及び／または他の処理回路を含むもの等、任意の処理装置を含むことを意図している。また、「プロセッサ」という用語は１つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。

本明細書で使用する「メモリ」という用語は、例えば、ＲＡＭ、ＲＯＭ、固定メモリデバイス（例えば、ハードドライブ）、リムーバブルメモリデバイス（例えば、ディスケット）、フラッシュメモリ等、プロセッサまたはＣＰＵに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。

さらに、本明細書で使用する「入力／出力装置」または「Ｉ／Ｏ装置」という用語は、例えば、処理ユニットにデータを入力するための１つまたは複数の入力装置（例えば、キーボード、マウス、スキャナ等）及び／または処理ユニットに関連する、結果を提示するための１つまたは複数の出力装置（例えば、スピーカ、ディスプレイ、プリンタなど）を含むことを意図する。

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のための方法であって、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成し（１０１０）、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し（１０２０）、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する（１０３０）、方法。
第１のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも１つのデータストリームにおいてオブジェクト検出が実行される、請求項１に記載の方法。
第２のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも１つのデータストリームにおいて適応空間検索が実行される、請求項２に記載の方法。
前記第１のオブジェクトが第１の特徴抽出器に供給され、前記第２のオブジェクトが、データ変換のために前記ＣＳ－ＧＡＮに供給された後、第２の特徴抽出器に供給される、請求項３に記載の方法。
前記ＣＳ－ＧＡＮは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項１に記載の方法。
前記ＣＳ－ＧＡＮは第１のネットワーク及び第２のネットワークを含み、前記第１のネットワークは温度対視覚合成ネットワークであり、前記第２のネットワークは視覚対温度合成ネットワークである、請求項１に記載の方法。
前記第１のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項６に記載の方法。
周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項７に記載の方法。
オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項１に記載の方法。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのコンピュータで読み取り可能なプログラムを含む、非一時的なコンピュータで読み取り可能な記録媒体であって、
前記コンピュータで読み取り可能なプログラムが前記コンピュータで実行されると、前記コンピュータに、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成させ（１０１０）、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用させ（１０２０）、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用させる（１０３０）、非一時的なコンピュータで読み取り可能な記録媒体。
第１のオブジェクトを検出するために、前記異なるデータストリームのうちの少なくとも１つのデータストリームにおいてオブジェクト検出が実行される、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。
第２のオブジェクトとしていくつかの候補境界ボックス案を形成するために、異なるデータストリームの少なくとも１つのデータストリームにおいて適応空間検索が実行される、請求項１１に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記第１のオブジェクトが第１の特徴抽出器に供給され、前記第２のオブジェクトが、データ変換のために前記ＣＳ－ＧＡＮに供給された後、第２の特徴抽出器に供給される、請求項１２に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記ＣＳ－ＧＡＮは、カスタムな永続的損失関数及び特徴損失関数と共に、ボトルネックカスケード残差層を含む、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記ＣＳ－ＧＡＮは第１のネットワーク及び第２のネットワークを含み、前記第１のネットワークは温度対視覚合成ネットワークであり、前記第２のネットワークは視覚対温度合成ネットワークである、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記第１のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別する、請求項１５に記載の非一時的なコンピュータで読み取り可能な記録媒体。
周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用され、前記特徴損失が現実の画像及び生成された視覚画像の特徴点座標間のユークリッドノルムを推定し、訓練が進むにつれてエラーを最小化する、請求項１６に記載の非一時的なコンピュータで読み取り可能な記録媒体。
オブジェクト固有の深度認識ネットワークによって、前記複数のセンサのうちのセンサに対するシーンにおけるオブジェクトの距離及びオフセットを推定する深度及びオフセット推定器が提供される、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。
リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定のためのシステムであって、
メモリと、
複数の異なるタイプのセンサから得られる、異なるデータストリームからの視覚画像を、クロススペクトル敵対的生成ネットワーク（ＣＳ－ＧＡＮ）によって合成し（１０１０）、
対応するクロススペクトルオブジェクトのリアルタイムなペアリングをもたらす特徴保存損失関数を適用し（１０２０）、
リアルタイムな推論を加速し、モデル訓練中の収束を加速するために、スキップ接続を備える二重ボトルネック残差層を適用する（１０３０）ように構成された、前記メモリと通信する１つまたは複数のプロセッサと、
を有するシステム。
前記ＣＳ－ＧＡＮは第１のネットワーク及び第２のネットワークを含み、前記第１のネットワークは温度対視覚合成ネットワークであり、前記第２のネットワークは視覚対温度合成ネットワークであり、前記第１のネットワークは生成器及び弁別器を含み、前記生成器が対応する温度パッチからの視覚画像を合成し、前記弁別器が実際の視覚画像と生成された視覚画像とを区別し、周期的損失、敵対的損失、永続的損失及び特徴損失が前記生成器を最適化するために採用された、請求項１９に記載のシステム。