JP2023502140A

JP2023502140A - タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置

Info

Publication number: JP2023502140A
Application number: JP2022534235A
Authority: JP
Inventors: ハン‐パンチウ，; ザカリーシーモア，; ニルスポルシー．ミトゥン，; スプンサマラシケラ，; ラケシュクマール，; イーヤオ，
Original assignee: SRI International Inc
Current assignee: SRI International Inc
Priority date: 2020-03-10
Filing date: 2021-02-11
Publication date: 2023-01-20
Anticipated expiration: 2041-02-11
Also published as: WO2021183256A1; JP7332238B2; US20230004797A1

Abstract

共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための、方法、装置及びシステムであって、第１のモダリティを有するセンサデータの特徴の第１のモダリティのベクトル表現と、第２のモダリティを有するセンサデータの特徴の第２のモダリティのベクトル表現とを作成することと、共通埋め込み空間に、第１及び第２のモダリティのベクトル表現を投影し、関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることと、投影された第１及び第２のモダリティのベクトル表現を組み合わせることと、組み合わされたモダリティのベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、捕捉されたセンサデータによって示される少なくとも１つのオブジェクトを識別することと、を含む。いくつかの例において、方法、装置及びシステムのデータ操作は、センサ及び／又はセンサデータの物理特性によって誘導することができる。【選択図】図２

Description

[0001]本原理の実施形態は、概略的には、センサデータの評価及び生成に関し、より詳細には、マルチモーダル埋め込みを用いたセンサデータの評価及び生成に関する。

背景

[0002]困難な環境におけるターゲット検出及び認識等のタスクのためのセンサ融合は、多くの分野において、解決すべき重要な問題である。しかしながら、これらの環境におけるセンサデータは、通常、本質的に非常にノイズが多い。加えて、異なるセンサを用いて捕捉されたデータは、多様な物理特性に起因して劇的に異なる可能性がある。これらのタスクのための現行のセンサ融合方法は、同じ（又は類似の）タイプのセンサのための初期段階の融合（未加工データレベル）に限定される。これらは、よりロバストで正確なタスク性能に達するために、異なるタイプのセンサからの補足情報を融合することができない。加えて、ターゲット検出及び認識等のタスクに対する過去の手法は、１つの単一データ源に焦点を当て、手作りの特徴又は深層学習された特徴の抽出に依拠する。

概要

[0003]共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための、方法、装置及びシステムの実施形態が本明細書に開示される。

[0004]本原理によるいくつかの実施形態において、少なくとも２つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法が、前記少なくとも２つのモダリティのうちの第１のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワーク（例えば、畳込みニューラルネットワーク、リカレントニューラルネットワーク、変換器等）を用いて、前記第１のモダリティを有する前記センサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成することと、少なくとも２つのモダリティのうちの第２のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第２のモダリティを有する前記センサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成することと、共通埋め込み空間に、第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることと、埋め込まれた第１のモダリティのセンサ－データベクトル表現と、第２のモダリティのベクトル表現とをそれぞれ組み合わせることと、を含む。

[0005]本原理のいくつかの実施形態において、方法は、第１及び第２のモダリティのセンサ－データベクトル表現の作成、並びに第１及び第２のモダリティのセンサ－データベクトル表現の埋め込みのうちの少なくとも一方を、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータの物理特性とによって制約することを更に含むことができる。

[0006]本原理によるいくつかの実施形態において、共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための方法が、少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成することと、少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成することと、共通埋め込み空間に、第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データ埋め込み表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることと、投影された第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データベクトル表現を組み合わせることと、距離関数を用いて、組み合わされたモダリティのセンサ－データベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも２つのモダリティを有するセンサデータによって示される少なくとも１つのオブジェクトを識別することと、を含む。

[0007]本原理のいくつかの実施形態において、方法は、第１及び第２のモダリティのセンサ－データベクトル表現の作成、並びに第１及び第２のモダリティのセンサ－データベクトル表現の埋め込みのうちの少なくとも一方を、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータの物理特性とによって制約することを更に含むことができる。

[0008]本原理によるいくつかの実施形態において、共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための装置が、少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現、及び少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するように構成された少なくとも１つの特徴抽出モジュールと、共通埋め込み空間に、第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データ埋め込み表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも１つの埋め込みモジュールと、投影された第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データベクトル表現を組み合わせるように構成された融合モジュールと、距離関数を用いて、組み合わされたモダリティのセンサ－データベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも２つのモダリティを有するセンサデータによって示される少なくとも１つのオブジェクトを識別するように構成された推論モジュールと、を備える。

[0009]本原理のいくつかの実施形態において、装置は、第１及び第２のモダリティのセンサ－データベクトル表現の作成、並びに第１及び第２のモダリティのセンサ－データベクトル表現の埋め込みのうちの少なくとも一方を、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータの物理特性とによって制約／誘導するように更に構成することができる。

[0010]本原理による他の及び更なる実施形態が以下に記載される。

[0011]本原理の上述した特徴が詳細に理解され得るように、上記で簡単に要約した本原理のより具体的な説明が実施形態を参照することによりなされることがあり、実施形態のいくつかは添付図面に示される。しかしながら、添付図面は、本原理による典型的な実施形態を示すものにすぎず、したがって、本原理が他の同様に有効な実施形態を受け入れる場合があることからも、これらの図面は、本原理の範囲を限定するものと解釈すべきではないことに留意されたい。

[0012]図１は、本原理の実施形態によるセンサデータ融合システムの高レベルのブロック図である。

[0013]図２は、本原理の実施形態による、図１のセンサデータ融合システム等の本原理のセンサデータ融合システムの機能の高レベルの機能図である。

[0014]図３Ａは、本原理の実施形態による、センサデータ融合システムの任意選択の発生器モジュール及び任意選択の弁別器モジュールの動作の高レベルの機能図である。

[0015]図３Ｂは、本原理の実施形態による、センサデータ融合システムにおける、図３Ａのセンサ２等の学習されたセンサのデータ捕捉のシミュレーションの高レベルの機能図である。

[0016]図４Ａは、本原理の代替の実施形態による、センサデータ融合システムの任意選択の発生器モジュール及び任意選択の弁別器モジュールの動作の高レベルの機能図である。

[0017]図４Ｂは、本原理の実施形態による、センサデータ融合システムにおける、図４Ａのデータモデル２等のデータモダリティの特性のシミュレーションの高レベルの機能図である。

[0018]図５は、本原理の実施形態による、３Ｄターゲット／オブジェクト検出のために実施することができる本原理のセンサデータ融合システムの高レベルの機能図である。

[0019]図６は、本原理の実施形態による、水中ターゲット／オブジェクト検知アプリケーションについて実施することができる本原理のセンサデータ融合システムの高レベルの機能ブロック図である。

[0020]図７は、本原理の実施形態による、少なくとも２つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法の流れ図である。

[0021]図８は、本原理の実施形態に従って訓練された共通埋め込み空間を用いたオブジェクト検出のための方法の流れ図である。

[0022]図９は、本原理の実施形態による、図１のセンサデータ融合システム１００等のセンサデータ融合システムの実施形態と共に用いるのに適したコンピューティングデバイスの高レベルのブロック図である。

[0023]図１０は、本原理によるセンサデータ融合システムの実施形態を適用することができるネットワークの高レベルのブロック図である。

詳細な説明

[0024]理解を容易にするために、可能な場合、同一の参照番号を用いて複数の図に共通である同一の要素を指定した。図は一定の縮尺で描かれておらず、明瞭さのために簡略化されていることがある。１つの実施形態の要素及び特徴は、更なる列挙なしに他の実施形態に有益に組み込まれてもよいことが意図されている。

[0025]本原理の実施形態は、概略的には、マルチモーダル埋め込みを用いて複数のモダリティを有する複数の異なるタイプのセンサからのセンサデータを組み合わせるセンサデータ融合のための方法、装置及びシステムに関する。本原理の概念は、種々の修正及び代替形態を許容するが、具体的な実施形態が、例として図面に示され、以下で詳細に説明される。本原理の概念を開示された特定の形態に限定する意図はないことが理解されるべきである。それどころか、本原理及び添付の請求項と一致する全ての修正、均等なもの、及び代替案を包含することが意図される。例えば、本原理の実施形態は、主に具体的なセンサに関して説明されるが、そのような教示は限定的であると考えられるべきではない。本原理による実施形態は、実質的に任意のセンサ及び／又は検出器で機能することができる。

[0026]本原理のいくつかの実施形態は、ターゲット指標を直接最適化し、結果に対する各センサ（モード）の寄与を学習することによって、共通埋め込み空間内のマルチセンサ（すなわち、マルチモーダル）データを融合するエンドツーエンドのパイプラインシステムを提供する。いくつかの実施形態では、物理方程式及び原理等のそれぞれのセンサ及び／又はセンサデータの物理特性が特徴抽出の学習に組み込まれ、これにより、各センサの物理特性がそれらの低次元表現から復元可能であることを確実にして、一般化性能を維持しながらより少ない例での学習を容易にする。

[0027]本原理のいくつかの実施形態は、アテンションベースのモード融合を含み、これは、いくつかの実施形態では、利用可能なペイロード及び計算リソースに基づいてモードを選択するための情報を提供する、セルフアテンション機構を通じて、各センサ（モード）の重要性を学習することを含むことができる。

[0028]本原理のいくつかの実施形態は、物理学により誘導された埋め込みを含む。そのような実施形態において、それぞれのセンサ及び／又はセンサデータ（すなわち、撮像されたオブジェクト）の物理特性は、符号化された領域知識を通じて埋め込み空間内に追加の構造及び制約を提供する。埋め込み空間における制約は、結果を、限定ではないがオブジェクトの表面反射、温度及び湿度を含む既知の物理特性と比較することによって、結果の追加の拡張性及び検証を提供する。例えば、物理的にもっともらしい構成性の観点から、２つの材料（例えば、前景としての草及び背景としての土）の混合物の埋め込みは、理想的には、これらの２つの材料の埋め込みの間に位置する。しかしながら、物理的にもっともらしい特性の観点から、異なる環境温度又は湿度を有する材料の埋め込みは、非常に近接して群がるのみでなく、温度又は湿度の変化に伴って一貫して展開する軌道も形成する。

[0029]本原理のいくつかの実施形態は、後期段階の融合を含む。従来の初期段階の未加工データ融合と比較して、本原理に従って共通埋め込み空間において特徴データを融合することにより、単一のモダリティからのデータのなりすましに対するロバスト性が増大する。

[0030]本原理の実施形態は、訓練後に、推論中の単一のモデルの使用を可能にする。訓練されたマルチモーダル共通埋め込み空間は、１つのみのセンサモデルの使用を可能にする。すなわち、いくつかの実施形態では、追加のセンサ情報が（例えば、新たな場所について）利用可能でない場合があるシナリオにおいて、本原理の実施形態は、敵対的生成ネットワーク（ＧＡＮ）及び／又は変分オートエンコーダを実施して、複数のセンサ間の差異を学習し、後に利用可能なセンサデータを拡張することができる。

[0031]他の実施形態において、モデルシミュレータを利用して、複数のデータモダリティ間の差異を学習し、新たなデータモデルについて限られたデータが存在するとき、訓練されたネットワークを拡張することができる。

[0032]図１は、本原理の実施形態による、マルチモーダル埋め込みを用いて複数の異なるタイプのセンサからのセンサデータを組み合わせるためのセンサデータ融合システム１００の高レベルのブロック図を示す。図１のセンサデータ融合システム１００は、例示的に、特徴抽出モジュール１１０と、埋め込みモジュール１２０と、融合モジュール１３０と、推論モジュール１３５とを備える。いくつかの実施形態では、図１のセンサデータ融合システム１００に詳細に示すように、本原理のセンサデータ融合システムは、任意選択の発生器モジュール１４０と、任意選択の弁別器モジュール１５０とを更に備えることができ、その機能が以下で更に記載される。図１のセンサデータ融合システム１００の実施形態は、例示的に単一の特徴抽出モジュール１１０を備えるが、いくつかの実施形態では、本原理のセンサデータ融合システムは、２つ以上の特徴抽出モジュールを備えることができ、いくつかの実施形態では、異なるセンサタイプ（モダリティ）及び／又は組み合わされる異なるタイプのセンサデータ（モダリティ）ごとに少なくとも１つの特徴抽出モジュールを備えることができる。

[0033]図１に示すように、図１のセンサデータ融合システム１００等の、本原理によるセンサデータ融合システムの実施形態は、本原理によればコンピューティングデバイス９００において実施することができる（図９に関して、より詳細に記載される）。すなわち、いくつかの実施形態では、センサデータは、例えば、コンピューティングデバイス９００と関連付けられた任意の入力／出力手段を介してコンピューティングデバイス９００を用いてセンサデータ融合システム１００に通信することができる。加えて、本原理に従って埋め込み空間を訓練するのに用いることができる画像及びデータ、並びに処理される任意のクエリは、コンピューティングデバイス９００と関連付けられた任意の入力／出力手段を用いてコンピューティングデバイス９００からセンサデータ融合システム１００によってアクセスすることができる。本原理によるセンサデータ融合システムの結果は、ディスプレイ、プリンタ又は任意の他の形態の出力デバイス等のコンピューティングデバイスの出力デバイスを用いてユーザに提示することができる（図９に関して、より詳細に説明される）。

[0034]図１のセンサデータ融合システム１００において、少なくとも２つの異なるタイプ（例えば、異なるモダリティ）のセンサによって捕捉されたシーンの画像は、少なくとも１つの特徴抽出モジュール１１０のそれぞれに通信される。いくつかの実施形態では、少なくとも１つの特徴抽出モジュール１１０において、ニューラルネットワークは、２つの異なるタイプのセンサのそれぞれの捕捉画像に適用し、少なくとも２つの異なるタイプのセンサの画像の視覚的特徴を抽出することができる。そのようなニューラルネットワークは、限定ではないが、畳込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、変換器、及びセンサデータの特徴のベクトル表現を抽出することができる実質的に任意のニューラルネットワークを含むことができる。いくつかの実施形態では、モデル（センサ）固有のニューラルネットワークを用いて、少なくとも２つの異なるタイプのセンサから画像のそれぞれの画像特徴を決定することができる。少なくとも１つの特徴抽出モジュール１１０からの抽出された画像特徴は、少なくとも１つの埋め込みモジュール１２０のそれぞれに通信される。いくつかの実施形態では、少なくとも１つの埋め込みモジュール１２０の各々において、少なくとも２つの異なるタイプのセンサの抽出された画像特徴が共通埋め込み空間に埋め込まれる／投影される。

[0035]いくつかの実施形態では、本原理による共通埋め込み空間は、Ｗｏｒｄ２ｖｅｃを用いて作成することができる。Ｗｏｒｄ２ｖｅｃは、単語埋め込みベクトルを生成する機械学習プロセス／モデルであり、ここで、単語は数字と関連付けられ、単語の数字的本質が生成される。いくつかの実施形態では、ユーザ（複数可）によって対話されたテキストを表す単語のそれぞれの単語ベクトルを作成することができる。Ｗｏｒｄ２ｖｅｃは、単語埋め込み（数字のアレイ）を生成し、ここで、類似の意味又はコンテキストを有する単語（すなわち、テキストを表す）は、埋め込まれた空間において互いに物理的に近い。数は、通常、アレイに配列され、これにより数学的プロセスがその数に対し実行されることが可能になる。単語を一連の数として定量化することによって、機械学習が、数に基づいて他の２つの単語に類似の新たな単語を発見し、モデルに基づいて各単語のデータ特性を発見することが可能になる。次に、単語をグラフ化し、数学的特性に基づいて単語と比較することができる。グラフ化された単語間の距離は、ベクトル、又は方向を有する距離として記述することができる。１つのグラフ化された単語から空間内の別のグラフ化された単語への移動により、ハードコード化された「単語ベクトル」である単語関係の着想を表す／グラフ化することが可能になる。そのような実施形態において、畳込みニューラルネットワーク（ＣＮＮ）を用いて、本原理による埋め込み空間を作成することができる。

[0036]いくつかの実施形態では、本原理による共通埋め込み空間は、ＤｅＶｉＳＥ（Ａ．Ｆｒｏｍｅ、Ｇ．Ｃｏｒｒａｄｏ及びＪ．Ｓｈｌｅｎｓ「ＤｅＶｉＳＥ：Ａｄｅｅｐｖｉｓｕａｌ－ｓｅｍａｎｔｉｃｅｍｂｅｄｄｉｎｇｍｏｄｅｌ」Ａｄｖ．Ｎｅｕｒａｌ．．．，ｐｐ．１－１１，２０１３を参照）として参照される埋め込みモデルを用いて予め訓練することができる。特に、全ての画像を単語埋め込み空間にマッピングする画像埋め込みが訓練される。これは、変換する完全接続層をアタッチする畳込みネットワークを用いて達成することができる。事前訓練中の埋め込み空間のスパースなサンプリングを回避するために、外部ソースからの追加のデータを実装して、意味的埋め込み空間を訓練し、意味的埋め込み空間における密なオブジェクトクラスサンプリングを生成することができる。いくつかの実施形態では、単語埋め込みは学習されないが、ＧｌｏＶＥ（Ｊ．Ｐｅｎｎｉｎｇｔｏｎ、Ｒ．Ｓｏｃｈｅｒ及びＣ．Ｄ．Ｍａｎｎｉｎｇ「ＧｌｏＶｅ：ＧｌｏｂａｌＶｅｃｔｏｒｓｆｏｒＷｏｒｄＲｅｐｒｅｓｅｎｔａｔｉｏｎ」を参照）を用いて初期化される。

[0037]いくつかの実施形態では、本原理による埋め込み空間は、異なるタイプ（モダリティ）のセンサによって捕捉されたデータを用いて更に訓練することができる。すなわち、特徴は、少なくとも１つのそれぞれの特徴抽出モジュールによって、少なくとも２つの異なるタイプ（モダリティ）のセンサにより捕捉された画像から抽出され、少なくとも１つの埋め込みモジュールによって共通埋め込み空間に埋め込まれる。異なるタイプのセンサからの画像の特徴が共通埋め込み空間内に埋め込まれることに起因して、異なるタイプのセンサによって捕捉されたデータ間の関係を決定することができる（以下でより詳細に説明される）。

[0038]すなわち、いくつかの実施形態では、本原理に従って共通埋め込み空間をより詳細に訓練するために、センサデータは少なくとも第１のモダリティを有し、第２のモダリティは、図１のセンサデータ融合システム１００の特徴抽出モジュール１１０等の、本原理のセンサデータ融合システムの特徴抽出モジュールによって受信することができる。少なくとも２つのモダリティのうちの第１のモダリティを有する複数の捕捉センサデータのそれぞれについて、第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現が作成される。同様に、少なくとも２つのモダリティのうちの第２のモダリティを有する複数の捕捉センサデータのそれぞれについて、第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現が作成される。次に、共通埋め込み空間に、第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることができる。次に、埋め込まれた第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのベクトル表現を組み合わせて結果として得られるベクトルにし、共通埋め込み空間を訓練することができる。

[0039]本原理の実施形態に従って、上記で説明したように共通埋め込み空間が訓練されると、共通埋め込み空間を用いて、少なくとも２つのモダリティを有する捕捉されたセンサデータによって示される少なくとも１つのオブジェクトを識別することができる。例えば、いくつかの実施形態では、第１のモダリティを有する複数の捕捉センサデータのそれぞれについて、第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現が作成される。同様に、少なくとも２つのモダリティのうちの第２のモダリティを有する複数のセンサデータのそれぞれについて、第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現が作成される。次に、訓練された共通埋め込み空間に、第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのセンサ－データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることができる。次に、投影された第１のモダリティのセンサ－データベクトル表現及び第２のモダリティのベクトル表現を組み合わせて、結果として得られるベクトルにすることができる。本原理によれば、距離関数を用いて、組み合わされた、結果として得られたベクトルと、訓練された共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも２つのモダリティを有するセンサデータによって示される少なくとも１つのオブジェクトを識別することができる。

[0040]図２は、本原理の実施形態による、図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムの機能の高レベルの機能図を示す。図２の実施形態に示すように、異なるモダリティ（ｍｏｄ）を有する４つの異なるタイプのセンサ２０２_１、２０２_２、２０２_３、２０２_４（まとめて、センサ２０２）は、同じシーンの画像を捕捉する。図２の実施形態等のいくつかの実施形態では、４つのセンサは、限定ではないが、Ｒａｄａｒセンサ、ＲＧＢセンサ、電気光学（ＥＯ）センサ、衛星画像センサ、ＩｎｆｒａＲｅｄセンサ等のセンサを含むことができる。図２の実施形態において、４つの異なるタイプのセンサ２０２_１、２０２_２、２０２_３、２０２_４の各々によって捕捉されたデータは、４つの特徴抽出モジュール１１０_１、１１０_２、１１０_３、１１０_４（まとめて、特徴抽出モジュール１１０）のそれぞれに通信される。上記で説明したように、特徴抽出モジュール１１０において、センサ２０２によって捕捉された画像の特徴は、例えば、いくつかの実施形態では、モデル固有のＣＮＮ等のニューラルネットワークを用いて抽出される。

[0041]例えば、いくつかの実施形態において、第１のセンサタイプは、シーンの衛星画像を収集する衛星センサを含むことができる。そのような実施形態において、衛星センサによって捕捉されたデータの画像特徴は、衛星画像の画像特徴を抽出するように訓練されたＣＮＮを用いて衛星画像の画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。加えて、第２のタイプのセンサは、例えば、同じシーンの画像を収集する電気光学（ＥＯ）センサを含むことができる。そのような実施形態において、ＥＯセンサによって捕捉されたデータの画像特徴は、ＥＯデータから画像特徴を抽出するように訓練されたＣＮＮを用いてＥＯデータの画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。また更に、第３のタイプのセンサは、例えば同じシーンのＩＲ画像を収集する赤外線（ＩＲ）センサを含むことができる。そのような実施形態において、ＩＲセンサによって捕捉されたデータの画像特徴は、ＩＲデータから画像特徴を抽出するように訓練されたＣＮＮを用いてＩＲデータの画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。抽出された衛星、ＥＯ及びＩＲ画像特徴は、次に、例えば、上記で説明したように本原理の少なくとも１つの埋め込みモジュールによって、共通埋め込み空間に投影／埋め込むことができる。

[0042]すなわち、図２の実施形態に示すように、特徴抽出モジュール１１０の各々の抽出された画像特徴は、４つの埋め込みモジュール１２０_１、１２０_２、１２０_３、１２０_４（まとめて埋め込みモジュール１２０）のそれぞれに通信される。埋め込みモジュール１２０において、異なるタイプのセンサ２０２からのデータの抽出された特徴は、共通埋め込み空間２１０に投影される／埋め込まれる。いくつかの実施形態では、画像埋め込みモジュール１２０は、画像データを共通埋め込み空間２１０に投影する／埋め込むための異なるタイプのセンサの画像データのそれぞれの特徴ベクトル表現を決定する。すなわち、埋め込みモジュール１２０によって受信される画像特徴は、いくつかの実施形態では、異なるタイプのセンサ２０２によって捕捉された画像データの特徴を表す単語ベクトルを、いくつかの実施形態では線形投影により、埋め込み空間２１０に投影する／埋め込むことによって、共通埋め込み空間２１０に投影する／埋め込むことができる。本原理によるいくつかの実施形態では、埋め込みモジュール１２０は、画像データを共通埋め込み空間に投影する／埋め込むために画像データを処理するための、ニューラルネットワーク、いくつかの実施形態では完全接続（ＦＣ）層を有する畳込みニューラルネットワーク（ＣＮＮ）を実施するディープ画像エンコーダ（図示せず）を含むことができる。いくつかの他の実施形態では、代替的に又は加えて、ニューラルネットワークは変換器を備えることができる。

[0043]再び図１及び図２を参照すると、いくつかの実施形態では、異なるタイプのセンサからのデータの埋め込まれた特徴ベクトルを、融合モジュール１３０によって埋め込み空間内に融合することができる。例えば、いくつかの実施形態では、図２の実施形態に示すように、融合モジュール１３０は、モダリティの各々について異なるタイプのセンサ２０２によって捕捉されたデータの抽出された特徴のそれぞれの埋め込まれた特徴ベクトルを組み合わせて、異なるタイプのセンサ２０２によって捕捉された共通シーンのそれぞれの特徴の組み合わされた特徴ベクトル表現にする。本原理のいくつかの実施形態では、融合モジュール１３０は、後期融合技法を組み込み、後期融合技法は、まず、異なるタイプのセンサの画像データの特徴ベクトルを決定し、共通埋め込み空間において決定された特徴ベクトルを投影し／埋め込み、次に、複数のモダリティのそれぞれについて異なるタイプのセンサの画像データの投影された／埋め込まれた特徴ベクトルを組み合わせることを含む。本原理によるそのような後期融合／組み合わせは、早期融合技法よりも弁別的な結果をもたらす。

[0044]本原理のいくつかの実施形態に従って、複数のモダリティのそれぞれについて、異なるタイプのセンサの画像データの組み合わされた特徴ベクトルを、センサデータにおけるターゲット／オブジェクトの検出に用いることができる。例えば、再び図１を参照すると、いくつかの実施形態では、推論モジュール１３５は、上記で説明したように組み合わされた、複数のモダリティのそれぞれについての異なるタイプのセンサの画像データの投影された特徴ベクトル表現の組み合わせと、以前に訓練された共通埋め込み空間における画像データのそれぞれの埋め込まれた特徴ベクトル表現との間の類似度を決定するように構成される。いくつかの実施形態では、図１のセンサデータ融合システム１００の推論モジュール１３５等の本原理の推論モジュールは、距離関数を実施して、投影された特徴ベクトル表現の組み合わせと、以前に訓練された共通埋め込み空間におけるそれぞれの埋め込まれた特徴ベクトル表現との間の類似度を決定して、複数のモダリティを有するセンサデータによって示される少なくとも１つのオブジェクトを識別することができる。いくつかの実施形態では、距離関数は、コサイン関数、ユークリッド関数及び／又はラグランジュ点１（Ｌ１）関数等のうちの少なくとも１つを含むことができる。

[0045]本原理のセンサデータ融合システムのいくつかの実施形態において、例えば特徴抽出モジュール１１０によって実行される本原理の特徴抽出は、物理学により誘導された特徴抽出を含むことができる。例えば、いくつかの実施形態では、特定のタイプのセンサによって捕捉されるセンサデータから抽出された特徴は、センサ及び／又はセンサデータモダリティの物理特性に従って制約／制限／誘導することができる。すなわち、いくつかの実施形態では、特徴抽出は、物理方程式／特性及び原理を、機械学習を用いて特徴抽出の学習に組み込むことによって制約／誘導することができ、これにより各モードの物理特性がそれらの低次元の表現により復元可能であることを確実にして、一般化性能を維持しながらより少ない例での学習を容易にする。例えば、いくつかの実施形態では、特定のタイプのセンサ及び／又はセンサデータモダリティの物理方程式／物理特性に従って特徴抽出を行うように訓練されたＣＮＮ等のニューラルネットワークは、本原理の特徴抽出モジュールによって、その特定のタイプのセンサによって捕捉されたデータの特徴を抽出するように実施することができる。したがって、本原理によれば、センサによって捕捉される外れ値データを無視することができる。例えば、いくつかの実施形態では、データモデルごとに、組み込まれた物理特性／方程式を用いて特徴の分解及び特徴の再構成を行うエンコーダ及びデコーダを実施することができる。したがって、再構成された特徴が元のデータに類似の特徴を有する場合、特徴は、元のデータの物理特性を保持すると考えることができる。

[0046]代替的に又は加えて、本原理のセンサデータ融合システムのいくつかの実施形態において、例えば本原理の融合モジュール１３０によって実行される本原理の融合は、アテンションベースのモード融合を含むことができる。例えば、いくつかの実施形態において、上記で説明したような共通埋め込み空間の訓練中、結果として得られるセンサデータの組み合わせ（すなわち、マルチモーダル埋め込み）への異なるセンサ２０２の個々の寄与は、いくつかの実施形態では、融合モジュール１３０によって示される。したがって、本原理のセンサデータ融合システムの適用又は使用中、融合モジュール１３０は、異なるセンサ２０２の各々のそれぞれの寄与を重み付けして所望の組み合わされた信号を達成することができる。いくつかの実施形態では、アテンションは、個々のセンサの代わりにセンサモダリティに基づくことができる。例えば、いくつかの実施形態では、所望の組み合わされた信号を達成するために異なるタイプのセンサによって捕捉されたデータを重み付けするとき、個々のセンサ自体の寄与の代わりに、組み合わされた信号へのセンサモダリティの寄与へのアテンションを考慮に入れることができる。

[0047]いくつかの実施形態では、本原理のアテンションベースの融合は、ニューラルネットワークにおけるモダリティ間のアテンションを用いたマルチモーダル情報の融合を含むことができる。そのような実施形態は、各モダリティの相対的な重要度を動的に調整して、より良好なデータの組み合わせを生成することができる。いくつかの実施形態では、本原理のアテンションベースのマルチモーダル融合の利点は、（１）データの組み合わせにより多く寄与するモダリティが、より強力な重みを動的に受けることができること、及び（２）ネットワークが、干渉（例えばノイズ）及び各モダリティにおける他の不確実性源を検出し、より確実性の低いモダリティの重みを動的に下げることができること、を含むことができる。

[0048]本原理のセンサデータ融合システムのいくつかの実施形態において、例えば埋め込みモジュール１２０による、本原理による共通埋め込み空間へのセンサデータの投影／埋め込みは、センサ及び／又は関連データの物理特性によって制約／誘導することができる。例えば、いくつかの実施形態では、共通埋め込み空間は、センサの物理方程式及び原理、並びに追加の構造及び制約を埋め込み空間に提供する関連データを用いて訓練することができる。その後、センサデータは、センサのそれぞれの物理特性、及び共通埋め込み空間における関連データに従って共通埋め込み空間内に投影する／埋め込むことができる。本原理の実施形態による訓練中の埋め込み空間内への物理特性の追加により、埋め込み空間の能力を改善し、例えば、（１）訓練データを低減すること、（２）推論中の新たなオブジェクトのより良好な説明可能性及び予測（検出／分類）を、その物理特性に基づいて提供する。

[0049]図３Ａは、本原理の実施形態による、図１のセンサデータ融合システム１００等のセンサデータ融合システムの任意選択の発生器モジュール１４０及び任意選択の弁別器モジュール１５０の機能の高レベルの機能図を示す。図３Ａの実施形態において、例示的に、共通シーンの画像を捕捉する２つの異なるセンサ（センサモダリティ）、センサ１、２０２_１及びセンサ２、２０２_２を用いた共通埋め込み空間２１０の訓練中に、発生器モジュール１４０及び弁別器モジュール１５０を備える敵対的生成（ＧＡＮ）ネットワーク３６０を実施して、データの捕捉時のセンサのうちの少なくとも１つ、例示的には図３においてセンサ２のセンサデータ特性及びセンサ応答を学習することができる。例えば、いくつかの実施形態において、ＧＡＮネットワーク３６０は、シーンの捕捉時のセンサ１のデータと、同じシーンの捕捉時のセンサ２のデータとの間の差異を学習することができる。

[0050]図３Ｂは、本原理の実施形態による、図１のセンサデータ融合システム１００等のセンサデータ融合システムにおける、図３Ａのセンサ２、２０２_２等の学習されたセンサのデータ捕捉のシミュレーションの高レベルの機能図を示す。図３Ｂの実施形態に示すように、学習されたセンサ、例えば図３Ａのセンサ２、２０２_２がシーンのデータを捕捉するために利用可能でない用途／実施中、図３Ａのセンサ２等の学習されたセンサのデータ捕捉は、図３ＡのＧＡＮネットワーク３６０等の本原理のＧＡＮネットワークによってエミュレートすることができる。すなわち、図３に関して上記で説明したように、訓練中、ＧＡＮネットワーク３６０は、センサ１、２０２_１によって捕捉されたシーンのデータと、センサ２、２０２_２によって捕捉されたシーンのデータとの間の差異を決定する。したがって、図３Ｂの実施形態において、センサ１、２０２_１によって捕捉されたシーンのデータをＧＡＮネットワーク３６０によって用いて、センサ２、２０２_２によって捕捉されたであろうシーンのデータをエミュレートすることができる。すなわち、図３Ｂの実施形態において、ＧＡＮネットワーク３６０は、訓練中、センサ１、２０２_１及びセンサ２、２０２_２によってシーンから捕捉されたデータ間の決定された差異を用いて、センサ１、２０２_１によって捕捉されたのと同じシーンからセンサ２、２０２_２によって捕捉されたであろうデータをエミュレートすることができる。図３Ｂに示すように、センサ１、２０２_１によって捕捉されたセンサ及びセンサ２、２０２_２のエミュレートされたデータは、上記で説明したように共通埋め込み空間２１０において組み合わせることができる。

[0051]上記で説明したように、本原理の実施形態は、ターゲット指標を直接最適化し、結果に対する各センサ（モード）の寄与を学習することによって、訓練中に、共通埋め込み空間内のマルチセンサ（すなわち、マルチモーダル）データを融合するエンドツーエンドのパイプラインシステムを提示する。したがって、学習センサがデータを捕捉するために利用可能でない用途／実施中であっても、学習センサのデータ捕捉を上記で説明したようにエミュレートすることができる。すなわち、本原理の実施形態は、単一のセンサモデルを用いて複数の異なるセンサによって捕捉されたデータをエミュレートすることを可能にする。

[0052]図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムのいくつかの実施形態において、ＧＡＮネットワーク３６０の発生器１４０及び弁別器１５０は敵対的関係を含む。より詳細には、いくつかの実施形態において、発生器１４０によって作成された学習センサのエミュレートされたデータは、弁別器１５０によって見直され、弁別器１５０は、発生器１０が、学習されたセンサからのデータを適切に反映するデータを作成したか否かを判断する。発生器１４０によるデータの作成と、弁別器１５０によるデータのレビューとの間の往復は、作成されたデータが学習されたセンサによって生成されるデータとして弁別器１５０に受け入れ可能となるまで継続する。本原理の実施形態は、学習されたセンサが利用可能でないときに、未来のためのセンサのモデルを学習するようにＧＡＮネットワークを実施することとして説明されているが、代替的に又は加えて、本原理のいくつかの実施形態では、変分オートエンコーダ（図示せず）等のエンコーダ／デコーダ対は、学習されたセンサがＧＡＮネットワーク３６０に関して上記で説明したように利用可能でないときに、未来の使用のためのセンサのモデルを学習するように実施することができる。すなわち、いくつかの実施形態では、変分オートエンコーダは、共通同種表現からの入力データを再構築するように学習する、したがって寄与するセンサのそれぞれのモデルを学習することによって、いくつかの異種センサ（データソース）の高レベル表現を単一の潜在的表現にマージすることができる。したがって、センサが利用可能でない場合がある後の用途において、センサモデルを用いて、利用可能なセンサによって捕捉されたデータに対する利用可能でないセンサの寄与をエミュレートすることができる。

[0053]図４Ａは、本原理の代替の実施形態による、図１のセンサデータ融合システム１００等のセンサデータ融合システムの任意選択の発生器モジュール１４０及び任意選択の弁別器モジュール１５０の動作の高レベルの機能図を示し、異なるデータモダリティが組み合わされている。図４Ａの実施形態において、例示的に、２つの異なるモダリティのデータモデル、データモデル１、４０２_１及びデータモデル２、４０２_２を用いた共通埋め込み空間２１０の訓練中、発生器モジュール１４０及び弁別器モジュール１５０を実施して、少なくとも１つのデータモデル、図４Ａにおいて例示的にはデータモデル２、４０２_２の特性を学習及びシミュレートすることができる。例えば、図４Ａの実施形態等のいくつかの実施形態において、発生器モジュール及び弁別器１５０は、異なるデータモダリティ、データモデル１、４０２_１と、データモデル２、４０２_２との間の差異を決定することができる。

[0054]図４Ｂは、本原理の実施形態による、図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムにおける、図４Ａのデータモデル２、４０２_２等のデータモダリティの特性のシミュレーションの機能図を示す。図４Ｂの実施形態に示すように、図４Ａの学習されたデータモダリティ、例えばデータモデル２、４０２_２が利用可能でない用途／実施中、図４Ａのデータモデル２、４０２_２等の学習されたデータモダリティの特性を、発生器１４０及び弁別器１５０によってシミュレートすることができる。すなわち、図４Ａに関して上記で説明したように、訓練中、発生器１４０及び弁別器１５０は、データモダリティ、データモデル１、４０２_１及びデータモデル２、４０２_２間の差異を決定することができる。したがって、図４Ｂの実施形態において、利用可能なデータモダリティ、データモデル１、４０２_１を発生器１４０及び弁別器１５０によって用いて、第２のデータモダリティ、データモデル２、４０２_２をシミュレートすることができる。すなわち、図４Ｂの実施形態において、発生器１４０及び弁別器１５０は、訓練中に決定された、データモダリティデータモデル１、４０２_１及びデータモデル２、４０２_２間の決定された差異を用いて、第２のデータモダリティ、データモデル２、４０２_２をシミュレートすることができる。図４Ｂに示すように、上記で説明したように、データモデル１、４０２_１及びシミュレートされたデータモデル２、４０２_２は、共通埋め込み空間２１０内に投影する／埋め込むことができる。

[0055]上記で説明したように、図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムのいくつかの実施形態において、発生器１４０及び弁別器１５０は敵対的関係を含むことができる。より詳細には、いくつかの実施形態において、発生器１４０によって作成された、シミュレートされたデータモデル／モダリティは、弁別器１５０によって見直され、弁別器１５０は、発生器１４０が、データモデルを適切にシミュレートするデータを作成したか否かを判断する。発生器１４０によるデータの作成と、弁別器１５０によるデータのレビューとの間の往復は、作成されたデータが欠落モデルをシミュレートするデータとして弁別器１５０に受け入れ可能となるまで継続する。

[0056]１つの用途／実施において、図１のセンサデータ融合システム１００等の、本原理のセンサデータ融合システムは、３Ｄターゲット／オブジェクト検出のために実施することができる。例えば、図５は、本原理の実施形態による、３Ｄターゲット／オブジェクト検出のために実施することができる、図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムの高レベルの機能図を示す。図５の実施形態において、例示的にＬｉｄａｒセンサ５０２によって捕捉されたシーンの点群データは、共通埋め込み空間６１０に投影する／埋め込むことができる。すなわち、いくつかの実施形態では、点群データの画像特徴は、それぞれの特徴抽出モジュール５１０_１を用いてモデル固有のＣＮＮを用いて抽出することができる。点群データの抽出された画像特徴は、埋め込みモジュール５２０_１に通信される。上記で説明したように、埋め込みモジュール５２０_１において、点群データの抽出された画像特徴は、共通埋め込み空間６１０に投影される／埋め込まれる。

[0057]図５の実施形態において、例示的にＲＧＢセンサ５０４によって捕捉されたシーンの画像データは、共通埋め込み空間６１０に投影する／埋め込むことができる。すなわち、いくつかの実施形態では、画像データ５０４の画像特徴は、それぞれの特徴抽出モジュール５１０_２を用いてモデル固有のＣＮＮを用いて抽出することができる。画像データの抽出された画像特徴は、埋め込みモジュール５２０_２に通信される。上記で説明したように、埋め込みモジュール５２０_２において、画像データの抽出された画像特徴は、共通埋め込み空間６１０に投影される／埋め込まれる。

[0058]上記で説明し、図５に示したように、それぞれの、Ｌｉｄａｒセンサの投影された／埋め込まれた点群データのベクトル表現及びＲＧＢセンサの投影された／埋め込まれた画像データのベクトル表現は、例示的に融合モジュール５３０によって、共同表現に組み合わされる（例えば、融合される）。共同表現から、３Ｄターゲット／オブジェクトを決定することができる。例えば、図５の実施形態において、３Ｄボックス予測器５５０を用いて、捕捉されたシーンにおける３Ｄターゲット／オブジェクトを決定することができる。いくつかの実施形態では、３Ｄボックス予測器５５０は、オブジェクトのサイズ、中心位置、及びオブジェクトの向きを予測し、特に、３Ｄ中心位置（ｘ，ｙ，ｚ）及び３Ｄサイズ（ｗ，ｈ，ｌ）を有するボックスを復元し、軸周りの回転（ヨー，ピッチ，ロール）も復元する。しかしながら、自動運転データセット等の本原理のいくつかの実施形態では、ロール及びピッチは、簡単にするためにゼロであると想定することができる。

[0059]代替的に又は加えて、いくつかの実施形態において、図５の３Ｄボックス予測器５５０は、例えばＲＧＢセンサによって捕捉された２Ｄ画像データから２Ｄバウンディングボックスを決定することができ、例えばＬｉｄａｒセンサによって捕捉された点群データを用いて、捕捉されたシーンのターゲット／オブジェクトのための３Ｄバウンディングボックスを決定することができる。そのような実施形態において、強力なニューラルネットワークベースの２Ｄ画像ベースのオブジェクト検出器を用いて、２Ｄバウンディングボックスを提供することができ、これにより、３Ｄバウンディングボックスのための検索空間を低減するのに役立つことができる。そのような実施形態において、共通埋め込み空間６１０は、例えばＲＧＢセンサからの画像データ、及び例えばＬｉｄａｒセンサからの点群データの双方を用いて訓練することができ、それによって、画像データが用途／実施時間中に利用可能でない場合、画像データを、少なくとも図３Ｂ及び図４Ｂに関して上記で説明したようにエミュレートすることができる。

[0060]図６は、本原理の実施形態による、水中ターゲット／オブジェクト検知用途のために実施することができる、図１のセンサデータ融合システム１００等の本原理のセンサデータ融合システムの高レベルの機能ブロック図を示す。例えば、図６のセンサデータ融合システムにおいて、異なるセンサモダリティ、ソース、異なるレベルの忠実度：音響センサ（マルチスタティックソナー）、レーダセンサ、カメラ、ＬｉＤＡＲセンサ、水上センサ、アクティブソナー及び任意の未来のセンサからのデータを用いて、水中のターゲット／オブジェクト検知用途のための組み合わされた信号を生成することができる。特に、図６の例示される実施形態において、Ｒａｄａｒセンサからのセンサデータ６０２が受信され、Ｒａｄａｒセンサデータ６０２の特徴が、例えば、Ｒａｄａｒセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のＣＮＮを含むことができる本原理のそれぞれの特徴抽出モジュール６１０_１を用いて抽出される。Ｒａｄａｒセンサデータの抽出された特徴は、例えば、本原理のそれぞれの埋め込みモジュール６２０_１によって共通埋め込み空間７１０に投影される／埋め込まれる。上記で説明したように、共通埋め込み空間７１０に投影された／埋め込まれたＲａｄａｒセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び／又は共通埋め込み空間７１０を訓練することができる。

[0061]同様に、図６に示すように、音響センサからのセンサデータ６０４が受信され、音響センサデータ６０４の特徴が、例えば、音響センサデータから特徴を抽出するように事前に訓練されたセンサ固有のＣＮＮを含むことができる本原理の特徴抽出モジュール６１０_２を用いて抽出される。音響センサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール６２０_２によって共通埋め込み空間７１０に投影される／埋め込まれる。上記で説明したように、共通埋め込み空間７１０に投影された／埋め込まれた音響センサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び／又は共通埋め込み空間７１０を訓練することができる。

[0062]図６に更に示すように、ソナーセンサからのセンサデータ６０６が受信され、ソナーセンサデータ６０６の特徴が、例えば、ソナーセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のＣＮＮを含むことができる本原理の特徴抽出モジュール６１０_３を用いて抽出される。ソナーセンサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール６２０_３によって共通埋め込み空間７１０に投影される／埋め込まれる。上記で説明したように、共通埋め込み空間７１０に投影された／埋め込まれたソナーセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び／又は共通埋め込み空間７１０を訓練することができる。

[0063]図６の水中のターゲット／オブジェクト検知センサデータ融合システムにおいて、Ｌｉｄａｒセンサからのセンサデータ６０８が受信され、Ｌｉｄａｒセンサデータ６０８の特徴が、例えば、Ｌｉｄａｒセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のＣＮＮを含むことができる本原理の特徴抽出モジュール６１０_４を用いて抽出される。Ｌｉｄａｒセンサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール６２０_４によって共通埋め込み空間７１０に投影される／埋め込まれる。上記で説明したように、共通埋め込み空間７１０に投影された／埋め込まれたＬｉｄａｒセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び／又は共通埋め込み空間７１０を訓練することができる。

[0064]異なるモダリティのセンサ（例えば、Ｒａｄａｒセンサ、音響センサ、ソナーセンサ及びＬｉｄａｒセンサ）の各々の投影された／埋め込まれた特徴を、例えば本原理の融合モジュール６３０によって共通埋め込み空間７１０において組み合わせることができる。

[0065]図６の実施形態等の本原理の実施形態において、組み合わされた投影センサデータは、本原理に従って、水中用途におけるターゲット／オブジェクトの検出に用いることができる。例えば、上記で説明したように、いくつかの実施形態では、図１のセンサデータ融合システム１００の推論モジュール１３５等の推論モジュール６３５は、異なるモダリティを有するセンサの画像データの、組み合わされた、投影されたベクトル表現と、共通埋め込み空間に埋め込まれた画像データの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を、距離関数を用いて決定し、異なるモダリティを有するセンサの画像データによって示される少なくとも１つのオブジェクトを識別することができる。

[0066]図７は、本原理の実施形態による、少なくとも２つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法の流れ図を示す。方法７００は７０２において開始し、７０２の間、少なくとも２つのモダリティのうちの第１のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、第１のモダリティを有するセンサデータの特徴から、それぞれの第１のモダリティのセンサ－データベクトル表現が作成される。方法７００は７０４に進むことができる。

[0067]７０４において、少なくとも２つのモダリティのうちの第２のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、第２のモダリティを有するセンサデータの特徴から、それぞれの第２のモダリティのセンサ－データベクトル表現が作成される。方法７００は７０６に進むことができる。

[0068]７０６において、共通埋め込み空間に、第１のモダリティのベクトル表現及び第２のモダリティのベクトル表現が埋め込まれ、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにする。方法７００は７０８に進むことができる。

[0069]７０８において、埋め込まれた第１のモダリティのベクトル表現及び第２のモダリティのベクトル表現はそれぞれ組み合わされる。本原理のいくつかの実施形態において、第１のモダリティのベクトル表現及び第２のモダリティのベクトル表現は、それぞれの組み合わされたベクトル表現にそれぞれ組み合わされる。方法７００は終了することができる。

[0070]図７の方法７００等の本原理による方法のいくつかの実施形態において、第１及び第２のモダリティのベクトル表現の作成、並びに第１及び第２のモダリティのベクトル表現の埋め込みのうちの少なくとも一方が、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータの物理特性とによって制約／誘導される。

[0071]図７の方法７００等の本原理による方法のいくつかの実施形態において、少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータと、少なくとも２つのモダリティのうちの第２のモダリティを有する少なくともセンサデータとの間の差異が決定され、後の用途において、第１のモダリティ又は第２のモダリティのセンサデータが利用可能でない場合、利用可能な第１のモダリティ又は第２のモダリティのセンサデータから欠落したセンサデータをエミュレートすることができる。

[0072]上記で説明したように、共通埋め込み空間が上記で説明されたように作成されると、作成された埋め込み空間を、限定ではないが、ターゲット／オブジェクト検出、ターゲット／オブジェクト認識、構造分類等を含む異なる目的で実施することができる。例えば、図８は、本原理の実施形態に従って訓練された共通埋め込み空間を用いた少なくとも２つのモダリティを有するセンサを用いて捕捉されたセンサデータにおけるオブジェクト検出のための方法の流れ図を示す。方法８００は８０２において開始し、８０２中、センサデータ固有のニューラルネットワークを用いて、第１のモダリティを有するセンサデータの特徴からセンサ－データベクトル表現が作成される。方法８００は８０４に進むことができる。

[0073]８０４において、センサデータ固有のニューラルネットワークを用いて、第２のモダリティを有するセンサデータの特徴からセンサ－データベクトル表現が作成される。方法８００は８０６に進むことができる。

[0074]８０６において、共通埋め込み空間に、第１のモダリティ及び第２のモダリティを有するセンサデータのセンサ－データベクトル表現が投影され、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにする。方法８００は８０８に進むことができる。

[0075]８０８において、投影された第１のモダリティのベクトル表現及び第２のモダリティのベクトル表現はそれぞれ組み合わされる。方法８００は８１０に進むことができる。

[0076]８１０において、距離関数を用いて、組み合わされたモダリティのベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度が決定され、第１のモダリティ及び第２のモダリティを有するセンサデータによって示される少なくとも１つのオブジェクトが識別される。方法８００は終了することができる。

[0077]図８の方法８００等の本原理による方法のいくつかの実施形態において、第１及び第２のモダリティのベクトル表現の作成、並びに第１及び第２のモダリティのベクトル表現の埋め込みのうちの少なくとも一方が、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、第１のモダリティのセンサデータ及び第２のモダリティのセンサデータの物理特性とによって制約／誘導される。

[0078]図８の方法８００等の本原理による方法のいくつかの実施形態において、第１のモダリティ又は第２のモダリティのセンサデータのうちの一方が利用可能でない場合、（上記で説明したように）第１のモダリティ及び第２のモダリティのセンサデータ間の以前に学習された差異を、利用可能なセンサモダリティデータと共に用いて、第１のモダリティ及び第２のモダリティを有するセンサデータを共通の埋め込み空間に投影する前に、欠落データをエミュレートすることができる。

[0079]本原理の実施形態は、上記で説明したように訓練された共通埋め込み空間を用いて、シーンの３Ｄ情報等の可能な限り多くの情報を捕捉及び学習して、例えば、シーンのエリアを通じた個人又は車両のナビゲーションを可能にすることができる。例えば、本原理の実施形態を用いて、自動車、航空機及び／又は水中車両等の自動車両のナビゲーションを可能にすることができる。本原理の訓練された埋め込み空間の実施形態は、上記で説明したように、オブジェクト検出器、オブジェクト分類器及び／又はターゲット検出器として実施することができる。

[0080]図１に示すように、図１のセンサデータ融合システム等の、本原理によるセンサデータ融合システムの実施形態は、コンピューティングデバイス９００において実施することができる。図９は、図１のセンサデータ融合システム１００等の本原理によるセンサデータ融合システムの実施形態での使用に適したコンピューティングデバイス９００の概略ブロック図を示す。いくつかの実施形態では、コンピューティングデバイス９００は、様々な実施形態においてプロセッサが実行可能な実行可能プログラム命令９２２（例えば、プロセッサ（複数可）９１０によって実行可能なプログラム命令）として本原理の方法を実施するように構成することができる。

[0081]図９の実施形態では、コンピューティングデバイス０００は、入力／出力（Ｉ／Ｏ）インタフェース９３０を介してシステムメモリ９２０に結合された１つ又は複数のプロセッサ９１０ａ～９１０ｎを備える。コンピューティングデバイス９００は、Ｉ／Ｏインタフェース９３０に結合されたネットワークインタフェース９４０と、カーソル制御デバイス９６０、キーボード９７０、及びディスプレイ（複数可）９８０等の１つ又は複数の入力／出力デバイス９５０と、を更に備える。種々の実施形態では、ユーザインタフェースを生成し、ディスプレイ９８０上に表示することができる。場合によっては、実施形態が、コンピューティングデバイス９００の単一のインスタンスを用いて実装され得る一方で、他の実施形態では、複数のそのようなシステム、又はコンピューティングデバイス９００を構成する複数のノードが、種々の実施形態の異なる部分又はインスタンスをホストするように構成され得ることが意図されている。例えば、１つの実施形態では、いくつかの要素は、他の要素を実装しているノードとは異なるコンピューティングデバイス９００の１つ又は複数のノードを介して実装することができる。別の例では、複数のノードが、コンピューティングデバイス９００を分散型に実装してもよい。

[0082]異なる実施形態では、コンピューティングデバイス９００は、種々のデバイスのうちの任意のものとすることができ、これらは、限定ではないが、パーソナルコンピュータシステム、デスクトップコンピュータ、ラップトップ、ノートブック、タブレット若しくはネットブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、カメラ、セットトップボックス、モバイルデバイス、コンシューマデバイス、ビデオゲームコンソール、ハンドヘルドビデオゲームデバイス、アプリケーションサーバ、ストレージデバイス、スイッチ、モデム、ルータ等の周辺デバイス、又は概略的な任意のタイプのコンピューティング若しくは電子デバイスを含む。

[0083]種々の実施形態では、コンピューティングデバイス９００は、１つのプロセッサ９１０を含むユニプロセッサシステム、又はいくつかのプロセッサ９１０（例えば、２つ、４つ、８つ、又は別の適切な数）を含むマルチプロセッサシステムとすることができる。プロセッサ９１０は、命令を実行可能な任意の適切なプロセッサとすることができる。例えば、例えば、種々の実施形態では、プロセッサ９１０は、種々の命令セットアーキテクチャ（ＩＳＡ）のうちの任意のものを実装している汎用プロセッサ又は組み込み型プロセッサとすることができる。マルチプロセッサシステムにおいて、プロセッサ９１０の各々は、通常は同じＩＳＡを実装してもよいが、必ずしもそうである必要はない。

[0084]システムメモリ９２０は、プロセッサ９１０によってアクセス可能なプログラム命令９２２及び／又はデータ９３２を記憶するように構成することができる。種々の実施形態では、システムメモリ９２０は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、同期ダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュ型メモリ、又は任意の他のタイプのメモリ等の任意の適切なメモリ技術を用いて実装することができる。図示の実施形態では、上記で説明した実施形態の要素のうちの任意のものを実装するプログラム命令及びデータは、システムメモリ９２０内に記憶することができる。他の実施形態では、プログラム命令及び／又はデータは、異なるタイプのコンピュータアクセス可能媒体上で、又はシステムメモリ９２０若しくはコンピューティングデバイス９００とは別個の同様の媒体上で受信、送信、又は記憶することができる。

[0085]１つの実施形態では、Ｉ／Ｏインタフェース９３０は、プロセッサ９１０、システムメモリ９２０、及びデバイス内の任意の周辺デバイスの間でＩ／Ｏトラフィックを連携させるように構成することができ、任意の周辺デバイスは、ネットワークインタフェース９４０、又は入力／出力デバイス９５０等の他の周辺インタフェースを含む。いくつかの実施形態では、Ｉ／Ｏインタフェース９３０は、任意の必要なプロトコル、タイミング、又は他のデータ変換を実行して、１つのコンポーネント（例えば、システムメモリ９２０）からのデータ信号を別のコンポーネント（例えば、プロセッサ９１０）による使用に適したフォーマットに変換することができる。いくつかの実施形態では、Ｉ／Ｏインタフェース９３０は、例えば、周辺コンポーネント相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）（ＰＣＩ）バス規格又はユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）（ＵＳＢ）規格の変形等の種々のタイプの周辺バスを通して加えられたデバイスのためのサポートを含むことができる。いくつかの実施形態では、Ｉ／Ｏインタフェース９３０の機能は、例えば、ノースブリッジ及びサウスブリッジ等の２つ以上の別個のコンポーネントに分割することができる。また、いくつかの実施形態では、システムメモリ９２０へのインタフェース等のＩ／Ｏインタフェース９３０の機能のいくつか又は全ては、プロセッサ９１０に直接組み込むことができる。

[0086]ネットワークインタフェース９４０は、コンピューティングデバイス９００とネットワーク（例えば、ネットワーク９９０）にアタッチされた１つ又は複数の外部システム等の他のデバイスとの間又はコンピューティングデバイス９００のノード間でデータが交換可能になるように構成することができる。種々の実施形態では、ネットワーク９９０は１つ又は複数のネットワークを含むことができ、これらは、限定ではないが、ローカルエリアネットワーク（ＬＡＮ）（例えば、イーサネット［登録商標］又は企業ネットワーク）、ワイドエリアネットワーク（ＷＡＮ）（例えば、インターネット）、ワイヤレスデータネットワーク、何らかの他の電子データネットワーク、又はそれらの何らかの組み合わせを含む。種々の実施形態では、ネットワークインタフェース９４０は、任意の適切なタイプのイーサネットネットワーク等の有線若しくは無線の概略的なデータネットワークを介して、例えば、デジタルファイバ通信ネットワークを介して、ＦｉｂｅｒＣｈａｎｎｅｌＳＡＮ等のストレージエリアネットワークを介して、又は他の適切なタイプのネットワーク及び／若しくはプロトコルを介して、通信をサポートすることができる。

[0087]入力／出力デバイス９５０は、いくつかの実施形態では、１つ又は複数のディスプレイ端末、キーボード、キーパッド、タッチパッド、走査デバイス、音声若しくは光認識デバイス、又は１つ若しくは複数のコンピュータシステムによりデータを入力し若しくはデータにアクセスするのに適した任意の他のデバイスを含むことができる。複数の入力／出力デバイス９５０が、コンピュータシステム内に存在することができ、又はコンピューティングデバイス９００の種々のノード上に分散させることができる。いくつかの実施形態では、同様の入力／出力デバイスは、コンピューティングデバイス９００から分離することができ、ネットワークインタフェース９４０を介する等、有線又は無線接続を通してコンピューティングデバイス９００の１つ又は複数のノードと相互作用することができる。

[0088]当業者は、コンピューティングデバイス９００が単なる例示であり、実施形態の範囲を限定することを意図していないことを理解するはずである。特に、コンピュータシステム及びデバイスは、種々の実施形態で示した機能を実行することができるハードウェア又はソフトウェアの任意の組み合わせを含むことができ、これらは、コンピュータ、ネットワークデバイス、インターネットアプライアンス、ＰＤＡ、無線電話、ページャ等を含む。コンピューティングデバイス９００はまた、図示されていない他のデバイスに接続することができるか、又はその代わりに、スタンドアロンシステムとして動作することができる。加えて、図示されたコンポーネントによって提供される機能は、いくつかの実施形態では、より少ないコンポーネントにおいて組み合わせることができるか、又は追加のコンポーネント内に分散させることができる。同様に、いくつかの実施形態では、図示されたコンポーネントのうちのいくつかの機能は提供されなくてもよく、及び／又は他の追加の機能が利用可能であり得る。

[0089]コンピューティングデバイス９００は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）．ＲＴＭ．（及び／又は短距離でデータを交換するための他の規格は短波長無線伝送を用いるプロトコルを含む）、ＵＳＢ、イーサネット、セルラ、超音波ローカルエリア通信プロトコル等の種々のコンピュータ通信プロトコルに基づいて他のコンピューティングデバイスと通信することができる。コンピューティングデバイス９００は、ウェブブラウザを更に含むことができる。

[0090]コンピューティングデバイス９００は汎用コンピュータとして示されているが、コンピューティングデバイス９００は、種々の特殊化された制御機能を実行するようにプログラムされ、本原理に従って特殊化された特定のコンピュータとしての機能を果たすように構成され、実施形態は、例えば、特定用途向け集積回路（ＡＳＩＣ）としてハードウェアにおいて実装することができる。したがって、本明細書において説明されるプロセスステップは、ソフトウェア、ハードウェア、又はそれらの組み合わせによって同等に実行されるものとして広く解釈されることが意図されている。

[0091]当業者は、種々のアイテムが使用中にメモリ又はストレージに記憶されているように示されている一方で、これらのアイテム又はそれらの一部は、メモリ管理及びデータ完全性の目的でメモリと他のストレージデバイスの間で転送され得ることを理解するはずである。代替的に、他の実施形態では、ソフトウェアコンポーネントのいくつか又は全ては、別のデバイス上のメモリ内で実行され、コンピュータ間通信を介して図示のコンピュータシステムと通信することができる。システムコンポーネント又はデータ構造の一部又は全ては、適切なドライブによって読み取られるように、コンピュータアクセス可能な媒体又は携帯アーティクル上に記憶することができ（例えば、命令又は構造化データとして）、その種々の例は上述されている。いくつかの実施形態では、コンピューティングデバイス９００とは別個のコンピュータアクセス可能媒体に記憶された命令は、伝送媒体を介して、又はネットワーク及び／若しくは無線リンク等の伝送媒体を介して伝えられる電気信号、電磁信号、若しくはデジタル信号等の信号を介してコンピューティングデバイス９００に送信され得る。種々の実施形態は、コンピュータアクセス可能な媒体上で又は通信媒体を介して前述の説明に従って実装される命令及び／又はデータを受信、送信又は記憶することを更に含み得る。一般に、コンピュータアクセス可能媒体は、磁気若しくは光学媒体等の記憶媒体若しくはメモリ媒体、例えばディスク又はＤＶＤ／ＣＤ－ＲＯＭ、又はＲＡＭ（例えば、ＳＤＲＡＭ、ＤＤＲ、ＲＤＲＡＭ、ＳＲＡＭ等）、ＲＯＭ等の揮発性媒体若しくは不揮発性媒体を含むことができる。

[0092]図１０は、図１のセンサデータ融合システム１００等の本原理によるセンサデータ融合システムの実施形態を適用することができるネットワークの高レベルのブロック図を示す。図１０のネットワーク環境１０００は、例示的に、ユーザドメインサーバ／コンピューティングデバイス１００４を含むユーザドメイン１００２を備える。図１０のネットワーク環境１０００は、コンピュータネットワーク１００６と、クラウドサーバ／コンピューティングデバイス１０１２を含むクラウド環境１０１０と、を更に備える。

[0093]図１０のネットワーク環境１０００において、図１のセンサデータ融合システム１００等の本原理によるセンサデータ融合システムは、ユーザドメインサーバ／コンピューティングデバイス１００４、コンピュータネットワーク１００６、及びクラウドサーバ／コンピューティングデバイス１０１２のうちの少なくとも１つに含めることができる。例えば、いくつかの実施形態では、ユーザは、ローカルサーバ／コンピューティングデバイス（例えば、ユーザドメインサーバ／コンピューティングデバイス１００４）を用いて、本原理によるセンサデータ融合を提供することができる。いくつかの他の実施形態では、ユーザは、コンピュータネットワーク１００６においてセンサデータ融合システムを実装して、本原理によるセンサデータ融合を提供することができる。代替的に、又は加えて、いくつかの実施形態では、ユーザは、クラウド環境１０１０のクラウドサーバ／コンピューティングデバイス１０１２においてセンサデータ融合システムを実装して、本原理によるセンサデータ融合を提供することができる。例えば、いくつかの実施形態では、クラウド環境１０１０の処理能力及びストレージ能力を利用するために、クラウド環境１０１０において本原理の処理機能を実行することが有利であり得る。

[0094]本原理によるいくつかの実施形態では、センサデータ融合システムは、単一及び／又は複数のロケーション／サーバ／コンピュータに配置して、本明細書において説明した本原理によるシステムの機能の全部又は一部を実行することができる。例えば、本原理のいくつかの実施形態では、特徴抽出モジュール１１０、埋め込みモジュール１２０、融合モジュール１３０、推論モジュール１３５、任意選択の発生器モジュール１４０及び任意選択の弁別器モジュール１５０等のセンサデータ融合システムのコンポーネント／モジュールのうちのいくつかは、ユーザドメイン１００２、コンピュータネットワーク環境１００６、及びクラウド環境１０１０のうちの１つ又は複数に配置することができ、センサデータ融合システムのコンポーネント／モジュールのうちの他のものは、ローカル又はリモートのいずれかで上述した機能を提供するために、ユーザドメイン１００２、コンピュータネットワーク環境１００６、及びクラウド環境１０１０のうちの少なくとも他のものに配置することができる。

[0095]本明細書において説明される方法及びプロセスは、種々の実施形態において、ソフトウェア、ハードウェア、又はそれらの組み合わせにおいて実装することができる。加えて、方法の順序は変更することができ、種々の要素を追加し、並べ替え、結合し、省略し、又は他の形で変更することができる。本明細書において説明される全ての例は、非限定的な方法で提示されている。本開示の利益を享受する当業者に明らかであろうように、種々の修正及び変更がなされ得る。実施形態による具現化が、特定の実施形態に関連して説明されてきた。これらの実施形態は、例示的であることを意図するものであり、限定するものではない。多くの変形、修正、追加、及び改良が可能である。したがって、単一のインスタンスとしてここで説明されるコンポーネントに対して、複数のインスタンスが提供され得る。種々のコンポーネント、動作、及びデータストア間の境界は、多少は任意的であり、特定の動作が具体的な例示的構成に関連して示されている。機能の他の割り当てが想定されており、これらは以下の特許請求の範囲に含まれ得る。構成例において個別のコンポーネントとして提示された構造及び機能は、組み合わせた構造又はコンポーネントとして実装することができる。これらの及び他の変形、修正、追加、及び改良は、以下の特許請求の範囲で定義されるような実施形態の範囲内に含まれ得る。

[0096]前述の説明では、本開示のより完全な理解を提供するために、多数の具体的詳細、例、及びシナリオが述べられている。しかしながら、本開示の実施形態は、そのような具体的詳細なしで実施され得ることが理解されよう。更に、そのような例及びシナリオは、説明のために提供されており、開示を限定することは全く意図されていない。当業者は、含まれる説明を参照して、必要以上の実験なしに適切な機能を実装することが可能なはずである。

[0097]本明細書において「一実施形態」等への言及は、説明された実施形態が特定の特徴、構造、又は特性を含み得るが、全ての実施形態が必ずしもその特定の特徴、構造、又は特性を含まなくてもよいことを示す。そのような語句は、必ずしも同じ実施形態を参照しているとは限らない。更に、特定の特徴、構造、又は特性が一実施形態に関して記載されるとき、それは、明示的に指示されていてもいなくても、他の実施形態に関するそのような特徴、構造、又は特性に影響を及ぼすことが当業者の知識内にあると考えられる。

[0098]本開示による実施形態は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせにおいて実装することができる。実施形態はまた、１つ又は複数の機械可読媒体を用いて記憶された命令として実装することができ、それらは、１つ又は複数のプロセッサによって読み取られ、実行されてもよい。機械可読媒体は、機械（例えば、コンピューティングデバイス、又は１つ若しくは複数のコンピューティングデバイス上で実行される「仮想マシン」）によって可読な形態で情報を記憶し又は送信するための任意のメカニズムを含むことができる。例えば、機械可読媒体は、任意の適切な形態の揮発性又は不揮発性メモリを含むことができる。

[0099]ここで定義されるモジュール、データ構造等は、議論を容易にするためにそのようなものと定義されており、任意の具体的な実装の詳細が必要であることを暗示することを意図するものではない。例えば、説明されたモジュール及び／又はデータ構造のうちの任意のものは、組み合わせることができるか、又は特定の設計若しくは実装によって必要とされ得るようなサブモジュール、サブプロセス、又はコンピュータコード若しくはデータの他のユニットに分割することができる。

[0100]図面では、説明を容易にするために、概略要素の具体的な配置又は順序が示され得る。しかし、そのような要素の具体的な順序又は配置は、全ての実施形態において処理の特定の順序若しくはシーケンス又はプロセスの分離が必要であると暗示することを意味するものではない。一般に、命令ブロック又はモジュールを表すために用いられる概略要素は、任意の適切な形態の機械可読命令を用いて実装することができ、そのような各命令は、任意の適切なプログラミング言語、ライブラリ、アプリケーションプログラミングインタフェース（ＡＰＩ）、及び／又は他のソフトウェア開発ツール若しくはフレームワークを用いて実装することができる。同様に、データ又は情報を表すために用いられる概略要素は、任意の適切な電子的配置又はデータ構造を用いて実装することができる。更に、要素間のいくつかの接続、関係、又は関連は、開示を曖昧にしないように、簡略化されている可能性があり、又は図面に示されていない可能性がある。

[0101]本開示は、例示的であって、性質を制限するものではないと考えられるべきであり、本開示のガイドライン内に入る全ての変更及び修正は保護されることが望まれる。

[0101]本開示は、例示的であって、性質を制限するものではないと考えられるべきであり、本開示のガイドライン内に入る全ての変更及び修正は保護されることが望まれる。
［発明の項目］
［項目１］
少なくとも２つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第１のモダリティを有する前記センサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成するステップと、
前記少なくとも２つのモダリティのうちの第２のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第２のモダリティを有する前記センサデータの前記特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するステップと、
共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現と、前記第２のモダリティのベクトル表現とをそれぞれ組み合わせるステップと、
を含み、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記埋め込みのうちの少なくとも一方が、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、方法。
［項目２］
センサデータ固有のニューラルネットワークは、前記センサデータ固有のニューラルネットワークが適用されるモダリティを有するセンサデータの特徴を認識するように予め訓練される、項目１に記載の方法。
［項目３］
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現は、後期融合を用いて組み合わされる、項目１に記載の方法。
［項目４］
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記捕捉センサデータ、及び前記第２のモダリティを有する前記捕捉センサデータ間の差異を決定するステップを更に含む、項目１に記載の方法。
［項目５］
前記第１のモダリティ及び前記第２のモダリティを有する前記捕捉センサデータ間の前記決定された差異を用いて、前記第１のモダリティ又は前記第２のモダリティのうちの一方の欠落データが、前記第２のモダリティ又は前記第１のモダリティのうちの他方の捕捉データから決定される、項目４に記載の方法。
［項目６］
前記差異は、敵対的生成ネットワークを用いて決定される、項目４に記載の方法。
［項目７］
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与を決定するステップを含む、項目１に記載の方法。
［項目８］
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも１つを含む、項目１に記載の方法。
［項目９］
共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおける、オブジェクト検出、オブジェクト分類又はオブジェクトセグメンテーションのうちの少なくとも１つのための方法であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成するステップと、
前記少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するステップと、
前記共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるステップと、
距離関数を用いて、前記組み合わされたモダリティのセンサ－データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも２つのモダリティを有する前記センサデータによって示される少なくとも１つのオブジェクトを識別するステップと、
を含み、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記投影のうちの少なくとも一方は、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、方法。
［項目１０］
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の差異を決定するステップを更に含む、項目９に記載の方法。
［項目１１］
複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現のうちの少なくとも一方が作成される、項目１０に記載の方法。
［項目１２］
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現のうちの少なくとも一方は、センサデータ固有のニューラルネットワークを用いて作成される、項目９に記載の方法。
［項目１３］
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与が予め決定される、項目９に記載の方法。
［項目１４］
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現は、アテンションベースのモード融合を用いて組み合わされる、項目１３に記載の方法。
［項目１５］
共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための装置であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現、及び前記少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するように構成された少なくとも１つの特徴抽出モジュールと、
前記共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも１つの埋め込みモジュールと、
前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるように構成された融合モジュールと、
距離関数を用いて、前記組み合わされたモダリティのセンサ－データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも２つのモダリティを有する前記センサデータによって示される少なくとも１つのオブジェクトを識別するように構成された推論モジュールと、
を備え、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記投影のうちの少なくとも一方は、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、装置。
［項目１６］
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の差異を決定するように構成された敵対的生成ネットワークを更に備える、項目１５に記載の装置。
［項目１７］
前記敵対的生成ネットワークは、前記第１のモダリティ及び前記第２のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第１のモダリティ又は前記第２のモダリティのうちの一方の欠落データを、前記第２のモダリティ又は前記第１のモダリティのうちの他方のデータから決定する、項目１６に記載の装置。
［項目１８］
前記融合モジュールは、前記少なくとも２つのモダリティのうちの前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現の各々の、前記組み合わせに対する寄与を決定するように構成される、項目１５に記載の装置。
［項目１９］
前記融合モジュールは、アテンションベースのモード融合を適用して、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるように構成される、項目１８に記載の装置。
［項目２０］
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも１つを含む、項目１５に記載の装置。

Claims

少なくとも２つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第１のモダリティを有する前記センサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成するステップと、
前記少なくとも２つのモダリティのうちの第２のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第２のモダリティを有する前記センサデータの前記特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するステップと、
共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現と、前記第２のモダリティのベクトル表現とをそれぞれ組み合わせるステップと、
を含み、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記埋め込みのうちの少なくとも一方が、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、方法。
センサデータ固有のニューラルネットワークは、前記センサデータ固有のニューラルネットワークが適用されるモダリティを有するセンサデータの特徴を認識するように予め訓練される、請求項１に記載の方法。
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現は、後期融合を用いて組み合わされる、請求項１に記載の方法。
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記捕捉センサデータ、及び前記第２のモダリティを有する前記捕捉センサデータ間の差異を決定するステップを更に含む、請求項１に記載の方法。
前記第１のモダリティ及び前記第２のモダリティを有する前記捕捉センサデータ間の前記決定された差異を用いて、前記第１のモダリティ又は前記第２のモダリティのうちの一方の欠落データが、前記第２のモダリティ又は前記第１のモダリティのうちの他方の捕捉データから決定される、請求項４に記載の方法。
前記差異は、敵対的生成ネットワークを用いて決定される、請求項４に記載の方法。
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与を決定するステップを含む、請求項１に記載の方法。
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも１つを含む、請求項１に記載の方法。
共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおける、オブジェクト検出、オブジェクト分類又はオブジェクトセグメンテーションのうちの少なくとも１つのための方法であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現を作成するステップと、
前記少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するステップと、
前記共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるステップと、
距離関数を用いて、前記組み合わされたモダリティのセンサ－データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも２つのモダリティを有する前記センサデータによって示される少なくとも１つのオブジェクトを識別するステップと、
を含み、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記投影のうちの少なくとも一方は、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、方法。
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の差異を決定するステップを更に含む、請求項９に記載の方法。
複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現のうちの少なくとも一方が作成される、請求項１０に記載の方法。
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現のうちの少なくとも一方は、センサデータ固有のニューラルネットワークを用いて作成される、請求項９に記載の方法。
前記埋め込まれた第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与が予め決定される、請求項９に記載の方法。
前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現は、アテンションベースのモード融合を用いて組み合わされる、請求項１３に記載の方法。
共通埋め込み空間を用いる少なくとも２つのモダリティを有するセンサデータにおけるオブジェクト検出のための装置であって、
前記少なくとも２つのモダリティのうちの第１のモダリティを有するセンサデータの特徴のそれぞれの第１のモダリティのセンサ－データベクトル表現、及び前記少なくとも２つのモダリティのうちの第２のモダリティを有するセンサデータの特徴のそれぞれの第２のモダリティのセンサ－データベクトル表現を作成するように構成された少なくとも１つの特徴抽出モジュールと、
前記共通埋め込み空間に、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも１つの埋め込みモジュールと、
前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるように構成された融合モジュールと、
距離関数を用いて、前記組み合わされたモダリティのセンサ－データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも２つのモダリティを有する前記センサデータによって示される少なくとも１つのオブジェクトを識別するように構成された推論モジュールと、
を備え、
前記第１及び第２のモダリティのセンサ－データベクトル表現の前記作成、並びに前記第１及び前記第２のモダリティのセンサ－データベクトル表現の前記投影のうちの少なくとも一方は、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも１つの物理特性と、前記第１のモダリティのセンサデータ及び前記第２のモダリティのセンサデータの物理特性とによって誘導される、装置。
前記少なくとも２つのモダリティのうちの、複数の、前記第１のモダリティを有する前記センサデータ、及び前記第２のモダリティを有する前記センサデータ間の差異を決定するように構成された敵対的生成ネットワークを更に備える、請求項１５に記載の装置。
前記敵対的生成ネットワークは、前記第１のモダリティ及び前記第２のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第１のモダリティ又は前記第２のモダリティのうちの一方の欠落データを、前記第２のモダリティ又は前記第１のモダリティのうちの他方のデータから決定する、請求項１６に記載の装置。
前記融合モジュールは、前記少なくとも２つのモダリティのうちの前記投影された第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現の各々の、前記組み合わせに対する寄与を決定するように構成される、請求項１５に記載の装置。
前記融合モジュールは、アテンションベースのモード融合を適用して、前記第１のモダリティのセンサ－データベクトル表現及び前記第２のモダリティのセンサ－データベクトル表現を組み合わせるように構成される、請求項１８に記載の装置。
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも１つを含む、請求項１５に記載の装置。