JP7332238B2 - タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 - Google Patents

タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 Download PDF

Info

Publication number
JP7332238B2
JP7332238B2 JP2022534235A JP2022534235A JP7332238B2 JP 7332238 B2 JP7332238 B2 JP 7332238B2 JP 2022534235 A JP2022534235 A JP 2022534235A JP 2022534235 A JP2022534235 A JP 2022534235A JP 7332238 B2 JP7332238 B2 JP 7332238B2
Authority
JP
Japan
Prior art keywords
modality
sensor
data
modalities
vector representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022534235A
Other languages
English (en)
Other versions
JP2023502140A (ja
Inventor
ハン‐パン チウ,
ザカリー シーモア,
ニルスポル シー. ミトゥン,
スプン サマラシケラ,
ラケシュ クマール,
イー ヤオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc filed Critical SRI International Inc
Publication of JP2023502140A publication Critical patent/JP2023502140A/ja
Application granted granted Critical
Publication of JP7332238B2 publication Critical patent/JP7332238B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Description

[0001]本原理の実施形態は、概略的には、センサデータの評価及び生成に関し、より詳細には、マルチモーダル埋め込みを用いたセンサデータの評価及び生成に関する。
背景
[0002]困難な環境におけるターゲット検出及び認識等のタスクのためのセンサ融合は、多くの分野において、解決すべき重要な問題である。しかしながら、これらの環境におけるセンサデータは、通常、本質的に非常にノイズが多い。加えて、異なるセンサを用いて捕捉されたデータは、多様な物理特性に起因して劇的に異なる可能性がある。これらのタスクのための現行のセンサ融合方法は、同じ(又は類似の)タイプのセンサのための初期段階の融合(未加工データレベル)に限定される。これらは、よりロバストで正確なタスク性能に達するために、異なるタイプのセンサからの補足情報を融合することができない。加えて、ターゲット検出及び認識等のタスクに対する過去の手法は、1つの単一データ源に焦点を当て、手作りの特徴又は深層学習された特徴の抽出に依拠する。
概要
[0003]共通埋め込み空間を用いる少なくとも2つのモダリティを有するセンサデータにおけるオブジェクト検出のための、方法、装置及びシステムの実施形態が本明細書に開示される。
[0004]本原理によるいくつかの実施形態において、少なくとも2つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法が、前記少なくとも2つのモダリティのうちの第1のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワーク(例えば、畳込みニューラルネットワーク、リカレントニューラルネットワーク、変換器等)を用いて、前記第1のモダリティを有する前記センサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成することと、少なくとも2つのモダリティのうちの第2のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第2のモダリティを有する前記センサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成することと、共通埋め込み空間に、第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることと、埋め込まれた第1のモダリティのセンサ-データベクトル表現と、第2のモダリティのベクトル表現とをそれぞれ組み合わせることと、を含む。
[0005]本原理のいくつかの実施形態において、方法は、第1及び第2のモダリティのセンサ-データベクトル表現の作成、並びに第1及び第2のモダリティのセンサ-データベクトル表現の埋め込みのうちの少なくとも一方を、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータの物理特性とによって制約することを更に含むことができる。
[0006]本原理によるいくつかの実施形態において、共通埋め込み空間を用いる少なくとも2つのモダリティを有するセンサデータにおけるオブジェクト検出のための方法が、少なくとも2つのモダリティのうちの第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成することと、少なくとも2つのモダリティのうちの第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成することと、共通埋め込み空間に、第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データ埋め込み表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることと、投影された第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データベクトル表現を組み合わせることと、距離関数を用いて、組み合わされたモダリティのセンサ-データベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも2つのモダリティを有するセンサデータによって示される少なくとも1つのオブジェクトを識別することと、を含む。
[0007]本原理のいくつかの実施形態において、方法は、第1及び第2のモダリティのセンサ-データベクトル表現の作成、並びに第1及び第2のモダリティのセンサ-データベクトル表現の埋め込みのうちの少なくとも一方を、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータの物理特性とによって制約することを更に含むことができる。
[0008]本原理によるいくつかの実施形態において、共通埋め込み空間を用いる少なくとも2つのモダリティを有するセンサデータにおけるオブジェクト検出のための装置が、少なくとも2つのモダリティのうちの第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現、及び少なくとも2つのモダリティのうちの第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するように構成された少なくとも1つの特徴抽出モジュールと、共通埋め込み空間に、第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データ埋め込み表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも1つの埋め込みモジュールと、投影された第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データベクトル表現を組み合わせるように構成された融合モジュールと、距離関数を用いて、組み合わされたモダリティのセンサ-データベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも2つのモダリティを有するセンサデータによって示される少なくとも1つのオブジェクトを識別するように構成された推論モジュールと、を備える。
[0009]本原理のいくつかの実施形態において、装置は、第1及び第2のモダリティのセンサ-データベクトル表現の作成、並びに第1及び第2のモダリティのセンサ-データベクトル表現の埋め込みのうちの少なくとも一方を、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータの物理特性とによって制約/誘導するように更に構成することができる。
[0010]本原理による他の及び更なる実施形態が以下に記載される。
[0011]本原理の上述した特徴が詳細に理解され得るように、上記で簡単に要約した本原理のより具体的な説明が実施形態を参照することによりなされることがあり、実施形態のいくつかは添付図面に示される。しかしながら、添付図面は、本原理による典型的な実施形態を示すものにすぎず、したがって、本原理が他の同様に有効な実施形態を受け入れる場合があることからも、これらの図面は、本原理の範囲を限定するものと解釈すべきではないことに留意されたい。
[0012]図1は、本原理の実施形態によるセンサデータ融合システムの高レベルのブロック図である。
[0013]図2は、本原理の実施形態による、図1のセンサデータ融合システム等の本原理のセンサデータ融合システムの機能の高レベルの機能図である。
[0014]図3Aは、本原理の実施形態による、センサデータ融合システムの任意選択の発生器モジュール及び任意選択の弁別器モジュールの動作の高レベルの機能図である。
[0015]図3Bは、本原理の実施形態による、センサデータ融合システムにおける、図3Aのセンサ2等の学習されたセンサのデータ捕捉のシミュレーションの高レベルの機能図である。
[0016]図4Aは、本原理の代替の実施形態による、センサデータ融合システムの任意選択の発生器モジュール及び任意選択の弁別器モジュールの動作の高レベルの機能図である。
[0017]図4Bは、本原理の実施形態による、センサデータ融合システムにおける、図4Aのデータモデル2等のデータモダリティの特性のシミュレーションの高レベルの機能図である。
[0018]図5は、本原理の実施形態による、3Dターゲット/オブジェクト検出のために実施することができる本原理のセンサデータ融合システムの高レベルの機能図である。
[0019]図6は、本原理の実施形態による、水中ターゲット/オブジェクト検知アプリケーションについて実施することができる本原理のセンサデータ融合システムの高レベルの機能ブロック図である。
[0020]図7は、本原理の実施形態による、少なくとも2つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法の流れ図である。
[0021]図8は、本原理の実施形態に従って訓練された共通埋め込み空間を用いたオブジェクト検出のための方法の流れ図である。
[0022]図9は、本原理の実施形態による、図1のセンサデータ融合システム100等のセンサデータ融合システムの実施形態と共に用いるのに適したコンピューティングデバイスの高レベルのブロック図である。
[0023]図10は、本原理によるセンサデータ融合システムの実施形態を適用することができるネットワークの高レベルのブロック図である。
詳細な説明
[0024]理解を容易にするために、可能な場合、同一の参照番号を用いて複数の図に共通である同一の要素を指定した。図は一定の縮尺で描かれておらず、明瞭さのために簡略化されていることがある。1つの実施形態の要素及び特徴は、更なる列挙なしに他の実施形態に有益に組み込まれてもよいことが意図されている。
[0025]本原理の実施形態は、概略的には、マルチモーダル埋め込みを用いて複数のモダリティを有する複数の異なるタイプのセンサからのセンサデータを組み合わせるセンサデータ融合のための方法、装置及びシステムに関する。本原理の概念は、種々の修正及び代替形態を許容するが、具体的な実施形態が、例として図面に示され、以下で詳細に説明される。本原理の概念を開示された特定の形態に限定する意図はないことが理解されるべきである。それどころか、本原理及び添付の請求項と一致する全ての修正、均等なもの、及び代替案を包含することが意図される。例えば、本原理の実施形態は、主に具体的なセンサに関して説明されるが、そのような教示は限定的であると考えられるべきではない。本原理による実施形態は、実質的に任意のセンサ及び/又は検出器で機能することができる。
[0026]本原理のいくつかの実施形態は、ターゲット指標を直接最適化し、結果に対する各センサ(モード)の寄与を学習することによって、共通埋め込み空間内のマルチセンサ(すなわち、マルチモーダル)データを融合するエンドツーエンドのパイプラインシステムを提供する。いくつかの実施形態では、物理方程式及び原理等のそれぞれのセンサ及び/又はセンサデータの物理特性が特徴抽出の学習に組み込まれ、これにより、各センサの物理特性がそれらの低次元表現から復元可能であることを確実にして、一般化性能を維持しながらより少ない例での学習を容易にする。
[0027]本原理のいくつかの実施形態は、アテンションベースのモード融合を含み、これは、いくつかの実施形態では、利用可能なペイロード及び計算リソースに基づいてモードを選択するための情報を提供する、セルフアテンション機構を通じて、各センサ(モード)の重要性を学習することを含むことができる。
[0028]本原理のいくつかの実施形態は、物理学により誘導された埋め込みを含む。そのような実施形態において、それぞれのセンサ及び/又はセンサデータ(すなわち、撮像されたオブジェクト)の物理特性は、符号化された領域知識を通じて埋め込み空間内に追加の構造及び制約を提供する。埋め込み空間における制約は、結果を、限定ではないがオブジェクトの表面反射、温度及び湿度を含む既知の物理特性と比較することによって、結果の追加の拡張性及び検証を提供する。例えば、物理的にもっともらしい構成性の観点から、2つの材料(例えば、前景としての草及び背景としての土)の混合物の埋め込みは、理想的には、これらの2つの材料の埋め込みの間に位置する。しかしながら、物理的にもっともらしい特性の観点から、異なる環境温度又は湿度を有する材料の埋め込みは、非常に近接して群がるのみでなく、温度又は湿度の変化に伴って一貫して展開する軌道も形成する。
[0029]本原理のいくつかの実施形態は、後期段階の融合を含む。従来の初期段階の未加工データ融合と比較して、本原理に従って共通埋め込み空間において特徴データを融合することにより、単一のモダリティからのデータのなりすましに対するロバスト性が増大する。
[0030]本原理の実施形態は、訓練後に、推論中の単一のモデルの使用を可能にする。訓練されたマルチモーダル共通埋め込み空間は、1つのみのセンサモデルの使用を可能にする。すなわち、いくつかの実施形態では、追加のセンサ情報が(例えば、新たな場所について)利用可能でない場合があるシナリオにおいて、本原理の実施形態は、敵対的生成ネットワーク(GAN)及び/又は変分オートエンコーダを実施して、複数のセンサ間の差異を学習し、後に利用可能なセンサデータを拡張することができる。
[0031]他の実施形態において、モデルシミュレータを利用して、複数のデータモダリティ間の差異を学習し、新たなデータモデルについて限られたデータが存在するとき、訓練されたネットワークを拡張することができる。
[0032]図1は、本原理の実施形態による、マルチモーダル埋め込みを用いて複数の異なるタイプのセンサからのセンサデータを組み合わせるためのセンサデータ融合システム100の高レベルのブロック図を示す。図1のセンサデータ融合システム100は、例示的に、特徴抽出モジュール110と、埋め込みモジュール120と、融合モジュール130と、推論モジュール135とを備える。いくつかの実施形態では、図1のセンサデータ融合システム100に詳細に示すように、本原理のセンサデータ融合システムは、任意選択の発生器モジュール140と、任意選択の弁別器モジュール150とを更に備えることができ、その機能が以下で更に記載される。図1のセンサデータ融合システム100の実施形態は、例示的に単一の特徴抽出モジュール110を備えるが、いくつかの実施形態では、本原理のセンサデータ融合システムは、2つ以上の特徴抽出モジュールを備えることができ、いくつかの実施形態では、異なるセンサタイプ(モダリティ)及び/又は組み合わされる異なるタイプのセンサデータ(モダリティ)ごとに少なくとも1つの特徴抽出モジュールを備えることができる。
[0033]図1に示すように、図1のセンサデータ融合システム100等の、本原理によるセンサデータ融合システムの実施形態は、本原理によればコンピューティングデバイス900において実施することができる(図9に関して、より詳細に記載される)。すなわち、いくつかの実施形態では、センサデータは、例えば、コンピューティングデバイス900と関連付けられた任意の入力/出力手段を介してコンピューティングデバイス900を用いてセンサデータ融合システム100に通信することができる。加えて、本原理に従って埋め込み空間を訓練するのに用いることができる画像及びデータ、並びに処理される任意のクエリは、コンピューティングデバイス900と関連付けられた任意の入力/出力手段を用いてコンピューティングデバイス900からセンサデータ融合システム100によってアクセスすることができる。本原理によるセンサデータ融合システムの結果は、ディスプレイ、プリンタ又は任意の他の形態の出力デバイス等のコンピューティングデバイスの出力デバイスを用いてユーザに提示することができる(図9に関して、より詳細に説明される)。
[0034]図1のセンサデータ融合システム100において、少なくとも2つの異なるタイプ(例えば、異なるモダリティ)のセンサによって捕捉されたシーンの画像は、少なくとも1つの特徴抽出モジュール110のそれぞれに通信される。いくつかの実施形態では、少なくとも1つの特徴抽出モジュール110において、ニューラルネットワークは、2つの異なるタイプのセンサのそれぞれの捕捉画像に適用し、少なくとも2つの異なるタイプのセンサの画像の視覚的特徴を抽出することができる。そのようなニューラルネットワークは、限定ではないが、畳込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、変換器、及びセンサデータの特徴のベクトル表現を抽出することができる実質的に任意のニューラルネットワークを含むことができる。いくつかの実施形態では、モデル(センサ)固有のニューラルネットワークを用いて、少なくとも2つの異なるタイプのセンサから画像のそれぞれの画像特徴を決定することができる。少なくとも1つの特徴抽出モジュール110からの抽出された画像特徴は、少なくとも1つの埋め込みモジュール120のそれぞれに通信される。いくつかの実施形態では、少なくとも1つの埋め込みモジュール120の各々において、少なくとも2つの異なるタイプのセンサの抽出された画像特徴が共通埋め込み空間に埋め込まれる/投影される。
[0035]いくつかの実施形態では、本原理による共通埋め込み空間は、Word2vecを用いて作成することができる。Word2vecは、単語埋め込みベクトルを生成する機械学習プロセス/モデルであり、ここで、単語は数字と関連付けられ、単語の数字的本質が生成される。いくつかの実施形態では、ユーザ(複数可)によって対話されたテキストを表す単語のそれぞれの単語ベクトルを作成することができる。Word2vecは、単語埋め込み(数字のアレイ)を生成し、ここで、類似の意味又はコンテキストを有する単語(すなわち、テキストを表す)は、埋め込まれた空間において互いに物理的に近い。数は、通常、アレイに配列され、これにより数学的プロセスがその数に対し実行されることが可能になる。単語を一連の数として定量化することによって、機械学習が、数に基づいて他の2つの単語に類似の新たな単語を発見し、モデルに基づいて各単語のデータ特性を発見することが可能になる。次に、単語をグラフ化し、数学的特性に基づいて単語と比較することができる。グラフ化された単語間の距離は、ベクトル、又は方向を有する距離として記述することができる。1つのグラフ化された単語から空間内の別のグラフ化された単語への移動により、ハードコード化された「単語ベクトル」である単語関係の着想を表す/グラフ化することが可能になる。そのような実施形態において、畳込みニューラルネットワーク(CNN)を用いて、本原理による埋め込み空間を作成することができる。
[0036]いくつかの実施形態では、本原理による共通埋め込み空間は、DeViSE(A. Frome、G. Corrado及びJ. Shlens「DeViSE: A deep visual-semantic embedding model」Adv. Neural ..., pp. 1-11, 2013を参照)として参照される埋め込みモデルを用いて予め訓練することができる。特に、全ての画像を単語埋め込み空間にマッピングする画像埋め込みが訓練される。これは、変換する完全接続層をアタッチする畳込みネットワークを用いて達成することができる。事前訓練中の埋め込み空間のスパースなサンプリングを回避するために、外部ソースからの追加のデータを実装して、意味的埋め込み空間を訓練し、意味的埋め込み空間における密なオブジェクトクラスサンプリングを生成することができる。いくつかの実施形態では、単語埋め込みは学習されないが、GloVE(J. Pennington、R. Socher及びC. D. Manning「GloVe: Global Vectors for Word Representation」を参照)を用いて初期化される。
[0037]いくつかの実施形態では、本原理による埋め込み空間は、異なるタイプ(モダリティ)のセンサによって捕捉されたデータを用いて更に訓練することができる。すなわち、特徴は、少なくとも1つのそれぞれの特徴抽出モジュールによって、少なくとも2つの異なるタイプ(モダリティ)のセンサにより捕捉された画像から抽出され、少なくとも1つの埋め込みモジュールによって共通埋め込み空間に埋め込まれる。異なるタイプのセンサからの画像の特徴が共通埋め込み空間内に埋め込まれることに起因して、異なるタイプのセンサによって捕捉されたデータ間の関係を決定することができる(以下でより詳細に説明される)。
[0038]すなわち、いくつかの実施形態では、本原理に従って共通埋め込み空間をより詳細に訓練するために、センサデータは少なくとも第1のモダリティを有し、第2のモダリティは、図1のセンサデータ融合システム100の特徴抽出モジュール110等の、本原理のセンサデータ融合システムの特徴抽出モジュールによって受信することができる。少なくとも2つのモダリティのうちの第1のモダリティを有する複数の捕捉センサデータのそれぞれについて、第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現が作成される。同様に、少なくとも2つのモダリティのうちの第2のモダリティを有する複数の捕捉センサデータのそれぞれについて、第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現が作成される。次に、共通埋め込み空間に、第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることができる。次に、埋め込まれた第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのベクトル表現を組み合わせて結果として得られるベクトルにし、共通埋め込み空間を訓練することができる。
[0039]本原理の実施形態に従って、上記で説明したように共通埋め込み空間が訓練されると、共通埋め込み空間を用いて、少なくとも2つのモダリティを有する捕捉されたセンサデータによって示される少なくとも1つのオブジェクトを識別することができる。例えば、いくつかの実施形態では、第1のモダリティを有する複数の捕捉センサデータのそれぞれについて、第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現が作成される。同様に、少なくとも2つのモダリティのうちの第2のモダリティを有する複数のセンサデータのそれぞれについて、第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現が作成される。次に、訓練された共通埋め込み空間に、第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのセンサ-データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにすることができる。次に、投影された第1のモダリティのセンサ-データベクトル表現及び第2のモダリティのベクトル表現を組み合わせて、結果として得られるベクトルにすることができる。本原理によれば、距離関数を用いて、組み合わされた、結果として得られたベクトルと、訓練された共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、少なくとも2つのモダリティを有するセンサデータによって示される少なくとも1つのオブジェクトを識別することができる。
[0040]図2は、本原理の実施形態による、図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムの機能の高レベルの機能図を示す。図2の実施形態に示すように、異なるモダリティ(mod)を有する4つの異なるタイプのセンサ202、202、202、202(まとめて、センサ202)は、同じシーンの画像を捕捉する。図2の実施形態等のいくつかの実施形態では、4つのセンサは、限定ではないが、Radarセンサ、RGBセンサ、電気光学(EO)センサ、衛星画像センサ、InfraRedセンサ等のセンサを含むことができる。図2の実施形態において、4つの異なるタイプのセンサ202、202、202、202の各々によって捕捉されたデータは、4つの特徴抽出モジュール110、110、110、110(まとめて、特徴抽出モジュール110)のそれぞれに通信される。上記で説明したように、特徴抽出モジュール110において、センサ202によって捕捉された画像の特徴は、例えば、いくつかの実施形態では、モデル固有のCNN等のニューラルネットワークを用いて抽出される。
[0041]例えば、いくつかの実施形態において、第1のセンサタイプは、シーンの衛星画像を収集する衛星センサを含むことができる。そのような実施形態において、衛星センサによって捕捉されたデータの画像特徴は、衛星画像の画像特徴を抽出するように訓練されたCNNを用いて衛星画像の画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。加えて、第2のタイプのセンサは、例えば、同じシーンの画像を収集する電気光学(EO)センサを含むことができる。そのような実施形態において、EOセンサによって捕捉されたデータの画像特徴は、EOデータから画像特徴を抽出するように訓練されたCNNを用いてEOデータの画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。また更に、第3のタイプのセンサは、例えば同じシーンのIR画像を収集する赤外線(IR)センサを含むことができる。そのような実施形態において、IRセンサによって捕捉されたデータの画像特徴は、IRデータから画像特徴を抽出するように訓練されたCNNを用いてIRデータの画像特徴を抽出するように構成されたそれぞれの特徴抽出モジュールによって抽出することができる。抽出された衛星、EO及びIR画像特徴は、次に、例えば、上記で説明したように本原理の少なくとも1つの埋め込みモジュールによって、共通埋め込み空間に投影/埋め込むことができる。
[0042]すなわち、図2の実施形態に示すように、特徴抽出モジュール110の各々の抽出された画像特徴は、4つの埋め込みモジュール120、120、120、120(まとめて埋め込みモジュール120)のそれぞれに通信される。埋め込みモジュール120において、異なるタイプのセンサ202からのデータの抽出された特徴は、共通埋め込み空間210に投影される/埋め込まれる。いくつかの実施形態では、画像埋め込みモジュール120は、画像データを共通埋め込み空間210に投影する/埋め込むための異なるタイプのセンサの画像データのそれぞれの特徴ベクトル表現を決定する。すなわち、埋め込みモジュール120によって受信される画像特徴は、いくつかの実施形態では、異なるタイプのセンサ202によって捕捉された画像データの特徴を表す単語ベクトルを、いくつかの実施形態では線形投影により、埋め込み空間210に投影する/埋め込むことによって、共通埋め込み空間210に投影する/埋め込むことができる。本原理によるいくつかの実施形態では、埋め込みモジュール120は、画像データを共通埋め込み空間に投影する/埋め込むために画像データを処理するための、ニューラルネットワーク、いくつかの実施形態では完全接続(FC)層を有する畳込みニューラルネットワーク(CNN)を実施するディープ画像エンコーダ(図示せず)を含むことができる。いくつかの他の実施形態では、代替的に又は加えて、ニューラルネットワークは変換器を備えることができる。
[0043]再び図1及び図2を参照すると、いくつかの実施形態では、異なるタイプのセンサからのデータの埋め込まれた特徴ベクトルを、融合モジュール130によって埋め込み空間内に融合することができる。例えば、いくつかの実施形態では、図2の実施形態に示すように、融合モジュール130は、モダリティの各々について異なるタイプのセンサ202によって捕捉されたデータの抽出された特徴のそれぞれの埋め込まれた特徴ベクトルを組み合わせて、異なるタイプのセンサ202によって捕捉された共通シーンのそれぞれの特徴の組み合わされた特徴ベクトル表現にする。本原理のいくつかの実施形態では、融合モジュール130は、後期融合技法を組み込み、後期融合技法は、まず、異なるタイプのセンサの画像データの特徴ベクトルを決定し、共通埋め込み空間において決定された特徴ベクトルを投影し/埋め込み、次に、複数のモダリティのそれぞれについて異なるタイプのセンサの画像データの投影された/埋め込まれた特徴ベクトルを組み合わせることを含む。本原理によるそのような後期融合/組み合わせは、早期融合技法よりも弁別的な結果をもたらす。
[0044]本原理のいくつかの実施形態に従って、複数のモダリティのそれぞれについて、異なるタイプのセンサの画像データの組み合わされた特徴ベクトルを、センサデータにおけるターゲット/オブジェクトの検出に用いることができる。例えば、再び図1を参照すると、いくつかの実施形態では、推論モジュール135は、上記で説明したように組み合わされた、複数のモダリティのそれぞれについての異なるタイプのセンサの画像データの投影された特徴ベクトル表現の組み合わせと、以前に訓練された共通埋め込み空間における画像データのそれぞれの埋め込まれた特徴ベクトル表現との間の類似度を決定するように構成される。いくつかの実施形態では、図1のセンサデータ融合システム100の推論モジュール135等の本原理の推論モジュールは、距離関数を実施して、投影された特徴ベクトル表現の組み合わせと、以前に訓練された共通埋め込み空間におけるそれぞれの埋め込まれた特徴ベクトル表現との間の類似度を決定して、複数のモダリティを有するセンサデータによって示される少なくとも1つのオブジェクトを識別することができる。いくつかの実施形態では、距離関数は、コサイン関数、ユークリッド関数及び/又はラグランジュ点1(L1)関数等のうちの少なくとも1つを含むことができる。
[0045]本原理のセンサデータ融合システムのいくつかの実施形態において、例えば特徴抽出モジュール110によって実行される本原理の特徴抽出は、物理学により誘導された特徴抽出を含むことができる。例えば、いくつかの実施形態では、特定のタイプのセンサによって捕捉されるセンサデータから抽出された特徴は、センサ及び/又はセンサデータモダリティの物理特性に従って制約/制限/誘導することができる。すなわち、いくつかの実施形態では、特徴抽出は、物理方程式/特性及び原理を、機械学習を用いて特徴抽出の学習に組み込むことによって制約/誘導することができ、これにより各モードの物理特性がそれらの低次元の表現により復元可能であることを確実にして、一般化性能を維持しながらより少ない例での学習を容易にする。例えば、いくつかの実施形態では、特定のタイプのセンサ及び/又はセンサデータモダリティの物理方程式/物理特性に従って特徴抽出を行うように訓練されたCNN等のニューラルネットワークは、本原理の特徴抽出モジュールによって、その特定のタイプのセンサによって捕捉されたデータの特徴を抽出するように実施することができる。したがって、本原理によれば、センサによって捕捉される外れ値データを無視することができる。例えば、いくつかの実施形態では、データモデルごとに、組み込まれた物理特性/方程式を用いて特徴の分解及び特徴の再構成を行うエンコーダ及びデコーダを実施することができる。したがって、再構成された特徴が元のデータに類似の特徴を有する場合、特徴は、元のデータの物理特性を保持すると考えることができる。
[0046]代替的に又は加えて、本原理のセンサデータ融合システムのいくつかの実施形態において、例えば本原理の融合モジュール130によって実行される本原理の融合は、アテンションベースのモード融合を含むことができる。例えば、いくつかの実施形態において、上記で説明したような共通埋め込み空間の訓練中、結果として得られるセンサデータの組み合わせ(すなわち、マルチモーダル埋め込み)への異なるセンサ202の個々の寄与は、いくつかの実施形態では、融合モジュール130によって示される。したがって、本原理のセンサデータ融合システムの適用又は使用中、融合モジュール130は、異なるセンサ202の各々のそれぞれの寄与を重み付けして所望の組み合わされた信号を達成することができる。いくつかの実施形態では、アテンションは、個々のセンサの代わりにセンサモダリティに基づくことができる。例えば、いくつかの実施形態では、所望の組み合わされた信号を達成するために異なるタイプのセンサによって捕捉されたデータを重み付けするとき、個々のセンサ自体の寄与の代わりに、組み合わされた信号へのセンサモダリティの寄与へのアテンションを考慮に入れることができる。
[0047]いくつかの実施形態では、本原理のアテンションベースの融合は、ニューラルネットワークにおけるモダリティ間のアテンションを用いたマルチモーダル情報の融合を含むことができる。そのような実施形態は、各モダリティの相対的な重要度を動的に調整して、より良好なデータの組み合わせを生成することができる。いくつかの実施形態では、本原理のアテンションベースのマルチモーダル融合の利点は、(1)データの組み合わせにより多く寄与するモダリティが、より強力な重みを動的に受けることができること、及び(2)ネットワークが、干渉(例えばノイズ)及び各モダリティにおける他の不確実性源を検出し、より確実性の低いモダリティの重みを動的に下げることができること、を含むことができる。
[0048]本原理のセンサデータ融合システムのいくつかの実施形態において、例えば埋め込みモジュール120による、本原理による共通埋め込み空間へのセンサデータの投影/埋め込みは、センサ及び/又は関連データの物理特性によって制約/誘導することができる。例えば、いくつかの実施形態では、共通埋め込み空間は、センサの物理方程式及び原理、並びに追加の構造及び制約を埋め込み空間に提供する関連データを用いて訓練することができる。その後、センサデータは、センサのそれぞれの物理特性、及び共通埋め込み空間における関連データに従って共通埋め込み空間内に投影する/埋め込むことができる。本原理の実施形態による訓練中の埋め込み空間内への物理特性の追加により、埋め込み空間の能力を改善し、例えば、(1)訓練データを低減すること、(2)推論中の新たなオブジェクトのより良好な説明可能性及び予測(検出/分類)を、その物理特性に基づいて提供する。
[0049]図3Aは、本原理の実施形態による、図1のセンサデータ融合システム100等のセンサデータ融合システムの任意選択の発生器モジュール140及び任意選択の弁別器モジュール150の機能の高レベルの機能図を示す。図3Aの実施形態において、例示的に、共通シーンの画像を捕捉する2つの異なるセンサ(センサモダリティ)、センサ1、202及びセンサ2、202を用いた共通埋め込み空間210の訓練中に、発生器モジュール140及び弁別器モジュール150を備える敵対的生成(GAN)ネットワーク360を実施して、データの捕捉時のセンサのうちの少なくとも1つ、例示的には図3においてセンサ2のセンサデータ特性及びセンサ応答を学習することができる。例えば、いくつかの実施形態において、GANネットワーク360は、シーンの捕捉時のセンサ1のデータと、同じシーンの捕捉時のセンサ2のデータとの間の差異を学習することができる。
[0050]図3Bは、本原理の実施形態による、図1のセンサデータ融合システム100等のセンサデータ融合システムにおける、図3Aのセンサ2、202等の学習されたセンサのデータ捕捉のシミュレーションの高レベルの機能図を示す。図3Bの実施形態に示すように、学習されたセンサ、例えば図3Aのセンサ2、202がシーンのデータを捕捉するために利用可能でない用途/実施中、図3Aのセンサ2等の学習されたセンサのデータ捕捉は、図3AのGANネットワーク360等の本原理のGANネットワークによってエミュレートすることができる。すなわち、図3に関して上記で説明したように、訓練中、GANネットワーク360は、センサ1、202によって捕捉されたシーンのデータと、センサ2、202によって捕捉されたシーンのデータとの間の差異を決定する。したがって、図3Bの実施形態において、センサ1、202によって捕捉されたシーンのデータをGANネットワーク360によって用いて、センサ2、202によって捕捉されたであろうシーンのデータをエミュレートすることができる。すなわち、図3Bの実施形態において、GANネットワーク360は、訓練中、センサ1、202及びセンサ2、202によってシーンから捕捉されたデータ間の決定された差異を用いて、センサ1、202によって捕捉されたのと同じシーンからセンサ2、202によって捕捉されたであろうデータをエミュレートすることができる。図3Bに示すように、センサ1、202によって捕捉されたセンサ及びセンサ2、202のエミュレートされたデータは、上記で説明したように共通埋め込み空間210において組み合わせることができる。
[0051]上記で説明したように、本原理の実施形態は、ターゲット指標を直接最適化し、結果に対する各センサ(モード)の寄与を学習することによって、訓練中に、共通埋め込み空間内のマルチセンサ(すなわち、マルチモーダル)データを融合するエンドツーエンドのパイプラインシステムを提示する。したがって、学習センサがデータを捕捉するために利用可能でない用途/実施中であっても、学習センサのデータ捕捉を上記で説明したようにエミュレートすることができる。すなわち、本原理の実施形態は、単一のセンサモデルを用いて複数の異なるセンサによって捕捉されたデータをエミュレートすることを可能にする。
[0052]図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムのいくつかの実施形態において、GANネットワーク360の発生器140及び弁別器150は敵対的関係を含む。より詳細には、いくつかの実施形態において、発生器140によって作成された学習センサのエミュレートされたデータは、弁別器150によって見直され、弁別器150は、発生器10が、学習されたセンサからのデータを適切に反映するデータを作成したか否かを判断する。発生器140によるデータの作成と、弁別器150によるデータのレビューとの間の往復は、作成されたデータが学習されたセンサによって生成されるデータとして弁別器150に受け入れ可能となるまで継続する。本原理の実施形態は、学習されたセンサが利用可能でないときに、未来のためのセンサのモデルを学習するようにGANネットワークを実施することとして説明されているが、代替的に又は加えて、本原理のいくつかの実施形態では、変分オートエンコーダ(図示せず)等のエンコーダ/デコーダ対は、学習されたセンサがGANネットワーク360に関して上記で説明したように利用可能でないときに、未来の使用のためのセンサのモデルを学習するように実施することができる。すなわち、いくつかの実施形態では、変分オートエンコーダは、共通同種表現からの入力データを再構築するように学習する、したがって寄与するセンサのそれぞれのモデルを学習することによって、いくつかの異種センサ(データソース)の高レベル表現を単一の潜在的表現にマージすることができる。したがって、センサが利用可能でない場合がある後の用途において、センサモデルを用いて、利用可能なセンサによって捕捉されたデータに対する利用可能でないセンサの寄与をエミュレートすることができる。
[0053]図4Aは、本原理の代替の実施形態による、図1のセンサデータ融合システム100等のセンサデータ融合システムの任意選択の発生器モジュール140及び任意選択の弁別器モジュール150の動作の高レベルの機能図を示し、異なるデータモダリティが組み合わされている。図4Aの実施形態において、例示的に、2つの異なるモダリティのデータモデル、データモデル1、402及びデータモデル2、402を用いた共通埋め込み空間210の訓練中、発生器モジュール140及び弁別器モジュール150を実施して、少なくとも1つのデータモデル、図4Aにおいて例示的にはデータモデル2、402の特性を学習及びシミュレートすることができる。例えば、図4Aの実施形態等のいくつかの実施形態において、発生器モジュール及び弁別器150は、異なるデータモダリティ、データモデル1、402と、データモデル2、402との間の差異を決定することができる。
[0054]図4Bは、本原理の実施形態による、図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムにおける、図4Aのデータモデル2、402等のデータモダリティの特性のシミュレーションの機能図を示す。図4Bの実施形態に示すように、図4Aの学習されたデータモダリティ、例えばデータモデル2、402が利用可能でない用途/実施中、図4Aのデータモデル2、402等の学習されたデータモダリティの特性を、発生器140及び弁別器150によってシミュレートすることができる。すなわち、図4Aに関して上記で説明したように、訓練中、発生器140及び弁別器150は、データモダリティ、データモデル1、402及びデータモデル2、402間の差異を決定することができる。したがって、図4Bの実施形態において、利用可能なデータモダリティ、データモデル1、402を発生器140及び弁別器150によって用いて、第2のデータモダリティ、データモデル2、402をシミュレートすることができる。すなわち、図4Bの実施形態において、発生器140及び弁別器150は、訓練中に決定された、データモダリティデータモデル1、402及びデータモデル2、402間の決定された差異を用いて、第2のデータモダリティ、データモデル2、402をシミュレートすることができる。図4Bに示すように、上記で説明したように、データモデル1、402及びシミュレートされたデータモデル2、402は、共通埋め込み空間210内に投影する/埋め込むことができる。
[0055]上記で説明したように、図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムのいくつかの実施形態において、発生器140及び弁別器150は敵対的関係を含むことができる。より詳細には、いくつかの実施形態において、発生器140によって作成された、シミュレートされたデータモデル/モダリティは、弁別器150によって見直され、弁別器150は、発生器140が、データモデルを適切にシミュレートするデータを作成したか否かを判断する。発生器140によるデータの作成と、弁別器150によるデータのレビューとの間の往復は、作成されたデータが欠落モデルをシミュレートするデータとして弁別器150に受け入れ可能となるまで継続する。
[0056]1つの用途/実施において、図1のセンサデータ融合システム100等の、本原理のセンサデータ融合システムは、3Dターゲット/オブジェクト検出のために実施することができる。例えば、図5は、本原理の実施形態による、3Dターゲット/オブジェクト検出のために実施することができる、図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムの高レベルの機能図を示す。図5の実施形態において、例示的にLidarセンサ502によって捕捉されたシーンの点群データは、共通埋め込み空間610に投影する/埋め込むことができる。すなわち、いくつかの実施形態では、点群データの画像特徴は、それぞれの特徴抽出モジュール510を用いてモデル固有のCNNを用いて抽出することができる。点群データの抽出された画像特徴は、埋め込みモジュール520に通信される。上記で説明したように、埋め込みモジュール520において、点群データの抽出された画像特徴は、共通埋め込み空間610に投影される/埋め込まれる。
[0057]図5の実施形態において、例示的にRGBセンサ504によって捕捉されたシーンの画像データは、共通埋め込み空間610に投影する/埋め込むことができる。すなわち、いくつかの実施形態では、画像データ504の画像特徴は、それぞれの特徴抽出モジュール510を用いてモデル固有のCNNを用いて抽出することができる。画像データの抽出された画像特徴は、埋め込みモジュール520に通信される。上記で説明したように、埋め込みモジュール520において、画像データの抽出された画像特徴は、共通埋め込み空間610に投影される/埋め込まれる。
[0058]上記で説明し、図5に示したように、それぞれの、Lidarセンサの投影された/埋め込まれた点群データのベクトル表現及びRGBセンサの投影された/埋め込まれた画像データのベクトル表現は、例示的に融合モジュール530によって、共同表現に組み合わされる(例えば、融合される)。共同表現から、3Dターゲット/オブジェクトを決定することができる。例えば、図5の実施形態において、3Dボックス予測器550を用いて、捕捉されたシーンにおける3Dターゲット/オブジェクトを決定することができる。いくつかの実施形態では、3Dボックス予測器550は、オブジェクトのサイズ、中心位置、及びオブジェクトの向きを予測し、特に、3D中心位置(x,y,z)及び3Dサイズ(w,h,l)を有するボックスを復元し、軸周りの回転(ヨー,ピッチ,ロール)も復元する。しかしながら、自動運転データセット等の本原理のいくつかの実施形態では、ロール及びピッチは、簡単にするためにゼロであると想定することができる。
[0059]代替的に又は加えて、いくつかの実施形態において、図5の3Dボックス予測器550は、例えばRGBセンサによって捕捉された2D画像データから2Dバウンディングボックスを決定することができ、例えばLidarセンサによって捕捉された点群データを用いて、捕捉されたシーンのターゲット/オブジェクトのための3Dバウンディングボックスを決定することができる。そのような実施形態において、強力なニューラルネットワークベースの2D画像ベースのオブジェクト検出器を用いて、2Dバウンディングボックスを提供することができ、これにより、3Dバウンディングボックスのための検索空間を低減するのに役立つことができる。そのような実施形態において、共通埋め込み空間610は、例えばRGBセンサからの画像データ、及び例えばLidarセンサからの点群データの双方を用いて訓練することができ、それによって、画像データが用途/実施時間中に利用可能でない場合、画像データを、少なくとも図3B及び図4Bに関して上記で説明したようにエミュレートすることができる。
[0060]図6は、本原理の実施形態による、水中ターゲット/オブジェクト検知用途のために実施することができる、図1のセンサデータ融合システム100等の本原理のセンサデータ融合システムの高レベルの機能ブロック図を示す。例えば、図6のセンサデータ融合システムにおいて、異なるセンサモダリティ、ソース、異なるレベルの忠実度:音響センサ(マルチスタティックソナー)、レーダセンサ、カメラ、LiDARセンサ、水上センサ、アクティブソナー及び任意の未来のセンサからのデータを用いて、水中のターゲット/オブジェクト検知用途のための組み合わされた信号を生成することができる。特に、図6の例示される実施形態において、Radarセンサからのセンサデータ602が受信され、Radarセンサデータ602の特徴が、例えば、Radarセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のCNNを含むことができる本原理のそれぞれの特徴抽出モジュール610を用いて抽出される。Radarセンサデータの抽出された特徴は、例えば、本原理のそれぞれの埋め込みモジュール620によって共通埋め込み空間710に投影される/埋め込まれる。上記で説明したように、共通埋め込み空間710に投影された/埋め込まれたRadarセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び/又は共通埋め込み空間710を訓練することができる。
[0061]同様に、図6に示すように、音響センサからのセンサデータ604が受信され、音響センサデータ604の特徴が、例えば、音響センサデータから特徴を抽出するように事前に訓練されたセンサ固有のCNNを含むことができる本原理の特徴抽出モジュール610を用いて抽出される。音響センサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール620によって共通埋め込み空間710に投影される/埋め込まれる。上記で説明したように、共通埋め込み空間710に投影された/埋め込まれた音響センサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び/又は共通埋め込み空間710を訓練することができる。
[0062]図6に更に示すように、ソナーセンサからのセンサデータ606が受信され、ソナーセンサデータ606の特徴が、例えば、ソナーセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のCNNを含むことができる本原理の特徴抽出モジュール610を用いて抽出される。ソナーセンサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール620によって共通埋め込み空間710に投影される/埋め込まれる。上記で説明したように、共通埋め込み空間710に投影された/埋め込まれたソナーセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び/又は共通埋め込み空間710を訓練することができる。
[0063]図6の水中のターゲット/オブジェクト検知センサデータ融合システムにおいて、Lidarセンサからのセンサデータ608が受信され、Lidarセンサデータ608の特徴が、例えば、Lidarセンサデータから特徴を抽出するように事前に訓練されたセンサ固有のCNNを含むことができる本原理の特徴抽出モジュール610を用いて抽出される。Lidarセンサデータの抽出された特徴は、例えば、本原理の埋め込みモジュール620によって共通埋め込み空間710に投影される/埋め込まれる。上記で説明したように、共通埋め込み空間710に投影された/埋め込まれたLidarセンサデータの抽出された特徴を用いて、それぞれ、共通シーンのセンサデータにおけるオブジェクトの識別を支援し、及び/又は共通埋め込み空間710を訓練することができる。
[0064]異なるモダリティのセンサ(例えば、Radarセンサ、音響センサ、ソナーセンサ及びLidarセンサ)の各々の投影された/埋め込まれた特徴を、例えば本原理の融合モジュール630によって共通埋め込み空間710において組み合わせることができる。
[0065]図6の実施形態等の本原理の実施形態において、組み合わされた投影センサデータは、本原理に従って、水中用途におけるターゲット/オブジェクトの検出に用いることができる。例えば、上記で説明したように、いくつかの実施形態では、図1のセンサデータ融合システム100の推論モジュール135等の推論モジュール635は、異なるモダリティを有するセンサの画像データの、組み合わされた、投影されたベクトル表現と、共通埋め込み空間に埋め込まれた画像データの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を、距離関数を用いて決定し、異なるモダリティを有するセンサの画像データによって示される少なくとも1つのオブジェクトを識別することができる。
[0066]図7は、本原理の実施形態による、少なくとも2つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法の流れ図を示す。方法700は702において開始し、702の間、少なくとも2つのモダリティのうちの第1のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、第1のモダリティを有するセンサデータの特徴から、それぞれの第1のモダリティのセンサ-データベクトル表現が作成される。方法700は704に進むことができる。
[0067]704において、少なくとも2つのモダリティのうちの第2のモダリティを有する複数の捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、第2のモダリティを有するセンサデータの特徴から、それぞれの第2のモダリティのセンサ-データベクトル表現が作成される。方法700は706に進むことができる。
[0068]706において、共通埋め込み空間に、第1のモダリティのベクトル表現及び第2のモダリティのベクトル表現が埋め込まれ、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにする。方法700は708に進むことができる。
[0069]708において、埋め込まれた第1のモダリティのベクトル表現及び第2のモダリティのベクトル表現はそれぞれ組み合わされる。本原理のいくつかの実施形態において、第1のモダリティのベクトル表現及び第2のモダリティのベクトル表現は、それぞれの組み合わされたベクトル表現にそれぞれ組み合わされる。方法700は終了することができる。
[0070]図7の方法700等の本原理による方法のいくつかの実施形態において、第1及び第2のモダリティのベクトル表現の作成、並びに第1及び第2のモダリティのベクトル表現の埋め込みのうちの少なくとも一方が、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータの物理特性とによって制約/誘導される。
[0071]図7の方法700等の本原理による方法のいくつかの実施形態において、少なくとも2つのモダリティのうちの第1のモダリティを有するセンサデータと、少なくとも2つのモダリティのうちの第2のモダリティを有する少なくともセンサデータとの間の差異が決定され、後の用途において、第1のモダリティ又は第2のモダリティのセンサデータが利用可能でない場合、利用可能な第1のモダリティ又は第2のモダリティのセンサデータから欠落したセンサデータをエミュレートすることができる。
[0072]上記で説明したように、共通埋め込み空間が上記で説明されたように作成されると、作成された埋め込み空間を、限定ではないが、ターゲット/オブジェクト検出、ターゲット/オブジェクト認識、構造分類等を含む異なる目的で実施することができる。例えば、図8は、本原理の実施形態に従って訓練された共通埋め込み空間を用いた少なくとも2つのモダリティを有するセンサを用いて捕捉されたセンサデータにおけるオブジェクト検出のための方法の流れ図を示す。方法800は802において開始し、802中、センサデータ固有のニューラルネットワークを用いて、第1のモダリティを有するセンサデータの特徴からセンサ-データベクトル表現が作成される。方法800は804に進むことができる。
[0073]804において、センサデータ固有のニューラルネットワークを用いて、第2のモダリティを有するセンサデータの特徴からセンサ-データベクトル表現が作成される。方法800は806に進むことができる。
[0074]806において、共通埋め込み空間に、第1のモダリティ及び第2のモダリティを有するセンサデータのセンサ-データベクトル表現が投影され、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、共通埋め込み空間において互いにより近くなるようにする。方法800は808に進むことができる。
[0075]808において、投影された第1のモダリティのベクトル表現及び第2のモダリティのベクトル表現はそれぞれ組み合わされる。方法800は810に進むことができる。
[0076]810において、距離関数を用いて、組み合わされたモダリティのベクトル表現と、共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度が決定され、第1のモダリティ及び第2のモダリティを有するセンサデータによって示される少なくとも1つのオブジェクトが識別される。方法800は終了することができる。
[0077]図8の方法800等の本原理による方法のいくつかの実施形態において、第1及び第2のモダリティのベクトル表現の作成、並びに第1及び第2のモダリティのベクトル表現の埋め込みのうちの少なくとも一方が、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、第1のモダリティのセンサデータ及び第2のモダリティのセンサデータの物理特性とによって制約/誘導される。
[0078]図8の方法800等の本原理による方法のいくつかの実施形態において、第1のモダリティ又は第2のモダリティのセンサデータのうちの一方が利用可能でない場合、(上記で説明したように)第1のモダリティ及び第2のモダリティのセンサデータ間の以前に学習された差異を、利用可能なセンサモダリティデータと共に用いて、第1のモダリティ及び第2のモダリティを有するセンサデータを共通の埋め込み空間に投影する前に、欠落データをエミュレートすることができる。
[0079]本原理の実施形態は、上記で説明したように訓練された共通埋め込み空間を用いて、シーンの3D情報等の可能な限り多くの情報を捕捉及び学習して、例えば、シーンのエリアを通じた個人又は車両のナビゲーションを可能にすることができる。例えば、本原理の実施形態を用いて、自動車、航空機及び/又は水中車両等の自動車両のナビゲーションを可能にすることができる。本原理の訓練された埋め込み空間の実施形態は、上記で説明したように、オブジェクト検出器、オブジェクト分類器及び/又はターゲット検出器として実施することができる。
[0080]図1に示すように、図1のセンサデータ融合システム等の、本原理によるセンサデータ融合システムの実施形態は、コンピューティングデバイス900において実施することができる。図9は、図1のセンサデータ融合システム100等の本原理によるセンサデータ融合システムの実施形態での使用に適したコンピューティングデバイス900の概略ブロック図を示す。いくつかの実施形態では、コンピューティングデバイス900は、様々な実施形態においてプロセッサが実行可能な実行可能プログラム命令922(例えば、プロセッサ(複数可)910によって実行可能なプログラム命令)として本原理の方法を実施するように構成することができる。
[0081]図9の実施形態では、コンピューティングデバイス000は、入力/出力(I/O)インタフェース930を介してシステムメモリ920に結合された1つ又は複数のプロセッサ910a~910nを備える。コンピューティングデバイス900は、I/Oインタフェース930に結合されたネットワークインタフェース940と、カーソル制御デバイス960、キーボード970、及びディスプレイ(複数可)980等の1つ又は複数の入力/出力デバイス950と、を更に備える。種々の実施形態では、ユーザインタフェースを生成し、ディスプレイ980上に表示することができる。場合によっては、実施形態が、コンピューティングデバイス900の単一のインスタンスを用いて実装され得る一方で、他の実施形態では、複数のそのようなシステム、又はコンピューティングデバイス900を構成する複数のノードが、種々の実施形態の異なる部分又はインスタンスをホストするように構成され得ることが意図されている。例えば、1つの実施形態では、いくつかの要素は、他の要素を実装しているノードとは異なるコンピューティングデバイス900の1つ又は複数のノードを介して実装することができる。別の例では、複数のノードが、コンピューティングデバイス900を分散型に実装してもよい。
[0082]異なる実施形態では、コンピューティングデバイス900は、種々のデバイスのうちの任意のものとすることができ、これらは、限定ではないが、パーソナルコンピュータシステム、デスクトップコンピュータ、ラップトップ、ノートブック、タブレット若しくはネットブックコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、カメラ、セットトップボックス、モバイルデバイス、コンシューマデバイス、ビデオゲームコンソール、ハンドヘルドビデオゲームデバイス、アプリケーションサーバ、ストレージデバイス、スイッチ、モデム、ルータ等の周辺デバイス、又は概略的な任意のタイプのコンピューティング若しくは電子デバイスを含む。
[0083]種々の実施形態では、コンピューティングデバイス900は、1つのプロセッサ910を含むユニプロセッサシステム、又はいくつかのプロセッサ910(例えば、2つ、4つ、8つ、又は別の適切な数)を含むマルチプロセッサシステムとすることができる。プロセッサ910は、命令を実行可能な任意の適切なプロセッサとすることができる。例えば、例えば、種々の実施形態では、プロセッサ910は、種々の命令セットアーキテクチャ(ISA)のうちの任意のものを実装している汎用プロセッサ又は組み込み型プロセッサとすることができる。マルチプロセッサシステムにおいて、プロセッサ910の各々は、通常は同じISAを実装してもよいが、必ずしもそうである必要はない。
[0084]システムメモリ920は、プロセッサ910によってアクセス可能なプログラム命令922及び/又はデータ932を記憶するように構成することができる。種々の実施形態では、システムメモリ920は、スタティックランダムアクセスメモリ(SRAM)、同期ダイナミックRAM(SDRAM)、不揮発性/フラッシュ型メモリ、又は任意の他のタイプのメモリ等の任意の適切なメモリ技術を用いて実装することができる。図示の実施形態では、上記で説明した実施形態の要素のうちの任意のものを実装するプログラム命令及びデータは、システムメモリ920内に記憶することができる。他の実施形態では、プログラム命令及び/又はデータは、異なるタイプのコンピュータアクセス可能媒体上で、又はシステムメモリ920若しくはコンピューティングデバイス900とは別個の同様の媒体上で受信、送信、又は記憶することができる。
[0085]1つの実施形態では、I/Oインタフェース930は、プロセッサ910、システムメモリ920、及びデバイス内の任意の周辺デバイスの間でI/Oトラフィックを連携させるように構成することができ、任意の周辺デバイスは、ネットワークインタフェース940、又は入力/出力デバイス950等の他の周辺インタフェースを含む。いくつかの実施形態では、I/Oインタフェース930は、任意の必要なプロトコル、タイミング、又は他のデータ変換を実行して、1つのコンポーネント(例えば、システムメモリ920)からのデータ信号を別のコンポーネント(例えば、プロセッサ910)による使用に適したフォーマットに変換することができる。いくつかの実施形態では、I/Oインタフェース930は、例えば、周辺コンポーネント相互接続(PeripheralComponentInterconnect)(PCI)バス規格又はユニバーサルシリアルバス(UniversalSerialBus)(USB)規格の変形等の種々のタイプの周辺バスを通して加えられたデバイスのためのサポートを含むことができる。いくつかの実施形態では、I/Oインタフェース930の機能は、例えば、ノースブリッジ及びサウスブリッジ等の2つ以上の別個のコンポーネントに分割することができる。また、いくつかの実施形態では、システムメモリ920へのインタフェース等のI/Oインタフェース930の機能のいくつか又は全ては、プロセッサ910に直接組み込むことができる。
[0086]ネットワークインタフェース940は、コンピューティングデバイス900とネットワーク(例えば、ネットワーク990)にアタッチされた1つ又は複数の外部システム等の他のデバイスとの間又はコンピューティングデバイス900のノード間でデータが交換可能になるように構成することができる。種々の実施形態では、ネットワーク990は1つ又は複数のネットワークを含むことができ、これらは、限定ではないが、ローカルエリアネットワーク(LAN)(例えば、イーサネット[登録商標]又は企業ネットワーク)、ワイドエリアネットワーク(WAN)(例えば、インターネット)、ワイヤレスデータネットワーク、何らかの他の電子データネットワーク、又はそれらの何らかの組み合わせを含む。種々の実施形態では、ネットワークインタフェース940は、任意の適切なタイプのイーサネットネットワーク等の有線若しくは無線の概略的なデータネットワークを介して、例えば、デジタルファイバ通信ネットワークを介して、Fiber Channel SAN等のストレージエリアネットワークを介して、又は他の適切なタイプのネットワーク及び/若しくはプロトコルを介して、通信をサポートすることができる。
[0087]入力/出力デバイス950は、いくつかの実施形態では、1つ又は複数のディスプレイ端末、キーボード、キーパッド、タッチパッド、走査デバイス、音声若しくは光認識デバイス、又は1つ若しくは複数のコンピュータシステムによりデータを入力し若しくはデータにアクセスするのに適した任意の他のデバイスを含むことができる。複数の入力/出力デバイス950が、コンピュータシステム内に存在することができ、又はコンピューティングデバイス900の種々のノード上に分散させることができる。いくつかの実施形態では、同様の入力/出力デバイスは、コンピューティングデバイス900から分離することができ、ネットワークインタフェース940を介する等、有線又は無線接続を通してコンピューティングデバイス900の1つ又は複数のノードと相互作用することができる。
[0088]当業者は、コンピューティングデバイス900が単なる例示であり、実施形態の範囲を限定することを意図していないことを理解するはずである。特に、コンピュータシステム及びデバイスは、種々の実施形態で示した機能を実行することができるハードウェア又はソフトウェアの任意の組み合わせを含むことができ、これらは、コンピュータ、ネットワークデバイス、インターネットアプライアンス、PDA、無線電話、ページャ等を含む。コンピューティングデバイス900はまた、図示されていない他のデバイスに接続することができるか、又はその代わりに、スタンドアロンシステムとして動作することができる。加えて、図示されたコンポーネントによって提供される機能は、いくつかの実施形態では、より少ないコンポーネントにおいて組み合わせることができるか、又は追加のコンポーネント内に分散させることができる。同様に、いくつかの実施形態では、図示されたコンポーネントのうちのいくつかの機能は提供されなくてもよく、及び/又は他の追加の機能が利用可能であり得る。
[0089]コンピューティングデバイス900は、Wi-Fi、Bluetooth(登録商標).RTM.(及び/又は短距離でデータを交換するための他の規格は短波長無線伝送を用いるプロトコルを含む)、USB、イーサネット、セルラ、超音波ローカルエリア通信プロトコル等の種々のコンピュータ通信プロトコルに基づいて他のコンピューティングデバイスと通信することができる。コンピューティングデバイス900は、ウェブブラウザを更に含むことができる。
[0090]コンピューティングデバイス900は汎用コンピュータとして示されているが、コンピューティングデバイス900は、種々の特殊化された制御機能を実行するようにプログラムされ、本原理に従って特殊化された特定のコンピュータとしての機能を果たすように構成され、実施形態は、例えば、特定用途向け集積回路(ASIC)としてハードウェアにおいて実装することができる。したがって、本明細書において説明されるプロセスステップは、ソフトウェア、ハードウェア、又はそれらの組み合わせによって同等に実行されるものとして広く解釈されることが意図されている。
[0091]当業者は、種々のアイテムが使用中にメモリ又はストレージに記憶されているように示されている一方で、これらのアイテム又はそれらの一部は、メモリ管理及びデータ完全性の目的でメモリと他のストレージデバイスの間で転送され得ることを理解するはずである。代替的に、他の実施形態では、ソフトウェアコンポーネントのいくつか又は全ては、別のデバイス上のメモリ内で実行され、コンピュータ間通信を介して図示のコンピュータシステムと通信することができる。システムコンポーネント又はデータ構造の一部又は全ては、適切なドライブによって読み取られるように、コンピュータアクセス可能な媒体又は携帯アーティクル上に記憶することができ(例えば、命令又は構造化データとして)、その種々の例は上述されている。いくつかの実施形態では、コンピューティングデバイス900とは別個のコンピュータアクセス可能媒体に記憶された命令は、伝送媒体を介して、又はネットワーク及び/若しくは無線リンク等の伝送媒体を介して伝えられる電気信号、電磁信号、若しくはデジタル信号等の信号を介してコンピューティングデバイス900に送信され得る。種々の実施形態は、コンピュータアクセス可能な媒体上で又は通信媒体を介して前述の説明に従って実装される命令及び/又はデータを受信、送信又は記憶することを更に含み得る。一般に、コンピュータアクセス可能媒体は、磁気若しくは光学媒体等の記憶媒体若しくはメモリ媒体、例えばディスク又はDVD/CD-ROM、又はRAM(例えば、SDRAM、DDR、RDRAM、SRAM等)、ROM等の揮発性媒体若しくは不揮発性媒体を含むことができる。
[0092]図10は、図1のセンサデータ融合システム100等の本原理によるセンサデータ融合システムの実施形態を適用することができるネットワークの高レベルのブロック図を示す。図10のネットワーク環境1000は、例示的に、ユーザドメインサーバ/コンピューティングデバイス1004を含むユーザドメイン1002を備える。図10のネットワーク環境1000は、コンピュータネットワーク1006と、クラウドサーバ/コンピューティングデバイス1012を含むクラウド環境1010と、を更に備える。
[0093]図10のネットワーク環境1000において、図1のセンサデータ融合システム100等の本原理によるセンサデータ融合システムは、ユーザドメインサーバ/コンピューティングデバイス1004、コンピュータネットワーク1006、及びクラウドサーバ/コンピューティングデバイス1012のうちの少なくとも1つに含めることができる。例えば、いくつかの実施形態では、ユーザは、ローカルサーバ/コンピューティングデバイス(例えば、ユーザドメインサーバ/コンピューティングデバイス1004)を用いて、本原理によるセンサデータ融合を提供することができる。いくつかの他の実施形態では、ユーザは、コンピュータネットワーク1006においてセンサデータ融合システムを実装して、本原理によるセンサデータ融合を提供することができる。代替的に、又は加えて、いくつかの実施形態では、ユーザは、クラウド環境1010のクラウドサーバ/コンピューティングデバイス1012においてセンサデータ融合システムを実装して、本原理によるセンサデータ融合を提供することができる。例えば、いくつかの実施形態では、クラウド環境1010の処理能力及びストレージ能力を利用するために、クラウド環境1010において本原理の処理機能を実行することが有利であり得る。
[0094]本原理によるいくつかの実施形態では、センサデータ融合システムは、単一及び/又は複数のロケーション/サーバ/コンピュータに配置して、本明細書において説明した本原理によるシステムの機能の全部又は一部を実行することができる。例えば、本原理のいくつかの実施形態では、特徴抽出モジュール110、埋め込みモジュール120、融合モジュール130、推論モジュール135、任意選択の発生器モジュール140及び任意選択の弁別器モジュール150等のセンサデータ融合システムのコンポーネント/モジュールのうちのいくつかは、ユーザドメイン1002、コンピュータネットワーク環境1006、及びクラウド環境1010のうちの1つ又は複数に配置することができ、センサデータ融合システムのコンポーネント/モジュールのうちの他のものは、ローカル又はリモートのいずれかで上述した機能を提供するために、ユーザドメイン1002、コンピュータネットワーク環境1006、及びクラウド環境1010のうちの少なくとも他のものに配置することができる。
[0095]本明細書において説明される方法及びプロセスは、種々の実施形態において、ソフトウェア、ハードウェア、又はそれらの組み合わせにおいて実装することができる。加えて、方法の順序は変更することができ、種々の要素を追加し、並べ替え、結合し、省略し、又は他の形で変更することができる。本明細書において説明される全ての例は、非限定的な方法で提示されている。本開示の利益を享受する当業者に明らかであろうように、種々の修正及び変更がなされ得る。実施形態による具現化が、特定の実施形態に関連して説明されてきた。これらの実施形態は、例示的であることを意図するものであり、限定するものではない。多くの変形、修正、追加、及び改良が可能である。したがって、単一のインスタンスとしてここで説明されるコンポーネントに対して、複数のインスタンスが提供され得る。種々のコンポーネント、動作、及びデータストア間の境界は、多少は任意的であり、特定の動作が具体的な例示的構成に関連して示されている。機能の他の割り当てが想定されており、これらは以下の特許請求の範囲に含まれ得る。構成例において個別のコンポーネントとして提示された構造及び機能は、組み合わせた構造又はコンポーネントとして実装することができる。これらの及び他の変形、修正、追加、及び改良は、以下の特許請求の範囲で定義されるような実施形態の範囲内に含まれ得る。
[0096]前述の説明では、本開示のより完全な理解を提供するために、多数の具体的詳細、例、及びシナリオが述べられている。しかしながら、本開示の実施形態は、そのような具体的詳細なしで実施され得ることが理解されよう。更に、そのような例及びシナリオは、説明のために提供されており、開示を限定することは全く意図されていない。当業者は、含まれる説明を参照して、必要以上の実験なしに適切な機能を実装することが可能なはずである。
[0097]本明細書において「一実施形態」等への言及は、説明された実施形態が特定の特徴、構造、又は特性を含み得るが、全ての実施形態が必ずしもその特定の特徴、構造、又は特性を含まなくてもよいことを示す。そのような語句は、必ずしも同じ実施形態を参照しているとは限らない。更に、特定の特徴、構造、又は特性が一実施形態に関して記載されるとき、それは、明示的に指示されていてもいなくても、他の実施形態に関するそのような特徴、構造、又は特性に影響を及ぼすことが当業者の知識内にあると考えられる。
[0098]本開示による実施形態は、ハードウェア、ファームウェア、ソフトウェア、又はそれらの任意の組み合わせにおいて実装することができる。実施形態はまた、1つ又は複数の機械可読媒体を用いて記憶された命令として実装することができ、それらは、1つ又は複数のプロセッサによって読み取られ、実行されてもよい。機械可読媒体は、機械(例えば、コンピューティングデバイス、又は1つ若しくは複数のコンピューティングデバイス上で実行される「仮想マシン」)によって可読な形態で情報を記憶し又は送信するための任意のメカニズムを含むことができる。例えば、機械可読媒体は、任意の適切な形態の揮発性又は不揮発性メモリを含むことができる。
[0099]ここで定義されるモジュール、データ構造等は、議論を容易にするためにそのようなものと定義されており、任意の具体的な実装の詳細が必要であることを暗示することを意図するものではない。例えば、説明されたモジュール及び/又はデータ構造のうちの任意のものは、組み合わせることができるか、又は特定の設計若しくは実装によって必要とされ得るようなサブモジュール、サブプロセス、又はコンピュータコード若しくはデータの他のユニットに分割することができる。
[0100]図面では、説明を容易にするために、概略要素の具体的な配置又は順序が示され得る。しかし、そのような要素の具体的な順序又は配置は、全ての実施形態において処理の特定の順序若しくはシーケンス又はプロセスの分離が必要であると暗示することを意味するものではない。一般に、命令ブロック又はモジュールを表すために用いられる概略要素は、任意の適切な形態の機械可読命令を用いて実装することができ、そのような各命令は、任意の適切なプログラミング言語、ライブラリ、アプリケーションプログラミングインタフェース(API)、及び/又は他のソフトウェア開発ツール若しくはフレームワークを用いて実装することができる。同様に、データ又は情報を表すために用いられる概略要素は、任意の適切な電子的配置又はデータ構造を用いて実装することができる。更に、要素間のいくつかの接続、関係、又は関連は、開示を曖昧にしないように、簡略化されている可能性があり、又は図面に示されていない可能性がある。
[0101]本開示は、例示的であって、性質を制限するものではないと考えられるべきであり、本開示のガイドライン内に入る全ての変更及び修正は保護されることが望まれる。
[発明の項目]
[項目1]
少なくとも2つのモダリティを有する共通シーンから捕捉されたセンサデータを組み合わせるための共通埋め込み空間を訓練するための方法であって、
前記少なくとも2つのモダリティのうちの第1のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第1のモダリティを有する前記センサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成するステップと、
前記少なくとも2つのモダリティのうちの第2のモダリティを有する複数の前記捕捉センサデータのそれぞれについて、センサデータ固有のニューラルネットワークを用いて、前記第2のモダリティを有する前記センサデータの前記特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するステップと、
共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記埋め込まれた第1のモダリティのセンサ-データベクトル表現と、前記第2のモダリティのベクトル表現とをそれぞれ組み合わせるステップと、
を含み、
前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記埋め込みのうちの少なくとも一方が、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって誘導される、方法。
[項目2]
センサデータ固有のニューラルネットワークは、前記センサデータ固有のニューラルネットワークが適用されるモダリティを有するセンサデータの特徴を認識するように予め訓練される、項目1に記載の方法。
[項目3]
前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現は、後期融合を用いて組み合わされる、項目1に記載の方法。
[項目4]
前記少なくとも2つのモダリティのうちの、複数の、前記第1のモダリティを有する前記捕捉センサデータ、及び前記第2のモダリティを有する前記捕捉センサデータ間の差異を決定するステップを更に含む、項目1に記載の方法。
[項目5]
前記第1のモダリティ及び前記第2のモダリティを有する前記捕捉センサデータ間の前記決定された差異を用いて、前記第1のモダリティ又は前記第2のモダリティのうちの一方の欠落データが、前記第2のモダリティ又は前記第1のモダリティのうちの他方の捕捉データから決定される、項目4に記載の方法。
[項目6]
前記差異は、敵対的生成ネットワークを用いて決定される、項目4に記載の方法。
[項目7]
前記埋め込まれた第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与を決定するステップを含む、項目1に記載の方法。
[項目8]
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも1つを含む、項目1に記載の方法。
[項目9]
共通埋め込み空間を用いる少なくとも2つのモダリティを有するセンサデータにおける、オブジェクト検出、オブジェクト分類又はオブジェクトセグメンテーションのうちの少なくとも1つのための方法であって、
前記少なくとも2つのモダリティのうちの第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成するステップと、
前記少なくとも2つのモダリティのうちの第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するステップと、
前記共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるステップと、
距離関数を用いて、前記組み合わされたモダリティのセンサ-データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも2つのモダリティを有する前記センサデータによって示される少なくとも1つのオブジェクトを識別するステップと、
を含み、
前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記投影のうちの少なくとも一方は、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって誘導される、方法。
[項目10]
前記少なくとも2つのモダリティのうちの、複数の、前記第1のモダリティを有する前記センサデータ、及び前記第2のモダリティを有する前記センサデータ間の差異を決定するステップを更に含む、項目9に記載の方法。
[項目11]
複数の、前記第1のモダリティを有する前記センサデータ、及び前記第2のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現のうちの少なくとも一方が作成される、項目10に記載の方法。
[項目12]
前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現のうちの少なくとも一方は、センサデータ固有のニューラルネットワークを用いて作成される、項目9に記載の方法。
[項目13]
前記埋め込まれた第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与が予め決定される、項目9に記載の方法。
[項目14]
前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現は、アテンションベースのモード融合を用いて組み合わされる、項目13に記載の方法。
[項目15]
共通埋め込み空間を用いる少なくとも2つのモダリティを有するセンサデータにおけるオブジェクト検出のための装置であって、
前記少なくとも2つのモダリティのうちの第1のモダリティを有するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現、及び前記少なくとも2つのモダリティのうちの第2のモダリティを有するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するように構成された少なくとも1つの特徴抽出モジュールと、
前記共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも1つの埋め込みモジュールと、
前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるように構成された融合モジュールと、
距離関数を用いて、前記組み合わされたモダリティのセンサ-データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも2つのモダリティを有する前記センサデータによって示される少なくとも1つのオブジェクトを識別するように構成された推論モジュールと、
を備え、
前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記投影のうちの少なくとも一方は、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって誘導される、装置。
[項目16]
前記少なくとも2つのモダリティのうちの、複数の、前記第1のモダリティを有する前記センサデータ、及び前記第2のモダリティを有する前記センサデータ間の差異を決定するように構成された敵対的生成ネットワークを更に備える、項目15に記載の装置。
[項目17]
前記敵対的生成ネットワークは、前記第1のモダリティ及び前記第2のモダリティを有する前記センサデータ間の前記決定された差異を用いて、前記第1のモダリティ又は前記第2のモダリティのうちの一方の欠落データを、前記第2のモダリティ又は前記第1のモダリティのうちの他方のデータから決定する、項目16に記載の装置。
[項目18]
前記融合モジュールは、前記少なくとも2つのモダリティのうちの前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現の各々の、前記組み合わせに対する寄与を決定するように構成される、項目15に記載の装置。
[項目19]
前記融合モジュールは、アテンションベースのモード融合を適用して、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるように構成される、項目18に記載の装置。
[項目20]
前記物理特性は、表面反射、温度又は湿度のうちの少なくとも1つを含む、項目15に記載の装置。

Claims (14)

  1. 少なくとも2つのモダリティに関する共通シーンからの捕捉センサデータを組み合わせるための共通埋め込み空間を訓練するための方法であって、
    前記少なくとも2つのモダリティのうちの第1のモダリティに関する複数の前記捕捉センサデータのそれぞれについて、センサモダリティ固有のニューラルネットワークを用いて、前記第1のモダリティに関する前記センサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成するステップと、
    前記少なくとも2つのモダリティのうちの第2のモダリティに関する複数の前記捕捉センサデータのそれぞれについて、センサモダリティ固有のニューラルネットワークを用いて、前記第2のモダリティに関する前記センサデータの前記特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するステップと、
    共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を埋め込み、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
    前記埋め込まれた第1のモダリティのセンサ-データベクトル表現と、前記第2のモダリティのベクトル表現とをそれぞれ組み合わせるステップと、
    を含み、
    前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記埋め込みのうちの少なくとも一方が、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって制約されており
    当該方法は、
    前記少なくとも2つのモダリティのうちの前記第1のモダリティに関する前記捕捉センサデータ、及び前記第2のモダリティに関する前記捕捉センサデータ間の差異を決定するステップ
    を更に含み、
    前記第1のモダリティ及び前記第2のモダリティに関する前記捕捉センサデータ間の前記決定された差異を用いて、前記第1のモダリティ又は前記第2のモダリティのうちの一方の欠落データが、前記第2のモダリティ又は前記第1のモダリティのうちの他方の捕捉データから決定される、方法。
  2. センサモダリティ固有のニューラルネットワークは、前記センサモダリティ固有のニューラルネットワークが適用されるモダリティに関するセンサデータの特徴を認識するように予め訓練される、請求項1に記載の方法。
  3. 前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現は、後期融合を用いて組み合わされる、請求項1に記載の方法。
  4. 前記差異は、敵対的生成ネットワークを用いて決定される、請求項1に記載の方法。
  5. 前記埋め込まれた第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与を決定するステップを含む、請求項1に記載の方法。
  6. 前記物理特性は、表面反射、温度又は湿度のうちの少なくとも1つを含む、請求項1に記載の方法。
  7. 共通埋め込み空間を用いる少なくとも2つのモダリティに関するセンサデータにおける、オブジェクト検出、オブジェクト分類又はオブジェクトセグメンテーションのうちの少なくとも1つのための方法であって、
    前記少なくとも2つのモダリティのうちの第1のモダリティに関するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現を作成するステップと、
    前記少なくとも2つのモダリティのうちの第2のモダリティに関するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するステップと、
    前記共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするステップと、
    前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるステップと、
    距離関数を用いて、組み合わされた前記モダリティのセンサ-データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも2つのモダリティに関する前記センサデータによって示される少なくとも1つのオブジェクトを識別するステップと、
    を含み、
    前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記投影のうちの少なくとも一方は、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって制約されており
    当該方法は、
    前記少なくとも2つのモダリティのうちの前記第1のモダリティに関する前記センサデータ、及び前記第2のモダリティに関する前記センサデータ間の差異を決定するステップ
    を更に含み
    記第1のモダリティに関する前記センサデータ、及び前記第2のモダリティに関する前記センサデータ間の前記決定された差異を用いて、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現のうちの少なくとも一方が作成される、方法。
  8. 前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現のうちの少なくとも一方は、センサモダリティ固有のニューラルネットワークを用いて作成される、請求項7に記載の方法。
  9. 前記埋め込まれた第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのベクトル表現の各々の、前記組み合わせに対する寄与が予め決定される、請求項7に記載の方法。
  10. 前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現は、アテンションベースのモード融合を用いて組み合わされる、請求項9に記載の方法。
  11. 共通埋め込み空間を用いる少なくとも2つのモダリティに関するセンサデータにおけるオブジェクト検出のための装置であって、
    前記少なくとも2つのモダリティのうちの第1のモダリティに関するセンサデータの特徴のそれぞれの第1のモダリティのセンサ-データベクトル表現、及び前記少なくとも2つのモダリティのうちの第2のモダリティに関するセンサデータの特徴のそれぞれの第2のモダリティのセンサ-データベクトル表現を作成するように構成された少なくとも1つの特徴抽出モジュールと、
    前記共通埋め込み空間に、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を投影し、モダリティにわたって関係付けられた埋め込まれたモダリティのベクトルが、関係付けられていないモダリティのベクトルよりも、前記共通埋め込み空間において互いにより近くなるようにするように構成された少なくとも1つの埋め込みモジュールと、
    前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるように構成された融合モジュールと、
    距離関数を用いて、組み合わされた前記モダリティのセンサ-データベクトル表現と、前記共通埋め込み空間内のオブジェクトの特徴のそれぞれの埋め込まれたベクトル表現との間の類似度を決定して、前記少なくとも2つのモダリティに関する前記センサデータによって示される少なくとも1つのオブジェクトを識別するように構成された推論モジュールと、
    を備え、
    前記第1及び第2のモダリティのセンサ-データベクトル表現の前記作成、並びに前記第1及び前記第2のモダリティのセンサ-データベクトル表現の前記投影のうちの少なくとも一方は、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータを捕捉したそれぞれのセンサのうちの少なくとも1つの物理特性と、前記第1のモダリティのセンサデータ及び前記第2のモダリティのセンサデータの物理特性とによって制約されており
    当該装置は、
    前記少なくとも2つのモダリティのうちの前記第1のモダリティに関する前記センサデータ、及び前記第2のモダリティに関する前記センサデータ間の差異を決定するように構成された敵対的生成ネットワークを更に備え、
    前記敵対的生成ネットワークは、前記第1のモダリティ及び前記第2のモダリティに関する前記センサデータ間の前記決定された差異を用いて、前記第1のモダリティ又は前記第2のモダリティのうちの一方の欠落データを、前記第2のモダリティ又は前記第1のモダリティのうちの他方のデータから決定する、装置。
  12. 前記融合モジュールは、前記少なくとも2つのモダリティのうちの前記投影された第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現の各々の、前記組み合わせに対する寄与を決定するように構成される、請求項11に記載の装置。
  13. 前記融合モジュールは、アテンションベースのモード融合を適用して、前記第1のモダリティのセンサ-データベクトル表現及び前記第2のモダリティのセンサ-データベクトル表現を組み合わせるように構成される、請求項12に記載の装置。
  14. 前記物理特性は、表面反射、温度又は湿度のうちの少なくとも1つを含む、請求項11に記載の装置。
JP2022534235A 2020-03-10 2021-02-11 タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置 Active JP7332238B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062987697P 2020-03-10 2020-03-10
US62/987,697 2020-03-10
PCT/US2021/017731 WO2021183256A1 (en) 2020-03-10 2021-02-11 Physics-guided deep multimodal embeddings for task-specific data exploitation

Publications (2)

Publication Number Publication Date
JP2023502140A JP2023502140A (ja) 2023-01-20
JP7332238B2 true JP7332238B2 (ja) 2023-08-23

Family

ID=77672008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022534235A Active JP7332238B2 (ja) 2020-03-10 2021-02-11 タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置

Country Status (3)

Country Link
US (1) US20230004797A1 (ja)
JP (1) JP7332238B2 (ja)
WO (1) WO2021183256A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11921824B1 (en) * 2021-03-29 2024-03-05 Amazon Technologies, Inc. Sensor data fusion using cross-modal transformer
US20230316592A1 (en) * 2022-03-31 2023-10-05 Konica Minolta Business Solutions U.S.A., Inc. Method and system for automated generation of representative icons from images
GB2618526A (en) * 2022-05-03 2023-11-15 Oxa Autonomy Ltd Generating a descriptor associated with data of a first modality

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110170781A1 (en) 2010-01-10 2011-07-14 Alexander Bronstein Comparison of visual information
JP2014512897A (ja) 2011-03-16 2014-05-29 コーニンクレッカ フィリップス エヌ ヴェ 医療データの知的リンキング方法及びシステム
WO2018104563A2 (en) 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping
US20180375743A1 (en) 2015-12-26 2018-12-27 Intel Corporation Dynamic sampling of sensor data
WO2019010137A1 (en) 2017-07-03 2019-01-10 X Development Llc UPDATING A MODEL OF LOCAL CHARACTERISTICS BASED ON A CORRECTION OF ROBOT ACTION
WO2019016968A1 (ja) 2017-07-21 2019-01-24 学校法人玉川学園 画像処理装置及び方法、並びに、プログラム
WO2019049856A1 (ja) 2017-09-07 2019-03-14 株式会社日立ハイテクノロジーズ 材料仕様情報サーバ、材料選択支援方法及び材料選択支援システム
WO2019057954A1 (en) 2017-09-22 2019-03-28 Softbank Robotics Europe ENHANCED LOCATION OF A MOBILE DEVICE BASED ON IMAGE AND RADIO WORDS
US20190135300A1 (en) 2018-12-28 2019-05-09 Intel Corporation Methods and apparatus for unsupervised multimodal anomaly detection for autonomous vehicles
US20190197400A1 (en) 2017-12-27 2019-06-27 Facebook, Inc. Topic classification using a jointly trained artificial neural network
US20190293462A1 (en) 2018-03-23 2019-09-26 Industry-Academic Cooperation Foundation, Dankook University Apparatus and method for processing multi-type sensor signal on the basis of multi-modal deep learning
US20190325342A1 (en) 2018-04-20 2019-10-24 Sri International Embedding multimodal content in a common non-euclidean geometric space
WO2019220622A1 (ja) 2018-05-18 2019-11-21 日本電気株式会社 画像処理装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
JP2019535063A (ja) 2016-12-30 2019-12-05 三菱電機株式会社 マルチモーダルフュージョンモデルのための方法及びシステム
WO2019231624A2 (en) 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US20200018852A1 (en) 2018-07-12 2020-01-16 Toyota Research Institute, Inc. System and method for calibrating a lidar and a camera together using semantic segmentation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102360246B1 (ko) * 2016-02-22 2022-02-07 에스케이텔레콤 주식회사 멀티모달학습장치 및 멀티모달 학습 방법
US10885111B2 (en) * 2018-04-16 2021-01-05 International Business Machines Corporation Generating cross-domain data using variational mapping between embedding spaces

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110170781A1 (en) 2010-01-10 2011-07-14 Alexander Bronstein Comparison of visual information
JP2014512897A (ja) 2011-03-16 2014-05-29 コーニンクレッカ フィリップス エヌ ヴェ 医療データの知的リンキング方法及びシステム
US20180375743A1 (en) 2015-12-26 2018-12-27 Intel Corporation Dynamic sampling of sensor data
WO2018104563A2 (en) 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping
JP2019535063A (ja) 2016-12-30 2019-12-05 三菱電機株式会社 マルチモーダルフュージョンモデルのための方法及びシステム
WO2019010137A1 (en) 2017-07-03 2019-01-10 X Development Llc UPDATING A MODEL OF LOCAL CHARACTERISTICS BASED ON A CORRECTION OF ROBOT ACTION
WO2019016968A1 (ja) 2017-07-21 2019-01-24 学校法人玉川学園 画像処理装置及び方法、並びに、プログラム
WO2019049856A1 (ja) 2017-09-07 2019-03-14 株式会社日立ハイテクノロジーズ 材料仕様情報サーバ、材料選択支援方法及び材料選択支援システム
WO2019057954A1 (en) 2017-09-22 2019-03-28 Softbank Robotics Europe ENHANCED LOCATION OF A MOBILE DEVICE BASED ON IMAGE AND RADIO WORDS
US20190197400A1 (en) 2017-12-27 2019-06-27 Facebook, Inc. Topic classification using a jointly trained artificial neural network
US20190293462A1 (en) 2018-03-23 2019-09-26 Industry-Academic Cooperation Foundation, Dankook University Apparatus and method for processing multi-type sensor signal on the basis of multi-modal deep learning
US20190325342A1 (en) 2018-04-20 2019-10-24 Sri International Embedding multimodal content in a common non-euclidean geometric space
WO2019220622A1 (ja) 2018-05-18 2019-11-21 日本電気株式会社 画像処理装置、システム、方法及びプログラムが格納された非一時的なコンピュータ可読媒体
WO2019231624A2 (en) 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US20200018852A1 (en) 2018-07-12 2020-01-16 Toyota Research Institute, Inc. System and method for calibrating a lidar and a camera together using semantic segmentation
US20190135300A1 (en) 2018-12-28 2019-05-09 Intel Corporation Methods and apparatus for unsupervised multimodal anomaly detection for autonomous vehicles

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Valentin Vielzeuf et al.,Multilevel Sensor Fusion With Deep Learning,Sensors Letter,2019年01月,Vol.3,No.1
Yufu Qu et al.,Active Multimodal Sensor System for Target Recognition and Tracking,Sensors,2017年,Vol.17,pp.1-22

Also Published As

Publication number Publication date
US20230004797A1 (en) 2023-01-05
WO2021183256A1 (en) 2021-09-16
JP2023502140A (ja) 2023-01-20

Similar Documents

Publication Publication Date Title
JP7332238B2 (ja) タスク固有のデータ利用のための物理学により誘導されたディープマルチモーダル埋め込みのための方法及び装置
US11557085B2 (en) Neural network processing for multi-object 3D modeling
US20190370647A1 (en) Artificial intelligence analysis and explanation utilizing hardware measures of attention
JP2020508522A (ja) 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク
EP3874458A1 (en) Cross-domain image translation
US10599975B2 (en) Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
CN113795851A (zh) 具有针对使用对抗训练的表示学习的推理的大规模生成神经网络模型
KR102321998B1 (ko) 환경 변화에 강인한 이미지의 위치 및 방향 추정 방법 및 시스템
CN113065635A (zh) 一种模型的训练方法、图像增强方法及设备
US20220222832A1 (en) Machine learning framework applied in a semi-supervised setting to perform instance tracking in a sequence of image frames
CN111340190A (zh) 构建网络结构的方法与装置、及图像生成方法与装置
US10783660B2 (en) Detecting object pose using autoencoders
CN114239885A (zh) 一种运行故障预测方法及装置
Liu et al. Graphcspn: Geometry-aware depth completion via dynamic gcns
Katyal et al. Occupancy map prediction using generative and fully convolutional networks for vehicle navigation
KR20220065209A (ko) 다양한 품질의 영상을 인식하는 방법 및 장치
US20230298243A1 (en) 3d digital avatar generation from a single or few portrait images
US20220398283A1 (en) Method for fast and better tree search for reinforcement learning
US20230073154A1 (en) Semantic rearrangement of unknown objects from natural language commands
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
CN112766465A (zh) 用于智能转动性能检测的神经网络的训练方法
Heintz et al. Online shape modeling of resident space objects through implicit scene understanding
KR102615412B1 (ko) 비주얼 로컬라이제이션을 수행하기 위한 방법 및 장치
Kaskela Temporal Depth Completion for Autonomous Vehicle Lidar Depth Sensing
Murhij et al. Rethinking Voxelization and Classification for 3D Object Detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220708

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220816

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20220708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230804

R150 Certificate of patent or registration of utility model

Ref document number: 7332238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150