JP7414367B2 - 畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置 - Google Patents

畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置 Download PDF

Info

Publication number
JP7414367B2
JP7414367B2 JP2020564387A JP2020564387A JP7414367B2 JP 7414367 B2 JP7414367 B2 JP 7414367B2 JP 2020564387 A JP2020564387 A JP 2020564387A JP 2020564387 A JP2020564387 A JP 2020564387A JP 7414367 B2 JP7414367 B2 JP 7414367B2
Authority
JP
Japan
Prior art keywords
machine learning
learning model
environment
environmental
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020564387A
Other languages
English (en)
Other versions
JP2021524968A (ja
Inventor
パッラ、アレッサンドロ
バーン、ジョナサン
モロニー、デイビッド
Original Assignee
モビディウス リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by モビディウス リミテッド filed Critical モビディウス リミテッド
Publication of JP2021524968A publication Critical patent/JP2021524968A/ja
Application granted granted Critical
Publication of JP7414367B2 publication Critical patent/JP7414367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Description

[関連出願の相互参照]
米国特許仮出願第62/674,462号は、ここでその全体が参照により本明細書に組み込まれる。米国特許仮出願第62/674,462号に対する優先権がここで主張される。
本開示は一般的に、シーン再構成に関し、より具体的には、畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置に関する。
近年では、画像および映像データは、特に、スタティックカメラ(例えば、監視カメラ)および動的に移動するカメラ(例えば、クアッドコプターカメラ、ドローンなど)の出現により十分に利用可能になった。人間の脳が、以前の経験に基づいて単一観点からオブジェクトを推定する能力を含む一方、撮像された画像および映像データの1または複数の空隙は、機械ベースの解釈および/または解析に対して問題を引き起こし得る。
本開示の教示に従って構成された例示的な再構成システムの概略図である。
畳み込みニューラルネットワークを使用してシーンを再構成するために図1の例示的な再構成システムにより実装されるOR状のアーキテクチャである。
合成データベース作成を実装するために実行され得る機械可読命令を表すフローチャートである。
シーン再構成を実装するために実行され得る機械可読命令を表すフローチャートである。
図1および2の例示的な再構成システムを実装するために図3および/または4の命令を実行するように構造化された例示的な処理プラットフォームのブロック図である。
図面は、縮尺通りではない。代わりに、層または領域の厚みは、図面において拡大され得る。
取得された画像データは、1または複数のファクタにより生じる誤差および/または空隙を含み得る。いくつかの例において、取得された画像データにおける誤差および/または空隙は、光検出および測距(LiDAR)システムなどの、画像取得デバイスを飽和させる高反射面により生じる。いくつかの例において、誤差および/または空隙は、木、車両、建物などといったシーンにおける閉塞により生じる。本明細書に開示された例において、機械学習は、入力センサデータを処理して入力データにおける誤差(例えば、シーンにおける閉塞により生じる空隙)を修正するのに使用され得る1または複数のモデルを作成するのに使用される。
機械学習(ML)および/または人工知能(AI)は、機械(例えば、コンピュータ、論理回路など)が、所与の入力に基づいて出力を生成することを可能にする。AIは、機械が入力を処理して出力を生成するモデルを使用することを可能にする。MLは、モデルが特定の入力が特定の出力をもたらすようにトレーニングされることを可能にする。一般的に、ML/AIシステムを実装することは、学習/トレーニングフェーズと推論フェーズとの2つのフェーズを含む。学習/トレーニングフェーズにおいて、トレーニングアルゴリズムは、例えばトレーニングデータに基づいて、特定の入力に基づいて特定の出力を作成するようにモデルをトレーニングするのに使用される。一般的に、モデルは、入力データがどのように出力データに変換されるかをガイドする内部パラメータを含む。加えて、ハイパーパラメータは、トレーニング処理の一部として使用され、学習がどのように実行されるか(例えば、学習速度、機械学習モデルにおいて使用される層の数など)を制御する。一旦トレーニングされると、他のデータ(例えば、ライブデータ)は推論フェーズでモデルに入力され、出力を作成する。この推論フェーズは、トレーニングから(例えば、モデルから)学習したものに基づいて出力を生成すべく、AIが「思考中」である場合である。いくつかの例において、入力データには、機械学習モデルへの入力として使用される前に、前処理が行われる。さらに、いくつかの例において、出力データには、AIモデルにより生成された後に、後処理が行われ、出力を有用な結果(例えば、機械により実行される命令)に変換し得る。
多くの異なる種類の機械学習モデルおよび/または機械学習アーキテクチャが存在する。本明細書に開示された例では、畳み込みニューラルネットワーク(CNN)モデルが使用される。本明細書に開示された例では、追加のORゲート構造が機械学習モデルに追加され、誤検出を減らす(例えば、機械学習モデルの処理を介して誤差がもたらされる可能性を減らす)。CNNモデルを使用することは、入力される任意のサイズのセンサデータを処理することを可能にする。しかしながら、例えば、ディープニューラルネットワーク(DNN)、サポートベクトルマシン(SVM)などといった他のモデルアーキテクチャは、追加的にまたは代替的に使用され得る。
上述のように、ML/AIモデルは、特定の入力に基づいて特定の出力を生成するようにトレーニングされる。ML/AIモデルの種類および/または予想される出力に基づいて、異なる種類のトレーニングが実行され得る。例えば、教師ありのトレーニングは、入力とそれに対応する予想される出力とを使用して(例えば、選択パラメータの組み合わせの反復により)、モデル誤差を減らすML/AIモデルのパラメータを選択する。
本明細書に開示された例において、ML/AIモデルは、グラウンドトルースデータ(例えば、ノイズを含まないと既知であるキュレートされたセンサデータ)を使用してトレーニングされ、グラウンドトルースデータにはノイズが追加される。すなわち、ノイズが追加されたグラウンドトルースデータはトレーニング入力として使用され、その一方、グラウンドトルースデータ(追加ノイズなし)は予想される出力として使用される。本明細書に開示された例において、トレーニングは中心設備で(例えば、クラウドコンピューティング環境で)実行されるが、任意の他の計算環境で追加的にまたは代替的に実行され得る。
一旦トレーニングが完全すると、モデルはデータベースに格納される。データベースは、サーバ位置に(例えば、クラウドコンピューティング環境に)にあり得る。いくつかの例において、モデルはエッジデバイス(例えば、エッジユーザコンピュータ、ドローン、物のインターネット(IoT)デバイスなど)に提供され得る。モデルは次に、サーバおよび/またはエッジデバイスにより実行され、再構成されたシーンを生成し得る。そのようなアプローチは、ドローンが環境内で動作している、且つナビゲーションおよび/または衝突回避目的のためにシーン再構成の実行を試みるシナリオにおいて有用である。
図1は、例示的な再構成システム100の概略図である。図1の示された例において、再構成システム100は、例示的なスキャン再構成マネージャ101、センサ102、およびセンサデータストレージ(103)を含む。例示的なスキャン再構成マネージャ101は、例示的なセンサデータ取得器104、例示的な環境検出器106、例示的なモデルセレクタ108、例示的なモデルビルダ110、例示的なモデル調整器112、例示的な誤差特性評価器114、例示的な合成データベースビルダ116、例示的な合成データストレージ124、および例示的なシーン再構成器130を含む。例示的なバス118は、例示的な再構成マネージャ101の前述の構造に通信可能に接続する。また、例示的なセンサデータ取得器104は、例示的なセンサデータソース103および/または例示的なセンサ102に通信可能に接続する。
図1の示された例の例示的なセンサ102は、例えば、1または複数の光検出および測距(LiDAR)センサ、画像センサ、距離センサ、超音波センサなどといった1または複数のデータ取得センサにより実装される。いくつかの例において、複数の異なる種類のセンサが使用される。本明細書に開示された例において、センサ102は、センサデータ取得器104にデータを提供する。いくつかの例において、センサ102からのデータは、センサデータストレージ103に格納される。いくつかの例において、センサデータは、格納されるおよび/またはそうでない場合は3次元空間における画像情報を示すボクセル(体積要素)として提供される。いくつかの他の例において、センサデータは、ボクセル表現を生成するのに使用される画像データとして提供される。いくつかの例において、センサデータは、ボクセル表現を生成するのに使用されるポイントクラウドとして提供される。いくつかの例において、ボクセルは、3次元空間における点および/または領域の占有(例えば、特定の空間がオブジェクトにより消費されるかどうか)を示す2進値を含む。いくつかの例において、そのようなボクセル情報は、例えば、色(例えば、RGB(赤、緑、青))データ、輝度データなどといった追加情報を含む。
図1の示された例の例示的なセンサデータストレージ103は、例えば、フラッシュメモリ、磁気媒体、光学媒体、ソリッドステートメモリ、ハードドライブ、サムドライブなどといった、データを格納するための任意のメモリ、ストレージデバイスおよび/またはストレージディスクにより実装される。さらに、例示的なセンサデータストレージ103に格納されたデータは、例えば、バイナリデータ、カンマ区切データ、タブ区切データ、構造化照会言語(SQL)構造などといった任意のデータフォーマットであり得る。示された例において、センサデータストレージ103は単一デバイスとして示されている一方、例示的なセンサデータストレージ103および/または本明細書に説明されている任意の他のデータストレージデバイスは、任意の数のおよび/または種類のメモリにより実装され得る。図1の示された例において、例示的なセンサデータストレージ103は、センサデータ(例えば、センサ102により収集されたキャッシュされたセンサデータ)および/またはグラウンドトルースデータ(例えば、ノイズを含まないと既知であるキュレートされたセンサデータ)を格納する。
図1の示された例の例示的なセンサデータ取得器104は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、フィールドプログラマブル論理デバイス(FPLD)、デジタルシグナルプロセッサ(DSP)などといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的なセンサデータ取得器104は、グラウンドトルースデータおよび/またはセンサデータ(例えば、画像、ビデオなど)を取得する。いくつかの他の例において、センサデータおよび/またはグラウンドトルースデータは、例示的なセンサデータ取得器104がボクセル表現を生成するのに使用する画像データとして提供される。いくつかの例において、センサデータおよび/またはグラウンドトルースデータは、例示的なセンサデータ取得器104がボクセル表現を生成するのに使用するポイントクラウドとして提供される。
図1の示された例の例示的な環境検出器106は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的な環境検出器106は、グラウンドトルースデータおよび/またはセンサデータの特性および/または特性の種類を識別する。本明細書に開示された例において、そのような特性は、環境が都市環境(例えば、都市のランドスケープ)であるかまたは農村環境であるかが識別されたかどうかを含む。いくつかの例において、例えば、環境に通常存在する建物および/またはアーキテクチャの種類などの、環境のさらなる特性が識別され得る。例えば、現代都市のランドスケープ/アーキテクチャ(例えば、サンフランシスコ、ニューヨークなど)は、他の都市のランドスケープ/アーキテクチャ(例えば、シエナ、イタリア、ダブリン、アイルランド)とは異なるモデルをもたらし得る。いくつかの例において、センサデータに含まれるメタデータ(例えば、エクスチェンジャブル・イメージ・ファイル・フォーマット(EXIF)データ)は、環境の地理的位置を決定するのに使用され得る。
図1の示された例の例示的なモデルセレクタ108は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的なモデルセレクタ108は、環境検出器106により識別される環境特性に基づいて、シーン再構成における使用のための合成データベースを選択する。本明細書に開示された例において、合成データベースは、シーン再構成を実行する場合に使用される1または複数の機械学習モデルを表す。
図1の示された例の例示的なモデルビルダ110は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的なモデルビルダ110は、グラウンドトルースデータをトレーニングセットに分割する。本明細書に開示された例では、3つのトレーニングセットが使用される。しかしながら、任意の他の数のトレーニングセットが、追加的にまたは代替的に使用され得る。いくつかの例において、各トレーニングセットは、他のトレーニングセットと同じデータを含む。そのようなアプローチは、合成データベースビルダ116により、様々なレベルのノイズがトレーニングセットに適用されることを可能にする。しかしながら、いくつかの他の例では、単一トレーニングセットが使用され、当該トレーニングセットには漸進的な量のノイズが適用される。本明細書に開示された例において、トレーニングセットは同じサイズである。しかしながら、任意のサイズのトレーニングデータが追加的にまたは代替的に使用され得る。
例示的なモデルビルダ110は、トレーニングセット(合成データベースビルダ116により適用されたノイズを含む)を使用してモデルをトレーニングする。本明細書に開示された例において、モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される。しかしながら、任意の他の機械学習モデルアーキテクチャが追加的にまたは代替的に使用され得る。本明細書に開示された例において、例示的なモデルビルダ110は、確率的勾配降下法を使用してモデルをトレーニングする。しかしながら、任意の他のトレーニングアルゴリズムが追加的にまたは代替的に使用され得る。本明細書に開示された例では、各トレーニングセットに対して、検証データセット(例えば、ノイズが適用されたグラウンドトルースデータおよび/またはトレーニングデータの一部)とグラウンドトルースデータとの間の許容レベルの誤差が達成されるまで、トレーニングが実行される。
例示的なモデルビルダ110は次に、任意の追加のトレーニングセットが存在するかどうかを決定し、そうである場合、全てのトレーニングセットが使用されるまでトレーニングを反復する。本明細書に開示された例では、可変な量のノイズが様々なトレーニングセットに適用され得る(例えば、合成データベースビルダ116により)。例えば、第1反復において、第1ノイズ量が第1トレーニングセット(例えば10%ノイズ)に適用され得、その一方、第2反復において、第1ノイズ量とは異なる第2ノイズ量が、第2トレーニングセット(例えば20%ノイズ)に適用され得る。本明細書に開示された例において、それぞれ10%、20%、および50%のノイズ値を有する3つのトレーニングセットが使用される。ノイズ量を増加させて使用することは、ノイズがますます増加するシナリオにおいて、モデルが自ら徐々に改善されるので、モデルのコンバージェンスを改善する。
図1の示された例の例示的なモデル調整器112は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。全てのトレーニングセットがモデルビルダ110によってモデルの生成のために一旦使用されると、例示的なモデル調整器112は、残りのORゲート接続を用いて、モデルを適合させるおよび/またはそうでない場合は強化する。従って、いくつかの例では、モデル調整器112はORゲートカスタマイザと呼ばれる場合がある。上述のように、追加ORゲートは、誤った推論を除去することにより、システムの精度を改善する。すなわち、ORゲートアーキテクチャは、モデルの最終結果(例えば、ライブデータに関連して使用される場合の)によって誤ったボクセルデータが作成される結果をもたらさないことを保証する。換言すると、システムの性能は、入力データより劣らないことを保証される。
通常のCNN技術は、ある程度の誤差を生成する回帰と類似する方式で動作する。いくつかの従来のアプローチでは、CNN技術は、画像入力データと1または複数の畳み込み層との間に論理AND演算を採用する。このように、ノイズのあるおよび/またはそうでない場合は不完全な(例えば、誤差/空隙を含む)入力センサが、現在の構造を示す特定のボクセルの情報を含まない、且つ、CNN層が現在の構造を示す非ゼロ確率を示唆するとき、次に論理ANDアーキテクチャはゼロ値出力をもたらす。同様に、ノイズのある入力が構造を示すボクセルを含む(例えば、ボクセルにおける「1」の2進値)が、CNN層の反復は構造を示さないとき、次に、論理ANDアーキテクチャはゼロ値出力をもたらす。このように、従来のCNN技術は、最初の入力画像より劣る(例えば、トルースデータと比較した場合、より多くの誤差を含む)出力画像再構成をもたらし得る。この効果は、入力センサデータにおける空隙が共通である環境で悪化する。
本明細書に開示された例は、例示的なモデル調整器112が残りの接続でOR状のゲートを採用することにより、部分的にシーン再構成を改善し、それによって、誤った推論を除去する(例えば、誤検出の識別)。図2は、例示的なOR状のアーキテクチャ200を示す。図2の示された例において、例示的なアーキテクチャ200は、第1ネットワーク層204、第2ネットワーク層206、第3ネットワーク層208を含むエンコーダフェーズ202を含む。また、図2の示された例は、対応する第4ネットワーク層212、第5ネットワーク層214、および第6ネットワーク層216を含むデコーダフェーズ210を含む。例示的なスキャン再構成マネージャ101により畳み込み活動中の誤った推論を除去すべく、例示的なアーキテクチャ200は、画像データに関連付けられる入力および中間の畳み込み出力を許容する対応するORゲート218、219、220を含む。いくつかの例において、アーキテクチャ200は、ソース画像データの特定のニュアンスに関連して適合された1または複数の合成データソース/モデルを生成する。
図1に戻ると、図1の示された例の例示的な誤差特性評価器114は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的な誤差特性評価器114は、対象の環境に関連付けられる通常の誤差特性を決定する。例えば、都市環境(例えば、金属製の構造および/またはガラス窓を有する環境)は、センサデータにおける反射に遭遇し得る。そのような反射は、(実際には、そのボクセルが占有された値を有するべきである場合)占有されていないボクセルとして自ら現れ得る。誤差特性は、例示的な合成データベースビルダ116により使用され、特定の種類および/または量の誤差(例えば、ノイズ)をグラウンドトルースデータに適用する。
図1の示された例の例示的な合成データベースビルダ116は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。例示的な合成データベースビルダ116は、環境固有の誤差/ノイズをグラウンドトルースデータの第1トレーニングセットに注入する。ノイズをトレーニングセットに適用すべく、例示的な合成データベースビルダ116は、1または複数のボクセルを、占有値(例えば、特定の位置におけるオブジェクトの存在を示す)から、非占有値(例えば、特定の位置におけるオブジェクトの不在を示す)にトグルする。本明細書に開示された例において、トレーニングデータに現れるボクセルの割合はトグルされる(例えば、10%、20%など)。しかしながら、トグルされるボクセルを識別する任意の他のアプローチが追加的にまたは代替的に使用され得る。さらに、いくつかの例では、占有値から非占有値にトグルする代わりに、合成データベースビルダ116は、ボクセルを、非占有値から占有値にトグルし得る(例えば、そのようなオブジェクトが特定の位置に存在しない場合、その位置にオブジェクトの存在を示すノイズを表す)。本明細書に開示された例において、ノイズは、合成データベースビルダ116により、トレーニングデータセットにおけるボクセルに、ランダムに適用される。しかしながら、ノイズは、任意の他のやり方でトレーニングデータセットにおけるボクセルに適用され得る。
図1の示された例の例示的な合成データストレージ124は、例えば、フラッシュメモリ、磁気媒体、光学媒体、ソリッドステートメモリ、ハードドライブ、サムドライブなどといった、データを格納するための任意のメモリ、ストレージデバイスおよび/またはストレージディスクにより実装される。さらに、例示的な合成データストレージ124に格納されたデータは、例えば、バイナリデータ、カンマ区切データ、タブ区切データ、構造化照会言語(SQL)構造などといった任意のデータフォーマットであり得る。示された例において、合成データストレージ124は単一デバイスとして示されている一方、例示的な合成データストレージ124および/または本明細書に説明されている任意の他のデータストレージデバイスは、任意の数のおよび/または種類のメモリにより実装され得る。図1の示された例において、例示的な合成データストレージ124は、シーン再構成に使用され得る環境固有の機械学習モデル(例えば、合成データベース)を格納する。
図1の示された例の例示的なシーン再構成器130は、例えば、ハードウェアプロセッサなどの論理回路により実装される。しかしながら、例えば、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、ASIC、PLD、FPLD、プログラマブルコントローラ、GPU、DSPなどといった任意の他の種類の回路が追加的にまたは代替的に使用され得る。トレーニングされたモデルの推論および/または使用フェーズの間、例示的なシーン再構成器130は、センサデータ(例えば、センサデータ取得器104を介して受信されたセンサデータ)を、選択されたモデルを使用して処理し、再構成されたシーンを生成する。このように、シーンは、(例えば、再構成される環境において発生すると予想される誤差を考慮すべく)センサデータにより表される特定の環境に適合された機械学習モデルを使用して作成される。そのような適合は、センサデータを解析する場合、その種類の環境特有のノイズが考慮されることを保証する。生成されたシーンは次に、例えばドローンのナビゲーションを容易にするために使用され得る。
動作において、例示的なセンサデータ取得器104は、例示的なセンサデータソース103および/または例示的なセンサ102からの画像データなどのセンサデータを取得する。取得された画像データは、画像取得デバイス/ハードウェアに様々な方法で影響を与える特定の種類の環境に関連付けられ得る。例えば、LiDARシステムは、都会環境における空間データを収集する場合、特定の誤差を示し得る。より具体的には、ポストモダンの都会環境(例えば、サンフランシスコ)は、LiDARセンサを飽和させる高反射性材料(例えば、高反射性ガラス、高反射性金属など)を利用するオフィスビルおよび/または超高層ビルを含み得る。しかしながら、LiDARシステムは、例えば、光学的にミュートされた建築材料の程度が比較的に大きいことにより、従来の都市(例えば、イタリアのシエナ、英国のバースなど)と同じ程度にそのような誤差を示さない場合がある。代わりに、LiDARシステムは、影により生じるそのような環境における異なる種類の誤差を示し得る。
例示的な環境検出器106は、取得されたセンサデータと関連付けられる環境オブジェクトを識別し、例示的なモデルセレクタ108は、(例示的な合成データストレージ124から)識別された環境オブジェクトと関連付けられる合成データベースを選択する。環境オブジェクトは、ポストモダンの都市画像、従来の都市画像、ポストモダンの住居画像、田舎の画像などにより生じる状況およびニュアンスを含み得るが、これらに限定されない。一般的にいえば、選択された合成データベースは、取得された画像が空隙および/または誤差を含む場合に画像再構成作業を改善するための取得された画像データと関連するトレーニングデータを含む。例示的なモデルセレクタ108は、識別された環境オブジェクトに関連付けられる合成データベースおよび/またはデータセットを選択し、例示的なモデルビルダ110はCNNを構築する。
例示的な誤差特性評価器114は、グラウンドトルースデータが取られた環境に関連付けられる通常の誤差特性を決定する。上述されたように、グラウンドトルースデータがポストモダン都市環境において取られた場合において、次に、例示的な誤差特性評価器114は、LiDARベースの取得システムの対象の特性として輝度、彩度を識別する。例示的な合成データベースビルダ116は、環境固有の誤差をグラウンドトルースデータに注入し、1または複数のニューラルネットワークトレーニング動作によって、環境固有のモデルを開発する。このように、モデルは、代替環境(例えば、比較的高い程度の光学反射率を有する建築材料を示す、別のポストモダンの都会)のグラウンドトルースデータを再取得する必要なく、他の同様の状況である環境に、適用され得る。いくつかの例において、環境は、センサ102を保持するセンサプラットフォーム(例えば、センサ102を動作させるデバイス)が動作すると予想される領域の種類に対応し得る。例えば、環境は、自律走行車両が動作している車道の種類(例えば、都市の街路、郊外の街路、田舎の道路、幹線道路など)に対応し得る。
いくつかの例において、スキャン再構成マネージャ101はサーバで実装される。そのような例において、追加のサーバリソースが次に使用され、機械学習モデルのトレーニングを実行し得る。さらに、サーバで実装されるスキャン再構成マネージャ101は次に、センサプラットフォーム(例えば、センサ102を動作させるデバイス)からセンサデータを受信し、再構成されたシーンをセンサプラットフォームに提供し得る。いくつかの例において、スキャン再構成マネージャ101は、センサプラットフォームの要素として実装されるおよび/またはセンサプラットフォームと通信する。そのようなアプローチは、センサプラットフォーム(例えば、モバイルデバイス、無人航空機(UAV)、ドローン、産業機器、自律走行車両など)が、センサデータをローカルに処理することと、環境固有のシーン再構成を実行することとを可能にする。
図1の再構成システム100を実装する例示的な方式が図1および2に示されている一方、図1および/または2に示された1または複数の要素、処理および/またはデバイスは組み合わされ得、分割され得、再配置され得、省略され得、除去され得、および/または任意の他の方法で実装され得る。さらに、例示的なセンサデータ取得器104、例示的な環境検出器106、例示的なモデルセレクタ108、例示的なモデルビルダ110、例示的なモデル調整器112、例示的な特性評価器114、例示的な合成データベースビルダ116、例示的な合成データストレージ124、例示的なシーン再構成器130、および/またはより一般的には、図1の例示的なスキャン再構成マネージャ101は、ハードウェア、ソフトウェア、ファームウェア、および/または、ハードウェア、ソフトウェアおよび/またはファームウェアの任意の組み合わせにより実装され得る。したがって、例えば、例示的なセンサデータ取得器104、例示的な環境検出器106、例示的なモデルセレクタ108、例示的なモデルビルダ110、例示的なモデル調整器112、例示的な特性評価器114、例示的な合成データベースビルダ116、例示的な合成データストレージ124、例示的なシーン再構成器130のいずれか、および/または、より一般的には、図1の例示的なスキャン再構成マネージャ101は、1または複数のアナログまたはデジタル回路、論理回路、プログラマブルプロセッサ、プログラマブルコントローラ、グラフィックス処理ユニット(GPU)、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)および/またはフィールドプログラマブル論理デバイス(FPLD)により実装され得る。単にソフトウェアおよび/またはファームウェアの実装を網羅する本特許の装置請求項またはシステム請求項のいずれかを読む場合、例示的なセンサデータ取得器104、例示的な環境検出器106、例示的なモデルセレクタ108、例示的なモデルビルダ110、例示的なモデル調整器112、例示的な特性評価器114、例示的な合成データベースビルダ116、例示的な合成データストレージ124、例示的なシーン再構成器130の少なくとも1つの、および/または、より一般的には、図1の例示的なスキャン再構成マネージャ101は、ソフトウェアおよび/またはファームウェアを含むメモリ、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、ブルーレイディスクなどといった非一時的コンピュータ可読ストレージデバイスまたはストレージディスクを含むようにここで明確に定義される。またさらには、図1の例示的な再構成システム100は、図1および/または2に示されたそれらに加えてまたはその代わりに、1または複数の要素、処理および/またはデバイスを含み得る、および/または、示された要素、処理およびデバイスのいずれか1つより多くまたは全てを含み得る。本明細書で使用されるように、「と通信する」という表現は、その変形例を含み、1または複数の中間要素による直接通信および/または間接通信を包含み、直接的な物理的(例えば、有線)通信および/または常時通信を必要としないが、むしろ、周期的な間隔、スケジュールされた間隔、非周期的な間隔、および/または一度だけのイベントにおける選択的な通信を追加的に含む。
図1および/または2の再構成システム100を実装するための例示的なハードウェアロジック、機械可読命令、ハードウェア実装ステートマシン、および/またはその任意の組み合わせを表すフローチャートは、図3および/または4に示される。機械可読命令は、図5に関連して以下に論じられる例示的なプロセッサプラットフォーム500に示されるプロセッサ512などのコンピュータプロセッサによる実行のための実行可能プログラムまたは実行可能プログラムの一部であり得る。プログラムは、CD‐ROM、フロッピーディスク、ハードドライブ、DVD、ブルーレイディスク、またはプロセッサ512に関連付けられるメモリなどの非一時的コンピュータ可読ストレージ媒体に格納されたソフトウェアで具現化され得るが、全体のプログラムおよび/またはその一部は、代替的に、プロセッサ512以外のデバイスにより実行されることおよび/またはファームウェアもしくは専用ハードウェアで具現化されることが可能である。さらに、例示的なプログラムが図3および4に示されたフローチャートを参照して説明されているが、例示的な再構成システム100を実装する多くの他の方法が代替的に使用され得る。例えば、ブロックの実行順序が変更され得、および/または説明されたブロックの一部が変更され得、除去され得、または組み合わされ得る。追加的にまたは代替的に、いずれかまたは全てのブロックは、ソフトウェアまたはファームウェアを実行することなく対応する動作を実行するように構造化された1または複数のハードウェア回路(例えば、ディスクリートおよび/または集積アナログおよび/またはデジタル回路、FPGA、ASIC、コンパレータ、演算増幅器(オペアンプ)、論理回路など)により実装され得る。
本明細書に説明される機械可読命令は、圧縮フォーマット、暗号化フォーマット、断片化フォーマット、パッケージ化フォーマットなどのうち1または複数で格納され得る。本明細書に説明された機械可読命令は、機械実行可能命令を作成、製造および/または生成するのに利用され得るデータ(例えば、命令の一部、コード、コードの表現など)として格納され得る。例えば、機械可読命令は、1または複数のストレージデバイスおよび/またはコンピューティングデバイス(例えば、サーバ)に断片化および格納され得る。機械可読命令は、コンピューティングデバイスおよび/または他の機械により直接可読および/または実行可能にすべく、設置、修正、適応、更新、結合、補足、構成、解読、圧縮解除、アンパック、分散、再割り当てなどのうち1または複数を、必要とし得る。例えば、機械可読命令は、別個のコンピューティングデバイスに個々に圧縮、暗号化および格納された複数の部分に格納され得、ここで、当該複数の部分は、解読、圧縮解除および組み合わされた場合、本明細書に説明されたもののようなプログラムを実装する実行可能命令のセットを形成する。別の例において、機械可読命令は、コンピュータにより読み取られ得る状態で格納され得るが、特定のコンピューティングデバイスまたは他のデバイスで命令を実行すべく、ライブラリ(例えば、ダイナミックリンクライブラリ(DLL))、ソフトウェア開発キット(SDK)、アプリケーションプログラミングインタフェース(API)などの追加を必要とする。別の例において、機械可読命令は、機械可読命令および/または対応するプログラムが全体的にまたは部分的に実行され得る前に構成(例えば、格納された設定、データ入力、記録されたネットワークアドレスなど)される必要があり得る。したがって、開示された機械可読命令および/または対応するプログラムは、格納中またはそうでない場合は静止中または送信中である場合、機械可読命令および/またはプログラムの特定のフォーマットまたは状態に関わらず、そのような機械可読命令および/またはプログラムを包含することを意図している。
上述のように、図3および図4の例示的な処理は、情報が任意の期間(例えば、長期間、永久的に、短時間、一時的なバッファの間、および/または情報をキャッシュする間)格納される、ハードディスクドライブ、フラッシュメモリ、リードオンリメモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、および/または任意の他のストレージデバイスまたはストレージディスクなどの非一時的コンピュータおよび/または機械可読媒体に格納された実行可能命令(例えば、コンピュータおよび/または機械可読命令)を使用して実装され得る。本明細書に使用されるように、非一時的コンピュータ可読媒体という用語は、任意の種類のコンピュータ可読ストレージデバイスおよび/またはストレージディスクを含み、伝搬する信号を排除し、送信媒体を排除するように明確に定義される。
「含む(Including)」および「備える(comprising)」(およびその全ての形成および時制)は、非限定的用語であるように本明細書で使用される。したがって、請求項が「含む」または「備える」の任意の形成(例えば、comprises、includes、comprising、including、havingなど)を、プリアンブルとしてまたは任意の種類の請求項の記述内で採用する場合はいつでも、追加要素、用語などが、対応する請求項または記述の範囲から外れることなく存在し得ることを理解するべきである。本明細書で使用されるように、「少なくとも(at least)」という表現が移行部の用語、例えば、請求項のプリアンブルとして使用される場合、それは「備える」および「含む」という用語が非限定的であるのと同じように、非限定的である。用語「および/または(and/or)」は、例えば、A,Bおよび/またはCのような形成で使用される場合、(1)Aのみ、(2)Bのみ、(3)Cのみ、(4)AとBと、(5)AとCと、(6)BとCと、および(7)AとBとCとのような、A,B、Cの任意の組み合わせまたはサブセットを指す。構造、要素、項目、オブジェクトおよび/または物を説明する文脈において本明細書で使用されるように、「AおよびBのうちの少なくとも1つ」という表現は、(1)少なくとも1つのA、(2)少なくとも1つのB、および(3)少なくとも1つのAおよび少なくとも1つのBのいずれかを含む実装例を指すことを意図している。同様に、構造、要素、項目、オブジェクトおよび/または物を説明する文脈において本明細書で使用されるように、「AまたはBのうちの少なくとも1つ」という表現は、(1)少なくとも1つのA、(2)少なくとも1つのB、および(3)少なくとも1つのAおよび少なくとも1つのBのいずれかを含む実装例を指すことを意図している。処理、命令、動作、活動および/または段階の実行または実施を説明する文脈において本明細書で使用されるように、「AおよびBのうちの少なくとも1つ」という表現は、(1)少なくとも1つのA、(2)少なくとも1つのB、および(3)少なくとも1つのAおよび少なくとも1つのBのいずれかを含む実装例を指すことを意図している。同様に、処理、命令、動作、活動および/または段階の実行または実施を説明する文脈において本明細書で使用されるように、「AまたはBのうちの少なくとも1つ」という表現は、(1)少なくとも1つのA、(2)少なくとも1つのB、および(3)少なくとも1つのAおよび少なくとも1つのBのいずれかを含む実装例を指すことを意図している。
図3の例示的な処理300は、実行される場合、1または複数の特定の環境に対応する機械学習モデルの作成をもたらす。図3のプログラム300は、例示的なセンサデータ取得器104がグラウンドトルースデータ(例えば、画像、ビデオなど)を取得する場合に開始する。(ブロック310)本明細書に開示された例において、グラウンドトルースデータは、特定の環境(例えば、都市)の高品質の画像、ビデオ、センサデータなどを表す。いくつかの例において、グラウンドトルースデータがノイズを含まないことを保証すべく、グラウンドトルースデータは、手動でキュレートされるおよび/または編集される。本明細書に開示された例において、グラウンドトルースデータは、センサデータストレージ103に格納される。しかしながら、グラウンドトルースデータは、任意の他の位置に格納され得る。
例示的な環境検出器106は、グラウンドトルースデータの特性を識別する。(ブロック315)本明細書に開示された例において、そのような特性は、環境が都市環境(例えば、都市のランドスケープ)であるかまたは農村環境であるかを含む。いくつかの例において、例えば、環境に通常存在する建物および/またはアーキテクチャの種類などの、環境のさらなる特性が識別され得る。例えば、現代都市のランドスケープ/アーキテクチャ(例えば、サンフランシスコ、ニューヨークなど)は、他の都市のランドスケープ/アーキテクチャ(例えば、シエナ、イタリア、ダブリン、アイルランド)とは異なるモデルをもたらし得る。いくつかの例において、センサデータに含まれるメタデータ(例えば、エクスチェンジャブル・イメージ・ファイル・フォーマット(EXIF)データ)は、環境の地理的位置を決定するのに使用され得る。
例示的な誤差特性評価器114は、対象の環境に関連付けられる通常の誤差特性を決定する。(ブロック320)例えば、都市環境(例えば、金属製の構造および/またはガラス窓を有する環境)は、センサデータにおける反射に遭遇し得る。そのような反射は、(実際には、そのボクセルが占有された値を有するべきである場合)占有されていないボクセルとして自ら現れ得る。例示的なモデルビルダ110は、グラウンドトルースデータをトレーニングセットに分割する。(ブロック330)本明細書に開示された例では、3つのトレーニングセットが使用される。しかしながら、任意の他の数のトレーニングセットが、追加的にまたは代替的に使用され得る。いくつかの例において、各トレーニングセットは、他のトレーニングセットと同じデータを含む。そのようなアプローチは、様々なレベルのノイズがトレーニングセットに適用されることを可能にする。しかしながら、いくつかの他の例では、単一トレーニングセットが使用され、当該トレーニングセットには漸進的な量のノイズが適用される。本明細書に開示された例において、トレーニングセットは同じサイズである。しかしながら、任意のサイズのトレーニングデータが追加的にまたは代替的に使用され得る。
例示的な合成データベースビルダ116は、環境固有の誤差/ノイズをグラウンドトルースデータの第1トレーニングセットに注入する。(ブロック340)ノイズをトレーニングセットに適用すべく、1または複数のボクセルは、占有値(例えば、特定の位置におけるオブジェクトの存在を示す)から、非占有値(例えば、特定の位置におけるオブジェクトの不在を示す)にトグルされる。本明細書に開示された例において、トレーニングデータに現れるボクセルの割合はトグルされる(例えば、10%、20%など)。しかしながら、トグルされるボクセルを識別する任意の他のアプローチが追加的にまたは代替的に使用され得る。さらに、いくつかの例では、占有値から非占有値にトグルする代わりに、ボクセルは、非占有値から占有値にトグルされ得る(例えば、そのようなオブジェクトが特定の位置に存在しない場合、その位置にオブジェクトの存在を示すノイズを表す)。本明細書に開示された例において、ノイズは、トレーニングデータセットにおけるボクセルに、ランダムに適用される。しかしながら、ノイズは、任意の他のやり方でトレーニングデータセットにおけるボクセルに適用され得る。
例示的なモデルビルダ110は、トレーニングセットを使用してモデルをトレーニングする。(ブロック350)本明細書に開示された例において、例示的なモデルビルダ110は、確率的勾配降下法を使用してモデルをトレーニングする。しかしながら、任意の他のトレーニングアルゴリズムが追加的にまたは代替的に使用され得る。本明細書に開示された例では、検証データセット(例えば、ノイズが適用されたグラウンドトルースデータおよび/またはトレーニングデータの一部)とグラウンドトルースデータとの間の許容レベルの誤差が達成されるまで、トレーニングが実行される。
例示的なモデルビルダ110は次に、任意の追加のトレーニングセットが存在するかどうかを決定する。(ブロック360)追加のトレーニングセットが存在するとき、制御はブロック340に戻り、ここで、ブロック340から360の例示的な処理が、全てのトレーニングセットが使用されるまで反復される。本明細書に開示された例では、可変な量のノイズが様々なトレーニングセットに適用され得る(例えば、ブロック340で)。例えば、第1反復において、第1ノイズ量が第1トレーニングセット(例えば10%ノイズ)に適用され得、その一方、第2反復において、第1ノイズ量とは異なる第2ノイズ量が、第2トレーニングセット(例えば20%ノイズ)に適用され得る。本明細書に開示された例において、それぞれ10%、20%、および50%のノイズ値を有する3つのトレーニングセットが使用される。ノイズ量を増加させて使用することは、ノイズがますます増加するシナリオにおいて、モデルが自ら徐々に改善されるので、モデルのコンバージェンスを改善する。
全てのトレーニングセットがモデルの生成のために一旦使用されると(例えば、ブロック360がNOの結果を返送すると)、例示的なモデル調整器112は、残りのORゲート接続を用いて、モデルを適合させるおよび/またはそうでない場合は強化する。(ブロック370)上述のように、追加ORゲートは、誤った推論を除去することにより、システムの精度を改善する。すなわち、ORゲートアーキテクチャは、モデルの最終結果(例えば、ライブデータに関連して使用される場合の)によって誤ったボクセルデータが作成される結果をもたらさないことを保証する。換言すると、システムの性能は、入力データより劣らないことを保証される。
例示的な合成データベースビルダ116は次に、合成データストレージ124にモデルを格納する。(ブロック380)例示的なモデルは、ブロック315に関連して識別された環境特性に関連して格納される。環境特性(ブロック315で識別された)に関連してモデルを格納することは、後で、環境に基づいて使用するために様々なモデルが選択されることを可能にする。例示的な合成データベースビルダ116は次に、グラウンドトルースデータ(例えば、代替環境)の追加の位置が存在するかどうかを決定する。(ブロック390)グラウンドトルースデータの追加の位置がアクセスされたとき(例えば、ブロック390がYESの結果を返送するとき)、グラウンドトルースデータのそのような他の位置が処理される(例えば、モデルが作成される)まで、図3の例示的な処理が反復される。グラウンドトルースデータの追加の位置が一旦処理されると(例えば、ブロック390がNOの結果を返送すると)、図3の例示的な処理は終了する。図3の例示的な処理は、例えば、追加のグラウンドトルースデータが利用可能になった場合、再トレーニングなどを実行するように命令(例えば、ユーザから、アドミニストレータからなど)された場合、反復され得る。
図4の例示的な処理400は、実行される場合、環境に対応する機械学習モデルの使用をもたらす。図4のプログラム400は、ブロック410で開始され、ここで、例示的なセンサデータ取得器104はセンサデータを取得する。(ブロック410)本明細書に開示された例において、センサデータは、ライブセンサデータ(例えば、1または複数のセンサからの)を表す。いくつかの例において、センサデータは、環境においてナビゲートするドローンおよび/または他の無人航空機(UAV)から取得される。いくつかの例において、スキャン再構成マネージャ101は、センサデータがドローンに搭載され処理されるように、ドローンにローカルに実装され得る。いくつかの他の例において、センサデータは、離れている位置(例えば、処理のためのサーバ)に送信され得る。
例示的な環境検出器106は、特定の環境に関連付けられ得る環境特性および/またはニュアンスを識別する。(ブロック420)本明細書に開示された例において、環境特性は、再構成される環境に関する情報(例えば、メタデータ)を表す。本明細書に開示された例において、そのような特性は、環境が都市環境(例えば、都市のランドスケープ)であるかまたは農村環境であるかを含む。いくつかの例において、例えば、環境に通常存在する建物および/またはアーキテクチャの種類などの、環境のさらなる特性が識別され得る。例えば、現代都市のランドスケープ/アーキテクチャ(例えば、サンフランシスコ、ニューヨークなど)は、他の都市のランドスケープ/アーキテクチャ(例えば、シエナ、イタリア、ダブリン、アイルランド)とは異なるモデルをもたらし得る。いくつかの例において、グローバルポジショニングデータ(GPS)は、センサデータが対応する位置および/または環境を決定するのに使用され得る。
識別された環境特性を使用して、例示的なモデルセレクタ108は合成データベースを選択する。(ブロック430)例示的なシーン再構成器130は次に、選択されたモデルを使用してセンサデータを処理し、シーンを生成する。(ブロック440)このように、シーンは、センサデータにより表される特定の環境に適合された機械学習モデルを使用して作成され得る。そのような適合は、センサデータを解析する場合、その種類の環境特有のノイズが考慮されることを保証する。生成されたシーンは次に、例えばドローンのナビゲーションを容易にするために使用され得る。
図5は、図1および2の再構成システム100を実装するために図3および/または4の命令を実行するように構造化された例示的なプロセッサプラットフォーム500のブロック図である。プロセッサプラットフォーム500は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習機械(例えば、ニューラルネットワーク)、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(登録商標)などのタブレット)、パーソナルデジタルアシスタント(PDA)、インターネット家電機器、DVDプレイヤ、CDプレイヤ、デジタルビデオレコーダ、ブルーレイプレイヤ、ゲームコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセットもしくは他のウェアラブルデバイス、または任意の他の種類のコンピューティングデバイスであり得る。
示された例のプロセッサプラットフォーム500は、プロセッサ512を含む。示された例のプロセッサ512は、ハードウェアである。例えば、プロセッサ512は、任意の所望のファミリまたは製造業者の1または複数の集積回路、論理回路、マイクロプロセッサ、GPU、DSP、またはコントローラにより実装され得る。ハードウェアプロセッサは、半導体ベース(例えば、シリコンベース)のデバイスであり得る。この例において、プロセッサは、例示的なスキャン再構成マネージャ101およびそこに含まれる要素/構造を実装する。
示された例のプロセッサ512は、ローカルメモリ513(例えば、キャッシュ)を含む。示された例のプロセッサ512は、バス518を介して、揮発性メモリ514と不揮発性メモリ516とを含むメインメモリと通信する。揮発性メモリ514は、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUS(登録商標)ダイナミックランダムアクセスメモリ(RDRAM(登録商標))および/または任意の他の種類のランダムアクセスメモリデバイスにより実装され得る。不揮発性メモリ516は、フラッシュメモリおよび/または任意の他の所望の種類のメモリデバイスにより実装され得る。メインメモリ514、516へのアクセスは、メモリコントローラにより制御される。
示された例のプロセッサプラットフォーム500は、インタフェース回路520も含む。インタフェース回路520は、イーサネット(登録商標)インタフェース、ユニバーサルシリアルバス(USB)、Bluetooth(登録商標)インタフェース、近距離無線通信(NFC)インタフェース、および/またはPCIエクスプレスインタフェースなどの任意の種類のインタフェース規格により実装され得る。
示された例において、1または複数の入力デバイス522は、インタフェース回路520に接続される。入力デバイス522は、ユーザがプロセッサ512にデータおよび/またはコマンドを入力することを許可する。入力デバイスは、例えば、オーディオセンサ、マイク、カメラ(スチールまたはビデオ)、キーボード、ボタン、マウス、タッチスクリーン、トラッキングパッド、トラックボール、アイソポイントおよび/または音声認識システムにより実装され得る。
1または複数の出力デバイス524も、示された例のインタフェース回路520に接続される。出力デバイス524は、例えば、ディスプレイデバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶ディスプレイ(LCD)、ブラウン管ディスプレイ(CRT)、in-place switching(IPS)ディスプレイ、タッチスクリーンなど)、触知出力デバイス、プリンタおよび/またはスピーカにより実装され得る。したがって、示された例のインタフェース回路520は通常、グラフィックスドライバカード、グラフィックスドライバチップ、および/またはグラフィックスドライバプロセッサを含む。
また、示された例のインタフェース回路520は、ネットワーク526を介して外部機械(例えば、任意の種類のコンピューティングデバイス)とのデータ交換を容易にする、送信機、受信機、トランシーバ、モデム、レジデンシャルゲートウェイ、無線アクセスポイント、および/またはネットワークインタフェースなどの通信デバイスを含む。通信は、例えば、イーサネット(登録商標)接続、デジタル加入者線(DSL)接続、電話回線接続、同軸ケーブルシステム、衛星システム、ラインオブサイト無線システム、セルラ電話システムなどを介して行われ得る。
示された例のプロセッサプラットフォーム500は、ソフトウェアおよび/またはデータを格納するための1または複数の大容量ストレージデバイス528も含む。そのような大容量ストレージデバイス528の例は、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、ブルーレイディスクドライブ、独立ディスクの冗長アレイ(RAID)システム、およびデジタル多用途ディスク(DVD)ドライブを含む。
図3および4の機械実行可能命令532は、大容量ストレージデバイス528に、揮発性メモリ514に、不揮発性メモリ516に、および/または、CDまたはDVDなどのリムーバブル非一時的コンピュータ可読ストレージ媒体に格納され得る。
前述の事項から、ニューラルネットワークの畳み込み処理でOR状の構造を利用することによって画像および/またはビデオデータの3次元スキャン再構成を改善する例示的なシステム、方法、装置および製造物品が開示されたことが理解されよう。加えて、本明細書に開示された例は、時間がかかり、プロセッサ集約的であり、メモリ集約的である必要条件を回避して、同様の環境特性を示す対象領域のグラウンドトルースデータを取得する。例えば、サンフランシスコとシカゴとの両方は、それらのポストモダンの都市的特徴(例えば、反射面を有する超高層ビル)により、同様の環境特性を示すので、グラウンドトルースデータ取得作業は、これら2つの位置のうちの1つでのみ一度実行される必要がある。結果として得られるモデルは次に、同様の状況である他の位置で使用され得る。
本特許、2018年5月21日に出願された米国特許仮出願第62/674,462号からの優先権を主張しており、当該出願はその全体が参照により本明細書に組み込まれることを留意されたい。
畳み込みニューラルネットワークを使用してシーンを再構成する方法、装置、システムおよび製造物品が本明細書に開示される。そのさらなる例および組み合わせは、以下を含む。
例1は、シーン再構成のためのモデルを生成する装置であって、環境を表すグラウンドトルースデータを取得するセンサデータ取得器と、環境の環境特性を識別する環境検出器と、グラウンドトルースデータにノイズを適用してトレーニングセットを形成する合成データベースビルダと、トレーニングセットおよびグラウンドトルースデータを使用して機械学習モデルをトレーニングするモデルビルダと、機械学習モデルの各層に介在する残りのORゲート接続を含むように機械学習モデルを修正するモデル調整器とを備え、当該合成データベースビルダはさらに、環境の環境特性に関連して機械学習モデルを格納する、装置を含む。
例2は、環境特性に関連付けられる誤差特性を決定する環境特性評価器と、誤差特性に基づいてグラウンドトルースデータにノイズを適用する合成データベースビルダとをさらに含む、例1の装置を含む。
例3は、合成データベースビルダは、グラウンドトルースデータを複数のトレーニングセットに分割し、異なる量のノイズを複数のトレーニングセットのそれぞれに適用し、モデルビルダは、複数のトレーニングセットに基づいて機械学習モデルをトレーニングする、例1または2のいずれか1つの装置を含む。
例4は、モデルビルダは、ノイズ量が増加していくトレーニングセットを使用して機械学習モデルをトレーニングする、例3の装置を含む。
例5は、環境特性は、環境の光学反射率の量を含む、例1から4のいずれか1つの装置を含む。
例6は、機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、例1から5のいずれか1つの装置を含む。
例7は、環境特性は第1環境特性であって、センサデータ取得器はセンサデータにアクセスし、環境検出器はセンサデータにより表される環境の第2環境特性を識別する、装置であって、第1環境特性と一致する第2環境特性に基づいて機械学習モデルを選択するモデルセレクタと、選択された機械学習モデルを使用してセンサデータを処理し、シーンを作成するシーン再構成器とをさらに含む、例1から6のいずれか1つの装置を含む。
例8は、環境検出器は、センサデータに関連してアクセスされるメタデータに基づいて第2環境特性を識別する、例7の装置を含む。
例9は、機械学習モデルを格納する合成データストレージをさらに含む、例1から8のいずれか1つの装置を含む。
例10は、実行された場合、少なくとも1つのプロセッサに、環境を表すグラウンドトルースデータを取得することと、環境の環境特性を識別することと、グラウンドトルースデータにノイズを適用してトレーニングセットを形成することと、トレーニングセットおよびグラウンドトルースデータを使用して機械学習モデルをトレーニングすることと、機械学習モデルの各層に介在する残りのORゲート接続を含むように機械学習モデルを修正することと、環境の環境特性に関連して機械学習モデルを格納することとを少なくともさせる命令を備える、少なくとも1つの非一時的コンピュータ可読媒体を含む。
例11は、実行される場合、当該命令はさらに、少なくとも1つのプロセッサに、環境特性に関連付けられる誤差特性を決定させ、グラウンドトルースデータに適用されたノイズは、誤差特性に基づく、例10の少なくとも1つの非一時的コンピュータ可読媒体を含む。
例12は、実行される場合、命令はさらに、少なくとも1つのプロセッサに、グラウンドトルースデータを複数のトレーニングセットに分割することと、複数のトレーニングセットのそれぞれに異なる量のノイズを適用することと、複数のトレーニングセットに基づいて機械学習モデルをトレーニングすることとを実行させる、例10または11のいずれか1つの少なくとも1つの非一時的コンピュータ可読媒体を含む。
例13は、実行される場合、当該命令はさらに、少なくとも1つのプロセッサに、ノイズ量が増加していくトレーニングセットを使用して機械学習モデルをトレーニングさせる、例12の少なくとも1つの非一時的コンピュータ可読媒体を含む。
例14は、環境特性は、環境の光学反射率の量を含む、例10から14のいずれか1つの少なくとも1つの非一時的コンピュータ可読媒体を含む。
例15は、機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、例10から14のいずれか1つの少なくとも1つの非一時的コンピュータ可読媒体を含む。
例16は、環境特性は第1環境特性であって、命令はさらに、実行される場合、少なくとも1つのプロセッサに、 センサデータにアクセスすることと、センサデータにより表される環境の第2環境特性を識別することと、第1環境特性と一致する第2環境特性に基づいて機械学習モデルを選択することと、選択された機械学習モデルを使用してセンサデータを処理してシーンを再作成することとを実行させる、例10から15のいずれか1つの少なくとも1つの非一時的コンピュータ可読媒体を含む。
例17は、命令はさらに、実行される場合、少なくとも1つのプロセッサに、センサデータに関連してアクセスされるメタデータに基づいて第2環境特性を識別させる、例16の少なくとも1つの非一時的コンピュータ可読媒体を含む。
例18は、シーン再構成のためのモデルを生成する方法であって、環境を表すグラウンドトルースデータを取得する段階と、環境の環境特性を識別する段階と、グラウンドトルースデータにノイズを適用してトレーニングセットを形成する段階と、トレーニングセットおよびグラウンドトルースデータを使用して機械学習モデルをトレーニングする段階と、機械学習モデルの各層に介在する残りのORゲート接続を含むように機械学習モデルを修正する段階と、環境の環境特性に関連して機械学習モデルを格納する段階とを備える、方法を含む。
例19は、環境特性に関連付けられる誤差特性を決定する段階をさらに備え、グラウンドトルースデータに適用されたノイズは誤差特性に基づく、例18の方法を含む。
例20は、グラウンドトルースデータを複数のトレーニングセットに分割する段階をさらに備え、トレーニングセットにノイズを適用する上記段階は、それぞれのトレーニングセットに異なる量のノイズを適用する段階を含み、機械学習モデルをトレーニングする上記段階は、複数のトレーニングセットに基づいて実行される、例18から20のいずれか1つの方法を含む。
例21は、機械学習モデルをトレーニングする上記段階は、ノイズ量が増加していくトレーニングセットを使用して実行される、例20の方法を含む。
例22は、環境特性は、環境の光学反射率の量を含む、例18から22のいずれか1つの方法を含む。
例23は、機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、例18から23のいずれか1つの方法を含む。
例24は、環境特性は第1環境特性である方法であって、センサデータにアクセスする段階と、センサデータにより表される環境の第2環境特性を識別する段階と、第1環境特性と一致する第2環境特性に基づいて機械学習モデルを選択する段階と、選択された機械学習モデルを使用してセンサデータを処理し、シーンを再作成する段階とをさらに含む、例18から23のいずれか1つの方法を含む。
例25は、第2環境特性を識別する上記段階は、センサデータに関連してアクセスされるメタデータに基づく、例24の方法を含む。
例26は、シーンを再構成する装置であって、環境を表すグラウンドトルースデータを取得する手段と、環境の環境特性を識別する手段と、グラウンドトルースデータにノイズを適用してトレーニングセットを形成する手段と、トレーニングセットおよびグラウンドトルースデータを使用して機械学習モデルをトレーニングする手段と、機械学習モデルの各層に介在する残りのORゲート接続を含むように機械学習モデルを修正する手段と、環境の環境特性に関連して機械学習モデルを格納することを適用する手段とを備える、装置を含む。いくつかの例において、取得する手段は、例示的なセンサデータ取得器104により実装され得る。いくつかの例において、識別する手段は、例示的な環境検出器106により実装され得る。いくつかの例において、適用する例示的な手段は、例示的な合成データベースビルダ116により実装され得る。いくつかの例において、トレーニングする例示的な手段は、例示的なモデルビルダ110により実装され得る。いくつかの例において、修正する例示的な手段は、例示的なモデル調整器112により実装され得る。
例27は、環境特性に関連付けられる通常の誤差特性を決定する手段をさらに備え、ノイズを適用する上記手段は、誤差特性に基づいてグラウンドトルースデータにノイズを適用することである、例26の装置を含む。いくつかの例において、決定する手段は、環境特性評価器114により実装され得る。
例28は、適用する手段はグラウンドトルースデータを複数のトレーニングセットに分割することであって、適用する手段はそれぞれのトレーニングセットに異なる量のノイズを適用することであって、トレーニングする手段は複数のトレーニングセットに基づいてトレーニングを実行することである、例26または27のいずれか1つの装置を含む。
例29は、トレーニングする手段は、適用されるノイズ量が増加していくトレーニングセットを使用して機械学習モデルをトレーニングする、例28の装置を含む。
例30は、環境特性は、環境において予想される光学反射率の量を含む、例26から29のいずれか1つの装置を含む。
例31は、機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、例26から30のいずれか1つの装置を含む。
例32は、環境特性は第1環境特性である装置であって、センサデータにアクセスする手段と、センサデータにより表される環境の第2環境特性を識別する手段と、第1環境特性と一致する第2環境特性に基づいて機械学習モデルを選択する手段と、選択された機械学習モデルを使用してセンサデータを処理し、シーンを再作成する手段とをさらに備える、例26から31のいずれか1つの装置を含む。
例33は、識別する上記手段は、センサデータに関連してアクセスされるメタデータに基づいて第2環境特性を識別することである、例32の装置を含む。特定の例示的な方法、装置および製造物品が本明細書において開示されているが、本特許の網羅する範囲はこれらに限定されない。これに対して、本特許は、本特許の請求項の範囲に公正に含まれる全ての方法、装置および製造物品を網羅する。

Claims (22)

  1. シーン再構成のためのモデルを生成する装置であって、前記装置は、
    環境を表すグラウンドトルースデータを取得するセンサデータ取得器と、
    前記環境の環境特性を識別する環境検出器と、
    前記環境特性に関連付けられる誤差特性を決定する環境特性評価器と、
    前記誤差特性に基づいて前記グラウンドトルースデータにノイズを適用してトレーニングセットを形成する合成データベースビルダと、
    前記トレーニングセットおよび前記グラウンドトルースデータを使用して機械学習モデルをトレーニングするモデルビルダと、
    前記機械学習モデルの各層に介在する残りのORゲート接続を含むように前記機械学習モデルを修正するモデル調整器と
    を備え、
    前記合成データベースビルダはさらに、前記環境の前記環境特性に関連して前記機械学習モデルを格納する、
    装置。
  2. 前記合成データベースビルダは、前記グラウンドトルースデータを複数のトレーニングセットに分割し、異なる量のノイズをそれぞれのトレーニングセットに適用し、前記モデルビルダは、前記複数のトレーニングセットに基づいて前記機械学習モデルをトレーニングする、請求項1に記載の装置。
  3. 前記モデルビルダは、ノイズ量が増加していくトレーニングセットを使用して前記機械学習モデルをトレーニングする、請求項に記載の装置。
  4. 前記環境特性は、前記環境の光学反射率の量を含む、請求項1からのいずれか一項に記載の装置。
  5. 前記機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、請求項1からのいずれか一項に記載の装置。
  6. 前記環境特性は第1環境特性であって、前記センサデータ取得器はセンサデータにアクセスし、前記環境検出器は前記センサデータにより表される環境の第2環境特性を識別する、装置であって、
    前記第1環境特性と一致する前記第2環境特性に基づいて前記機械学習モデルを選択するモデルセレクタと、選択された前記機械学習モデルを使用して前記センサデータを処理し、シーンを作成するシーン再構成器と
    をさらに備える、請求項1からのいずれか一項に記載の装置。
  7. 前記環境検出器は、前記センサデータに関連してアクセスされるメタデータに基づいて前記第2環境特性を識別する、請求項に記載の装置。
  8. 前記機械学習モデルを格納する合成データストレージをさらに備える、請求項1からのいずれか一項に記載の装置。
  9. 少なくとも1つのプロセッサに、
    環境を表すグラウンドトルースデータを取得することと、
    前記環境の環境特性を識別することと、
    前記環境特性に関連付けられる誤差特性を決定することと、
    前記グラウンドトルースデータに、前記誤差特性に基づくノイズを適用してトレーニングセットを形成することと、
    前記トレーニングセットおよび前記グラウンドトルースデータを使用して機械学習モデルをトレーニングすることと、
    前記機械学習モデルの各層に介在する残りのORゲート接続を含むように前記機械学習モデルを修正することと、
    前記環境の前記環境特性に関連して前記機械学習モデルを格納することと
    を少なくとも実行させる、プログラム。
  10. 前記プログラムはさらに、前記少なくとも1つのプロセッサに、前記グラウンドトルースデータを複数のトレーニングセットに分割することと、前記複数のトレーニングセットのそれぞれに異なる量のノイズを適用することと、前記複数のトレーニングセットに基づいて前記機械学習モデルをトレーニングすることとを実行させる、請求項に記載のプログラム。
  11. 前記プログラムはさらに、前記少なくとも1つのプロセッサに、ノイズ量が増加していくトレーニングセットを使用して前記機械学習モデルをトレーニングさせる、請求項10に記載のプログラム。
  12. 前記環境特性は、前記環境の光学反射率の量を含む、請求項から11のいずれか一項に記載のプログラム。
  13. 前記機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、請求項から12のいずれか一項に記載のプログラム。
  14. 前記環境特性は第1環境特性であり、前記プログラムはさらに、前記少なくとも1つのプロセッサに、
    センサデータにアクセスすることと、
    前記センサデータにより表される環境の第2環境特性を識別することと、
    前記第1環境特性と一致する前記第2環境特性に基づいて前記機械学習モデルを選択することと、
    選択された前記機械学習モデルを使用して前記センサデータを処理してシーンを再作成することと
    を実行させる、請求項から13のいずれか一項に記載のプログラム。
  15. 前記プログラムはさらに、前記少なくとも1つのプロセッサに、前記センサデータに関連してアクセスされるメタデータに基づいて前記第2環境特性を識別させる、請求項14に記載のプログラム。
  16. シーン再構成のためのモデルを生成する方法であって、前記方法は、
    環境を表すグラウンドトルースデータを取得する段階と、
    前記環境の環境特性を識別する段階と、
    前記環境特性に関連付けられる誤差特性を決定する段階と、
    前記グラウンドトルースデータに、前記誤差特性に基づくノイズを適用してトレーニングセットを形成する段階と、
    前記トレーニングセットおよび前記グラウンドトルースデータを使用して機械学習モデルをトレーニングする段階と、
    前記機械学習モデルの各層に介在する残りのORゲート接続を含むように前記機械学習モデルを修正する段階と、
    前記環境の前記環境特性に関連して前記機械学習モデルを格納する段階と
    を備える、方法。
  17. 前記グラウンドトルースデータを複数のトレーニングセットに分割する段階をさらに備え、前記トレーニングセットに前記ノイズを適用する前記段階は、それぞれの前記トレーニングセットに異なる量のノイズを適用する段階を含み、前記機械学習モデルをトレーニングする前記段階は、前記複数のトレーニングセットに基づいて実行される、請求項16に記載の方法。
  18. 前記機械学習モデルをトレーニングする前記段階は、ノイズ量が増加していくトレーニングセットを使用して実行される、請求項17に記載の方法。
  19. 前記環境特性は、前記環境の光学反射率の量を含む、請求項16から18のいずれか一項に記載の方法。
  20. 前記機械学習モデルは、畳み込みニューラルネットワーク(CNN)を使用して実装される、請求項16から19のいずれか一項に記載の方法。
  21. 前記環境特性は第1環境特性である方法であって、
    センサデータにアクセスする段階と、
    前記センサデータにより表される環境の第2環境特性を識別する段階と、
    前記第1環境特性と一致する前記第2環境特性に基づいて前記機械学習モデルを選択する段階と、
    選択された前記機械学習モデルを使用して前記センサデータを処理し、シーンを再作成する段階と
    をさらに備える、請求項16から20のいずれか一項に記載の方法。
  22. シーンを再構成するモデルを生成する装置であって、前記装置は、
    環境を表すグラウンドトルースデータを取得する手段と、
    前記環境の環境特性を識別する手段と、
    前記環境特性に関連付けられる誤差特性を決定する手段と、
    前記グラウンドトルースデータに、前記誤差特性に基づくノイズを適用してトレーニングセットを形成する手段と、
    前記トレーニングセットおよび前記グラウンドトルースデータを使用して機械学習モデルをトレーニングする手段と、
    前記機械学習モデルの各層に介在する残りのORゲート接続を含むように前記機械学習モデルを修正する手段と、
    前記環境の前記環境特性に関連して前記機械学習モデルを格納することを適用する手段と
    を備える、装置。
JP2020564387A 2018-05-21 2019-05-20 畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置 Active JP7414367B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862674462P 2018-05-21 2018-05-21
US62/674,462 2018-05-21
PCT/EP2019/063006 WO2019224164A1 (en) 2018-05-21 2019-05-20 Methods, systems, articles of manufacture and apparatus to reconstruct scenes using convolutional neural networks

Publications (2)

Publication Number Publication Date
JP2021524968A JP2021524968A (ja) 2021-09-16
JP7414367B2 true JP7414367B2 (ja) 2024-01-16

Family

ID=66668890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564387A Active JP7414367B2 (ja) 2018-05-21 2019-05-20 畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置

Country Status (6)

Country Link
US (1) US12026224B2 (ja)
EP (1) EP3797381A1 (ja)
JP (1) JP7414367B2 (ja)
CN (1) CN112204574A (ja)
DE (1) DE112019002622T5 (ja)
WO (1) WO2019224164A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127233A1 (en) * 2017-12-28 2019-07-04 Intel Corporation Methods and apparatus to simulate sensor data
EP3797381A1 (en) 2018-05-21 2021-03-31 Movidius Ltd. Methods, systems, articles of manufacture and apparatus to reconstruct scenes using convolutional neural networks
US11142194B1 (en) * 2020-03-24 2021-10-12 Kiomars Anvari Use of IoT network and IoT ranging device for an object control system
US11689868B2 (en) * 2021-04-26 2023-06-27 Mun Hoong Leong Machine learning based hearing assistance system
JP2023046542A (ja) * 2021-09-24 2023-04-05 株式会社Jvcケンウッド 物体認識装置、物体認識方法および物体認識プログラム
CN115204387B (zh) * 2022-07-21 2023-10-03 法奥意威(苏州)机器人系统有限公司 分层目标条件下的学习方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242803A (ja) 2004-02-27 2005-09-08 Mitsubishi Heavy Ind Ltd 機械の性能推定器、性能推定方法及び性能推定プログラム
US20170011738A1 (en) 2015-07-09 2017-01-12 Google Inc. Generating acoustic models

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014070273A1 (en) * 2012-11-02 2014-05-08 Board Of Regents, The University Of Texas System Recursive conditional means image denoising
US9857470B2 (en) * 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US11841920B1 (en) * 2016-02-17 2023-12-12 Ultrahaptics IP Two Limited Machine learning based gesture recognition
EP3430526A4 (en) * 2016-03-18 2020-02-26 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR TRAINING A LEARNING MACHINE
US10592805B2 (en) * 2016-08-26 2020-03-17 Ford Global Technologies, Llc Physics modeling for radar and ultrasonic sensors
KR102458807B1 (ko) 2016-11-04 2022-10-25 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
CN107464227A (zh) * 2017-08-24 2017-12-12 深圳市唯特视科技有限公司 一种基于深度神经网络进行去除反射和平滑图像的方法
US10839260B1 (en) * 2017-11-21 2020-11-17 Amazon Technologies, Inc. Consistent distributed edge models via controlled dropout model training
US10275689B1 (en) * 2017-12-21 2019-04-30 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers
US10825132B2 (en) * 2018-02-20 2020-11-03 Element Ai Inc. Training method for convolutional neural networks for use in artistic style transfers for video
EP3797381A1 (en) 2018-05-21 2021-03-31 Movidius Ltd. Methods, systems, articles of manufacture and apparatus to reconstruct scenes using convolutional neural networks
US10867201B2 (en) * 2019-01-15 2020-12-15 Waymo Llc Detecting sensor occlusion with compressed image data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242803A (ja) 2004-02-27 2005-09-08 Mitsubishi Heavy Ind Ltd 機械の性能推定器、性能推定方法及び性能推定プログラム
US20170011738A1 (en) 2015-07-09 2017-01-12 Google Inc. Generating acoustic models

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Alessandro PALLA et al.,"Fully convolutional denoising autoencoder for 3D scene reconstruction from a single depth image",2017 4th International Conference on Systems and Informatics (ICSAI),2017年11月,DOI: 10.1109/ICSAI.2017.8248355
L. HOLMSTROM et al.,"Using additive noise in back-propagation training",IEEE Transactions on Neural Networks,1992年,Vol. 3, No. 1,p.24-38,DOI: 10.1109/72.105415
大山 芽依ほか,"着衣人物の単一深度画像からの体型推定",電子情報通信学会技術研究報告 = IEICE technical report : 信学技報,2018年01月,第117巻, 第392号,p.189-194

Also Published As

Publication number Publication date
US20210073640A1 (en) 2021-03-11
EP3797381A1 (en) 2021-03-31
WO2019224164A1 (en) 2019-11-28
CN112204574A (zh) 2021-01-08
US12026224B2 (en) 2024-07-02
DE112019002622T5 (de) 2021-04-01
JP2021524968A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7414367B2 (ja) 畳み込みニューラルネットワークを使用するシーンを再構成する方法、システム、製造物品、および装置
US11680803B2 (en) Rendering operations using sparse volumetric data
EP3827411B1 (en) Conditional modification of augmented reality object
CN110166757B (zh) 用计算机实现的压缩数据的方法、系统、存储介质
US11586473B2 (en) Methods and apparatus for allocating a workload to an accelerator using machine learning
CN111902807B (zh) 生成硬件兼容压缩纹理的方法、计算机设备和介质
US11620537B2 (en) Optimizing gradient boosting feature selection
EP4053718A1 (en) Watermark information embedding method and apparatus
US20220239844A1 (en) Neural 3D Video Synthesis
GB2524287A (en) Graphics processing systems
CN113826029A (zh) 点云编解码中对复制点和孤立点进行编码的方法
JP2023501640A (ja) 点群処理の方法、コンピュータシステム、プログラム及びコンピュータ可読記憶媒体
US20200196007A1 (en) Display apparatus and control method thereof
US20230360272A1 (en) Multi-plane image compression
US10049487B2 (en) Identifying duplicate indices in an input index stream
US11138799B1 (en) Rendering virtual environments using container effects
KR102638038B1 (ko) 비지역적 평균 기반의 노이즈 제거 장치 및 방법
US11719796B2 (en) System and method for ultrasonic signal noise removal using a deep neural network
US20200218941A1 (en) Methods and apparatus to simulate sensor data
US10321164B2 (en) System and method for improving graphics and other signal results through signal transformation and application of dithering
WO2023278133A1 (en) Environment model with surfaces and per-surface volumes
US9449423B2 (en) Apparatus and method for image processing
US11977672B2 (en) Distributed pose prediction
CN109102480B (zh) 一种适用于分布式架构的Gram-Schmidt融合方法
CN112017292A (zh) 网格译码方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231225

R150 Certificate of patent or registration of utility model

Ref document number: 7414367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150