JP7383870B2

JP7383870B2 - デバイス、方法、システムおよびコンピュータプログラム

Info

Publication number: JP7383870B2
Application number: JP2021567061A
Authority: JP
Inventors: スタイン、ギデオン; ブルーメンソール、アイテイ; シャーグ、ナダブ; モスコウィッツ、ジェフリー; カルレバッハ、ナタリー
Original assignee: モービルアイビジョンテクノロジーズリミテッド
Priority date: 2019-05-30
Filing date: 2020-05-29
Publication date: 2023-11-21
Anticipated expiration: 2040-05-29
Also published as: WO2020240284A3; CN114144809A; US11803981B2; US20220237866A1; JP2022534556A; DE112020002697T5; WO2020240284A2

Description

本特許出願は、米国特許法第１１９条のもと、「ＶＥＨＩＣＬＥＥＮＶＩＲＯＮＭＥＮＴＭＯＤＥＬＩＮＧＷＩＴＨＣＡＭＥＲＡＳ」と題された、２０１９年５月３０日に提出された米国仮出願第６２／８５４，８１８号の優先権の利益を主張するものであり、参照によりその全体が本明細書に組み込まれる。

本明細書に記載の実施形態は、概して、コンピュータビジョン技術に関し、より詳細には、カメラを使用した車両環境のモデル化に関する。

しばしば自動車の「自動走行」または「支援走行」動作と呼ばれる自律または半自律の自動車技術は、商用車両および民生車両で急速に開発および配備されている。これらのシステムは、センサのアレイを使用して、車両の動きおよび周囲を継続的に監視する。様々なセンサ技術を使用して、路面および境界、他の車両、歩行者、物体および危険物、標識および道路マーク、およびその他の関連項目など、車両の周囲を監視し得る。

１つまたは複数のカメラで実装された撮像センサは、物体の検出および認識、ならびに標識および道路マークの読み取りに特に有用である。カメラベースのシステムは、道路の垂直輪郭、レーンマーク、および縁石などの３次元構造の測定、および物体または危険物の検出に適用される。実用的なセンサシステムは、様々な天候条件および道路条件で確実に動作することが期待される。これらの期待は、入力を処理する際に無数の課題をもたらす傾向がある。夜間の影または光からの入力ノイズは、路面の検出を妨げ得る。濡れた道路またはその他の反射面は、しばしば路面モデルとは逆の見かけ上の動きをもたらす。さらに、自律走行または支援走行を可能にするために路面をモデル化しながら危険物を高速（例えば、リアルタイム）で検出する必要性は、これらの路面検出の困難さを考えるとハードウェアに負担をかけるものである。

必ずしも一定の縮尺で描かれているわけではない図面では、類似数字が異なる図中の類似構成要素を説明し得る。異なる文字の接尾辞を有する類似数字は、類似構成要素の異なる事例を表し得る。いくつかの実施形態は、限定ではなく例示として、添付の図面の図に示される。

車両環境の一実施例のブロック図である。

一実施形態による、画像センサを使用した車両環境のモデル化のためのシステムの一実施例のブロック図である。

一実施形態による、現在の画像および以前の画像を示す。

一実施形態による、路面のガンマモデルを生成するためのニューラルネットワークの例を示す。

一実施形態による、機械学習（ＭＬ）ベースの垂直輪郭エンジンの例示的なディープニューラルネットワーク（ＤＮＮ）を示す。

一実施形態による、ＤＮＮの例示的なアーキテクチャを詳述する表である。

一実施形態による、ＤＮＮのより複雑なアーキテクチャ例の詳細を示す表である。一実施形態による、ＤＮＮのより複雑なアーキテクチャ例の詳細を示す表である。

一実施形態による、ＤＮＮトレーニングシステムの例を示す。

一実施形態による、複数のモーダル損失関数適用エンジンの例を示す。

一実施形態による、ニューラルネットワークをトレーニングするための方法の例を示すフロー図である。

本明細書に記載の単眼カメラおよびサラウンドカメラを介してトレーニングされた２つのニューラルネットワークからの異なる出力を示す。

一実施形態による、垂直輪郭検出エンジンを動作させるための方法の例を示すフロー図である。

一実施形態による、自律車両制御システムで使用するための、道路をプロファイリングするためのカメラベースの車両搭載システムを示す。

一実施形態による、車両上の複数のカメラアレイを示す。

一実施形態による、複数のカメラアレイによって撮像され得る視野の例を示す。

一実施形態による、垂直輪郭検出エンジンの例を示すブロック図である。

一実施形態による、プリプロセッサエンジンの例を示す。

一実施形態による、カメラを使用した車両環境のモデル化のための方法の例のフロー図を示す。

１つまたは複数の実施形態を実施し得るマシンの例を示すブロック図である。

一実施形態によるコンピューティングデバイスの例示的なハードウェアおよびソフトウェアアーキテクチャを示す図である。

一実施形態に従って使用され得る処理デバイスを示すブロック図である。

一実施形態による、中央処理装置の例示的な構成要素を示すブロック図である。

様々な車両環境のモデル化技術が、様々なセンサ構成で使用され得る。カメラ（例えば、視覚光スペクトル、赤外線（ＩＲ）など）を使用する場合、センサはピクセルで構成される画像を生成する。色または輝度など、ピクセルの様々な態様がモデル化に使用され得る。一般に、動的な環境をモデル化するには、画像のシーケンスが使用される。このタイプのモデル化は、連続画像間のピクセルの動きを追跡して、車両がどのように移動しているか、他の車両がどのように移動しているか、物体（例えば、人、動物、ボールなど）がどのように移動しているか、道路内の障害物など、環境の態様を推測する。

画像を正規化された状態に変換（例えば、カメラのレンズの歪みを補正するため）し、画像間でピクセルを順次位置合わせし（例えば、ホモグラフィを介して前の画像をワーピングして後の画像とほぼ一致させる）、残りのピクセル運動（例えば、残留運動）を測定する反復プロセスを使用して、環境をモデル化し得る。

しかし、直接ピクセルマッチングを使用するにはいくつかの問題がある。例えば、影または反射部分（例えば、水たまり）など、路面に投影され得る多くのものは、路面を表していない。このノイズを低減するためにフィルタリング技術が使用され得るが、より良い解決策には、画像のシーケンスから直接ガンマを計算するようにトレーニングされた人工知能（例えば、機械学習システム、人工ニューラルネットワーク（ＡＮＮ）、ディープＡＮＮ（ＤＮＮ）、畳み込みＡＮＮ（ＣＮＮ）など）が含まれる。これには、路面撮像での一般的なノイズの問題に対する強力な解決策が必要である。さらに、そのようなシステムはまた、センサの動きまたはエピポール情報を受け入れて、そのガンマ結果をさらに向上させ得る。ガンマから、道路平面の上のピクセルの高さとそのピクセルまでの距離を決定し得る。

路面のモデル化は、例えば、ポットホールを回避したり、スピードバンプのためにサスペンションを調整したりするのに有用であり得る。センサデータから直接（例えば、ＡＮＮによって）ガンマを決定することは、エピポーラ拘束を強制するため、２次元（２Ｄ）光学フローを使用して残留フローを確認したり、ＡＮＮを使用して平面の上の高さおよびセンサまでの距離を決定したりするなどの他の技術よりも優れ得る。さらに、１つのガンマを使用して、その点のすべての画像を位置合わせ（例えば、ワープ）し得る。

ＡＮＮは、点の深度または高さを直接決定するようにトレーニングし得るが、ガンマにはいくつかの利点がある。例えば、平面からの高さの著しい変化により、カメラからの深度に相対的な変化がわずかに生じ得るため、ガンマ計算は深度よりも安定している。また、Ｈおよび基準面が与えられると、深度Ｚを計算してから残留フローを計算することは可能であるが、これにより、ＡＮＮが同じ結果を得るためにより多くのデータを処理するため、複雑さが増大する。これは、平面モデルで画像をプリワープし、入力として自己運動（ＥＭ）（例えば、センサまたはエピポール
および
などの車両の動き）を提供する理由でもある。

一実施例では、ネットワークは、同様の技術を使用して、ガンマの代わりにＺまたはＨを計算するようにトレーニングされ得る。この例では、ホモグラフィ平面入力パラメータをＡＮＮに提供し得る。例えば、平面は、地平線（例えば、平面の消失線）および平面までの距離として定義され得る。線は一対の距離画像として提供され得て、平面までの距離は一定の画像として提供され得る。これは、エピポールおよび
が上記の入力として提供される方法と似ている。一実施例では、入力画像は、回転のみを考慮して（例えば、無限遠平面を使用したホモグラフィを使用して）位置合わせされ、Ｚを計算する。

一実施例では、画像全体のガンマを計算し、次いで、特定の経路に沿ったガンマのみを使用する代わりに（例えば、サスペンション制御のために）、指定された経路に沿ってのみガンマを生成するようにＡＮＮをトレーニングし得る。これは、例えば、出力がサスペンション制御などの車両タイヤに適用可能なものにのみ使用される場合、逆畳み込み演算は計算コストが高くなり得るため、計算効率がより高くなり得る。経路判定（例えば、経路に対してのみガンマを生成する）は、いくつかの方法で実施し得る。例えば、経路はＡＮＮの推論段階で入力として与えられ得て、ＡＮＮは経路に沿って値のみを出力するようにトレーニングされる。一実施例では、完全なＡＮＮは、上記で説明したようにガンマを生成するようにトレーニングされ得る。推論中に、経路が与えられると、経路の拡張段階でどの（逆）畳み込みが必要かが決定され、それらのみが適用される。例えば、出力の行全体のガンマ値を決定するには、行全体に沿った畳み込みが必要である。ただし、出力行のセグメントに対してのみ、逆畳み込みはセグメントに対応する特定の範囲でのみ実行する必要がある。

さらに、異なる方法でトレーニングされた同様の構造化されたＡＮＮはまた、物体を移動または非移動として分類し得る。移動／非移動の分類は、例えば、事故回避動作をより適切に選択するためのホスト車両の能力を向上させるために使用され得る。この場合も、入力画像を直接使用して、特徴の残留運動を識別し、結果を決定する。

本明細書に記載の様々な実施形態では、ニューラルネットワークを使用して、道路シーン内の物体を検出するか、または環境のモデルを生成し得る。一実施形態は、一連の画像から路面の多次元表現（例えば、ガンマ画像）を生成するようにニューラルネットワークをトレーニングすることを含む。画像は、車両内の１つまたは複数のカメラによって生成され得る。他の実施形態は、複数の車両によって取得された画像からニューラルネットワークをトレーニングし得る。トレーニング技術の１つの態様は、グラウンドトゥルースを計算してニューラルネットワークの出力と比較し、次の出力が前回の出力よりも正確になるようにニューラルネットワークを調整する方法を確認する能力である。

多種多様なトレーニングデータは、ニューラルネットワークの開発に役立つ。道路上の自律車両または半自律車両からトレーニングデータを取得することが最も効率的であり得る。ただし、トレーニングデータは不確実な環境で動作する車両から取得されるため、任意の所与のトレーニング画像の環境のグラウンドトゥルースを確認することは困難であり得る。

トレーニングの例の一実施例では、異なる時間に撮像された同じカメラからの複数の画像を使用して、ニューラルネットワークをトレーニングする。その後、車両が移動するときのカメラの動きは、トレーニングされたニューラルネットワークが環境の３次元（３Ｄ）モデルを生成するために使用する様々な視点（例えば、情報）を提供する。

発生し得る問題には、他の車両などのシーン内で移動する物体が含まれる。固定された物体は、カメラの視点がシーン内を移動するにつれて、予測可能な方法で変化する傾向がある。例えば、街灯柱などの垂直の物体の場合、ポールの下部は路面とともに移動するが、ポールの上部は、カメラが近づくと、路面よりも速く移動するように見え得る。対照的に、移動物体は通常、固定物体と同じように画像間で変化しない。例えば、カメラをホストしている車両と同じ速度および方向で走行している車両は、連続する各画像で同じサイズに見え得る。

移動物体と固定物体との間の応答の違いは、環境モデルの精度に影響を与え得るニューラルネットワークトレーニングのアーチファクトにつながり得る。これに対抗する技術は、移動物体を識別し、次いで、トレーニング画像でそれらを無視（例えば、マスキング）して、トレーニングへの影響を低減することを含む。これは、画像内に表されている環境の固定（例えば、静止している、移動していない）領域の出力のみに基づいて、ネットワークに罰を与えたり、報酬を与えたりすることに似ている。しかし、このマスキングにより、いくつかの問題が発生し得る。例えば、結果は一般に、移動物体に関する有用な３Ｄ情報を有さない。また、穴が存在しない移動物体の近傍の穴（例えば、くぼみ）を予測するなど、異なるアーチファクトが出力に現れ得る。さらに、問題の移動物体はカメラの前方の車両であることが多いため、ネットワークは、物体が移動しているか固定されているかに関係なく、カメラの真正面にある物体を消去（例えば、無視）するように意図せずトレーニングされ得る。

これに対処するために、重なり合う視野（ＦＯＢ）を有する車両の複数のカメラを使用してニューラルネットワークをトレーニングし得る。一実施例では、ネットワークのトレーニングに使用される複数の画像フレームは、１台のカメラから複数の時点で撮影するのではなく、複数のカメラからある時点で撮影し得る。異なる視点が同時に撮像されるため、移動物体と固定物体との間の区別はなくなる。むしろ、様々な視点を使用して、シーン内のすべての物体の３Ｄ特性をモデル化し、ニューラルネットワークのトレーニングに使用されるグラウンドトゥルースを提供し得る。追加の詳細を以下に示す。

図１は、車両環境の一実施例のブロック図である。図示のように、視野１００は、くぼみ１０４Ａ（例えば、ポットホール、格子、くぼみなど）または突起１０４Ｂ（例えば、スピードバンプ、縁石、破片など）などの１つまたは複数の表面特徴１０４を有し得る路面１０２を含む。視野１００はまた、影１０６、反射面１０８（例えば、水たまり、氷など）、歩行者１１０、または別の車両１１２を含み得る。表面特徴１０４をモデル化することにより、車両が表面特徴を回避したり、運転者に警告したり、または表面特徴をよりよく処理するように車両自体を調整する（例えば、車両サスペンションを調整してポットホール１０４Ａを横断する）ことを可能にし得る。移動中の、または移動する可能性のある歩行者１１０または車両１１２を理解およびモデル化することにより、同様に、車両制御の変更または運転者への警告を可能にして、それらとの衝突を回避したり、速度を落としたり、走行経路を調整したり、停止することなどによって、それらとの望ましくない相互作用（例えば、水たまり１０８を通って走行することによって歩行者１１０に水をはねかける）を回避または軽減し得る。

道路のモデル化のこれらの要素はそれぞれ、本明細書に記載されているデバイスおよび技術によって対処される課題を提示し得る。例えば、影１０６は、路面点追跡のためのノイズである。水たまり１０８からの反射は、基礎となる路面を不明瞭にして点追跡を損なうだけでなく、実際には、他の場所でのピクセル運動とはしばしば逆になる画像間のピクセル運動を示す。例えば、水たまり（１０ｍ離れた道路上）に映った建物（５０ｍ離れた場所）の画像の動きは、建物までの距離にある物体の見かけの動きになる。これは、この場合では深さ約６ｍの道路の穴と誤解される可能性がある。

図２は、一実施形態による、画像センサ２０２を使用した車両環境のモデル化のためのシステム２０８の一実施例のブロック図である。システム２０８は、車両２０４に貼り付けられている。一実施例では、システム２０８は、画像センサ２０２、または他のセンサと統合される。一実施例では、システム２０８は、画像センサ２０２、または他のセンサ（例えば、車両２０４のインフォテインメントシステムの一部）から分離される。ここでは、画像センサ２０２は、例として、フロントガラス（車両側の内部）に取り付けられた前向きカメラとして示される。ただし、本明細書で説明する技術は、車両の内側または外側に取り付けられた背面カメラまたは側面カメラにも同様に適用される。そのような例の１つは、屋根のコーナーに外付けされたカメラであり、視野が前方にあり、少し側方を向いている。複数の画像センサ２０２を使用して、車両２０４の周りの画像または動画映像を撮像し得る。画像センサ２０２は、右前方の位置、左前方の位置、中央のフロントガラスの位置、屋根の位置、後部の窓の位置など、車両２０４の様々な部分に取り付けまたは貼り付けられ得る。いくつかの画像センサ２０２の視野は重なり合い得る。

システム２０８は、画像センサ２０２から取得された画像を介して車両環境のモデル化を実行するための処理回路を含む。車両環境のモデル化は、路面２０６、傷害物、遮断物、および移動体（例えば、他の車両、歩行者、動物など）のモデル化を含み得る。これらのモデルは、車両２０４の動作パラメータを調整するために、システム２０８によって直接、または別の管理システムを介して使用され得る。モデル化を実行するために、システム２０８は、路面２０６を表す画像の時間順シーケンスを取得するように構成される。画像のシーケンスのうちの１つは、現在の画像（例えば、カメラ２０２によって撮影された最後の画像）である。

システム２０８は、人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供して、ガンマ画像を生成するように構成される。ここで、ガンマ画像のピクセルは点のガンマ値である。他の部分で述べているように、ガンマ値は、現在の画像を撮像するセンサからの距離に対する平面上の点の高さの比である。また、ここでは、平面が路面２０６を表す。あるいは、システムは、距離（Ｚ）、逆距離（１／Ｚ）、または道路Ｈからの高さなど、構造の他の記述を出力し得る。ガンマを使用する利点は、カメラの焦点距離などの要因に対して正規化され、より直接的に画像の動き信号に関連することである。したがって、あるカメラからのデータでトレーニングされたＤＮＮを使用して、異なるカメラ構成からの画像を分析できる。

本明細書では「ガンマ画像」が使用されているが、シーン内のガンマを表すために他のデータ形式を使用し得る。したがって、ガンマはラスタ形式でなくてもよく、センサデータを介してガンマ値を表面に相関させることができる任意の形式（例えば、値から点へのガンママップ）であってもよい。これらの様々なデータ構造は、ガンマモデルと総称され得る。

一実施例では、データセットは、画像のシーケンスの一部を含む。ここで、画像のシーケンスの一部は、現在の画像を含む。データセットはまた、画像センサ２０２の動き（例えば、センサの動きの情報を示す）およびエピポール（例えば、エピポール情報）を含む。一実施例では、画像のシーケンスの一部は、現在の画像の直前の画像を含む。一実施例では、画像のシーケンスの一部は合計で３つの画像である。一実施例では、シーケンスは、任意のｎ個の画像を含み得て、ここで、ｎは、１より大きい整数である（すなわち、
）。一実施例では、シーケンス内の画像は、連続して撮像された画像であり得る。一実施例では、元のフレームのシーケンスからのいくつかのフレームは、データセットで使用される画像のシーケンスを生成するプロセスで省略され得る。

一実施例では、エピポールは、現在の画像と同じ次元（おそらく、より高いまたはより低い解像度ではあるが）を有する勾配画像として提供される。ここで、勾配画像のピクセルの値は、現在の画像のピクセルのエピポールからの距離を表す。一実施例では、勾配画像は、エピポールからの水平（例えば、ｘ軸）距離のみを表し、第２の勾配画像は、エピポールからの垂直（例えば、ｙ軸）距離を表すために、ＡＮＮに提供される。

一実施例では、画像センサ２０２の動きは、現在の画像と同じ次元（おそらく、より高いまたはより低い解像度ではあるが）を有する一定値の画像として提供される。一実施例では、一定値は、平面２０６からのセンサ２０２の高さに対する画像センサ２０２の前方の動き（例えば、ｚ軸）の比である。

一実施例では、ＡＮＮは畳み込みニューラルネットワーク（ＣＮＮ）である。一実施例では、画像センサ２０２およびエピポールの動きは、ボトルネック層でＣＮＮに提供される（例えば、図５に関する以下の説明を参照）。

一実施例では、ＡＮＮは、ある位置の予測ガンマとその位置での画像センサ２０２の動き（すなわち、実際の動き）との間の差を測定することによって誤差が決定される教師なしトレーニング技術でトレーニングされる。したがって、ガンマが予測され、画像センサ２０２または車両２０４の自己運動を使用して、ガンマ推論が正しかったか否か（または、推論がどれほど間違っていたか）を判定する。この例では、ＡＮＮが路面２０６のくぼみを予測し、そのようなくぼみが後で車両によって検出されない場合、トレーニングはくぼみを予測した推論を修正する。一実施例では、センサの動きは、平面に垂直なピッチ、ヨー、ロール、または並進のうちの１つまたは複数を含み得る。

システム２０８は、ガンマ画像を使用して路面２０６をモデル化するように構成される。一実施例では、路面のモデル化は、路面特徴の平面からの垂直偏差の計算を含む。一実施例では、路面のモデル化は、画像のシーケンス内の特徴の残留運動の計算を含む。ここで、特徴の残留運動は、ガンマ値、画像センサ２０２の動き、およびエピポールの積である。

一実施例では、路面のモデル化は、ガンマ値を使用して以前の画像を現在の画像にワープすることを含む。画像内のそれらの特徴のピクセルの時として一時的な色の変化または複雑な色の変化を一致させるように試行するのではなく、ガンマによって、センサ２０２からの距離および路面２０６からの高さに基づいて特徴を画像間で一致させることが可能になるため、ガンマベースのワーピングは特に正確である。

図３は、一実施形態による、現在の画像３０４および以前の画像３０２を示す。２本の線３０６および３０８は、現在の画像３０４において、それぞれ、タイヤの下部およびスピードバンプの上部に配置される。線３０６が以前の画像３０２のタイヤとどのように位置合わせされているかに留意されたい。線からの両端矢印は、縁石３１０の静止端に対する線の動きを示す。同様に、線３０８は、スピードバンプ３１２の上部が以前の画像３０２と現在の画像３０４との間で移動したことを示す。画像３０２が画像３０４にワープされると、画像の静止特徴は一致するが、車両の下部は移動する。

図４は、一実施形態による、路面のガンマモデル４１４を生成するためのニューラルネットワーク４１２の例を示す。図５～図１０は、ニューラルネットワーク４１２のようなニューラルネットワークのいくつかの追加の詳細および例を示す。ただし、概要として、ピクセルごとの残留運動は、以下の
のように、ガンマ、センサの動き（例えば、車両の動き）、エピポール情報の３つの部分で構成される。エピポール情報は、ホモグラフィ
およびエピポール
の後の画像座標に依存する。これは、センサの自己運動（ＥＭ）が与えられたピクセルごとに計算され得る。センサの動きの情報は、前方の動き
および平面
からのセンサの高さに依存する。これは画像全体で固定される。

ガンマは、平面上の点の高さＨおよびセンサからの点までの距離Ｚを介して、各ピクセルでのシーンの構造を表す。したがって、センサの動きの情報およびエピポール情報が与えられると、ニューラルネットワーク４１２はガンマモデル４１４を決定し、点ごとの残留運動を計算して、１つの画像を別の画像にワープさせることを可能にし得る。

正確なガンマモデル４１４が与えられると、各ピクセルの距離および高さのために、画像ワーピングが非常に正確になり、しばしば画像が静止シーンのものであるかのように振る舞う。従来の手法では、最初に残留フローを計算し、次いでエピポール情報およびセンサの動きの情報を除去することによってガンマを計算した。ガンマから、点の高さおよび距離が１つまたは複数のトラック（例えば、タイヤの経路）に沿って計算された。しかし、上記で述べたように、路面画像のノイズの程度が変化することにより、直接の残留運動の検出が問題になることがあった。

画像から直接ガンマを計算するようにニューラルネットワーク４１２をトレーニングすることは、画像に見られるノイズに対する強固な手段を提供する。したがって、現在の画像４０２、ホモグラフィを使用してワープされた１つまたは複数の以前の画像４０４、および入力として自己運動４１０およびエピポール（例えば、平面）パラメータ（画像４０６および４０８）が与えられると、ニューラルネットワークはガンマ値４１４の画像を出力として生成する。図示のように、ガンマモデル４１４の陰影が明るいほど、ガンマ値は低くなる。

他のシステムでは、ニューラルネットワーク４１２をトレーニングするとき、車両は損失計算から省略される。これは、車両の動きがトレーニング中に近くのガンマ値に影響を与えるのを防ぐために行われるが、通常、車両は推論中にマスクされない。一実施例では、車両または他の移動物体は、トレーニング中にニューラルネットワーク４１２の損失関数からマスクされない。

現在の実装では、トレーニング中に車両をマスクする必要はない。代わりに、現在の画像４０２は、同時に撮影された複数の画像センサからの複数の画像を含む。例えば、メインカメラ、左コーナーカメラ、および右コーナーカメラからの画像を現在の画像セットとして使用し得る。同時に撮像された複数の画像を使用することにより、ニューラルネットワーク４１２は、例えば、左コーナーカメラと右コーナーカメラとの間の画像分析から取得され得る３次元（３Ｄ）情報でトレーニングすることが可能になる。現在のフレームからの３Ｄ情報を使用してニューラルネットワーク４１２がどのようにトレーニングされるかについての詳細は、以下に提供される。

図示のように、エピポール情報およびセンサの動きの情報は、画像（例えば、値のラスタ）として提供される。センサの動きの情報画像４１０は、一定値の画像である（例えば、すべてのピクセルが同じ値を有する）。エピポール情報は、水平（例えば、ｘ）４０６および垂直（例えば、ｙ）４０８方向のエピポールまでの距離のピクセル値をそれぞれ有する２つの画像によって表される。畳み込みニューラルネットワーク（ＣＮＮ）を使用する場合は、エピポール情報を２つの値ではなく、勾配画像として提供することが有用である。ＣＮＮでは、同じフィルタバンクが画像４０２全体にわたって実行され、各画像領域がエピポールとの関係でどこにあるかを伝達しなければならない。勾配画像４０６および４０６を使用することにより、フィルタは、各畳み込みのエピポール情報を有する。

図５は、ＭＬベースの輪郭エンジンのＤＮＮ５００の例を示す図である。一実施例では、図示のように、ＤＮＮ５００は、畳み込み層、活性化層、正規化層、およびプーリング層を含み得る様々な動作層を有する畳み込みネットワーク部分５０２を含む。内積層などの他の動作層を追加で含め得る。一実施例では、ＤＮＮ５００は、逆畳み込み（例えば、転置畳み込み）、活性化層、正規化層、および非プーリング層を含む逆畳み込み部分５０４をさらに含む。

一実施例では、前処理された画像５３０のセットは、畳み込みネットワーク部分５０２への入力５０６として提供される。各層は特徴マップを生成し、特徴マップは次いで、順伝播経路５０８に沿ってさらに処理するために次の層に渡される。図示のように、畳み込みネットワーク部分５０２の動作は、畳み込み順伝播経路５０８Ａに沿った特徴マップのチャネル数（次元）を増加させながら、特徴マップの解像度を徐々に低下させるように動作する。逆畳み込みネットワーク部分５０４の動作は、逆畳み込み順伝播経路５０８Ｂに沿ってそれらの次元を低下させながら、特徴マップの解像度を徐々に向上させるように動作する。

一実施例では、順伝播経路５０８に加えて、１つまたは複数のバイパス経路５１０を提供して、それらバイパス経路の前の層と後の層との間に位置する１つまたは複数の中間層をスキップしながら、前の層から後の層への特徴マップの通過を容易にし得る。一実施例として、バイパス経路５１０は、畳み込みネットワーク部分５０２の層と、逆畳み込みネットワーク部分５０４の同様の次元の層との間で特徴マップを通過させ得る。

「ボトルネック」ネットワーク部分５１２は、畳み込みネットワーク部分５０２と逆畳み込みネットワーク部分５０４との間に位置する。一実施例では、ボトルネックネットワーク部分５１２は、他の層と比較して、比較的低い解像度およびより高い次元を有する１つまたは複数の層を有する。一実施例では、ボトルネック部分５１２は、画像形式の動きのインディシア５２６および画像形式のエピポール位置データ５２８を受け入れるように構成される入力５１４を含む。

一実施例では、ＤＮＮ５００は、前処理された画像５３０の現在の（最新の）画像に対応するガンマ値のピクセル単位のマッピングとして道路構造５３２を生成するようにトレーニングされる。ＤＮＮ５００の出力としての道路構造５３２は、前処理された画像５３０と同じ、または異なる解像度であり得る。例えば、道路構造５３２の解像度は、整数値または非整数値であり得る係数、すなわち、０．２５、０．５、１、１．５、２、または他のスケーリング係数によってスケーリングされ得る。

別の例では、道路構造５３２は、前処理された画像５３０の現在の画像の一部に対応し得る。例えば、道路構造５３２は、路面を表さないその一部を省略した視野１００（図１）のトリミングされた画像に対応し得る。

特に、道路構造５３２のピクセルのガンマ値は無次元値である。一実施例では、ＤＮＮ５００は、その出力として、地平線より上の点に対する
などの他の無次元値のマッピングを生成する。ガンマの値が分かっている場合、距離Ｚおよび路面の高さＨは、
の関係を使用して復元し得て、ここで、Ｎ'はＮ転置、（ｘ、ｙ）は画像座標、ｆは焦点距離である。

ＤＮＮトレーニングエンジン５５０は、トレーニングデータのセットに基づいて道路構造５３２の正確な決定を生成するために、ＤＮＮ５００をトレーニングするように構成される。図９は、ＤＮＮトレーニングシステム５５０をより詳細に示す図である。図示のように、ＤＮＮトレーニングシステム５５０は、ＤＮＮ５００と同じまたは類似のアーキテクチャを有するＤＮＮ９０２、および複数のモーダル損失関数適用エンジン９５０を含む。

図６は、一実施形態による、ＤＮＮの例示的なアーキテクチャを詳述する表である。示すように、各層は、その動作タイプ、接続（入力０、入力１、および出力０として示される）、出力チャネルの数、畳み込み／逆畳み込みアーキテクチャ（カーネルの幅とステップを含む）、ならびに活性化関数および正規化タイプに関して説明される。特に、入力／１列に示す第２の入力を有する層および識別された第２の入力ソースはバイパス接続を有する。

図６のＤＮＮの層１への入力は、入力／０列に「ｉｍａｇｅｓ」と示される、前処理された画像のセットを含む。入力／１列の「ｅｐｉｐｏｌｅ／ｍｏｔｉｏｎ」で示すように、画像形式のエピポールのインディシアおよび画像形式の動きのインディシアが層８に入力される。

図７～図８は、一実施形態による、ＤＮＮのより複雑なアーキテクチャ例の詳細を示す表である。入力／１列の「ｉｍａｇｅｓ」で示すように、画像は層１のＤＮＮに入力される。入力／１列の「ｅｐｉｐｏｌｅ／ｍｏｔｉｏｎ」で示すように、画像形式のエピポールのインディシアおよび画像形式の動きのインディシアが層９に入力される。一部の層（層４４および４９）には、バイパス接続用の第３の入力があり、入力／２列で表される。さらに、図７～図８のＤＮＮの例の特定の層は、層２２、２８、３４、４２、４７、５２などのサイズ変更動作を実行する。特に、層５２は、特徴マップを前処理された画像３３０と同じサイズにサイズ変更する。

図９は、一実施形態による、ＤＮＮトレーニングシステムの例を示す。ここで、複数のモーダル損失関数適用エンジン９５０は、ＤＮＮ９０２への入力としてトレーニングデータ９３０を供給するように構成される。トレーニングデータ９３０は、１つまたは複数の車両搭載カメラによって撮像された画像フレームの様々なシーケンスを含み得る。画像フレームは、例えば、様々な照明および天候条件の下で、様々な地理的場所で、様々な道路で撮像された動画映像を含み得る。画像は、同じ車両上の複数の撮像デバイスから同時に撮像された画像を含み得る。

トレーニングデータ９３０は、トレーニングデータ９３０のそれぞれの部分に対応する画像形式の動きのインディシア９２６および画像形式のエピポールのインディシア９２８を伴い得る。画像形式の動きのインディシア９２６および画像形式のエピポールのインディシア９２８は、ＤＮＮ９０２の構造的および動作的配置に一致するように、トレーニングデータ９３０の画像フレームの入力層とは異なる入力層に供給され得る。入力は、順伝播経路９０８に沿ってＤＮＮ９０２を通って進み、ＤＮＮ９０２の出力として道路構造９３２を生成する。

ＤＮＮ９０２は、最初に、計算パラメータ（例えば、重み、バイアスなど）のランダム化された値で構成され得る。トレーニングプロセスは、計算パラメータの値を調整して、ＤＮＮ９０２、道路構造９３２の出力を最適化するように機能する。複数のモーダル損失関数適用エンジン９５０は、パラメータ最適化を実行するように構成される。一実施例では、複数の異なる損失関数を使用して、ＤＮＮ９０２の出力の精度を決定する。複数のモーダル損失関数適用エンジン９５０は、ＤＮＮ９０２の様々な層のための計算パラメータ調整９２０を生成し、計算パラメータ調整９２０は、逆方向伝播経路９１０に沿った逆伝播を使用して開始される。

一実施例では、ＤＮＮ９０２の様々な層の計算パラメータ調整９２０が収集され、ＤＮＮ９０２のトレーニング結果を定義する計算パラメータデータ構造９２５に記憶される。一実施例では、計算パラメータデータ構造９２５は、（例えば、ＤＮＮトレーニングシステムの出力の一部として）垂直輪郭検出エンジンに渡され、そこで、ＭＬベースの輪郭エンジンを構成するための計算パラメータとして記憶される。

一実施例では、複数のカメラおよび重なり合う視野が使用される場合、複数の視野からの関連画像を使用して、幾何学的損失関数のトレーニングを達成し得る。例えば、（時間ｔ３での）左および中央の画像は、時間ｔ３からのガンマワープされた画像が時間ｔ３での中央の画像と測光的に類似しているという要件で処理され得る。将来の２組の画像を使用して、これらの画像から推測されるガンマが、カメラの動きを補正した後、時間ｔ１およびｔ２の画像を使用して導出されたガンマと類似しているという条件を設定し得る。一実施例では、中央のメインカメラを、前方および側方を向いている車両の屋根の左コーナーまたは右コーナーに取り付けられた１つまたは複数のカメラと一緒に使用し得る。これらの側面カメラは、９０度より広い視野を有し得る。右側のカメラの視野は、メインカメラの右側の視野と大幅に重なり得て、後方に広がる視野を有し得る。左側のカメラは、メインカメラの左側の視野と大幅に重なる視野を有し得て、後方に広がる視野を有し得る。カメラのこの配置を図２２に示しており、ここで、カメラ２２１２Ｂはメインカメラであり、カメラ２２１２Ａおよび２２１２Ｃはそれぞれ左側および右側のカメラである。一実施例では、コーナーカメラからの画像をトレーニング段階で使用して、推論段階で使用せずに損失関数を計算し得る。

例では、推論エンジンのトレーニングが現在のトリプレットおよび将来のトリプレットの両方で実行され、それぞれｏｕｔｐｕｔ＿ｃｕｒｒおよびｏｕｔｐｕｔ＿ｆｕｔｕｒｅが生成される。幾何学的損失は、ｏｕｔｐｕｔ＿ｃｕｒｒからの他の損失と組み合わせて、ネットワークの重みを調整するために逆伝播され得て、また、幾何学的損失のないｏｕｔｐｕｔ＿ｆｕｔｕｒｅからの損失は、重みを調整するために伝播される。一実施例では、ｏｕｔｐｕｔ＿ｆｕｔｕｒｅの幾何学的損失は無視され、ｏｕｔｐｕｔ＿ｃｕｒｒのみがトレーニングに使用され得る。

図１０は、一実施形態による、複数のモーダル損失関数適用エンジン１０５０の例を示す。複数のモーダル損失関数適用エンジン１０５０は、図９の複数のモデル損失関数適用エンジン９５０のインスタンスであり得る。図示の例では、複数のモーダル損失関数適用エンジン１０５０は、写真測量損失関数トレーニングエンジン１００４、予測画像写真測量損失関数トレーニングエンジン１００６、ＥＭ損失関数トレーニングエンジン１００８、および幾何学的損失関数トレーニングエンジン１０１０の４つの別個の損失関数トレーニングエンジンを含む。さらに、複数のモーダル損失関数適用エンジン１０５０は、逆伝播エンジン１０１２、およびトレーニングデータストア１０２０を含む。損失関数トレーニングエンジン１００４～１０１０は、道路構造１０３２を対応する参照基準と比較するように構成され、参照基準は、道路構造１０３２の精度における誤差または損失を確認するために、従来の「グラウンドトゥルース」値の代わりに使用される。

一実施例では、（従来の教師あり機械学習システムのような）実際のグラウンドトゥルースデータは使用されない。代わりに、トレーニングデータの画像が、画像に対応する自己運動、カメラの高さ、エピポールなどの追加の利用可能なデータとともに処理され、損失関数の評価のための参照基準が生成される。ある意味では、参照基準はトレーニングデータに基づいているため、これは一種の教師なし学習と見なし得る。例えば、ＤＮＮのガンマ出力と一緒に画像から計算された自己運動を使用して、１つの画像を第２の画像にワープして比較できる。ワープした第１の画像とワープしていない第２の画像との間の差は、ガンマの誤差の可能性を示しており、損失関数として使用できる。

一実施例では、トレーニングデータにグラウンドトゥルースデータを利用可能である。一実施例として、グラウンドトゥルースデータは、３次元撮像または走査測定（例えば、立体撮像、ライダ走査など）などの追加の測定モダリティによって提供され得る。したがって、１つまたは複数の損失関数は、実際のグラウンドトゥルースに基づいて、一種の教師あり学習を提供し得る。

損失関数トレーニングエンジン１００４～１０１０はそれぞれ、ＤＮＮをトレーニングするために使用される全体的な損失関数の構成要素に寄与し得る。逆伝播エンジン１０１２は、可変計算パラメータ（例えば、重み、バイアス）に関して全体的な損失関数の偏導関数を計算し、勾配降下法を使用して、それぞれの動作パラメータごとの調整方向を決定するように構成され得る。逆伝播エンジン１０１２は、逆伝播経路に沿った連続する各層に更新された計算パラメータ値を適用し得る。トレーニングデータストア１０２０は、ＤＮＮの適切な入力層に適用されるトレーニングデータ、画像形式の動きのインディシア、および画像形式のエピポールのインディシアを含み得る。一実施例では、損失関数は、そのようなプリミティブの複雑な組み合わせを含むテンソルフローのプリミティブ関数に関して定義される。損失がこのように定義されると、テンソルフローを使用して偏導関数を計算し得る。これは、テンソルフローなどのツールを使用する現在の標準的な方法である。他の最適化手法を使用できる。

写真測量損失関数トレーニングエンジン１００４は、順伝播経路でＤＮＮに提供されたトレーニングデータからの画像フレームのセットに基づいて参照基準を生成するように構成される。一実施例では、３つの画像（現在、以前、およびさらに以前）がＤＮＮへの入力として使用される場合、道路構造１０３２として生成されたガンママップが、以前の画像およびさらに以前の画像を現在の画像へワープさせるために使用される。ワープさせた各画像は、残留フローを補正するために修正され、実際の現在の画像と比較される。

残留フロー補正は、
にしたがって決定し得て、ここで、μは残留フローを表し、γ（ガンマ）は道路構造を表し、項
は、前方方向の自己運動をカメラの高さで割ったものを表し、項
は路面の平面を表す。

画像比較は、正規化された相互相関、差分絶対値和（ＳＡＤ）、バイナリ記述子距離などの適切な手法を使用して計算され得て、これらは、
にしたがって、各ピクセルを囲む画像のパッチに適用され得て、ここで、
はワープされていない現在の画像であり、
は、ガンマワープおよび残留フロー補正された以前の（またはさらに以前の）画像であり、
は、ワープ前の以前（またはさらに以前）の画像である。一実施例では、物体検出（例えば、車両検出、自転車／歩行者検出）を使用して、移動物体を損失関数からマスクして、比較される画像間で検出される動きを低減する。画像比較は、画像間の濃淡値比較を含み得る。

一実施例では、写真測量損失関数トレーニングエンジン１００４は、道路特徴および非道路特徴に対応する画像比較の部分に可変の重み付けを適用する。したがって、非道路部分で見られる比較された画像間の差の程度は無視され得る。

２つ以上の損失関数トレーニングエンジン１００４～１０１０によって提供される損失関数成分は、例えば、計算パラメータ調整を生成するために、勾配降下法を使用してＤＮＮをトレーニングするために使用される集約された複数のモーダル損失関数に、逆伝播エンジン１０１２によって結合される。

一実施形態では、いくつかの画像が単眼撮像システムによって撮像され、画像は、現在の画像および１つまたは複数の将来の画像または１つまたは複数の過去の画像を含む。そのような実施形態では、予測画像写真測量損失関数トレーニングエンジン１００６は、ＤＮＮが道路構造１０３２を生成するために使用した画像を使用することに加えて、１つまたは複数の「将来」または「過去」の画像が画像比較処理に含まれることを除いて、写真測量損失関数トレーニングエンジン１００４と同様の画像ワーピング、補正、および比較技術を実行するように構成される。「将来」の画像は、ＤＮＮのトレーニングに使用されている現在の画像のセットよりも後に撮像された画像であり、「過去」の画像は以前に撮像された画像である。したがって、将来の画像の場合、予測画像写真測量損失関数トレーニングエンジン１００６によって提供される損失関数成分は、実行時に利用できないトレーニングデータを使用する。特に、計算された推論は、推論が入力として認識しない画像で機能するガンマを生成する。

ＥＭ損失関数トレーニングエンジン１００８は、道路構造１０３２を、道路構造１０３２に対応する道路の一部の上での車両の通過を表す「将来」の自己運動と比較することに基づいて損失関数成分を生成するように構成される。一実施例として、道路構造１０３２に任意の隆起または穴のいずれも示さない場合、道路の隆起または穴を示す自己運動は損失である。一実施例では、上向きまたは下向きの曲率を使用し得る。一実施例では、ＥＭは、２０ｍを超えて（例えば、５０ｍまで）延長され得る。これは、道路の一部が遠すぎて残留フローを計算できない場合でも、ＤＮＮが道路構造から表面の長距離形状を適切にモデル化するのに役立ち得る。同様に、道路構造１０３２がその位置（特に、車両の車輪の経路）での隆起または穴を予測しながら、隆起または穴に対応する自己運動がないことも損失になる。

一実施例では、０．５Ｈｚの周波数を有するローパスフィルタまたは減衰ばねモデルを道路構造１０３２に適用して、車両が道路の地形を通過するときの車両のサスペンションの減衰効果をモデル化する。別の例では、車両のサスペンション状態が利用可能である場合、サスペンション情報が自己運動と一緒に考慮されて、車両の車輪の垂直方向の動きをより正確に測定する。

幾何学的損失関数トレーニングエンジン１０１０は、「将来」の画像フレームおよび対応する「将来」の自己運動を含む１つまたは複数の「将来」のトレーニングデータのセットを使用して損失関数成分を生成するように構成される。「将来」の画像フレームは、入力として使用される現在の画像フレームよりも前の定義された距離または時間ステップで撮像された（現在の画像フレームからさらに遠い距離、または現在の画像フレームより後に撮像された）画像を表す。例えば、「将来」の画像フレームおよび自己運動は、トレーニングデータの次の後続の３つの撮像された画像に対応し得る。別の例では、「将来」の画像フレームおよび自己運動は、車両の位置から５メートル、２０メートル、またはその他の定義された距離に対応する。

参照基準は、ＤＮＮを使用して計算される「将来」の道路構造（例えば、ガンママップ）に基づいている。幾何学的損失関数トレーニングエンジン１０１０は、「将来」の自己運動を使用して、「将来」の道路構造を現在の道路構造８３２にワープするか、または「将来」の自己運動を使用して現在の道路構造１０３２を「将来」の道路構造にワープする。

一実施例では、「将来」の道路構造は、現在の道路構造１０３２にワープされ、それらの間で第１の比較が行われ、現在の道路構造１０３２は、「将来」の道路構造にワープされ、それらの間で第２の比較が行われる。第１および第２の比較の結果を組み合わせて（例えば、平均化して）、集約された比較を生成し得て、次いで、これを使用して、幾何学的損失関数トレーニングエンジン１０１０の損失関数を決定する。

別の実装例では、複数のカメラおよび重なり合う視野が使用される場合、複数の視野からの関連画像を使用して、幾何学的損失関数のトレーニングを達成し得る。例えば、（時間ｔ３での）「将来」の左および中央の画像は、時間ｔ３からのガンマワープされた画像が時間ｔ２での中央の画像と測光的に類似しているという要件で処理され得る。将来の２組の画像を使用して、これらの画像から推測されるガンマが、カメラの動きを補正した後、時間ｔ１およびｔ２の画像を使用して導出されたガンマと類似しているという条件を設定し得る。一実施例では、中央のメインカメラを、前方および側方を向いている車両の屋根の左コーナーまたは右コーナーに取り付けられた１つまたは複数のカメラと一緒に使用し得る。これらの側面カメラは、９０度より広い視野を有し得る。右側のカメラの視野は、メインカメラの右側の視野と大幅に重なり得て、後方に広がる視野を有し得る。左側のカメラは、メインカメラの左側の視野と大幅に重なる視野を有し得て、後方に広がる視野を有し得る。カメラのこの配置を図２２に示しており、ここで、カメラ２２１２Ｂはメインカメラであり、カメラ２２１２Ａおよび２２１２Ｃはそれぞれ左側および右側のカメラである。一実施例では、コーナーカメラからの画像をトレーニング段階で使用して、推論段階で使用せずに損失関数を計算し得る。

別の実装では、ニューラルネットワークは、測光損失および幾何学的損失の２つの損失を使用してトレーニングし得る。損失は、２つの測定値間の差を指すと理解されよう。一般に、ニューラルネットワークは損失を最小限に抑えるようにトレーニングされる（例えば、最適化される）。

幾何学的損失は、上記で説明したように扱われる。測光損失は、次の５つの成分に基づいている。
ａ．現在の画像フレーム。
ｂ．現在の画像フレームのピクセルごとの３Ｄ情報出力。
ｃ．現在の画像フレームに表示されているシーンの一部を共有する第２の画像フレーム。
ｄ．世界の２つのフレーム間の位置の差を表す回転および並進（ＲＴ）。
ｅ．両方のフレームから見た道路領域を表す合理的な道路平面。

ＲＴ、道路平面、および３Ｄ情報を使用して、現在のフレームが第２のフレームのピクセルを使用して再描画される。ＲＴおよび３Ｄ情報が完全である場合（平面は合理的な推測にすぎない場合がある）、これらのレンダリングされた画像のほとんどは本質的に同一である（例えば、９９％のピクセルが互いに閾値の距離内にあり、閾値は同一と見なされる許容値を定義する）。３Ｄ情報が完全でない場合、３Ｄ情報の不備が誤って再描画され、再描画された画像のその部分は現在のフレームと一致しない。トレーニングの場合、ニューラルネットワークは、現在のフレームとレンダリングされたフレームが完全に一致する再描画された画像のパッチの場合には強化され（例えば、報酬を与えられ）、一致しないパッチの場合には罰を与えられる。時間の経過とともに、ニューラルネットワークは収束してシーンに正確な３Ｄ情報を出力する。

単眼トレーニングシステムは、測光損失を計算するために５つの異なる代替フレームを使用してこの動作を実行し得る。５つのフレームはすべて、現在のフレームと同じカメラ（例えば、図２２のメインカメラ２２００Ｂ）からのものであり、それらはすべて、現在のフレームの６メートル以内に収まっており、現在のフレームが撮像される前と後で撮影されたものである。損失のみを考慮したことにより、推論時（例えば、トレーニングではなく走行中に使用する場合）に利用できない場合でも、将来のトレーニング画像（現在のフレームから測定）を使用し得る。

複数のカメラ技術は、５つのフレームの実装と同様に、現在のフレームに加えて２つの追加フレームおよび時間的に前の２つのフレームを現在のフレームに組み込んでいるが、将来のフレームは、左前方コーナーカメラおよび右前方コーナーカメラ（例えば、図２２のカメラ２２００Ａおよび２２００Ｃ）など、異なるカメラから撮影したフレームと交換している。同じカメラからの画像の測光損失の計算で、上記で説明したすべては、現在のフレームと同じシーンの少なくとも一部をカバーするフレームであり、いくつかのＲＴで分離されているため、この場合にも当てはまる。したがって、この場合では、単一のカメラの複数のフレーム機構に使用されるすべての計算は、１つの例外を除いて、複数のカメラからの複数の画像でも機能する。単眼技術で使用される５つのフレームの場合、画像は５つの異なる時間に撮影されたが、そのどれもが現在のフレームと同時ではなかったため、移動物体は測光損失の正確な測定値を示していなかった。その結果、木のような物体は静止したままであるため、測光損失に正確な情報を提供するが、移動する車または歩行者はそうではなくマスクしなければならなかった。

向上した複数のカメラプロセスでは、様々なカメラが時間内に互いに同期される。したがって、２つの追加フレームは、現在のフレームと同時に撮影される。上記で述べたように、いくつかのＲＴによって同時に分離された２つの画像が使用される場合、移動物体は移動しなくなる。これですべてが固定され、方程式は固定物体だけでなく移動物体でも機能する。方程式を完全に使用するには、カメラのＲＴを正確に決定する必要がある（例えば、ステレオ較正）。そのような実装の１つを以下に説明する。

図１１は、一実施形態による、ニューラルネットワークをトレーニングするための方法１１００の例を示すフロー図である。方法１１００の動作は、上記または以下で説明されるような計算ハードウェア（例えば、処理回路）によって実行される。次の動作を使用して、ある時点で複数のカメラの角度を使用し、ニューラルネットワークをトレーニングして３Ｄ環境をモデル化し得る。

動作１１０２において、画像を提供するカメラ間で較正（例えば、ＲＴ）が決定される。ローリングシャッタカメラは、道路平面に対してピッチが異なる２台のカメラを使用する場合、ローリングシャッタの効果が大きくなる傾向があるため、複雑が増すことになる。したがって、単眼の複数画像の実装では測光損失によりローリングシャッタを無視し得るが、ここで無視すると問題が発生し得る。ローリングシャッタを調整するために、コーナーカメラからのフレームに表示される３Ｄ情報のある程度の初期理解を使用して、ローリングシャッタ画像をグローバルシャッタ画像として再描画する。例えば、シーンの３Ｄ情報、ピクセル行ごとの露出時間、およびタイムスタンプ辺りのカメラの自己運動を使用するローリングシャッタ補正。これは、すべてのピクセルが平面上にあるという仮定などの比較的単純な３Ｄ情報を使用して実現され得るか、またはそのカメラで別の視差モデルをトレーニングして、その出力をこの補正に使用するような、はるかに豊富な３Ｄ情報を使用して実現され得る。カメラの較正を解決する方法の別の例は、米国特許公開第２０１４／０１９８１８４Ａ１号に記載されている。上記で説明したように、ローリングシャッタ画像がグローバルシャッタ画像として再描画されない場合、ローリングシャッタは、例えば、自己運動、行ごとの露出時間、およびニューラルネットワークの出力からの３Ｄ情報を使用して、後で修正され得ることに留意されたい。

動作１１０４において、左右のカメラからの画像は、平面とＲＴ（例えば、ホモグラフィ）を使用して現在のフレームにワープされ得る。動作１１０６において、損失計算では、現在のフレームの新しいバージョンは、ワープされたサイドフレームからのピクセルおよびニューラルネットワークからの３Ｄ情報を使用してレンダリングされ得る。結果は、実際の現在のフレーム（例えば、メインカメラから）と比較されて、２つの部分が互いにどの程度一致しているかを確認し得る（動作１１０８）。

次に、動作１１１０において、２つの経路が追従され得る。画像全体にわたるサラウンドカメラからの損失を使用し得るか、または移動物体のマスクの内部でのみサラウンドカメラからの損失を使用し得る。

上記の動作は、いくつかの方法で使用され得る。例えば、動作１１１２において、ニューラルネットワークは、３台のカメラからの入力に基づいて推論するようにトレーニングされ得て、トレーニングでは、上記で説明したように損失を使用する。

別の例では、動作１１１４において、推論のための入力は単一のカメラからのものであり（例えば、メインカメラからの３つのフレーム）、サラウンド画像はトレーニング中の測光損失のためだけに使用される。この例では、メインカメラのみが使用可能な場合に、ニューラルネットワークがフィールドで機能し、車両アーキテクチャは以前の実装と同じである。したがって、チップ上の計算効率（例えば、コスト）は同じである。しかし、ニューラルネットワークは、移動物体についても合理的な３Ｄ情報を出力する方法を学習している。

動作１１１６において、移動しているおよび移動していないすべての物体に関する３Ｄ情報を提供することに加えて、この損失の組み合わせを使用して、画像内のどのピクセルが移動している物体の一部であり、どのピクセルが移動していない物体なのかを示すマスクを出力し得る。これは、ニューラルネットワークの出力に別のチャネルを追加することで実現され得る。したがって、画像内の各ピクセルの３Ｄ情報を生成するだけでなく、移動／非移動の予測（例えば、０と１の間）も各ピクセルに提供される。

この出力を提供するようにニューラルネットワークをトレーニングするために、ニューラルネットワークは、メインカメラからの元の５つの画像（例えば、上記で説明した単眼技術）とサラウンドカメラからの損失との間の損失がどの程度異なるかを推測するように促される。物体が移動している領域では、サラウンドカメラからの損失とメインカメラからの損失との間に比較的大きな差（例えば、差の比によって測定される）が発生するため、追加の出力チャネルでより大きな値を生成するために大きな変動が促される。次いで、これらの値は、移動しているマスクと移動していないマスクとして使用し得る。

サラウンドカメラからのステレオ情報を使用することには、他にも利点がある。例えば、単一のカメラと比較した場合、サラウンドカメラ間のベースラインが比較的広いため、少し離れて物体の３Ｄ形状を測定する方が正確であり得る。さらに、実線の道路マーク（例えば、線）などの特定のテクスチャは、主にカメラ画像の動きが横方向の場合に深度情報を提供する。したがって、これらの実線の道路マークは、しばしば道路マークに沿った単眼カメラに深度情報を提供するのに不十分なことがあるが、サラウンドカメラは実線の道路マークに対する２つの異なる角度のため、実線の道路マークを非常に効果的に使用し得る。

図１２は、本明細書に記載の単眼カメラおよびサラウンドカメラを介してトレーニングされた２つのニューラルネットワークからの異なる出力を示す。画像１２０２は、単眼技術でトレーニングされたニューラルネットワークの出力である。ここで、色は道路平面からの高さを表す。色は青（青色は、道路平面から２０センチ以上下である）から赤（赤色は、道路平面から２０センチ以上上である）に移動する。移動中の車両は、無視される（例えば、消去され）こと、および、通常、くぼみを示す道路よりも青い色相に関連付けられていることにも留意されたい。

画像１２０４は、サラウンド（例えば、ステレオ）技術でトレーニングされたニューラルネットワークの出力である。この画像と前回の画像との間の差に留意されたい。車両の周りのくぼみの誤った表示がなくなっている。むしろ、移動物体の合理的な高さの推定値が提供される。

図１３は、一実施形態による、垂直輪郭検出エンジンを動作させるための方法１３００の例を示すフロー図である。方法１３００の動作は、上記または以下で説明したような計算ハードウェア（例えば、処理回路）によって実行される。

動作１３０２において、２つ以上の画像フレームのシーケンス、接地面（ｇｒｏｕｎｄｐｌａｎｅ）、および自己運動データ、ならびにカメラ高さ情報を含む生データが取得される（例えば、読み取りまたは受信される）。画像フレームは、現在の（例えば、最近撮像された）画像、および１つまたは複数の以前に撮像された画像を含み得る。画像フレームは、同時に撮像された左、右、中央の画像も含み得る。

動作１３０４において、生データは、道路平面に関して画像フレームのシーケンス間のホモグラフィを決定するために処理される。次いで、一部の画像フレームをワープして、道路平面をシーケンスの別の画像フレームに位置合わせし得る。ワーピングは、例によれば、測定された自己運動および接地面の特性に基づき得る。自己運動は、測定された動きであり得るか、または画像フレームのコンテンツから計算で決定され得る。ワープされた画像フレームは、現在の画像フレーム、および現在の画像フレームに対応するようにワープされた１つまたは複数の以前の画像フレームを含み得る。別の例では、現在の画像フレーム、および１つまたは複数の他のフレームは、ワープされていない以前の画像フレームに対応するようにワープされる。

一実施例では、画像は、ＤＮＮによって使用される前に、ラジアルレンズ歪みなどのレンズ歪みに対して補正される。この補正により、特定のレンズでのＤＮＮのトレーニングが回避される。また、特に、焦点距離はガンマの方程式の成分ではないため、複数の異なるカメラタイプからの画像をトレーニングできる。

動作１３０６において、自己運動データ、接地面データ、およびカメラ高さデータを含む追加の生データが処理されて、動きの情報（例えば、エピポール）が生成される。次いで、この情報は、１つまたは複数の画像としてフォーマットされる（動作１３０８）。

動作１３１０において、ＤＮＮは、推論を生成するために使用される。ＤＮＮは、畳み込み動作、非線形活性化動作、およびプーリング動作を実行し得る。一実施例では、逆畳み込み動作およびプール解除動作が実行される。様々な層において、重みまたはバイアスなどのトレーニングされた計算パラメータは、ＤＮＮの事前に確立されたトレーニングにしたがってＤＮＮの動作によって適用される。ＤＮＮを推論モードで動作させると、上記で説明したようにガンママップなどの道路構造マップが生成される。ＤＮＮなどを使用すると、最大時速５０ｋｍ（５０ｋｍ／ｈまたは時速約３１マイル）で走行中の車両から１０メートル（１０ｍ）まで、１センチメートル（１ｃｍ）以内、または０．５ミリメートル（０．５ｍｍ）以内の精度の地形測定値を生成できる。

動作１３１２において、道路輪郭情報は、道路構造マップから抽出される。残留フロー情報などの追加情報も道路構造マップから抽出され得て、追加情報は関連するアプリケーションのためにさらに処理され得る。

道路輪郭情報は、車両動作のいくつかの態様を自動的に調整する自律車両または半自律車両制御システムに渡され得る。例えば、サスペンション制御システムは、車両の予想される走行経路を表す垂直輪郭データに基づいて、車両のサスペンションを動的に調整し得る。サスペンションの調整は、サスペンションの剛性を動的に変化させること、または道路の垂直輪郭に合わせるために個々の車輪の高さを変化させることを含み得る。

一実施例では、道路輪郭情報は、運転ポリシシステムに渡され得る。運転ポリシシステムは、環境モデルを使用して、将来のナビゲーション動作を決定し得る。運転ポリシシステムは、道路輪郭情報を使用して、ナビゲーション動作を選択または決定し得る。運転ポリシシステムの例は、ＲＳＳであり、これは、例えば、国際公開ＷＯ２０１８／００１６８４号に記載されており、その全体が本明細書に組み込まれる。

図２１は、一実施形態による、自律車両制御システムで使用するための、道路をプロファイリングするためのカメラベースの車両搭載システムを示す。図示のように、システムは、いくつかのサブシステム、構成要素、回路、モジュール、またはエンジンで構成され、これらは簡潔さおよび一貫性のためにエンジンと呼ばれるが、これらの用語は交換可能に使用され得ることが理解されよう。エンジンは、ハードウェアで実現されるか、ソフトウェアまたはファームウェアによって制御されるハードウェアで実現される。そのため、エンジンは特定の動作を実行するために特別に使用された有形のエンティティであり、特定の方法で構造化されている。

一実施例では、回路は、エンジンとして指定された方法で（例えば、内部で、または他の回路などの外部エンティティに関して）構成され得る。一実施例では、１つまたは複数のハードウェアプロセッサの全体または一部は、特定の動作を実行するように動作するエンジンとして、ファームウェアまたはソフトウェア（例えば、命令、アプリケーション部分、またはアプリケーション）によって構成され得る。一実施例では、ソフトウェアは、有形の機械可読記憶媒体上に常駐し得る。一実施例では、ソフトウェアは、エンジンの基礎となるハードウェアによって実行されると、ハードウェアに指定された動作を実行させる。したがって、エンジンは、特定の方法で動作するように、または本明細書に記載の任意の動作の一部または全部を実行するように物理的に構築されるか、または特別に構成される（例えば、ハードワイヤード）か、または一時的に構成される（例えば、プログラムされる）。

エンジンが一時的に構成される例を考慮すると、各エンジンは、いずれかの時点でインスタンス化される必要はない。例えば、エンジンがソフトウェアを使用して構成される汎用ハードウェアプロセッサコアを備える場合、汎用ハードウェアプロセッサコアは、異なる時間にそれぞれ異なるエンジンとして構成され得る。したがって、ソフトウェアは、例えば、ある時点で特定のエンジンを構成し、異なる時点で別のエンジンを構成するように、ハードウェアプロセッサコアを構成し得る。

図示のように、システムは、車両内または車両上に取り付けられたカメラまたは画像センサ２１１２を含む。各画像センサ２１１２は、視野を撮像して、画像プロセッサ２１３０によって読み取られる画像フレーム２１１５を提供する。
一実施例では、複数のカメラ２１１２を車両に取り付け得る。例えば、システムは、異なる方向を指す複数のカメラ２１１２を有し得る。システムはまた、車両に対して同じまたは同様の方向を指しているが、異なる場所に取り付けられた複数のカメラ２１１２を有し得る。一実施例では、システムは、（例えば、図２２および図２３に関して以下に説明されるように）部分的または完全に重なり合う視野を有する複数のカメラを有し得る。一実施例では、２つの並んだカメラがステレオで動作し得る。本明細書では、単一のカメラシステムについて説明するが、関連する画像およびフレームの一部または全部を異なるカメラで撮像し得るか、または複数のカメラで撮像した画像の合成から作成し得る、複数のカメラシステムも使用し得る。本文脈において、リアルタイム動作は、視野が走査または撮像される速度と一致する速度で視野全体で物体が検出されるように、感知できないまたはわずかな処理遅延で動作する。

画像プロセッサ２１３０を使用して、画像フレーム２１１５を同時にまたは並行して処理して、いくつかの運転者支援システムまたはアプリケーションにサービスを提供し得る。画像プロセッサ２１３０を使用して、画像フレーム２１１５を処理し、カメラ２１１２の前方視野内の画像または画像の一部を検出および認識し得る。運転者支援システムは、オンボードソフトウェアを備えた特定のハードウェア回路（図示せず）および／またはストレージ２１１３内のソフトウェア制御アルゴリズムを使用して実装され得る。画像センサ２１１２は、モノクロ、グレースケールであり得るか、または画像センサ２１１２は、色に敏感であり得る。実施例として、画像フレーム２１１５は、特徴検出エンジン２１２０、交通標識認識（ＴＳＲ）エンジン２１２１、前方衝突警告（ＦＣＷ）エンジン２１２２、および道路の垂直輪郭または道路平面からの偏差の垂直輪郭検出エンジン２１２３を提供するために使用される。一実施例では、画像フレーム２１１５は、異なる運転者支援アプリケーション間で分割され、他の場合では、画像フレーム２１１５は、異なる運転者支援アプリケーション間で共有され得る。

一実施例では、システムを使用して、路面の平面（または双２次）モデルを正確に推定し、平面（または双２次）路面モデルからの小さな偏差を計算して、様々な表面特徴１０４を検出または定量化する。本文脈における「路面モデル」という用語は、路面の平面または双２次モデルを指す。「垂直輪郭」または「垂直偏差」という用語は、路面と垂直な軸に沿った路面モデルからの偏差を指す。

一実施例では、システムは、ホスト車両に取り付けられたカメラ２１１２を使用して、垂直輪郭などの路面形状（例えば、形状）のモデルを正確に検出するために使用される。本明細書で提供されるシステムおよび方法を使用して、隆起または穴、スピードバンプ、縁石、またはマンホールの蓋などの表面特徴を、サブピクセル精度（例えば、１～２センチメートルのオーダ）で路面（例えば、平面）からの垂直偏差として測定またはモデル化し得る。これらの技術は、前方、側方、または後方のカメラ２１１２に同様に適用し得る。ガンママップは、車両の前方、または側面および後方の走行可能な領域を決定するのに有用であり得る。ガンママップは、表面の傾斜が急すぎて走行できない場所を決定するために単独で使用し得るか、または米国特許公開第２０１８／０１０１１７７号に記載されるように、グレースケールまたはカラー画像ベースの意味的自由空間と組み合わせ得て、参照によりその全体が本明細書に組み込まれる。道路平面のガンママップまたは高さマップを使用して、鋭い垂直端の縁石、滑らかに傾斜した縁石、または保護路肩（例えば、道路の落ち込んでいる場所）を区別し得る。次に、ホスト車両は、滑らかに傾斜した縁石からよりも鋭い縁石または端の落ち込んでいる場所からの距離を大きく維持するように制御し得る。

一実施例では、システムは、車両の電気機械式アクチュエータシステムにスロットル、ブレーキ、ステアリング、またはトランスミッション選択コマンドを生成して自律または半自律走行動作を行うための１つまたは複数の車両制御エンジンを実装する車両制御プロセッサ２１４０をさらに含み得る。車両制御プロセッサ２１４０は、エンジン２１２０～２１２３によって生成される様々なマシンビジョン評価に関連する画像プロセッサ２１３０によって供給される様々な出力を受信し得る。

図２２は、一実施形態による、車両上の複数のカメラアレイを示す。図示のように、カメラ２２１２Ａ～２２１２Ｆは、視野（例えば、以下に説明する視野など）を提供するために車両の周囲に配置される。

図２３は、一実施形態による、複数のカメラアレイによって撮像され得る視野の例を示す。複数の重なり合う視野１００Ａ～１００Ｆが示される。ここでは、路面は視野に共通である。

図１７は、一実施形態による、垂直輪郭検出エンジン１７２３の例を示すブロック図である。垂直輪郭検出エンジン１７２３は、プリプロセッサエンジン１７２２、機械学習（ＭＬ）ベースの輪郭エンジン１７２４、および出力抽出エンジン１７３４を含む。プリプロセッサエンジン１７２２は、生の入力データのセットを受信し、生の入力データのセットを処理し、さらに処理するためにＭＬベースの輪郭エンジン１７２４に渡される前処理された入力データのセットを生成するように構築、プログラム、または他の方法で構成され、その結果は、路面の垂直輪郭の測定値を示す出力である。

生の入力データのセットは、車両制御システムの構成要素から提供され得る。例えば、自己運動エンジン１７０２、接地面エンジン１７０６、またはデータストア１７１２はそれぞれ、生データの様々な項目を提供し得る。特に、本文脈において、「生データ」という用語は、プリプロセッサエンジン１７２２の入力側に関する情報を指す。生データは、センサ（例えば、１つまたは複数のカメラ）から直接提供されるデータだけではなく、その他の方法で提供される未処理のデータである。むしろ、生データは、そのソースによって、または中間処理エンティティによって、ある程度計算処理され得る。

自己運動エンジン１７０２は、センサの実際の動きを記述する自己運動（ＥＭ）情報１７０４を提供するように構成される。ＥＭ情報１７０４は、車両の速度計、または慣性センサ（例えば、車両２１８のヨー、ピッチ、およびロールを感知するように構成される３軸加速度計）によって取得された測定値に基づき得る。慣性センサは、カメラに統合し得るか、またはホスト車両上またはホスト車両内の他の場所に取り付けられ得る。

接地面エンジン１７０６は、接地面（ＧＰ）情報１７０８を提供するように構成される。一実施例では、接地面エンジン１７０６は、自己運動エンジン１７０２、車両サスペンション情報、またはこれらの入力のいくつかの組み合わせによって提供されるピッチおよびロールデータに基づいて、ＧＰ情報１７０８を決定し得る。ＧＰ情報１７０８は、道路の平面法線ベクトル、および平面までの距離を示し得る。一実施例では、接地面エンジン１７０６は、３Ｄ走査測定（例えば、ライダ）、立体撮像、または他の適切な技術に基づいて、平面法線ベクトルおよび平面までの距離を計算し得る。一実施例では、接地面エンジン１７０６は、撮像された画像１７１６に基づいてＧＰ情報１７０８を計算し得るか、またはＧＰ情報１７０８は固定された既定ＧＰであり得る。

データストア１７１２は、カメラ高さ情報１７１４、および連続して撮像された画像フレーム２１５のシーケンスを含み得る撮像された画像１７１６などの保存されたデータ項目を提供する。撮像された画像１７１６は、例えば、現在の（最近撮像された）画像、以前の画像、およびさらに以前の画像を含み得る。

プリプロセッサエンジン１７２２は、撮像された画像１７１６、およびＥＭ１７０４、ＧＰ情報１７０８、またはカメラ高さ情報１７１４などの他の生データ入力の項目に基づく前処理された画像１７３０のセットを出力する。さらに、プリプロセッサエンジン１７２２は、ＭＬベースの輪郭エンジン１７２４によるさらなる処理のために、画像形式のエピポールのインディシア１７２８、および画像形式の動きのインディシア１７２６を出力する。プリプロセッサエンジン１７２２はまた、ローリングシャッタで撮像された画像を調整し得る。

一実施例では、道路構造１７３２は、現在撮像された画像の各ピクセルについて、前方の動きの方向に沿った（ｚ軸に沿った）カメラからの距離に対する道路平面の高さの比を表すマップであり、本明細書では「ガンマ」と呼ばれる。一実施例では、ガンマは、前処理された画像１７３０のセットのいずれかと同じまたは同様の解像度を有し得るか、または異なる（例えば、低減された）解像度を有し得る。

一実施例では、ＭＬベースの輪郭エンジン１７２４は、前処理された画像１７３０のセット、画像形式のエピポールのインディシア１７２８、および画像形式の動きのインディシア１７２６を読み取り、プリプロセッサエンジン１７２２のこれらの画像形式の出力を処理して、路面の３次元構造を表す画像形式のマップである道路構造１７３２を生成する。道路構造１７３２は、道路の垂直輪郭を示す。これは、路面上の点の高さ情報を含み得るか、または、さらなる処理から高さ情報が計算によって決定される得る他の値を含み得る。

一実施例では、ＭＬベースの輪郭エンジン１７２４は、道路の垂直輪郭を計算するためのトレーニングされたディープニューラルネットワーク（ＤＮＮ）を含む。ＤＮＮは、各層に固有の重み付け、バイアス、または他の可変設定を含む、計算パラメータ１７２５に基づいて、複数の層で様々な段階的動作を実行する。計算パラメータ１７２５は、ＤＮＮトレーニングシステム１７５０などによってオフラインまたは遠隔で実行され得るＤＮＮトレーニング動作に基づいて確立され、時には更新され得る。トレーニングは、本明細書で説明する技術を使用して実現され得る。

出力抽出エンジン１７３４は、例えば、カメラ高さ情報１７１４およびＧＰ１７０８を使用して、道路構造１７３２のガンマ（γ）値を処理して、道路の平面からの垂直高さを表す高さマップ１７３６を生成するように構成される。一実施例では、出力抽出エンジン１７３４は、次の
に基づいて、道路構造１７３２から残留運動μ１７３８を計算するように構成され、ここで、
項はガンマであり、
は、前方方向への並進を表し、Ｄはカメラの高さ１７１４を表し、
はエピポール情報を表し、
は、ホモグラフィベースのワーピングを適用した後の対応する画像座標を表す項である。

一実施例では、ＤＮＮはガンマ値のピクセル単位の出力を生成し、ここで、ガンマは、前方の動きの方向に沿った（ｚ軸に沿った）カメラからの距離に対する垂直輪郭の高さの計算された比である。垂直輪郭の高さは、画像内の対応する位置のそれぞれのガンマ値から決定し得る。

一実施例では、歩道などの道路境界の特徴は、高さＨから直接検出され得る。一実施例では、道路境界の特徴は、延長線によって低残留フローの領域から分離されている比較的均質な正の残留フロー領域を検出することによって検出され得る。これらの線は、拡張焦点（ＦＯＥ）の方向、または道路の方向（すなわち、レーンマークの消失点の方向）に大まかに向かっている。

一実施例では、隆起または障害物は同様に、高さＨから直接検出され得るか、または少なくとも部分的に低残留フローの領域に囲まれた正の残留フローの領域として検出され得る。一方で、一実施例では、穴またはくぼみは、少なくとも部分的に低残留フローの領域に囲まれた負の残留フローの領域として検出され得る。

一実施例では、前処理された（例えば、ワープ、位置合わせ、および安定化された）画像が取得される。これらの前処理された画像は、特に水たまりの検出のためではなく、道路プロファイリング動作の一部として生成され得る。ここで、前処理された画像が利用可能なことにより、画像を新たに前処理しなければならないシステムと比較して、特徴検出のための計算効率および検出速度の向上が容易になる。

図１８は、一実施形態による、プリプロセッサエンジン１８７２の例を示す。プリプロセッサエンジン１８７２は、図１７のプリプロセッサエンジン１７２２のインスタンスであり得る。図示のように、プリプロセッサエンジン１８７２は、基準フレームエンジン１８０２、ホモグラフィエンジン１８０４、画像ワーピングエンジン１８０６、エピポール画像生成エンジン１８０８、および動きの情報画像生成エンジン１８１０を含む。

ＥＭ情報１８５４は、基準フレームエンジン１８０２および動きの情報画像生成エンジン１８１０への入力として供給される。この例では、ＥＭ情報１８５４は、車両内の動き検知デバイスから提供または導出され得る、回転（Ｒ）情報１８１２および並進（Ｔ）情報１８１４を含む。ＧＰ情報１８５８は、基準フレームエンジン１８０２に提供される。図示のように、ＧＰ情報１８５８は、既定の平面法線ベクトル指標、道路平面のＮ１８１６を含む。

撮像された画像１８６６は、基準フレームエンジン１８０２、ホモグラフィエンジン１８０４、および画像ワーピングエンジン１８０６に提供される。撮像された画像１８６６は、視野内の道路の同じ部分から撮像された画像フレームのシーケンス１８１８（例えば、第１の画像フレームＡ、第２の画像フレームＢ、および第３の画像フレームＣ）を含む。一実施例では、画像フレームのシーケンス１８１８は、わずか２つの画像フレーム、３つの画像フレーム、または４つ以上の画像フレームを有し得る。

カメラ高さ情報１８６４は、基準フレームエンジン１８０２および動きの情報画像生成エンジン１８１０に提供される。一実施例では、カメラ高さ情報１８６４は、呼称カメラ高さを表す固定値１８２０を含む。一実施例では、カメラ高さ情報１８６４は、現在のカメラ高さを報告する動的指標を含み、動的指標は、車両のサスペンション状態などの変数を考慮する。

一実施例では、基準フレームエンジン１８０２は、ＥＭ情報１８５４に基づいて、接地面インディシアをＧＰ情報１８５８から接地面の更新された表現に調整するように構成される。これは、安定した基準面に対する道路プロファイルの出力が所望される場合に重要になり得る。一実施例として、接地面の平面法線ベクトルは次の
のように調整され、ここで、Ｎ（ｔ）は、方向および大きさの情報とともに、更新された平面法線ベクトルを表す。例えば、Ｎ（ｔ）は、平面法線ベクトルＮをカメラの高さ（すなわち、本明細書ではｃａｍＨとも呼ばれる、接地面Ｄまでの距離）で割った値を表し得る。一実施例では、ＮおよびＤは、同じα、β、およびδ係数を使用して別個に更新され得る。

ホモグラフィエンジン１８０４は、画像フレーム１８１８の対の間のホモグラフィを計算するように構成される。本文脈における「ホモグラフィ」という用語は、直線を直線にマッピングする、射影空間からそれ自体への可逆変換を指す。コンピュータビジョンの分野では、空間内の同じ平面の２つの画像が、ホモグラフィによって関連付けられる（ピンホールカメラモデルを想定）。所与のホモグラフィは、計算によって表され、行列として処理され得る（配列または他の適切なデータ構造で実現される）。

一実施例として、道路の第１の画像フレームＡから道路の第２の画像フレームＢへの変換を表す第１のホモグラフィＨ_ＡＢは、ホモグラフィエンジン１８０４によって計算される。第１のホモグラフィＨ_ＡＢは、第１の画像フレームＡ内の道路の一致する画像点および第２の画像Ｂ内の道路の対応する画像点のセットから計算され得る。

一実施例では、ホモグラフィＨは、自己運動および接地面の情報に基づいて、
のように表し得て、ここで、ＲおよびＴは、それぞれ、ＥＭ１８５４からの（例えば、フレームＡからフレームＢへの）回転および並進を表し、ｃａｍＨは、カメラ高さ情報１８６４からのカメラ高さを表し、ＮはＧＰ１８５８からの平面法線ベクトルを表し、ＫおよびＫ^－１は較正要素を表す。

道路の第２の画像フレームＢから道路の第３の画像フレームＣへの変換を表す第２のホモグラフィＨ_ＢＣはまた、第２の画像フレームＢ内の道路上の一致する画像点および第３の画像フレームＣ内の道路の対応する画像点からホモグラフィエンジン１８０４によって計算され得る。

ホモグラフィエンジン１８０４は、行列乗算などによって、第１および第２のホモグラフィＨ_ＡＢおよびＨ_ＢＣをさらに連鎖させ得る。連鎖ホモグラフィを第１の初期推測として使用することにより、道路の第１の画像から道路の第３の画像への変換を表す、第３のホモグラフィＨ_ＡＣを計算し得る。

一実施例では、ホモグラフィエンジン１８０４は、画像フレーム間の自己運動を使用してホモグラフィを計算する。例えば、Ｒ_ＡＢで示す第１の画像フレームＡと第２の画像フレームＢとの間で測定された回転は、第１の画像フレームＡと第２の画像フレームＢとの間の並進Ｔ_ＡＢとともに、Ｒ_ＢＣおよびＴ_ＢＣで示す第２の画像フレームＢと第３の画像フレームＣとの間の回転および並進とそれぞれ連鎖される。この自己運動連鎖は、Ｒ_ＡＣおよびＴ_ＡＣで示す第１の画像フレームＡと第３の画像フレームＣとの間の回転および並進の決定を生成する。ホモグラフィエンジン１８０４は、自己運動Ｒ_ＡＢおよびＴ_ＡＢを使用して、フレームＣの座標フレームでフレームＢおよびＣを使用して計算された平面法線である平面法線ベクトルＮ_ＢＣを更新する。これは、第２および第３の画像フレームＢおよびＣに共通の安定した基準面を表す。ホモグラフィエンジン１８０４は、３つの画像Ａ、Ｂ、およびＣのシーケンスに関連するすべてのホモグラフィに使用可能な安定化した基準フレームを表す更新された平面法線ベクトル（例えば、Ｎ_ＢＣ）を決定する。次に、ホモグラフィエンジン１８０４は、回転Ｒ_ＡＣ、並進Ｔ_ＡＣ、および平面法線Ｎ_ＡＣに基づいて、第１の画像フレームＡと第３のフレームＣとの間の画像フレームの遷移のためのホモグラフィＨ_ＡＣを構成する。

一実施例では、プリワーピング後のロバスト追跡を適用して、ホモグラフィを計算する。これは、自己運動および平面推定を導出して、以前の平面推定を調整するために使用される。自己運動および調整された平面モデルを組み合わせて、ホモグラフィを取得する。一実施例として、自己運動は、自己運動センサおよび処理エンジンによって提供され得る。このタイプのエンジンは、基本行列を使用して、道路上の点および道路上の点のロバスト追跡を使用する。また、利用可能な任意の慣性センサと速度計の情報とを組み合わせる。接地面情報は、接地面エンジンによって提供される。このエンジンは、（プリワープ後の）道路上の点を追跡し、次いで、計算された自己運動を使用して各点までの深度を導出し、点の３Ｄ座標を生成する。その後、平面を３Ｄ点にアルゴリズムで適合させる。自己運動と平面を組み合わせて、ホモグラフィを提供する。

一実施例では、路面のそれぞれのパラメトリックモデルを実装し得る。例えば、３Ｄスプラインモデルは、通信可能に結合された走行経路ジオメトリまたは物体検知サブシステムによって提供され得る。そのようなサブシステムの１つの例として、Ｉｎｔｅｌ社の子会社であるＭｏｂｉｌｅｙｅによって製造されたＲｏａｄＥｘｐｅｒｉｅｎｃｅＭａｎａｇｅｍｅｎｔ（商標）（ＲＥＭ（商標））エンジンは、３Ｄスプラインの形式で道路特徴の表現を提供し得る。例えば、レーンマークは３Ｄスプラインとして表し得る。サブシステムは、３Ｄスプライン特徴表現を画像に位置合わせする。３Ｄスプライン特徴表現は、さらに処理するために、撮像された道路の画像に逆投影され得る。

３Ｄスプラインの各点は３Ｄ座標を有する。一実施例では、このデータは、撮像された画像の行に沿った３Ｄスプラインに関連付けられた３Ｄ位置を内挿および外挿するために使用され得る。側面への外挿は、ゼロ次ホールド（すなわち、一定）、１次ホールド（例えば、２つのスプラインに基づく線形拡張）などであり得る。一実施例では、内挿は、画像自体の外側にある虚像座標への特定のスプラインの既知の拡張で発生し得る。

内挿および外挿により、画像の下部にあるすべての点の３Ｄ座標を生成し得る。これらの点は、滑らかな３Ｄ表面上にあり得る。次に、表面を使用して、以前の画像を現在の画像に（またはその逆に）向かってワープし得る。

（例えば、図２２および図２３を参照して説明したような）複数の重なり合う視野にアクセスできる例では、ホモグラフィは、視野の組み合わせを使用して、ホモグラフィエンジン１８０４によって計算され得る。例えば、平面路面の重なり合う領域を位置合わせするホモグラフィは、（時間ｔ２での）前方左視野２３００Ａから前方中央視野２３００Ｂまで取得され得て、このホモグラフィを使用して、前方左視野２３００Ｃの画像を前方中央視野２３００Ｂの画像にワープさせ得る。さらに、ホモグラフィは、（単眼の場合のように）時間ｔ１での前方中央視野２３００Ｂの画像と時間ｔ２での前方中央視野２３００Ｂの画像との間で計算され得る。さらに、ホモグラフィは、（時間ｔ１での）前方左視野２３００Ａの画像から（同じく時間ｔ１での）前方中央視野２３００Ｂの画像まで計算され得る。このホモグラフィを使用して、（時間ｔ１での）前方左視野２３００Ａの画像を連鎖ワープして、（時間ｔ２での）前方中央視野２３００Ｂの画像と位置合わせし得る。

一実施例では、（時間ｔ１での）前方左視野２３００Ａの画像と（同じく時間ｔ１での）前方中央視野２３００Ｂの画像との間のホモグラフィは、（時間ｔ１での）前方中央視野２３００Ａの画像と（時間ｔ２での）前方中央視野の画像との間のホモグラフィに使用される平面法線、ならびに焦点距離およびレンズ歪みなどの各カメラの内部較正パラメータとともに前方左カメラ２２１２Ａおよび前方中央カメラ２２１２Ｂの既知の位置（外部較正）から導出される。

この技術は、グローバルシャッタカメラで使用し得るが、ローリングシャッタカメラの場合、または非同期カメラの場合は誤差が発生する可能性がある。後者の場合、２つのカメラの相対位置は、３Ｄ点および重なり合う路面間の追跡点を使用し、ホモグラフィを計算する画像から導出し得る。位置合わせに使用されるホモグラフィは、通常、一貫した接地面を使用するため、追跡からのホモグラフィを分解して相対運動を与え得て、この運動および一貫した接地面の法線を使用して新しいホモグラフィを構築し得る。

画像ワーピングエンジン１８０６は、３つの画像フレーム１８１８のうちの２つに対してワーピング動作を実行するように構成される。例えば、第１の画像フレームＡは第３の画像フレームＣにワープされ、第２の画像フレームＢは第３の画像フレームＣにワープされる。この例では、画像フレームＣは現在の画像を表し得て、画像フレームＢは以前の画像を表し、画像フレームＡはさらに以前の画像を表す。出力はワープされた画像１８８０である。

エピポール画像生成エンジン１８０８は、１つまたは複数の画像の形式でエピポール位置データ１８７８を生成するように構成される。エピポールは、前方の動きの方向を表すベクトルである。一実施例では、画像形式のエピポール位置データ１８７８は、画像の対を含み、各画像は、画像フレームＡ、Ｂ、およびＣと同じまたは同様の解像度を有する。エピポール位置データを表す画像対の第１の画像は、ｘ軸に沿ったエピポールからのそれぞれの距離を表す「ピクセル」を含む。エピポール位置データを表す画像対の第２の画像は、ｙ軸に沿ったエピポールからのそれぞれの距離を表す「ピクセル」を含む。

動きの情報画像生成エンジン１８１０は、車両の測定された動きを表す画像形式の動きのインディシア１８７６を生成するように構成される。画像形式の動きのインディシア１８７６は、例えば、エピポール位置データ１８７８と同じ次元を有し得る。画像形式の動きのインディシア１８７６のコンテンツは、車両の動きを表す固定値を有する「ピクセル」を含み得る。一実施例では、画像形式の動きのインディシア１８７６における車両の動きは、ＥＭ１８５４に基づき得る。一実施例では、画像形式の動きのインディシア１８７６における車両の動きは、カメラ高さ情報１８６４にさらに基づく。一実施例では、カメラの高さに対する前方（ｚ軸）方向に沿った現在の並進の測定値の比（Ｔｚ／Ｄとして表される）が、画像内の画像形式のデータ構造１８７６における各「ピクセル」の一定値として提供される。

図１９は、一実施形態による、カメラを使用した車両環境のモデル化のための方法１９００の例のフロー図を示す。方法１９００の動作は、上記または以下で説明されるような計算ハードウェア（例えば、処理回路）で実施される。

動作１９０５において、シーンを表す画像の時間順シーケンスが取得される。ここで、画像のシーケンスの一部は、現在の画像を含む。画像は、単眼撮像システムによって撮像され得る。一実施例では、画像のシーケンスの一部は合計で３つの画像である。一実施例では、画像のシーケンスの一部は、画像のシーケンス内の１つまたは複数の画像によって分離される、現在の画像に先行する画像を含む。一実施例では、画像のシーケンスの一部は、現在の画像の直前の画像を含む。

動作１９１０において、シーンの３次元構造を生成するために、データセットがＡＮＮに提供される。一実施例では、データセットは、画像のシーケンスの一部を含み、画像のシーケンスの一部は、現在の画像および画像を撮像するセンサの動きを含む。エピポールは、センサの動きから計算され得る。画像形式のエピポールをＡＮＮに入力し得る。

一実施例では、エピポールは、現在の画像と同じ次元の勾配画像として提供される。ここで、勾配画像のピクセルの値は、現在の画像のピクセルのエピポールからの距離を表す。一実施例では、ベースラインは少なくとも０．５ｍである。一実施例では、勾配画像は現在の画像よりも低い解像度である。一実施例では、勾配画像は、エピポールからの水平距離のみを表す。一実施例では、エピポールからの垂直距離を表すために、第２の勾配画像がＡＮＮに提供される。

一実施例では、センサの動きは、現在の画像と同じ次元の一定値の画像として提供される。一実施例では、一定値は、平面からのセンサの高さに対するセンサの前方の動きの比である。

動作１９１５において、シーンはガンマ画像を使用してモデル化される。一実施例では、シーンの３次元構造はガンマ画像である。ここで、ガンマ画像は、現在の画像を撮像するセンサからの距離に対する接地面上からの点の高さの比であるガンマ値を有するピクセルを含む。

一実施例では、ＡＮＮは畳み込みニューラルネットワーク（ＣＮＮ）である。一実施例では、センサおよびエピポールの動きは、ボトルネック層でＣＮＮに提供される。

一実施例では、３次元構造を使用して第２のＡＮＮを呼び出し、物体がシーン内で移動しているか移動していないかを判定する。

一実施例では、ある位置の予測ガンマとその位置でのセンサの動きとの間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮはトレーニングされ、センサの動きは、接地面に垂直なピッチ、ヨー、ロール、または並進を含む。一実施例では、現在の画像のモデルと現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮはトレーニングされ、現在の画像のモデルは、現在の画像と同時に撮像された画像のガンマワーピングによって生成される。現在の画像は、メインカメラまたは画像センサによって撮像され得て、現在の画像と同時に撮像された画像は、左前方または右前方カメラまたは画像センサによって撮像され得る。メインカメラ、左側のカメラ、右側のカメラは、車両上または車両内に取り付けられ得る。

実施形態は、ハードウェア、ファームウェア、およびソフトウェアの１つまたは組み合わせで実施され得る。実施形態はまた、機械可読記憶デバイスに記憶された命令として実施され得て、命令は、本明細書に記載の動作を実行するために、少なくとも１つのプロセッサによって読み取られ、実行され得る。機械可読記憶デバイスは、機械（例えば、コンピュータ）によって読み取り可能な形式で情報を記憶するための任意の非一時的機構を含み得る。例えば、機械可読記憶デバイスは、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、および他の記憶デバイスおよび媒体を含み得る。

本明細書に記載の例は、論理またはモジュール、知的財産（ＩＰ）ブロックまたはコア、または機構などのいくつかの構成要素を含み得るか、またはそれらを動作させ得る。そのような論理または構成要素は、本明細書に記載の動作を実行するために、１つまたは複数のプロセッサに通信可能に結合されたハードウェア、ソフトウェア、またはファームウェアであり得る。論理または構成要素は、ハードウェアモジュール（例えば、ＩＰブロック）であり得て、そのため、特定の動作を実行できる有形のエンティティと見なされ得て、特定の方法で構成または配置され得る。一実施例では、回路は、ＩＰブロック、ＩＰコア、システムオンチップ（ＳＯＣ）などとして指定された方法で（例えば、内部的に、または他の回路などの外部エンティティに関して）構成され得る。

一実施例では、１つまたは複数のコンピュータシステム（例えば、スタンドアロン、クライアント、またはサーバコンピュータシステム）または１つまたは複数のハードウェアプロセッサの全体または一部は、特定の動作を実行するように動作するモジュールとしてファームウェアまたはソフトウェア（例えば、命令、アプリケーション部分、またはアプリケーション）によって構成され得る。一実施例では、ソフトウェアは、機械可読媒体上に常駐し得る。一実施例では、ソフトウェアは、モジュールの基礎となるハードウェアによって実行されると、ハードウェアに指定された動作を実行させる。したがって、ハードウェアモジュールという用語は、特定の方法で動作するように、または本明細書に記載の任意の動作の一部または全部を実行するように物理的に構築される、特別に構成される（例えば、ハードワイヤード）、または一時的に（例えば、一過的に）構成される（例えば、プログラムされる）エンティティである、有形のエンティティを含むと理解される。

モジュールが一時的に構成される例を考慮すると、各モジュールは、いずれかの時点でインスタンス化される必要はない。例えば、モジュールがソフトウェアを使用して構成される汎用ハードウェアプロセッサを備える場合、汎用ハードウェアプロセッサは、異なる時間にそれぞれ異なるモジュールとして構成され得る。したがって、ソフトウェアは、例えば、ある時点で特定のモジュールを構成し、異なる時点で別のモジュールを構成するように、ハードウェアプロセッサを構成し得る。モジュールはまた、本明細書に記載の方法論を実行するように動作するソフトウェアまたはファームウェアモジュールであり得る。

ＩＰブロック（ＩＰコアとも呼ばれる）は、ロジック、セル、または集積回路の再利用可能なユニットである。ＩＰブロックは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、システムオンチップ（ＳＯＣ）などの一部として使用し得る。これは、デジタル信号処理または画像処理などの特定の目的のために構成され得る。ＩＰコアの例には、中央処理装置（ＣＰＵ）コア、統合グラフィックス、セキュリティ、入力／出力（Ｉ／Ｏ）制御、システムエージェント、グラフィックス処理装置（ＧＰＵ）、人工知能、ニューラルプロセッサ、画像処理装置、通信インタフェース、メモリコントローラ、周辺デバイス制御、プラットフォームコントローラハブなどがある。

図２０は、本明細書で論じられる技術（例えば、方法論）の任意の１つまたは複数が実行され得る例示的なマシン２０００のブロック図を示す。本明細書に記載される例は、マシン２０００内の論理またはいくつかの構成要素、または機構を含み得るか、またはそれらによって動作し得る。回路（例えば、処理回路）は、ハードウェア（例えば、単純な回路、ゲート、論理など）を含む、マシン２０００の有形のエンティティに実装された回路の集合である。回路のメンバーシップは、時間の経過とともに柔軟になり得る。回路は、単独でまたは組み合わせて、動作時に特定の動作を実行し得るメンバを含む。一実施例では、回路のハードウェアは、特定の動作（例えば、ハードワイヤード）を実行するように不変に設計され得る。一実施例では、回路のハードウェアは、特定の動作の命令を符号化するために、物理的に修正された（例えば、不変質量粒子の磁気的、電気的に移動可能な配置など）機械可読媒体を含む、可変的に接続された物理的構成要素（例えば、実行ユニット、トランジスタ、単純な回路など）を含み得る。物理的構成要素を接続する際に、ハードウェア構成物の基礎となる電気的特性は、例えば、絶縁体から導体に、またはその逆に変更される。この命令により、組み込みハードウェア（例えば、実行ユニットまたはロード機構）は、可変接続を介してハードウェア内に回路の構成要素を作成し、動作中に特定の動作の一部を実行できる。したがって、一実施例では、機械可読媒体要素は、回路の一部であるか、またはデバイスが動作しているときに回路の他の構成要素に通信可能に結合される。一実施例では、物理的構成要素のいずれかが、複数の回路の複数の構成要素で使用され得る。例えば、動作中、実行ユニットは、ある時点で第１の回路網の第１の回路で使用され、別の時点で第１の回路網の第２の回路によって、または第２の回路網の第３の回路によって再利用され得る。マシン２０００に関するこれらの構成要素の追加の例を以下に示す。

一実施例では、マシン２０００は、スタンドアロンデバイスとして動作し得るか、または他のマシンに接続（例えば、ネットワーク化）され得る。ネットワーク配備では、マシン２０００は、サーバクライアントネットワーク環境で、サーバマシン、クライアントマシン、またはその両方の能力で動作し得る。一実施例では、マシン２０００は、ピアツーピア（Ｐ２Ｐ）（または他の分散型）ネットワーク環境でピアマシンとして機能し得る。マシン２０００は、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、またはそのマシンによって実行されるアクションを指定する命令（シーケンシャルまたはその他の方法）を実行することが可能な任意のマシンであり得る。さらに単一のマシンしか示していないが、用語「マシン」は、クラウドコンピューティング、ソフトウェアアズアサービス（ＳａａＳ）、他のコンピュータクラスタ構成などの本明細書に説明する方法論の任意の１つまたは複数の方法論を実行するために命令のセット（または複数のセット）を個別にまたは共同で実行するマシンの任意の集合体を含むと解釈されるものとする。

マシン（例えば、コンピュータシステム）２０００は、ハードウェアプロセッサ２００２（例えば、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、ハードウェアプロセッサコア、またはそれらの任意の組み合わせ）、メインメモリ２００４、スタティックメモリ（例えば、ファームウェア、マイクロコード、基本入出力（ＢＩＯＳ）、統合拡張可能ファームウェアインタフェース（ＵＥＦＩ）などのメモリまたはストレージ）２００６、および大容量ストレージ２００８（例えば、ハードドライブ、テープドライブ、フラッシュストレージ、またはその他のブロックデバイス）を含み得て、それらの一部または全部は、インターリンク（例えば、バス）２０３０を介して互いに通信し得る。マシン２０００は、ディスプレイユニット２０１０、英数字入力デバイス２０１２（例えば、キーボード）、およびユーザインタフェース（ＵＩ）ナビゲーションデバイス２０１４（例えば、マウス）をさらに含み得る。一実施例では、ディスプレイユニット２０１０、入力デバイス２０１２、およびＵＩナビゲーションデバイス２０１４は、タッチスクリーンディスプレイであり得る。マシン２０００は、ストレージデバイス（例えば、ドライブユニット）２００８、信号生成デバイス２０１８（例えば、スピーカ）、ネットワークインタフェースデバイス２０２０、および全地球測位システム（ＧＰＳ）センサ、コンパス、加速度計、またはその他のセンサなどの１つまたは複数のセンサ２０１６をさらに含み得る。マシン２０００は、１つまたは複数の周辺デバイス（例えば、プリンタ、カードリーダなど）との通信または制御を行うためのシリアル（例えば、ユニバーサルシリアルバス（ＵＳＢ）、パラレル、または他の有線または無線（例えば、赤外線（ＩＲ）、近距離無線通信（ＮＦＣ）など）接続などの出力コントローラ２０２８を含み得る。

プロセッサ２００２、メインメモリ２００４、スタティックメモリ２００６、または大容量ストレージ２００８のレジスタは、本明細書に記載の技術または機能のいずれか１つまたは複数によって具体化または利用される、１つまたは複数のデータ構造または命令２０２４のセット（例えば、ソフトウェア）が記憶されている機械可読媒体２０２２であり得るか、またはそれらを含み得る。命令２０２４はまた、マシン２０００によるそれらの実行中に、プロセッサ２００２、メインメモリ２００４、スタティックメモリ２００６、または大容量ストレージ２００８のいずれかのレジスタ内に完全にまたは少なくとも部分的に常駐し得る。一実施例では、ハードウェアプロセッサ２００２、メインメモリ２００４、スタティックメモリ２００６、または大容量ストレージ２００８の１つまたは任意の組み合わせが、機械可読媒体２０２２を構成し得る。機械可読媒体２０２２は単一の媒体として示されているが、「機械可読媒体」という用語は、１つまたは複数の命令２０２４を記憶するように構成される単一の媒体または複数の媒体（例えば、集中型または分散型データベース、および／または関連するキャッシュおよびサーバ）を含み得る。

「機械可読媒体」という用語は、マシン２０００による実行のための命令を記憶、符号化、または搬送することができ、マシン２０００に本開示の技術の１つまたは複数のいずれかを実行させる任意の媒体、または、そのような命令によって使用される、またはそのような命令に関連付けられたデータ構造を記憶、符号化、または搬送できる任意の媒体を含み得る。非限定的な機械可読媒体の例には、ソリッドステートメモリ、光媒体、磁気媒体、および信号（例えば、無線周波数信号、他の光子ベースの信号、音声信号など）が含まれ得る。一実施例では、非一時的機械可読媒体は、不変（例えば、静止）質量を有する複数の粒子を有する機械可読媒体を含み、したがって、物質の組成物である。したがって、非一時的機械可読媒体は、一時的な伝播信号を含まない機械可読媒体である。非一時的機械可読媒体の具体的な例には、半導体メモリデバイス（例えば、電気的プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、電子的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ））およびフラッシュメモリデバイスなどの不揮発性メモリ、内蔵ハードディスクおよびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれ得る。

一実施例では、機械可読媒体２０２２上に記憶または他の方法で提供される情報は、命令２０２４自体、または命令２０２４が導出され得る形式などの命令２０２４を表し得る。命令２０２４が導出され得るこの形式は、ソースコード、符号化された命令（例えば、圧縮または暗号化された形式）、パッケージ化された命令（例えば、複数のパッケージに分割する）などを含み得る。機械可読媒体２０２２内の命令２０２４を表す情報は、本明細書で論じる動作のいずれかを実施するために、処理回路によって処理されて命令になり得る。例えば、情報（例えば、処理回路による処理）から命令２０２４を導出することは、コンパイル（例えば、ソースコード、オブジェクトコードなどから）、解釈、ロード、編成（例えば、動的または静的リンク）、符号化、復号化、暗号化、暗号化解除、パッケージ化、パッケージ化解除、または他の方法で情報を操作して命令２０２４にすることを含み得る。

一実施例では、命令２０２４の導出は、機械可読媒体２０２２によって提供されるいくつかの中間または前処理された形式から命令２０２４を作成するための（例えば、処理回路による）情報のアセンブル、コンパイル、または解釈を含み得る。情報は、複数の部分で提供される場合、命令２０２４を作成するために組み合わされ、アンパックされ、修正され得る。例えば、情報は、１つまたは複数のリモートサーバ上の複数の圧縮ソースコードパッケージ（またはオブジェクトコード、またはバイナリ実行可能コードなど）であり得る。ソースコードパッケージは、ネットワークを介して転送されるときに暗号化され、必要に応じて復号化、非圧縮、アセンブルされ（例えば、リンクされ）、ローカルマシンで（例えば、ライブラリ、スタンドアロン実行可能ファイルなどに）コンパイルまたは解釈され、ローカルマシンによって実行され得る。

命令２０２４は、いくつかの転送プロトコル（例えば、フレームリレー、インターネットプロトコル（ＩＰ）、伝送制御プロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）など）の任意の１つを利用するネットワークインタフェースデバイス２０２０を介して伝送媒体を使用して通信ネットワーク２０２６を介してさらに送信または受信され得る。通信ネットワークの実施例は、とりわけ、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、パケットデータネットワーク（例えば、インターネット）、携帯電話ネットワーク（例えば、セルラーネットワーク）、従来型電話サービス（ＰＯＴＳ）ネットワーク、および無線データネットワーク（例えば、Ｗｉ－Ｆｉ（登録商標）として知られる電気電子技術者協会（ＩＥＥＥ）８０２．１１ファミリの規格、ＷｉＭａｘ（登録商標）として知られるＩＥＥＥ８０２．１６ファミリの規格）、ＩＥＥＥ８０２．１５．４ファミリの規格、ピアツーピア（Ｐ２Ｐ）ネットワークを含み得る。一実施例では、ネットワークインタフェースデバイス２０２０は、通信ネットワーク２０２６に接続するための１つまたは複数の物理的ジャック（例えば、イーサネット（登録商標）、同軸ジャック、または電話ジャック）または１つまたは複数のアンテナを含み得る。一実施例では、ネットワークインタフェースデバイス２０２０は、単一入力複数出力（ＳＩＭＯ）技術、複数入力複数出力（ＭＩＭＯ）技術、または複数入力単一出力（ＭＩＳＯ）技術のうちの少なくとも１つを使用して無線通信するための複数のアンテナを含み得る。「伝送媒体」という用語は、マシン２０００による実行のための命令を記憶、符号化または搬送することができ、そのようなソフトウェアの通信を容易にするためにデジタル通信信号またはアナログ通信信号もしくは他の無形媒体を含む、任意の無形媒体を含むと解釈されるものとする。伝送媒体は、機械可読媒体である。

図２１は、ハードウェア構成要素とソフトウェア構成要素との間の様々なインタフェースが示される、コンピューティングデバイスの例示的なハードウェアおよびソフトウェアアーキテクチャを示す図である。ＨＷで示すように、ハードウェア構成要素は分割線の下に表示されるが、ＳＷで示すソフトウェア構成要素は分割線の上にある。ハードウェア側では、処理デバイス２１０２（それぞれが１つまたは複数のプロセッサコアを有する１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサなどを含み得る）は、メモリ管理デバイス２１０４およびシステム相互接続２１０６とインタフェースされる。メモリ管理デバイス２１０４は、実行されているプロセスによって使用される仮想メモリと物理メモリとの間のマッピングを提供する。メモリ管理デバイス２１０４は、処理デバイス２１０２も含む中央処理装置の不可欠な部分であり得る。

相互接続２１０６は、メモリ、データ、および制御ラインなどのバックプレーン、ならびに入力／出力デバイスとのインタフェース、例えば、ＰＣＩ、ＵＳＢなどを含む。メモリ２１０８（例えば、ダイナミックランダムアクセスメモリ－ＤＲＡＭ）およびフラッシュメモリ（例えば、電気的消去可能読み取り専用メモリ－ＥＥＰＲＯＭ、ＮＡＮＤフラッシュ、ＮＯＲフラッシュなど）などの不揮発性メモリ２１０９は、メモリコントローラ２１１０を介してメモリ管理デバイス２１０４および相互接続２１０６とインタフェースされる。一実施例では、このアーキテクチャは、周辺機器によるダイレクトメモリアクセス（ＤＭＡ）をサポートし得る。ビデオおよびオーディオアダプタ、不揮発性ストレージ、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの外部周辺機器リンクを含むＩ／Ｏデバイス、およびＷｉ－ＦｉまたはＬＴＥファミリインタフェースを介してこれらと通信するネットワークインタフェースデバイスは、対応するＩ／Ｏコントローラ２１１４を介して相互接続２１０６とインタフェースする、Ｉ／Ｏデバイスおよびネットワーキング２１１２としてまとめて表される。

ソフトウェア側では、プレオペレーティングシステム（プレＯＳ）環境２１１６は、システムの初期起動時に実行され、オペレーティングシステムの起動を開始する役割を果たす。プレＯＳの環境２１１６の従来の例の１つは、システム基本入力／出力システム（ＢＩＯＳ）である。現在のシステムでは、統合拡張可能ファームウェアインタフェース（ＵＥＦＩ）が実装される。プレＯＳ環境２１１６は、オペレーティングシステムの起動を開始する役割を果たすが、本発明の特定の態様による組み込みアプリケーションのための実行環境も提供する。

オペレーティングシステム（ＯＳ）２１１８は、ハードウェアデバイスを制御し、メモリ内のプログラムのメモリアクセスを管理し、タスクを調整してマルチタスクを容易にし、記憶するデータを整理し、メモリ空間およびその他のリソースを割り当て、プログラムのバイナリコードをメモリにロードし、次いで、ユーザおよびハードウェアデバイスと相互作用するアプリケーションプログラムの実行を開始し、定義された様々な割り込みを検出して応答するカーネルを提供する。また、オペレーティングシステム２１１８は、デバイスドライバ、および周辺機器とのインタフェースおよびネットワーク化を容易にするサービスなど様々な一般的なサービスを提供し、アプリケーションが、そのような一般的な動作の詳細を処理する役割を果たさなくてもよいように、アプリケーションプログラムの抽象化を提供する。オペレーティングシステム２１１８は、モニタ、キーボード、マウス、マイクロフォン、ビデオカメラ、タッチスクリーンなどの周辺デバイスを介したユーザとの相互作用を容易にするグラフィカルユーザインタフェース（ＧＵＩ）をさらに提供する。

ランタイムシステム２１２０は、関数呼び出しの前にスタックにパラメータを配置すること、ディスク入力／出力（Ｉ／Ｏ）の動作、および並列実行関連の動作などの動作を含む、実行モデルの一部を実装する。ランタイムシステム２１２０はまた、タイプチェック、デバッグ、またはコード生成および最適化などのサポートサービスを実行し得る。

ライブラリ２１２２は、アプリケーションプログラムのためのさらなる抽象化を提供するプログラム機能のコレクションを含む。これらには、例えば、共有ライブラリ、ダイナミックリンクライブラリ（ＤＬＬ）が含まれる。ライブラリ２１２２は、オペレーティングシステム２１１８、ランタイムシステム２１２０に統合され得るか、または機能に追加され得るか、またはさらにリモートでホストされ得る。ライブラリ２１２２は、アプリケーションプログラムインタフェース（ＡＰＩ）を定義し、このＡＰＩを介して、アプリケーションプログラム２１２４によって様々な機能呼び出しを行い、オペレーティングシステム２１１８によって提供されるサービスを呼び出し得る。アプリケーションプログラム２１２４は、コンピューティングデバイス自体の基本的な操作性を調整する低レベルのシステムプログラムによって実行されるタスク以上のユーザにとって有用なタスクを実行するプログラムである。

図２２は、一実施形態による処理デバイス２２０２を示すブロック図である。一実施例では、図示された２つ以上の処理デバイス２２０２は、共通の半導体基板上に形成される。ＣＰＵ２２４０は、１つまたは複数の処理コア２２４２を含み得て、処理コア２２４２のそれぞれは、プロセッサの特定のアーキテクチャにしたがって、１つまたは複数の算術論理演算装置（ＡＬＵ）、命令フェッチユニット、命令デコードユニット、制御ユニット、レジスタ、データスタックポインタ、プログラムカウンタ、および他の必須構成要素を有する。例示的な例として、ＣＰＵ２２４０は、ｘ８６タイプのプロセッサであり得る。処理デバイス２２０２はまた、グラフィックス処理装置（ＧＰＵ）２２４４を含み得る。一実施例では、ＧＰＵ２２４４は、特定の計算集約型動作、特にグラフィックスレンダリングに関連付けられた動作をＣＰＵ２２４０からオフロードする特殊なコプロセッサであり得る。特に、ＣＰＵ２２４０およびＧＰＵ２２４４は通常、協調して動作し、メモリリソース、Ｉ／Ｏチャネルなどへのアクセスを共有する。

一実施例では、処理デバイス２２０２はまた、管理人プロセッサ２２４６を含み得る。管理人プロセッサ２２４６は、一般に、ＣＰＵ２２４０およびＧＰＵ２２４４が行うようなソフトウェアコードを実行するための処理作業には参加しない。一実施例では、管理人プロセッサ２２４６は、ＣＰＵ２２４０およびＧＰＵ２２４４とメモリ空間を共有せず、したがって、オペレーティングシステムまたはアプリケーションプログラムを実行するように構成されていない。代わりに、管理人プロセッサ２２４６は、ＣＰＵ２２４０、ＧＰＵ２２４４、およびコンピュータシステムの他の構成要素の技術的動作をサポートする専用のファームウェアを実行し得る。一実施例では、管理人プロセッサは、マイクロコントローラデバイスとして実装され、マイクロコントローラデバイスは、ＣＰＵ２２４０と同じ集積回路ダイ上に物理的に存在し得るか、または別個の集積回路ダイ上に存在し得る。管理人プロセッサ２２４６はまた、外部エンティティと通信することを可能にするための専用のＩ／Ｏ設備のセットを含み得る。１つのタイプの実施形態では、管理人プロセッサ２２４６は、管理エンジン（ＭＥ）またはプラットフォームセキュリティプロセッサ（ＰＳＰ）を使用して実装される。入力／出力（Ｉ／Ｏ）コントローラ２２４８は、様々な処理デバイス２２４０、２２４４、２２４６の間の情報フロー、ならびにシステム相互接続などの外部回路との情報フローを調整する。

図２３は、一実施形態による、ＣＰＵ２３４０の例示的な構成要素を示すブロック図である。図示のように、ＣＰＵ２３４０は、１つまたは複数のコア２３５２、キャッシュ２３５４、およびコア２３５２の相互運用およびタスクを調整し、ならびにＣＰＵ２３４０の様々な内部構成要素間のデータフロー、およびメモリバスまたはシステム相互接続などの外部構成要素とのデータフローを容易にするためのインタフェースを提供するＣＰＵコントローラ２３５６を含む。一実施形態では、ＣＰＵ２３４０の例示的な構成要素のすべては、共通の半導体基板上に形成される。

ＣＰＵ２３４０は、初期化エンジンおよびマイクロコードなどの基本コードの特定の部分を記憶するための不揮発性メモリ２３５８（例えば、フラッシュ、ＥＥＰＲＯＭなど）を含む。また、ＣＰＵ２３４０は、システムＢＩＯＳまたはＵＥＦＩコードなどの初期化エンジンによって起動される基本コードを記憶する外部（例えば、別個のＩＣ上に形成される）不揮発性メモリデバイス２３６０とインタフェースされ得る。
他の注意事項および例

実施例１は、シーンをモデル化するためのデバイスであり、デバイスが、シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、時間順シーケンスが複数の画像を含み、画像のシーケンスの１つが現在の画像であり、シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、データセットが、画像のシーケンスの一部であって、現在の画像を含む画像のシーケンスの一部と、画像のシーケンスを撮像したセンサの動きとを含む、提供することと、シーンの３次元構造を使用してシーンをモデル化することであって、３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路とを備える。

実施例２では、実施例１の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、現在の画像と同じ次元の勾配画像として提供され、勾配画像のピクセルの値が、現在の画像のピクセルのエピポールからの距離を表すことを含む。

実施例３では、実施例２の主題は、勾配画像が、エピポールからの水平距離のみを表し、第２の勾配画像が、エピポールからの垂直距離を表すために、ＡＮＮに提供されることを含む。

実施例４では、実施例１～３の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、ＡＮＮの層への勾配画像として提供され、エピポールの次元が、ＡＮＮの層と一致することを含む。

実施例５では、実施例１～４の主題は、センサの動きが、現在の画像と同じ次元の一定値の画像として提供されることを含む。

実施例６では、実施例５の主題は、一定値が、平面からのセンサの高さに対するセンサの前方の動きの比であることを含む。

実施例７では、実施例１～６の主題は、センサの動きが、ＡＮＮの層に一定値の画像として提供され、一定値の画像の次元が、ＡＮＮの層と一致することを含む。

実施例８では、実施例１～７の主題は、処理回路が、３次元構造を使用して第２のＡＮＮを呼び出し、物体がシーン内で移動しているか移動していないかを判定するように構成されることを含む。

実施例９では、実施例１～８の主題は、現在の画像のモデルと現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮがトレーニングされ、現在の画像のモデルが、現在の画像と同時に撮像された画像のガンマワーピングによって生成されることを含む。

実施例１０では、実施例９の主題は、現在の画像のモデルが、立体撮像システムによって撮像される複数の画像に基づいており、立体撮像システムが単眼撮像システムから独立していることを含む。

実施例１１では、実施例１０の主題は、立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、第１の画像センサおよび第２の画像センサが、互いに重なり合う視野を有することを含む。

実施例１２では、実施例１１の主題は、第１の画像センサおよび第２の画像センサが、ローリングシャッタを実装することを含む。

実施例１３では、実施例１～１２の主題は、単眼撮像システムがローリングシャッタカメラを使用することを含む。

実施例１４は、シーンをモデル化するための方法であり、方法が、シーンを表す画像の時間順シーケンスを取得する段階であって、時間順シーケンスが複数の画像を含み、画像のシーケンスの１つが現在の画像であり、シーンが単眼撮像システムによって撮像される、取得する段階と、シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、データセットが、画像のシーケンスの一部であって、現在の画像を含む画像のシーケンスの一部と、画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、シーンの３次元構造を使用してシーンをモデル化する段階であって、３次元構造が、シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階とを備える。

実施例１５では、実施例１４の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、現在の画像と同じ次元の勾配画像として提供され、勾配画像のピクセルの値が、現在の画像のピクセルのエピポールからの距離を表すことを含む。

実施例１６では、実施例１５の主題は、勾配画像が、エピポールからの水平距離のみを表し、第２の勾配画像が、エピポールからの垂直距離を表すために、ＡＮＮに提供されることを含む。

実施例１７では、実施例１４～１６の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、ＡＮＮの層への勾配画像として提供され、エピポールの次元が、ＡＮＮの層と一致することを含む。

実施例１８では、実施例１４～１７の主題は、センサの動きが、現在の画像と同じ次元の一定値の画像として提供されることを含む。

実施例１９では、実施例１８の主題は、一定値が、平面からのセンサの高さに対するセンサの前方の動きの比であることを含む。

実施例２０では、実施例１４～１９の主題は、センサの動きが、ＡＮＮの層に一定値の画像として提供され、一定値の画像の次元が、ＡＮＮの層と一致することを含む。

実施例２１では、実施例１４～２０の主題は、３次元構造を使用して第２のＡＮＮを呼び出し、物体がシーン内で移動しているか移動していないかを判定することを含む。

実施例２２では、実施例１４～２１の主題は、現在の画像のモデルと現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮがトレーニングされ、現在の画像のモデルが、現在の画像と同時に撮像された画像のガンマワーピングによって生成されることを含む。

実施例２３では、実施例２２の主題は、現在の画像のモデルが、立体撮像システムによって撮像される複数の画像に基づいており、立体撮像システムが単眼撮像システムから独立していることを含む。

実施例２４では、実施例２３の主題は、立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、第１の画像センサおよび第２の画像センサが、互いに重なり合う視野を有することを含む。

実施例２５では、実施例２４の主題は、第１の画像センサおよび第２の画像センサが、ローリングシャッタを実装することを含む。

実施例２６では、実施例１４～２５の主題は、単眼撮像システムがローリングシャッタカメラを使用することを含む。

実施例２７は、シーンをモデル化するための命令を含む少なくとも１つの機械可読媒体であり、命令は、マシンによって実行されると、マシンに、シーンを表す画像の時間順シーケンスを取得する段階であって、時間順シーケンスが複数の画像を含み、画像のシーケンスの１つが現在の画像であり、シーンが単眼撮像システムによって撮像される、取得することと、シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、データセットが、画像のシーケンスの一部であって、現在の画像を含む画像のシーケンスの一部と、画像のシーケンスを撮像したセンサの動きとを含む、提供することと、シーンの３次元構造を使用してシーンをモデル化することであって、３次元構造が、シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを有する動作を実行させる。

実施例２８では、実施例２７の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、現在の画像と同じ次元の勾配画像として提供され、勾配画像のピクセルの値が、現在の画像のピクセルのエピポールからの距離を表すことを含む。

実施例２９では、実施例２８の主題は、勾配画像が、エピポールからの水平距離のみを表し、第２の勾配画像が、エピポールからの垂直距離を表すために、ＡＮＮに提供されることを含む。

実施例３０では、実施例２７～２９の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、ＡＮＮの層への勾配画像として提供され、エピポールの次元が、ＡＮＮの層と一致することを含む。

実施例３１では、実施例２７～３０の主題は、センサの動きが、現在の画像と同じ次元の一定値の画像として提供されることを含む。

実施例３２では、実施例３１の主題は、一定値が、センサの前方の動きの平面からのセンサの高さに対する比であることを含む。

実施例３３では、実施例２７～３２の主題は、センサの動きが、ＡＮＮの層に一定値の画像として提供され、一定値の画像の次元が、ＡＮＮの層と一致することを含む。

実施例３４では、実施例２７～３３の主題は、３次元構造を使用して第２のＡＮＮを呼び出し、物体がシーン内で移動しているか移動していないかを判定することを含む。

実施例３５では、実施例２７～３４の主題は、現在の画像のモデルと現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮがトレーニングされ、現在の画像のモデルが、現在の画像と同時に撮像された画像のガンマワーピングによって生成されることを含む。

実施例３６では、実施例３５の主題は、現在の画像のモデルが、立体撮像システムによって撮像される複数の画像に基づいており、立体撮像システムが単眼撮像システムから独立していることを含む。

実施例３７では、実施例３６の主題は、立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、第１の画像センサおよび第２の画像センサが、互いに重なり合う視野を有することを含む。

実施例３８では、実施例３７の主題は、第１の画像センサおよび第２の画像センサが、ローリングシャッタを実装することを含む。

実施例３９では、実施例２７～３８の主題は、単眼撮像システムがローリングシャッタカメラを使用することを含む。

実施例４０は、シーンをモデル化するための装置であり、シーンを表す画像の時間順シーケンスを取得するための手段であって、時間順シーケンスが複数の画像を含み、画像のシーケンスの１つが現在の画像であり、シーンが単眼撮像システムによって撮像される、取得するための手段と、シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供するための手段であって、データセットが、画像のシーケンスの一部であって、現在の画像を含む画像のシーケンスの一部と、画像のシーケンスを撮像したセンサの動きとを含む、提供するための手段と、シーンの３次元構造を使用してシーンをモデル化するための手段であって、３次元構造が、シーン内の移動物体および固定物体の両方に対して決定される、モデル化ための手段を備える。

実施例４１では、実施例４０の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、現在の画像と同じ次元の勾配画像として提供され、勾配画像のピクセルの値が、現在の画像のピクセルのエピポールからの距離を表すことを含む。

実施例４２では、実施例４１の主題は、勾配画像が、エピポールからの水平距離のみを表し、第２の勾配画像が、エピポールからの垂直距離を表すために、ＡＮＮに提供されることを含む。

実施例４３では、実施例４０～４２の主題は、エピポールが、画像のシーケンスを撮像したセンサの動きから導出され、エピポールが、ＡＮＮの層への勾配画像として提供され、エピポールの次元が、ＡＮＮの層と一致することを含む。

実施例４４では、実施例４０～４３の主題は、センサの動きが、現在の画像と同じ次元の一定値の画像として提供されることを含む。

実施例４５では、実施例４４の主題は、一定値が、平面からのセンサの高さに対するセンサの前方の動きの比であることを含む。

実施例４６では、実施例４０～４５の主題は、センサの動きが、ＡＮＮの層に一定値の画像として提供され、一定値の画像の次元が、ＡＮＮの層と一致することを含む。

実施例４７では、実施例４０～４６の主題は、３次元構造を使用して第２のＡＮＮを手段呼び出し、物体がシーン内で移動しているか移動していないかを判定するための手段を含む。

実施例４８では、実施例４０～４７の主題は、現在の画像のモデルと現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術でＡＮＮがトレーニングされ、現在の画像のモデルが、現在の画像と同時に撮像された画像のガンマワーピングによって生成されることを含む。

実施例４９では、実施例４８の主題は、現在の画像のモデルが、立体撮像システムによって撮像される複数の画像に基づいており、立体撮像システムが単眼撮像システムから独立していることを含む。

実施例５０では、実施例４９の主題は、立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、第１の画像センサおよび第２の画像センサが、互いに重なり合う視野を有することを含む。

実施例５１では、実施例５０の主題は、第１の画像センサおよび第２の画像センサが、ローリングシャッタを実装することを含む。

実施例５２では、実施例４０～５１の主題は、単眼撮像システムがローリングシャッタカメラを使用することを含む。

実施例５３は、処理回路によって実行されると、処理回路に実施例１～５２のいずれかを実施するための動作を実行させる命令を含む、少なくとも１つの機械可読媒体である。

実施例５４は、実施例１～５２のいずれかを実施するための手段を備える装置である。

実施例５５は、実施例１～５２のいずれかを実施するためのシステムである。

実施例５６は、実施例１～５２のいずれかを実施するための方法である。

上記の詳細な説明は、詳細な説明の一部を形成する添付図面に対する参照を含む。図面は、例示として、実施され得る特定の実施形態を示す。これらの実施形態は、本明細書では「実施例」とも呼ばれる。そのような実施例は、図示または説明された要素に加えて要素を含み得る。しかし、示されるかまたは説明される要素を含む例も企図される。さらに、本明細書に図示または説明された特定の実施例（またはその１つまたは複数の態様）に関して、または他の実施例（またはその１つまたは複数の態様）に関して、図示または説明されたそれらの要素（またはその１つまたは複数の態様）の任意の組み合わせまたは順列を使用する実施例も企図する。

本書で参照される刊行物、特許、および特許文書は、参照により個別に組み込まれるかのように、その全体が参照により本明細書に組み込まれる。本書および参照により組み込まれたこれらの文書との間に一貫性のない使用法がある場合、組み込まれた参照の使用法は、本書の使用法を補足するものであり、調整不可能な矛盾については、本書の使用法が支配する。

本書では、用語「ａ」または「ａｎ」は、特許文書で一般的であるように、「少なくとも１つの（ａｔｌｅａｓｔｏｎｅ）」または「１つ以上の（ｏｎｅｏｒｍｏｒｅ）」の任意の他の実施例または用法とは関係なく、１つまたは複数を含むために使用される。本書では、用語「または（ｏｒ）」は、非排他的を指す、つまり別段の指示がない限り、「ＡまたはＢ（ＡｏｒＢ）」は、「ＡであるがＢではなく（ＡｂｕｔｎｏｔＢ）」、「ＢであるがＡではなく（ＢｂｕｔｎｏｔＡ）」、および「ＡおよびＢ（ＡａｎｄＢ）」を含むように使用される。添付の特許請求の範囲では、用語「含む（ｉｎｃｌｕｄｉｎｇ）」および「において（ｉｎｗｈｉｃｈ）」は、それぞれの用語「備える（ｃｏｍｐｒｉｓｉｎｇ）」および「そこで（ｗｈｅｒｅｉｎ）」の分かりやすい英語の同等物として使用される。また、以下の特許請求の範囲では、用語「含む（ｉｎｃｌｕｄｉｎｇ）」および「備えるｃｏｍｐｒｉｓｉｎｇ）」はオープンエンドであり、すなわち、請求項の中のそのような用語の後に示される要素に加えて要素を含むシステム、デバイス、商品、またはプロセスもその請求項の範囲に含まれると見なされる。さらに、以下の特許請求の範囲では、用語「第１の」、「第２の」、および「第３の」などは、単にラベルとして使用されており、それらの対象の番号順を示唆することを意図するものではない。

上記の説明は、例示を意図したものであり、限定的なものではない。例えば、上述の実施例（またはその１つまたは複数の態様）は、他の実施例と組み合わせて使用され得る。上記の説明を検討する際に当業者によってなど他の実施形態を使用し得る。要約は、読者が技術的開示の性質を迅速に確認できるようにするためのものである。これは、特許請求の範囲または意味を解釈または限定するために使用されないとの理解のもとに提供される。また、上記の発明を実施するための形態では、様々な特徴が本開示を効率化するために互いにグループ化され得る。しかしながら、実施形態は上記特徴のサブセットを特徴とし得るので、特許請求の範囲は、本明細書に開示されるすべての特徴を示し得ない。さらに、実施形態は、特定の例で開示される特徴よりも少ない特徴を含み得る。したがって、次の特許請求の範囲は、詳細な説明に組み込まれ、特許請求の範囲は、分離した実施形態として自立している。本明細書に開示される実施形態の範囲は、そのような特許請求の範囲が権利を与えているなど価物の全範囲とともに、添付の特許請求の範囲を参照して決定されるべきである。
［項目１］
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と
を備える、デバイス。
［項目２］
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記現在の画像と同じ次元の勾配画像として提供され、前記勾配画像のピクセルの値が、前記現在の画像のピクセルの前記エピポールからの距離を表す、項目１に記載のデバイス。
［項目３］
前記勾配画像が、前記エピポールからの水平距離のみを表し、第２の勾配画像が、前記エピポールからの垂直距離を表すために、前記ＡＮＮに提供される、項目２に記載のデバイス。
［項目４］
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記ＡＮＮの層への勾配画像として提供され、前記エピポールの次元が、前記ＡＮＮの前記層と一致する、項目１から３のいずれか一項に記載のデバイス。
［項目５］
前記センサの前記動きが、前記現在の画像と同じ次元の一定値の画像として提供される、項目１から４のいずれか一項に記載のデバイス。
［項目６］
前記一定値が、平面からの前記センサの高さに対する前記センサの前方の動きの比である、項目５に記載のデバイス。
［項目７］
前記センサの前記動きが、前記ＡＮＮの層に一定値の画像として提供され、前記一定値の画像の次元が、前記ＡＮＮの前記層と一致する、項目１から６のいずれか一項に記載のデバイス。
［項目８］
前記処理回路が、前記３次元構造を使用して第２のＡＮＮを呼び出して、物体が前記シーン内で移動しているか移動していないかを判定するように構成される、項目１から７のいずれか一項に記載のデバイス。
［項目９］
現在の画像のモデルと前記現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術で前記ＡＮＮがトレーニングされ、前記現在の画像の前記モデルが、前記現在の画像と同時に撮像される画像のガンマワーピングによって生成される、項目１から８のいずれか一項に記載のデバイス。
［項目１０］
前記現在の画像の前記モデルが、立体撮像システムによって撮像される複数の画像に基づいており、前記立体撮像システムが前記単眼撮像システムから独立している、項目９に記載のデバイス。
［項目１１］
前記立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、前記第１の画像センサおよび前記第２の画像センサが、互いに重なり合う視野を有する、項目１０に記載のデバイス。
［項目１２］
前記第１の画像センサおよび前記第２の画像センサが、ローリングシャッタを実装する、項目１１に記載のデバイス。
［項目１３］
前記単眼撮像システムがローリングシャッタカメラを使用する、項目１から１２のいずれか一項に記載のデバイス。
［項目１４］
シーンをモデル化するための方法であって、前記方法が、
シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と
を備える、方法。
［項目１５］
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記現在の画像と同じ次元の勾配画像として提供され、前記勾配画像のピクセルの値が、前記現在の画像のピクセルの前記エピポールからの距離を表す、項目１４に記載の方法。
［項目１６］
前記勾配画像が、前記エピポールからの水平距離のみを表し、第２の勾配画像が、前記エピポールからの垂直距離を表すために、前記ＡＮＮに提供される、項目１５に記載の方法。
［項目１７］
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記ＡＮＮの層への勾配画像として提供され、前記エピポールの次元が、前記ＡＮＮの前記層と一致する、項目１４から１６のいずれか一項に記載の方法。
［項目１８］
前記センサの前記動きが、前記現在の画像と同じ次元の一定値の画像として提供される、項目１４から１７のいずれか一項に記載の方法。
［項目１９］
前記一定値が、平面からの前記センサの高さに対する前記センサの前方の動きの比である、項目１８に記載の方法。
［項目２０］
前記センサの前記動きが、前記ＡＮＮの層に一定値の画像として提供され、前記一定値の画像の次元が、前記ＡＮＮの前記層と一致する、項目１４から１９のいずれか一項に記載の方法。
［項目２１］
前記３次元構造を使用して第２のＡＮＮを呼び出して、物体が前記シーン内で移動しているか移動していないかを判定する段階を備える、項目１４から２０のいずれか一項に記載の方法。
［項目２２］
現在の画像のモデルと前記現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術で前記ＡＮＮがトレーニングされ、前記現在の画像の前記モデルが、前記現在の画像と同時に撮像される画像のガンマワーピングによって生成される、項目１４から２１のいずれか一項に記載の方法。
［項目２３］
前記現在の画像の前記モデルが、立体撮像システムによって撮像される複数の画像に基づいており、前記立体撮像システムが前記単眼撮像システムから独立している、項目２２に記載の方法。
［項目２４］
前記立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、前記第１の画像センサおよび前記第２の画像センサが、互いに重なり合う視野を有する、項目２３に記載の方法。
［項目２５］
前記第１の画像センサおよび前記第２の画像センサが、ローリングシャッタを実装する、項目２４に記載の方法。
［項目２６］
前記単眼撮像システムがローリングシャッタカメラを使用する、項目１４から２５のいずれか一項に記載の方法。
［項目２７］
マシンに項目１４から２６のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
［項目２８］
項目１４～２６のいずれかの方法を実行するための手段を備えるシステム。

Claims

シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記ＡＮＮはガンマ画像を生成し、前記ガンマ画像はガンマ値を含み、前記ガンマ値は事前に推定された道路平面に対する点の垂直偏差を表し、
前記ガンマ画像を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と
を備える、デバイス。
前記ガンマ値は、前記センサからの距離に対する前記道路平面上の点の高さの比である、請求項１に記載のデバイス。
前記現在の画像以外の前記画像のシーケンスの前記一部は、前記道路平面および前記センサの前記動きを補正するホモグラフィにより前処理される、請求項１に記載のデバイス。
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と、
を備え、
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記現在の画像と同じ次元の勾配画像として提供され、前記勾配画像のピクセルの値が、前記現在の画像のピクセルの前記エピポールからの距離を表す、
デバイス。
前記勾配画像が、前記エピポールからの水平距離のみを表し、第２の勾配画像が、前記エピポールからの垂直距離を表すために、前記ＡＮＮに提供される、請求項４に記載のデバイス。
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と、
を備え、
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記ＡＮＮの層への勾配画像として提供され、前記エピポールの次元が、前記ＡＮＮの前記層と一致する、
デバイス。
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と、
を備え、
前記センサの前記動きが、前記現在の画像と同じ次元の一定値の画像として提供され、
前記一定値が、平面からの前記センサの高さに対する前記センサの前方の動きの比である、
デバイス。
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と、
を備え、
現在の画像のモデルと前記現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術で前記ＡＮＮがトレーニングされ、前記現在の画像の前記モデルが、前記現在の画像と同時に撮像される画像のガンマワーピングによって生成される、
デバイス。
前記現在の画像の前記モデルが、立体撮像システムによって撮像される複数の画像に基づいており、前記立体撮像システムが前記単眼撮像システムから独立している、請求項８に記載のデバイス。
前記立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、前記第１の画像センサおよび前記第２の画像センサが、互いに重なり合う視野を有する、請求項９に記載のデバイス。
前記第１の画像センサおよび前記第２の画像センサが、ローリングシャッタを実装する、請求項１０に記載のデバイス。
シーンをモデル化するためのデバイスであって、前記デバイスが、
シーンを表す画像の時間順シーケンスを取得するためのハードウェアインタフェースであって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、ハードウェアインタフェースと、
前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供することであって、前記データセットが、
前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、
前記画像のシーケンスを撮像したセンサの動きとを含む、提供することと、
前記シーンの前記３次元構造を使用して前記シーンをモデル化することであって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化することとを行う処理回路と、
を備え、
前記ＡＮＮは、前記センサの一の位置において予測されるガンマ値と、前記一の位置での前記センサの動きとの間の差を測定することによって誤差が決定される教師なしトレーニング技術でトレーニングされ、
前記ガンマ値は、前記センサからの距離に対する平面の上方の高さの比であり、
前記センサの前記動きは、前記平面に交差するピッチ、ヨー、ロールまたは並進を含む、
デバイス。
前記単眼撮像システムがローリングシャッタカメラを使用する、請求項１から１２のいずれか一項に記載のデバイス。
前記センサの前記動きが、前記ＡＮＮの層に一定値の画像として提供され、前記一定値の画像の次元が、前記ＡＮＮの前記層と一致する、請求項１から１３のいずれか一項に記載のデバイス。
前記処理回路が、前記３次元構造を使用して第２のＡＮＮを呼び出して、物体が前記シーン内で移動しているか移動していないかを判定するように構成される、請求項１から１４のいずれか一項に記載のデバイス。
前記ＡＮＮは、前記画像が入力され前記画像の特徴マップを生成する層を有する畳み込みネットワーク部分と、前記畳み込みネットワーク部分において生成された前記特徴マップが入力され、前記画像の他の特徴マップを生成する層を有する逆畳み込みネットワーク部分とを有する、請求項１から１５のいずれか一項に記載のデバイス。
前記畳み込みネットワーク部分および前記逆畳み込みネットワーク部分は、複数の前記層を有し、
複数の前記層の各々は前記特徴マップを生成し、
前記畳み込みネットワーク部分における一の層により生成された前記特徴マップは、前記畳み込みネットワーク部分の順伝播経路に沿って、前記一の層の次の層に渡され、
前記逆畳み込みネットワーク部分における他の層により生成された前記特徴マップは、前記逆畳み込みネットワーク部分の順伝播経路に沿って、前記他の層の次の層に渡され、
前記畳み込みネットワーク部分は、前記畳み込みネットワーク部分の前記順伝播経路に沿って、前記一の層により生成された前記特徴マップのチャネル数を増加させながら、前記一の層により生成された前記特徴マップの解像度を徐々に低下させるように動作し、
前記逆畳み込みネットワーク部分は、前記逆畳み込みネットワーク部分の前記順伝播経路に沿って、前記他の層により生成された前記特徴マップのチャネル数を低下させながら、前記他の層により生成された前記特徴マップの解像度を徐々に向上させるように動作する、
請求項１６に記載のデバイス。
前記ＡＮＮは、前記畳み込みネットワーク部分と前記逆畳み込みネットワーク部分の間に位置するボトルネックネットワーク部分をさらに有し、
前記ボトルネックネットワーク部分は、前記畳み込みネットワーク部分の前記層、および、前記逆畳み込みネットワーク部分の前記層よりも、低い解像度および高いチャネル数を有する一または複数の前記層を有する、
請求項１６または１７に記載のデバイス。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記ＡＮＮに前記データセットを提供することによりガンマ画像を生成することであって、前記ガンマ画像はガンマ値を有し、前記ガンマ値は前記センサの前記動きに関連する、生成することと、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と
を備える、方法。
前記ガンマ値は、前記センサからの距離に対する平面上の点の高さの比である、請求項１９に記載の方法。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と、
を備え、
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記現在の画像と同じ次元の勾配画像として提供され、前記勾配画像のピクセルの値が、前記現在の画像のピクセルの前記エピポールからの距離を表す、
方法。
前記勾配画像が、前記エピポールからの水平距離のみを表し、第２の勾配画像が、前記エピポールからの垂直距離を表すために、前記ＡＮＮに提供される、請求項２１に記載の方法。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と、
を備え、
エピポールが、前記画像のシーケンスを撮像する前記センサの前記動きから導出され、前記エピポールが、前記ＡＮＮの層への勾配画像として提供され、前記エピポールの次元が、前記ＡＮＮの前記層と一致する、
方法。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と、
を備え、
前記センサの前記動きが、前記現在の画像と同じ次元の一定値の画像として提供され、
前記一定値が、平面からの前記センサの高さに対する前記センサの前方の動きの比である、
方法。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と、
を備え、
現在の画像のモデルと前記現在の画像との間の差を測定することによって誤差が決定される教師なしトレーニング技術で前記ＡＮＮがトレーニングされ、前記現在の画像の前記モデルが、前記現在の画像と同時に撮像される画像のガンマワーピングによって生成される、
方法。
前記現在の画像の前記モデルが、立体撮像システムによって撮像される複数の画像に基づいており、前記立体撮像システムが前記単眼撮像システムから独立している、請求項２５に記載の方法。
前記立体撮像システムが、第１の画像センサおよび第２の画像センサを含み、前記第１の画像センサおよび前記第２の画像センサが、互いに重なり合う視野を有する、請求項２６に記載の方法。
前記第１の画像センサおよび前記第２の画像センサが、ローリングシャッタを実装する、請求項２７に記載の方法。
シーンをモデル化するための方法であって、前記方法は、
ハードウェアインタフェースが、シーンを表す画像の時間順シーケンスを取得する段階であって、前記時間順シーケンスが複数の画像を含み、前記画像のシーケンスの１つが現在の画像であり、前記シーンが単眼撮像システムによって撮像される、取得する段階と、
処理回路が、前記シーンの３次元構造を生成するために人工ニューラルネットワーク（ＡＮＮ）にデータセットを提供する段階であって、前記データセットが、前記画像のシーケンスの一部であって、前記現在の画像を含む前記画像のシーケンスの一部と、前記画像のシーケンスを撮像したセンサの動きとを含む、提供する段階と、
前記処理回路が、前記シーンの前記３次元構造を使用して前記シーンをモデル化する段階であって、前記３次元構造が、前記シーン内の移動物体および固定物体の両方に対して決定される、モデル化する段階と、
を備え、
前記ＡＮＮは、前記センサの一の位置において予測されるガンマ値と、前記一の位置での前記センサの動きとの間の差を測定することによって誤差が決定される教師なしトレーニング技術でトレーニングされ、
前記ガンマ値は、前記センサからの距離に対する平面の上方の高さの比であり、
前記センサの前記動きは、前記平面に交差するピッチ、ヨー、ロールまたは並進を含む、
方法。
前記単眼撮像システムがローリングシャッタカメラを使用する、請求項１９から２９のいずれか一項に記載の方法。
前記センサの前記動きが、前記ＡＮＮの層に一定値の画像として提供され、前記一定値の画像の次元が、前記ＡＮＮの前記層と一致する、請求項１９から３０のいずれか一項に記載の方法。
前記３次元構造を使用して第２のＡＮＮを呼び出して、物体が前記シーン内で移動しているか移動していないかを判定する段階を備える、請求項１９から３１のいずれか一項に記載の方法。
マシンに請求項１９から３２のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
請求項１９から３２のいずれか一項の方法を実行するための手段を備えるシステム。