JP2022521881A

JP2022521881A - 車両のアクションの予測を取得するためのシステムおよび対応する方法

Info

Publication number: JP2022521881A
Application number: JP2021538257A
Authority: JP
Inventors: ステファノ、エリカディ; ファーラン、アクセル; フォンタナ、ダヴィデ; チャーヌクハ、イヴァン; サンギネト、エンバー; セベ、ニクラエ
Original assignee: マレリヨーロッパエス．ピー．エー．
Priority date: 2019-02-27
Filing date: 2020-02-20
Publication date: 2022-04-13
Also published as: WO2020174327A1; US11970175B2; EP3931058A1; IT201900002853A1; US20220126844A1; CN113382908A

Abstract

車両（Ｖ）のアクション（ａｔ）の予測を取得するためのシステム（１０；２０）であって、上記車両（Ｖ）によって観察された、特に上記車両（Ｖ）の前方のダイナミックシーンの一連のイメージ（Ｆｔ）を取得するためのカメラと、上記車両（Ｖ）によって観察された上記ダイナミックシーンの上記一連のイメージ（Ｆｔ）における、各時間ステップ（ｔ）におけるそれぞれの取得されたイメージ（Ｆｔ）について、対応するビジュアル特徴ベクトル（ｖｔ）を取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダ（５０）と、同一の時間ステップ（ｔ）における上記車両（Ｖ）の位置（ｓｔ）を取得するよう構成された１または複数のセンサ（４０）と、上記同一の時間ステップ（ｔ）における、上記ビジュアル特徴ベクトル（ｖｔ）および上記車両の位置（ｓｔ）を受信して、上記車両（Ｖ）の上記アクションの予測（ａｔ）を生成するよう構成された再帰型ニューラルネットワーク、特に、ＬＳＴＭネットワーク（６５；７０）と、を備え、上記システム（２０）は、上記車両（Ｖ）の操縦を表わす制御コマンドのセット（Ｃ）を入力として受信するよう構成され、上記再帰型ニューラルネットワーク（７０）は、複数の再帰型ニューラルネットワークの分岐（７０１、７０２、７０３、７０４）を有し、各分岐は、前上記制御コマンドのセット（Ｃ）における制御コマンド（ｃｉ）に対応し、上記システム（２０）は、制御コマンド（ｃｉ）を受信すると、上記再帰型ニューラルネットワーク（７０）の上記対応する分岐（７０１、７０２、７０３、７０４）を選択するよう構成されたコマンド条件スイッチ（６０）を備え、よって、上記システム（２０）は、上記選択された対応する分岐（７０１、７０２、７０３、７０４）を操作して、上記時間ステップ（ｔ）における上記ビジュアル特徴ベクトル（ｖｔ）および上記車両の位置（ｓｔ）を処理して、上記車両（Ｖ）の上記アクションの上記予測（ａｔ）を取得するよう構成されている、システム。

Description

本説明は、車両、特に道路車両のアクションの予測を取得するための技術に関し、本発明は、
車両によって観察された、特に車両の前方のシーンダイナミクスの一連のイメージを取得するためのカメラと、
上記車両によって観察された上記シーンダイナミクスの上記一連のイメージ中の、各時間ステップにおけるそれぞれの取得されたイメージについて、対応するビジュアル特徴ベクトルを取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダと、
同一の時間ステップにおける、車両の位置（ｓ_ｔ）を取得するよう構成された１または複数のセンサと、
上記時間ステップにおける、上記ビジュアル特徴ベクトルおよび車両の位置を受信して、車両のアクションの予測を生成するよう構成された再帰型ニューラルネットワーク、特にＬＳＴＭネットワークを含む。

多くのディープラーニングベースの自律運転方法は、仲介認識アプローチおよび行動反射方法（またはエンドツーエンド）という２つの主なパラダイムに分類可能である。前者は、歩行者検出器、レーンセグメンテーション、信号機／標識検出器等の異なる別個の認識コンポーネントで構成される。対応する検出結果が、１つの中間の全体シーン表現に組み合わされ、これは、車両の次のアクションをプランニングするための意思決定システム（通常ルールベース）に入力される知識である。

一方、行動反射アプローチは、出現しつつあるパラダイムであり、それは、未加工データセンサを、車両のアクション決定へ直接マッピングすべく、ディープネットワークを訓練することで構成される。未加工データセンサ（例えば、イメージ）を入力として取り、車両アクションを出力するネットワークはまた、エンドツーエンドの訓練可能なものとして表されることもある。現在の行動反射アプローチは、畳み込みニューラルネットワーク（ＣＮＮ）を用いて、例えば、回帰タスク用に訓練された単純なＣＮＮを用いて、車両搭載カメラにより捕獲されたフレームからビジュアル情報を抽出し、出力ニューロンが、ステアリング角を予測する。この「ＣＮＮのみ」のアーキテクチャの持つ１つの課題は、あらゆる決定が現在フレームにのみ依存することである。過去フレームは全く表わされないので、観測されたシーンのダイナミクスに関する「メモリ」が存在しない。

例えば、ＨｕａｚｈｅＸｕ、ＹａｎｇＧａｏ、ＦｉｓｈｅｒＹｕ、およびＴｒｅｖｏｒＤａｒｒｅｌｌによる文献「Ｅｎｄ－ｔｏ－ｅｎｄｌｅａｒｎｉｎｇｏｆｄｒｉｖｉｎｇｍｏｄｅｌｓｆｒｏｍｌａｒｇｅ－ｓｃａｌｅｖｉｄｅｏｄａｔａｓｅｔｓ（大規模ビデオデータセットからの運転モデルのエンドツーエンド学習）」が知られている。ＣＶＰＲ２０１７の３５３０～３５３８ページに、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワークを用いた、ダイナミック表現のネットワークへの導入が記載されている。

具体的には、図１に示されるように、システム１０、実際、実質的にニューラルネットワークであるシステム１０は、２つの主なサブネットワークで構成され、１つは、ダイレート全畳み込みニューラルネットワークビジュアルエンコーダ、略してＦＣＮ５０で、他のフレームとは独立して、各フレームから抽出されたビジュアル情報（静的）を表わす。ＦＣＮ５０は、時間ステップｔにおいてフレームＦ_ｔ入力が与えられると、特徴ベクトルｖ_ｔを用いてフレームＦ_ｔを表わす。具体的には、特徴ベクトルｖ_ｔは、ＦＣＮ５０の最後の層のニューロン活性化のベクトルに対応する。次に、特徴ベクトルｖ_ｔが現在の車両位置ｓ_ｔに連結され（２次元ベクトルを用いて表現）、ＬＳＴＭネットワーク６５に入力される。この第２のサブネットワークは、その前の隠れ状態値を考慮して、最も可能性の高いアクションａ_ｔを予測する。

回帰タスクおよび平均二乗誤差損失を用いて、連続的な予測が形成され得る。しかしながら、例えば、ターゲット分布がマルチモーダルである場合に、この損失は性能が低いことが様々な研究において広く観測されている。従って、このような解決手段においては、回帰の問題が、ターゲット値の範囲を表わす離散ビンを用いて、分類タスクに投じられる。より詳しくは、ステアリング角α_ｔ（［－９０，９０］度）の取り得る値の範囲が、Ｎ＝１８１ビンに離散化される。同様に、車両速度ｍ_ｔの取り得る値の範囲が、Ｎ＝１８１ビンに離散化される。結果として、ネットワークの出力ニューロン数は２Ｎ＝３６２であり、ここで各ニューロンは「ビンクラス」に対応し、適合された損失関数（以下の式１および２を参照）は、予測値と真クラス値との間の標準交差エントロピーである。式１において、ステアリング角損失Ｈ（ｐ_α，ｑ_α）を表わす際、ｑ_α（ｘ）はネットワーク予測であり、ｐ_α（ｘ）は訓練正解であり、同様に式２は、速度損失Ｈ（ｐ_ｍ，ｑ_ｍ）を表わす。

最終損失は、２つの交差エントロピー損失を均等に重み付けした和である。

劣悪な損失に加え、このような解決手段は、センサのみに基づく故に、ネットワーク動作の高レベル制御を欠いている。

１または複数の実施形態の目的は、先行技術で達成可能な解決手段に内在する制約を克服することである。

１または複数の実施形態によると、この目的は、請求項１に規定した特徴を有する方法により達成される。１または複数の実施形態は、対応するシステムを表わしてよい。

特許請求の範囲は、様々な実施形態に関しここに記載する技術的教示の不可欠な部分を形成する。

本明細書に記載された解決手段によると、システムは、車両の操縦を表わす制御コマンドのセットを入力として受信するよう構成されており、
再帰型ニューラルネットワークは、複数の再帰型ニューラルネットワーク分岐を有し、各分岐は、上記制御コマンドのセットにおける制御コマンドに対応し、
上記システムは、制御コマンドを受信すると、上記再帰型ニューラルネットワークの対応する分岐を選択するよう構成されたコマンド条件スイッチを備え、
よって、上記システムは、上記選択された対応する分岐を操作して、上記時間ステップにおける上記ビジュアル特徴ベクトルおよび車両の位置を処理し、車両のアクションの上記予測を取得するよう構成される。

本明細書に説明される解決手段はまた、車両のアクションを予測するための対応する方法も対象とする。

以下に、実施形態について、添付図面を参照して純粋に非限定的な例示として説明する。
上記内容で、既に説明した内容である。本明細書に記載された解決手段の適用の文脈を示す。本明細書に記載されたシステムのブロック模式図を表わす。図３のシステムをより詳細に表わす。

以下の説明は、実施形態の深い理解を目的として、様々な具体的詳細について説明する。実施形態は、具体的な詳細のうち１または複数を省略して、または、他の方法、コンポーネント、材料等と共に、実装可能である。他の場合においては、実施形態の様々な様相が不明瞭にならないように、既知の構造、材料または操作については詳細に図示せず、または説明していない。

本明細書の枠組みにおいて、「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」または「１つの実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」という言及は、実施形態に関し記載された特定の構成、構造または特徴が、少なくとも１つの実施形態に含まれることを示すことを意味する。同様に、本明細書の随所に現れ得る「一実施形態において（ｉｎａｎｅｍｂｏｄｉｍｅｎｔ」または「１つの実施形態において（ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ）」等の文言は、必ずしも１つの同一の実施形態を指していない。さらに、特定の配置、構造または特徴は、１または複数の実施形態において適切に組み合わされてよい。

本明細書で用いられる参照符号は、便宜上に過ぎず、よって保護の範囲または実施形態の範囲を定義するものではない。

本明細書において、ネットワーク訓練された「エンドツーエンド」に基づく自律運転のディープラーニングベース方法に基づく、車両のアクションの予測を取得するためのシステムおよび方法について簡潔に説明する。本明細書に記載された解決手段は、車両の移動中に車両によって観測されたシーンダイナミクスと、例えば、搭乗者のゴール（すなわち、所望の行き先）を表わす高レベルコマンドを考慮するコマンド条件決定戦略とのジョイントモデリングを行う。シーンダイナミクスは、再帰型ニューラルネットワークを用いて（具体的には、ＬＳＴＭを用いて）モデリングされる。しかしながら、本明細書に記載された解決手段は、システムおよび方法を、センサデータのみの関数である得られるネットワークを有するものではなく、搭乗者のゴールも考慮しつつシーンダイナミクスをモデリングするものとみなす。本明細書に記載された解決手段は、ネットワーク動作の高レベル制御を提供し、ネットワークへの追加の入力として外部提供される「コマンド」を活用して、ネットワーク動作を条件設定する。

例として、図２を参照すると、街路を含む道路地図が模式的に示されており、搭乗者、例えば、車両Ｖ、具体的には道路車両または陸上車両は、地点Ａから地点Ｂに行きたいとする。ナビゲータは、経路Ｐに対応する以下の一連のコマンドを生成する。すなわち、次の交差点で右に曲がり（ｃ_４。以下でより詳しく説明する）、次の交差点で左に曲がり（ｃ_２）、道路をたどる（ｃ_１）。ここで、ネットワーク関数がセンサおよびコマンドの関数により記述され、外部的に制御されてよい。コマンド、例えば左は、ネットワークに対し短期ポリシーをプランニングするよう要求する。短期ポリシーとは、すなわち、車両を次の交差点まで走らせた後、左に曲がることを可能にする一連のアクションに対応する車両操縦である。

本明細書に記載された解決手段により、車両Ｖのアクションａ_ｔの予測を取得するためのシステム２０が図３に示される。

ダイレート全畳み込みニューラルネットワークビジュアルエンコーダが５０で示され、当該エンコーダは、時間ステップｔにおける、車両Ｖに搭載されたフロントカメラ（不図示）により取得されたシーンの観測されたダイナミクスを表わすイメージフレームＦ_ｔを受信し、このようなイメージフレームＦ_ｔに基づき、例えば、フォアグラウンドピクセルおよびバックグラウンドピクセル等の対応するビジュアル表現ｖ_ｔを抽出する。上記の通り、ダイレートＦＣＮ５０は、例えば、周知のＡｌｅｘＮｅｔから抽出されたＣＮＮであり、最後の緻密層を、例えばＸｕらにより説明される１×１畳み込みフィルタで置換したものである。それは、ＩｍａｇｅＮｅｔで予め訓練された後、ネットワークの残部で微調整される。ダイレートＦＣＮ５０は、他のフレームとは独立して各フレームＦ_ｔから抽出されたビジュアル情報ｖ_ｔ、すなわち静的ビジュアル情報を表わすように構成されている。より具体的には、時間ステップｔにおいて入力フレームＦ_ｔが与えられると、ダイレートＦＣＮ５０は、その最後の層のニューロン活性化により取得された特徴ベクトルまたはビジュアルベクトルｖ_ｔを用いて、このようなフレームＦ_ｔを表わす。

ダイレートＦＣＮ５０は、ＣＮＮ特徴ベクトルｖ_ｔを、コマンド条件スイッチブロック６０に出力し、コマンド条件スイッチブロックはまた、車両の現在位置ｓ_ｔも受信する。現在の車両位置はｓ_ｔ＝（ｘ_ｔ，ｙ_ｔ）であり、ｘ_ｔ、ｙ_ｔは、時間ステップｔにおける車両Ｖの座標であり、エゴモーションセンサブロック４０によって表されるエゴモーションセンサを用いて取得される。エゴモーションセンサとは、任意の固定参照フレームに対し車両運動を計測するセンサ（例えば、ＩＭＵセンサ）である。これらのセンサによって出力される軌跡は、各時間ステップｔにおける位置を取得するように、カメラフレームと同期される。

次に、コマンドブロック６０内のＣＮＮ特徴ｖ_ｔは、車両の現在の位置ｓ_ｔと連結され、２次元ベクトル（ｘ_ｔ，ｙ_ｔ）を用いてジョイント表現（ｓ_ｔ，ｖ_ｔ）で表される。ＬＳＴＭネットワーク７０は、複数のＬＳＴＭ分岐７０_１、７０_２、７０_３、７０_４を含み、この例では４つである。コマンドブロック６０は、制御コマンドｃ_ｔを受信すると、複数のＬＳＴＭ分岐７０_１、７０_２、７０_３、７０_４から、かかる制御コマンドｃ_ｔに対応する１つのＬＳＴＭ分岐に切り替えるよう構成されている。

具体的に、制御コマンドｃ_ｔは、分岐７０_１、７０_２、７０_３、７０_４の間のスイッチとして動作する。「フォーワードパス」の間、入力コマンドｃ_ｔに応じ、これら分岐のうちの１つのみが活性化される。その結果、ジョイント表現（ｓ_ｔ，ｖ_ｔ）の処理時に、分岐７０_１、７０_２、７０_３、７０_４のうちの現在値に対応するサブポリシーのみが関与する。好ましくは、ジョイント表現（ｓ_ｔ，ｖ_ｔ）が各ＬＳＴＭ分岐に入力されるが、選択された分岐のみがかかる入力を処理する。

制御コマンドｃ_ｔは、コマンドｃ_ｉの予め定義されたセットＣに由来し、ｉは１から｜Ｃ｜までのインデックスで、例えば、Ｃ＝｛ｃ_１，ｃ_２，ｃ_３，ｃ_４｝であってよい、ここで、ｃ_１，ｃ_２，ｃ_３，ｃ_４はそれぞれ本明細書の例示において、続行、左、真っ直ぐ、右として示される。これらの制御コマンドｃ_ｔは、例えば、車両Ｖのナビゲータによって発せられてよい。

システム２０は、マップ関数ｆ（Ｆ_ｔ，ｓ_ｔ，ｃ_ｔ）→ａ_ｔを出力、すなわち学習し、ここでａ_ｔは、時間ステップｔにおける予測された車両のアクションであり、すなわち、取得されたイメージＦ_ｔと、これは具体的に対応するＣＮＮ特徴ｖｔにより表され、車両の現在位置ｓ_ｔと、コマンドｃ_ｔとの関数としての予測された車両アクションのマップである。

連続的な出力が用いられるので、予測された車両のアクションａ_ｔは、ステアリング角および速度マグニチュードのペア、ａ_ｔ＝（α_ｔ，ｍ_ｔ）として定義され、ここでα_ｔはラジアンのステアリング角であり、ｍ_ｔは車両速度値である。

強調すべきことは、短期ポリシーを選択するために、制御コマンドがシステム２０またはネットワークへの入力として用いられる一方で、アクションは、システム１０の瞬時出力であり、すなわちこのような短期ポリシーを構成する。

各ＬＳＴＭ分岐７０_ｉは、ビジュアルダイナミクスを表わすその前の隠れ状態値ｈ_ｔ－１を考慮して、最も可能性の高いアクションａ_ｔを予測する。特記すべき重要なことは、図３は、１つのみの隠れ状態ｈ_ｔ－１を示すが、実際には、それぞれの分岐の各ＬＳＴＭは、その独自の隠れ状態ｈ_ｔ－１を計算する。

図面には、システム２０の一部がより詳しい態様で示されている。

各入力フレームＦ_ｔは、３６０×６４０ピクセルの解像度にサイズ設定され、３つのＲＧＢチャネルで表される。ＦＣＮ５０は、９６１１×１１フィルタを持つ第１の畳み込み層ＣＶ１、次に３×３フィルタを持つＭａｘＰｏｏｌ層ＭＰ、ストライド１での５×５フィルタを持つ第２の畳み込み層ＣＶ２２７×２７×２５６、ストライド１、パディング１での３８４３×３フィルタを持つ第３の畳み込み層、ストライド１、パディング１での３８４３×３フィルタを持つ第４の畳み込み層ＣＶ４、ストライド１、パディング１での２５６３×３フィルタを持つ［１３×１３×２５６］第５の畳み込み層、次に、第６の畳み込み層ＣＶ６、および４０９６１×１フィルタを持つ第７の畳み込み層ＣＶ７を含む。各ＬＳＴＭ分岐７０_ｉは、それぞれ６４個のニューロンを含む２つの重ねられたＬＳＴＭ層を有する。各分岐における最終出力層７１は、３６２個のニューロンで構成され、具体的には、ＦＣＳｏｆｔｍａｘ層６４×３６２である。第６の畳み込み層ＣＶ６および第７の畳み込み層ＣＶ７の後は、正則化のため、０．５に等しいドロップアウトファクタを持つドロップアウト層が適用されてよい。

よって、まとめると、まさに説明された車両Ｖ、すなわち、道路車両または陸上車両のアクションの予測ａ_ｔを取得するためのシステム２０は、車両Ｖにより観察された、具体的には車両の前方のシーンダイナミクスの一連のイメージＦ_ｔを取得するためのカメラであって、すなわちカメラは、車両Ｖの前方のイメージを撮像するカメラと、好ましくはダイレートＦＣＮである、畳み込みニューラルネットワークビジュアルエンコーダ５０であって、車両Ｖによって観察されたシーンダイナミクスの上記一連のイメージＦ_ｔ中の、異なる時間ｔにおけるそれぞれの取得されたイメージＦ_ｔについて、各時間ステップｔにおける対応するビジュアル特徴ベクトルｖ_ｔを取得し、例えば、フォアグラウンド、バックグラウンドおよびその他等のクラスにより、イメージのピクセルの分類を表わすよう構成された、畳み込みニューラルネットワークビジュアルエンコーダ５０と、例えば、カメラにより取得されたイメージフレームを利用することで取得されるエゴモーションセンサ等の１または複数のセンサ４０であって、同一の時間ステップにおける車両の位置ｓ_ｔを取得するよう構成されている、１または複数のセンサ４０と、再帰型ニューラルネットワーク、具体的には、ＬＳＴＭネットワーク７０であって、同一の時間ステップｔにおける上記ビジュアル特徴ベクトルｖ_ｔおよび車両の位置ｓ_ｔを受信して、前の隠れ状態ｈ_ｔ－１を考慮して、車両（Ｖ）のアクションの予測ａ_ｔを生成するよう構成されている再帰型ニューラルネットワーク７０と、を含み、かかるシステム２０は、車両Ｖの操縦を表わす、具体的に一連のアクションに対応する制御コマンドのセットＣを入力として受信するよう構成され、再帰型ニューラルネットワーク７０は複数の再帰型ニューラルネットワーク分岐７０_１、７０_２、７０_３、７０_４を有し、各分岐は、上記制御コマンドのセットＣにおける制御コマンドｃ_ｉに対応し、システム２０は、制御コマンドｃ_ｉを受信すると、上記再帰型ニューラルネットワーク７０の対応する分岐７０_１、７０_２、７０_３、７０_４を選択するよう構成されたコマンド条件スイッチ６０を備え、よって、かかるシステム２０は、スイッチ６０によって選択された上記選択された対応する分岐７０_１、７０_２、７０_３、７０_４を操作して、入力、すなわち、上記時間ステップｔにおける上記ビジュアル特徴ベクトルｖ_ｔおよび車両の位置ｓ_ｔを処理することで車両Ｖのアクションの上記予測ａ_ｔを、具体的には、同一の特定の時間ステップｔにおける取得されたイメージＦ_ｔ、車両の位置ｓ_ｔ、および制御コマンドｃ_ｔのマップとして取得するよう構成される。上記の通り、好ましくは、システム２０は、上記時間ステップｔにおける上記ビジュアル特徴ベクトルｖ_ｔおよび車両の位置ｓ_ｔを、それぞれの対応する分岐７０_１、７０_２、７０_３、７０_４に供給すると、選択された分岐のみが入力を処理し、これは、入力されたビジュアル特徴ベクトルｖ_ｔおよび車両の位置ｓ_ｔを、選択された分岐のみに適用するよりも、単純な実装を表わす。

説明されたシステム２０は、好ましくは、自律運転システムに含まれ、例えば、特定の経路Ｐをたどる車両によって実行されるべきアクションの予測を提供する。

図３および図４のシステム２０の性能をより良く理解すべく、かかるシステム２０に関連する損失関数について簡潔に説明する。

以下の式３において、システム２０の損失関数（Ｆ_ｔ，ｓ_ｔ，ｃ_ｔ）が示される。

１番目の項は、ステアリング角αの交差エントロピー損失の和であり、２番目の項は、コマンドニムネ（command nimne）｜Ｃ｜にわたる速度ｍの交差エントロピー損失の和である。上記の通り、予測ｑ_α、ｑ_ｍおよびｐ_α、ｐ_ｍの関数は、訓練正解（ｔｒａｉｎｉｎｇｇｒｏｕｎｄｔｒｕｔｈ）である。分岐の数は、コマンド（｜Ｃ｜）の数、つまり、各項における損失要素の数に対応する。各分岐７０_ｉは、コマンドｃ_ｉに対応する例からの学習を担う。従って、訓練正解コマンドｃ_ｔに関連付けられたサンプルのための１つの逆伝搬パスは、分岐７０_ｉのみにおけるエラーを逆伝搬するのに貢献すべきであり、ｃ_ｔ=ｃ_ｉである。式３において、これは、インジケータ関数１（ｃ_ｉ，ｃ_ｔ）によって表され、インジケータ関数１は、ｃ_ｔ＝ｃ_ｉの時かつその時に限り（ｉｆａｎｄｏｎｌｙｉｆ）、１に等しい。効率性の理由のため、制御コマンドｃ_ｉはｏｎｅ‐ｈｏｔベクトルとしてエンコーディングされる。

故に、ここで開示された方法およびシステムの利点は明確である。

上記の方法およびシステムは、コマンド条件ネットワークを用いてＬＳＴＭ操作を改善し、アクションの予測を可能にする。

ＦＣＮおよびＬＭＴＳを用いる既知の解決手段は、再帰システムであり、当該ＬＭＴＳは、ステアリング角または他のパラメータを、反応として、ＦＣＮエンコーダの出力に供給する。各ＬＭＴＳが具体的な車両操縦のために訓練されているコマンド条件ネットワークを用いる上記の方法およびシステムは、搭乗者の最終行先（ネットワークへの一連のコマンドとしての入力として表現され、後者は車両のナビゲータによって提供される）を考慮して動作可能である。

また本明細書に記載された解決手段は、静的入力の代わりに、一連のイメージを起源とするダイナミック入力を、ＬＳＴＭ分岐のコマンド条件ネットワークに適用する。

もちろん、実施形態の原理を損なうことなく、構造の詳細および実施形態の詳細は、専ら例示としてここで説明および図示されたものに対し広く変わってよく、これにより、以降の特許請求の範囲に規定された本実施形態の範囲から逸脱することはない。

もちろん、システム、すなわち、本明細書で説明されたシステムのニューラルネットワークは、１または複数のプロセッサ若しくはマイクロプロセッサ、または任意の処理システム、具体的には、かかるニューラルネットワークをサポート可能な車両に配置される任意の処理システムによって実装されてよい。

Claims

車両のアクションの予測を取得するためのシステムであって、
前記車両によって観察された、特に前記車両の前方のシーンダイナミクスの一連のイメージを取得するためのカメラと、
前記車両によって観察された前記シーンダイナミクスの前記一連のイメージにおける、各時間ステップにおけるそれぞれの取得されたイメージについて、対応するビジュアル特徴ベクトルを取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダと、
同一の時間ステップにおける前記車両の位置を取得するよう構成された１または複数のセンサと、
前記同一の時間ステップにおける、前記ビジュアル特徴ベクトルおよび前記車両の位置を受信して、前の隠れ状態を考慮して、前記車両の前記アクションの前記予測を生成するよう構成された再帰型ニューラルネットワーク、特に、ＬＳＴＭネットワークと、を備え、
前記システムは、前記車両の操縦を表わす制御コマンドのセットを入力として受信するよう構成され、
前記再帰型ニューラルネットワークは、複数の再帰型ニューラルネットワークの分岐を有し、各分岐は、前記制御コマンドのセットにおける制御コマンドに対応し、
前記システムは、制御コマンドを受信すると、前記再帰型ニューラルネットワークの前記対応する分岐を選択するよう構成されたコマンド条件スイッチを備え、
よって、前記システムは、前記選択された対応する分岐を操作して、前記時間ステップにおける前記ビジュアル特徴ベクトルおよび前記車両の位置を処理して、前記車両の前記アクションの前記予測を取得するよう構成されている、システム。
前記再帰型ニューラルネットワークは、ＬＳＴＭネットワークを含む、請求項１に記載のシステム。
前記畳み込みニューラルネットワークビジュアルエンコーダは、ダイレート全畳み込みニューラルネットワーク（ｄｉｌａｔｅｄｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）ビジュアルエンコーダである、請求項１に記載のシステム。
前記システムは、前記対応する分岐を操作して、前記車両の前記アクションの前記予測を、同一の特定の時間ステップにおける、前記取得されたイメージ、前記車両の位置および制御コマンドのマップとして取得するよう構成されている、請求項１に記載のシステム。
前記操縦は、前記車両のナビゲーションパスに含まれ、特にナビゲーションシステムによって提供される、請求項１に記載のシステム。
前記アクションは、ステアリング角および車両速度を含む、請求項１に記載のシステム。
前記システムは、前記車両の自律運転のためのシステムに含まれる、請求項１から６のいずれか一項に記載のシステム。
車両のアクションを予測する方法であって、
前記車両によって観察される、特に前記車両の前方のシーンダイナミクスの一連のイメージを取得する段階と、
畳み込みニューラルネットワーク、特にダイレート完全畳み込みニューラルネットワークビジュアルエンコーダを、対応する取得されたイメージに適用することで、各時間ステップにおけるビジュアル特徴ベクトルを取得する段階と、
同一の時間ステップにおける前記車両の位置を取得する段階と、
前記同一の時間ステップにおける、前記ビジュアル特徴ベクトルおよび前記車両の位置を、再帰型ニューラルネットワーク、特に、ＬＳＴＭネットワークに供給する段階と、を備え、前記方法は、さらに、
前記車両の操縦を表わす制御コマンドのセットを判定する段階と、
前記再帰型ニューラルネットワークの複数の分岐を提供する段階であって、各分岐は、前記制御コマンドのセットにおける制御コマンドに対応する、段階と、
制御コマンドが発行されるとき、前記再帰型ニューラルネットワークの前記対応する分岐を選択し、且つ、前記時間ステップにおける前記ビジュアル特徴ベクトルおよび前記車両の位置を、前記対応する分岐に供給する段階と、
前記対応する分岐を操作して、前記車両の前記アクションの前記予測を取得する段階と、を備える、方法。
前記対応する分岐を操作して、前記車両の前記アクションの前記予測を取得する前記段階は、前記対応する分岐を操作して、同一の特定の時間ステップにおける、前記取得されたイメージ、前記車両の位置および制御コマンドのマップとして、前記車両の前記アクションの前記予測を取得する段階を含む、請求項８に記載の方法。
前記操縦は、前記車両のナビゲーションパスに含まれる、請求項８に記載の方法。
前記アクションは、ステアリング角および車両速度を含む、請求項８に記載の方法。