JP2023551126A

JP2023551126A - 機械学習ベースの車両を制御するためのシステムおよび方法

Info

Publication number: JP2023551126A
Application number: JP2023528403A
Authority: JP
Inventors: アンドレアアンコーラ，; セバスチャンオベール，; ヴィンセントリザード，; フィリップヴァインガートナー，
Original assignee: Renault SAS
Current assignee: Renault SAS
Priority date: 2020-12-04
Filing date: 2021-12-03
Publication date: 2023-12-07
Also published as: CN116583805A; KR20230116907A; FR3117223A1; FR3117223B1; EP4256412A1; US20240028903A1; WO2022117875A1

Abstract

本発明は、車両（１）において使用される制御デバイス（１０）に関し、車両が、センサ（２００）のセットを使用する認知システム（２）を備え、各センサが、データを提供し、認知システムが、車両の周辺エリアにおいて検出された１つまたは複数の物体に関する少なくとも１つの特性を含む変数を推定するためのデバイス（１００）を備え、推定デバイスが、変数を推定するためにニューラルネットワーク（５０）を使用するオンライン学習モジュール（５）を備え、ニューラルネットワークが、重みのセットと関連している。学習モジュール（５）は、以下を備える：－変数の推定を含む予測出力を提供するように、ニューラルネットワークへの入力として適用される、１つまたは複数のセンサ（２００）からのデータを伝搬するように構成された順方向伝搬モジュール（５１）、－予測値のうちの少なくともいくつかを使用して、少なくとも１つのセンサ融合アルゴリズムを実行することによって、融合出力を決定するように構成された、融合システム（３）、－勾配降下逆伝搬を実行することによって融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって、オンラインニューラルネットワーク（５０）に関連する重みを更新するように構成された、逆伝搬モジュール（３２）。【選択図】図１および図３

Description

本発明は、概して制御システムに関し、詳細には、車両制御システムおよび方法に関する。

自動化または半自動化車両は、一般に、車両運転の制御および安全性のための運転支援システム、たとえば車両間の距離を規制するために使用されるＡＣＣ（「適応走行制御」）距離規制システム、などの埋め込まれた制御システムを有する。

そのような運転支援システムは、従来、車両を制御するために制御デバイスによって使用される環境情報を検出するために車両に配置されたセンサ（たとえば、カメラ、ライダまたはレーダ）のセットを備える認知システムを使用する。

認知システムは、センサによって提供される情報を使用して車両の環境において物体を検出するおよび／または物体の位置を予測するために、センサに関連する認知モジュールのセットを備える。

各センサは、それぞれの検出された物体に関連する情報を提供する。この情報は、次いで、融合システムへの認知モジュールの出力で配信される。

センサ融合システムは、検出された物体の改良されたおよび統合されたビューを決定するために、認知モジュールによって配信された物体情報を処理する。

現存する解決法では、学習システムは、物体の位置を予測するための認知システム（たとえば、ＳＳＤ、ＹＯＬＯ、ＳｑｕｅｅｚｅＤｅｔシステムなど）によって使用される。そのような予測は、前の時間窓において決定または測定されたデータの履歴を使用して、オフライン学習フェーズを実装することによって、行われる。「オフライン」である学習では、認知システムおよび融合モジュールによってリアルタイムで収集されたデータは、学習のために使用されず、学習は、運転支援デバイスが作動状態にないフェーズにおいて実行される。

このオフライン学習フェーズを実施するために、画像を学習するデータベースおよびグラウンドトゥルース情報を含むテーブルのセットが、従来の方法では使用される。機械学習アルゴリズムが、画像データベースからのニューラルネットワークの重みを初期化するために、実装される。現存する解決法では、重みを初期化するこのフェーズは、「オフライン」、すなわち車両制御システムの使用のフェーズの外、で実装される。

このようにして固定された重みを有するニューラルネットワークは、次いで、車両の環境内の物体の特徴を推定する、たとえば車両の環境内の物体を検出するまたは運転支援システムのオンライン動作中に検出された物体の軌道を予測する、ためにオンラインで実装される汎化フェーズと呼ばれるもので使用され得る。

したがって、現存する解決法では、ニューラルネットワークの重みを設定することを可能にする学習フェーズが、オフラインで実行され、物体特徴の推定は、次いで、これらの固定の重みに基づいてオンラインで（すなわち、車両制御システムの動作中に）実施される。

しかしながら、そのような学習は、車両の動作中にリアルタイムで収集される新しい画像を考慮することを可能にせず、静的データベースに記憶された学習データに制限される。先験的に知られていない、定義による、検出された物体では、リアルタイムでモデルのパラメータ（ニューラルネットワークの重み）を更新することは不可能である。したがって、行われる新しい予測は、モデルパラメータ（ニューラルネットワークの重み）を更新せずに実施され、したがって、信頼できないことがある。

様々な学習解決法が、運転支援に関して提案された。

たとえば、米国特許第１０２５４７５９（Ｂ１）号は、オフライン強化学習技法を使用する方法およびシステムを提案する。そのような学習技法は、仮想対話エージェントをトレーニングするために使用される。それらは、車両における運転支援システムに適さないシミュレーションシステムにおける学習のための観測情報の抽出に基づく。具体的には、そのような手法は、融合システムによって提供されるデータに基づく予測を連続して改良することを可能にする、オンラインの、埋め込まれた解決法を提供することを可能にしない。さらに、この手法は、車両における物体軌道予測または物体検出に適さない。

米国特許出願公開第２０１８／０１２４４２３（Ａ１）号は、過去の軌道に基づいてシーン内のエージェントの予測サンプルを決定するための軌道予測方法およびシステムについて記述している。予測サンプルは、エージェント間の対話および意味論的シーン文脈を組み込む確率スコアに基づくスコアと関連する。予測サンプルは、反復を横断してシーン文脈およびエージェント対話を蓄積する回帰関数を使用して、反復して絞り込まれる。しかしながら、そのような手法もまた、車両における軌道予測および物体検出には適さない。

米国特許出願公開第２０１９／０１８４５６１（Ａ１）号は、ニューラルネットワークに基づく解決法を提案した。この解決法は、エンコーダおよびデコーダを使用する。しかしながら、この解決法は、ライダデータにおよびオフライン学習に極めて特有の入力を使用する。さらに、そのような解決法は、意思決定または計画立案支援技法に関し、車両における軌道予測または物体検出にも適さない。

したがって、現存する解決法は、機械学習に基づいて車両の環境において検出された物体の特徴の推定を改良することを可能にしない。

したがって、車両の環境において検出された物体に関して特徴の改良された推定を提供する能力を有する機械学習ベースの車両制御デバイスおよび方法が必要とされている。

本発明は、車両に実装された制御デバイスを提案することによって状況を改善することを目指し、車両は、センサのセットを使用する認知システムを備え、各センサは、データを提供し、認知システムは、車両の環境において検出された１つまたは複数の物体に関して少なくとも１つの特徴を含む変数を推定するための推定デバイスを備え、推定デバイスは、ニューラルネットワークを使用して変数を推定するオンライン学習モジュールを備え、ニューラルネットワークは、重みのセットに関連している。有利には、学習モジュールは、以下を備え得る：
－変数の推定を含む予測出力を提供するように、ニューラルネットワークの入力において適用された１つまたは複数のセンサからのデータを伝搬するように構成された順方向伝搬モジュール、
－予測値のうちの少なくともいくつかに基づいて少なくとも１つのセンサ融合アルゴリズムを実装することによって融合出力を決定するように構成された融合システム、
－融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって並びに勾配降下逆伝搬を実行することによってニューラルネットワークオンラインに関連する重みを更新するように構成された逆伝搬モジュール。

１つの実施形態において、変数は、認知システムによって検出された物体の位置および／または運動に関して情報を含む状態ベクトルでもよい。

有利には、状態ベクトルはさらに、１つまたは複数の検出された物体に関して情報を含み得る。

状態ベクトルはさらに、目標物体の軌道パラメータを含み得る。

１つの実施形態において、改良された予測値が、カルマンフィルタを適用することによって、決定され得る。

１つの実施形態において、デバイスは、推定デバイスによって予測された出力および／または融合システムによって配信された融合出力を記憶するように構成された再生バッファを備え得る。

いくつかの実施形態において、デバイスは、再生バッファにおける記憶に先立ってデータを符号化および圧縮するように構成されたリカレントニューラルネットワークエンコーダと、再生バッファから抽出されたデータを復号および展開するように構成されたデコーダとを備え得る。

具体的には、エンコーダは、リカレントニューラルネットワークエンコーダでもよく、デコーダは、対応するリカレントニューラルネットワークデコーダでもよい。

いくつかの実施形態では、再生バッファは、優先され得る。

デバイスは、ニューラルネットワークの入力において適用された入力データを検査するための条件を実装することができ、入力データは、この入力サンプルについて予測された値と融合出力との間の損失関数が、定義済み閾値未満になり得る場合、再生バッファから削除される。

車両において実装される制御方法もまた提案され、車両は、センサのセットを使用する認知システムを備え、各センサは、データを提供し、制御方法は、車両の環境において検出された１つまたは複数の物体に関して少なくとも１つの特徴を含む変数を推定することを含み、推定は、ニューラルネットワークを使用して変数を推定するオンライン学習ステップを実装し、ニューラルネットワークは、重みのセットと関連している。有利には、オンライン学習ステップは、以下のステップを含み得る：
－ニューラルネットワークの入力において適用された１つまたは複数のセンサからのデータを伝搬し、それにより、変数の推定を含む予測出力を提供するステップ、
－予測値のうちの少なくともいくつかに基づいて少なくとも１つのセンサ融合アルゴリズムを実装することによって融合出力を決定するステップ、
－勾配降下逆伝搬を実行することによって、融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって、オンラインでニューラルネットワークに関連する重みを更新するステップ。

本発明の他の特徴、詳細および利点が、例として与えられる添付の図面を参照して与えられる説明を読むときに明らかになろう。

本発明のいくつかの実施形態による、検出された物体の特徴を推定するために機械学習を使用する運転支援システムを示す図である。本発明のいくつかの実施形態による、推定デバイスを示す図である。１つの例示的実施形態による、運転支援システム１０を示す簡略図である。いくつかの実施形態による、ニューラルネットワークオンライン学習方法を示す流れ図である。軌道予測への本発明の１つの適用例における、１つの例示的実施形態による学習方法を示す流れ図である。認知システムが物体軌道予測適用例のために単一のスマートカメラセンサを使用する、制御システムの１つの例示的実装形態を示す図である。ニューラルネットワークによって予測されたデータの符号化／復号を使用する制御システムのもう１つの例示的実施形態を示す図である。

図１は、モバイル装置１、たとえば車両、に埋め込まれた制御システム１０を示す。残りの記述は、非制限的例として、車両であるモバイル装置を参照して与えられることになる。

制御システム１０（以下「運転支援システム」とも称される）は、複雑な運転動作もしくは操作を実行する際に運転者を助ける、危険な状況を検出および回避する、および／または車両１へのそのような状況の影響を制限するように構成される。

制御システム１０は、車両に埋め込まれた、認知システム２および融合システム３を備える。

制御システム１０はさらに、計画立案および意思決定支援ユニットと１つまたは複数のコントローラ（図示せず）とを備え得る。

認知システム２は、車両および／または車両の環境に関して変数を測定するために車両１に配置された１つまたは複数のセンサ２０を備える。制御システム１０は、車両１の認知システム２によって提供される情報を使用して車両１の動作を制御する。

運転支援システム１０は、車両１の認知システム２によって提供される情報を使用することによっておよびニューラルネットワーク５０を使用するオンライン機械学習ＭＬアルゴリズムを実装することによって車両１の環境において検出された１つまたは複数の物体の特徴を表す１つまたは複数の物体特徴に関して変数を推定するように構成された推定デバイス１００を備える。

最初に、学習は、センサによってキャプチャされたデータに対応する変数について観測された過去の（グラウンドトゥルース）観測値を記憶する学習データベース１２から、ニューラルネットワークの重みを学習するために、実装される。

有利には、オンライン学習はさらに、認知システム２によって予測された出力に基づいて決定された、融合システム３によって配信された出力を使用して、および融合システム３からの出力から導出された改良された予測値と認知システム２によって配信された予測出力との間の誤差を決定して、ニューラルネットワークの重みを更新するために、車両の動作中に実装される。

ニューラルネットワーク５０の重みは、ニューラルネットワークによって表されたニューラルまたは認知モデルのパラメータを形成する。

学習データベース１２は、物体（たとえば乗用車）のおよび道路の画像と、各画像に関連して、グラウンドトゥルースに対応する物体特徴に関する変数の期待値とを、を含み得る。

推定デバイス１００は、オンラインで更新された最新のモデルパラメータ（重み）を有するニューラルネットワークを使用することによってセンサ２００によってキャプチャされた画像の物体特徴変数を、いわゆる汎化フェーズにおいて、推定する（または予測する）ように構成される。有利には、予測変数自体が、認知システム２によって予測された変数と融合システム３によって融合の後に取得された変数の値との間の誤差に基づいてニューラルネットワーク５０の重みを更新するために使用される。

運転支援システム１０の動作中にオンラインで実施される、そのような学習は、先行技術からの手法に従って事前に「オフライン」で決定された固定の重みを使用するのではなくて、動的にまたは準動的に、ニューラルネットワーク５０の重みによって表された、モデルのパラメータを更新することを可能にする。

いくつかの実施形態において、推定デバイス１００によって推定される変数は、物体検出への適用例における、車両、たとえば別の車両、の環境において検出された物体に関する位置情報、あるいは、目標物体軌道予測への適用例における、目標物体軌道データを含み得る。

制御システム１０は、融合システム３によって配信された情報に基づいて車両の運転または安全性を制御することに関して制御方法を実装するように構成された１つまたは複数の制御アプリケーション１４、たとえば、車両間の距離を規制することができるクルーズ制御アプリケーションＡＣＣ、を実装するように構成され得る。

認知システム２のセンサ２００は、制限しないで、たとえば、１つまたは複数のライダ（ＬａｓｅｒＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ：レーザ検出および測距）センサ、１つまたは複数のレーダ、可視で動作するカメラおよび／または赤外線で動作するカメラでもよい、１つまたは複数のカメラ、１つまたは複数の超音波センサ、１つまたは複数のハンドル角度センサ、１つまたは複数の車輪速度センサ、１つまたは複数のブレーキ圧力センサ、１つまたは複数のヨーレートおよび横加速センサなどのような、様々なタイプのセンサを含み得る。

推定デバイス１００によって検出することができる車両１の環境内の物体は、移動する物体、たとえば、車両の環境内を進む車両など、を含む。

認知システム２が車両１の環境内の物体を検出するためのセンサ（たとえば、ライダおよび／またはレーダ）を使用する実施形態において、推定デバイスによって推定される物体特徴変数は、たとえば、レーダによって検出された各物体の物体パラメータのセットを含む状態ベクトルでもよく、たとえば以下が挙げられる：
－検出された物体のタイプ、
－検出された物体に関連する位置、および
－共分散マトリクスによって表された不確実性測度。

融合システム３は、１つまたは複数の処理アルゴリズム（融合アルゴリズム）を様々なセンサ２００からの情報に基づいて認知システム２によって予測された変数に適用するようにおよび様々なセンサからの情報に基づいて物体について予測された変数に基づいて決定されたそれぞれの検出された物体の統合された予測変数に対応する融合出力を提供するように構成される。たとえば、センサ情報２００に基づいて推定デバイス１００によって予測された、検出された物体の位置情報について、融合システム３は、検出された物体の改良されたビューに対応するより正確な位置情報を提供する。

認知システム２は、埋め込まれたセンサ２００に基づいて認知システム２の性能を較正することによってオフラインで定義され得る認知パラメータと関連し得る。

有利には、制御システム１０は、以下のことを行うように構成され得る：
－現在の時間に関して、融合ユニット３からの過去のおよび／または未来の出力データ（融合データ）を使用すること、
－そのような過去のおよび／または未来の融合データを処理して現在の時間における融合ユニット３からの出力のより正確な推定を決定すること（それによって、融合システムからの改良された出力を提供すること）、
－学習データベース１２に記憶された、グラウンドトゥルースデータの代わりのものとして融合システム３からのそのような改良された出力を使用して、認知モデルの監督された「オンライン」学習を実行し、物体特徴変数の推定（たとえば車両の環境内の物体を検出するためにおよび／または目標物体の軌道を予測するために使用される）を改良すること。

したがって、オンライン学習は、推定デバイス１００からの遅延出力に基づき得る。

したがって、本発明の実施形態は、有利には、融合システム３からの出力を使用してオンラインでニューラルネットワークの重みを更新する。

具体的には、推定デバイス１００は、以下を実装するニューラルネットワーク５０ベースのＭＬ学習ユニット５を備え得る：
－画像データベース１２からニューラルネットワーク５０をトレーニングするための初期学習（またはトレーニング）フェーズ、
－検出された物体特徴変数（たとえば検出された物体位置または物体軌道予測）を現在の重みに基づいて推定する（または予測する）ための汎化フェーズ、
－融合システムからの出力（フェーズＢに予測変数に基づいて決定された）に基づいてニューラルネットワーク５０の重みを更新するためのオンライン学習、このようにして更新された重みは、汎化フェーズにおいて新しい推定のために使用される。

ＭＬ（機械学習）学習アルゴリズムは、たとえば、１つまたは複数のセンサから入力画像を得ることと、検出された物体（たとえば乗用車）の数および汎化フェーズにおいて検出された物体の位置を含む推定変数（認知システム２によって予測された出力）を返すこととを可能にする。この推定変数の推定（認知システム２によって予測された出力）は、統合された予測変数に対応する融合出力を提供する、融合システム３によって改良される。

ニューラルネットワークは、生物学的ニューラルネットワークの動作を模倣する計算モデルである。ニューラルネットワークは、デジタルメモリ（たとえば、抵抗構成要素）の形で一般に実装されるシナプスによって相互接続されたニューロンを含む。ニューラルネットワーク５０は、入力信号を運ぶ入力層とニューラルネットワークおよび１つまたは複数の中間層によって行われる予測の結果を運ぶ出力層とを含む、複数の連続層を含み得る。ニューラルネットワークの各層は、前の層の出力からそれの入力を得る。

ニューラルネットワーク５０の層の入力でおよび出力で伝搬される信号は、デジタル値（信号の値でコード化された情報）、またはパルスコーディングの場合には電気パルスでもよい。

ニューラルネットワーク５０のニューロンの間の各接続（「シナプス」とも称される）は、重みθ（ニューラルモデルのパラメータ）を有する。

ニューラルネットワーク５０のトレーニング（学習）フェーズは、汎化フェーズにおいて使用するためのニューラルネットワークの重みを決定することにある。

ＭＬ（機械学習）アルゴリズムは、これらの重みを最適化するために、学習フェーズにおいて適用される。

融合システム３からの出力を含む多数のデータを用いてオンラインでニューラルネットワークによって表されたモデルをトレーニングすることによって、ニューラルネットワーク５０は、１つの重みが別の重みに対して有した重要度をより正確に学習することができる。

初期学習フェーズ（オフラインで起こり得る）において、ニューラルネットワーク５０は、第１に、重みをランダムに初期化し、勾配降下アルゴリズムを使用して、損失関数を使用して計算された、トレーニングベースから引き出された入力サンプルを有するニューラルネットワーク５０から取得された出力（予測出力）とニューラルネットワークからの目標出力（期待出力）との間の誤差が減少するかどうかをチェックすることによって、重みを調整する。このフェーズの多数の反復が、実装され得、そこで、重みは、誤差がある特定の値に達するまで、各反復で更新される。

オンライン学習フェーズにおいて、ニューラルネットワーク５０は、以下の間の誤差に基づいて、重みを調整する：
－センサ２００によって提供された画像に応答して取得されたニューラルネットワーク５０によって配信された出力（予測出力）と、
－推定デバイスによって予測されたそのような出力（改良された予測出力）に基づいて、統合された融合出力から導出された値。

認知システムの予測と融合出力との間の誤差は、勾配降下アルゴリズムを使用して、損失関数Ｌによって表される。このフェーズの多数の反復が、実装され得、そこで、重みは、誤差がある特定の値に達するまで、各反復で更新される。

学習ユニット５は、そのような入力に応答して、予測出力と呼ばれる、出力を生み出すことになる、ニューラルネットワーク５０への入力（サンプル）を、オンライン学習フェーズの各反復において、適用するように構成された順方向伝搬モジュール５１を備え得る。

学習ユニット５は、勾配降下逆伝搬アルゴリズムを適用することによってニューラルネットワークの重みを決定するために誤差を逆伝搬するための逆伝搬モジュール５２をさらに備え得る。

ＭＬ学習ユニット５は、有利には、融合出力から導出された改良された予測出力と認知システム２によって配信された予測出力との間の誤差を逆伝搬する並びに「オンライン」でニューラルネットワークの重みを更新するように構成される。

したがって、学習ユニット５は、動的にまたは準動的に「オンライン」の（リアルタイムまたは非リアルタイムでの）予測のためにニューラルネットワーク５０をトレーニングすることと、それによってより信頼できる予測を取得することとを可能にする。

推定デバイス１００が認知システム２によって（たとえばレーダによって）検出された物体の特徴を決定するように構成された実施形態において、推定デバイス１００は、たとえば、予測された位置情報のセットを含む物体状態ベクトルを表す予測出力（認知出力）を提供することができる。認知システム２は、推定デバイス１００によって決定されるものとして、様々な検出された物体に対応する物体状態ベクトル（認知物体状態ベクトル）を、融合システム３に、送信することができる。融合システム３は、検出された物体の認知システム２によって決定された状態ベクトルに基づいて、認知出力より正確なそれぞれの検出された物体の統合された物体状態ベクトル（融合出力）を決定するために、融合アルゴリズムを適用することができる。有利には、様々な物体について融合システム３によって決定された、統合された物体状態ベクトル（以下「改良された物体状態ベクトル」とも称される）は、以下の間の誤差に基づいて重みを更新するために、オンライン学習ユニット５の逆伝搬モジュール５２によって、使用され得る：
－融合システム３からの出力から導出された改良された予測出力（改良された物体状態ベクトル）と、
－認知システム２からの出力（認知物体状態ベクトル）。

運転支援システム１０は、融合システム３から導出された改良された予測出力（改良された物体状態ベクトル）と認知システム２からの出力（認知物体状態ベクトル）との間の誤差を計算するための誤差計算ユニット４を備え得る。

したがって、計算された誤差は、損失関数によって表される。この損失関数は、次いで、認知モデルのパラメータを更新するために使用される。「ニューラルモデル」とも称される、認知モデルのパラメータは、推定デバイス１００によって使用されるニューラルネットワーク５０の重みθに対応する。

逆伝搬アルゴリズムは、有利には、損失関数の勾配（損失関数の勾配は、以下で

と示されることになる）に基づく確率勾配降下アルゴリズムでもよい。

逆伝搬モジュール５２は、勾配降下逆伝搬アルゴリズムを実装することによって機械学習モデルのパラメータ（ニューラルネットワークの重み）に関して損失関数の偏導関数（誤差計算ユニット４によって決定される誤差メトリック）を計算するように構成され得る。

このように、ニューラルネットワークの重みは、融合システム３の出力において提供される各更新時に、故に誤差計算ユニット４によって計算された誤差メトリックの各更新時に、更新（調整）され得る。

融合システム３と認知システム２との間のそのようなインターフェースは、有利には、「オンライン」逆伝搬を実装することを可能にする。

重みは、車両１がＶ２Ｘ通信手段を備えている（たとえば、自律型車両である）とき、ローカルにまたはリモートで、たとえばＶ２Ｘ通信を使用して、更新され得る。

このようにして更新された重みは、物体検出またはオンライン学習のために使用される誤差メトリックを生成するために使用された物体軌道予測のために使用された重みのわずかな修正に対応する。次いでそれらは、フィードバックループにおいて、再びオンラインで重みを更新するために反復して使用されることになる検出された物体に関して新しい情報を順番に提供する、センサによって実行される新しい物体検出または軌道予測のために使用され得る。

認知または予測モデルの重みのそのような反復オンライン更新は、認知または予測モデルを増加的におよび連続して改良することを可能にする。

したがって、物体状態ベクトルの推定は、誤差逆伝搬を介してオンライン学習に適した誤差測度を決定するために使用され得る。

したがって、本発明の実施形態は、予測が遅れた場合でも、並行して使用され得る、検出された物体特徴のより正確な予測（たとえば、物体検出および／または物体軌道予測）を可能にする。

図２は、いくつかの実施形態による、推定デバイス１００を示す図である。

そのような実施形態において、推定デバイス１００は、学習ユニット５によって使用するための融合システム３および／または認知システム２によって返される物体情報を符号化および圧縮するように構成されたエンコーダ１００１を備え得る。１つの実施形態において、エンコーダ１００１は、リカレントニューラルネットワーク（ＲＮＮ）、たとえばＬＳＴＭ（「長短期記憶」の頭字語）ＲＮＮ、のためのエンコーダでもよい。そのような実施形態は、特に、物体情報が大きなメモリを必要とする場合、たとえば、物体軌道予測のために使用される物体軌道情報など、に適する。残りの記述は、非制限的例として、主にＲＮＮエンコーダ１００１を参照して与えられることになる。

推定デバイス１００はさらに、圧縮された物体データ（たとえば、物体軌道データ）を記憶するように構成された経験再生バッファ１００２を備え得る。

１つの実施形態において、推定デバイス１００は、再生バッファ１００２からのデータのフィルタリングまたは遅延サンプリングを使用して、「独立したおよび一様分布した」データではないデータを「独立したおよび一様分布した」（「ｉｉｄ（ｉｎｄｅｐｅｎｄｅｎｔａｎｄｉｄｅｎｔｉｃａｌｌｙｄｉｓｔｒｉｂｕｔｅｄ）」）データに変形するように構成された変形ユニット１００３を備え得る。

実際には、いくつかの実施形態において、推定デバイス１００によって実装される推定方法が、たとえば、軌道予測アルゴリズムに基づくとき、推定デバイスによって使用されるデータは、好ましくは、独立したおよび一様分布した（「ｉｉｄ」）データである。

実際には、強く相関するサンプルは、勾配降下アルゴリズムによって実行される勾配推定について満たされる必要がある、データが独立および一様分布している（ｉｉｄ）という仮定をゆがめ得る。

再生バッファ１００２は、バッファ１００２に前に記憶されたデータを消去することによって、それらが到着するときに順次にデータを収集するために使用され得、それによって、学習を増進することを可能にする。

オンライン学習中に重みを更新するために、データのバッチが、再生バッファ１００２からランダムにサンプリングされ、ニューラルモデルの重みを更新するために使用され得る。いくつかのサンプルは、重みパラメータの更新に関して他よりも大きな影響力を有し得る。たとえば、損失関数

のより大きな勾配は、重みθのより大きな更新につながり得る。１つの実施形態において、バッファ１００２におけるストレージはさらに優先され得るおよび／または優先バッファ再生が実装され得る。

そのような実施形態では、したがって推定デバイス１００は、圧縮および符号化された並びに次いでバッファ１００２に記憶された物体データ（たとえば、軌道データ）を使用して、ニューラルネットワークをトレーニングするために、オンラインおよび漸進的機械学習を実行することを可能にする。

デコーダ１００４は、再生バッファ１００２から抽出されたデータを復号するために使用され得る。デコーダ１００４は、エンコーダ１００１によって実装される動作と反対の動作を実行するように構成される。したがって、ＲＮＮエンコーダ１００１が使用される実施形態において、ＲＮＮデコーダ１００４も使用される。

本発明の実施形態は、有利には、融合システム３からの出力と認知システム２からの出力との間のフィードバックループを提供する。

したがって、本発明の実施形態は、情報の精度が、個々のセンサ２００に関連するそれぞれの認知ユニット２０によって提供される情報と比較して融合システム３からの出力において改良されるように、複数のセンサ２００によって検出されたそれぞれの物体に関連する情報を統合することを可能にする。認知システム２からの出力と融合システム３からの出力との間の誤差が、計算され、「オンライン」学習および認知モデルの重み（ニューラルネットワーク５０の重み）の更新を導くために使用される。誤差は、次いで、ニューラルネットワークモデル５０に逆伝搬され、ニューラルネットワークモデルの各パラメータ（すなわち、重み）の誤差関数（「コスト機能」とも称される）の偏導関数が、計算される。

図３は、１つの例示的実施形態による、運転支援システム１０の動作を示す簡略図である。

図３の例では、非制限的例として、２つのセンサ２００のパイプラインが考慮される。畳み込みニューラルネットワークＣＮＮベースのモデルがカメラセンサ２００およびライダセンサ２００によって実行される物体検出のために使用される、とさらに仮定する。しかしながら、本発明は、より一般的には、認知システム２の後に融合システム３が続くパイプラインにおけるオンライン学習を実行する能力を有する任意のニューラルネットワークモデルに適用され得ることに留意されたい。

より一般的に、Ｍセンサのパイプラインを考慮して、Ｍセンサのうちの各センサ２００－ｉがＰ物体を検出すると仮定すると、各センサの推定デバイス１００によって推定される変数およびセンサ２００－ｉによって検出されるそれぞれの第ｋの物体は、以下を含む状態ベクトルによって、表すことができる：
－選択された横軸ｘおよび縦軸ｙを有するデカルト座標系における物体Ｏｂｊ_ｋの位置（ｘ_ｋｉ，ｙ_ｋｉ）、
－センサ２００－ｉによって行われる予測の不確実性の測度をキャプチャする物体Ｏｂ_ｊｋに関連する共分散マトリクスＣｏｖ_ｋｉ。

図３の例では、たとえば、２つのセンサ２００－１および２００－２が考慮され、第１のセンサ２００－１はカメラであり、第２のセンサ２００－２はライダであり、各センサは、２つの同一の物体Ｏｂｊ_１およびＯｂｊ_２をそれぞれ検出する。

第１のカメラ（「Ｃ」）センサ２００－１によってキャプチャされたデータに基づいて予測された変数は次いで、以下を含み得る：
－物体Ｏｂｊ_１の以下の状態ベクトル：第１の物体Ｏｂｊ１の位置データｘ_１Ｃ、ｙ_１Ｃおよび共分散マトリクスＣｏｖ_１Ｃを含む、｛ｘ_１Ｃ，ｙ_１Ｃ，Ｃｏｖ_１Ｃ｝、
－物体Ｏｂｊ_２の以下の状態ベクトル：第２の物体Ｏｂｊ_２の位置データｘ_２Ｌ、ｙ_２Ｌおよび共分散マトリクスＣｏｖ_２Ｌを含む、｛ｘ_２Ｌ，ｙ_２Ｌ，Ｃｏｖ_２Ｌ｝。

第２のライダ（「Ｌ」）センサ２００－２によってキャプチャされたデータに基づいて予測された変数は、以下を含み得る：
－物体Ｏｂｊ１の以下の状態ベクトル：第１の物体Ｏｂｊ１の位置データｘ_１Ｓ、ｙ_１Ｓと第１の物体におよびセンサ２００－１に関連する共分散マトリクスＣｏｖ_１Ｓとを含む、｛ｘ_１Ｓ，ｙ_１Ｓ，Ｃｏｖ_１Ｓ｝、
－物体Ｏｂｊ２の以下の状態ベクトル：第２の物体Ｏｂｊ２の位置データｘ_２Ｌ、ｙ_２Ｌと第２の物体におよびセンサ２００－２に関連する共分散マトリクスＣｏｖ_２Ｌとを含む、｛ｘ_２Ｌ，ｙ_２Ｌ，Ｃｏｖ_２Ｌ｝。

認知システムによって提供されるものとしての検出された物体に関する情報は、次いで、第１の物体Ｏｂｊ１の統合された位置データ（ｘ_ｋＳ，ｙ_ｋＳ）と第１の物体に関連する統合された共分散マトリクスＣｏｖ_ｋＳとを含む状態ベクトル（ｘ_ｋＳ，ｙ_ｋＳ，ＣｏｖｋＳ）を、それぞれの検出された物体Ｏｂｊｋについて含む統合された予測変数（融合出力）を、統合されたセンサ情報に基づいて、決定する、融合システム３によって（前記情報を融合させることによって）統合され得る。

座標（ｘ_ｋＳ，ｙ_ｋＳ）は、各物体ｋおよび各センサ２００－ｉについて提供された情報（ｘｉｋ，ｙｉｋ）に基づいて、決定される。共分散マトリクスＣｏｖ_ｋＳは、各物体ｋおよび各センサｉについて提供された情報Ｃｏｖ_ｋｉに基づいて、決定される。

カメラセンサおよびライダセンサを含む２つのセンサ、２つの物体を検出する２つのセンサを考慮した例において、融合ユニット２によって統合されたものとしての検出された物体に関する情報は、以下を含む：
－物体Ｏｂｊ１の以下の状態ベクトル：情報ｘ_１Ｃ、ｙ_１Ｃ、ｘ_１Ｌ、ｙ_１Ｌに基づく第１の物体Ｏｂｊ１の統合された位置データとＣｏｖ_１ＣおよびＣｏｖ_１Ｌに基づく第１の物体に関連する統合された共分散マトリクスとを含む｛ｘ_１Ｓ，ｙ_１Ｓ，Ｃｏｖ_１Ｓ｝、
－物体Ｏｂｊ２の以下の状態ベクトル：情報ｘ_２Ｃ、ｙ_２Ｃ、ｘ_２Ｌ、ｙ_２Ｌに基づく第２の物体Ｏｂｊ２の統合された位置データとＣｏｖ_２ＣおよびＣｏｖ_２Ｌに基づく第２の物体に関連する統合された共分散マトリクスとを含む｛ｘ_２Ｓ，ｙ_２Ｓ，Ｃｏｖ_２Ｓ｝。

それぞれの第ｋの物体の融合ユニット２によって提供されるポジショニング情報ｘ_ｋＳ、ｙ_ｋＳは、センサ２００－ｉによって個々に提供されるポジショニング情報に関連する不確実性以下の関連不確実性を有する。したがって、認知システム２からの出力と融合ユニット３からの出力との間の測定可能な誤差が存在する。

確率勾配降下逆伝搬アルゴリズムは、ニューラルネットワーク５０の重みを更新するために、損失関数によって表された、認知システム２からの出力と融合ユニット３からの出力との間のこの誤差を使用する。

したがって、融合システム３からの出力と認知システム２の入力との間のフィードバックループは、推定デバイス１００によって使用される、ニューラルネットワーク５０によって表されたモデルの重みをオンラインで更新するために誤差メトリックを使用することを可能にする。したがって、誤差メトリックは、オンライン学習のための学習モジュール５のための入力として使用され、その一方で、オンライン学習からの出力は、ニューラルネットワーク５０によって表された認知モデルを更新するために使用される。したがって、推定デバイス（検出または予測）の精度は、「オフライン」で重みの学習および更新を実行する、先行技術の運転支援システムと比べて連続して改良される。

図４は、いくつかの実施形態による、ニューラルネットワークオンライン学習方法を示す流れ図である。

ＭＬ学習ベースの学習方法は、パラメータθ（ニューラルネットワークの重み）のセットと、以下によってパラメータ化される１つまたは複数のニューラルネットワーク５０とを使用する：
－ｘ＝ｉｍａｇｅ_ｋで示される、「入力サンプル」とも称される、入力データに応答してニューラルネットワークによって予測された値

。出力または予測値

は、以下によって定義される：

、
－以下の間の誤差を定義する損失関数

とも称される、コスト機能：
・融合システム３からの出力ｙ_{ｆｕｓｉｏｎ}から導出された改良された予測値ｙ_ｋ、認知システム２によって配信された予測出力

に基づいて計算される融合出力、および、
・１つまたは複数のセンサ２００によってキャプチャされた画像を表す入力データに応答してニューラルネットワークによって予測された値

。

（リアルタイムのまたは非リアルタイムの、遅延または非遅延）融合システム３は、実際には、融合システム３によって実装される１つまたは複数の融合アルゴリズムを適用した後に取得される物体データ

のより正確な推定ｙ_{ｆｕｓｉｏｎ}を提供する。

いくつかの実施形態において、融合出力ｙ_{ｆｕｓｉｏｎ}から導出された改良された予測値ｙ_ｋ（

とも示される）は、変形ユニット１００３によって実施される処理動作を実行することによって、たとえばカルマンフィルタを適用することによって、取得され得る。１つの実施形態において、改良された予測値ｙ_ｋは、融合出力ｙ_{ｆｕｓｉｏｎ}自体でもよい。

学習方法は、以下をさらに使用する：
－損失関数

の近似値、
－以下のような、ネットワークパラメータの勾配降下を通した重みθの更新：

、ただし、

は損失関数の勾配を表す。

より正確には、ステップ４００で、１つまたは複数の検出された物体に対応する画像ｘが、認知システム２のセンサ２００によってキャプチャされ、ニューラルネットワーク５０に適用される。

ステップ４０２で、ニューラルネットワーク５０によって予測された出力を表す、入力ｘへのニューラルネットワーク５０からの応答

が、以下に従って、重みθの現在の値を使用して、決定される：

この入力ｘに応答して予測された出力

は、車両の環境において検出された物体の特徴に関して推定デバイス１００によって推定される変数に対応する。たとえば、推定デバイス１００によって推定される変数が、検出された物体の位置データおよび関連共分散マトリクスを含む物体状態ベクトルである、物体検出への適用例において、センサ２００によってキャプチャされた画像ｘについての予測出力

は、検出された画像ｘに基づいてニューラルネットワークによって予測された状態ベクトルを表す。

ステップ４０３で、入力ｘおよび取得された予測出力

を含む値のペアが、メモリに記憶され得る。

ステップ４０２および４０３は、様々なセンサ２００によって得られたキャプチャに対応する画像ｘについて繰り返される。

ステップ４０４で、融合システム３に送信するための条件が検出された（たとえば、所与のまたは定義済み時間の満了）とき、様々な予測値

に対応する、融合出力ｙ_{ｆｕｓｉｏｎ}が、認知システム２によって計算され、それによって、検出された物体の特徴に関する変数の改良された推定（たとえば、目標物体の位置データまたは軌道データ）を提供する。融合出力ｙ_{ｆｕｓｉｏｎ}は、様々なセンサ２００に対応する様々な予測値

に少なくとも１つの融合アルゴリズムを適用することによって、決定される。

１つの実施形態において、定義済み期間（たとえば５秒）の間に蓄積された観測結果に対応するサンプルは、優先されてもされなくてもよい、経験再生バッファ１００２に記憶され得る。１つの実施形態において、サンプルは、再生バッファ１００２に記憶される前にエンコーダ１００１（たとえば、ＲＮＮエンコーダ）によって事前に圧縮および符号化され得る。

ステップ４０６で、融合システムからの融合出力から導出された改良された予測出力ｙ_ｋと認知システム２からの出力

との間の誤差が、計算される。

改良された予測出力ｙ_ｋは、処理動作（たとえば変形ユニット１００３によって実装される、カルマンフィルタリング）を適用することによって融合システムからの出力から導出される出力（

で示される）でもよい。１つの実施形態において、融合出力は、改良された予測出力として直接に使用され得る。この誤差は、損失関数

によって表される。誤差関数は、デコーダ１００４による可能な復号の後にバッファ１００２に記憶されたデータに並びに改良された予測出力ｙ_ｋに基づいて、決定され得る。

ステップ４０８で、ニューラルネットワークの重みは、損失関数の勾配

を決定するために、確率勾配降下逆伝搬アルゴリズムを適用することによって、更新される。

重みは、それぞれの重みθを値

で置き換えることによって、更新され得る

ステップ４０４および４０８は、収束条件が検出されるまで、繰り返され得る。

したがって、運転支援システム１０は、連続しておよびオンラインで更新される重みθのセットによってパラメータ化されたニューラルネットワークを使用する、オンラインの、漸進的学習を実装することを可能にする。

１つの実施形態において、ニューラルネットワーク５０によって予測された出力ｙ_ｋは、融合システム３からの前の出力に対応する入力値へのニューラルネットワーク５０からの応答でもよい。そのような実施形態において、改良された予測出力

は、たとえばカルマンフィルタリングを介する、処理後の融合システム（３）からの出力に基づいて計算される出力である。そのような実施形態において、誤差関数は、融合システムからの出力から導出される改良された予測出力と融合システムからの出力との間で決定される。

１つの実施形態において、ニューラルネットワーク５０によって予測された出力ｙ_ｋは、センサ２００によって得られたリアルタイムのキャプチャに対応する入力値へのニューラルネットワーク５０からの応答でもよい。そのような実施形態において、改良された予測出力

は、たとえばカルマンフィルタリングを介する、処理後の融合システム（３）からの出力に基づいて計算された出力、または融合出力自体でもよい。そのような実施形態において、誤差関数は、融合システムからの出力から導出された改良された予測出力と認知システムからの出力との間で決定される。

は、たとえばカルマンフィルタリングを介する、処理後の融合システム（３）からの出力に基づいて計算される出力である。そのような実施形態において、誤差関数は、融合システムからの出力から導出された改良された予測出力と融合システムからの出力との間で決定される。

本発明は、物体位置ｘ、ｙおよび共分散マトリクスを含む状態ベクトルタイプの推定デバイス１００によって推定される変数に制限されないことが、当業者には容易に理解されよう。

たとえば、物体検出への本発明の１つの適用例において、ニューラルネットワーク５０は、たとえば、ＹＯＬＯニューラルネットワーク（検出を実行する前に一度だけ画像をロードする畳み込みニューラルネットワーク）でもよい。

そのような例示的実施形態において、物体を検出するために、境界ボックスが、ニューラルネットワーク５０によって、対象物体の周りに予測され得る。各境界ボックスは、推定デバイス１００によって推定される変数を構成するおよび、たとえば、以下を含む各物体の物体特徴のセットを含む関連ベクトルを有する：
－プレゼンスｐ_ｃの物体確率と、
－デカルト座標系において境界ボックス（ｂ_ｘ，ｂ_ｙ，ｂ_ｈ，ｂ_ｗ）の位置を定義する座標と、
－１つまたは複数のクラス（ｃ_１、ｃ_２、…、ｃ_Ｍ）、たとえば、乗用車クラス、トラッククラス、歩行者クラス、バイククラスなどに属する物体の確率。

物体検出への本発明の１つの例示的適用例において、予測融合出力ｙ_{ｆｕｓｉｏｎ}から導出される改良された予測出力

の決定は、カルマンフィルタリング技法を使用することができる。そのようなフィルタリング処理動作は、変形ユニット１００３によって実装され得る。

したがって、融合システム３は、カルマンフィルタリングを使用して、ｙ_ｋの物体データの改良された推定

（統合された検出物体データまたは予測データ）を提供することができる。

ｋ=０からＮについて、時間ｋにおける状態ベクトルｘ_ｋについての以下の方程式が、考慮される：
ｘ_ｋ＋１=Ａ_ｋｘ_ｋ＋ｕ_ｋ＋α_ｋ（ガウスノイズを表すα_ｋを有する予測モデル）
ｙ_ｋ=Ｃ_ｋｘ_ｋ＋β_ｋ（ガウスノイズを表すβ_ｋを有する観測モデル）

状態ベクトルは、時間ｋ’における最後の測定処理動作に基づく時間ｋにおける

で示されるランダム変数、ただし、ｋ’=ｋまたはｋ－１、である。このランダム変数は、推定平均ベクトル

と、Γ_{ｋ｜ｋ－１}で示される、関連予測誤差の共分散マトリクスとによって特徴付けられる。

カルマンフィルタリングステップは、２つの主ステップを含む。

予測ステップと称される、第１のステップでは、以下を決定することにある、予測が行われる：
－予測された平均：ｘ_ｋ＋１=Ａ_ｋｘ_ｋ＋ｕ_ｋ
－予測された共分散（不確実性の増加のレベルを表す）：Γ_{ｋ｜ｋ＋１}=Ａ_ｋΓ_ｋ｜ｋＡ_ｋ ^Ｔ＋Γ_αｋ

「訂正ステップ」と称される、第２のステップで、カルマンフィルタリングの予測ステップで予測された値は、以下を決定することによって、訂正される：
－ニューラルネットワーク５０が測定システムとして使用される、測定値ｙ_ｋから導出された「イノベーション」（測定値と予測値との差）：

－共分散「イノベーション」：Ｓ_ｋ=Ｃ_ｋΓ_{ｋ｜ｋ－１}Ｃ_ｋ ^Ｔ＋Γ_βｋ
－カルマンゲイン：

－訂正された平均：

－不確実性の減少のレベルを表す訂正された共分散：
Γ_ｋ｜ｋ=（Ｉ－Ｋ_ｋＣ_ｋ）Γ_{ｋ｜ｋ－１}

そのようなカルマンフィルタリングを使用することができるために、カルマンフィルタによって生み出されたデータ（融合データ）は、有利には、再生バッファ１００２において持続期間にわたって記憶され得る。

記憶されたデータは、カルマン推定の精度を改良するために、カルマンスムージングによってさらに処理され得る。そのような処理動作は、オンライン学習に適しており、本発明による漸進的オンライン学習は場合により遅れる。

カルマンスムージングは、Ｋ=０からＮについて以下の処理動作を実装することを含む：

バッファ１００２に記憶されたセンサ融合出力に適用されるスムージングステップは、ニューラルネットワーク５０によって予測される値ｙ_ｋのより正確な推定

を提供する。

いくつかの実施形態による、物体検出への本発明の第１の例示的適用では、たとえば、ＹＯＬＯニューラルネットワークおよび３クラスが考慮され、それについて、推定デバイスによって推定される変数は、以下によって与えられる、：

ｙ_ｋ=［ｐ_ｃｂ_ｘｂ_ｙｂ_ｈｂ_ｗｃ_１ｃ_２ｃ_３］^Ｔ

以下もまた考慮される：
－（ｘ_ｉ，ｙ_ｉ，ｗ_ｉ，ｈ_ｉ）で示される、ロケーションの損失に関連する境界ボックスの座標、
－ボックスが物体を含むことによるモデルの信頼性レベルを表す信頼性スコアｃ_ｉ、
－Ｐｒ（クラス_ｉ｜物体）によって表される条件付きクラス確率。

損失関数

は、たとえば、パラメータｘ_ｉ、ｙ_ｉ、ｗ_ｉ、ｈ_ｉ、ｃ_ｉおよびＰｒ（クラス_ｉ｜物体）に基づいて定義され得る。

そのような第１の例において、学習方法は、後述されるようなステップ４０２から４０８を実装する：

ステップ４０２で、ニューラルネットワーク５０は、出力を予測する：

－ステップ４０４で、予測値ｙ_ｋは、融合システム２によって決定された対応する融合値

に設定される。

－ステップ４０６で、損失関数

が、たとえば非最大抑制アルゴリズムを使用して、それぞれの検出された物体について（たとえば、ＹＯＬＯニューラルネットワークの例における各境界ボックスについて）計算される。

－ステップ４０８で、ニューラルネットワークの重みを更新するステップが、勾配降下アルゴリズムを使用することによって、それぞれの検出された物体について（ＹＯＬＯニューラルネットワークの例における各境界ボックスについて）実装され、それぞれの重みθは、値

に更新される。

ステップ４０４で更新された重みθは、ニューラルネットワーク５０の新しい予測がｙ_ｋの改良された推定

にできる限り近いように、調整され得る。

第２の例示的適用において、推定方法が、軌道予測に適用され得る。

以下では、表記ｙ^（ｉ）が、予測された軌道ベクトルを表すために使用されることになる：

さらに、表記

が、融合軌道ベクトルを表すために使用されることになる：

この第２の例では、認知システム２は、損失関数を決定するために使用されるデータを記憶するために再生バッファ１００２タイプのメモリ１００２を使用しない、と考えられている。

さらに、融合データが「ｉｉｄ」データであることを保証するために、ランダム時間カウンタが使用され得、それの値は、重みの各更新の後に設定される。

時間カウンタのために設定された値が、失効したとき、重みの新しい更新が、反復して実行され得る。

損失関数Ｌまたは損失関数は、２乗誤差関数、負の対数尤度関数などを含む、任意のタイプの損失関数でもよい。

考慮中の第２の例では、損失関数Ｌ_ｎｌｌが、二変量のガウス分布に適用されて、使用される、と仮定されている。しかしながら、任意の他の損失関数が使用され得ることが当業者には容易に理解されよう。関数Ｌ_ｎｌｌは、以下によって定義される：

そのような第２の例において、オンライン学習方法は、以下のように図４のステップを実装する：

－ステップ４００で、認知システム２のセンサ２００のキャプチャに対応する、軌道ベクトルｘ^（ｉ）が、ニューラルネットワーク５０の入力において適用される。

－ステップ４０２で、予測された軌道

が、ニューラルネットワークの入力において適用された軌道ベクトルｘ^（ｉ）とニューラルネットワークの現在の重みθとに基づいてＴ秒にわたって決定される：

－ステップ４０３で、予測された軌道

および入力軌道ベクトルｘ^（ｉ））を含む、ペア

が、メモリ１００２に保存される。

－方法は、Ｔ秒が経過するまで、保留される（タイマ）。

－ステップ４０４で、融合軌道ベクトルｙ_{ｆｕｓｉｏｎ}が、決定される。

－ステップ４０６で、損失関数が、融合システムからの出力と認知システム２からの出力との間の誤差を表して、計算される。

－ステップ４０８で、重みθの値が、

に設定される。

－保存されたペアは、次いで、削除され得、新しい値が、時間カウンタのために設定され得る。

前述のステップは、収束条件が満たされるまで、繰り返され得る。

図５は、軌道予測への本発明の１つの適用例における第３の例による学習方法を示す流れ図である（検出された物体に関する変数を推定するための方法によって推定される変数は、物体軌道パラメータを含む）。

そのような例示的実施形態において、オンライン学習方法は、優先経験再生バッファ１００２を使用する。

この実施形態では、各軌道予測について、関連予測損失が、遅延または非遅延型融合システムからの出力を使用して、オンラインで計算される。

予測値に対応するグラウンドトゥルースは、（遅延または非遅延型）融合システムからの出力への更新を実行することによって、概算され得る。

損失関数は、（遅延または非遅延型）融合出力ｙ_{ｆｕｓｉｏｎ}から導出された改良された予測出力と考慮中の各センサのニューラルネットワークによって予測される軌道

との間で計算され得る。閾値に応じて、入力ｘ^（ｉ）がオンライン学習に有用か否かが、さらに決定され得る。入力ｘ^（ｉ）が学習に有用であるとして決定された場合、たとえばＲＮＮエンコーダ１００１を用いて決定された、この入力に関連する軌道の簡潔な表現が、再生バッファ１００２（経験再生バッファ）に記憶され得る。

そのような実施形態は、学習テーブル１２を供給するために使用される入力に対応する経験を最適化するおよび優先させることを可能にする。さらに、再生バッファ１００２に記憶されたデータは、データが「ｉｉｄ」であることを保証する（変形ユニット１００３によって）ために、ランダムにサンプリングされ得る。この実施形態は、使用されるサンプルを最適化することおよびサンプルを再使用することを可能にする。

ＲＮＮエンコーダの使用は、軌道情報を圧縮することによって再生バッファ１００２を最適化することを可能にする。

図５の例では、損失関数Ｌ_ｎｌｌもまた、非制限的例として使用される。

ステップ５００で、軌道ベクトルｘ^（ｉ）の履歴が、ＲＮＮエンコーダ１００１によって抽出および符号化され、それによって、圧縮されたベクトルＲＮＮ_ｅｎｃ（ｘ^（ｉ））を提供する。

ステップ５０１で、圧縮されたベクトルＲＮＮ_ｅｎｃ（ｘ^（ｉ））（符号化されたサンプル）が、再生バッファ１００２に記憶される。

ステップ５０２で、予測された軌道

が、ニューラルネットワーク５０の入力において提供される軌道ベクトルｘ^（ｉ）およびニューラルネットワークの現在の重みθに基づいて決定される、

：

ステップ５０４で、融合システムによって事前に決定された融合軌道ベクトルｙ^（ｉ）
が、抽出される（遅延を有する実施形態）。

ステップ５０６で、損失関数が、融合出力ｙ^（ｉ）および認知出力に対応する予測値

と、ネットワークの現在の重みθとに基づいて計算される：遅延を有する一実施形態において、

。

ステップ５０７で、損失関数

が、閾値と比べて小さい場合、サンプル値ｘ^（ｉ）は、バッファ１００２から削除される（有用でない）。

ステップ５０８で、バッファ１００２のそれぞれの圧縮されたサンプルＲＮＮ_ｅｎｃ（ｘ^（ｊ））について、予測された軌道

が、圧縮された軌道ベクトルＲＮＮ_ｅｎｃ（ｘ^（ｊ））およびニューラルネットワークの現在の重みθに基づいて、決定される：

ステップ５０９で、損失関数が、ニューラルネットワーク５０の出力において提供された予測値

、対応する改良された予測出力値（融合出力ｙ^（ｊ））およびネットワークの現在の重みθに基づいて、再び計算される：

ステップ５１０で、重みθの値が、

に設定される。

前述のステップは、収束条件が検出されるまで、繰り返され得る。

図６は、認知システム２が物体軌道予測への本発明の１つの適用例のために単一のスマートカメラセンサ２００を使用する、制御システム１０の１つの例示的実装形態を示す。

この例では、カメラセンサ（２００）は、車両の環境において検出された目標物体の軌道ポイントを観測する（６００１）。センサ２００によってキャプチャされたデータは、ニューラルネットワーク５０に基づいて機械学習ユニット５を使用する現在の重みを有する目標物体の軌道を予測するために使用される（６００２）。

ニューラルネットワーク５０は、ニューラルネットワーク５０の入力において適用されたセンサ２００からのデータに基づいてニューラルネットワーク５０によって予測される軌道を表す予測出力を提供する（６００３）。

予測出力は、推定デバイス１００によって推定される変数に対応する改良された予測出力を計算する（６００４）、融合システム（３）に送信される。この例では、変数は、目標物体の予測された軌道を表し、軌道パラメータを含む。

推定デバイスは、制御アプリケーション１４によって使用するために運転支援システム１０に予測された軌道を提供する。

さらに、融合システム３は、改良された予測出力を誤差計算ユニット４に送信する。誤差計算ユニットは、観測結果（６００５）に対応する出力が定義済み期間（たとえば５秒）にわたって蓄積されるバッファ１００２において、予測出力（認知出力）を記憶することができる（６００８）。

変形ユニット１００３は、たとえば、前述のようにカルマンフィルタ（６００６）を適用すること、それによって絞り込まれた予測出力を提供すること（６００７）によって、改良された予測出力の精度をさらに高めるために、追加処理動作を適用することができる。誤差計算ユニット４は、次いで、バッファ１００２に記憶されたデータと絞り込まれた予測出力とを使用して、認知システム２からの出力と絞り込まれた予測出力との間の誤差を表す損失関数（６００９）を決定する。重みは、次いで、絞り込まれた予測出力（カルマンフィルタ６００６の出力において配信された）と認知システムからの出力との間の損失関数を使用する勾配降下逆伝搬アルゴリズムを適用することによって更新され、新しいＭＬ予測（６０１０）が、このようにして更新された重みを有するニューラルネットワーク５０を使用するオンライン学習モジュール５０によって、実装され得る。

図６の例では、融合システム３からの出力は、学習のためのグラウンドトゥルースとして使用される。

図６の実施形態では、損失関数は、変形モジュール１００３によって決定された絞り込まれた予測出力６００７と認知システムによって配信された認知出力２との間の誤差に対応する。

図７は、ニューラルネットワーク５０によって予測されたデータのＲＮＮ符号化／復号を使用する制御システム１０の別の例示的実施形態を示す。この例では、変数は、目標物体の予測された軌道を表し、軌道パラメータを含む。さらに、融合システムからの出力は、グラウンドトゥルース（オンライン学習のためにニューラルネットワーク５０に適用される入力）として使用される。

図７の実施形態では、融合システム３からの出力は、損失関数を決定するためにニューラルネットワークに適用される入力として直接使用される。損失関数は、次いで、融合システム３からの出力と変形ユニット３によって配信された絞り込まれた予測出力との間の誤差に対応する。

図７の実施形態では、融合システム３によって配信された融合出力（改良された予測出力）は、ニューラルネットワーク５０に基づいて、機械学習ユニット５を使用して、現在の重みを有する目標物体の軌道を予測する（７００２）ために、ニューラルネットワーク５０の入力において適用される（７０００）。

ニューラルネットワーク５０は、ニューラルネットワーク５０の入力において適用されたセンサ２００からのデータに基づいてニューラルネットワーク５０によって予測される軌道を表す予測出力を提供する（７００３）。

予測出力は、ニューラルネットワーク５０によって予測された出力を符号化および圧縮する、ＲＮＮエンコーダ１００１に送信される（７００４）。

さらに、融合システム３は、改良された予測出力を誤差計算ユニット４に送信する。誤差計算ユニットは、観測結果に対応する認知出力が定義済み期間（たとえば５秒）にわたって蓄積される（７００５）バッファ１００２において、予測出力を記憶することができる（７００８）。

変形ユニット１００３は、たとえば、前述のようにカルマンフィルタを適用すること（７００６）、それによって絞り込まれた予測出力を提供すること（７００７）によって、改良された予測出力の精度をさらに高めるために、追加処理動作を適用することができる。誤差計算ユニット４は、次いで、バッファ１００２に記憶されたデータを使用して認知システム２からの出力と絞り込まれた予測出力との間の誤差を表す損失関数（７０１０）を、ＲＮＮデコーダ（７００９）による復号の後に、絞り込まれた予測出力７００７を決定する。重みは、次いで、絞り込まれた予測出力（カルマンフィルタ６００６の出力において配信された）と認知システムからの出力との間の損失関数を使用する勾配降下逆伝搬アルゴリズムを適用することによって、更新され、新しいＭＬ予測（７０１１）が、このようにして更新された重みを有するニューラルネットワーク５０を使用するオンライン学習ユニット５によって、実装され得る。

図７の実施形態の１つの変形形態が、ＲＮＮエンコーダ／デコーダを使用せずに実装され得る（ブロック７００４および７００９）。そのような変形形態では、出力７００３は、バッファに直接に記憶され（ブロック７００８）、損失関数は、ＲＮＮ復号なしに、直接にバッファ１００２からのデータを使用して、決定される（ブロック７００９）。

したがって、本発明の実施形態は、オンライン学習を実装することによって車両の環境において検出された物体に関する変数の改良された推定を可能にする。

本発明の実施形態による学習は、車両の動作中にリアルタイムで収集される新しい画像を考慮することを可能にし、オフラインでのデータベースに記憶された学習データの使用に制限されない。新しい推定は、オンラインで更新されたニューラルネットワークの重みを使用して、運転支援システムの動作中に行われ得る。

本発明の実施形態によるシステムまたはサブシステムは、様々な形で、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組合せを用いた様々なやり方で、具体的にはプログラム製品の形で流通することができるプログラムコードの形で、実装され得ることが当業者にはさらに理解されよう。具体的には、プログラムコードは、コンピュータ可読記憶媒体および通信媒体を含み得る、コンピュータ可読媒体を使用して、流通され得る。本明細書に記載の方法は、具体的には、計算デバイスにおいて１つまたは複数のプロセッサによって実行することができるコンピュータプログラム命令の形で実装され得る。これらのコンピュータプログラム命令はまた、コンピュータ可読媒体において記憶され得る。

さらに、本発明は、非制限的例として前述の実施形態に制限されない。本発明は、当業者によって想像され得るすべての可変実施形態を包含する。

具体的には、本発明は認知システム２の特定のタイプのセンサにまたは特定の数のセンサに制限されないことが当業者には理解されよう。

本発明は、任意の特定のタイプの車両１に制限されず、任意のタイプの車両に適用される（車両の例には、制限しないで、乗用車、トラック、バスなどが含まれる）。それらは、そのような適用例に制限されないが、本発明の実施形態は、通信ネットワークによって接続された自律型車両がＶ２Ｘメッセージを交換することを可能にする、自律型車両における実装形態について、特に有利である。

本発明はまた、車両の環境において検出される任意のタイプの物体に制限されず、認知システム２のセンサ２００を用いて検出することができる任意の物体（歩行者、トラック、バイクなど）に適用される。

さらに、物体検出に関連して使用される「車両の環境」の概念は、車両において実装されたセンサの範囲に関連して定義されることが当業者には容易に理解されよう。

本発明は、非制限的例として前述した、推定デバイス１００によって推定される変数に制限されない。本発明は、物体の位置および／または物体の運動（速度、軌道など）および／または物体特徴（物体のタイプなど）に関して変数を場合により含む、車両の環境において検出された物体に関して任意の変数に適用される。変数は、様々なフォーマットを有し得る。推定変数が、パラメータのセットを含む状態ベクトルであるとき、パラメータの数は、本発明の適用におよび運転支援システムの特定の特徴に依存し得る。

本発明はまた、本明細書で例として挙げられたＹＯＬＯニューラルネットワークの例に制限されず、機械学習に基づいて、車両の環境において検出されたまたは検出することが可能な物体に関して変数を推定するために使用される任意のタイプのニューラルネットワーク５０に適用される。

本発明は、例として前述で挙げた例示的損失関数に制限されないことが当業者には容易に理解されよう。

Claims

車両（１）において実装された制御デバイス（１０）であって、前記車両が、センサ（２００）のセットを使用する認知システム（２）を備え、各センサが、データを提供し、前記認知システムが、前記車両の環境において検出された１つまたは複数の物体に関して少なくとも１つの特徴を含む変数を推定するための推定デバイス（１００）を備え、前記推定デバイスが、前記変数を推定するためにニューラルネットワーク（５０）を使用するオンライン学習モジュール（５）を備え、前記ニューラルネットワークが、重みのセットと関連しており、前記学習モジュール（５）が
－前記変数の推定を含む予測出力を提供するように、前記ニューラルネットワークの入力に適用される１つまたは複数のセンサ（２００）からのデータを伝搬するように構成された、順方向伝搬モジュール（５１）、
－予測値のうちの少なくともいくつかに基づいて少なくとも１つのセンサ融合アルゴリズムを実行することによって融合出力を決定するように構成された、融合システム（３）、
－勾配降下逆伝搬を実行することによって、前記融合出力の改良された予測値と前記予測出力との間の誤差を表す損失関数を決定することによって前記ニューラルネットワーク（５０）に関連する前記重みをオンラインで更新するように構成された、逆伝搬モジュール（３２）
を備えることを特徴とする、制御デバイス。
前記変数が、前記認知システムによって検出された物体の位置および／または運動に関する情報を含む状態ベクトルであることを特徴とする、請求項１に記載のデバイス。
前記状態ベクトルが、１つまたは複数の検出された物体に関する情報をさらに含むことを特徴とする、請求項２に記載のデバイス。
前記状態ベクトルが、目標物体の軌道パラメータをさらに含むことを特徴とする、請求項３に記載のデバイス。
前記改良された予測値が、カルマンフィルタを適用することによって決定されることを特徴とする、請求項１から４のいずれか一項に記載のデバイス。
前記推定デバイス（１００）によって予測された前記出力および／または前記融合システム（２）によって配信された前記融合出力を記憶するように構成された再生バッファ（１００２）を備えることを特徴とする、請求項１から５のいずれか一項に記載のデバイス。
再生バッファにおける記憶に先立って前記データを符号化および圧縮するように構成されたリカレントニューラルネットワークエンコーダ（１００２）と、前記再生バッファ（１００２）から抽出された前記データを復号および展開するためのデコーダとを備えることを特徴とする、請求項１から６のいずれか一項に記載のデバイス。
前記エンコーダが、リカレントニューラルネットワークエンコーダであり、前記デコーダが、リカレントニューラルネットワークデコーダである、ことを特徴とする、請求項７に記載のデバイス。
前記再生バッファが、優先されることを特徴とする、請求項６から８のいずれか一項に記載のデバイス。
ニューラルネットワーク（５０）の入力に適用される入力データを検査するための条件を実装し、この入力サンプルについて予測された値と前記融合出力との間の損失関数が予め定めた閾値未満である場合に、前記再生バッファ（１００２）から入力データが削除される、ことを特徴とする、請求項６から８のいずれか一項に記載のデバイス。
車両（１）において実装される制御方法であって、前記車両が、センサ（２００）のセットを使用する認知システム（２）を備え、各センサが、データを提供し、前記制御方法が、前記車両の環境において検出された１つまたは複数の物体に関して少なくとも１つの特徴を含む変数を推定することを含み、前記推定が、前記変数を推定するためにニューラルネットワーク（５０）を使用するオンライン学習ステップ（５）を実装し、前記ニューラルネットワークが、重みのセットと関連しており、前記オンライン学習ステップ（５）が、
－前記変数の推定を含む予測出力を提供するように、前記ニューラルネットワークの入力に適用された１つまたは複数のセンサ（２００）からのデータを伝搬するステップと、
－予測値のうちの少なくともいくつかに基づいて少なくとも１つのセンサ融合アルゴリズムを実行することによって融合出力を決定するステップと、
－勾配降下逆伝搬を実行することによって、前記融合出力の改良された予測値と前記予測出力との間の誤差を表す損失関数を決定することによって前記ニューラルネットワーク（５０）に関連する前記重みをオンラインで更新するステップと
を含むことを特徴とする、制御方法。