JP2023551126A - 機械学習ベースの車両を制御するためのシステムおよび方法 - Google Patents

機械学習ベースの車両を制御するためのシステムおよび方法 Download PDF

Info

Publication number
JP2023551126A
JP2023551126A JP2023528403A JP2023528403A JP2023551126A JP 2023551126 A JP2023551126 A JP 2023551126A JP 2023528403 A JP2023528403 A JP 2023528403A JP 2023528403 A JP2023528403 A JP 2023528403A JP 2023551126 A JP2023551126 A JP 2023551126A
Authority
JP
Japan
Prior art keywords
output
neural network
fusion
predicted
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023528403A
Other languages
English (en)
Inventor
アンドレア アンコーラ,
セバスチャン オベール,
ヴィンセント リザード,
フィリップ ヴァインガートナー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renault SAS
Original Assignee
Renault SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renault SAS filed Critical Renault SAS
Publication of JP2023551126A publication Critical patent/JP2023551126A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Optics & Photonics (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Feedback Control In General (AREA)

Abstract

本発明は、車両(1)において使用される制御デバイス(10)に関し、車両が、センサ(200)のセットを使用する認知システム(2)を備え、各センサが、データを提供し、認知システムが、車両の周辺エリアにおいて検出された1つまたは複数の物体に関する少なくとも1つの特性を含む変数を推定するためのデバイス(100)を備え、推定デバイスが、変数を推定するためにニューラルネットワーク(50)を使用するオンライン学習モジュール(5)を備え、ニューラルネットワークが、重みのセットと関連している。学習モジュール(5)は、以下を備える:- 変数の推定を含む予測出力を提供するように、ニューラルネットワークへの入力として適用される、1つまたは複数のセンサ(200)からのデータを伝搬するように構成された順方向伝搬モジュール(51)、- 予測値のうちの少なくともいくつかを使用して、少なくとも1つのセンサ融合アルゴリズムを実行することによって、融合出力を決定するように構成された、融合システム(3)、- 勾配降下逆伝搬を実行することによって融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって、オンラインニューラルネットワーク(50)に関連する重みを更新するように構成された、逆伝搬モジュール(32)。【選択図】図1および図3

Description

本発明は、概して制御システムに関し、詳細には、車両制御システムおよび方法に関する。
自動化または半自動化車両は、一般に、車両運転の制御および安全性のための運転支援システム、たとえば車両間の距離を規制するために使用されるACC(「適応走行制御」)距離規制システム、などの埋め込まれた制御システムを有する。
そのような運転支援システムは、従来、車両を制御するために制御デバイスによって使用される環境情報を検出するために車両に配置されたセンサ(たとえば、カメラ、ライダまたはレーダ)のセットを備える認知システムを使用する。
認知システムは、センサによって提供される情報を使用して車両の環境において物体を検出するおよび/または物体の位置を予測するために、センサに関連する認知モジュールのセットを備える。
各センサは、それぞれの検出された物体に関連する情報を提供する。この情報は、次いで、融合システムへの認知モジュールの出力で配信される。
センサ融合システムは、検出された物体の改良されたおよび統合されたビューを決定するために、認知モジュールによって配信された物体情報を処理する。
現存する解決法では、学習システムは、物体の位置を予測するための認知システム(たとえば、SSD、YOLO、SqueezeDetシステムなど)によって使用される。そのような予測は、前の時間窓において決定または測定されたデータの履歴を使用して、オフライン学習フェーズを実装することによって、行われる。「オフライン」である学習では、認知システムおよび融合モジュールによってリアルタイムで収集されたデータは、学習のために使用されず、学習は、運転支援デバイスが作動状態にないフェーズにおいて実行される。
このオフライン学習フェーズを実施するために、画像を学習するデータベースおよびグラウンドトゥルース情報を含むテーブルのセットが、従来の方法では使用される。機械学習アルゴリズムが、画像データベースからのニューラルネットワークの重みを初期化するために、実装される。現存する解決法では、重みを初期化するこのフェーズは、「オフライン」、すなわち車両制御システムの使用のフェーズの外、で実装される。
このようにして固定された重みを有するニューラルネットワークは、次いで、車両の環境内の物体の特徴を推定する、たとえば車両の環境内の物体を検出するまたは運転支援システムのオンライン動作中に検出された物体の軌道を予測する、ためにオンラインで実装される汎化フェーズと呼ばれるもので使用され得る。
したがって、現存する解決法では、ニューラルネットワークの重みを設定することを可能にする学習フェーズが、オフラインで実行され、物体特徴の推定は、次いで、これらの固定の重みに基づいてオンラインで(すなわち、車両制御システムの動作中に)実施される。
しかしながら、そのような学習は、車両の動作中にリアルタイムで収集される新しい画像を考慮することを可能にせず、静的データベースに記憶された学習データに制限される。先験的に知られていない、定義による、検出された物体では、リアルタイムでモデルのパラメータ(ニューラルネットワークの重み)を更新することは不可能である。したがって、行われる新しい予測は、モデルパラメータ(ニューラルネットワークの重み)を更新せずに実施され、したがって、信頼できないことがある。
様々な学習解決法が、運転支援に関して提案された。
たとえば、米国特許第10254759(B1)号は、オフライン強化学習技法を使用する方法およびシステムを提案する。そのような学習技法は、仮想対話エージェントをトレーニングするために使用される。それらは、車両における運転支援システムに適さないシミュレーションシステムにおける学習のための観測情報の抽出に基づく。具体的には、そのような手法は、融合システムによって提供されるデータに基づく予測を連続して改良することを可能にする、オンラインの、埋め込まれた解決法を提供することを可能にしない。さらに、この手法は、車両における物体軌道予測または物体検出に適さない。
米国特許出願公開第2018/0124423(A1)号は、過去の軌道に基づいてシーン内のエージェントの予測サンプルを決定するための軌道予測方法およびシステムについて記述している。予測サンプルは、エージェント間の対話および意味論的シーン文脈を組み込む確率スコアに基づくスコアと関連する。予測サンプルは、反復を横断してシーン文脈およびエージェント対話を蓄積する回帰関数を使用して、反復して絞り込まれる。しかしながら、そのような手法もまた、車両における軌道予測および物体検出には適さない。
米国特許出願公開第2019/0184561(A1)号は、ニューラルネットワークに基づく解決法を提案した。この解決法は、エンコーダおよびデコーダを使用する。しかしながら、この解決法は、ライダデータにおよびオフライン学習に極めて特有の入力を使用する。さらに、そのような解決法は、意思決定または計画立案支援技法に関し、車両における軌道予測または物体検出にも適さない。
したがって、現存する解決法は、機械学習に基づいて車両の環境において検出された物体の特徴の推定を改良することを可能にしない。
したがって、車両の環境において検出された物体に関して特徴の改良された推定を提供する能力を有する機械学習ベースの車両制御デバイスおよび方法が必要とされている。
本発明は、車両に実装された制御デバイスを提案することによって状況を改善することを目指し、車両は、センサのセットを使用する認知システムを備え、各センサは、データを提供し、認知システムは、車両の環境において検出された1つまたは複数の物体に関して少なくとも1つの特徴を含む変数を推定するための推定デバイスを備え、推定デバイスは、ニューラルネットワークを使用して変数を推定するオンライン学習モジュールを備え、ニューラルネットワークは、重みのセットに関連している。有利には、学習モジュールは、以下を備え得る:
- 変数の推定を含む予測出力を提供するように、ニューラルネットワークの入力において適用された1つまたは複数のセンサからのデータを伝搬するように構成された順方向伝搬モジュール、
- 予測値のうちの少なくともいくつかに基づいて少なくとも1つのセンサ融合アルゴリズムを実装することによって融合出力を決定するように構成された融合システム、
- 融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって並びに勾配降下逆伝搬を実行することによってニューラルネットワークオンラインに関連する重みを更新するように構成された逆伝搬モジュール。
1つの実施形態において、変数は、認知システムによって検出された物体の位置および/または運動に関して情報を含む状態ベクトルでもよい。
有利には、状態ベクトルはさらに、1つまたは複数の検出された物体に関して情報を含み得る。
状態ベクトルはさらに、目標物体の軌道パラメータを含み得る。
1つの実施形態において、改良された予測値が、カルマンフィルタを適用することによって、決定され得る。
1つの実施形態において、デバイスは、推定デバイスによって予測された出力および/または融合システムによって配信された融合出力を記憶するように構成された再生バッファを備え得る。
いくつかの実施形態において、デバイスは、再生バッファにおける記憶に先立ってデータを符号化および圧縮するように構成されたリカレントニューラルネットワークエンコーダと、再生バッファから抽出されたデータを復号および展開するように構成されたデコーダとを備え得る。
具体的には、エンコーダは、リカレントニューラルネットワークエンコーダでもよく、デコーダは、対応するリカレントニューラルネットワークデコーダでもよい。
いくつかの実施形態では、再生バッファは、優先され得る。
デバイスは、ニューラルネットワークの入力において適用された入力データを検査するための条件を実装することができ、入力データは、この入力サンプルについて予測された値と融合出力との間の損失関数が、定義済み閾値未満になり得る場合、再生バッファから削除される。
車両において実装される制御方法もまた提案され、車両は、センサのセットを使用する認知システムを備え、各センサは、データを提供し、制御方法は、車両の環境において検出された1つまたは複数の物体に関して少なくとも1つの特徴を含む変数を推定することを含み、推定は、ニューラルネットワークを使用して変数を推定するオンライン学習ステップを実装し、ニューラルネットワークは、重みのセットと関連している。有利には、オンライン学習ステップは、以下のステップを含み得る:
- ニューラルネットワークの入力において適用された1つまたは複数のセンサからのデータを伝搬し、それにより、変数の推定を含む予測出力を提供するステップ、
- 予測値のうちの少なくともいくつかに基づいて少なくとも1つのセンサ融合アルゴリズムを実装することによって融合出力を決定するステップ、
- 勾配降下逆伝搬を実行することによって、融合出力の改良された予測値と予測出力との間の誤差を表す損失関数を決定することによって、オンラインでニューラルネットワークに関連する重みを更新するステップ。
本発明の他の特徴、詳細および利点が、例として与えられる添付の図面を参照して与えられる説明を読むときに明らかになろう。
本発明のいくつかの実施形態による、検出された物体の特徴を推定するために機械学習を使用する運転支援システムを示す図である。 本発明のいくつかの実施形態による、推定デバイスを示す図である。 1つの例示的実施形態による、運転支援システム10を示す簡略図である。 いくつかの実施形態による、ニューラルネットワークオンライン学習方法を示す流れ図である。 軌道予測への本発明の1つの適用例における、1つの例示的実施形態による学習方法を示す流れ図である。 認知システムが物体軌道予測適用例のために単一のスマートカメラセンサを使用する、制御システムの1つの例示的実装形態を示す図である。 ニューラルネットワークによって予測されたデータの符号化/復号を使用する制御システムのもう1つの例示的実施形態を示す図である。
図1は、モバイル装置1、たとえば車両、に埋め込まれた制御システム10を示す。残りの記述は、非制限的例として、車両であるモバイル装置を参照して与えられることになる。
制御システム10(以下「運転支援システム」とも称される)は、複雑な運転動作もしくは操作を実行する際に運転者を助ける、危険な状況を検出および回避する、および/または車両1へのそのような状況の影響を制限するように構成される。
制御システム10は、車両に埋め込まれた、認知システム2および融合システム3を備える。
制御システム10はさらに、計画立案および意思決定支援ユニットと1つまたは複数のコントローラ(図示せず)とを備え得る。
認知システム2は、車両および/または車両の環境に関して変数を測定するために車両1に配置された1つまたは複数のセンサ20を備える。制御システム10は、車両1の認知システム2によって提供される情報を使用して車両1の動作を制御する。
運転支援システム10は、車両1の認知システム2によって提供される情報を使用することによっておよびニューラルネットワーク50を使用するオンライン機械学習MLアルゴリズムを実装することによって車両1の環境において検出された1つまたは複数の物体の特徴を表す1つまたは複数の物体特徴に関して変数を推定するように構成された推定デバイス100を備える。
最初に、学習は、センサによってキャプチャされたデータに対応する変数について観測された過去の(グラウンドトゥルース)観測値を記憶する学習データベース12から、ニューラルネットワークの重みを学習するために、実装される。
有利には、オンライン学習はさらに、認知システム2によって予測された出力に基づいて決定された、融合システム3によって配信された出力を使用して、および融合システム3からの出力から導出された改良された予測値と認知システム2によって配信された予測出力との間の誤差を決定して、ニューラルネットワークの重みを更新するために、車両の動作中に実装される。
ニューラルネットワーク50の重みは、ニューラルネットワークによって表されたニューラルまたは認知モデルのパラメータを形成する。
学習データベース12は、物体(たとえば乗用車)のおよび道路の画像と、各画像に関連して、グラウンドトゥルースに対応する物体特徴に関する変数の期待値とを、を含み得る。
推定デバイス100は、オンラインで更新された最新のモデルパラメータ(重み)を有するニューラルネットワークを使用することによってセンサ200によってキャプチャされた画像の物体特徴変数を、いわゆる汎化フェーズにおいて、推定する(または予測する)ように構成される。有利には、予測変数自体が、認知システム2によって予測された変数と融合システム3によって融合の後に取得された変数の値との間の誤差に基づいてニューラルネットワーク50の重みを更新するために使用される。
運転支援システム10の動作中にオンラインで実施される、そのような学習は、先行技術からの手法に従って事前に「オフライン」で決定された固定の重みを使用するのではなくて、動的にまたは準動的に、ニューラルネットワーク50の重みによって表された、モデルのパラメータを更新することを可能にする。
いくつかの実施形態において、推定デバイス100によって推定される変数は、物体検出への適用例における、車両、たとえば別の車両、の環境において検出された物体に関する位置情報、あるいは、目標物体軌道予測への適用例における、目標物体軌道データを含み得る。
制御システム10は、融合システム3によって配信された情報に基づいて車両の運転または安全性を制御することに関して制御方法を実装するように構成された1つまたは複数の制御アプリケーション14、たとえば、車両間の距離を規制することができるクルーズ制御アプリケーションACC、を実装するように構成され得る。
認知システム2のセンサ200は、制限しないで、たとえば、1つまたは複数のライダ(Laser Detection And Ranging:レーザ検出および測距)センサ、1つまたは複数のレーダ、可視で動作するカメラおよび/または赤外線で動作するカメラでもよい、1つまたは複数のカメラ、1つまたは複数の超音波センサ、1つまたは複数のハンドル角度センサ、1つまたは複数の車輪速度センサ、1つまたは複数のブレーキ圧力センサ、1つまたは複数のヨーレートおよび横加速センサなどのような、様々なタイプのセンサを含み得る。
推定デバイス100によって検出することができる車両1の環境内の物体は、移動する物体、たとえば、車両の環境内を進む車両など、を含む。
認知システム2が車両1の環境内の物体を検出するためのセンサ(たとえば、ライダおよび/またはレーダ)を使用する実施形態において、推定デバイスによって推定される物体特徴変数は、たとえば、レーダによって検出された各物体の物体パラメータのセットを含む状態ベクトルでもよく、たとえば以下が挙げられる:
- 検出された物体のタイプ、
- 検出された物体に関連する位置、および
- 共分散マトリクスによって表された不確実性測度。
融合システム3は、1つまたは複数の処理アルゴリズム(融合アルゴリズム)を様々なセンサ200からの情報に基づいて認知システム2によって予測された変数に適用するようにおよび様々なセンサからの情報に基づいて物体について予測された変数に基づいて決定されたそれぞれの検出された物体の統合された予測変数に対応する融合出力を提供するように構成される。たとえば、センサ情報200に基づいて推定デバイス100によって予測された、検出された物体の位置情報について、融合システム3は、検出された物体の改良されたビューに対応するより正確な位置情報を提供する。
認知システム2は、埋め込まれたセンサ200に基づいて認知システム2の性能を較正することによってオフラインで定義され得る認知パラメータと関連し得る。
有利には、制御システム10は、以下のことを行うように構成され得る:
- 現在の時間に関して、融合ユニット3からの過去のおよび/または未来の出力データ(融合データ)を使用すること、
- そのような過去のおよび/または未来の融合データを処理して現在の時間における融合ユニット3からの出力のより正確な推定を決定すること(それによって、融合システムからの改良された出力を提供すること)、
- 学習データベース12に記憶された、グラウンドトゥルースデータの代わりのものとして融合システム3からのそのような改良された出力を使用して、認知モデルの監督された「オンライン」学習を実行し、物体特徴変数の推定(たとえば車両の環境内の物体を検出するためにおよび/または目標物体の軌道を予測するために使用される)を改良すること。
したがって、オンライン学習は、推定デバイス100からの遅延出力に基づき得る。
したがって、本発明の実施形態は、有利には、融合システム3からの出力を使用してオンラインでニューラルネットワークの重みを更新する。
具体的には、推定デバイス100は、以下を実装するニューラルネットワーク50ベースのML学習ユニット5を備え得る:
- 画像データベース12からニューラルネットワーク50をトレーニングするための初期学習(またはトレーニング)フェーズ、
- 検出された物体特徴変数(たとえば検出された物体位置または物体軌道予測)を現在の重みに基づいて推定する(または予測する)ための汎化フェーズ、
- 融合システムからの出力(フェーズBに予測変数に基づいて決定された)に基づいてニューラルネットワーク50の重みを更新するためのオンライン学習、このようにして更新された重みは、汎化フェーズにおいて新しい推定のために使用される。
ML(機械学習)学習アルゴリズムは、たとえば、1つまたは複数のセンサから入力画像を得ることと、検出された物体(たとえば乗用車)の数および汎化フェーズにおいて検出された物体の位置を含む推定変数(認知システム2によって予測された出力)を返すこととを可能にする。この推定変数の推定(認知システム2によって予測された出力)は、統合された予測変数に対応する融合出力を提供する、融合システム3によって改良される。
ニューラルネットワークは、生物学的ニューラルネットワークの動作を模倣する計算モデルである。ニューラルネットワークは、デジタルメモリ(たとえば、抵抗構成要素)の形で一般に実装されるシナプスによって相互接続されたニューロンを含む。ニューラルネットワーク50は、入力信号を運ぶ入力層とニューラルネットワークおよび1つまたは複数の中間層によって行われる予測の結果を運ぶ出力層とを含む、複数の連続層を含み得る。ニューラルネットワークの各層は、前の層の出力からそれの入力を得る。
ニューラルネットワーク50の層の入力でおよび出力で伝搬される信号は、デジタル値(信号の値でコード化された情報)、またはパルスコーディングの場合には電気パルスでもよい。
ニューラルネットワーク50のニューロンの間の各接続(「シナプス」とも称される)は、重みθ(ニューラルモデルのパラメータ)を有する。
ニューラルネットワーク50のトレーニング(学習)フェーズは、汎化フェーズにおいて使用するためのニューラルネットワークの重みを決定することにある。
ML(機械学習)アルゴリズムは、これらの重みを最適化するために、学習フェーズにおいて適用される。
融合システム3からの出力を含む多数のデータを用いてオンラインでニューラルネットワークによって表されたモデルをトレーニングすることによって、ニューラルネットワーク50は、1つの重みが別の重みに対して有した重要度をより正確に学習することができる。
初期学習フェーズ(オフラインで起こり得る)において、ニューラルネットワーク50は、第1に、重みをランダムに初期化し、勾配降下アルゴリズムを使用して、損失関数を使用して計算された、トレーニングベースから引き出された入力サンプルを有するニューラルネットワーク50から取得された出力(予測出力)とニューラルネットワークからの目標出力(期待出力)との間の誤差が減少するかどうかをチェックすることによって、重みを調整する。このフェーズの多数の反復が、実装され得、そこで、重みは、誤差がある特定の値に達するまで、各反復で更新される。
オンライン学習フェーズにおいて、ニューラルネットワーク50は、以下の間の誤差に基づいて、重みを調整する:
- センサ200によって提供された画像に応答して取得されたニューラルネットワーク50によって配信された出力(予測出力)と、
- 推定デバイスによって予測されたそのような出力(改良された予測出力)に基づいて、統合された融合出力から導出された値。
認知システムの予測と融合出力との間の誤差は、勾配降下アルゴリズムを使用して、損失関数Lによって表される。このフェーズの多数の反復が、実装され得、そこで、重みは、誤差がある特定の値に達するまで、各反復で更新される。
学習ユニット5は、そのような入力に応答して、予測出力と呼ばれる、出力を生み出すことになる、ニューラルネットワーク50への入力(サンプル)を、オンライン学習フェーズの各反復において、適用するように構成された順方向伝搬モジュール51を備え得る。
学習ユニット5は、勾配降下逆伝搬アルゴリズムを適用することによってニューラルネットワークの重みを決定するために誤差を逆伝搬するための逆伝搬モジュール52をさらに備え得る。
ML学習ユニット5は、有利には、融合出力から導出された改良された予測出力と認知システム2によって配信された予測出力との間の誤差を逆伝搬する並びに「オンライン」でニューラルネットワークの重みを更新するように構成される。
したがって、学習ユニット5は、動的にまたは準動的に「オンライン」の(リアルタイムまたは非リアルタイムでの)予測のためにニューラルネットワーク50をトレーニングすることと、それによってより信頼できる予測を取得することとを可能にする。
推定デバイス100が認知システム2によって(たとえばレーダによって)検出された物体の特徴を決定するように構成された実施形態において、推定デバイス100は、たとえば、予測された位置情報のセットを含む物体状態ベクトルを表す予測出力(認知出力)を提供することができる。認知システム2は、推定デバイス100によって決定されるものとして、様々な検出された物体に対応する物体状態ベクトル(認知物体状態ベクトル)を、融合システム3に、送信することができる。融合システム3は、検出された物体の認知システム2によって決定された状態ベクトルに基づいて、認知出力より正確なそれぞれの検出された物体の統合された物体状態ベクトル(融合出力)を決定するために、融合アルゴリズムを適用することができる。有利には、様々な物体について融合システム3によって決定された、統合された物体状態ベクトル(以下「改良された物体状態ベクトル」とも称される)は、以下の間の誤差に基づいて重みを更新するために、オンライン学習ユニット5の逆伝搬モジュール52によって、使用され得る:
- 融合システム3からの出力から導出された改良された予測出力(改良された物体状態ベクトル)と、
- 認知システム2からの出力(認知物体状態ベクトル)。
運転支援システム10は、融合システム3から導出された改良された予測出力(改良された物体状態ベクトル)と認知システム2からの出力(認知物体状態ベクトル)との間の誤差を計算するための誤差計算ユニット4を備え得る。
したがって、計算された誤差は、損失関数によって表される。この損失関数は、次いで、認知モデルのパラメータを更新するために使用される。「ニューラルモデル」とも称される、認知モデルのパラメータは、推定デバイス100によって使用されるニューラルネットワーク50の重みθに対応する。
逆伝搬アルゴリズムは、有利には、損失関数の勾配(損失関数の勾配は、以下で
Figure 2023551126000002
と示されることになる)に基づく確率勾配降下アルゴリズムでもよい。
逆伝搬モジュール52は、勾配降下逆伝搬アルゴリズムを実装することによって機械学習モデルのパラメータ(ニューラルネットワークの重み)に関して損失関数の偏導関数(誤差計算ユニット4によって決定される誤差メトリック)を計算するように構成され得る。
このように、ニューラルネットワークの重みは、融合システム3の出力において提供される各更新時に、故に誤差計算ユニット4によって計算された誤差メトリックの各更新時に、更新(調整)され得る。
融合システム3と認知システム2との間のそのようなインターフェースは、有利には、「オンライン」逆伝搬を実装することを可能にする。
重みは、車両1がV2X通信手段を備えている(たとえば、自律型車両である)とき、ローカルにまたはリモートで、たとえばV2X通信を使用して、更新され得る。
このようにして更新された重みは、物体検出またはオンライン学習のために使用される誤差メトリックを生成するために使用された物体軌道予測のために使用された重みのわずかな修正に対応する。次いでそれらは、フィードバックループにおいて、再びオンラインで重みを更新するために反復して使用されることになる検出された物体に関して新しい情報を順番に提供する、センサによって実行される新しい物体検出または軌道予測のために使用され得る。
認知または予測モデルの重みのそのような反復オンライン更新は、認知または予測モデルを増加的におよび連続して改良することを可能にする。
したがって、物体状態ベクトルの推定は、誤差逆伝搬を介してオンライン学習に適した誤差測度を決定するために使用され得る。
したがって、本発明の実施形態は、予測が遅れた場合でも、並行して使用され得る、検出された物体特徴のより正確な予測(たとえば、物体検出および/または物体軌道予測)を可能にする。
図2は、いくつかの実施形態による、推定デバイス100を示す図である。
そのような実施形態において、推定デバイス100は、学習ユニット5によって使用するための融合システム3および/または認知システム2によって返される物体情報を符号化および圧縮するように構成されたエンコーダ1001を備え得る。1つの実施形態において、エンコーダ1001は、リカレントニューラルネットワーク(RNN)、たとえばLSTM(「長短期記憶」の頭字語)RNN、のためのエンコーダでもよい。そのような実施形態は、特に、物体情報が大きなメモリを必要とする場合、たとえば、物体軌道予測のために使用される物体軌道情報など、に適する。残りの記述は、非制限的例として、主にRNNエンコーダ1001を参照して与えられることになる。
推定デバイス100はさらに、圧縮された物体データ(たとえば、物体軌道データ)を記憶するように構成された経験再生バッファ1002を備え得る。
1つの実施形態において、推定デバイス100は、再生バッファ1002からのデータのフィルタリングまたは遅延サンプリングを使用して、「独立したおよび一様分布した」データではないデータを「独立したおよび一様分布した」(「iid(independent and identically distributed)」)データに変形するように構成された変形ユニット1003を備え得る。
実際には、いくつかの実施形態において、推定デバイス100によって実装される推定方法が、たとえば、軌道予測アルゴリズムに基づくとき、推定デバイスによって使用されるデータは、好ましくは、独立したおよび一様分布した(「iid」)データである。
実際には、強く相関するサンプルは、勾配降下アルゴリズムによって実行される勾配推定について満たされる必要がある、データが独立および一様分布している(iid)という仮定をゆがめ得る。
再生バッファ1002は、バッファ1002に前に記憶されたデータを消去することによって、それらが到着するときに順次にデータを収集するために使用され得、それによって、学習を増進することを可能にする。
オンライン学習中に重みを更新するために、データのバッチが、再生バッファ1002からランダムにサンプリングされ、ニューラルモデルの重みを更新するために使用され得る。いくつかのサンプルは、重みパラメータの更新に関して他よりも大きな影響力を有し得る。たとえば、損失関数
Figure 2023551126000003
のより大きな勾配は、重みθのより大きな更新につながり得る。1つの実施形態において、バッファ1002におけるストレージはさらに優先され得るおよび/または優先バッファ再生が実装され得る。
そのような実施形態では、したがって推定デバイス100は、圧縮および符号化された並びに次いでバッファ1002に記憶された物体データ(たとえば、軌道データ)を使用して、ニューラルネットワークをトレーニングするために、オンラインおよび漸進的機械学習を実行することを可能にする。
デコーダ1004は、再生バッファ1002から抽出されたデータを復号するために使用され得る。デコーダ1004は、エンコーダ1001によって実装される動作と反対の動作を実行するように構成される。したがって、RNNエンコーダ1001が使用される実施形態において、RNNデコーダ1004も使用される。
本発明の実施形態は、有利には、融合システム3からの出力と認知システム2からの出力との間のフィードバックループを提供する。
したがって、本発明の実施形態は、情報の精度が、個々のセンサ200に関連するそれぞれの認知ユニット20によって提供される情報と比較して融合システム3からの出力において改良されるように、複数のセンサ200によって検出されたそれぞれの物体に関連する情報を統合することを可能にする。認知システム2からの出力と融合システム3からの出力との間の誤差が、計算され、「オンライン」学習および認知モデルの重み(ニューラルネットワーク50の重み)の更新を導くために使用される。誤差は、次いで、ニューラルネットワークモデル50に逆伝搬され、ニューラルネットワークモデルの各パラメータ(すなわち、重み)の誤差関数(「コスト機能」とも称される)の偏導関数が、計算される。
図3は、1つの例示的実施形態による、運転支援システム10の動作を示す簡略図である。
図3の例では、非制限的例として、2つのセンサ200のパイプラインが考慮される。畳み込みニューラルネットワークCNNベースのモデルがカメラセンサ200およびライダセンサ200によって実行される物体検出のために使用される、とさらに仮定する。しかしながら、本発明は、より一般的には、認知システム2の後に融合システム3が続くパイプラインにおけるオンライン学習を実行する能力を有する任意のニューラルネットワークモデルに適用され得ることに留意されたい。
より一般的に、Mセンサのパイプラインを考慮して、Mセンサのうちの各センサ200-iがP物体を検出すると仮定すると、各センサの推定デバイス100によって推定される変数およびセンサ200-iによって検出されるそれぞれの第kの物体は、以下を含む状態ベクトルによって、表すことができる:
- 選択された横軸xおよび縦軸yを有するデカルト座標系における物体Objの位置(xki,yki)、
- センサ200-iによって行われる予測の不確実性の測度をキャプチャする物体Objkに関連する共分散マトリクスCovki
図3の例では、たとえば、2つのセンサ200-1および200-2が考慮され、第1のセンサ200-1はカメラであり、第2のセンサ200-2はライダであり、各センサは、2つの同一の物体ObjおよびObjをそれぞれ検出する。
第1のカメラ(「C」)センサ200-1によってキャプチャされたデータに基づいて予測された変数は次いで、以下を含み得る:
- 物体Objの以下の状態ベクトル:第1の物体Obj1の位置データx1C、y1Cおよび共分散マトリクスCov1Cを含む、{x1C,y1C,Cov1C}、
- 物体Objの以下の状態ベクトル:第2の物体Objの位置データx2L、y2Lおよび共分散マトリクスCov2Lを含む、{x2L,y2L,Cov2L}。
第2のライダ(「L」)センサ200-2によってキャプチャされたデータに基づいて予測された変数は、以下を含み得る:
- 物体Obj1の以下の状態ベクトル:第1の物体Obj1の位置データx1S、y1Sと第1の物体におよびセンサ200-1に関連する共分散マトリクスCov1Sとを含む、{x1S,y1S,Cov1S}、
- 物体Obj2の以下の状態ベクトル:第2の物体Obj2の位置データx2L、y2Lと第2の物体におよびセンサ200-2に関連する共分散マトリクスCov2Lとを含む、{x2L,y2L,Cov2L}。
認知システムによって提供されるものとしての検出された物体に関する情報は、次いで、第1の物体Obj1の統合された位置データ(xkS,ykS)と第1の物体に関連する統合された共分散マトリクスCovkSとを含む状態ベクトル(xkS,ykS,CovkS)を、それぞれの検出された物体Objkについて含む統合された予測変数(融合出力)を、統合されたセンサ情報に基づいて、決定する、融合システム3によって(前記情報を融合させることによって)統合され得る。
座標(xkS,ykS)は、各物体kおよび各センサ200-iについて提供された情報(xik,yik)に基づいて、決定される。共分散マトリクスCovkSは、各物体kおよび各センサiについて提供された情報Covkiに基づいて、決定される。
カメラセンサおよびライダセンサを含む2つのセンサ、2つの物体を検出する2つのセンサを考慮した例において、融合ユニット2によって統合されたものとしての検出された物体に関する情報は、以下を含む:
- 物体Obj1の以下の状態ベクトル:情報x1C、y1C、x1L、y1Lに基づく第1の物体Obj1の統合された位置データとCov1CおよびCov1Lに基づく第1の物体に関連する統合された共分散マトリクスとを含む{x1S,y1S,Cov1S}、
- 物体Obj2の以下の状態ベクトル:情報x2C、y2C、x2L、y2Lに基づく第2の物体Obj2の統合された位置データとCov2CおよびCov2Lに基づく第2の物体に関連する統合された共分散マトリクスとを含む{x2S,y2S,Cov2S}。
それぞれの第kの物体の融合ユニット2によって提供されるポジショニング情報xkS、ykSは、センサ200-iによって個々に提供されるポジショニング情報に関連する不確実性以下の関連不確実性を有する。したがって、認知システム2からの出力と融合ユニット3からの出力との間の測定可能な誤差が存在する。
確率勾配降下逆伝搬アルゴリズムは、ニューラルネットワーク50の重みを更新するために、損失関数によって表された、認知システム2からの出力と融合ユニット3からの出力との間のこの誤差を使用する。
したがって、融合システム3からの出力と認知システム2の入力との間のフィードバックループは、推定デバイス100によって使用される、ニューラルネットワーク50によって表されたモデルの重みをオンラインで更新するために誤差メトリックを使用することを可能にする。したがって、誤差メトリックは、オンライン学習のための学習モジュール5のための入力として使用され、その一方で、オンライン学習からの出力は、ニューラルネットワーク50によって表された認知モデルを更新するために使用される。したがって、推定デバイス(検出または予測)の精度は、「オフライン」で重みの学習および更新を実行する、先行技術の運転支援システムと比べて連続して改良される。
図4は、いくつかの実施形態による、ニューラルネットワークオンライン学習方法を示す流れ図である。
ML学習ベースの学習方法は、パラメータθ(ニューラルネットワークの重み)のセットと、以下によってパラメータ化される1つまたは複数のニューラルネットワーク50とを使用する:
- x=imageで示される、「入力サンプル」とも称される、入力データに応答してニューラルネットワークによって予測された値
Figure 2023551126000004
。出力または予測値
Figure 2023551126000005
は、以下によって定義される:
Figure 2023551126000006

- 以下の間の誤差を定義する損失関数
Figure 2023551126000007
とも称される、コスト機能:
・ 融合システム3からの出力yfusionから導出された改良された予測値y、認知システム2によって配信された予測出力
Figure 2023551126000008
に基づいて計算される融合出力、および、
・ 1つまたは複数のセンサ200によってキャプチャされた画像を表す入力データに応答してニューラルネットワークによって予測された値
Figure 2023551126000009
(リアルタイムのまたは非リアルタイムの、遅延または非遅延)融合システム3は、実際には、融合システム3によって実装される1つまたは複数の融合アルゴリズムを適用した後に取得される物体データ
Figure 2023551126000010
のより正確な推定yfusionを提供する。
いくつかの実施形態において、融合出力yfusionから導出された改良された予測値y
Figure 2023551126000011
とも示される)は、変形ユニット1003によって実施される処理動作を実行することによって、たとえばカルマンフィルタを適用することによって、取得され得る。1つの実施形態において、改良された予測値yは、融合出力yfusion自体でもよい。
学習方法は、以下をさらに使用する:
- 損失関数
Figure 2023551126000012
の近似値、
- 以下のような、ネットワークパラメータの勾配降下を通した重みθの更新:
Figure 2023551126000013
、ただし、
Figure 2023551126000014
は損失関数の勾配を表す。
より正確には、ステップ400で、1つまたは複数の検出された物体に対応する画像xが、認知システム2のセンサ200によってキャプチャされ、ニューラルネットワーク50に適用される。
ステップ402で、ニューラルネットワーク50によって予測された出力を表す、入力xへのニューラルネットワーク50からの応答
Figure 2023551126000015
が、以下に従って、重みθの現在の値を使用して、決定される:
Figure 2023551126000016
この入力xに応答して予測された出力
Figure 2023551126000017
は、車両の環境において検出された物体の特徴に関して推定デバイス100によって推定される変数に対応する。たとえば、推定デバイス100によって推定される変数が、検出された物体の位置データおよび関連共分散マトリクスを含む物体状態ベクトルである、物体検出への適用例において、センサ200によってキャプチャされた画像xについての予測出力
Figure 2023551126000018
は、検出された画像xに基づいてニューラルネットワークによって予測された状態ベクトルを表す。
ステップ403で、入力xおよび取得された予測出力
Figure 2023551126000019
を含む値のペアが、メモリに記憶され得る。
ステップ402および403は、様々なセンサ200によって得られたキャプチャに対応する画像xについて繰り返される。
ステップ404で、融合システム3に送信するための条件が検出された(たとえば、所与のまたは定義済み時間の満了)とき、様々な予測値
Figure 2023551126000020
に対応する、融合出力yfusionが、認知システム2によって計算され、それによって、検出された物体の特徴に関する変数の改良された推定(たとえば、目標物体の位置データまたは軌道データ)を提供する。融合出力yfusionは、様々なセンサ200に対応する様々な予測値
Figure 2023551126000021
に少なくとも1つの融合アルゴリズムを適用することによって、決定される。
1つの実施形態において、定義済み期間(たとえば5秒)の間に蓄積された観測結果に対応するサンプルは、優先されてもされなくてもよい、経験再生バッファ1002に記憶され得る。1つの実施形態において、サンプルは、再生バッファ1002に記憶される前にエンコーダ1001(たとえば、RNNエンコーダ)によって事前に圧縮および符号化され得る。
ステップ406で、融合システムからの融合出力から導出された改良された予測出力yと認知システム2からの出力
Figure 2023551126000022
との間の誤差が、計算される。
改良された予測出力yは、処理動作(たとえば変形ユニット1003によって実装される、カルマンフィルタリング)を適用することによって融合システムからの出力から導出される出力(
Figure 2023551126000023
で示される)でもよい。1つの実施形態において、融合出力は、改良された予測出力として直接に使用され得る。この誤差は、損失関数
Figure 2023551126000024
によって表される。誤差関数は、デコーダ1004による可能な復号の後にバッファ1002に記憶されたデータに並びに改良された予測出力yに基づいて、決定され得る。
ステップ408で、ニューラルネットワークの重みは、損失関数の勾配
Figure 2023551126000025
を決定するために、確率勾配降下逆伝搬アルゴリズムを適用することによって、更新される。
重みは、それぞれの重みθを値
Figure 2023551126000026
で置き換えることによって、更新され得る
Figure 2023551126000027
ステップ404および408は、収束条件が検出されるまで、繰り返され得る。
したがって、運転支援システム10は、連続しておよびオンラインで更新される重みθのセットによってパラメータ化されたニューラルネットワークを使用する、オンラインの、漸進的学習を実装することを可能にする。
1つの実施形態において、ニューラルネットワーク50によって予測された出力yは、融合システム3からの前の出力に対応する入力値へのニューラルネットワーク50からの応答でもよい。そのような実施形態において、改良された予測出力
Figure 2023551126000028
は、たとえばカルマンフィルタリングを介する、処理後の融合システム(3)からの出力に基づいて計算される出力である。そのような実施形態において、誤差関数は、融合システムからの出力から導出される改良された予測出力と融合システムからの出力との間で決定される。
1つの実施形態において、ニューラルネットワーク50によって予測された出力yは、センサ200によって得られたリアルタイムのキャプチャに対応する入力値へのニューラルネットワーク50からの応答でもよい。そのような実施形態において、改良された予測出力
Figure 2023551126000029
は、たとえばカルマンフィルタリングを介する、処理後の融合システム(3)からの出力に基づいて計算された出力、または融合出力自体でもよい。そのような実施形態において、誤差関数は、融合システムからの出力から導出された改良された予測出力と認知システムからの出力との間で決定される。
1つの実施形態において、ニューラルネットワーク50によって予測された出力yは、融合システム3からの前の出力に対応する入力値へのニューラルネットワーク50からの応答でもよい。そのような実施形態において、改良された予測出力
Figure 2023551126000030
は、たとえばカルマンフィルタリングを介する、処理後の融合システム(3)からの出力に基づいて計算される出力である。そのような実施形態において、誤差関数は、融合システムからの出力から導出された改良された予測出力と融合システムからの出力との間で決定される。
本発明は、物体位置x、yおよび共分散マトリクスを含む状態ベクトルタイプの推定デバイス100によって推定される変数に制限されないことが、当業者には容易に理解されよう。
たとえば、物体検出への本発明の1つの適用例において、ニューラルネットワーク50は、たとえば、YOLOニューラルネットワーク(検出を実行する前に一度だけ画像をロードする畳み込みニューラルネットワーク)でもよい。
そのような例示的実施形態において、物体を検出するために、境界ボックスが、ニューラルネットワーク50によって、対象物体の周りに予測され得る。各境界ボックスは、推定デバイス100によって推定される変数を構成するおよび、たとえば、以下を含む各物体の物体特徴のセットを含む関連ベクトルを有する:
- プレゼンスpの物体確率と、
- デカルト座標系において境界ボックス(b,b,b,b)の位置を定義する座標と、
- 1つまたは複数のクラス(c、c、…、c)、たとえば、乗用車クラス、トラッククラス、歩行者クラス、バイククラスなどに属する物体の確率。
物体検出への本発明の1つの例示的適用例において、予測融合出力yfusionから導出される改良された予測出力
Figure 2023551126000031
の決定は、カルマンフィルタリング技法を使用することができる。そのようなフィルタリング処理動作は、変形ユニット1003によって実装され得る。
したがって、融合システム3は、カルマンフィルタリングを使用して、yの物体データの改良された推定
Figure 2023551126000032
(統合された検出物体データまたは予測データ)を提供することができる。
k=0からNについて、時間kにおける状態ベクトルxについての以下の方程式が、考慮される:
k+1=A+u+α(ガウスノイズを表すαを有する予測モデル)
=C+β(ガウスノイズを表すβを有する観測モデル)
状態ベクトルは、時間k’における最後の測定処理動作に基づく時間kにおける
Figure 2023551126000033
で示されるランダム変数、ただし、k’=kまたはk-1、である。このランダム変数は、推定平均ベクトル
Figure 2023551126000034
と、Γk|k-1で示される、関連予測誤差の共分散マトリクスとによって特徴付けられる。
カルマンフィルタリングステップは、2つの主ステップを含む。
予測ステップと称される、第1のステップでは、以下を決定することにある、予測が行われる:
- 予測された平均:xk+1=A+u
- 予測された共分散(不確実性の増加のレベルを表す):Γk|k+1=AΓk|k +Γαk
「訂正ステップ」と称される、第2のステップで、カルマンフィルタリングの予測ステップで予測された値は、以下を決定することによって、訂正される:
- ニューラルネットワーク50が測定システムとして使用される、測定値yから導出された「イノベーション」(測定値と予測値との差):
Figure 2023551126000035
- 共分散「イノベーション」:S=CΓk|k-1 +Γβk
- カルマンゲイン:
Figure 2023551126000036
- 訂正された平均:
Figure 2023551126000037
- 不確実性の減少のレベルを表す訂正された共分散:
Γk|k=(I-K)Γk|k-1
そのようなカルマンフィルタリングを使用することができるために、カルマンフィルタによって生み出されたデータ(融合データ)は、有利には、再生バッファ1002において持続期間にわたって記憶され得る。
記憶されたデータは、カルマン推定の精度を改良するために、カルマンスムージングによってさらに処理され得る。そのような処理動作は、オンライン学習に適しており、本発明による漸進的オンライン学習は場合により遅れる。
カルマンスムージングは、K=0からNについて以下の処理動作を実装することを含む:
Figure 2023551126000038
バッファ1002に記憶されたセンサ融合出力に適用されるスムージングステップは、ニューラルネットワーク50によって予測される値yのより正確な推定
Figure 2023551126000039
を提供する。
いくつかの実施形態による、物体検出への本発明の第1の例示的適用では、たとえば、YOLOニューラルネットワークおよび3クラスが考慮され、それについて、推定デバイスによって推定される変数は、以下によって与えられる、:
=[p
以下もまた考慮される:
- (x,y,w,h)で示される、ロケーションの損失に関連する境界ボックスの座標、
- ボックスが物体を含むことによるモデルの信頼性レベルを表す信頼性スコアc
- Pr(クラス|物体)によって表される条件付きクラス確率。
損失関数
Figure 2023551126000040
は、たとえば、パラメータx、y、w、h、cおよびPr(クラス|物体)に基づいて定義され得る。
そのような第1の例において、学習方法は、後述されるようなステップ402から408を実装する:
ステップ402で、ニューラルネットワーク50は、出力を予測する:
Figure 2023551126000041
- ステップ404で、予測値yは、融合システム2によって決定された対応する融合値
Figure 2023551126000042
に設定される。
- ステップ406で、損失関数
Figure 2023551126000043
が、たとえば非最大抑制アルゴリズムを使用して、それぞれの検出された物体について(たとえば、YOLOニューラルネットワークの例における各境界ボックスについて)計算される。
- ステップ408で、ニューラルネットワークの重みを更新するステップが、勾配降下アルゴリズムを使用することによって、それぞれの検出された物体について(YOLOニューラルネットワークの例における各境界ボックスについて)実装され、それぞれの重みθは、値
Figure 2023551126000044
に更新される。
ステップ404で更新された重みθは、ニューラルネットワーク50の新しい予測がyの改良された推定
Figure 2023551126000045
にできる限り近いように、調整され得る。
第2の例示的適用において、推定方法が、軌道予測に適用され得る。
以下では、表記y(i)が、予測された軌道ベクトルを表すために使用されることになる:
Figure 2023551126000046
さらに、表記
Figure 2023551126000047
が、融合軌道ベクトルを表すために使用されることになる:
Figure 2023551126000048
この第2の例では、認知システム2は、損失関数を決定するために使用されるデータを記憶するために再生バッファ1002タイプのメモリ1002を使用しない、と考えられている。
さらに、融合データが「iid」データであることを保証するために、ランダム時間カウンタが使用され得、それの値は、重みの各更新の後に設定される。
時間カウンタのために設定された値が、失効したとき、重みの新しい更新が、反復して実行され得る。
損失関数Lまたは損失関数は、2乗誤差関数、負の対数尤度関数などを含む、任意のタイプの損失関数でもよい。
考慮中の第2の例では、損失関数Lnllが、二変量のガウス分布に適用されて、使用される、と仮定されている。しかしながら、任意の他の損失関数が使用され得ることが当業者には容易に理解されよう。関数Lnllは、以下によって定義される:
Figure 2023551126000049
そのような第2の例において、オンライン学習方法は、以下のように図4のステップを実装する:
- ステップ400で、認知システム2のセンサ200のキャプチャに対応する、軌道ベクトルx(i)が、ニューラルネットワーク50の入力において適用される。
- ステップ402で、予測された軌道
Figure 2023551126000050
が、ニューラルネットワークの入力において適用された軌道ベクトルx(i)とニューラルネットワークの現在の重みθとに基づいてT秒にわたって決定される:
Figure 2023551126000051
- ステップ403で、予測された軌道
Figure 2023551126000052
および入力軌道ベクトルx(i))を含む、ペア
Figure 2023551126000053
が、メモリ1002に保存される。
- 方法は、T秒が経過するまで、保留される(タイマ)。
- ステップ404で、融合軌道ベクトルyfusionが、決定される。
- ステップ406で、損失関数が、融合システムからの出力と認知システム2からの出力との間の誤差を表して、計算される。
- ステップ408で、重みθの値が、
Figure 2023551126000054
に設定される。
- 保存されたペアは、次いで、削除され得、新しい値が、時間カウンタのために設定され得る。
前述のステップは、収束条件が満たされるまで、繰り返され得る。
図5は、軌道予測への本発明の1つの適用例における第3の例による学習方法を示す流れ図である(検出された物体に関する変数を推定するための方法によって推定される変数は、物体軌道パラメータを含む)。
そのような例示的実施形態において、オンライン学習方法は、優先経験再生バッファ1002を使用する。
この実施形態では、各軌道予測について、関連予測損失が、遅延または非遅延型融合システムからの出力を使用して、オンラインで計算される。
予測値に対応するグラウンドトゥルースは、(遅延または非遅延型)融合システムからの出力への更新を実行することによって、概算され得る。
損失関数は、(遅延または非遅延型)融合出力yfusionから導出された改良された予測出力と考慮中の各センサのニューラルネットワークによって予測される軌道
Figure 2023551126000055
との間で計算され得る。閾値に応じて、入力x(i)がオンライン学習に有用か否かが、さらに決定され得る。入力x(i)が学習に有用であるとして決定された場合、たとえばRNNエンコーダ1001を用いて決定された、この入力に関連する軌道の簡潔な表現が、再生バッファ1002(経験再生バッファ)に記憶され得る。
そのような実施形態は、学習テーブル12を供給するために使用される入力に対応する経験を最適化するおよび優先させることを可能にする。さらに、再生バッファ1002に記憶されたデータは、データが「iid」であることを保証する(変形ユニット1003によって)ために、ランダムにサンプリングされ得る。この実施形態は、使用されるサンプルを最適化することおよびサンプルを再使用することを可能にする。
RNNエンコーダの使用は、軌道情報を圧縮することによって再生バッファ1002を最適化することを可能にする。
図5の例では、損失関数Lnllもまた、非制限的例として使用される。
ステップ500で、軌道ベクトルx(i)の履歴が、RNNエンコーダ1001によって抽出および符号化され、それによって、圧縮されたベクトルRNNenc(x(i))を提供する。
ステップ501で、圧縮されたベクトルRNNenc(x(i))(符号化されたサンプル)が、再生バッファ1002に記憶される。
ステップ502で、予測された軌道
Figure 2023551126000056
が、ニューラルネットワーク50の入力において提供される軌道ベクトルx(i)およびニューラルネットワークの現在の重みθに基づいて決定される、
Figure 2023551126000057

Figure 2023551126000058
ステップ504で、融合システムによって事前に決定された融合軌道ベクトルy(i)
が、抽出される(遅延を有する実施形態)。
ステップ506で、損失関数が、融合出力y(i)および認知出力に対応する予測値
Figure 2023551126000059
と、ネットワークの現在の重みθとに基づいて計算される:遅延を有する一実施形態において、
Figure 2023551126000060
ステップ507で、損失関数
Figure 2023551126000061
が、閾値と比べて小さい場合、サンプル値x(i)は、バッファ1002から削除される(有用でない)。
ステップ508で、バッファ1002のそれぞれの圧縮されたサンプルRNNenc(x(j))について、予測された軌道
Figure 2023551126000062
が、圧縮された軌道ベクトルRNNenc(x(j))およびニューラルネットワークの現在の重みθに基づいて、決定される:
Figure 2023551126000063
ステップ509で、損失関数が、ニューラルネットワーク50の出力において提供された予測値
Figure 2023551126000064
、対応する改良された予測出力値(融合出力y(j))およびネットワークの現在の重みθに基づいて、再び計算される:
Figure 2023551126000065
ステップ510で、重みθの値が、
Figure 2023551126000066
に設定される。
前述のステップは、収束条件が検出されるまで、繰り返され得る。
図6は、認知システム2が物体軌道予測への本発明の1つの適用例のために単一のスマートカメラセンサ200を使用する、制御システム10の1つの例示的実装形態を示す。
この例では、カメラセンサ(200)は、車両の環境において検出された目標物体の軌道ポイントを観測する(6001)。センサ200によってキャプチャされたデータは、ニューラルネットワーク50に基づいて機械学習ユニット5を使用する現在の重みを有する目標物体の軌道を予測するために使用される(6002)。
ニューラルネットワーク50は、ニューラルネットワーク50の入力において適用されたセンサ200からのデータに基づいてニューラルネットワーク50によって予測される軌道を表す予測出力を提供する(6003)。
予測出力は、推定デバイス100によって推定される変数に対応する改良された予測出力を計算する(6004)、融合システム(3)に送信される。この例では、変数は、目標物体の予測された軌道を表し、軌道パラメータを含む。
推定デバイスは、制御アプリケーション14によって使用するために運転支援システム10に予測された軌道を提供する。
さらに、融合システム3は、改良された予測出力を誤差計算ユニット4に送信する。誤差計算ユニットは、観測結果(6005)に対応する出力が定義済み期間(たとえば5秒)にわたって蓄積されるバッファ1002において、予測出力(認知出力)を記憶することができる(6008)。
変形ユニット1003は、たとえば、前述のようにカルマンフィルタ(6006)を適用すること、それによって絞り込まれた予測出力を提供すること(6007)によって、改良された予測出力の精度をさらに高めるために、追加処理動作を適用することができる。誤差計算ユニット4は、次いで、バッファ1002に記憶されたデータと絞り込まれた予測出力とを使用して、認知システム2からの出力と絞り込まれた予測出力との間の誤差を表す損失関数(6009)を決定する。重みは、次いで、絞り込まれた予測出力(カルマンフィルタ6006の出力において配信された)と認知システムからの出力との間の損失関数を使用する勾配降下逆伝搬アルゴリズムを適用することによって更新され、新しいML予測(6010)が、このようにして更新された重みを有するニューラルネットワーク50を使用するオンライン学習モジュール50によって、実装され得る。
図6の例では、融合システム3からの出力は、学習のためのグラウンドトゥルースとして使用される。
図6の実施形態では、損失関数は、変形モジュール1003によって決定された絞り込まれた予測出力6007と認知システムによって配信された認知出力2との間の誤差に対応する。
図7は、ニューラルネットワーク50によって予測されたデータのRNN符号化/復号を使用する制御システム10の別の例示的実施形態を示す。この例では、変数は、目標物体の予測された軌道を表し、軌道パラメータを含む。さらに、融合システムからの出力は、グラウンドトゥルース(オンライン学習のためにニューラルネットワーク50に適用される入力)として使用される。
図7の実施形態では、融合システム3からの出力は、損失関数を決定するためにニューラルネットワークに適用される入力として直接使用される。損失関数は、次いで、融合システム3からの出力と変形ユニット3によって配信された絞り込まれた予測出力との間の誤差に対応する。
図7の実施形態では、融合システム3によって配信された融合出力(改良された予測出力)は、ニューラルネットワーク50に基づいて、機械学習ユニット5を使用して、現在の重みを有する目標物体の軌道を予測する(7002)ために、ニューラルネットワーク50の入力において適用される(7000)。
ニューラルネットワーク50は、ニューラルネットワーク50の入力において適用されたセンサ200からのデータに基づいてニューラルネットワーク50によって予測される軌道を表す予測出力を提供する(7003)。
予測出力は、ニューラルネットワーク50によって予測された出力を符号化および圧縮する、RNNエンコーダ1001に送信される(7004)。
さらに、融合システム3は、改良された予測出力を誤差計算ユニット4に送信する。誤差計算ユニットは、観測結果に対応する認知出力が定義済み期間(たとえば5秒)にわたって蓄積される(7005)バッファ1002において、予測出力を記憶することができる(7008)。
変形ユニット1003は、たとえば、前述のようにカルマンフィルタを適用すること(7006)、それによって絞り込まれた予測出力を提供すること(7007)によって、改良された予測出力の精度をさらに高めるために、追加処理動作を適用することができる。誤差計算ユニット4は、次いで、バッファ1002に記憶されたデータを使用して認知システム2からの出力と絞り込まれた予測出力との間の誤差を表す損失関数(7010)を、RNNデコーダ(7009)による復号の後に、絞り込まれた予測出力7007を決定する。重みは、次いで、絞り込まれた予測出力(カルマンフィルタ6006の出力において配信された)と認知システムからの出力との間の損失関数を使用する勾配降下逆伝搬アルゴリズムを適用することによって、更新され、新しいML予測(7011)が、このようにして更新された重みを有するニューラルネットワーク50を使用するオンライン学習ユニット5によって、実装され得る。
図7の実施形態の1つの変形形態が、RNNエンコーダ/デコーダを使用せずに実装され得る(ブロック7004および7009)。そのような変形形態では、出力7003は、バッファに直接に記憶され(ブロック7008)、損失関数は、RNN復号なしに、直接にバッファ1002からのデータを使用して、決定される(ブロック7009)。
したがって、本発明の実施形態は、オンライン学習を実装することによって車両の環境において検出された物体に関する変数の改良された推定を可能にする。
本発明の実施形態による学習は、車両の動作中にリアルタイムで収集される新しい画像を考慮することを可能にし、オフラインでのデータベースに記憶された学習データの使用に制限されない。新しい推定は、オンラインで更新されたニューラルネットワークの重みを使用して、運転支援システムの動作中に行われ得る。
本発明の実施形態によるシステムまたはサブシステムは、様々な形で、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組合せを用いた様々なやり方で、具体的にはプログラム製品の形で流通することができるプログラムコードの形で、実装され得ることが当業者にはさらに理解されよう。具体的には、プログラムコードは、コンピュータ可読記憶媒体および通信媒体を含み得る、コンピュータ可読媒体を使用して、流通され得る。本明細書に記載の方法は、具体的には、計算デバイスにおいて1つまたは複数のプロセッサによって実行することができるコンピュータプログラム命令の形で実装され得る。これらのコンピュータプログラム命令はまた、コンピュータ可読媒体において記憶され得る。
さらに、本発明は、非制限的例として前述の実施形態に制限されない。本発明は、当業者によって想像され得るすべての可変実施形態を包含する。
具体的には、本発明は認知システム2の特定のタイプのセンサにまたは特定の数のセンサに制限されないことが当業者には理解されよう。
本発明は、任意の特定のタイプの車両1に制限されず、任意のタイプの車両に適用される(車両の例には、制限しないで、乗用車、トラック、バスなどが含まれる)。それらは、そのような適用例に制限されないが、本発明の実施形態は、通信ネットワークによって接続された自律型車両がV2Xメッセージを交換することを可能にする、自律型車両における実装形態について、特に有利である。
本発明はまた、車両の環境において検出される任意のタイプの物体に制限されず、認知システム2のセンサ200を用いて検出することができる任意の物体(歩行者、トラック、バイクなど)に適用される。
さらに、物体検出に関連して使用される「車両の環境」の概念は、車両において実装されたセンサの範囲に関連して定義されることが当業者には容易に理解されよう。
本発明は、非制限的例として前述した、推定デバイス100によって推定される変数に制限されない。本発明は、物体の位置および/または物体の運動(速度、軌道など)および/または物体特徴(物体のタイプなど)に関して変数を場合により含む、車両の環境において検出された物体に関して任意の変数に適用される。変数は、様々なフォーマットを有し得る。推定変数が、パラメータのセットを含む状態ベクトルであるとき、パラメータの数は、本発明の適用におよび運転支援システムの特定の特徴に依存し得る。
本発明はまた、本明細書で例として挙げられたYOLOニューラルネットワークの例に制限されず、機械学習に基づいて、車両の環境において検出されたまたは検出することが可能な物体に関して変数を推定するために使用される任意のタイプのニューラルネットワーク50に適用される。
本発明は、例として前述で挙げた例示的損失関数に制限されないことが当業者には容易に理解されよう。

Claims (11)

  1. 車両(1)において実装された制御デバイス(10)であって、前記車両が、センサ(200)のセットを使用する認知システム(2)を備え、各センサが、データを提供し、前記認知システムが、前記車両の環境において検出された1つまたは複数の物体に関して少なくとも1つの特徴を含む変数を推定するための推定デバイス(100)を備え、前記推定デバイスが、前記変数を推定するためにニューラルネットワーク(50)を使用するオンライン学習モジュール(5)を備え、前記ニューラルネットワークが、重みのセットと関連しており、前記学習モジュール(5)が
    - 前記変数の推定を含む予測出力を提供するように、前記ニューラルネットワークの入力に適用される1つまたは複数のセンサ(200)からのデータを伝搬するように構成された、順方向伝搬モジュール(51)、
    - 予測値のうちの少なくともいくつかに基づいて少なくとも1つのセンサ融合アルゴリズムを実行することによって融合出力を決定するように構成された、融合システム(3)、
    - 勾配降下逆伝搬を実行することによって、前記融合出力の改良された予測値と前記予測出力との間の誤差を表す損失関数を決定することによって前記ニューラルネットワーク(50)に関連する前記重みをオンラインで更新するように構成された、逆伝搬モジュール(32)
    を備えることを特徴とする、制御デバイス。
  2. 前記変数が、前記認知システムによって検出された物体の位置および/または運動に関する情報を含む状態ベクトルであることを特徴とする、請求項1に記載のデバイス。
  3. 前記状態ベクトルが、1つまたは複数の検出された物体に関する情報をさらに含むことを特徴とする、請求項2に記載のデバイス。
  4. 前記状態ベクトルが、目標物体の軌道パラメータをさらに含むことを特徴とする、請求項3に記載のデバイス。
  5. 前記改良された予測値が、カルマンフィルタを適用することによって決定されることを特徴とする、請求項1から4のいずれか一項に記載のデバイス。
  6. 前記推定デバイス(100)によって予測された前記出力および/または前記融合システム(2)によって配信された前記融合出力を記憶するように構成された再生バッファ(1002)を備えることを特徴とする、請求項1から5のいずれか一項に記載のデバイス。
  7. 再生バッファにおける記憶に先立って前記データを符号化および圧縮するように構成されたリカレントニューラルネットワークエンコーダ(1002)と、前記再生バッファ(1002)から抽出された前記データを復号および展開するためのデコーダとを備えることを特徴とする、請求項1から6のいずれか一項に記載のデバイス。
  8. 前記エンコーダが、リカレントニューラルネットワークエンコーダであり、前記デコーダが、リカレントニューラルネットワークデコーダである、ことを特徴とする、請求項7に記載のデバイス。
  9. 前記再生バッファが、優先されることを特徴とする、請求項6から8のいずれか一項に記載のデバイス。
  10. ニューラルネットワーク(50)の入力に適用される入力データを検査するための条件を実装し、この入力サンプルについて予測された値と前記融合出力との間の損失関数が予め定めた閾値未満である場合に、前記再生バッファ(1002)から入力データが削除される、ことを特徴とする、請求項6から8のいずれか一項に記載のデバイス。
  11. 車両(1)において実装される制御方法であって、前記車両が、センサ(200)のセットを使用する認知システム(2)を備え、各センサが、データを提供し、前記制御方法が、前記車両の環境において検出された1つまたは複数の物体に関して少なくとも1つの特徴を含む変数を推定することを含み、前記推定が、前記変数を推定するためにニューラルネットワーク(50)を使用するオンライン学習ステップ(5)を実装し、前記ニューラルネットワークが、重みのセットと関連しており、前記オンライン学習ステップ(5)が、
    - 前記変数の推定を含む予測出力を提供するように、前記ニューラルネットワークの入力に適用された1つまたは複数のセンサ(200)からのデータを伝搬するステップと、
    - 予測値のうちの少なくともいくつかに基づいて少なくとも1つのセンサ融合アルゴリズムを実行することによって融合出力を決定するステップと、
    - 勾配降下逆伝搬を実行することによって、前記融合出力の改良された予測値と前記予測出力との間の誤差を表す損失関数を決定することによって前記ニューラルネットワーク(50)に関連する前記重みをオンラインで更新するステップと
    を含むことを特徴とする、制御方法。
JP2023528403A 2020-12-04 2021-12-03 機械学習ベースの車両を制御するためのシステムおよび方法 Pending JP2023551126A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR2012721 2020-12-04
FR2012721A FR3117223B1 (fr) 2020-12-04 2020-12-04 Système et procédé de contrôle de véhicule à base d’apprentissage machine
PCT/EP2021/084275 WO2022117875A1 (fr) 2020-12-04 2021-12-03 Système et procédé de contrôle de véhicule à base d'apprentissage machine

Publications (1)

Publication Number Publication Date
JP2023551126A true JP2023551126A (ja) 2023-12-07

Family

ID=75746729

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023528403A Pending JP2023551126A (ja) 2020-12-04 2021-12-03 機械学習ベースの車両を制御するためのシステムおよび方法

Country Status (7)

Country Link
US (1) US20240028903A1 (ja)
EP (1) EP4256412A1 (ja)
JP (1) JP2023551126A (ja)
KR (1) KR20230116907A (ja)
CN (1) CN116583805A (ja)
FR (1) FR3117223B1 (ja)
WO (1) WO2022117875A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595037B2 (en) 2016-10-28 2020-03-17 Nec Corporation Dynamic scene prediction with multiple interacting agents
US10254759B1 (en) 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent
US20190184561A1 (en) 2017-12-15 2019-06-20 The Regents Of The University Of California Machine Learning based Fixed-Time Optimal Path Generation

Also Published As

Publication number Publication date
CN116583805A (zh) 2023-08-11
KR20230116907A (ko) 2023-08-04
FR3117223A1 (fr) 2022-06-10
FR3117223B1 (fr) 2022-11-04
EP4256412A1 (fr) 2023-10-11
US20240028903A1 (en) 2024-01-25
WO2022117875A1 (fr) 2022-06-09

Similar Documents

Publication Publication Date Title
CN109711557B (zh) 一种行车轨迹预测方法、计算机设备及存储介质
Hoermann et al. Probabilistic long-term prediction for autonomous vehicles
CN109109863B (zh) 智能设备及其控制方法、装置
EP3722894B1 (en) Control and monitoring of physical system based on trained bayesian neural network
US11189171B2 (en) Traffic prediction with reparameterized pushforward policy for autonomous vehicles
KR102043142B1 (ko) Agv 주행제어를 위한 인공신경망 학습 방법 및 장치
JP7089832B2 (ja) 状態推定器
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
EP3705953B1 (en) Control of a physical system based on inferred state
JP2019113926A (ja) モデル予測制御装置
US11807270B2 (en) State estimator
CN115494879B (zh) 基于强化学习sac的旋翼无人机避障方法、装置及设备
JP2022546729A (ja) 複雑な人間挙動に関するモジュール式予測
WO2019216427A1 (ja) リスク指標評価装置、リスク指標評価方法及びプログラム
CN114386599A (zh) 训练轨迹预测模型和轨迹规划的方法和装置
US11810006B2 (en) System for extending functionality of hypotheses generated by symbolic/logic-based reasoning systems
CN111752265B (zh) 情景存储器中的超关联
Lim et al. Gaussian process auto regression for vehicle center coordinates trajectory prediction
JP2023551126A (ja) 機械学習ベースの車両を制御するためのシステムおよび方法
CN111746548A (zh) 用于自主驾驶中的感测的推理系统
CN111746556B (zh) 用于自主系统的状况复杂度量化
CN114945961B (zh) 变道预测回归模型训练方法、变道预测方法和装置
CN115081612A (zh) 用以改进机器人策略学习的设备和方法
Hakobyan et al. Distributionally robust optimization with unscented transform for learning-based motion control in dynamic environments
Yun et al. Mobile robot navigation: neural Q-learning