JP7287707B2 - 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム - Google Patents
敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム Download PDFInfo
- Publication number
- JP7287707B2 JP7287707B2 JP2021541153A JP2021541153A JP7287707B2 JP 7287707 B2 JP7287707 B2 JP 7287707B2 JP 2021541153 A JP2021541153 A JP 2021541153A JP 2021541153 A JP2021541153 A JP 2021541153A JP 7287707 B2 JP7287707 B2 JP 7287707B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- lane change
- learning
- policy
- change decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims description 198
- 238000000034 method Methods 0.000 title claims description 115
- 239000013598 vector Substances 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 39
- 230000007613 environmental effect Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Description
ステップS11において、自車両、車両進路における前後車両及び左右車線における自
車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
lは、自車両が走行する車線であり、v0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両における車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定する。
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成し、
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
であり、ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得る。
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含む。
ステップS31において、無人運転車両状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
(1)本発明の無人運転車両車線変更決定方法は、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
本実施例は、敵対的模倣学習に基づく無人運転車両車線変更決定方法を開示し、この方法によって、無人運転車両が正確かつ安全に車線を切り替えることができる。該方法は、以下のステップを含む。
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する。
ここで、lは、自車両が走行する車線であり、v0は、自車両の走行速度である。本実施例において、自車両の走行速度v0は、自車両の車速センサによって収集して検出される。sf、vfは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、sb、vbは、それぞれ、自車進路の後方で最も近い
車両から自車両までの距離、自車両までの相対速度に対応し、slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する。
1)最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットする。
本実施例において、最大学習ラウンドTは、T=2000にセットされ、学習ペースαは、α=0.3にセットされ、ステップS22に示すように、サンプリング回数Nは、N=105にセットされる。
2)行動クローニング方法を用いて無人運転車両代理方策πθを初期化し、ここで、無人運転車両代理方策πθの重みパラメータをθ0に初期化する。
3)Xavier方式を用いて敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータである。
ここで、無人運転車両の現在の状態ベクトルOは、状態Otの空間のデータ[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。無人運転車両の現在の動作ベクトルAは、動作空間Atのデータに対応し、現在取得されている動作データは、無人運転車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルである。
本ステップにおいて、δk=δ1,δ2,...,δNに基づき、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)が得られる。
を生成する。
本ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)をそれぞれ適用して、サンプル軌跡
を対応的に生成する。
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示す。
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して
更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
である。ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化である。
は、
を入力とし、重みパラメータφtで算出した結果である。
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得る。
(式中、
は、エントロピー正則化である。
は、判別器が(O,A)で判別計算した結果を示す。)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392とを含む。
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻る。例えば、現在の決定結果が車両の車線維持且つ加速である場合、無人運転車両が現在の走行車線を維持し且つ加速動作を実行するように制御する。
本実施例は、実施例1の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムを開示し、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更決定モジュールとを含む。
本実施例は、プログラムが格納されている記憶媒体を開示し、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現し、即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
本実施例は、プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器を開示し、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両の車線変更決定方法を実現することを特徴とする。即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
(付記1)
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
lは、自車両が走行する車線であり、v0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定することを特徴とする、
付記1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
自車両に対し、
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成し、
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
テップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
であり、ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
付記4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含むことを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻ることを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。
Claims (10)
- 敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する記述ステップと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する取得ステップと、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する結果取得ステップとを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - 記述ステップにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
状態空間決定ステップにおいて、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[v 0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
v 0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
動作空間決定ステップにおいて、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定することを特徴とする、
請求項1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - 自車両に対し、
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - 取得ステップにおいて、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
データ収集ステップにおいて、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
データセット構成ステップにおいて、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習の専門運転者による車両の運転の軌跡として定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
モデル取得ステップにおいて、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - モデル取得ステップにおいて、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションすることは、具体的な過程として、
初期化ステップにおいて、
最大学習ラウンドT、敵対的模倣学習の学習率を表す学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
実行ステップにおいて、学習ラウンドt(0≦t≦T)ごとに、後述するガウスベクトル生成ステップ~無人運転車両代理方策重みパラメータ更新ステップを実行し、
ガウスベクトル生成ステップにおいて、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
平均分散算出ステップにおいて、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
平均値算出ステップにおいて、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ランダム代理方策算出ステップにおいて、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
サンプル軌跡生成ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
ここで、
判別器重みパラメータ更新ステップにおいて、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側で専門運転者による車両の運転の軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
無人運転車両代理方策重みパラメータ更新ステップにおいて、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
請求項4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - 結果取得ステップにおいて、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
環境車両情報取得ステップにおいて、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
モデル入力ステップにおいて、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
車線変更決定結果取得ステップにおいて、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
車線変更方向判断ステップにおいて、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、車線変更判断ステップに進むが、YESであれば、車線変更ステップに進み、
車線変更判断ステップにおいて、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、環境車両情報取得ステップに戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、環境車両情報取得ステップに戻り、
車線変更ステップにおいて、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、環境車両情報取得ステップに戻ることを特徴とする、
請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 - 請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。 - プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。 - プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331216.1A CN111483468B (zh) | 2020-04-24 | 2020-04-24 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
CN202010331216.1 | 2020-04-24 | ||
PCT/CN2020/115750 WO2021212728A1 (zh) | 2020-04-24 | 2020-09-17 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022532972A JP2022532972A (ja) | 2022-07-21 |
JP7287707B2 true JP7287707B2 (ja) | 2023-06-06 |
Family
ID=71800232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021541153A Active JP7287707B2 (ja) | 2020-04-24 | 2020-09-17 | 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7287707B2 (ja) |
CN (1) | CN111483468B (ja) |
WO (1) | WO2021212728A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111483468B (zh) * | 2020-04-24 | 2021-09-07 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
CN114074680B (zh) * | 2020-08-11 | 2023-08-22 | 湖南大学 | 基于深度强化学习的车辆换道行为决策方法及系统 |
CN112418237A (zh) * | 2020-12-07 | 2021-02-26 | 苏州挚途科技有限公司 | 车辆驾驶决策方法、装置及电子设备 |
CN112498354B (zh) * | 2020-12-25 | 2021-11-12 | 郑州轻工业大学 | 考虑个性化驾驶体验的多时间尺度自学习变道方法 |
CN112766310B (zh) * | 2020-12-30 | 2022-09-23 | 嬴彻星创智能科技(上海)有限公司 | 一种节油换道决策方法和系统 |
CN113276883B (zh) * | 2021-04-28 | 2023-04-21 | 南京大学 | 基于动态生成环境的无人车行驶策略规划方法及实现装置 |
CN113635909B (zh) * | 2021-08-19 | 2022-07-12 | 崔建勋 | 一种基于对抗生成模仿学习的自动驾驶控制方法 |
CN114023108B (zh) * | 2021-11-02 | 2023-06-09 | 河北工业大学 | 一种混合交通流变道模型及变道仿真方法 |
CN113771884B (zh) * | 2021-11-09 | 2022-02-08 | 清华大学 | 基于侧向量化平衡指标的智能汽车拟人化轨迹规划方法 |
CN114328448B (zh) * | 2021-12-01 | 2024-08-23 | 中交第二公路勘察设计研究院有限公司 | 基于模仿学习算法的高速公路车辆跟驰行为重构方法 |
CN114148349B (zh) * | 2021-12-21 | 2023-10-03 | 西南大学 | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 |
CN114179835B (zh) * | 2021-12-30 | 2024-01-05 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114407931B (zh) * | 2022-02-21 | 2024-05-03 | 东南大学 | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 |
CN114506342B (zh) * | 2022-03-03 | 2023-12-05 | 东风悦享科技有限公司 | 一种自动驾驶变道决策的方法、系统及车辆 |
CN115626184B (zh) * | 2022-12-19 | 2023-07-21 | 北京科技大学 | 自动驾驶车辆的权重系数和控制策略自学习方法及装置 |
CN118560530B (zh) * | 2024-08-02 | 2024-10-01 | 杭州电子科技大学 | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190111934A1 (en) | 2017-10-17 | 2019-04-18 | The Regents Of The University Of Michigan | Fingerprinting Drivers Based On Vehicle Turns |
JP2020511704A (ja) | 2017-03-01 | 2020-04-16 | モービルアイ ビジョン テクノロジーズ リミテッド | 不確実性を検知しながらナビゲートするためのシステム及び方法 |
JP2020149504A (ja) | 2019-03-14 | 2020-09-17 | オムロン株式会社 | 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5610815A (en) * | 1989-12-11 | 1997-03-11 | Caterpillar Inc. | Integrated vehicle positioning and navigation system, apparatus and method |
CN108919795B (zh) * | 2018-06-01 | 2023-07-25 | 中国北方车辆研究所 | 一种自动驾驶汽车换道决策方法及装置 |
CN110619340B (zh) * | 2018-06-19 | 2022-09-16 | 广州汽车集团股份有限公司 | 一种自动驾驶汽车换道规则的生成方法 |
US10890911B2 (en) * | 2018-07-20 | 2021-01-12 | Autox, Inc. | System and method for autonomously delivering commodity to the recipient's preferred environment |
JP7172287B2 (ja) * | 2018-08-28 | 2022-11-16 | トヨタ自動車株式会社 | 自動運転システム |
DE102018215055A1 (de) * | 2018-09-05 | 2020-03-05 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Bestimmen einer Spurwechselangabe eines Fahrzeugs, ein computerlesbares Speichermedium und ein Fahrzeug |
CN109460023A (zh) * | 2018-11-09 | 2019-03-12 | 上海理工大学 | 基于隐马尔科夫模型的驾驶人换道意图识别方法 |
CN109598934B (zh) * | 2018-12-13 | 2020-11-06 | 北京超星未来科技有限公司 | 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法 |
CN110297494B (zh) * | 2019-07-15 | 2020-07-10 | 吉林大学 | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
KR20190103093A (ko) * | 2019-08-16 | 2019-09-04 | 엘지전자 주식회사 | 자율주행 차량의 차선 변경 장치 및 방법 |
CN110569792A (zh) * | 2019-09-09 | 2019-12-13 | 吉林大学 | 一种基于卷积神经网络的自动驾驶汽车前方物体检测方法 |
CN110568760B (zh) * | 2019-10-08 | 2021-07-02 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制系统及方法 |
CN111483468B (zh) * | 2020-04-24 | 2021-09-07 | 广州大学 | 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统 |
-
2020
- 2020-04-24 CN CN202010331216.1A patent/CN111483468B/zh active Active
- 2020-09-17 JP JP2021541153A patent/JP7287707B2/ja active Active
- 2020-09-17 WO PCT/CN2020/115750 patent/WO2021212728A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020511704A (ja) | 2017-03-01 | 2020-04-16 | モービルアイ ビジョン テクノロジーズ リミテッド | 不確実性を検知しながらナビゲートするためのシステム及び方法 |
US20190111934A1 (en) | 2017-10-17 | 2019-04-18 | The Regents Of The University Of Michigan | Fingerprinting Drivers Based On Vehicle Turns |
JP2020149504A (ja) | 2019-03-14 | 2020-09-17 | オムロン株式会社 | 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021212728A1 (zh) | 2021-10-28 |
JP2022532972A (ja) | 2022-07-21 |
CN111483468A (zh) | 2020-08-04 |
CN111483468B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7287707B2 (ja) | 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム | |
Kuefler et al. | Imitating driver behavior with generative adversarial networks | |
Tang et al. | Lane-changes prediction based on adaptive fuzzy neural network | |
JP7060625B2 (ja) | 自動運転車において3dcnnネットワークを用いてソリューション推断を行うlidar測位 | |
Zhang et al. | Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning | |
Tang et al. | A hierarchical prediction model for lane-changes based on combination of fuzzy C-means and adaptive neural network | |
US9053433B2 (en) | Assisting vehicle guidance over terrain | |
JP2021514885A (ja) | 自動運転車のlidar測位に用いられるディープラーニングに基づく特徴抽出方法 | |
Xu et al. | An automated learning-based procedure for large-scale vehicle dynamics modeling on baidu apollo platform | |
Zhao et al. | Personalized car following for autonomous driving with inverse reinforcement learning | |
JP2021515178A (ja) | 自動運転車両においてrnnとlstmを用いて時間平滑化を行うlidar測位 | |
Scheel et al. | Situation assessment for planning lane changes: Combining recurrent models and prediction | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN116134292A (zh) | 用于性能测试和/或训练自动驾驶车辆规划器的工具 | |
CN113255998B (zh) | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 | |
CN112508164B (zh) | 一种基于异步监督学习的端到端自动驾驶模型预训练方法 | |
CN110456634B (zh) | 一种基于人工神经网络的无人车控制参数选取方法 | |
CN113238970B (zh) | 自动驾驶模型的训练方法、评测方法、控制方法及装置 | |
Löckel et al. | A probabilistic framework for imitating human race driver behavior | |
CN117585017A (zh) | 一种自动驾驶车辆换道决策方法、装置、设备及存储介质 | |
Siboo et al. | An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving | |
Wang et al. | Uncovering interpretable internal states of merging tasks at highway on-ramps for autonomous driving decision-making | |
Wheeler et al. | A probabilistic framework for microscopic traffic propagation | |
Yang et al. | Distributed Model Predictive Control for Heterogeneous Platoon With Leading Human-Driven Vehicle Acceleration Prediction | |
Gutiérrez-Moreno et al. | Hybrid decision making for autonomous driving in complex urban scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7287707 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |