JP2022532972A - Unmanned vehicle lane change decision method and system based on hostile imitation learning - Google Patents
Unmanned vehicle lane change decision method and system based on hostile imitation learning Download PDFInfo
- Publication number
- JP2022532972A JP2022532972A JP2021541153A JP2021541153A JP2022532972A JP 2022532972 A JP2022532972 A JP 2022532972A JP 2021541153 A JP2021541153 A JP 2021541153A JP 2021541153 A JP2021541153 A JP 2021541153A JP 2022532972 A JP2022532972 A JP 2022532972A
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- lane change
- unmanned
- hostile
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008859 change Effects 0.000 title claims abstract description 199
- 230000013016 learning Effects 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 134
- 230000008569 process Effects 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000007613 environmental effect Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 39
- 230000009467 reduction Effects 0.000 claims description 26
- 230000006399 behavior Effects 0.000 claims description 13
- 238000012423 maintenance Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 10
- 239000006185 dispersion Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010020400 Hostility Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
- B60W30/12—Lane keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/18009—Propelling the vehicle related to particular drive situations
- B60W30/18163—Lane change; Overtaking manoeuvres
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本発明は、敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステムを開示し、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両の車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。【選択図】図2The present invention discloses a driverless vehicle lane change decision method and system based on adversarial imitation learning, firstly describing the driverless vehicle lane change decision task as a partially observable Markov decision process, and then applying the adversarial imitation learning method to using the example provided by the professional driving teaching to learn from the examples provided by the driverless vehicle lane change decision model, and during the driverless driving run of the vehicle, the currently acquired environmental vehicle information is applied to the driverless vehicle lane change decision model As the input parameter of , the vehicle lane change decision result is obtained by the unmanned vehicle lane change decision model. The present invention learns lane change policies by an adversarial imitation learning method from examples provided by expert driving instruction, requiring a direct mapping from vehicle state to vehicle lane change decisions, and an artificial task incentive function. It can be established directly without any need, effectively improving the accuracy, robustness and adaptability of driverless vehicle's lane change decision under dynamic vehicle driving conditions. [Selection drawing] Fig. 2
Description
本発明は、無人自律車両運転の技術分野に属し、特に敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステムに関する。 The present invention belongs to the technical field of unmanned autonomous vehicle driving, and particularly relates to an unmanned driving vehicle lane change determination method and system based on hostile imitation learning.
無人運転の発展は、道路交通の知的レベルを向上させ、交通運送業界のトランスフォーメーションおよびアップグレードを推進するのに役立つ。無人運転車両は、様々なタイプのセンサ、コントローラを含むハードウェアと、環境認識、行動決定、運動計画が自律制御モジュールと統合された統合システムであるソフトウェアとの組み合わせである。 The development of unmanned driving will help improve the intellectual level of road traffic and drive the transformation and upgrade of the transportation industry. An unmanned vehicle is a combination of hardware, including various types of sensors and controllers, and software, which is an integrated system in which environmental awareness, action decisions, and exercise planning are integrated with autonomous control modules.
車線変更の決定は、無人運転車両決定技術の重要な構成モジュールであり、後続の動作計画モジュールが実行される根拠である。現在、開示された特許を含む先行技術において、主に採用されている無人運転車両車線変更決定方法は、規則に基づく決定、動的計画に基づく決定、ファジィ制御に基づく決定などの従来の方法を含む。しかし、車両の走行環境が複雑かつ多様で高度な動的交通環境であり、決定方法の設計のための正確な数学モデルの確立が困難であり、従来の車線変更決定方法のロバスト性及び適応性は、無人運転車線変更決定の要件を完全に満たすことができなかった。 The lane change decision is an important component module of the unmanned vehicle determination technique and is the basis for the subsequent motion planning module to be executed. Currently, in the prior art including the disclosed patents, the mainly adopted unmanned vehicle lane change decision method is a conventional method such as a rule-based decision, a dynamic programming-based decision, and a fuzzy control-based decision. include. However, the driving environment of the vehicle is complicated, diverse, and highly dynamic traffic environment, and it is difficult to establish an accurate mathematical model for designing the decision method, and the robustness and adaptability of the conventional lane change decision method. Could not fully meet the requirements of the unmanned lane change decision.
近年、無人運転分野における人工知能の応用が急速に進展しており、無人運転車両車線変更決定の問題を解決するために人工知能の採用が可能となっている。エンド・ツー・エンドの教師あり学習と深度強化学習は、2つの比較的一般的な手法である。エンド・ツー・エンドの教師あり学習及び深度強化学習は、いずれもニューラルネットワークモデルを学習して、感知データを車線変更の決定の出力に直接マッピングすることができる。しかし、エンド・ツー・エンドの教師あり学習は、多くの場合、大量の学習データを必要とし、モデル化能力の弱い深度強化学習は、タスク要件を満たすインセンティブ関数を人為的に設計する必要がある。 In recent years, the application of artificial intelligence in the field of unmanned driving has rapidly progressed, and it has become possible to adopt artificial intelligence in order to solve the problem of determining the lane change of an unmanned driving vehicle. End-to-end supervised learning and depth reinforcement learning are two relatively common techniques. Both end-to-end supervised learning and depth-enhanced learning can train neural network models and map perceived data directly to the output of lane change decisions. However, end-to-end supervised learning often requires a large amount of training data, and deep reinforcement learning with weak modeling ability requires artificially designing incentive functions that meet task requirements. ..
現在の無人運転技術のボトルネックと、車線変更決定技術の不足とを総合的に考慮して、新たな無人運転車両車線変更決定方法を設計する必要がある。 It is necessary to design a new unmanned driving vehicle lane change determination method by comprehensively considering the current bottleneck of unmanned driving technology and the lack of lane change determination technology.
本発明の第1の目的は、従来技術の欠点及び不備を克服し、敵対的模倣学習に基づく無人運転車両車線変更決定方法を提供することである。該方法は、専門運転教示によって提供される例から学習し、車両状態から車両の車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両の走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。 A first object of the present invention is to overcome the shortcomings and deficiencies of the prior art and to provide a method for determining an unmanned driving vehicle lane change based on hostile imitation learning. The method can be learned from the examples provided by professional driving instruction to directly establish a direct mapping from vehicle state to vehicle lane change decisions without the need for artificial task incentive functions. It can effectively improve the accuracy, robustness and adaptability of unmanned vehicle lane change decisions under dynamic vehicle driving conditions.
本発明の第2の目的は、無人運転車両車線変更決定システムを提供することである。 A second object of the present invention is to provide an unmanned driving vehicle lane change determination system.
本発明の第3の目的は、記憶媒体を提供することである。 A third object of the present invention is to provide a storage medium.
本発明の第4の目的は、演算機器を提供することである。 A fourth object of the present invention is to provide a computing device.
本発明の第1の目的は、以下の技術手段によって実現される。敵対的模倣学習に基づく無人運転車両車線変更決定方法において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3と、を含む。 The first object of the present invention is realized by the following technical means. In the unmanned vehicle lane change determination method based on hostile imitation learning, step S1 that describes the unmanned vehicle lane change determination task as a partial observation Markov determination process, and specialized driving based on the learning policy of the dispersion reduction policy gradient during learning. Step S2 to acquire an unmanned vehicle lane change decision model by learning from an example provided by professional driving instruction using a hostile imitation learning method that simulates performance, and currently acquired during unmanned driving of the vehicle. As an input parameter of the unmanned driving vehicle lane change determination model, step S3 of acquiring the vehicle lane change determination result by the unmanned driving vehicle lane change determination model is included.
好ましく、ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自
車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
lは、自車両が走行する車線であり、v0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両における車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定する。
Preferably, in step S1, describing the unmanned vehicle lane change determination task as a partially observed Markov determination process is specifically described.
In step S11, the space [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ]
(here,
l is the lane in which the own vehicle travels, v 0 is the traveling speed of the own vehicle, and so on.
s f and v f correspond to the distance from the nearest vehicle to the own vehicle in front of the course of the own vehicle and the relative speed to the own vehicle, respectively.
s b and v b correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle, respectively, behind the course of the own vehicle.
s lf and v lf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the left lane to the vehicle and the relative speed to the vehicle, respectively.
s lb and v lb correspond to the distance from the vehicle closest to the vehicle in the left lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively.
s rf and v rf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the right lane to the vehicle and the relative speed to the vehicle, respectively.
s rb and v rb correspond to the distance from the vehicle closest to the vehicle in the right lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively).
In step S12 , the space of the operation At including the lane change to the left of the vehicle, the lane change to the right of the vehicle, the lane keeping and speed maintenance in the vehicle, the lane keeping and acceleration of the vehicle, and the lane keeping and deceleration of the vehicle is determined. do.
更に好ましく、自車両に対し、
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
More preferably, with respect to the own vehicle
If the vehicle in front of the path is not detected, set s f and v f to fixed values, respectively.
If no vehicle behind the path is detected, set s b and v b to fixed values, respectively.
If no vehicle in front of the left lane is detected, set slf and vlf to fixed values, respectively.
If no vehicle behind the left lane is detected, set slb and vlb to fixed values, respectively.
If a vehicle in front of the right lane is not detected, set srf and vrf to fixed values, respectively.
If a vehicle behind the right lane is not detected, set s rb and v rb to fixed values, respectively.
更に、ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。
Further, in step S2, as a specific process of learning from the example provided by the specialized driving instruction using the hostile imitation learning method.
In step S21, data collection including collection of driving state data and operation data of the specialized driver is performed for the driving behavior of the vehicle of the specialized driver.
In step S22, the collected vehicle state data and operation data pairs are extracted, and the datasets τ = {τ 1 , τ 2 , τ 3 , ..., τ N } = {(O 1 , A 1 ), ( O 2 , A 2 ), (O 3 , A 3 ), ..., ( ON, AN)} (τ is defined as the expert trajectory of hostile imitation learning, and τ 1 to τ N are , respectively . The 1st to Nth data pairs are indicated, O 1 to ON indicate the collected 1st to Nth state data, respectively, and A 1 to AN indicate the collected 1st to Nth operation data, respectively. Shown, N is the total number of data pairs in the training dataset, which corresponds to the number of samplings).
In step S23, using the data set τ as an input, learning is performed using a hostile imitation learning method, the driving behavior of a professional driver is imitated, and an unmanned driving vehicle lane change determination model is acquired.
更に、ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成し、
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
であり、ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得る。
Further, in step S23, simulating the professional driving performance based on the learning policy of the variance reduction policy gradient during learning as hostile imitation learning is a concrete process.
In step S231, the initialization is performed.
Set the maximum learning round T, learning pace α, and sampling count N,
Initialize the unmanned vehicle surrogate policy π θ , initialize the weight parameter of the unmanned vehicle surrogate policy π θ to θ 0 ,
Initialize the weight parameter of the hostile network discriminator D φ , where φ 0 is the initialization weight parameter of the hostile network discriminator D φ .
Acquire the current state vector O and the current motion vector A of the unmanned driving vehicle,
In step S232, step S233 to step S239 are executed for each learning round t (0 ≦ t ≦ T).
In step S233, N random Gaussian vectors δ t = {δ 1 , δ 2 , ..., δ N } having a mean of 0 and a variance of v are generated, where δ 1 to δ are generated. N is the 1st to Nth Gaussian vector, and δ t is a vector obtained by combining N Gaussian vectors.
In step S234, during the current learning round t, the average variance of the weight parameter θ t of the unmanned vehicle surrogate policy π θ
Is calculated,
In step S235, the average value μ of the current state vector O of the unmanned driving vehicle is calculated.
In step S236, for each k (k ∈ {1, 2, ..., N}), the random surrogate strategy π t, (k) : using the variance reduction method:
Is calculated, and δ k is the k-th Gauss vector obtained in step S233.
In step S237, the current state vector O of the unmanned driving vehicle is input, and the random surrogate measures π t, (k) (k = 1, 2, ..., N) are applied to sample the locus.
To generate
here,
Is the 1st to Nth sample loci generated by the random surrogate measures π t, (k) , each taking O as an input and taking a value of 1 to N for k.
Indicates the motion data in the 1st to Nth sample trajectories, respectively.
In step S238, the weight parameter φ t of the hostile network discriminator D φ is updated.
The least squares loss function is used to learn and update the weight parameter φ t of the hostile network discriminator D φ , i.e., for sample trajectories that are far from expert trajectories on both sides of the decision boundary, the least squares loss function. Use and punish, the loss function
Here, π E and π θ correspond to the expert policy and the unmanned vehicle surrogate policy, respectively.
Is the entropy regularization of expert measures,
Is the entropy regularization of unmanned vehicle surrogate measures,
In step S239, the weight parameter θ t of the unmanned vehicle surrogate policy π θ is updated.
Until the current learning round t reaches the maximum learning round T, the weight parameter θ t of the surrogate policy π θ is updated using the measure gradient method based on the variance reduction to obtain the updated weight parameter θ t + 1 .
更に、ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含む。
Further, in step S239, the specific process of updating the weight parameter θ t of the surrogate measure π θ using the measure gradient method based on the variance reduction is described.
Random surrogate policy π t, (k) (k ∈ {1, 2, ..., N}) for each incentive function
(During the ceremony
Is entropy regularization) in step S2391 and
As in step S2392, which updates the parameter θt of the unmanned driving vehicle surrogate policy πθ.
更に、ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
Further, in step S3, as a specific process of acquiring the unmanned driving vehicle lane change determination result by the unmanned driving vehicle lane change determination model,
In step S31, the current environmental vehicle information of the unmanned driving vehicle including the unmanned driving vehicle state data is acquired, and the information is obtained.
In step S32, a value is given to the input state of the unmanned driving vehicle lane change determination model based on the state data of the unmanned driving vehicle.
In step S33, the lane change decision result is acquired by the unmanned driving vehicle lane change decision model.
In step S34, it is determined whether the determination results of n (n is a constant) consecutive times are all lane changes and the directions of lane changes are the same. If NO, the process proceeds to step S35. If YES, the process proceeds to step S36.
In step S35, it is determined whether the current decision result is a lane change, and the result is determined.
If NO, then depending on the current decision result, the current driving behavior of the unmanned vehicle is controlled, that is, the unmanned vehicle is controlled to stay in the current lane, and is accelerated, decelerated, or decelerated. Execute the operation of maintaining the vehicle speed, return to step S31, and return to step S31.
If YES, the unmanned vehicle maintains the driving state before the current decision result and returns to step S31.
In step S36, the lane is changed according to the decision result, and at the same time, the presence or absence of an emergency is detected during the lane change of the unmanned driving vehicle. The lane change is completed based on the determination result, and the process returns to step S31.
本発明の第2の目的は、以下の技術手段によって実現される。無人運転車両車線変更決定システムにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両の車線変更決定結果を取得する車線変更決定モジュールとを含む。 The second object of the present invention is realized by the following technical means. In the unmanned vehicle lane change decision system, a task description module that describes the unmanned vehicle lane change decision task as a partial observation Markov decision process, and hostility that simulates professional driving performance based on the distributed reduction policy gradient learning policy during learning. A lane change decision model construction module that learns from the examples provided by professional driving instruction and acquires an unmanned vehicle lane change decision model using a model imitation learning method, and the current environmental vehicle during unmanned driving of the vehicle. The environmental vehicle information acquisition module for acquiring information and the currently acquired environmental vehicle information are used as input parameters for the unmanned vehicle lane change determination model, and the lane for acquiring the vehicle lane change determination result by the unmanned vehicle lane change determination model. Includes change decision module.
本発明の第3の目的は、以下の技術手段によって実現される。プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。 The third object of the present invention is realized by the following technical means. A storage medium in which a program is stored, and when the program is executed by a processor, realizes the method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to the first embodiment.
本発明の第4の目的は、以下の技術手段によって実現される。プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。 The fourth object of the present invention is realized by the following technical means. An arithmetic unit including a processor and a memory for storing a program that can be executed by the processor. When the processor executes a program stored in the memory, the hostile imitation learning according to the first embodiment is performed. Realize the method of deciding to change the lane of an unmanned driving vehicle based on the above.
本発明は、従来技術に対して以下の利点及び効果を有する。
(1)本発明の無人運転車両車線変更決定方法は、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
The present invention has the following advantages and effects over the prior art.
(1) The unmanned vehicle lane change determination method of the present invention first describes the unmanned vehicle lane change determination task as a partial observation Markov determination process, and then provides it by specialized driving instruction using a hostile imitation learning method. The unmanned vehicle lane change determination model is acquired by learning from the example, and the currently acquired environmental vehicle information is used as the input parameter of the unmanned vehicle lane change determination model during the unmanned driving of the vehicle. The vehicle lane change decision result is acquired by the lane change decision model. The present invention requires an artificial task incentive function to learn a lane change strategy by a hostile imitation learning method from an example provided by a professional driving instruction, and to directly map a vehicle state to a vehicle lane change decision. It can be directly established without, effectively improving the accuracy, robustness and adaptability of unmanned vehicle lane change decisions under dynamic vehicle driving conditions.
(2)本発明の無人運転車両車線変更決定方法は、敵対的模倣学習方法によって、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることによって、車線変更決定の正確性を更に向上させることができる。また、無人運転車両車線変更決定モデルによる無人運転車両の車線変更決定過程で、複数回連続して車線変更の決定結果が得られた場合にのみ、決定結果に応じた車線変更を行うので、上記操作は、決定結果の正確性をより一層保証し、車線変更の安全性を確保することができる。 (2) The unmanned vehicle lane change determination method of the present invention further improves the accuracy of the lane change determination by simulating the professional driving performance based on the learning policy of the dispersion reduction policy gradient by the hostile imitation learning method. Can be made to. In addition, in the process of deciding the lane change of the unmanned driving vehicle by the unmanned driving vehicle lane change decision model, the lane change is performed according to the decision result only when the decision result of the lane change is obtained a plurality of times in succession. The operation can further guarantee the accuracy of the decision result and ensure the safety of lane change.
(3)本発明の無人運転車両車線変更決定方法は、無人運転車両が決定結果に応じて車線変更を行う過程で、緊急事態の有無をリアルタイムで検出し、緊急事態がある場合、無人運転状態から脱して手動介入を行うことで、車両運転の安全性を確保し、車両の乗員の生命安全を確保し、交通事故を極力回避する。 (3) The unmanned vehicle lane change determination method of the present invention detects the presence or absence of an emergency in real time in the process of an unmanned vehicle changing lanes according to the determination result, and if there is an emergency, the unmanned driving state. By moving away from the vehicle and performing manual intervention, the safety of vehicle driving is ensured, the life safety of vehicle occupants is ensured, and traffic accidents are avoided as much as possible.
以下、本発明を実施例及び図面に基づいて更に詳細に説明するが、本発明の実施の形態は、これらに限定されるものではない。 Hereinafter, the present invention will be described in more detail with reference to Examples and drawings, but the embodiments of the present invention are not limited thereto.
(実施例1)
本実施例は、敵対的模倣学習に基づく無人運転車両車線変更決定方法を開示し、この方法によって、無人運転車両が正確かつ安全に車線を切り替えることができる。該方法は、以下のステップを含む。
(Example 1)
The present embodiment discloses a method for determining an unmanned driving vehicle lane change based on hostile imitation learning, and this method enables an unmanned driving vehicle to switch lanes accurately and safely. The method comprises the following steps.
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する。 In step S1, the unmanned vehicle lane change determination task is described as a partial observation Markov determination process.
本実施例において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に以下である。
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する。
ここで、lは、自車両が走行する車線であり、v0は、自車両の走行速度である。本実施例において、自車両の走行速度v0は、自車両の車速センサによって収集して検出される。sf、vfは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、sb、vbは、それぞれ、自車進路の後方で最も近い
車両から自車両までの距離、自車両までの相対速度に対応し、slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する。
In this embodiment, the unmanned vehicle lane change determination task is specifically described as a partial observation Markov determination process as follows.
In step S11, the space [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ] are determined.
Here, l is the lane in which the own vehicle travels, and v 0 is the traveling speed of the own vehicle. In this embodiment, the traveling speed v0 of the own vehicle is collected and detected by the vehicle speed sensor of the own vehicle. s f and v f correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle in front of the own vehicle's course, respectively, and s b and v b correspond to the rear of the own vehicle's course, respectively. Corresponds to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle. S lb and v lb correspond to the distance from the vehicle closest to the vehicle in the left lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively. Corresponds to the distance from the vehicle closest to the vehicle in front of the vehicle to the vehicle and the relative speed to the vehicle, respectively. Corresponds to the distance from a nearby vehicle to the own vehicle and the relative speed to the own vehicle.
本実施例において、他車両から自車両までの距離sf、sb、slf、slb、srf、srbは、自車両の画像センサ又はレーダセンサによって収集して検出される。他車両から自車両までの相対速度vf、vb、vlf、vlb、vrf、vrbは、自車両のレーダセンサによって収集して検出される。 In this embodiment, the distances s f , s b , s lf , s lb , s rf , and s rb from another vehicle to the own vehicle are collected and detected by the image sensor or radar sensor of the own vehicle. The relative velocities v f , v b , v lf , v lb , v rf , and v rb from another vehicle to the own vehicle are collected and detected by the radar sensor of the own vehicle.
ここで、自車両に対し、その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。 Here, if the vehicle in front of the course is not detected for the own vehicle, s f and v f are set to fixed values, respectively, and if the vehicle behind the course is not detected, s b and v b are set to fixed values, respectively. If no vehicle in front of the left lane is detected, set slf and v lf to fixed values, and if no vehicle behind the left lane is detected, set slb and v lb to fixed values. If the vehicle in front of the right lane is not detected, s rf and v rf are set to fixed values, and if the vehicle behind the right lane is not detected, s rb and v rb are set to fixed values, respectively.
ここで、上記のセットされたsf、sb、slf、slb、srf、srbの固定値は、レーダの最大感知距離を取り、例えば300メートルである。上記のセットされたvf、vb、vlf、vlb、vrf、vrbの固定値は、スマートカーの予想走行速度を取り、例えば100km/hである。 Here, the fixed values of the set s f , s b , s lf , s lb , s rf , and s rb take the maximum sensing distance of the radar, and are, for example, 300 meters. The fixed values of v f , v b , v lf , v lb , v rf , and v rb set above take the expected running speed of the smart car, for example, 100 km / h.
上記自車両は、無人運転車両自車を指す。 The above-mentioned own vehicle refers to an unmanned driving vehicle own vehicle.
ステップS12において、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Atを決定する。 In step S12, lane change to the left of the first type vehicle, lane change to the right of the second type vehicle, lane keeping and speed maintenance of the third type vehicle, lane keeping and acceleration of the fourth type vehicle, and , Determine the operating space At including lane keeping and deceleration of the fifth type of vehicle.
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例からオフライン学習をし、無人運転車両車線変更決定モデルを取得する。ここで、学習中に、敵対的模倣学習方法は、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする。図1に示すように、具体的な過程は、以下のとおりである。 In step S2, using the hostile imitation learning method, offline learning is performed from the example provided by the specialized driving instruction, and an unmanned driving vehicle lane change determination model is acquired. Here, during learning, the hostile imitation learning method simulates professional driving performance based on the learning strategy of the variance reduction policy gradient. As shown in FIG. 1, the specific process is as follows.
ステップS21において、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う。ここで、各状態データは、状態Otの空間のデータ[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、専門運転者の運転する自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。動作データは、動作Atの空間のデータに対応し、毎回収集される動作データは、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。 In step S21, data collection including collection of driving state data and operation data of the specialized driver is performed with respect to the vehicle driving behavior of the specialized driver. Here, each state data is the data in the space of the state Ot [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf . , S rb , v rb ], that is, the running state of the own vehicle driven by a professional driver, the front and rear vehicles in the vehicle path, and the vehicle closest to the own vehicle in the left and right lanes. The motion data corresponds to the space data of the motion At , and the motion data collected each time is the lane change to the left of the vehicle, the lane change to the right of the vehicle, the lane maintenance and speed maintenance of the vehicle, and the lane maintenance of the vehicle. Includes acceleration and lane keeping and deceleration of the vehicle.
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}を構成する。τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示す。ここでNは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する。本実施例において、サンプリング回数Nは、N=105にセットされる。 In step S22, the collected vehicle state data and operation data pairs are extracted, and the datasets τ = {τ 1 , τ 2 , τ 3 , ..., τ N } = {(O 1 , A 1 ), ( It constitutes O 2 , A 2 ), (O 3 , A 3 ), ..., ( ON , AN )}. τ is defined as an expert locus of hostile imitation learning, τ 1 to τ N indicate the 1st to Nth data pairs, respectively, and O 1 to ON are the collected 1st to Nth state data, respectively. 1 to AN indicate the collected 1st to Nth operation data, respectively. Here, N is the total number of data pairs in the training data set and corresponds to the number of samplings. In this embodiment, the number of samplings N is set to N = 105 .
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。具体的な過程は、以下のとおりである。 In step S23, using the data set τ as an input, learning is performed using a hostile imitation learning method, the driving behavior of a professional driver is imitated, and an unmanned driving vehicle lane change determination model is acquired. The specific process is as follows.
ステップS231において、初期化し、以下を含む。
1)最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットする。
本実施例において、最大学習ラウンドTは、T=2000にセットされ、学習ペースαは、α=0.3にセットされ、ステップS22に示すように、サンプリング回数Nは、N=105にセットされる。
2)行動クローニング方法を用いて無人運転車両代理方策πθを初期化し、ここで、無人運転車両代理方策πθの重みパラメータをθ0に初期化する。
3)Xavier方式を用いて敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータである。
In step S231, it is initialized and includes:
1) Set the maximum learning round T, the learning pace α, and the number of samplings N.
In this embodiment, the maximum learning round T is set to T = 2000, the learning pace α is set to α = 0.3, and the number of samplings N is set to N = 105 as shown in step S22. Will be done.
2) Initialize the unmanned vehicle surrogate policy π θ using the behavioral cloning method, where the weight parameter of the unmanned vehicle surrogate policy π θ is initialized to θ 0 .
3) The weight parameter of the hostile network discriminator D φ is initialized by using the Xavier method, where φ 0 is the initialization weight parameter of the hostile network discriminator D φ .
3)無人運転車両の走行中に、無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを含む車両環境情報を取得する。
ここで、無人運転車両の現在の状態ベクトルOは、状態Otの空間のデータ[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。無人運転車両の現在の動作ベクトルAは、動作空間Atのデータに対応し、現在取得されている動作データは、無人運転車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
3) While the unmanned driving vehicle is running, the vehicle environment information including the current state vector O and the current motion vector A of the unmanned driving vehicle is acquired.
Here, the current state vector O of the unmanned driving vehicle is the space data of the state Ot [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb. , S rf , v rf , s rb , v rb ], that is, the running state of the own vehicle of the unmanned driving vehicle, the front and rear vehicles in the vehicle path, and the vehicle closest to the own vehicle in the left and right lanes. The current motion vector A of the unmanned vehicle corresponds to the data of the motion space At, and the currently acquired motion data includes changing lanes to the left of the unmanned vehicle, changing lanes to the right of the vehicle, maintaining the lane of the vehicle, and so on. Includes vehicle speed maintenance, vehicle lane maintenance and acceleration, and vehicle lane maintenance and deceleration.
該無人運転車両は、ステップS3で車線変更決定を行う無人運転車両に対応する。 The unmanned driving vehicle corresponds to an unmanned driving vehicle that makes a lane change decision in step S3.
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行する。 In step S232, steps S233 to S239 are executed for each learning round t (0 ≦ t ≦ T).
ステップS233において、ランダムにサンプリングし、平均が0で分散がt(0≦t≦T)であるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルである。本実施例において、vは、常数であり、0.3~0をとる。 In step S233, N pieces of Gaussian vectors δ t = {δ 1 , δ 2 , ..., δ N } having an average of 0 and a variance of t (0 ≦ t ≦ T) are generated by randomly sampling. Here, δ 1 to δ N are the 1st to Nth Gaussian vectors, and δ t is a vector in which N Gaussian vectors are combined. In this embodiment, v is a constant and takes 0.3 to 0.
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出する。
In step S234, during the current learning round t, the average variance of the weight parameter θ t of the unmanned vehicle surrogate policy π θ
Is calculated.
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出する。 In step S235, the average value μ of the current state vector O of the unmanned driving vehicle is calculated.
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルである。
本ステップにおいて、δk=δ1,δ2,...,δNに基づき、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)が得られる。
In step S236, for each k (k ∈ {1, 2, ..., N}), the random surrogate policy π t, (k) : using the variance reduction method:
Is calculated, and δ k is the k-th Gauss vector obtained in step S233.
In this step, based on δ k = δ 1 , δ 2 , ..., δ N , N random surrogate measures π t, (1) , π t, (2), π t, (3) ,. .., π t, (N) are obtained.
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成する。
本ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)をそれぞれ適用して、サンプル軌跡
を対応的に生成する。
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示す。
In step S237, the current state vector O of the unmanned driving vehicle is input, and the random surrogate measures π t, (k) (k = 1, 2, ..., N) are applied to sample the locus.
To generate.
In this step, N random surrogate measures π t, (1) , π t, (2), π t, (3) , ..., π t , with the current state vector O of the unmanned vehicle as input. , (N) are applied respectively, and the sample locus
Is generated correspondingly.
here,
Is the 1st to Nth sample loci generated by the random surrogate measures π t, (k) , each taking O as an input and taking a value of 1 to N for k.
Indicates the operation data in the 1st to Nth sample loci, respectively.
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新する。
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して
更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
である。ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化である。
は、
を入力とし、重みパラメータφtで算出した結果である。
In step S238, the weight parameter φ t of the hostile network discriminator D φ is updated.
The least squares loss function is used to learn and update the weight parameter φ t of the hostile network discriminator D φ , i.e., for sample trajectories that are far from expert trajectories on both sides of the decision boundary, the least squares loss function. Use and punish, the loss function
Is. Here, π E and π θ correspond to the expert policy and the unmanned vehicle surrogate policy, respectively.
Is the entropy regularization of expert measures,
Is the entropy regularization of the unmanned vehicle surrogate policy.
teeth,
Is the input, and the result is calculated with the weight parameter φ t .
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新する。
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得る。
In step S239, the weight parameter θ t of the unmanned vehicle surrogate policy π θ is updated.
Until the current learning round t reaches the maximum learning round T, the weight parameter θ t of the surrogate policy π θ is updated using the measure gradient method based on the variance reduction to obtain the updated weight parameter θ t + 1 .
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新する具体的な過程は、ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である。
は、判別器が(O,A)で判別計算した結果を示す。)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392とを含む。
In step S239, the specific process of updating the weight parameter θ t of the surrogate policy π θ using the measure gradient method based on the variance reduction is the random surrogate policy π t, (k) (k ∈ {1, 2,. .., N}), incentive function
(During the ceremony
Is an entropy regularization.
Indicates the result of discrimination calculation by the discriminator in (O, A). ) Is calculated in step S2391 and
As in step S2392, which updates the parameter θ t of the unmanned vehicle surrogate policy π θ .
本ステップで敵対的ネットワーク判別器Dφの重みパラメータ及び無人運転車両代理方策πθのパラメータを学習回数で更新することによって敵対的模倣学習方法の学習を実現し、無人運転車両車線変更決定モデルを取得する。 In this step, learning of the hostile imitation learning method is realized by updating the weight parameter of the hostile network discriminator Dφ and the parameter of the unmanned driving vehicle surrogate policy π θ with the number of learnings, and the unmanned driving vehicle lane change determination model is created. get.
ステップS3において、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。具体的に図2に示すように、以下のとおりである。 In step S3, the vehicle lane change determination result is acquired by the unmanned vehicle lane change determination model using the currently acquired environmental vehicle information as an input parameter of the unmanned vehicle lane change determination model during the unmanned operation of the vehicle. Specifically, as shown in FIG. 2, it is as follows.
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、状態Otの空間のデータ[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。 In step S31, the current environmental vehicle information of the unmanned vehicle including the state data of the unmanned vehicle is acquired, and the space data of the state Ot [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ] Including the running condition of the vehicle.
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与える。即ち、ステップS31で取得した無人運転車両の状態データ[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を無人運転車両車線変更決定モデルに入力する。 In step S32, a value is given to the input state of the unmanned driving vehicle lane change determination model based on the state data of the unmanned driving vehicle. That is, the state data of the unmanned driving vehicle acquired in step S31 [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s. rb , v rb ] is input to the unmanned driving vehicle lane change determination model.
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得する。本実施例において、無人運転車両車線変更決定モデルによって取得した車線変更決定結果は、動作Atの空間の内容に対応し、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む。 In step S33, the lane change determination result is acquired by the unmanned driving vehicle lane change determination model. In this embodiment, the lane change determination result acquired by the unmanned vehicle lane change determination model corresponds to the content of the space of the operation At , and the lane change to the left of the first type vehicle and the right side of the second type vehicle. Includes lane change, lane keeping and speed maintenance of the third type of vehicle, lane keeping and acceleration of the fourth type of vehicle, and lane keeping and deceleration of the fifth type of vehicle.
ステップS34において、連続してn回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、即ち連続してn回ですべて左へ車線変更又は右へ車線変更であるかを判断する。nは、常数であり、3~5にセットされる。NOであれば、ステップS35に進むが、YESであれば、ステップS36に進む。 In step S34, it is determined whether the determination results of n times in a row are all lane changes and the direction of the lane change is the same, that is, by changing lanes to the left or to the right in a row of n times. Determine if there is. n is a constant and is set to 3-5. If NO, the process proceeds to step S35, but if YES, the process proceeds to step S36.
ステップS35において、現在の決定結果が車線変更であるかを判断する。
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻る。例えば、現在の決定結果が車両の車線維持且つ加速である場合、無人運転車両が現在の走行車線を維持し且つ加速動作を実行するように制御する。
In step S35, it is determined whether the current determination result is a lane change.
If NO, then depending on the current decision result, the current driving behavior of the unmanned vehicle is controlled, that is, the unmanned vehicle is controlled to stay in the current lane, and is accelerated, decelerated, or decelerated. The operation of maintaining the vehicle speed is executed, and the process returns to step S31. For example, if the current determination result is vehicle lane keeping and acceleration, the unmanned driving vehicle is controlled to maintain the current driving lane and perform the acceleration operation.
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持する。この場合、決定結果が車線変更であるにかかわらず、車線変更の決定結果が連続してn回出ていないので、この際に車線変更せず、現在の決定結果の前の運転状態を維持し、決定結果の前の運転車線及び運転速度を維持することを含む。 If YES, the unmanned vehicle maintains the driving state prior to the current decision result. In this case, even though the decision result is a lane change, the lane change decision result has not been issued n times in a row. Therefore, the lane change is not performed at this time, and the driving state before the current decision result is maintained. Includes maintaining the driving lane and driving speed before the decision result.
ステップS36において、意思決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。 In step S36, the lane is changed according to the decision-making result, and at the same time, the presence or absence of an emergency is detected during the lane change of the unmanned driving vehicle. The lane change is completed based on the change determination result, and the process returns to step S31.
(実施例2)
本実施例は、実施例1の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムを開示し、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更決定モジュールとを含む。
(Example 2)
This embodiment discloses an unmanned vehicle lane change determination system for realizing an unmanned vehicle lane change determination method based on hostile imitation learning of Example 1, and partially observes the unmanned vehicle lane change determination task. Unmanned learning from the examples provided by the specialized driving instruction, using a task description module described as a process and a hostile imitation learning method that simulates specialized driving performance based on the distributed reduction policy gradient learning policy during learning. The lane change decision model construction module that acquires the driving vehicle lane change decision model, the environmental vehicle information acquisition module that acquires the current environmental vehicle information during unmanned driving of the vehicle, and the unmanned environmental vehicle information that is currently acquired. As an input parameter of the driving vehicle lane change determination model, a lane change determination module for acquiring the vehicle lane change determination result by the unmanned driving vehicle lane change determination model is included.
更に、本実施例において、タスク記述モジュールは、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する状態空間決定モジュールと、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Atを決定する動作空間決定モジュールと、を含む。 Further, in the present embodiment, the task description module is a space [l, v 0 , s f , v] of the state Ot including the running state of the own vehicle, the front and rear vehicles in the vehicle course, and the vehicle closest to the own vehicle in the left and right lanes. The state space determination module that determines [ f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ] and the left lane of the first type of vehicle. Includes change, lane change to the right of the second type of vehicle, lane keeping and speed maintenance of the third type of vehicle, lane keeping and acceleration of the fourth type of vehicle, and lane keeping and deceleration of the fifth type of vehicle. Includes an operating space determination module that determines the operating space At.
更に、本実施例において、車線変更決定モデル構築モジュールは、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う第1データ収集モジュールと、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示す)を構成するエキスパート軌道生成モジュールと、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する学習モジュールとを含む。具体的な学習過程は、実施例1のステップS231~ステップS239で示されるとおりである。 Further, in the present embodiment, the lane change determination model construction module is a first data collection module that collects data including the collection of driving state data and operation data of the specialized driver with respect to the vehicle driving behavior of the specialized driver. And, the pair of the collected vehicle state data and operation data is extracted, and the data set τ = {τ 1 , τ 2 , τ 3 , ..., τ N } = {(O 1 , A 1 ), (O 2 ). , A 2 ), (O 3 , A 3 ), ..., ( ON, AN)} (τ is defined as an expert trajectory of hostile imitation learning, and τ 1 to τ N are 1 to 1, respectively. Indicates the Nth data pair, O1 to ON indicate the collected 1st to Nth state data, respectively, and A1 to AN indicate the collected 1st to Nth operation data, respectively). With the expert track generation module that composes the including. The specific learning process is as shown in steps S231 to S239 of the first embodiment.
本実施例の無人運転車両車線変更決定システムは、実施例1の無人運転車両車線変更決定方法に対応するので、各モジュールの具体的な実現は、上記実施例1を参照でき、ここで一々説明しない。なお、本実施例で提供する装置は、上記各機能ブロックの区分のみを例示したものであり、実際の応用においては、必要に応じて上記機能の割り当てを異なる機能ブロックで行う。即ち内部構成を異なる機能ブロックに区分し、上記で説明した機能の全部又は一部を達成することができる。当業者は、本明細書に開示される実施例に記載される各例のユニット及びアルゴリズムステップに関連して、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せで実装できることを認識することができる。ハードウェア及びソフトウェアの互換性を明確に説明するために、上記の説明では、各例の構成及びステップを機能に応じて一般的に記載してある。これらの機能がハードウェア又はソフトウェアのいずれで実行されるかは、技術手段の特定のアプリケーション及び設計制約条件に依存する。当業者は、記載された機能を実現するために、特定のアプリケーションごとに異なる方法を使用することができるが、そのような実現は、本発明の範囲から逸脱するものと考えられるべきではない。 Since the unmanned driving vehicle lane change determination system of the present embodiment corresponds to the unmanned driving vehicle lane change determination method of the first embodiment, the specific realization of each module can be referred to the above-described first embodiment, which will be described one by one. do not do. The apparatus provided in this embodiment exemplifies only the division of each of the above functional blocks, and in an actual application, the above functions are assigned to different functional blocks as needed. That is, the internal configuration can be divided into different functional blocks to achieve all or part of the functions described above. One of ordinary skill in the art can recognize that it can be implemented in electronic hardware, computer software, or a combination of both, in connection with the units and algorithm steps of each example described in the examples disclosed herein. In order to clearly illustrate hardware and software compatibility, the above description generally describes the configuration and steps of each example according to function. Whether these functions are performed in hardware or software depends on the specific application of the technical means and design constraints. One of ordinary skill in the art may use different methods for each particular application to achieve the described functionality, but such implementation should not be considered to deviate from the scope of the invention.
(実施例3)
本実施例は、プログラムが格納されている記憶媒体を開示し、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現し、即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
(Example 3)
The present embodiment discloses a storage medium in which the program is stored, and when the program is executed by the processor, realizes the unmanned vehicle lane change determination method based on the hostile imitation learning described in the first embodiment. That is, the unmanned vehicle lane change decision task is described as a partial observation Markov decision process, and the specialized driving teaching is performed using a hostile imitation learning method that simulates the specialized driving performance based on the learning policy of the dispersion reduction policy gradient during learning. Learn from the example provided by, acquire the unmanned vehicle lane change determination model, and use the currently acquired environmental vehicle information as the input parameter of the unmanned vehicle lane change determination model during unmanned driving of the vehicle. The vehicle lane change decision result is acquired by the driving vehicle lane change decision model.
本実施例における記憶媒体は、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、Uディスク、リムーバブルハードディスク等の媒体である。 The storage medium in this embodiment is a medium such as a magnetic disk, an optical disk, a computer memory, a read-only memory (ROM: Read-Only Memory), a random access memory (RAM: Random Access Memory), a U disk, or a removable hard disk.
(実施例4)
本実施例は、プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器を開示し、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両の車線変更決定方法を実現することを特徴とする。即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
(Example 4)
The present embodiment discloses an arithmetic unit including a processor and a memory for storing a program that can be executed by the processor, and when the processor executes a program stored in the memory, the first embodiment is described. It is characterized by realizing a lane change determination method for an unmanned driving vehicle based on hostile imitation learning. That is, the unmanned vehicle lane change decision task is described as a partial observation Markov decision process, and the specialized driving teaching is performed using a hostile imitation learning method that simulates the specialized driving performance based on the learning policy of the dispersion reduction policy gradient during learning. Learn from the example provided by, acquire the unmanned vehicle lane change determination model, and use the currently acquired environmental vehicle information as the input parameter of the unmanned vehicle lane change determination model during unmanned driving of the vehicle. The vehicle lane change decision result is acquired by the driving vehicle lane change decision model.
本実施例における演算機器は、デスクトップコンピュータ、ラップトップ、スマートフォン、PDA携帯端末、タブレット、又はプロセッサ機能を有する他の端末機器である。 The computing device in this embodiment is a desktop computer, a laptop, a smartphone, a PDA mobile terminal, a tablet, or another terminal device having a processor function.
上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は、上記実施例に限定されるものではなく、本発明の趣旨及び原理から逸脱しない範囲での変更、修正、置換、組み合わせ、単純化は、均等な置換として本発明の保護範囲内に含まれる。 The above-described embodiment is a preferred embodiment of the present invention, but the embodiment of the present invention is not limited to the above-mentioned embodiment, and changes, modifications, and modifications are made without departing from the spirit and principle of the present invention. Substitutions, combinations and simplifications are included within the scope of the invention as even substitutions.
(付記)
(付記1)
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Additional note)
(Appendix 1)
In the method of determining the lane change of an unmanned driving vehicle based on hostile imitation learning,
Step S1 to describe the unmanned vehicle lane change decision task as a partial observation Markov decision process,
Dispersion reduction policy during learning Use a hostile imitation learning method that simulates professional driving performance based on a gradient learning strategy to learn from the examples provided by professional driving teaching and obtain an unmanned vehicle lane change decision model. Step S2 and
During unmanned driving of the vehicle, the currently acquired environmental vehicle information is used as an input parameter of the unmanned driving vehicle lane change determination model, and includes step S3 of acquiring the vehicle lane change determination result by the unmanned driving vehicle lane change determination model. Characterized by that
Unmanned vehicle lane change decision method based on hostile imitation learning.
(付記2)
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
lは、自車両が走行する車線であり、v0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定することを特徴とする、
付記1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 2)
In step S1, describing the unmanned vehicle lane change determination task as a partial observation Markov determination process is specifically described.
In step S11, the space [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ]
(here,
l is the lane in which the own vehicle travels, v 0 is the traveling speed of the own vehicle, and so on.
s f and v f correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle, respectively, in front of the own vehicle course.
s b and v b correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle, respectively, behind the course of the own vehicle.
s lf and v lf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the left lane to the vehicle and the relative speed to the vehicle, respectively.
s lb and v lb correspond to the distance from the vehicle closest to the vehicle in the left lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively.
s rf and v rf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the right lane to the vehicle and the relative speed to the vehicle, respectively.
s rb and v rb correspond to the distance from the vehicle closest to the vehicle in the right lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively).
In step S12 , the space of the operation At including the lane change to the left of the vehicle, the lane change to the right of the vehicle, the lane keeping and speed maintenance of the vehicle, the lane keeping and acceleration of the vehicle, and the lane keeping and deceleration of the vehicle is determined. Characterized by
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 1.
(付記3)
自車両に対し、
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 3)
For your vehicle
If the vehicle in front of the path is not detected, set s f and v f to fixed values, respectively.
If no vehicle behind the path is detected, set s b and v b to fixed values, respectively.
If no vehicle in front of the left lane is detected, set slf and vlf to fixed values, respectively.
If no vehicle behind the left lane is detected, set slb and vlb to fixed values, respectively.
If a vehicle in front of the right lane is not detected, set srf and vrf to fixed values, respectively.
When a vehicle behind the right lane is not detected, s rb and v rb are set to fixed values, respectively.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 2.
(付記4)
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 4)
In step S2, as a specific process of learning from an example provided by professional driving instruction using a hostile imitation learning method.
In step S21, data collection including collection of driving state data and operation data of the specialized driver is performed for the driving behavior of the vehicle of the specialized driver.
In step S22, the collected vehicle state data and operation data pairs are extracted, and the datasets τ = {τ 1 , τ 2 , τ 3 , ..., τ N } = {(O 1 , A 1 ), ( O 2 , A 2 ), (O 3 , A 3 ), ..., ( ON, AN)} (τ is defined as the expert trajectory of hostile imitation learning, and τ 1 to τ N are , respectively . The 1st to Nth data pairs are indicated, O 1 to ON indicate the collected 1st to Nth state data, respectively, and A 1 to AN indicate the collected 1st to Nth operation data, respectively. Shown, N is the total number of data pairs in the training dataset, which corresponds to the number of samplings).
In step S23, the data set τ is used as an input, and learning is performed using a hostile imitation learning method, the driving behavior of a professional driver is imitated, and an unmanned driving vehicle lane change determination model is acquired.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 2.
(付記5)
ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成し、
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
テップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
であり、ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
付記4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 5)
In step S23, simulating the professional driving performance based on the learning policy of the variance reduction policy gradient during learning as hostile imitation learning is a concrete process.
In step S231, the initialization is performed.
Set the maximum learning round T, learning pace α, and sampling count N,
Initialize the unmanned vehicle surrogate policy π θ , initialize the weight parameter of the unmanned vehicle surrogate policy π θ to θ 0 ,
Initialize the weight parameter of the hostile network discriminator D φ , where φ 0 is the initialization weight parameter of the hostile network discriminator D φ .
Acquire the current state vector O and the current motion vector A of the unmanned driving vehicle,
In step S232, step S233 to step S239 are executed for each learning round t (0 ≦ t ≦ T).
In step S233, N random Gaussian vectors δ t = {δ 1 , δ 2 , ..., δ N } having a mean of 0 and a variance of v are generated, where δ 1 to δ are generated. N is the 1st to Nth Gaussian vector, and δ t is a vector obtained by combining N Gaussian vectors.
In step S234, during the current learning round t, the average variance of the weight parameter θ t of the unmanned vehicle surrogate policy π θ
Is calculated,
In step S235, the average value μ of the current state vector O of the unmanned driving vehicle is calculated.
In step S236, for each k (k ∈ {1, 2, ..., N}), the random surrogate strategy π t, (k) : using the variance reduction method:
Is calculated, and δ k is the k-th Gauss vector obtained in step S233.
In step S237, the current state vector O of the unmanned driving vehicle is input, and the random surrogate measures π t, (k) (k = 1, 2, ..., N) are applied to sample the locus.
To generate
here,
Is the 1st to Nth sample loci generated by the random surrogate measures π t, (k) , each taking O as an input and taking a value of 1 to N for k.
Indicates the motion data in the 1st to Nth sample trajectories, respectively.
In Tep S238, the weight parameter φ t of the hostile network discriminator D φ was updated.
The least squares loss function is used to learn and update the weight parameter φ t of the hostile network discriminator D φ , i.e., for sample trajectories that are far from expert trajectories on both sides of the decision boundary, the least squares loss function. Use and punish, the loss function
Here, π E and π θ correspond to the expert policy and the unmanned vehicle surrogate policy, respectively.
Is the entropy regularization of expert measures,
Is the entropy regularization of unmanned vehicle surrogate measures,
In step S239, the weight parameter θ t of the unmanned vehicle surrogate policy π θ is updated.
The feature is that the weight parameter θ t of the surrogate policy π θ is updated to obtain the updated weight parameter θ t + 1 by using the measure gradient method based on the variance reduction until the current learning round t reaches the maximum learning round T. To
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 4.
(付記6)
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含むことを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 6)
In step S239, the specific process of updating the weight parameter θ t of the surrogate measure π θ using the measure gradient method based on the variance reduction is
Random surrogate policy π t, (k) (k ∈ {1, 2, ..., N}) for each incentive function
(During the ceremony
Is entropy regularization) in step S2391 and
The step S2392, which updates the parameter θ t of the unmanned driving vehicle surrogate policy π θ , is included, as described above.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 5.
(付記7)
ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻ることを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(Appendix 7)
In step S3, as a specific process of acquiring the unmanned driving vehicle lane change determination result by the unmanned driving vehicle lane change determination model,
In step S31, the current environmental vehicle information of the unmanned driving vehicle including the state data of the unmanned driving vehicle is acquired.
In step S32, a value is given to the input state of the unmanned driving vehicle lane change determination model based on the state data of the unmanned driving vehicle.
In step S33, the lane change decision result is acquired by the unmanned driving vehicle lane change decision model.
In step S34, it is determined whether the determination results of n (n is a constant) consecutive times are all lane changes and the directions of lane changes are the same. If NO, the process proceeds to step S35. If YES, the process proceeds to step S36.
In step S35, it is determined whether the current decision result is a lane change, and the result is determined.
If NO, then depending on the current decision result, the current driving behavior of the unmanned vehicle is controlled, that is, the unmanned vehicle is controlled to stay in the current lane, and is accelerated, decelerated, or decelerated. Execute the operation of maintaining the vehicle speed, return to step S31, and return to step S31.
If YES, the unmanned vehicle maintains the driving state before the current decision result and returns to step S31.
In step S36, the lane is changed according to the decision result, and at the same time, the presence or absence of an emergency is detected during the lane change of the unmanned driving vehicle. The lane change is completed based on the determination result, and the process returns to step S31.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning described in Appendix 5.
(付記8)
付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
(Appendix 8)
In the unmanned driving vehicle lane change determination system for realizing the unmanned driving vehicle lane change determination method based on the hostile imitation learning described in any one of Appendix 1 to 7.
A task description module that describes the unmanned vehicle lane change decision task as a partial observation Markov decision process,
Dispersion reduction policy during learning Use a hostile imitation learning method that simulates professional driving performance based on a gradient learning strategy to learn from the examples provided by professional driving instruction and obtain an unmanned vehicle lane change decision model. Lane change decision model construction module and
An environmental vehicle information acquisition module that acquires current environmental vehicle information while the vehicle is driving unmanned.
It is characterized by including the currently acquired environmental vehicle information as an input parameter of the unmanned driving vehicle lane change decision model, and a lane change decision module for acquiring the vehicle lane change decision result by the unmanned driving vehicle lane change decision model. do,
Unmanned vehicle lane change decision system.
(付記9)
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
(Appendix 9)
A storage medium in which a program is stored, and when the program is executed by a processor, the method for determining an unmanned driving vehicle lane change based on hostile imitation learning according to any one of Supplementary note 1 to 7 is realized. Characterized by that
The storage medium in which the program is stored.
(付記10)
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。
(Appendix 10)
An arithmetic unit that includes a processor and memory for storing programs that can be executed by the processor.
When the processor executes a program stored in the memory, the processor realizes an unmanned driving vehicle lane change determination method based on the hostile imitation learning described in any one of the appendices 1 to 7.
Arithmetic equipment.
Claims (10)
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In the method of determining the lane change of an unmanned driving vehicle based on hostile imitation learning,
Step S1 to describe the unmanned vehicle lane change decision task as a partial observation Markov decision process,
Dispersion reduction policy during learning Use a hostile imitation learning method that simulates professional driving performance based on a gradient learning strategy to learn from the examples provided by professional driving teaching and obtain an unmanned vehicle lane change decision model. Step S2 and
During unmanned driving of the vehicle, the currently acquired environmental vehicle information is used as an input parameter of the unmanned driving vehicle lane change determination model, and includes step S3 of acquiring the vehicle lane change determination result by the unmanned driving vehicle lane change determination model. Characterized by that
Unmanned vehicle lane change decision method based on hostile imitation learning.
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Otの空間[l,v0,sf,vf,sb,vb,slf,vlf,slb,vlb,srf,vrf,srb,vrb]
(ここで、
lは、自車両が走行する車線であり、v0は、自車両の走行速度であり、
sf、vfは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
sb、vbは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Atの空間を決定することを特徴とする、
請求項1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In step S1, describing the unmanned vehicle lane change determination task as a partial observation Markov determination process is specifically described.
In step S11, the space [l, v 0 , s f , v f , s b , v b , s lf , v lf , s lb , v lb , s rf , v rf , s rb , v rb ]
(here,
l is the lane in which the own vehicle travels, and v 0 is the traveling speed of the own vehicle.
s f and v f correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle, respectively, in front of the own vehicle course.
s b and v b correspond to the distance from the nearest vehicle to the own vehicle and the relative speed to the own vehicle, respectively, behind the course of the own vehicle.
s lf and v lf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the left lane to the vehicle and the relative speed to the vehicle, respectively.
s lb and v lb correspond to the distance from the vehicle closest to the vehicle in the left lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively.
s rf and v rf correspond to the distance from the vehicle closest to the vehicle in front of the vehicle in the right lane to the vehicle and the relative speed to the vehicle, respectively.
s rb and v rb correspond to the distance from the vehicle closest to the vehicle in the right lane behind the vehicle to the vehicle and the relative speed to the vehicle, respectively).
In step S12 , the space of the operation At including the lane change to the left of the vehicle, the lane change to the right of the vehicle, the lane keeping and speed maintenance of the vehicle, the lane keeping and acceleration of the vehicle, and the lane keeping and deceleration of the vehicle is determined. Characterized by
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 1.
その進路前方の車両が検出されない場合、sf、vfをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、sb、vbをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 For your vehicle
If the vehicle in front of the path is not detected, set s f and v f to fixed values, respectively.
If no vehicle behind the path is detected, set s b and v b to fixed values, respectively.
If no vehicle in front of the left lane is detected, set slf and vlf to fixed values, respectively.
If no vehicle behind the left lane is detected, set slb and vlb to fixed values, respectively.
If a vehicle in front of the right lane is not detected, set srf and vrf to fixed values, respectively.
When a vehicle behind the right lane is not detected, s rb and v rb are set to fixed values, respectively.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 2.
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ1,τ2,τ3,...,τN}={(O1,A1),(O2,A2),(O3,A3),...,(ON,AN)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ1~τNは、それぞれ、1~N番目のデータペアを示し、O1~ONは、それぞれ、収集した1~N番目の状態データを示し、A1~ANは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In step S2, as a specific process of learning from an example provided by professional driving instruction using a hostile imitation learning method.
In step S21, data collection including collection of driving state data and operation data of the specialized driver is performed for the driving behavior of the vehicle of the specialized driver.
In step S22, the collected vehicle state data and operation data pairs are extracted, and the datasets τ = {τ 1 , τ 2 , τ 3 , ..., τ N } = {(O 1 , A 1 ), ( O 2 , A 2 ), (O 3 , A 3 ), ..., ( ON, AN)} (τ is defined as the expert trajectory of hostile imitation learning, and τ 1 to τ N are , respectively . The 1st to Nth data pairs are indicated, O 1 to ON indicate the collected 1st to Nth state data, respectively, and A 1 to AN indicate the collected 1st to Nth operation data, respectively. Shown, N is the total number of data pairs in the training dataset, which corresponds to the number of samplings).
In step S23, the data set τ is used as an input, and learning is performed using a hostile imitation learning method, the driving behavior of a professional driver is imitated, and an unmanned driving vehicle lane change determination model is acquired.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 2.
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φ0は、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδt={δ1,δ2,...,δN}をN個生成し、ここで、δ1~δNは、1~N番目のガウスベクトルであり、δtは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθtの平均分散
を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k):
を算出し、δkは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
を生成し、
ここで、
は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
テップS238において、敵対的ネットワーク判別器Dφの重みパラメータφtを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφtを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
であり、ここで、πE、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
は、エキスパート方策のエントロピー正則化であり、
は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθtを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθtを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
請求項4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In step S23, simulating the professional driving performance based on the learning policy of the variance reduction policy gradient during learning as hostile imitation learning is a concrete process.
In step S231, the initialization is performed.
Set the maximum learning round T, learning pace α, and sampling count N,
Initialize the unmanned vehicle surrogate policy π θ , initialize the weight parameter of the unmanned vehicle surrogate policy π θ to θ 0 ,
Initialize the weight parameter of the hostile network discriminator D φ , where φ 0 is the initialization weight parameter of the hostile network discriminator D φ .
Acquire the current state vector O and the current motion vector A of the unmanned driving vehicle,
In step S232, step S233 to step S239 are executed for each learning round t (0 ≦ t ≦ T).
In step S233, N random Gaussian vectors δ t = {δ 1 , δ 2 , ..., δ N } having a mean of 0 and a variance of v are generated, where δ 1 to δ are generated. N is the 1st to Nth Gaussian vector, and δ t is a vector obtained by combining N Gaussian vectors.
In step S234, during the current learning round t, the average variance of the weight parameter θ t of the unmanned vehicle surrogate policy π θ
Is calculated,
In step S235, the average value μ of the current state vector O of the unmanned driving vehicle is calculated.
In step S236, for each k (k ∈ {1, 2, ..., N}), the random surrogate strategy π t, (k) : using the variance reduction method:
Is calculated, and δ k is the k-th Gauss vector obtained in step S233.
In step S237, the current state vector O of the unmanned driving vehicle is input, and the random surrogate measures π t, (k) (k = 1, 2, ..., N) are applied to sample the locus.
To generate
here,
Is the 1st to Nth sample loci generated by the random surrogate measures π t, (k) , each taking O as an input and taking a value of 1 to N for k.
Indicates the motion data in the 1st to Nth sample trajectories, respectively.
In Tep S238, the weight parameter φ t of the hostile network discriminator D φ was updated.
The least squares loss function is used to learn and update the weight parameter φ t of the hostile network discriminator D φ , i.e., for sample trajectories that are far from expert trajectories on both sides of the decision boundary, the least squares loss function. Use and punish, the loss function
Here, π E and π θ correspond to the expert policy and the unmanned vehicle surrogate policy, respectively.
Is the entropy regularization of expert measures,
Is the entropy regularization of unmanned vehicle surrogate measures,
In step S239, the weight parameter θ t of the unmanned vehicle surrogate policy π θ is updated.
The feature is that the weight parameter θ t of the surrogate policy π θ is updated to obtain the updated weight parameter θ t + 1 by using the measure gradient method based on the variance reduction until the current learning round t reaches the maximum learning round T. To
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 4.
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
(式中、
は、エントロピー正則化である)を算出するステップS2391と、
のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含むことを特徴とする、
請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In step S239, the specific process of updating the weight parameter θ t of the surrogate measure π θ using the measure gradient method based on the variance reduction is
Random surrogate policy π t, (k) (k ∈ {1, 2, ..., N}) for each incentive function
(During the ceremony
Is entropy regularization) in step S2391 and
The step S2392, which updates the parameter θ t of the unmanned driving vehicle surrogate policy π θ , is included, as described above.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 5.
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻ることを特徴とする、
請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。 In step S3, as a specific process of acquiring the unmanned driving vehicle lane change determination result by the unmanned driving vehicle lane change determination model,
In step S31, the current environmental vehicle information of the unmanned driving vehicle including the state data of the unmanned driving vehicle is acquired.
In step S32, a value is given to the input state of the unmanned driving vehicle lane change determination model based on the state data of the unmanned driving vehicle.
In step S33, the lane change decision result is acquired by the unmanned driving vehicle lane change decision model.
In step S34, it is determined whether the determination results of n (n is a constant) consecutive times are all lane changes and the directions of lane changes are the same. If NO, the process proceeds to step S35. If YES, the process proceeds to step S36.
In step S35, it is determined whether the current decision result is a lane change, and the result is determined.
If NO, then depending on the current decision result, the current driving behavior of the unmanned vehicle is controlled, that is, the unmanned vehicle is controlled to stay in the current lane, and is accelerated, decelerated, or decelerated. Execute the operation of maintaining the vehicle speed, return to step S31, and return to step S31.
If YES, the unmanned vehicle maintains the driving state before the current decision result and returns to step S31.
In step S36, the lane is changed according to the decision result, and at the same time, the presence or absence of an emergency is detected during the lane change of the unmanned driving vehicle. The lane change is completed based on the determination result, and the process returns to step S31.
The method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to claim 5.
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。 In the unmanned driving vehicle lane change determination system for realizing the unmanned driving vehicle lane change determination method based on the hostile imitation learning according to any one of claims 1 to 7.
A task description module that describes the unmanned vehicle lane change decision task as a partial observation Markov decision process,
Dispersion reduction policy during learning Use a hostile imitation learning method that simulates professional driving performance based on a gradient learning strategy to learn from the examples provided by professional driving instruction and obtain an unmanned vehicle lane change decision model. Lane change decision model construction module and
An environmental vehicle information acquisition module that acquires current environmental vehicle information while the vehicle is driving unmanned.
It is characterized by including the currently acquired environmental vehicle information as an input parameter of the unmanned driving vehicle lane change decision model, and a lane change decision module for acquiring the vehicle lane change decision result by the unmanned driving vehicle lane change decision model. do,
Unmanned vehicle lane change decision system.
プログラムが格納されている記憶媒体。 A storage medium in which a program is stored, and when the program is executed by a processor, the method for determining an unmanned vehicle lane change based on the hostile imitation learning according to any one of claims 1 to 7 is realized. Characterized by
The storage medium in which the program is stored.
前記プロセッサは、メモリに格納されているプログラムを実行すると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。 An arithmetic unit that includes a processor and memory for storing programs that can be executed by the processor.
When the processor executes a program stored in the memory, the processor realizes the method for determining an unmanned driving vehicle lane change based on the hostile imitation learning according to any one of claims 1 to 7.
Arithmetic equipment.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010331216.1A CN111483468B (en) | 2020-04-24 | 2020-04-24 | Unmanned vehicle lane change decision-making method and system based on confrontation and imitation learning |
CN202010331216.1 | 2020-04-24 | ||
PCT/CN2020/115750 WO2021212728A1 (en) | 2020-04-24 | 2020-09-17 | Unmanned vehicle lane changing decision-making method and system based on adversarial imitation learning |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022532972A true JP2022532972A (en) | 2022-07-21 |
JP7287707B2 JP7287707B2 (en) | 2023-06-06 |
Family
ID=71800232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021541153A Active JP7287707B2 (en) | 2020-04-24 | 2020-09-17 | Driverless vehicle lane change decision method and system based on adversarial imitation learning |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7287707B2 (en) |
CN (1) | CN111483468B (en) |
WO (1) | WO2021212728A1 (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111483468B (en) * | 2020-04-24 | 2021-09-07 | 广州大学 | Unmanned vehicle lane change decision-making method and system based on confrontation and imitation learning |
CN114074680B (en) * | 2020-08-11 | 2023-08-22 | 湖南大学 | Vehicle channel change behavior decision method and system based on deep reinforcement learning |
CN112418237A (en) * | 2020-12-07 | 2021-02-26 | 苏州挚途科技有限公司 | Vehicle driving decision method and device and electronic equipment |
CN112498354B (en) * | 2020-12-25 | 2021-11-12 | 郑州轻工业大学 | Multi-time scale self-learning lane changing method considering personalized driving experience |
CN112766310B (en) * | 2020-12-30 | 2022-09-23 | 嬴彻星创智能科技(上海)有限公司 | Fuel-saving lane-changing decision-making method and system |
CN113276883B (en) * | 2021-04-28 | 2023-04-21 | 南京大学 | Unmanned vehicle driving strategy planning method and implementation device based on dynamic generation environment |
CN113635909B (en) * | 2021-08-19 | 2022-07-12 | 崔建勋 | Automatic driving control method based on confrontation generation simulation learning |
CN114023108B (en) * | 2021-11-02 | 2023-06-09 | 河北工业大学 | Mixed traffic lane changing model and lane changing simulation method |
CN113771884B (en) * | 2021-11-09 | 2022-02-08 | 清华大学 | Intelligent automobile anthropomorphic track planning method based on lateral quantitative balance index |
CN114328448B (en) * | 2021-12-01 | 2024-08-23 | 中交第二公路勘察设计研究院有限公司 | Highway vehicle following behavior reconstruction method based on imitation learning algorithm |
CN114148349B (en) * | 2021-12-21 | 2023-10-03 | 西南大学 | Vehicle personalized following control method based on generation of countermeasure imitation study |
CN114179835B (en) * | 2021-12-30 | 2024-01-05 | 清华大学苏州汽车研究院(吴江) | Automatic driving vehicle decision training method based on reinforcement learning in real scene |
CN114407931B (en) * | 2022-02-21 | 2024-05-03 | 东南大学 | Safe driving decision method for automatic driving operation vehicle of high class person |
CN114506342B (en) * | 2022-03-03 | 2023-12-05 | 东风悦享科技有限公司 | Automatic driving lane change decision method, system and vehicle |
CN115626184B (en) * | 2022-12-19 | 2023-07-21 | 北京科技大学 | Weight coefficient and control strategy self-learning method and device for automatic driving vehicle |
CN118560530B (en) * | 2024-08-02 | 2024-10-01 | 杭州电子科技大学 | Multi-agent driving behavior modeling method based on generation of countermeasure imitation learning |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190111934A1 (en) * | 2017-10-17 | 2019-04-18 | The Regents Of The University Of Michigan | Fingerprinting Drivers Based On Vehicle Turns |
JP2020511704A (en) * | 2017-03-01 | 2020-04-16 | モービルアイ ビジョン テクノロジーズ リミテッド | System and method for navigating while detecting uncertainty |
JP2020149504A (en) * | 2019-03-14 | 2020-09-17 | オムロン株式会社 | Learning device, estimation device, data generation device, learning method and learning program |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5610815A (en) * | 1989-12-11 | 1997-03-11 | Caterpillar Inc. | Integrated vehicle positioning and navigation system, apparatus and method |
CN108919795B (en) * | 2018-06-01 | 2023-07-25 | 中国北方车辆研究所 | Automatic driving automobile lane change decision method and device |
CN110619340B (en) * | 2018-06-19 | 2022-09-16 | 广州汽车集团股份有限公司 | Method for generating lane change rule of automatic driving automobile |
US10890911B2 (en) * | 2018-07-20 | 2021-01-12 | Autox, Inc. | System and method for autonomously delivering commodity to the recipient's preferred environment |
JP7172287B2 (en) * | 2018-08-28 | 2022-11-16 | トヨタ自動車株式会社 | Autonomous driving system |
DE102018215055A1 (en) * | 2018-09-05 | 2020-03-05 | Bayerische Motoren Werke Aktiengesellschaft | Method for determining a lane change indication of a vehicle, a computer-readable storage medium and a vehicle |
CN109460023A (en) * | 2018-11-09 | 2019-03-12 | 上海理工大学 | Driver's lane-changing intention recognition methods based on Hidden Markov Model |
CN109598934B (en) * | 2018-12-13 | 2020-11-06 | 北京超星未来科技有限公司 | Rule and learning model-based method for enabling unmanned vehicle to drive away from high speed |
CN110297494B (en) * | 2019-07-15 | 2020-07-10 | 吉林大学 | Decision-making method and system for lane change of automatic driving vehicle based on rolling game |
CN110322017A (en) * | 2019-08-13 | 2019-10-11 | 吉林大学 | Automatic Pilot intelligent vehicle Trajectory Tracking Control strategy based on deeply study |
KR20190103093A (en) * | 2019-08-16 | 2019-09-04 | 엘지전자 주식회사 | Apparatus and method for changing traffic line of autonomous vehicle |
CN110569792A (en) * | 2019-09-09 | 2019-12-13 | 吉林大学 | Method for detecting front object of automatic driving automobile based on convolutional neural network |
CN110568760B (en) * | 2019-10-08 | 2021-07-02 | 吉林大学 | Parameterized learning decision control system and method suitable for lane changing and lane keeping |
CN111483468B (en) * | 2020-04-24 | 2021-09-07 | 广州大学 | Unmanned vehicle lane change decision-making method and system based on confrontation and imitation learning |
-
2020
- 2020-04-24 CN CN202010331216.1A patent/CN111483468B/en active Active
- 2020-09-17 WO PCT/CN2020/115750 patent/WO2021212728A1/en active Application Filing
- 2020-09-17 JP JP2021541153A patent/JP7287707B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020511704A (en) * | 2017-03-01 | 2020-04-16 | モービルアイ ビジョン テクノロジーズ リミテッド | System and method for navigating while detecting uncertainty |
US20190111934A1 (en) * | 2017-10-17 | 2019-04-18 | The Regents Of The University Of Michigan | Fingerprinting Drivers Based On Vehicle Turns |
JP2020149504A (en) * | 2019-03-14 | 2020-09-17 | オムロン株式会社 | Learning device, estimation device, data generation device, learning method and learning program |
Also Published As
Publication number | Publication date |
---|---|
JP7287707B2 (en) | 2023-06-06 |
CN111483468B (en) | 2021-09-07 |
CN111483468A (en) | 2020-08-04 |
WO2021212728A1 (en) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022532972A (en) | Unmanned vehicle lane change decision method and system based on hostile imitation learning | |
CN110834644B (en) | Vehicle control method and device, vehicle to be controlled and storage medium | |
CN111267830B (en) | Hybrid power bus energy management method, device and storage medium | |
KR20220102395A (en) | System and Method for Improving of Advanced Deep Reinforcement Learning Based Traffic in Non signalalized Intersections for the Multiple Self driving Vehicles | |
CN113044064B (en) | Vehicle self-adaptive automatic driving decision method and system based on meta reinforcement learning | |
CN116134292A (en) | Tool for performance testing and/or training an autonomous vehicle planner | |
US11584342B2 (en) | Real-time performance handling virtual tire sensor | |
CN112508164B (en) | End-to-end automatic driving model pre-training method based on asynchronous supervised learning | |
Scheel et al. | Situation assessment for planning lane changes: Combining recurrent models and prediction | |
CN113255998B (en) | Expressway unmanned vehicle formation method based on multi-agent reinforcement learning | |
US20210341886A1 (en) | System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints | |
CN112249008A (en) | Unmanned automobile early warning method aiming at complex dynamic environment | |
CN113511222A (en) | Scene self-adaptive vehicle interactive behavior decision and prediction method and device | |
CN110879595A (en) | Unmanned mine card tracking control system and method based on deep reinforcement learning | |
CN115923833A (en) | Personifying decision control method and device for vehicle, vehicle and storage medium | |
CN112835362B (en) | Automatic lane change planning method and device, electronic equipment and storage medium | |
Arbabi et al. | Learning an interpretable model for driver behavior prediction with inductive biases | |
CN110390398A (en) | On-line study method | |
Sankar et al. | Data-driven leading vehicle speed forecast and its application to ecological predictive cruise control | |
Zhao et al. | Imitation of real lane-change decisions using reinforcement learning | |
Akca et al. | eTS fuzzy driver model for simultaneous longitudinal and lateral vehicle control | |
CN114120653A (en) | Centralized vehicle group decision control method and device and electronic equipment | |
Molaie et al. | Auto-Driving Policies in Highway based on Distributional Deep Reinforcement Learning | |
Zhang et al. | Maximum entropy inverse reinforcement learning-based trajectory planning for autonomous driving | |
CN113298324B (en) | Track prediction model method, system and device based on deep reinforcement learning and neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7287707 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |