JP7287707B2 - 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム - Google Patents

敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム Download PDF

Info

Publication number
JP7287707B2
JP7287707B2 JP2021541153A JP2021541153A JP7287707B2 JP 7287707 B2 JP7287707 B2 JP 7287707B2 JP 2021541153 A JP2021541153 A JP 2021541153A JP 2021541153 A JP2021541153 A JP 2021541153A JP 7287707 B2 JP7287707 B2 JP 7287707B2
Authority
JP
Japan
Prior art keywords
vehicle
lane change
learning
policy
change decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021541153A
Other languages
English (en)
Other versions
JP2022532972A (ja
Inventor
科 ▲チー▼
立生 范
Original Assignee
▲広▼州大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ▲広▼州大学 filed Critical ▲広▼州大学
Publication of JP2022532972A publication Critical patent/JP2022532972A/ja
Application granted granted Critical
Publication of JP7287707B2 publication Critical patent/JP7287707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/10Path keeping
    • B60W30/12Lane keeping
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Description

本発明は、無人自律車両運転の技術分野に属し、特に敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステムに関する。
無人運転の発展は、道路交通の知的レベルを向上させ、交通運送業界のトランスフォーメーションおよびアップグレードを推進するのに役立つ。無人運転車両は、様々なタイプのセンサ、コントローラを含むハードウェアと、環境認識、行動決定、運動計画が自律制御モジュールと統合された統合システムであるソフトウェアとの組み合わせである。
車線変更の決定は、無人運転車両決定技術の重要な構成モジュールであり、後続の動作計画モジュールが実行される根拠である。現在、開示された特許を含む先行技術において、主に採用されている無人運転車両車線変更決定方法は、規則に基づく決定、動的計画に基づく決定、ファジィ制御に基づく決定などの従来の方法を含む。しかし、車両の走行環境が複雑かつ多様で高度な動的交通環境であり、決定方法の設計のための正確な数学モデルの確立が困難であり、従来の車線変更決定方法のロバスト性及び適応性は、無人運転車線変更決定の要件を完全に満たすことができなかった。
近年、無人運転分野における人工知能の応用が急速に進展しており、無人運転車両車線変更決定の問題を解決するために人工知能の採用が可能となっている。エンド・ツー・エンドの教師あり学習と深度強化学習は、2つの比較的一般的な手法である。エンド・ツー・エンドの教師あり学習及び深度強化学習は、いずれもニューラルネットワークモデルを学習して、感知データを車線変更の決定の出力に直接マッピングすることができる。しかし、エンド・ツー・エンドの教師あり学習は、多くの場合、大量の学習データを必要とし、モデル化能力の弱い深度強化学習は、タスク要件を満たすインセンティブ関数を人為的に設計する必要がある。
現在の無人運転技術のボトルネックと、車線変更決定技術の不足とを総合的に考慮して、新たな無人運転車両車線変更決定方法を設計する必要がある。
本発明の第1の目的は、従来技術の欠点及び不備を克服し、敵対的模倣学習に基づく無人運転車両車線変更決定方法を提供することである。該方法は、専門運転教示によって提供される例から学習し、車両状態から車両の車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両の走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
本発明の第2の目的は、無人運転車両車線変更決定システムを提供することである。
本発明の第3の目的は、記憶媒体を提供することである。
本発明の第4の目的は、演算機器を提供することである。
本発明の第1の目的は、以下の技術手段によって実現される。敵対的模倣学習に基づく無人運転車両車線変更決定方法において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3と、を含む。
好ましく、ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自
車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
(ここで、
lは、自車両が走行する車線であり、vは、自車両の走行速度であり、
、vは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両における車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定する。
更に好ましく、自車両に対し、
その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
更に、ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。
更に、ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
Figure 0007287707000001

を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
Figure 0007287707000002

を算出し、δは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
Figure 0007287707000003

を生成し、
ここで、
Figure 0007287707000004

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
Figure 0007287707000005

は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
Figure 0007287707000006

であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
Figure 0007287707000007

は、エキスパート方策のエントロピー正則化であり、
Figure 0007287707000008

は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得る。
更に、ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
Figure 0007287707000009

(式中、
Figure 0007287707000010

は、エントロピー正則化である)を算出するステップS2391と、
Figure 0007287707000011

のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392と、を含む。
更に、ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
本発明の第2の目的は、以下の技術手段によって実現される。無人運転車両車線変更決定システムにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両の車線変更決定結果を取得する車線変更決定モジュールとを含む。
本発明の第3の目的は、以下の技術手段によって実現される。プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。
本発明の第4の目的は、以下の技術手段によって実現される。プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。
本発明は、従来技術に対して以下の利点及び効果を有する。
(1)本発明の無人運転車両車線変更決定方法は、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。
(2)本発明の無人運転車両車線変更決定方法は、敵対的模倣学習方法によって、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることによって、車線変更決定の正確性を更に向上させることができる。また、無人運転車両車線変更決定モデルによる無人運転車両の車線変更決定過程で、複数回連続して車線変更の決定結果が得られた場合にのみ、決定結果に応じた車線変更を行うので、上記操作は、決定結果の正確性をより一層保証し、車線変更の安全性を確保することができる。
(3)本発明の無人運転車両車線変更決定方法は、無人運転車両が決定結果に応じて車線変更を行う過程で、緊急事態の有無をリアルタイムで検出し、緊急事態がある場合、無人運転状態から脱して手動介入を行うことで、車両運転の安全性を確保し、車両の乗員の生命安全を確保し、交通事故を極力回避する。
図1は、本発明の方法の、敵対的模倣学習に基づくオフライン学習のフローチャートである。 図2は、本発明の方法による無人車両車線変更決定のフローチャートである。
以下、本発明を実施例及び図面に基づいて更に詳細に説明するが、本発明の実施の形態は、これらに限定されるものではない。
(実施例1)
本実施例は、敵対的模倣学習に基づく無人運転車両車線変更決定方法を開示し、この方法によって、無人運転車両が正確かつ安全に車線を切り替えることができる。該方法は、以下のステップを含む。
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する。
本実施例において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に以下である。
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する。
ここで、lは、自車両が走行する車線であり、vは、自車両の走行速度である。本実施例において、自車両の走行速度vは、自車両の車速センサによって収集して検出される。s、vは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、s、vは、それぞれ、自車進路の後方で最も近い
車両から自車両までの距離、自車両までの相対速度に対応し、slf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、slb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、srb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する。
本実施例において、他車両から自車両までの距離s、s、slf、slb、srf、srbは、自車両の画像センサ又はレーダセンサによって収集して検出される。他車両から自車両までの相対速度v、v、vlf、vlb、vrf、vrbは、自車両のレーダセンサによって収集して検出される。
ここで、自車両に対し、その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットする。
ここで、上記のセットされたs、s、slf、slb、srf、srbの固定値は、レーダの最大感知距離を取り、例えば300メートルである。上記のセットされたv、v、vlf、vlb、vrf、vrbの固定値は、スマートカーの予想走行速度を取り、例えば100km/hである。
上記自車両は、無人運転車両自車を指す。
ステップS12において、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Aを決定する。
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例からオフライン学習をし、無人運転車両車線変更決定モデルを取得する。ここで、学習中に、敵対的模倣学習方法は、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする。図1に示すように、具体的な過程は、以下のとおりである。
ステップS21において、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う。ここで、各状態データは、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、専門運転者の運転する自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。動作データは、動作Aの空間のデータに対応し、毎回収集される動作データは、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}を構成する。τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示す。ここでNは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する。本実施例において、サンプリング回数Nは、N=10にセットされる。
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。具体的な過程は、以下のとおりである。
ステップS231において、初期化し、以下を含む。
1)最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットする。
本実施例において、最大学習ラウンドTは、T=2000にセットされ、学習ペースαは、α=0.3にセットされ、ステップS22に示すように、サンプリング回数Nは、N=10にセットされる。
2)行動クローニング方法を用いて無人運転車両代理方策πθを初期化し、ここで、無人運転車両代理方策πθの重みパラメータをθに初期化する。
3)Xavier方式を用いて敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータである。
3)無人運転車両の走行中に、無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを含む車両環境情報を取得する。
ここで、無人運転車両の現在の状態ベクトルOは、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。無人運転車両の現在の動作ベクトルAは、動作空間Atのデータに対応し、現在取得されている動作データは、無人運転車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。
該無人運転車両は、ステップS3で車線変更決定を行う無人運転車両に対応する。
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行する。
ステップS233において、ランダムにサンプリングし、平均が0で分散がt(0≦t≦T)であるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルである。本実施例において、vは、常数であり、0.3~0をとる。
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
Figure 0007287707000012

を算出する。
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出する。
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
Figure 0007287707000013

を算出し、δは、ステップS233で得られたk番目のガウスベクトルである。
本ステップにおいて、δ=δ,δ,...,δに基づき、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)が得られる。
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
Figure 0007287707000014

を生成する。
本ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、N個のランダム代理方策πt,(1),πt,(2),πt,(3),...,πt,(N)をそれぞれ適用して、サンプル軌跡
Figure 0007287707000015

を対応的に生成する。
ここで、
Figure 0007287707000016

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
Figure 0007287707000017

は、それぞれ、1~N番目のサンプル軌跡における動作データを示す。
ステップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新する。
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して
更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
Figure 0007287707000018

である。ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
Figure 0007287707000019

は、エキスパート方策のエントロピー正則化であり、
Figure 0007287707000020

は、無人運転車両代理方策のエントロピー正則化である。
Figure 0007287707000021

は、
Figure 0007287707000022

を入力とし、重みパラメータφで算出した結果である。
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新する。
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得る。
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
Figure 0007287707000023

(式中、
Figure 0007287707000024

は、エントロピー正則化である。
Figure 0007287707000025

は、判別器が(O,A)で判別計算した結果を示す。)を算出するステップS2391と、
Figure 0007287707000026

のように、無人運転車両代理方策πθのパラメータθtを更新するステップS2392とを含む。
本ステップで敵対的ネットワーク判別器Dφの重みパラメータ及び無人運転車両代理方策πθのパラメータを学習回数で更新することによって敵対的模倣学習方法の学習を実現し、無人運転車両車線変更決定モデルを取得する。
ステップS3において、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。具体的に図2に示すように、以下のとおりである。
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、状態Oの空間のデータ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与える。即ち、ステップS31で取得した無人運転車両の状態データ[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を無人運転車両車線変更決定モデルに入力する。
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得する。本実施例において、無人運転車両車線変更決定モデルによって取得した車線変更決定結果は、動作Aの空間の内容に対応し、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む。
ステップS34において、連続してn回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、即ち連続してn回ですべて左へ車線変更又は右へ車線変更であるかを判断する。nは、常数であり、3~5にセットされる。NOであれば、ステップS35に進むが、YESであれば、ステップS36に進む。
ステップS35において、現在の決定結果が車線変更であるかを判断する。
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻る。例えば、現在の決定結果が車両の車線維持且つ加速である場合、無人運転車両が現在の走行車線を維持し且つ加速動作を実行するように制御する。
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持する。この場合、決定結果が車線変更であるにかかわらず、車線変更の決定結果が連続してn回出ていないので、この際に車線変更せず、現在の決定結果の前の運転状態を維持し、決定結果の前の運転車線及び運転速度を維持することを含む。
ステップS36において、意思決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻る。
(実施例2)
本実施例は、実施例1の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムを開示し、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更決定モジュールとを含む。
更に、本実施例において、タスク記述モジュールは、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb]を決定する状態空間決定モジュールと、第1種類の車両の左へ車線変更、第2種類の車両の右へ車線変更、第3種類の車両の車線維持且つ車速維持、第4種類の車両の車線維持且つ加速、及び、第5種類の車両の車線維持且つ減速を含む動作空間Aを決定する動作空間決定モジュールと、を含む。
更に、本実施例において、車線変更決定モデル構築モジュールは、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う第1データ収集モジュールと、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示す)を構成するエキスパート軌道生成モジュールと、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する学習モジュールとを含む。具体的な学習過程は、実施例1のステップS231~ステップS239で示されるとおりである。
本実施例の無人運転車両車線変更決定システムは、実施例1の無人運転車両車線変更決定方法に対応するので、各モジュールの具体的な実現は、上記実施例1を参照でき、ここで一々説明しない。なお、本実施例で提供する装置は、上記各機能ブロックの区分のみを例示したものであり、実際の応用においては、必要に応じて上記機能の割り当てを異なる機能ブロックで行う。即ち内部構成を異なる機能ブロックに区分し、上記で説明した機能の全部又は一部を達成することができる。当業者は、本明細書に開示される実施例に記載される各例のユニット及びアルゴリズムステップに関連して、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せで実装できることを認識することができる。ハードウェア及びソフトウェアの互換性を明確に説明するために、上記の説明では、各例の構成及びステップを機能に応じて一般的に記載してある。これらの機能がハードウェア又はソフトウェアのいずれで実行されるかは、技術手段の特定のアプリケーション及び設計制約条件に依存する。当業者は、記載された機能を実現するために、特定のアプリケーションごとに異なる方法を使用することができるが、そのような実現は、本発明の範囲から逸脱するものと考えられるべきではない。
(実施例3)
本実施例は、プログラムが格納されている記憶媒体を開示し、前記プログラムがプロセッサによって実行されると、実施例1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現し、即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
本実施例における記憶媒体は、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、Uディスク、リムーバブルハードディスク等の媒体である。
(実施例4)
本実施例は、プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器を開示し、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例1に記載の敵対的模倣学習に基づく無人運転車両の車線変更決定方法を実現することを特徴とする。即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。
本実施例における演算機器は、デスクトップコンピュータ、ラップトップ、スマートフォン、PDA携帯端末、タブレット、又はプロセッサ機能を有する他の端末機器である。
上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は、上記実施例に限定されるものではなく、本発明の趣旨及び原理から逸脱しない範囲での変更、修正、置換、組み合わせ、単純化は、均等な置換として本発明の保護範囲内に含まれる。
(付記)
(付記1)
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップS1と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップS2と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップS3とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記2)
ステップS1において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップS11において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[l,v,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
(ここで、
lは、自車両が走行する車線であり、vは、自車両の走行速度であり、
、vは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
ステップS12において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定することを特徴とする、
付記1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記3)
自車両に対し、
その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記4)
ステップS2において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップS21において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップS22において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習のエキスパート軌跡に定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
ステップS23において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
付記2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記5)
ステップS23において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップS231において、初期化し、
最大学習ラウンドT、学習ペースα、及びサンプリング回数Nをセットし、
無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
ステップS232において、学習ラウンドt(0≦t≦T)ごとに、ステップS233~ステップS239を実行し、
ステップS233において、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
ステップS234において、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
Figure 0007287707000027

を算出し、
ステップS235において、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
ステップS236において、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
Figure 0007287707000028

を算出し、δは、ステップS233で得られたk番目のガウスベクトルであり、
ステップS237において、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
Figure 0007287707000029

を生成し、
ここで、
Figure 0007287707000030

は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
Figure 0007287707000031

は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
テップS238において、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
Figure 0007287707000032

であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
Figure 0007287707000033

は、エキスパート方策のエントロピー正則化であり、
Figure 0007287707000034

は、無人運転車両代理方策のエントロピー正則化であり、
ステップS239において、無人運転車両代理方策πθの重みパラメータθを更新し、
現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
付記4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記6)
ステップS239において、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
Figure 0007287707000035

(式中、
Figure 0007287707000036

は、エントロピー正則化である)を算出するステップS2391と、
Figure 0007287707000037

のように、無人運転車両代理方策πθのパラメータθを更新するステップS2392と、を含むことを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記7)
ステップS3において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップS31において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップS32において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップS33において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップS34において、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、ステップS35に進むが、YESであれば、ステップS36に進み、
ステップS35において、現在の決定結果が車線変更であるかを判断し、
NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップS31に戻り、
YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップS31に戻り、
ステップS36において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップS31に戻ることを特徴とする、
付記5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
(付記8)
付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
(付記9)
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
(付記10)
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、付記1から7のいずれか1つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。

Claims (10)

  1. 敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
    無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する記述ステップと
    学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する取得ステップと
    車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する結果取得ステップとを含むことを特徴とする、
    敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  2. 記述ステップにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
    状態空間決定ステップにおいて、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Oの空間[v ,s,v,s,v,slf,vlf,slb,vlb,srf,vrf,srb,vrb
    (ここで、
    は、自車両の走行速度であり、
    、vは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
    、vは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
    lf、vlfは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
    lb、vlbは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
    rf、vrfは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
    rb、vrbは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する)を決定し、
    動作空間決定ステップにおいて、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Aの空間を決定することを特徴とする、
    請求項1に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  3. 自車両に対し、
    その進路前方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
    その進路後方の車両が検出されない場合、s、vをそれぞれ固定値にセットし、
    左車線前方の車両が検出されない場合、slf、vlfをそれぞれ固定値にセットし、
    左車線後方の車両が検出されない場合、slb、vlbをそれぞれ固定値にセットし、
    右車線前方の車両が検出されない場合、srf、vrfをそれぞれ固定値にセットし、
    右車線後方の車両が検出されない場合、srb、vrbをそれぞれ固定値にセットすることを特徴とする、
    請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  4. 取得ステップにおいて、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
    データ収集ステップにおいて、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
    データセット構成ステップにおいて、収集した車両状態データ及び動作データのペアを抽出し、データセットτ={τ,τ,τ,...,τ}={(O,A),(O,A),(O,A),...,(O,A)}(τを敵対的模倣学習の専門運転者による車両の運転の軌跡として定義し、τ~τは、それぞれ、1~N番目のデータペアを示し、O~Oは、それぞれ、収集した1~N番目の状態データを示し、A~Aは、それぞれ、収集した1~N番目の動作データを示し、Nは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する)を構成し、
    モデル取得ステップにおいて、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
    請求項2に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  5. モデル取得ステップにおいて、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションすることは、具体的な過程として、
    初期化ステップにおいて
    最大学習ラウンドT、敵対的模倣学習の学習率を表す学習ペースα、及びサンプリング回数Nをセットし、
    無人運転車両代理方策πθを初期化し、無人運転車両代理方策πθの重みパラメータをθ0に初期化し、
    敵対的ネットワーク判別器Dφの重みパラメータを初期化し、ここで、φは、敵対的ネットワーク判別器Dφの初期化重みパラメータであり、
    無人運転車両の現在の状態ベクトルO及び現在の動作ベクトルAを取得し、
    実行ステップにおいて、学習ラウンドt(0≦t≦T)ごとに、後述するガウスベクトル生成ステップ~無人運転車両代理方策重みパラメータ更新ステップを実行し、
    ガウスベクトル生成ステップにおいて、ランダムにサンプリングし、平均が0で分散がvであるガウスベクトルδ={δ,δ,...,δ}をN個生成し、ここで、δ~δは、1~N番目のガウスベクトルであり、δは、N個のガウスベクトルを組み合わせたベクトルであり、
    平均分散算出ステップにおいて、現在の学習ラウンドtの際に、無人運転車両代理方策πθの重みパラメータθの平均分散
    Figure 0007287707000038
    を算出し、
    平均値算出ステップにおいて、無人運転車両の現在の状態ベクトルOの平均値μを算出し、
    ランダム代理方策算出ステップにおいて、各k(k∈{1,2,...,N})について、分散減少方法を用いてランダム代理方策πt,(k)
    Figure 0007287707000039
    を算出し、δは、ガウスベクトル生成ステップで得られたk番目のガウスベクトルであり、
    サンプル軌跡生成ステップにおいて、無人運転車両の現在の状態ベクトルOを入力として、ランダム代理方策πt,(k)(k=1,2,...,N)を適用して、サンプル軌跡
    Figure 0007287707000040
    を生成し、
    ここで、
    Figure 0007287707000041
    は、それぞれ、Oを入力とし、kに1~Nの値をとり、ランダム代理方策πt,(k)によって生成された1~N番目のサンプル軌跡であり、
    Figure 0007287707000042
    は、それぞれ、1~N番目のサンプル軌跡における動作データを示し、
    判別器重みパラメータ更新ステップにおいて、敵対的ネットワーク判別器Dφの重みパラメータφを更新し、
    最小二乗損失関数を用いて敵対的ネットワーク判別器Dφの重みパラメータφを学習して更新し、即ち、決定境界の両側で専門運転者による車両の運転の軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が
    Figure 0007287707000043
    であり、ここで、π、πθは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、
    Figure 0007287707000044
    は、エキスパート方策のエントロピー正則化であり、
    Figure 0007287707000045
    は、無人運転車両代理方策のエントロピー正則化であり、
    無人運転車両代理方策重みパラメータ更新ステップにおいて、無人運転車両代理方策πθの重みパラメータθを更新し、
    現在の学習ラウンドtが最大学習ラウンドTに達するまで、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新して、更新後の重みパラメータθt+1を得ることを特徴とする、
    請求項4に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  6. 無人運転車両代理方策重みパラメータ更新ステップにおいて、分散減少に基づく方策勾配法を用いて代理方策πθの重みパラメータθを更新する具体的な過程は、
    ランダム代理方策πt,(k)(k∈{1,2,...,N})毎に、インセンティブ関数
    Figure 0007287707000046
    (式中、
    Figure 0007287707000047
    は、エントロピー正則化である)を算出するインセンティブ関数算出ステップと
    Figure 0007287707000048
    のように、無人運転車両代理方策πθのパラメータθを更新するパラメータ更新ステップと、を含むことを特徴とする、
    請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  7. 結果取得ステップにおいて、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
    環境車両情報取得ステップにおいて、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
    モデル入力ステップにおいて、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
    車線変更決定結果取得ステップにおいて、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
    車線変更方向判断ステップにおいて、連続してn(nは常数である)回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、NOであれば、車線変更判断ステップに進むが、YESであれば、車線変更ステップに進み、
    車線変更判断ステップにおいて、現在の決定結果が車線変更であるかを判断し、
    NOであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、環境車両情報取得ステップに戻り、
    YESであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、環境車両情報取得ステップに戻り、
    車線変更ステップにおいて、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、環境車両情報取得ステップに戻ることを特徴とする、
    請求項5に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
  8. 請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
    無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
    学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
    車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
    現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
    無人運転車両車線変更決定システム。
  9. プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
    プログラムが格納されている記憶媒体。
  10. プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
    前記プロセッサは、メモリに格納されているプログラムを実行すると、請求項1から7のいずれか1項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
    演算機器。
JP2021541153A 2020-04-24 2020-09-17 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム Active JP7287707B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010331216.1A CN111483468B (zh) 2020-04-24 2020-04-24 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN202010331216.1 2020-04-24
PCT/CN2020/115750 WO2021212728A1 (zh) 2020-04-24 2020-09-17 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Publications (2)

Publication Number Publication Date
JP2022532972A JP2022532972A (ja) 2022-07-21
JP7287707B2 true JP7287707B2 (ja) 2023-06-06

Family

ID=71800232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541153A Active JP7287707B2 (ja) 2020-04-24 2020-09-17 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム

Country Status (3)

Country Link
JP (1) JP7287707B2 (ja)
CN (1) CN111483468B (ja)
WO (1) WO2021212728A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111483468B (zh) * 2020-04-24 2021-09-07 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN114074680B (zh) * 2020-08-11 2023-08-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN112418237A (zh) * 2020-12-07 2021-02-26 苏州挚途科技有限公司 车辆驾驶决策方法、装置及电子设备
CN112498354B (zh) * 2020-12-25 2021-11-12 郑州轻工业大学 考虑个性化驾驶体验的多时间尺度自学习变道方法
CN112766310B (zh) * 2020-12-30 2022-09-23 嬴彻星创智能科技(上海)有限公司 一种节油换道决策方法和系统
CN113276883B (zh) * 2021-04-28 2023-04-21 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN113635909B (zh) * 2021-08-19 2022-07-12 崔建勋 一种基于对抗生成模仿学习的自动驾驶控制方法
CN114023108B (zh) * 2021-11-02 2023-06-09 河北工业大学 一种混合交通流变道模型及变道仿真方法
CN113771884B (zh) * 2021-11-09 2022-02-08 清华大学 基于侧向量化平衡指标的智能汽车拟人化轨迹规划方法
CN114328448B (zh) * 2021-12-01 2024-08-23 中交第二公路勘察设计研究院有限公司 基于模仿学习算法的高速公路车辆跟驰行为重构方法
CN114148349B (zh) * 2021-12-21 2023-10-03 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN114179835B (zh) * 2021-12-30 2024-01-05 清华大学苏州汽车研究院(吴江) 基于真实场景下强化学习的自动驾驶车辆决策训练方法
CN114407931B (zh) * 2022-02-21 2024-05-03 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN114506342B (zh) * 2022-03-03 2023-12-05 东风悦享科技有限公司 一种自动驾驶变道决策的方法、系统及车辆
CN115626184B (zh) * 2022-12-19 2023-07-21 北京科技大学 自动驾驶车辆的权重系数和控制策略自学习方法及装置
CN118560530B (zh) * 2024-08-02 2024-10-01 杭州电子科技大学 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190111934A1 (en) 2017-10-17 2019-04-18 The Regents Of The University Of Michigan Fingerprinting Drivers Based On Vehicle Turns
JP2020511704A (ja) 2017-03-01 2020-04-16 モービルアイ ビジョン テクノロジーズ リミテッド 不確実性を検知しながらナビゲートするためのシステム及び方法
JP2020149504A (ja) 2019-03-14 2020-09-17 オムロン株式会社 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5610815A (en) * 1989-12-11 1997-03-11 Caterpillar Inc. Integrated vehicle positioning and navigation system, apparatus and method
CN108919795B (zh) * 2018-06-01 2023-07-25 中国北方车辆研究所 一种自动驾驶汽车换道决策方法及装置
CN110619340B (zh) * 2018-06-19 2022-09-16 广州汽车集团股份有限公司 一种自动驾驶汽车换道规则的生成方法
US10890911B2 (en) * 2018-07-20 2021-01-12 Autox, Inc. System and method for autonomously delivering commodity to the recipient's preferred environment
JP7172287B2 (ja) * 2018-08-28 2022-11-16 トヨタ自動車株式会社 自動運転システム
DE102018215055A1 (de) * 2018-09-05 2020-03-05 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen einer Spurwechselangabe eines Fahrzeugs, ein computerlesbares Speichermedium und ein Fahrzeug
CN109460023A (zh) * 2018-11-09 2019-03-12 上海理工大学 基于隐马尔科夫模型的驾驶人换道意图识别方法
CN109598934B (zh) * 2018-12-13 2020-11-06 北京超星未来科技有限公司 一种基于规则与学习模型的无人驾驶汽车驶离高速的方法
CN110297494B (zh) * 2019-07-15 2020-07-10 吉林大学 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
KR20190103093A (ko) * 2019-08-16 2019-09-04 엘지전자 주식회사 자율주행 차량의 차선 변경 장치 및 방법
CN110569792A (zh) * 2019-09-09 2019-12-13 吉林大学 一种基于卷积神经网络的自动驾驶汽车前方物体检测方法
CN110568760B (zh) * 2019-10-08 2021-07-02 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN111483468B (zh) * 2020-04-24 2021-09-07 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020511704A (ja) 2017-03-01 2020-04-16 モービルアイ ビジョン テクノロジーズ リミテッド 不確実性を検知しながらナビゲートするためのシステム及び方法
US20190111934A1 (en) 2017-10-17 2019-04-18 The Regents Of The University Of Michigan Fingerprinting Drivers Based On Vehicle Turns
JP2020149504A (ja) 2019-03-14 2020-09-17 オムロン株式会社 学習装置、推定装置、データ生成装置、学習方法、及び学習プログラム

Also Published As

Publication number Publication date
WO2021212728A1 (zh) 2021-10-28
JP2022532972A (ja) 2022-07-21
CN111483468A (zh) 2020-08-04
CN111483468B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
JP7287707B2 (ja) 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム
Kuefler et al. Imitating driver behavior with generative adversarial networks
Tang et al. Lane-changes prediction based on adaptive fuzzy neural network
JP7060625B2 (ja) 自動運転車において3dcnnネットワークを用いてソリューション推断を行うlidar測位
Zhang et al. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning
Tang et al. A hierarchical prediction model for lane-changes based on combination of fuzzy C-means and adaptive neural network
US9053433B2 (en) Assisting vehicle guidance over terrain
JP2021514885A (ja) 自動運転車のlidar測位に用いられるディープラーニングに基づく特徴抽出方法
Xu et al. An automated learning-based procedure for large-scale vehicle dynamics modeling on baidu apollo platform
Zhao et al. Personalized car following for autonomous driving with inverse reinforcement learning
JP2021515178A (ja) 自動運転車両においてrnnとlstmを用いて時間平滑化を行うlidar測位
Scheel et al. Situation assessment for planning lane changes: Combining recurrent models and prediction
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN116134292A (zh) 用于性能测试和/或训练自动驾驶车辆规划器的工具
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN112508164B (zh) 一种基于异步监督学习的端到端自动驾驶模型预训练方法
CN110456634B (zh) 一种基于人工神经网络的无人车控制参数选取方法
CN113238970B (zh) 自动驾驶模型的训练方法、评测方法、控制方法及装置
Löckel et al. A probabilistic framework for imitating human race driver behavior
CN117585017A (zh) 一种自动驾驶车辆换道决策方法、装置、设备及存储介质
Siboo et al. An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving
Wang et al. Uncovering interpretable internal states of merging tasks at highway on-ramps for autonomous driving decision-making
Wheeler et al. A probabilistic framework for microscopic traffic propagation
Yang et al. Distributed Model Predictive Control for Heterogeneous Platoon With Leading Human-Driven Vehicle Acceleration Prediction
Gutiérrez-Moreno et al. Hybrid decision making for autonomous driving in complex urban scenarios

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230518

R150 Certificate of patent or registration of utility model

Ref document number: 7287707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150