JP7287707B2

JP7287707B2 - 敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステム

Info

Publication number: JP7287707B2
Application number: JP2021541153A
Authority: JP
Inventors: 科 ▲チー▼; 立生范
Original assignee: ▲広▼州大学
Priority date: 2020-04-24
Filing date: 2020-09-17
Publication date: 2023-06-06
Anticipated expiration: 2040-09-17
Also published as: WO2021212728A1; JP2022532972A; CN111483468A; CN111483468B

Description

本発明は、無人自律車両運転の技術分野に属し、特に敵対的模倣学習に基づく無人運転車両車線変更決定方法及びシステムに関する。

無人運転の発展は、道路交通の知的レベルを向上させ、交通運送業界のトランスフォーメーションおよびアップグレードを推進するのに役立つ。無人運転車両は、様々なタイプのセンサ、コントローラを含むハードウェアと、環境認識、行動決定、運動計画が自律制御モジュールと統合された統合システムであるソフトウェアとの組み合わせである。

車線変更の決定は、無人運転車両決定技術の重要な構成モジュールであり、後続の動作計画モジュールが実行される根拠である。現在、開示された特許を含む先行技術において、主に採用されている無人運転車両車線変更決定方法は、規則に基づく決定、動的計画に基づく決定、ファジィ制御に基づく決定などの従来の方法を含む。しかし、車両の走行環境が複雑かつ多様で高度な動的交通環境であり、決定方法の設計のための正確な数学モデルの確立が困難であり、従来の車線変更決定方法のロバスト性及び適応性は、無人運転車線変更決定の要件を完全に満たすことができなかった。

近年、無人運転分野における人工知能の応用が急速に進展しており、無人運転車両車線変更決定の問題を解決するために人工知能の採用が可能となっている。エンド・ツー・エンドの教師あり学習と深度強化学習は、２つの比較的一般的な手法である。エンド・ツー・エンドの教師あり学習及び深度強化学習は、いずれもニューラルネットワークモデルを学習して、感知データを車線変更の決定の出力に直接マッピングすることができる。しかし、エンド・ツー・エンドの教師あり学習は、多くの場合、大量の学習データを必要とし、モデル化能力の弱い深度強化学習は、タスク要件を満たすインセンティブ関数を人為的に設計する必要がある。

現在の無人運転技術のボトルネックと、車線変更決定技術の不足とを総合的に考慮して、新たな無人運転車両車線変更決定方法を設計する必要がある。

本発明の第１の目的は、従来技術の欠点及び不備を克服し、敵対的模倣学習に基づく無人運転車両車線変更決定方法を提供することである。該方法は、専門運転教示によって提供される例から学習し、車両状態から車両の車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両の走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。

本発明の第２の目的は、無人運転車両車線変更決定システムを提供することである。

本発明の第３の目的は、記憶媒体を提供することである。

本発明の第４の目的は、演算機器を提供することである。

本発明の第１の目的は、以下の技術手段によって実現される。敵対的模倣学習に基づく無人運転車両車線変更決定方法において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップＳ１と、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップＳ２と、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップＳ３と、を含む。

好ましく、ステップＳ１において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップＳ１１において、自車両、車両進路における前後車両及び左右車線における自
車両に最も近い車両の走行状態を含む状態Ｏ_ｔの空間［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］
（ここで、
ｌは、自車両が走行する車線であり、ｖ_０は、自車両の走行速度であり、
ｓ_ｆ、ｖ_ｆは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｂ、ｖ_ｂは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｆ、ｖ_ｌｆは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｂ、ｖ_ｌｂは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｆ、ｖ_ｒｆは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｂ、ｖ_ｒｂは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する）を決定し、
ステップＳ１２において、車両の左へ車線変更、車両の右へ車線変更、車両における車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Ａ_ｔの空間を決定する。

更に好ましく、自車両に対し、
その進路前方の車両が検出されない場合、ｓ_ｆ、ｖ_ｆをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、ｓ_ｂ、ｖ_ｂをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、ｓ_ｌｆ、ｖ_ｌｆをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、ｓ_ｌｂ、ｖ_ｌｂをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、ｓ_ｒｆ、ｖ_ｒｆをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、ｓ_ｒｂ、ｖ_ｒｂをそれぞれ固定値にセットする。

更に、ステップＳ２において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップＳ２１において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップＳ２２において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ＝｛τ_１，τ_２，τ_３，...，τ_Ｎ｝＝｛（Ｏ_１，Ａ_１），（Ｏ_２，Ａ_２），（Ｏ_３，Ａ_３），...，（Ｏ_Ｎ，Ａ_Ｎ）｝（τを敵対的模倣学習のエキスパート軌跡に定義し、τ_１～τ_Ｎは、それぞれ、１～Ｎ番目のデータペアを示し、Ｏ_１～Ｏ_Ｎは、それぞれ、収集した１～Ｎ番目の状態データを示し、Ａ_１～Ａ_Ｎは、それぞれ、収集した１～Ｎ番目の動作データを示し、Ｎは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する）を構成し、
ステップＳ２３において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。

更に、ステップＳ２３において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップＳ２３１において、初期化し、
最大学習ラウンドＴ、学習ペースα、及びサンプリング回数Ｎをセットし、
無人運転車両代理方策π_θを初期化し、無人運転車両代理方策π_θの重みパラメータをθ₀に初期化し、
敵対的ネットワーク判別器Ｄ_φの重みパラメータを初期化し、ここで、φ_０は、敵対的ネットワーク判別器Ｄ_φの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルＯ及び現在の動作ベクトルＡを取得し、
ステップＳ２３２において、学習ラウンドｔ（０≦ｔ≦Ｔ）ごとに、ステップＳ２３３～ステップＳ２３９を実行し、
ステップＳ２３３において、ランダムにサンプリングし、平均が０で分散がｖであるガウスベクトルδ_ｔ＝｛δ_１，δ_２，...，δ_Ｎ｝をＮ個生成し、ここで、δ_１～δ_Ｎは、１～Ｎ番目のガウスベクトルであり、δ_ｔは、Ｎ個のガウスベクトルを組み合わせたベクトルであり、
ステップＳ２３４において、現在の学習ラウンドｔの際に、無人運転車両代理方策π_θの重みパラメータθ_ｔの平均分散

を算出し、
ステップＳ２３５において、無人運転車両の現在の状態ベクトルＯの平均値μを算出し、
ステップＳ２３６において、各ｋ（ｋ∈｛１，２，...，Ｎ｝）について、分散減少方法を用いてランダム代理方策π_{ｔ，（ｋ）}：

を算出し、δ_ｋは、ステップＳ２３３で得られたｋ番目のガウスベクトルであり、
ステップＳ２３７において、無人運転車両の現在の状態ベクトルＯを入力として、ランダム代理方策π_{ｔ，（ｋ）}（ｋ＝１，２，...，Ｎ）を適用して、サンプル軌跡

を生成し、
ここで、

は、それぞれ、Ｏを入力とし、ｋに１～Ｎの値をとり、ランダム代理方策π_{ｔ，（ｋ）}によって生成された１～Ｎ番目のサンプル軌跡であり、

は、それぞれ、１～Ｎ番目のサンプル軌跡における動作データを示し、
ステップＳ２３８において、敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が

であり、ここで、π_Ｅ、π_θは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、

は、エキスパート方策のエントロピー正則化であり、

は、無人運転車両代理方策のエントロピー正則化であり、
ステップＳ２３９において、無人運転車両代理方策π_θの重みパラメータθ_ｔを更新し、
現在の学習ラウンドｔが最大学習ラウンドＴに達するまで、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新して、更新後の重みパラメータθ_ｔ＋１を得る。

更に、ステップＳ２３９において、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新する具体的な過程は、
ランダム代理方策π_{ｔ，（ｋ）}（ｋ∈｛１，２，...，Ｎ｝）毎に、インセンティブ関数

（式中、

は、エントロピー正則化である）を算出するステップＳ２３９１と、

のように、無人運転車両代理方策πθのパラメータθｔを更新するステップＳ２３９２と、を含む。

更に、ステップＳ３において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップＳ３１において、無人運転車両状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップＳ３２において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップＳ３３において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップＳ３４において、連続してｎ（ｎは常数である）回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、ＮＯであれば、ステップＳ３５に進むが、ＹＥＳであれば、ステップＳ３６に進み、
ステップＳ３５において、現在の決定結果が車線変更であるかを判断し、
ＮＯであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップＳ３１に戻り、
ＹＥＳであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップＳ３１に戻り、
ステップＳ３６において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップＳ３１に戻る。

本発明の第２の目的は、以下の技術手段によって実現される。無人運転車両車線変更決定システムにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両の車線変更決定結果を取得する車線変更決定モジュールとを含む。

本発明の第３の目的は、以下の技術手段によって実現される。プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、実施例１に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。

本発明の第４の目的は、以下の技術手段によって実現される。プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例１に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現する。

本発明は、従来技術に対して以下の利点及び効果を有する。
（１）本発明の無人運転車両車線変更決定方法は、まず、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、それから、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。本発明は、専門運転教示によって提供される例から敵対的模倣学習方法によって車線変更方策を学習し、車両状態から車両車線変更決定への直接マッピングを、人為的なタスクインセンティブ関数を必要とすることなく、直接的に確立することができ、動的な車両走行条件下での無人運転車両車線変更決定の正確性、ロバスト性及び適応性を効果的に向上させる。

（２）本発明の無人運転車両車線変更決定方法は、敵対的模倣学習方法によって、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることによって、車線変更決定の正確性を更に向上させることができる。また、無人運転車両車線変更決定モデルによる無人運転車両の車線変更決定過程で、複数回連続して車線変更の決定結果が得られた場合にのみ、決定結果に応じた車線変更を行うので、上記操作は、決定結果の正確性をより一層保証し、車線変更の安全性を確保することができる。

（３）本発明の無人運転車両車線変更決定方法は、無人運転車両が決定結果に応じて車線変更を行う過程で、緊急事態の有無をリアルタイムで検出し、緊急事態がある場合、無人運転状態から脱して手動介入を行うことで、車両運転の安全性を確保し、車両の乗員の生命安全を確保し、交通事故を極力回避する。

図１は、本発明の方法の、敵対的模倣学習に基づくオフライン学習のフローチャートである。図２は、本発明の方法による無人車両車線変更決定のフローチャートである。

以下、本発明を実施例及び図面に基づいて更に詳細に説明するが、本発明の実施の形態は、これらに限定されるものではない。

（実施例１）
本実施例は、敵対的模倣学習に基づく無人運転車両車線変更決定方法を開示し、この方法によって、無人運転車両が正確かつ安全に車線を切り替えることができる。該方法は、以下のステップを含む。

ステップＳ１において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する。

本実施例において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に以下である。
ステップＳ１１において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Ｏ_ｔの空間［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を決定する。
ここで、ｌは、自車両が走行する車線であり、ｖ_０は、自車両の走行速度である。本実施例において、自車両の走行速度ｖ_０は、自車両の車速センサによって収集して検出される。ｓ_ｆ、ｖ_ｆは、それぞれ、自車両の進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、ｓ_ｂ、ｖ_ｂは、それぞれ、自車進路の後方で最も近い
車両から自車両までの距離、自車両までの相対速度に対応し、ｓ_ｌｆ、ｖ_ｌｆは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、ｓ_ｌｂ、ｖ_ｌｂは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、ｓ_ｒｆ、ｖ_ｒｆは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、ｓ_ｒｂ、ｖ_ｒｂは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する。

本実施例において、他車両から自車両までの距離ｓ_ｆ、ｓ_ｂ、ｓ_ｌｆ、ｓ_ｌｂ、ｓ_ｒｆ、ｓ_ｒｂは、自車両の画像センサ又はレーダセンサによって収集して検出される。他車両から自車両までの相対速度ｖ_ｆ、ｖ_ｂ、ｖ_ｌｆ、ｖ_ｌｂ、ｖ_ｒｆ、ｖ_ｒｂは、自車両のレーダセンサによって収集して検出される。

ここで、自車両に対し、その進路前方の車両が検出されない場合、ｓ_ｆ、ｖ_ｆをそれぞれ固定値にセットし、その進路後方の車両が検出されない場合、ｓ_ｂ、ｖ_ｂをそれぞれ固定値にセットし、左車線前方の車両が検出されない場合、ｓ_ｌｆ、ｖ_ｌｆをそれぞれ固定値にセットし、左車線後方の車両が検出されない場合、ｓ_ｌｂ、ｖ_ｌｂをそれぞれ固定値にセットし、右車線前方の車両が検出されない場合、ｓ_ｒｆ、ｖ_ｒｆをそれぞれ固定値にセットし、右車線後方の車両が検出されない場合、ｓ_ｒｂ、ｖ_ｒｂをそれぞれ固定値にセットする。

ここで、上記のセットされたｓ_ｆ、ｓ_ｂ、ｓ_ｌｆ、ｓ_ｌｂ、ｓ_ｒｆ、ｓ_ｒｂの固定値は、レーダの最大感知距離を取り、例えば３００メートルである。上記のセットされたｖ_ｆ、ｖ_ｂ、ｖ_ｌｆ、ｖ_ｌｂ、ｖ_ｒｆ、ｖ_ｒｂの固定値は、スマートカーの予想走行速度を取り、例えば１００ｋｍ／ｈである。

上記自車両は、無人運転車両自車を指す。

ステップＳ１２において、第１種類の車両の左へ車線変更、第２種類の車両の右へ車線変更、第３種類の車両の車線維持且つ車速維持、第４種類の車両の車線維持且つ加速、及び、第５種類の車両の車線維持且つ減速を含む動作空間Ａ_ｔを決定する。

ステップＳ２において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例からオフライン学習をし、無人運転車両車線変更決定モデルを取得する。ここで、学習中に、敵対的模倣学習方法は、分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする。図１に示すように、具体的な過程は、以下のとおりである。

ステップＳ２１において、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う。ここで、各状態データは、状態Ｏ_ｔの空間のデータ［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を含み、即ち、専門運転者の運転する自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。動作データは、動作Ａ_ｔの空間のデータに対応し、毎回収集される動作データは、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。

ステップＳ２２において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ＝｛τ_１，τ_２，τ_３，...，τ_Ｎ｝＝｛（Ｏ_１，Ａ_１），（Ｏ_２，Ａ_２），（Ｏ_３，Ａ_３），...，（Ｏ_Ｎ，Ａ_Ｎ）｝を構成する。τを敵対的模倣学習のエキスパート軌跡に定義し、τ_１～τ_Ｎは、それぞれ、１～Ｎ番目のデータペアを示し、Ｏ_１～Ｏ_Ｎは、それぞれ、収集した１～Ｎ番目の状態データを示し、Ａ_１～Ａ_Ｎは、それぞれ、収集した１～Ｎ番目の動作データを示す。ここでＮは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する。本実施例において、サンプリング回数Ｎは、Ｎ＝１０^５にセットされる。

ステップＳ２３において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する。具体的な過程は、以下のとおりである。

ステップＳ２３１において、初期化し、以下を含む。
１）最大学習ラウンドＴ、学習ペースα、及びサンプリング回数Ｎをセットする。
本実施例において、最大学習ラウンドＴは、Ｔ＝２０００にセットされ、学習ペースαは、α＝０．３にセットされ、ステップＳ２２に示すように、サンプリング回数Ｎは、Ｎ＝１０^５にセットされる。
２）行動クローニング方法を用いて無人運転車両代理方策π_θを初期化し、ここで、無人運転車両代理方策π_θの重みパラメータをθ_０に初期化する。
３）Ｘａｖｉｅｒ方式を用いて敵対的ネットワーク判別器Ｄ_φの重みパラメータを初期化し、ここで、φ_０は、敵対的ネットワーク判別器Ｄ_φの初期化重みパラメータである。

３）無人運転車両の走行中に、無人運転車両の現在の状態ベクトルＯ及び現在の動作ベクトルＡを含む車両環境情報を取得する。
ここで、無人運転車両の現在の状態ベクトルＯは、状態Ｏ_ｔの空間のデータ［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。無人運転車両の現在の動作ベクトルＡは、動作空間Ａｔのデータに対応し、現在取得されている動作データは、無人運転車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む。

該無人運転車両は、ステップＳ３で車線変更決定を行う無人運転車両に対応する。

ステップＳ２３２において、学習ラウンドｔ（０≦ｔ≦Ｔ）ごとに、ステップＳ２３３～ステップＳ２３９を実行する。

ステップＳ２３３において、ランダムにサンプリングし、平均が０で分散がｔ（０≦ｔ≦Ｔ）であるガウスベクトルδ_ｔ＝｛δ_１，δ_２，...，δ_Ｎ｝をＮ個生成し、ここで、δ_１～δ_Ｎは、１～Ｎ番目のガウスベクトルであり、δ_ｔは、Ｎ個のガウスベクトルを組み合わせたベクトルである。本実施例において、ｖは、常数であり、０．３～０をとる。

ステップＳ２３４において、現在の学習ラウンドｔの際に、無人運転車両代理方策π_θの重みパラメータθ_ｔの平均分散

を算出する。

ステップＳ２３５において、無人運転車両の現在の状態ベクトルＯの平均値μを算出する。

ステップＳ２３６において、各ｋ（ｋ∈｛１，２，...，Ｎ｝）について、分散減少方法を用いてランダム代理方策π_{ｔ，（ｋ）}：

を算出し、δ_ｋは、ステップＳ２３３で得られたｋ番目のガウスベクトルである。
本ステップにおいて、δ_ｋ＝δ_１，δ_２，...，δ_Ｎに基づき、Ｎ個のランダム代理方策π_{ｔ，（１）}，π_{ｔ，（２），}π_{ｔ，（３）}，...，π_{ｔ，（Ｎ）}が得られる。

ステップＳ２３７において、無人運転車両の現在の状態ベクトルＯを入力として、ランダム代理方策π_{ｔ，（ｋ）}（ｋ＝１，２，...，Ｎ）を適用して、サンプル軌跡

を生成する。
本ステップにおいて、無人運転車両の現在の状態ベクトルＯを入力として、Ｎ個のランダム代理方策π_{ｔ，（１）}，π_{ｔ，（２），}π_{ｔ，（３）}，...，π_{ｔ，（Ｎ）}をそれぞれ適用して、サンプル軌跡

を対応的に生成する。
ここで、

は、それぞれ、Ｏを入力とし、ｋに１～Ｎの値をとり、ランダム代理方策π_t,(k)によって生成された１～Ｎ番目のサンプル軌跡であり、

は、それぞれ、１～Ｎ番目のサンプル軌跡における動作データを示す。

ステップＳ２３８において、敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを更新する。
最小二乗損失関数を用いて敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを学習して
更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が

である。ここで、π_Ｅ、π_θは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、

は、エキスパート方策のエントロピー正則化であり、

は、無人運転車両代理方策のエントロピー正則化である。

は、

を入力とし、重みパラメータφ_ｔで算出した結果である。

ステップＳ２３９において、無人運転車両代理方策π_θの重みパラメータθ_ｔを更新する。
現在の学習ラウンドｔが最大学習ラウンドＴに達するまで、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新して、更新後の重みパラメータθ_ｔ＋１を得る。

ステップＳ２３９において、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新する具体的な過程は、ランダム代理方策π_{ｔ，（ｋ）}（ｋ∈｛１，２，...，Ｎ｝）毎に、インセンティブ関数

（式中、

は、エントロピー正則化である。

は、判別器が（Ｏ，Ａ）で判別計算した結果を示す。）を算出するステップＳ２３９１と、

のように、無人運転車両代理方策π_θのパラメータθ_tを更新するステップＳ２３９２とを含む。

本ステップで敵対的ネットワーク判別器Ｄ_φの重みパラメータ及び無人運転車両代理方策π_θのパラメータを学習回数で更新することによって敵対的模倣学習方法の学習を実現し、無人運転車両車線変更決定モデルを取得する。

ステップＳ３において、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。具体的に図２に示すように、以下のとおりである。

ステップＳ３１において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、状態Ｏ_ｔの空間のデータ［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を含み、即ち、無人運転車両の自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む。

ステップＳ３２において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与える。即ち、ステップＳ３１で取得した無人運転車両の状態データ［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を無人運転車両車線変更決定モデルに入力する。

ステップＳ３３において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得する。本実施例において、無人運転車両車線変更決定モデルによって取得した車線変更決定結果は、動作Ａ_ｔの空間の内容に対応し、第１種類の車両の左へ車線変更、第２種類の車両の右へ車線変更、第３種類の車両の車線維持且つ車速維持、第４種類の車両の車線維持且つ加速、及び、第５種類の車両の車線維持且つ減速を含む。

ステップＳ３４において、連続してｎ回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、即ち連続してｎ回ですべて左へ車線変更又は右へ車線変更であるかを判断する。ｎは、常数であり、３～５にセットされる。ＮＯであれば、ステップＳ３５に進むが、ＹＥＳであれば、ステップＳ３６に進む。

ステップＳ３５において、現在の決定結果が車線変更であるかを判断する。
ＮＯであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップＳ３１に戻る。例えば、現在の決定結果が車両の車線維持且つ加速である場合、無人運転車両が現在の走行車線を維持し且つ加速動作を実行するように制御する。

ＹＥＳであれば、無人運転車両が現在の決定結果の前の運転状態を維持する。この場合、決定結果が車線変更であるにかかわらず、車線変更の決定結果が連続してｎ回出ていないので、この際に車線変更せず、現在の決定結果の前の運転状態を維持し、決定結果の前の運転車線及び運転速度を維持することを含む。

ステップＳ３６において、意思決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップＳ３１に戻る。

（実施例２）
本実施例は、実施例１の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムを開示し、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更決定モジュールとを含む。

更に、本実施例において、タスク記述モジュールは、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Ｏ_ｔの空間［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］を決定する状態空間決定モジュールと、第１種類の車両の左へ車線変更、第２種類の車両の右へ車線変更、第３種類の車両の車線維持且つ車速維持、第４種類の車両の車線維持且つ加速、及び、第５種類の車両の車線維持且つ減速を含む動作空間Ａ_ｔを決定する動作空間決定モジュールと、を含む。

更に、本実施例において、車線変更決定モデル構築モジュールは、専門運転者の車両運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行う第１データ収集モジュールと、収集した車両状態データ及び動作データのペアを抽出し、データセットτ＝｛τ_１，τ_２，τ_３，...，τ_Ｎ｝＝｛（Ｏ_１，Ａ_１），（Ｏ_２，Ａ_２），（Ｏ_３，Ａ_３），...，（Ｏ_Ｎ，Ａ_Ｎ）｝（τを敵対的模倣学習のエキスパート軌跡に定義し、τ_１～τ_Ｎは、それぞれ、１～Ｎ番目のデータペアを示し、Ｏ_１～Ｏ_Ｎは、それぞれ、収集した１～Ｎ番目の状態データを示し、Ａ_１～Ａ_Ｎは、それぞれ、収集した１～Ｎ番目の動作データを示す）を構成するエキスパート軌道生成モジュールと、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得する学習モジュールとを含む。具体的な学習過程は、実施例１のステップＳ２３１～ステップＳ２３９で示されるとおりである。

本実施例の無人運転車両車線変更決定システムは、実施例１の無人運転車両車線変更決定方法に対応するので、各モジュールの具体的な実現は、上記実施例１を参照でき、ここで一々説明しない。なお、本実施例で提供する装置は、上記各機能ブロックの区分のみを例示したものであり、実際の応用においては、必要に応じて上記機能の割り当てを異なる機能ブロックで行う。即ち内部構成を異なる機能ブロックに区分し、上記で説明した機能の全部又は一部を達成することができる。当業者は、本明細書に開示される実施例に記載される各例のユニット及びアルゴリズムステップに関連して、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せで実装できることを認識することができる。ハードウェア及びソフトウェアの互換性を明確に説明するために、上記の説明では、各例の構成及びステップを機能に応じて一般的に記載してある。これらの機能がハードウェア又はソフトウェアのいずれで実行されるかは、技術手段の特定のアプリケーション及び設計制約条件に依存する。当業者は、記載された機能を実現するために、特定のアプリケーションごとに異なる方法を使用することができるが、そのような実現は、本発明の範囲から逸脱するものと考えられるべきではない。

（実施例３）
本実施例は、プログラムが格納されている記憶媒体を開示し、前記プログラムがプロセッサによって実行されると、実施例１に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現し、即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。

本実施例における記憶媒体は、磁気ディスク、光ディスク、コンピュータメモリ、リードオンリーメモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、Ｕディスク、リムーバブルハードディスク等の媒体である。

（実施例４）
本実施例は、プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器を開示し、前記プロセッサは、メモリに格納されているプログラムを実行すると、実施例１に記載の敵対的模倣学習に基づく無人運転車両の車線変更決定方法を実現することを特徴とする。即ち、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述し、学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得し、車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する。

本実施例における演算機器は、デスクトップコンピュータ、ラップトップ、スマートフォン、ＰＤＡ携帯端末、タブレット、又はプロセッサ機能を有する他の端末機器である。

上記実施例は、本発明の好適な実施形態であるが、本発明の実施形態は、上記実施例に限定されるものではなく、本発明の趣旨及び原理から逸脱しない範囲での変更、修正、置換、組み合わせ、単純化は、均等な置換として本発明の保護範囲内に含まれる。

（付記）
（付記１）
敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するステップＳ１と、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得するステップＳ２と、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得するステップＳ３とを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記２）
ステップＳ１において、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
ステップＳ１１において、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Ｏ_ｔの空間［ｌ，ｖ_０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］
（ここで、
ｌは、自車両が走行する車線であり、ｖ_０は、自車両の走行速度であり、
ｓ_ｆ、ｖ_ｆは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｂ、ｖ_ｂは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｆ、ｖ_ｌｆは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｂ、ｖ_ｌｂは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｆ、ｖ_ｒｆは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｂ、ｖ_ｒｂは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する）を決定し、
ステップＳ１２において、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Ａ_ｔの空間を決定することを特徴とする、
付記１に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記３）
自車両に対し、
その進路前方の車両が検出されない場合、ｓ_ｆ、ｖ_ｆをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、ｓ_ｂ、ｖ_ｂをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、ｓ_ｌｆ、ｖ_ｌｆをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、ｓ_ｌｂ、ｖ_ｌｂをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、ｓ_ｒｆ、ｖ_ｒｆをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、ｓ_ｒｂ、ｖ_ｒｂをそれぞれ固定値にセットすることを特徴とする、
付記２に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記４）
ステップＳ２において、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
ステップＳ２１において、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
ステップＳ２２において、収集した車両状態データ及び動作データのペアを抽出し、データセットτ＝｛τ_１，τ_２，τ_３，...，τ_Ｎ｝＝｛（Ｏ_１，Ａ_１），（Ｏ_２，Ａ_２），（Ｏ_３，Ａ_３），...，（Ｏ_Ｎ，Ａ_Ｎ）｝（τを敵対的模倣学習のエキスパート軌跡に定義し、τ_１～τ_Ｎは、それぞれ、１～Ｎ番目のデータペアを示し、Ｏ_１～Ｏ_Ｎは、それぞれ、収集した１～Ｎ番目の状態データを示し、Ａ_１～Ａ_Ｎは、それぞれ、収集した１～Ｎ番目の動作データを示し、Ｎは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する）を構成し、
ステップＳ２３において、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
付記２に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記５）
ステップＳ２３において、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションすることは、具体的な過程として、
ステップＳ２３１において、初期化し、
最大学習ラウンドＴ、学習ペースα、及びサンプリング回数Ｎをセットし、
無人運転車両代理方策π_θを初期化し、無人運転車両代理方策π_θの重みパラメータをθ₀に初期化し、
敵対的ネットワーク判別器Ｄ_φの重みパラメータを初期化し、ここで、φ_０は、敵対的ネットワーク判別器Ｄ_φの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルＯ及び現在の動作ベクトルＡを取得し、
ステップＳ２３２において、学習ラウンドｔ（０≦ｔ≦Ｔ）ごとに、ステップＳ２３３～ステップＳ２３９を実行し、
ステップＳ２３３において、ランダムにサンプリングし、平均が０で分散がｖであるガウスベクトルδ_ｔ＝｛δ_１，δ_２，...，δ_Ｎ｝をＮ個生成し、ここで、δ_１～δ_Ｎは、１～Ｎ番目のガウスベクトルであり、δ_ｔは、Ｎ個のガウスベクトルを組み合わせたベクトルであり、
ステップＳ２３４において、現在の学習ラウンドｔの際に、無人運転車両代理方策π_θの重みパラメータθ_ｔの平均分散

を生成し、
ここで、

は、それぞれ、１～Ｎ番目のサンプル軌跡における動作データを示し、
テップＳ２３８において、敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを学習して更新し、即ち、決定境界の両側でエキスパート軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が

は、エキスパート方策のエントロピー正則化であり、

は、無人運転車両代理方策のエントロピー正則化であり、
ステップＳ２３９において、無人運転車両代理方策π_θの重みパラメータθ_ｔを更新し、
現在の学習ラウンドｔが最大学習ラウンドＴに達するまで、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新して、更新後の重みパラメータθ_ｔ＋１を得ることを特徴とする、
付記４に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記６）
ステップＳ２３９において、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新する具体的な過程は、
ランダム代理方策π_{ｔ，（ｋ）}（ｋ∈｛１，２，...，Ｎ｝）毎に、インセンティブ関数

（式中、

のように、無人運転車両代理方策π_θのパラメータθ_ｔを更新するステップＳ２３９２と、を含むことを特徴とする、
付記５に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記７）
ステップＳ３において、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
ステップＳ３１において、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
ステップＳ３２において、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
ステップＳ３３において、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
ステップＳ３４において、連続してｎ（ｎは常数である）回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、ＮＯであれば、ステップＳ３５に進むが、ＹＥＳであれば、ステップＳ３６に進み、
ステップＳ３５において、現在の決定結果が車線変更であるかを判断し、
ＮＯであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、ステップＳ３１に戻り、
ＹＥＳであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、ステップＳ３１に戻り、
ステップＳ３６において、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、ステップＳ３１に戻ることを特徴とする、
付記５に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。

（付記８）
付記１から７のいずれか１つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。

（付記９）
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、付記１から７のいずれか１つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。

（付記１０）
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、付記１から７のいずれか１つに記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。

Claims

敵対的模倣学習に基づく無人運転車両車線変更決定方法において、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述する記述ステップと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する取得ステップと、
車両の無人運転走行中に、現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する結果取得ステップとを含むことを特徴とする、
敵対的模倣学習に基づく無人運転車両車線変更決定方法。
記述ステップにおいて、無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述することは、具体的に、
状態空間決定ステップにおいて、自車両、車両進路における前後車両及び左右車線における自車両に最も近い車両の走行状態を含む状態Ｏ_ｔの空間［ｖ _０，ｓ_ｆ，ｖ_ｆ，ｓ_ｂ，ｖ_ｂ，ｓ_ｌｆ，ｖ_ｌｆ，ｓ_ｌｂ，ｖ_ｌｂ，ｓ_ｒｆ，ｖ_ｒｆ，ｓ_ｒｂ，ｖ_ｒｂ］
（ここで、
ｖ _０は、自車両の走行速度であり、
ｓ_ｆ、ｖ_ｆは、それぞれ、自車進路の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｂ、ｖ_ｂは、それぞれ、自車両の進路の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｆ、ｖ_ｌｆは、それぞれ、自車両より左車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｌｂ、ｖ_ｌｂは、それぞれ、自車両より左車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｆ、ｖ_ｒｆは、それぞれ、自車両より右車線の前方で最も近い車両から自車両までの距離、自車両までの相対速度に対応し、
ｓ_ｒｂ、ｖ_ｒｂは、それぞれ、自車両より右車線の後方で最も近い車両から自車両までの距離、自車両までの相対速度に対応する）を決定し、
動作空間決定ステップにおいて、車両の左へ車線変更、車両の右へ車線変更、車両の車線維持且つ車速維持、車両の車線維持且つ加速、及び、車両の車線維持且つ減速を含む動作Ａ_ｔの空間を決定することを特徴とする、
請求項１に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
自車両に対し、
その進路前方の車両が検出されない場合、ｓ_ｆ、ｖ_ｆをそれぞれ固定値にセットし、
その進路後方の車両が検出されない場合、ｓ_ｂ、ｖ_ｂをそれぞれ固定値にセットし、
左車線前方の車両が検出されない場合、ｓ_ｌｆ、ｖ_ｌｆをそれぞれ固定値にセットし、
左車線後方の車両が検出されない場合、ｓ_ｌｂ、ｖ_ｌｂをそれぞれ固定値にセットし、
右車線前方の車両が検出されない場合、ｓ_ｒｆ、ｖ_ｒｆをそれぞれ固定値にセットし、
右車線後方の車両が検出されない場合、ｓ_ｒｂ、ｖ_ｒｂをそれぞれ固定値にセットすることを特徴とする、
請求項２に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
取得ステップにおいて、敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習する具体的な過程として、
データ収集ステップにおいて、専門運転者の車両の運転挙動に対して、専門運転者の運転の状態データ及び動作データの収集を含むデータ収集を行い、
データセット構成ステップにおいて、収集した車両状態データ及び動作データのペアを抽出し、データセットτ＝｛τ_１，τ_２，τ_３，...，τ_Ｎ｝＝｛（Ｏ_１，Ａ_１），（Ｏ_２，Ａ_２），（Ｏ_３，Ａ_３），...，（Ｏ_Ｎ，Ａ_Ｎ）｝（τを敵対的模倣学習の専門運転者による車両の運転の軌跡として定義し、τ_１～τ_Ｎは、それぞれ、１～Ｎ番目のデータペアを示し、Ｏ_１～Ｏ_Ｎは、それぞれ、収集した１～Ｎ番目の状態データを示し、Ａ_１～Ａ_Ｎは、それぞれ、収集した１～Ｎ番目の動作データを示し、Ｎは、学習データセットにおけるデータペアの総数であり、サンプリング回数に対応する）を構成し、
モデル取得ステップにおいて、データセットτを入力として、敵対的模倣学習方法を用いて学習し、専門運転者の運転挙動を模倣し、無人運転車両車線変更決定モデルを取得することを特徴とする、
請求項２に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
モデル取得ステップにおいて、敵対的模倣学習として学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションすることは、具体的な過程として、
初期化ステップにおいて、
最大学習ラウンドＴ、敵対的模倣学習の学習率を表す学習ペースα、及びサンプリング回数Ｎをセットし、
無人運転車両代理方策π_θを初期化し、無人運転車両代理方策π_θの重みパラメータをθ₀に初期化し、
敵対的ネットワーク判別器Ｄ_φの重みパラメータを初期化し、ここで、φ_０は、敵対的ネットワーク判別器Ｄ_φの初期化重みパラメータであり、
無人運転車両の現在の状態ベクトルＯ及び現在の動作ベクトルＡを取得し、
実行ステップにおいて、学習ラウンドｔ（０≦ｔ≦Ｔ）ごとに、後述するガウスベクトル生成ステップ～無人運転車両代理方策重みパラメータ更新ステップを実行し、
ガウスベクトル生成ステップにおいて、ランダムにサンプリングし、平均が０で分散がｖであるガウスベクトルδ_ｔ＝｛δ_１，δ_２，...，δ_Ｎ｝をＮ個生成し、ここで、δ_１～δ_Ｎは、１～Ｎ番目のガウスベクトルであり、δ_ｔは、Ｎ個のガウスベクトルを組み合わせたベクトルであり、
平均分散算出ステップにおいて、現在の学習ラウンドｔの際に、無人運転車両代理方策π_θの重みパラメータθ_ｔの平均分散

を算出し、
平均値算出ステップにおいて、無人運転車両の現在の状態ベクトルＯの平均値μを算出し、
ランダム代理方策算出ステップにおいて、各ｋ（ｋ∈｛１，２，...，Ｎ｝）について、分散減少方法を用いてランダム代理方策π_{ｔ，（ｋ）}：

を算出し、δ_ｋは、ガウスベクトル生成ステップで得られたｋ番目のガウスベクトルであり、
サンプル軌跡生成ステップにおいて、無人運転車両の現在の状態ベクトルＯを入力として、ランダム代理方策π_{ｔ，（ｋ）}（ｋ＝１，２，...，Ｎ）を適用して、サンプル軌跡

を生成し、
ここで、

は、それぞれ、Ｏを入力とし、ｋに１～Ｎの値をとり、ランダム代理方策π_{ｔ，（ｋ）}によって生成された１～Ｎ番目のサンプル軌跡であり、

は、それぞれ、１～Ｎ番目のサンプル軌跡における動作データを示し、
判別器重みパラメータ更新ステップにおいて、敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを更新し、
最小二乗損失関数を用いて敵対的ネットワーク判別器Ｄ_φの重みパラメータφ_ｔを学習して更新し、即ち、決定境界の両側で専門運転者による車両の運転の軌跡から離れているサンプル軌跡に対して、最小二乗損失関数を用いて懲罰し、損失関数が

であり、ここで、π_Ｅ、π_θは、それぞれ、エキスパート方策、無人運転車両代理方策に対応し、

は、エキスパート方策のエントロピー正則化であり、

は、無人運転車両代理方策のエントロピー正則化であり、
無人運転車両代理方策重みパラメータ更新ステップにおいて、無人運転車両代理方策π_θの重みパラメータθ_ｔを更新し、
現在の学習ラウンドｔが最大学習ラウンドＴに達するまで、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新して、更新後の重みパラメータθ_ｔ＋１を得ることを特徴とする、
請求項４に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
無人運転車両代理方策重みパラメータ更新ステップにおいて、分散減少に基づく方策勾配法を用いて代理方策π_θの重みパラメータθ_ｔを更新する具体的な過程は、
ランダム代理方策π_{ｔ，（ｋ）}（ｋ∈｛１，２，...，Ｎ｝）毎に、インセンティブ関数

（式中、

は、エントロピー正則化である）を算出するインセンティブ関数算出ステップと、

のように、無人運転車両代理方策π_θのパラメータθ_ｔを更新するパラメータ更新ステップと、を含むことを特徴とする、
請求項５に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
結果取得ステップにおいて、無人運転車両車線変更決定モデルによって無人運転車両車線変更決定結果を取得する具体的な過程として、
環境車両情報取得ステップにおいて、無人運転車両の状態データを含む無人運転車両の現在の環境車両情報を取得し、
モデル入力ステップにおいて、無人運転車両の状態データに基づいて、無人運転車両車線変更決定モデルの入力状態に値を与え、
車線変更決定結果取得ステップにおいて、無人運転車両車線変更決定モデルによって車線変更決定結果を取得し、
車線変更方向判断ステップにおいて、連続してｎ（ｎは常数である）回の決定結果がすべて車線変更であり且つ車線変更の方向が同じであるかを判断し、ＮＯであれば、車線変更判断ステップに進むが、ＹＥＳであれば、車線変更ステップに進み、
車線変更判断ステップにおいて、現在の決定結果が車線変更であるかを判断し、
ＮＯであれば、現在の決定結果に応じて、無人運転車両の現在の運転動作を制御し、即ち、無人運転車両が現在の車線を維持しながら走行するように制御し、加速、減速、又は車速維持の動作を実行し、環境車両情報取得ステップに戻り、
ＹＥＳであれば、無人運転車両が現在の決定結果の前の運転状態を維持し、環境車両情報取得ステップに戻り、
車線変更ステップにおいて、決定結果に応じて車線変更を行い、同時に無人運転車両の車線変更中に緊急事態の有無を検出し、あれば無人運転状態から脱し、手動介入を行うが、なければ、車線変更決定結果に基づいて車線変更を完了し、環境車両情報取得ステップに戻ることを特徴とする、
請求項５に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法。
請求項１から７のいずれか１項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現するための無人運転車両車線変更決定システムにおいて、
無人運転車両車線変更決定タスクを部分観測マルコフ決定過程として記述するタスク記述モジュールと、
学習中に分散減少方策勾配の学習方策に基づいて専門運転者の運転パフォーマンスをシミュレーションする敵対的模倣学習方法を用いて、専門運転教示によって提供される例から学習し、無人運転車両車線変更決定モデルを取得する車線変更決定モデル構築モジュールと、
車両の無人運転走行中に、現在の環境車両情報を取得する環境車両情報取得モジュールと、
現在取得されている環境車両情報を無人運転車両車線変更決定モデルの入力パラメータとして、無人運転車両車線変更決定モデルによって車両車線変更決定結果を取得する車線変更の意思決定モジュールとを含むことを特徴とする、
無人運転車両車線変更決定システム。
プログラムが格納されている記憶媒体であって、前記プログラムがプロセッサによって実行されると、請求項１から７のいずれか１項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
プログラムが格納されている記憶媒体。
プロセッサと、プロセッサによって実行可能なプログラムを格納するためのメモリとを含む演算機器であって、
前記プロセッサは、メモリに格納されているプログラムを実行すると、請求項１から７のいずれか１項に記載の敵対的模倣学習に基づく無人運転車両車線変更決定方法を実現することを特徴とする、
演算機器。