JP2022099571A

JP2022099571A - 自動操縦ロボットの制御装置及び制御方法

Info

Publication number: JP2022099571A
Application number: JP2020213407A
Authority: JP
Inventors: 健人吉田; Taketo Yoshida; 泰宏金剌; Yasuhiro Kanesashi; 知樹濱上; Tomoki Hamagami; 有輝也夏; Yukiya Natsu
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd; Yokohama National University NUC
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd; Yokohama National University NUC
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-07-05
Also published as: WO2022138352A1

Abstract

【課題】自動操縦ロボットの制御装置及び制御方法の実試験時の学習時間を短くすること。【解決手段】車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置が、強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部を備え、該車両の操作は、複数の車両間で共通の複数の副方策と、ＭＣＰ法又はＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、により構成される階層構造の方策により行われる。【選択図】図３

Description

本発明は、自動操縦ロボットの制御装置及び制御方法に関する。

一般に、普通自動車等の車両を製造して販売する際には、国又は地域において規定された、特定の走行パターン（以下、モードという）により車両を走行させた際の燃費及び排出ガスを測定する試験を行い、この試験結果を表示することが求められる。
モードは、例えば、走行開始からの時間と、到達すべき車速との関係のグラフにより表わすことが可能である。
到達すべき車速は、車両に与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
燃費及び排出ガスを測定する試験は、シャシーダイナモメータ上に車両を載置し、車両に設置された自動操縦ロボット（ドライブロボット（登録商標））により、モードに従って車両を運転させることにより行われる。
指令車速には許容誤差範囲が規定されており、車速が許容誤差範囲外になると、その試験は無効となる。
そのため、自動操縦ロボットの制御には指令車速への高い追従性が求められ、自動操縦ロボットは、強化学習により学習された学習モデルにより制御される。

従来技術の一例である特許文献１には、強化学習により学習された学習モデルにより制御される自動操縦ロボットの制御装置及び制御方法が開示されている。
特許文献１に開示された技術では、制御対象を試行錯誤的に制御させつつ、報酬と呼ばれる評価値が大きくなる制御方法（すなわち方策）を獲得（すなわち学習）する。
ここで、試行錯誤的な学習では、制御対象に負荷の大きい挙動を強いることにより制御対象が破損し得、また、学習に時間を要する。
実用上は、ドライブロボットを用いた実際の車両に対する試験、すなわち実試験時の学習時間に費やす時間（コスト）を小さくすることが特に求められている。
これらの問題点に対しては、シミュレータを用いることが有効である。

特開２０２０－５６７３７号公報

しかしながら、上記の従来技術では、強化学習によって獲得される方策は特定の制御対象のみに有効であり、特性が異なる制御対象への方策の適用には、その制御対象の特性に沿った追加学習を要する。
そのため、シミュレータを用いることによる学習コストの低減効果が小さい、という問題があった。

本発明は、上記に鑑みてなされたものであって、実試験時の学習時間を短くすることを目的とする。

上述の課題を解決して目的を達成する本発明の一つは、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置であって、強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部を備え、該車両の操作は、複数の車両間で共通の複数の副方策と、ＭＣＰ法又はＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、により構成される階層構造の方策により行われる自動操縦ロボットの制御装置である。

又は、本発明の一つは、車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御方法であって、複数の車両について走行と学習とを繰り返す試験を行うことで、複数の車両に共通の汎化的な副方策を獲得すること、ＭＣＰ法又はＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策を獲得することを含む自動操縦ロボットの制御方法である。

本発明によれば、実試験時の学習時間を短くすることができる。

図１は、実施形態１に係る自動操縦ロボットであるドライブロボットを用いた試験環境の概要を示す図である。図２は、実施形態１における試験装置と、実施形態１に係る自動操縦ロボットの制御装置と、を示す機能ブロック図である。図３は、実施形態１における強化学習部及び周辺の構成を示す機能ブロック図である。図４は、実施形態１における車両操作制御部及び周辺の構成を示す機能ブロック図である。図５は、実施形態１における副方策の事前学習を示すフローチャートである。図６は、図５に示すＳ３の処理を示すフローチャートである。図７は、実施形態１における対象車両の主方策の学習を示すフローチャートである。図８は、図７に示すＳ１３の処理を示すフローチャートである。

以下、添付図面を参照して、本発明を実施するための形態について説明する。
ただし、本発明は、以下の実施形態の記載によって限定解釈されるものではない。

（実施形態１）
図１は、本実施形態に係る自動操縦ロボットであるドライブロボット１１を用いた試験環境の概要を示す図である。
図１に示す試験装置１は、ドライブロボット１１と、車両１２と、シャシーダイナモメータ１３と、を備える。
車両１２は、試験環境の床面上に配置された、性能が計測される被試験車両であり、駆動輪１２１と、運転席１２２と、車両操作ペダル１２３ａ，１２３ｂと、を備える。
シャシーダイナモメータ１３は、試験環境の床面の下方に設置され、路上に代えてシャシローラ上で車両１２を走行させ、車両１２の特性を計測するための構成である。
車両１２は、車両１２の前輪である駆動輪１２１がシャシーダイナモメータ１３の上に位置するように配置されている。
駆動輪１２１が回転する際には、シャシーダイナモメータ１３は、駆動輪１２１の回転の反対方向に回転する。

ドライブロボット１１は、アクチュエータ１１０ａ，１１０ｂを備え、人間のドライバーに代えて車両１２の運転席１２２に設置され、車両１２を走行させる動作を行う機械である。
アクチュエータ１１０ａ，１１０ｂは、各々、車両操作ペダル１２３ａ，１２３ｂに当接する。
車両操作ペダル１２３ａ，１２３ｂの一方はアクセルペダルであり、他方はブレーキペダルである。

ドライブロボット１１は、制御装置２によって制御される。
制御装置２は、学習部２０と、ドライブロボット制御部２１と、を備え、車両１２が規定された指令車速に従って走行するように車両操作ペダル１２３ａ，１２３ｂの開度を調整し、ドライブロボット１１のアクチュエータ１１０ａ，１１０ｂを制御する。
すなわち、制御装置２は、車両１２の車両操作ペダル１２３ａ，１２３ｂの開度を調整することで、規定された走行パターンであるモードに従うように、車両１２の走行を制御する。
詳細には、制御装置２は、走行開始から時間が経過するに従って、各時刻に到達すべき車速である指令車速に従うように、車両１２の走行を制御する。

図２は、本実施形態における試験装置１と、本実施形態に係る自動操縦ロボットの制御装置２と、を示す機能ブロック図である。
図２に示す試験装置１は、ドライブロボット１１と、車両１２と、シャシーダイナモメータ１３と、車両状態計測部１４と、を備える。
車両状態計測部１４は、車両１２の状態を計測する計測部又は外的に設置された計測部である。
ここで、車両１２の状態としては、車両操作ペダル１２３ａ，１２３ｂの操作値を例示することができる。
ここで、外的に設置された計測部としては、車両操作ペダル１２３ａ，１２３ｂの操作値を計測するカメラ又は赤外線センサ等を例示することができる。

図２に示す制御装置２は、学習部２０と、ドライブロボット制御部２１と、指令車速生成部２２と、演算部２３と、を備える。
学習部２０は、学習データ記憶部２０１と、データ成型部２０２と、強化学習部２０３と、学習済みモデル記憶部２０４と、を備え、ドライブロボット制御における車両モデルの学習を行う。
学習データ記憶部２０１は、強化学習部２０３における強化学習に用いる学習データを記憶する。
データ成型部２０２は、強化学習部２０３で使用される学習データを適切なデータ形式に成型する。
強化学習部２０３は、ドライブロボット制御の強化学習を行い、演算部２３により実現される。
学習済みモデル記憶部２０４は、強化学習部２０３で学習したモデルを記憶する。

ドライブロボット制御部２１は、駆動状態取得部２１１と、データ成型部２１２と、車両操作制御部２１３と、を備え、ドライブロボット１１に制御指令を与え、ドライブロボット１１の状態の情報を取得する。
駆動状態取得部２１１は、試験装置１に含まれる構成の駆動状態の情報を取得する。
ここで、試験装置１に含まれる構成の駆動状態としては、ドライブロボット１１のペダル操作検出値を例示することができる。
データ成型部２１２は、車両操作制御部２１３で使用される入力データを適切なデータ形式に成型する。
車両操作制御部２１３は、駆動状態取得部２１１からのデータに基づいてペダル操作指令を生成し、ドライブロボット１１のアクチュエータ１１０ａ，１１０ｂへのペダル操作指令をドライブロボット１１に出力する。
車両操作制御部２１３は演算部２３により実現される。

指令車速生成部２２は、ドライブロボット制御の推論を行う際に、入力データとして使用する指令車速を生成する。

図３は、本実施形態における強化学習部２０３及び周辺の構成を示す機能ブロック図である。
図３に示す強化学習部２０３は、主方策３００と、副方策３０１－１，３０１－２，…，３０１－Ｋと、を含む。
副方策３０１－１，３０１－２，…，３０１－Ｋは、入力データに対するペダル操作指令の方策であり、学習済みモデル記憶部２０４に記憶される。
主方策３００は、複数の副方策が統合された、全体的な１つのペダル操作指令の方策であり、学習済みモデル記憶部２０４に記憶される。
主方策３００と副方策３０１－１，３０１－２，…，３０１－Ｋとは、主方策３００が上位に位置する階層的な関係性を有し、強化学習部２０３に記憶された方策は、階層的な方策構造となる。
主方策３００としては、将来指令車速、検出車速及びペダル操作値を例示することができ、副方策３０１－１，３０１－２，…，３０１－Ｋとしては、将来相対車速及びペダル操作値を例示することができる。

本実施形態において、副方策には検出速度と指令速度との相対速度のような抽象状態を観測させ、主方策には絶対速度のような抽象化していない状態を観測させる。
ここで、検出速度v_t、指令速度v~_t及び意思決定a’を用いると、副方策で扱う観測は下記の式（１）で表され、主方策で扱う観測は下記の式（２）で表される。

なお、意思決定a’が負である場合にはペダル操作指令はブレーキをかけることを表し、意思決定a’が正である場合にはペダル操作指令はアクセルをかけることを表し、－１００≦a’≦１００である。
また、上記の式（１），（２）は、データ成型部２０２又はデータ成型部２１２によって適切なデータ形式に成型された入力データに相当する。

なお、ここで、方策は、一般に行動決定の確率分布であり、深層強化学習の枠組みではニューラルネットワークによって出力された分布形状パラメータで規定される分布である。
強化学習部２０３においては、大きな報酬が得られる行動を出力する確率が大きくなるように、ニューラルネットワークが学習される。

図４は、本実施形態における車両操作制御部２１３及び周辺の構成を示す機能ブロック図である。
図４に示す車両操作制御部２１３は、主方策４００と、副方策４０１－１，４０１－２，…，４０１－Ｋと、を含む。
副方策４０１－１，４０１－２，…，４０１－Ｋは、学習済みモデル記憶部２０４から呼び出されるデータに対するペダル操作指令の方策である。
主方策４００は、複数の副方策が統合された、全体的な１つのペダル操作指令の方策であり、ドライブロボット１１に出力される。
主方策４００と副方策４０１－１，４０１－２，…，４０１－Ｋとは、主方策４００が上位に位置する階層的な関係性を有し、ドライブロボット１１に出力される方策は、階層的な方策構造となる。
主方策４００としては、将来指令車速、検出車速及びペダル操作値を例示することができ、副方策４０１－１，４０１－２，…，４０１－Ｋとしては、将来相対車速及びペダル操作値を例示することができる。

次に、本実施形態において行われる学習について説明する。
一般に、ドライブロボットの強化学習制御は、制御対象の車両を指令車速に沿って高精度に追従させる制御の獲得を目指す。
本実施形態においては、ドライブロボットの強化学習制御における実際の車両に対する実試験における学習の効率化を目的とし、シミュレータ等により事前学習において得られた副方策を実試験に再利用することで、新たな制御対象の方策が効率的に得られる。
本実施形態によれば、複数の車両の走行タスクにより様々な特質の複数の副方策が獲得され、車両ごとに個別に学習された主方策によって該車両に特化した走行が実現される。

本実施形態における主方策は、ＭＣＰ（Multiplicative Compositional Policies）法によって得られる。
ＭＣＰ法においては、主方策である上位方策（Gating Function）では各下位方策の影響度が決定され、副方策である下位方策（Primitive）では状態におけるプリミティブ行動が選択され、行動が行動空間に関して分解され、各時刻で全ての下位方策を使用して合成が行われる。
ＭＣＰ法によれば、複数の副方策に重み付けが行われ、重み付けが行われた複数の副方策が混合されることで全体の方策が得られる。
また、強化学習制御における強化学習アルゴリズムとしては、例えばＰＰＯ（Proximal Policy Optimization）を用いることができるが、これに限定されるものではない。

また、ＭＣＰ法を用いる場合には、副方策が互いに異なる振る舞いに特化すると、状態に対して対応する行動バリエーションが多くなり、全体性能を向上させることができる。
車両速度の追従制御では同一のタスクのみで学習を行うため、副方策の多様性が広がりにくいが、上述のように、副方策に抽象状態を観測させることで、副方策の多様化が可能である。

全体の方策π（ａ｜ｓ）は、所定時刻における行動ａ及びその時の観測状態ｓを用いて表現された、ｋ番目の副方策π_ｋ（ａ｜ｓ）と、各副方策に対する混合重みｗ_ｋ（ｓ）（≧０）と、を用いて、下記の式（３）により表される。
ここで、分配関数Ｚ（ｓ）は、π（ａ｜ｓ）の全定義域における積分が１になるように規定される。

主方策は、車両ごとに個別に作成され、学習される。
副方策は、複数の車両走行間で共有され、学習される。
副方策としては、車両の走行において共通の制御要素又は車種ごとの制御要素を例示することができる。

図５は、本実施形態における副方策の事前学習を示すフローチャートである。
図５に示す事前学習は、副方策を得るためのものであるため、シミュレータにより行えばよい。
まず、強化学習部２０３は、複数（Ｋ個）の副方策と、使用車両数の主方策と、を初期化する（Ｓ１）。
次に、車両操作制御部２１３は、学習済みモデル記憶部２０４に記憶されたモデル情報を主方策及び複数の副方策として読み込む（Ｓ２）。
なお、初期化直後のモデル情報は、ランダムに構築されればよい。
次に、シャシーダイナモメータ１３上の車両１２を交互に入れ替えて複数の車両による試験及び学習を行う（Ｓ３）。
Ｓ３において、副方策は複数の車両間で共通して用いられ、走行させる車両ごとに対応した主方策が呼び出される。
Ｓ３の試験は、学習走行用に用意した指令車速パターンの走行完了を１エピソードとし、エピソードごとに車両の入れ替えを行うが、本発明はこれに限定されるものではなく、車両の入れ替えは所定のタイミングで行えばよい。
なお、Ｓ３の試験は副方策を得るためのものであるため、Ｓ３の試験において用いられる車両１２は、シミュレータで複数用意すればよく、最終的に制御獲得を目指す実際の車両でなくてよい。

図６は、図５に示すＳ３の処理を示すフローチャートである。
まず、車両操作制御部２１３は、指令車速及び駆動状態を用いてペダル操作指令を作成する（Ｓ３１）。
駆動状態取得部２１１は、該ペダル操作指令に基づく走行データを取得し（Ｓ３２）、取得した走行データを指令車速生成部２２からの指令車速と合わせて、学習データ記憶部２０１及び車両操作制御部２１３に送る（Ｓ３３）。
学習データ記憶部２０１は、指令車速及び走行データを記憶する（Ｓ３４）。
この試験は、上述のように、エピソード終了まで行う。
次に、強化学習部２０３は、車両に対応した主方策３００と、共通の副方策３０１－１，３０１－２，…，３０１－Ｋと、を学習させる（Ｓ３５）。
この学習は、すべての車両の試験完了まで行う。
本実施形態においては、強化学習部２０３は上述のＭＣＰ法により学習を行う。
報酬設計は、指令車速と検出車速の誤差が小さいほど大きな報酬が得られる設計とする。
図５に示すように、学習して得られたモデル情報により、走行と学習とを繰り返す試験が行われ、複数の車両に共通の汎化的な副方策と、各車両に対応した主方策と、が獲得される。

なお、同様の副方策しか獲得されないという状況に陥ると、新たな車両への副方策の適応が困難である。
そのため、事前学習は、多様な副方策が獲得されるように行われる。
獲得された副方策が多様でない場合、すなわち副方策の分布の広がりが小さい場合には、使用車両のバリエーションを拡大する。

図７は、本実施形態における対象車両の主方策の学習を示すフローチャートである。
図７に示す主方策の学習は、図５に示す事前学習後に、実際の車両を用いて行われる。
図７に示す主方策の学習では、事前学習において獲得された副方策の組み合わせを学習すればよいので、実際の車両を用いた学習、すなわち実試験時の学習を従来よりも短くすることができる。
また、このように主方策の学習を行うことで、単純に事前学習で獲得された副方策を組み合わせるよりも実際の車両に対する適応性を高めることができる。
まず、強化学習部２０３は、試験に用いる使用車両の主方策を初期化する（Ｓ１１）。
次に、車両操作制御部２１３は、学習済みモデル記憶部２０４に記憶されたモデル情報を初期化された主方策及び複数の事前学習済みの副方策として読み込む（Ｓ１２）。
なお、初期化直後のモデル情報の主方策は、ランダムに構築されればよい。
次に、シャシーダイナモメータ１３上の対象車両である車両１２について試験及び学習を行う（Ｓ１３）。

図８は、図７に示すＳ１３の処理を示すフローチャートである。
まず、車両操作制御部２１３は、指令車速及び駆動状態を用いてペダル操作指令を作成する（Ｓ１３１）。
駆動状態取得部２１１は、該ペダル操作指令に基づく走行データを取得し（Ｓ１３２）、取得した走行データを指令車速生成部２２からの指令車速と合わせて、学習データ記憶部２０１及び車両操作制御部２１３に送る（Ｓ１３３）。
学習データ記憶部２０１は、指令車速及び走行データを記憶する（Ｓ１３４）。
この試験は、エピソード終了まで行うが、これに限定されるものではない。
次に、強化学習部２０３は、車両に対応した主方策３００を学習させる（Ｓ１３５）。
この学習は、対象車両の試験完了まで行う。
図７に示すように、学習した主方策を含むモデル情報により、走行と学習とを繰り返す試験が行われ、対象車両に対応した主方策が獲得され、対象車両を制御可能となる。

なお、本実施形態において、強化学習部２０３及び車両操作制御部２１３は、制御装置２の演算部２３によって実現される。
すなわち、本実施形態に係る自動操縦ロボットの制御装置２は、強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部２３を備える。
該車両の操作は、複数の車両間で共通の複数の副方策と、ＭＣＰ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、により構成される階層構造の方策により行われる。

以上説明したように、事前学習により得られた複数の車両間に共通の副方策と、複数の副方策を組み合わせて対象車両に特化させた主方策と、により構成される、階層的な方策構造を用いることで、方策の表現能力が向上し、制御性能が向上する。
更には、複数の車両間に共通の副方策は事前学習により得られ、実際の車両に対する実試験では主方策の学習を行えばよいので、実試験時の学習時間を短くすることができる。

（実施形態２）
実施形態１ではＭＣＰ（Multiplicative Compositional Policies）法によって主方策を得る形態を説明したが、本発明はこれに限定されるものではない。
主方策を得るために、ＭＬＳＨ（Meta Learning Shared Hierarchies）法が用いられてもよい。

なお、本実施形態は、実施形態１におけるＭＣＰ法をＭＬＳＨ法に置き換えた点以外は実施形態１と同じであるため、構成等の説明は省略する。
すなわち、本実施形態に係る自動操縦ロボットの制御装置２は、強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部を備える。
該車両の操作は、複数の車両間で共通の複数の副方策と、ＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、により構成される階層構造の方策により行われる自動操縦ロボットの制御装置である。

ＭＬＳＨ法においては、主方策である上位方策（Master Policy）では使用する下位方策が選択され、副方策である下位方策（Sub Policy）では状態における行動である制御方策が選択され、行動が時間に関して分解され、各時刻で使用する下位方策が１つ選択される。

実施形態１におけるＭＣＰ法においては、時々刻々の観測状態に応じて副方策の重み付けを決定していたのに対し、本実施形態におけるＭＬＳＨ法においては、いずれか１つの副方策が選択される。
また、実施形態１におけるＭＣＰ法においては、ペダル操作等の行動の基本要素が副方策として表現されやすいのに対し、本実施形態におけるＭＬＳＨ法においては、制御対象タスクに固有の要素が副方策として表現されやすくなる。
本実施形態によれば、例えば、タスクの特性が時間的に変化するような場合に、指令車速に沿って高精度に追従させる制御を獲得することができる。

また、ＭＬＳＨ法を用いる場合にも、副方策が互いに異なる振る舞いに特化すると、状態に対して対応する行動バリエーションが多くなり、全体性能を向上させることができる。
車両速度の追従制御では、同一のタスクのみで学習を行うため、副方策の多様性が広がりにくいが、ＭＬＳＨ法を用いる場合にも、副方策に抽象状態を観測させることで、副方策の多様化が可能である。

なお、本発明は、上述の実施形態に限定されるものではなく、上述の構成に対して、構成要素の付加、削除又は転換を行った様々な変形例も含むものとする。

１試験装置
１１ドライブロボット
１１０ａ，１１０ｂアクチュエータ
１２車両
１２１駆動輪
１２２運転席
１２３ａ，１２３ｂ車両操作ペダル
１３シャシーダイナモメータ
１４車両状態計測部
２制御装置
２０学習部
２０１学習データ記憶部
２０２データ成型部
２０３強化学習部
２０４学習済みモデル記憶部
２１ドライブロボット制御部
２１１駆動状態取得部
２１２データ成型部
２１３車両操作制御部
２２指令車速生成部
２３演算部
３００，４００主方策
３０１－１，３０１－２，…，３０１－Ｋ，４０１－１，４０１－２，…，４０１－Ｋ副方策

Claims

車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御装置であって、
強化学習アルゴリズムに基づいた学習により車両の操作を出力する演算部を備え、
該車両の操作は、複数の車両間で共通の複数の副方策と、
ＭＣＰ法又はＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策と、
により構成される階層構造の方策により行われる自動操縦ロボットの制御装置。
車両に搭載されて該車両を走行させる自動操縦ロボットを該車両が規定された指令車速に従って走行するように制御する、該自動操縦ロボットの制御方法であって、
複数の車両について走行と学習とを繰り返す試験を行うことで、複数の車両に共通の汎化的な副方策を獲得すること、
ＭＣＰ法又はＭＬＳＨ法によって得られる、前記複数の副方策が混合されて対象車両に特化された主方策を獲得することを含む自動操縦ロボットの制御方法。