JP2024001584A

JP2024001584A - 自動操縦ロボットの制御装置及び制御方法

Info

Publication number: JP2024001584A
Application number: JP2022100325A
Authority: JP
Inventors: 健人吉田; Taketo Yoshida; 知樹濱上; Tomoki Hamagami
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd; Yokohama National University NUC
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd; Yokohama National University NUC
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2024-01-10

Abstract

【課題】強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供する。【解決手段】車両２に搭載されて前記車両２を走行させる自動操縦ロボット（ドライブロボット）４を、前記車両２が規定された指令車速に従って走行するように制御する、自動操縦ロボット４の制御装置１０であって、前記車両２の駆動状態と前記指令車速に基づいて、第１学習モデル７、７ａにより、前記車両２の操作内容を出力する制御部２０と、前記第１学習モデル７、７ａと前記操作内容を評価する第２学習モデル９とを強化学習する学習部３０とを備え、前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される。【選択図】図２

Description

本発明は、車両を走行させる自動操縦ロボットの制御装置及び制御方法に関する。

一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン（モード）により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット（登録商標）により、モードに従って車両を運転させることにより行われる。

指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動運転装置には、指令車速への高い追従性が求められる。この目的のため、特許文献１には、強化学習を用いた速度追従のための自動操縦ロボットの制御装置及び制御方法が開示されている。

特開２０２０－５６７３７号公報

引用文献１に記載の強化学習を用いた速度追従の制御では、学習に非常に多くの試行を必要とするため、最適な方策の学習に時間がかかることや、学習に使用した車両に過学習するため、特性の異なる他の車両での方策使用が容易ではないなどの恐れがある。そのため、試験走行の対象車両が変わるたびに長時間の学習が必要となる等の課題が生じる。

本発明は、上述した実情に鑑みてなされたものであり、本発明が解決しようとする課題は、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供することである。

本発明は、上記課題を解決するため、以下の手段を採用する。
すなわち、本発明の自動操縦ロボットの制御装置は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の駆動状態と前記指令車速に基づいて、第１学習モデルにより、前記車両の操作内容を出力する制御部と、前記第１学習モデルと前記操作内容を評価する第２学習モデルとを強化学習する学習部とを備え、前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される。

本発明の、自動操縦ロボットの制御装置は、制御に使用される学習モデルが、ＡＮＦＩＳで構成され、ＴＤ３法によって強化学習されるので、ある車両で獲得した方策をほかの車両へ容易に転移することができる。

本発明の一態様では、前記第１の学習モデルの転移学習は、ＡＮＦＩＳのＬａｙｅｒ４のみを追加学習する。
この一態様では、転移学習されるのは、ＡＮＦＩＳのＬａｙｅｒ４のみであるので、転移学習が容易で比較的少ない工程で行うことができる。

本発明の一態様では、複数の前記第１学習モデルを備え、これら複数の前記第１学習モデルを並列に結合し重み付けを施したモデルを第１学習モデルとする。
この一態様では、第１学習モデルとして複数のモデルをアンサンブルするので、多様なモデルの最適な部分を適用して第１学習モデルを構成することができる。

本発明の自動操縦ロボットの制御方法は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、前記車両の駆動状態と前記指令車速に基づいて、第１学習モデルにより、前記車両の操作内容を出力すること、前記第１学習モデルと前記操作内容を評価する第２学習モデルとを強化学習すること、前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される。

本発明の、自動操縦ロボットの制御方法は、制御に使用される学習モデルが、ＡＮＦＩＳで構成され、ＴＤ３法によって強化学習されるので、ある車両で獲得した方策をほかの車両へ容易に転移することができる。

本発明によれば、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる、自動操縦ロボットの制御装置及び制御方法を提供することができる。

本発明の実施形態における、自動操縦ロボットを用いた試験環境の説明図である。本発明の実施形態における、自動操縦ロボットの制御装置のブロック図である。本発明の実施形態における、ＴＤ３法における強化学習を説明する模式図である。本発明の実施形態における、ＡＮＦＩＳで構成された第１学習モデルの構成を示す模式図である。本発明の実施形態における、自動操縦ロボットの制御装置の要部のブロック図である。

以下、添付図面を参照して、本発明の実施の形態について説明する。
（第１実施形態）
本実施形態における自動操縦ロボットの制御装置は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の駆動状態と前記指令車速に基づいて、第１学習モデルにより、前記車両の操作内容を出力する制御部と、前記第１学習モデルと前記操作内容を評価する第２学習モデルとを強化学習する学習部とを備え、前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット（登録商標）を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。

図１は、本実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置１は、車両２、シャシーダイナモメータ３、及びドライブロボット４を備えている。
車両２は、床面上に設けられている。シャシーダイナモメータ３は、床面の下方に設けられている。車両２は、車両２の駆動輪２ａがシャシーダイナモメータ３の上に載置されるように、位置づけられている。車両２が走行し駆動輪２ａが回転する際には、シャシーダイナモメータ３が反対の方向に回転する。
ドライブロボット４は、車両２の運転席２ｂに搭載されて、車両２を走行させる。ドライブロボット４は、第１アクチュエータ４ｃと第２アクチュエータ４ｄとを備えており、これらはそれぞれ、車両２のアクセルペダル２ｃとブレーキペダル２ｄに当接するように設けられている。

ドライブロボット４は、制御装置１０によって制御されている。より詳細には、制御装置１０は、ドライブロボット４の第１アクチュエータ４ｃと第２アクチュエータ４ｄを制御することにより、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更、調整する。

制御装置１０は、ドライブロボット４を、車両２が規定された指令車速に従って走行するように制御する。すなわち、制御装置１０は、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更することで、規定された走行パターン（モード）に従うように、車両２を走行制御する。より詳細には、制御装置１０は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両２を走行制御する。

制御装置１０は、互いに通信可能に設けられた、制御部２０と、学習部３０と、を備えている。制御部２０は、ドライブロボット４の制御を行うための制御信号を生成し、ドライブロボット４に送信することで、ドライブロボット４を制御する。学習部３０は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット４の制御を行うための制御信号が生成される。制御部２０は、例えば、ドライブロボット４の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部３０は、例えばパーソナルコンピュータ等の情報処理装置である。

図２は、試験装置１と制御装置１０とのブロック図である。図２においては、データや処理の流れが矢印で示されている。第１学習モデル７、７ａのデータの流れは、破線で示されている。試験装置１は、前述した車両２、シャシーダイナモメータ３、及びドライブロボット４に加え、車両状態計測部５を備えている。車両状態計測部５は、車両２の状態を計測する計測部又は外的に設置された計測部である。ここで、車両２の状態としては、車両２のアクセルペダル２ｃ、ブレーキペダル２ｄの操作値を例示することができる。ここで、外的に設置された計測部としては、車両２のアクセルペダル２ｃ、ブレーキペダル２ｄの操作値を計測するカメラ又は赤外線センサ等を例示することができる。尚、試験装置１は、シミューレータとして実装されてもよい。

制御装置１０は、前述した制御部２０、学習部３０に加え、指令車速生成部１１を備えている。指令車速生成部１１は、ドライブロボット制御の推論を行う際に、入力データとして使用する指令車速を生成する。制御部２０は、車両操作制御部２１、及び駆動状態取得部２３を備えている。学習部３０は、強化学習部３１、学習済みモデル記憶部３３、学習データ記憶部３５、学習データ生成部３７、及び学習データ成型部３９を備えている。

これら制御装置１０の構成要素のうち、車両操作制御部２１、駆動状態取得部２３、強化学習部３１、学習データ生成部３７、及び学習データ成型部３９は、例えば上記の各情報処理装置内のＣＰＵにより実行されるソフトウェア、プログラムであってよい。また、学習済みモデル記憶部３３、学習データ記憶部３５、及び指令車速生成部１１は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。

まず、制御部２０に係る構成要素の挙動を説明する。指令車速生成部１１は、モードに関する情報に基づいて指令車速を生成する。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速生成部１１には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。

駆動状態取得部２３は、現在時点における、車両２の駆動状態を取得する。車両２の駆動状態は、試験装置１の車両状態計測部５、やシャシーダイナモ３、及び車両２を操作するドライブロボット４内に記録された操作実績から取得され得る。すなわち、車両２の駆動状態は、現在時点における車両２の動作状況を数値化して表現したものであり、この値を取得する手段は、車両状態計測部５の計測器による計測値に限られず、シャシーダイナモ３、ドライブロボット４によって取得可能な値をも含む。

具体的な駆動状態としては、前回の駆動状態取得時刻からのアクセルペダル操作の、ドライブロボット４の操作実績中の操作量（以下、アクセルペダル検出量と呼称する）、前回の駆動状態取得時刻からのブレーキペダル操作の、ドライブロボット４の操作実績中の操作量（以下、ブレーキペダル検出量と呼称する）、車両２において検出されたエンジン回転数（以下、エンジン回転数検出量と呼称する）、車両２において検出された車速（以下、検出車速と呼称する）を含む。駆動状態は、更に、当該駆動状態が取得された時刻において、車両２が実現すべき指令車速を含む。

上記の駆動状態の各々は、スカラー値であってもよいが、複数の値により実現されていてもよい。駆動状態の各々は、後述する機械学習器を学習させて学習モデル（第１学習モデル７、７ａ）を生成する際の入力として主に使用される。このため、駆動状態の各々に関し、駆動状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両２の状態を実際に観測、計測することにより取得される駆動状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Ｔｏｂｓとすると、観測データ参照時間Ｔｏｂｓの系列として、複数の値を有していてもよい。

また、上記のような観測データとは異なり、指令車速生成部１１に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Ｔｒｅｆとすると、指令車速参照時間Ｔｒｅｆの系列として、複数の値を有していてもよい。本実施形態においては、駆動状態の各々は、複数の値により実現されている。

駆動状態取得部２３は、車両２に備えられた様々な図示されない計測器やドライブロボット４内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。また、駆動状態取得部２３は、指令車速生成部１１から、指令車速を取得する。駆動状態取得部２３は、これらの取得した駆動状態を、学習部３０へ送信する。

車両操作制御部２１は、駆動状態取得部２３が送信した車両２の駆動状態を基に、当該時刻よりも後の車両２の操作の内容を推論する。車両操作制御部２１は、この推論した操作の内容を基にしてドライブロボット４を制御する制御信号を生成し、ドライブロボット４へ送信する。この、車両２の操作内容の推論は、後述する強化学習部３１において強化学習された第１学習モデル７ａに基づいて行われる。図２に示すように、学習済み第１学習モデル７ａは、学習済みモデル記憶部３３から読み出される。

次に、学習部３０の構成要素の挙動を説明する。前述の駆動状態取得部２３から送信された車両２の駆動状態は、報酬計算部３１ｃと学習データ成型部３９に送られる、報酬計算部３１ｃでは、受信した車両２の駆動状態を評価しその好ましさに基づいて強化学習に際し、必要となる値である報酬を計算する。ここで報酬は、例えば指令車速と検出車速の差などに基き速度追従の度合いが計算される。計算された報酬の値は、車両２の駆動状態と共に学習データ成型部３９に送られる。

学習データ成型部３９は、強化学習部３１で使用される学習データを適切なデータ形式
に成型する。成型されたデータは、学習データ記憶部３５に送信され記憶される。記憶されたデータは、学習データ記憶部３５から読み出されて強化学習の入力データとして利用される。その際、学習データ記憶部３５から読み出されたデータは、学習データ生成部３７において、学習方法などに合わせた形、組、数に整えた後、強化学習部３１に送信される。

強化学習部３１は、車両２の駆動状態と指令車速に基づいて、車両２の操作内容を推論する第１学習モデルを強化学習する操作内容推論部３１ａと、第２学習モデルを有し、操作内容を評価すると共に第２学習モデルを強化学習する価値推論部３１ｂと前述した報酬計算部３１ｃとを備えている。本実施形態では、後述する様に強化学習の手法として、ＴＤ３（ＴｗｉｎＤｅｌａｙｅｄＤＤＰＧ）法が用いられている。図２において学習部３０は、簡略的に各ブロック、そのデータ、処理の流れを記載しているが、それぞれのブロックは、何らかの通信手段で相互に接続され得る。強化学習部３１において強化学習された第１学習モデル７は、学習済みモデル記憶部３３に保存される。

＜ＴＤ３法＞
図３は、強化学習部３１において行われる強化学習の手法であるＴＤ３（ＴｗｉｎＤｅｌａｙｅｄＤＤＰＧ）を説明する模式図である。ＴＤ３はＡｃｔｏｒ－Ｃｒｉｔｉｃ型の深層強化学習アルゴリズムである。Ａｃｔｏｒ－Ｃｒｉｔｉｃは、制御方策に当たるＡｃｔｏｒと、価値予測を行うＣｒｉｔｉｃを共に用いて強化学習を行う学習手法である。本実施形態では、第１学習モデルがＡｃｔｏｒ、第２学習モデルがＣｒｉｔｉｃに該当する。厳密にはＴＤ３では２つの第２学習モデルを有し、値の小さい出力値を学習に採用する。また学習上の工夫で、第１学習モデル、第２学習モデルともに少し前の学習状態で固定して複製したＴａｒｇｅｔネットワークが学習損失計算時に使用されることもある。一般に深層強化学習では、Ａｃｔｏｒ、Ｃｒｉｔｉｃともに（深層の）ニューラルネットワークで表現されるが、本実施形態ではＡｃｔｏｒ（第１学習モデル）を後述するＡＮＦＩＳ（Ａｄａｐｔｉｖｅ－Ｎｅｔｗｏｒｋ－ｂａｓｅｄＦｕｚｚｙＩｎｆｅｒｅｎｃｅＳｙｓｔｅｍ）として表現する。

図３に示すように、ＴＤ３においては、Ｅｎｖｉｒｏｍｅｎｔ４３（車両２を含む試験環境）を観測（Ｏｂｓｅｒｖａｔｉｏｎ）することによってＳｔａｔｅ４４（車両２の駆動状態）が抽出される。Ｓｔａｔｅ４４は、Ａｃｔｏｒ４１（第１学習モデル）とＣｒｉｔｉｃ４２（第２学習モデル）とに送られる。Ａｃｔｏｒ４１は、Ｓｔａｔｅ４４に基づいて、次のＡｃｔｉｏｎ（車両２の操作内容）を推論する。Ｅｎｖｉｒｏｎｍｅｎｔ４３からはその時のＡｃｔｉｏｎに対するＲｅｗｏｒｄ（報酬）が計算され、Ｃｒｉｔｉｃ４２は、Ｓｔａｔｅ４４に基づいて、現時点でとられたＡｃｔｉｏｎに対するＱＶａｌｕｅ４５（Ｑ値）を推論する。ここでＱＶａｌｕｅ４５とは、現時点でのＡｃｔｉｏｎに対する価値であって、報酬（Ｒｅｗａｒｄ）の要素を含み、現時点でのＳｔａｔｅ４４から次に取り得るＡｃｔｉｏｎに対する総合的な価値として計算される。また、ＱＶａｌｕｅ４５やＲｅｗａｒｄ等に基づいた、取るべき所望のＡｃｔｉｏｎと現在のＡｃｔｉｏｎとの差を計算し（ＡｃｔｏｒＬｏｓｓ４７）、この計算結果に基づいて、Ａｃｔｏｒ４１のＵｐｄａｔｅ（学習結果のフィードバック）が行われる。同様に、Ｃｒｉｔｉｃ４２によって推論されたＱＶａｌｕｅ４５と、計算された実際のＱＶａｌｕｅとの差が計算され（ＣｒｉｔｉｃＬｏｓｓ４６）、この計算結果に基づいて、Ｃｒｉｔｉｃ４２のＵｐｄａｔｅ（学習結果のフィードバック）が行われる。

＜ＡＮＦＩＳ＞
図４は、ＡＮＦＩＳ（Ａｄａｐｔｉｖｅ－Ｎｅｔｗｏｒｋ－ｂａｓｅｄＦｕｚｚｙＩｎｆｅｒｅｎｃｅＳｙｓｔｅｍ）で構成された第１学習モデル７、７ａの構成を示す模式図である。図４に示すように、ＡＮＦＩＳは、入力層５０と、出力層５５を備え、その間には、４つの隠れ層、Ｌａｙｅｒ１（５１）、Ｌａｙｅｒ２（５２）、Ｌａｙｅｒ３（５３）、Ｌａｙｅｒ４（５４）を備えている。ＡＮＦＩＳはＬａｙｅｒ１（５１），Ｌａｙｅｒ４（５４）のみがパラメータを持つ学習箇所で、Ｌａｙｅｒ２（５２）、Ｌａｙｅｒ３（５３）、出力層５５は計算方法が規定された計算パスとなっている。すなわち、Ａｃｔｏｒ４１の学習においては、Ｌａｙｅｒ１、Ｌａｙｅｒ４のパラメータがＴＤ３によって獲得されることとなる。図４においては、学習対象を円形のノード、非学習対象を四角形のノードで表している。

次に、各Ｌａｙｅｒ層についてその動作を説明する。入力層５０には、ｘ_１、ｘ_２が入力される。Ｌａｙｅｒ１（５１）は、ファジィレイヤーと呼ばれ、入力値ｘ_１、ｘ_２のファジィ化を実行する。すなわち入力値ｘ_１、ｘ_２に対して、人間の感覚的な尺度である、低、中、高などを規定する。各ノードＡ_１、Ａ_２、Ｂ_１、Ｂ_２は、それぞれ低、中、高、等の感覚的概念に相当する。ここで、ｘ_１がノードＡ_１に入力される場合は、ｉｆｘ_１ｉｓＡ_１（もしｘ_１がＡ_１ならば）を表現することになる。同様に、ｘ_２がノードＢ_１に入力される場合は、ｉｆｘ_２ｉｓＢ_１（もしｘ_２がＢ_１ならば）を表現することになる。

Ｌａｙｅｒ２（５２）は、ルールレイヤーと呼ばれ、Ｌａｙｅｒ１（５１）から受け取った出力の組み合わせを設定する。図中ｗ_１は、
ｉｆｘ_１ｉｓＡ_１ａｎｄｘ_２ｉｓＢ_１
を表現している。
図中ｗ_２は、
ｉｆｘ_１ｉｓＡ_２ａｎｄｘ_２ｉｓＢ_２
を表現している。

Ｌａｙｅｒ３（５３）は、正規化レイヤーと呼ばれ、Ｌａｙｅｒ２（５２）で設定された組合せの正規化の重み付けｗｕ_１、ｗｕ_２を設定する。Ｌａｙｅｒ４（５４）は、脱ファジィレイヤーと呼ばれ、Ｌａｙｅｒ３（５３）から受け取った正規化の重み付けと、元の入力ｘ_１、ｘ_２を受け取り、各入力の重みとバイアスを設定し、それに正規化の重みをつけて出力する。最終的には、入力から出力にいたる処理によって例えば下記の推論が表現される。

ｉｆｘ_１ｉｓＡ_１ａｎｄｘ_２ｉｓＢ_１、ｔｈｅｎｙ_１＝ｐ_１ｘ１＋ｑ_１ｘ_２＋ｒ_１

ここで、ｘ_１、ｘ_２は、入力、ｙ_１は、出力、Ａ_１、Ｂ_１は、ファジィ化のための前件部パラメータ、ｐ_１、ｑ_１、ｒ_１は、重み付けやバイアスのための後件部パラメータである。Ｌａｙｅｒ４（５４）では、上記の重み付けとバイアスが付与された出力ｙ_１、ｙ_２が計算され、さらにこれらの出力ｙ_１、ｙ_２に正規化の重み付けｗｕ_１、ｗｕ_２が付された値が各ノードから出力層（５５）に送られる。出力層（５５）では、それらをまとめて出力する。Ｌａｙｅｒ１（５１）では、ファジィ化のための前件部パラメータＡ_１、Ａ_２、Ｂ_１、Ｂ_２等が強化学習の対象である。Ｌａｙｅｒ４（５４）では、重み付けやバイアスのための後件部パラメータｐ_１、ｑ_１、ｒ_１等が、強化学習の対象となる。

次に、上述のように構成されたドライブロボット４の制御装置１０の動作について説明する。
＜事前学習＞
最初に、対象車両に対して、第１学習モデル７、７ａ、第２学習モデル９の機械学習が行われる。事前学習時には、Ａｃｔｏｒ４１（ＡＮＦＩＳ、第１学習モデル７）のＬａｙｅｒ１、Ｌａｙｅｒ４、Ｃｒｉｔｉｃ４２（第２学習モデル９）の全体が学習対象となる。特定の学習対象車両を走行させ学習データを蓄積して、学習を進行させる。

具体的には、図２において、学習対象の車両２を試験装置に搭載し、１サイクル分の指令車速のセットに従って試験装置１、制御装置１０を駆動する。このとき学習済み第１学習モデル７ａとしては、初期値設定のモデルを使用し、指令車速と車両２の駆動状態に基づいてドライブロボット４への操作内容を推論し、その操作内容に基づいてドライブロボット４を制御する。このときの時系列の指令車速を含む車両２の駆動状態は、学習部３０に送られて、学習データとして学習データ記憶部３５に記憶される。

１サイクル分の指令車速のセットが、１エピソード分の学習データのセットとなる。試験装置１を駆動することによって、このような学習データのエピソードを複数セット用意する。この複数のエピソードについて、学習部３０では、ＴＤ３法によって、第１学習モデル７と第２学習モデル９の強化学習を行う。強化学習が済んだ第１学習モデルは、学習済みモデル記憶部３３に送られる。次回において、車両２の走行試験を行う際には、制御部２０によって、学習済みモデル記憶部３３から学習済み第１学習モデル７ａが読み出されて、走行試験時のドライブロボット４の制御に使用される。

＜転移学習＞
学習済みの第１学習モデル７、７ａおよび第２学習モデル９を別の車両２の学習に転移（再利用）して、少ない追加学習コストで、新たな対象車両での学習を実現する。この転移学習時には、追加学習コストの低減のため、Ａｃｔｏｒ４１（ＡＮＦＩＳ，第１学習モデル７）内ではＬａｙｅｒ１（５１）は追加学習せずＬａｙｅｒ４（５４）のみを追加学習する。Ｃｒｉｔｉｃ４２（第２学習モデル９）は事前学習状態から継続学習することを基本とするが、初期化もしくは固定してもよい。一連の強化学習の処理、データの流れは、前述の事前学習と同等である。

以上述べたように、本実施形態では、強化学習にＴＤ３法を用い、第１学習モデル７、７ａがＡＮＦＩＳで構成される。したがって、強化学習においてある車両で獲得した制御方策を、未知の車両へ容易に転移することが可能となる。転移学習時には、ＡＮＦＩＳのＬａｙｅｒ４のみを追加学習するので、従来の強化学習に比べて少ないエピソード数で、強化学習の効果を高めることが可能となり運用時の強化学習のコストを低減することができる。また、ＴＤ３法のＡｃｔｏｒ（第１学習モデル）としてＡＮＦＩＳを用いているので、制御手法が人の感覚に近づけたものであることにより、処理がブラックボックス化せずに、改良を要する点を明確にすることができる。

（第２実施形態）
図５は、本実施形態におけるドライブロボット４の制御装置１０の操作内容推論部３１ａの拡大図である。本実施形態が第１実施形態と異なるのは、図５に示すように、第１学習モデル７ｂの構成である。本実施形態では、複数の第１学習モデル７１、７２、７３、・・・７Ｎを備え、これら複数の第１学習モデル７１、７２、７３、・・・７Ｎを並列に結合し重み付けｗ_１、ｗ_２、ｗ_３、・・・、ｗ_Ｎを施したモデルを新たな第１学習モデル７ｂとする。これらの第１学習モデルは、事前学習した複数の第１学習モデルをそのまま用いてもよいし、事前学習モデルを“アンサンブル”した追加学習構成としてもよい。このとき、ｗ_１＋ｗ_２＋ｗ_３＋・・・＋ｗ_Ｎ＝１である。アンサンブルの重みは、ｗ_ｎ＝１／Ｎとしてもよいし、何らかのモデル寄与度を考慮して個々に重みを決定してもよい。この重み自体を強化学習の対象としてもよい。本実施形態では、第１実施形態の作用効果に加え、複数の第１学習モデルを並列に並べて出力値に重み付けするので、複数の事前学習モデルを活用して転移学習時の汎化性を向上させることができる。

１試験装置
２車両
４ドライブロボット（自動操縦ロボット）
７、７ａ、７ｂ、７１、７２・・・７Ｎ第１学習モデル
９第２学習モデル
１０制御装置
２０制御部
３０学習部

Claims

車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
前記車両の駆動状態と前記指令車速に基づいて、第１学習モデルにより、前記車両の操作内容を出力する制御部と、
前記第１学習モデルと前記操作内容を評価する第２学習モデルとを強化学習する学習部とを備え、
前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される、自動操縦ロボットの制御装置。
前記第１の学習モデルの転移学習は、ＡＮＦＩＳのＬａｙｅｒ４のみを追加学習する、請求項１に記載の自動操縦ロボットの制御装置。
複数の前記第１学習モデルを備え、これら複数の前記第１学習モデルを並列に結合し重み付けを施したモデルを第１学習モデルとする、請求項１または２に記載の自動操縦ロボットの制御装置。
車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
前記車両の駆動状態と前記指令車速に基づいて、第１学習モデルにより、前記車両の操作内容を出力すること、
前記第１学習モデルと前記操作内容を評価する第２学習モデルとを強化学習すること、
前記強化学習は、ＴＤ３法によって行われ、前記第１学習モデルは、ＡＮＦＩＳで構成される、自動操縦ロボットの制御方法。
前記第１の学習モデルの転移学習は、ＡＮＦＩＳのＬａｙｅｒ４のみを追加学習する、請求項４に記載の自動操縦ロボットの制御方法。
複数の前記第１学習モデルを備え、これら複数の前記第１学習モデルを並列に結合し重み付けを施したモデルを第１学習モデルとする、請求項４または５に記載の自動操縦ロボットの制御方法。