JP2021128510A

JP2021128510A - 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法

Info

Publication number: JP2021128510A
Application number: JP2020022384A
Authority: JP
Inventors: 祥希野田; Yoshiki Noda; 寛修深井; Hironaga Fukai; 健人吉田; Taketo Yoshida
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2021-09-02

Abstract

【課題】車両学習モデルの学習に要する時間を低減する。【解決手段】車両２の走行状態を基に指令車速に従って走行させる操作を推論する操作推論学習モデル７０と、操作を基に車両を走行させる自動操縦ロボット４を備える学習システム１０であって、車両の走行実績を基に操作が入力されると車両を模した模擬走行状態を出力するように機械学習される車両学習モデル６０を備え、学習モデルを機械学習する学習部３０と、車両学習モデルが出力する模擬走行状態と車両を走行させたときの実績データの誤差を判定閾値と比較する誤差評価部９１と、誤差が閾値以上の場合に誤差検出操作の関連操作を自動操縦ロボットに適用して追加学習データを取得する追加学習データ取得部９３とを備える。学習部は、誤差が閾値以上の場合に追加学習データにより車両学習モデルを更に学習し、閾値より小さい場合に車両学習モデルが出力した模擬走行状態を操作推論学習モデルに適用する。【選択図】図２

Description

本発明は、自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法に関する。

一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン（モード）により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット（登録商標）により、モードに従って車両を運転させることにより行われる。

指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動操縦ロボットの制御には、指令車速への高い追従性が求められる。このため、自動操縦ロボットを、例えば強化学習により学習された学習モデルを用いて制御することがある。
例えば、特許文献１には、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムが開示されている。
より詳細には、車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。上記ゲインの値は、車速の追従性を評価する車速報酬関数のみならず、アクセルペダルの操作の滑らかさを評価するアクセル報酬関数、ブレーキペダルの操作の滑らかさを評価するブレーキ報酬関数によっても評価が行われる。
特許文献１等において用いられる車両モデルとしては、通常、車両の各構成要素に対して、動作を模した物理モデルを各々作成し、これらを組み合わせた物理モデルとして作成される。

特許文献１に開示されたような装置においては、車両の操作を推論する操作推論学習モデルを、車両モデルを基に学習している。このため、車両モデルの再現精度が低いと、操作推論学習モデルをどれだけ精密に学習させたとしても、操作推論学習モデルが推論する操作が、実際の車両にそぐわないものとなり得る。特に、物理モデルの作成は、実車両の微細なパラメータを解析してこれを反映させる必要があるために、これを用いて精度が高い車両モデルを構築するのは容易ではない。このため、特に車両モデルとして物理モデルを使用すると、操作推論学習モデルにより出力する操作の精度を高めるのが難しい。
したがって、車両モデルを、例えば車両の実際の走行実績を基に車両を模擬動作するように機械学習された機械学習モデルとして実現することが考えられる。

特開２０１４−１１５１６８号公報

車両モデルを機械学習により車両学習モデルとして実現した場合においては、出力する模擬動作の精度を十分に高めようとすると、車両学習モデルの学習に時間がかかる。
例えば、車両学習モデルを十分に学習させるためには、様々なパターンの操作や車両の走行状態が網羅された学習データが、多量に必要である。しかし、車両学習モデルの学習前に、どのようなパターンの学習データが不足しているかを見極めるのは容易ではない。このため、車両学習モデルの学習後に、車両学習モデルの推論結果を基に、どのようなパターンの学習データが不足しているのかを分析し、学習データを再度収集したうえで、車両学習モデルを更に学習させなければならない。この一連の作業には手間がかかる。
車両学習モデルの学習に要する時間を低減することが望まれている。

本発明が解決しようとする課題は、車両を模擬動作するように機械学習された車両学習モデルを用いて操作推論学習モデルを強化学習するに際し、車両学習モデルの学習に要する時間を低減可能な、自動操縦ロボット（ドライブロボット）を制御する操作推論学習モデルの学習システム及び学習方法を提供することである。

本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットを備え、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムであって、前記車両の実際の走行実績を基に、前記操作が入力されると、前記車両を模した前記走行状態である模擬走行状態を出力するように機械学習される、車両学習モデルを備え、当該車両学習モデルを機械学習する学習部と、前記車両学習モデルが出力する前記模擬走行状態と、当該模擬走行状態に対応する前記操作を前記自動操縦ロボットに適用して前記車両を走行させたときの実績データと、を比較して、これらの誤差を算出し、当該誤差を判定閾値と比較する、誤差評価部と、前記誤差が前記判定閾値以上の場合に、当該誤差が算出された前記模擬走行状態に対応する前記操作である誤差検出操作を抽出し、当該誤差検出操作を基にした関連操作を生成し、当該関連操作を前記自動操縦ロボットに適用して、前記車両学習モデルを追加学習するための追加学習データを取得する、追加学習データ取得部と、を備え、前記学習部は、前記誤差が前記判定閾値以上の場合に、前記追加学習データにより前記車両学習モデルを更に学習し、前記誤差が前記判定閾値より小さい場合に、前記車両学習モデルが出力した前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムを提供する。

また、本発明は、車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットに関し、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法であって、前記車両の実際の走行実績を基に、前記操作が入力されると、前記車両を模した前記走行状態である模擬走行状態を出力するように、車両学習モデルを機械学習し、前記車両学習モデルが出力する前記模擬走行状態と、当該模擬走行状態に対応する前記操作を前記自動操縦ロボットに適用して前記車両を走行させたときの実績データと、を比較して、これらの誤差を算出し、当該誤差を判定閾値と比較し、前記誤差が前記判定閾値以上の場合に、当該誤差が算出された前記模擬走行状態に対応する前記操作である誤差検出操作を抽出し、当該誤差検出操作を基にした関連操作を生成し、当該関連操作を前記自動操縦ロボットに適用して、前記車両学習モデルを追加学習するための追加学習データを取得し、前記誤差が前記判定閾値以上の場合に、前記追加学習データにより前記車両学習モデルを更に学習し、前記誤差が前記判定閾値より小さい場合に、前記車両学習モデルが出力した前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法を提供する。

本発明によれば、車両を模擬動作するように機械学習された車両学習モデルを用いて操作推論学習モデルを機械学習するに際し、車両学習モデルの学習に要する時間を低減可能な、自動操縦ロボット（ドライブロボット）を制御する操作推論学習モデルの学習システム及び学習方法を提供することができる。

本発明の実施形態における、自動操縦ロボット（ドライブロボット）を用いた試験環境の説明図である。上記実施形態における自動操縦ロボットを制御する操作推論学習モデルの学習システムの、車両学習モデルの学習時における処理の流れを記したブロック図である。上記車両学習モデルのブロック図である。上記学習システムの車両学習モデル評価部の説明図である。上記自動操縦ロボットを制御する操作推論学習モデルの学習システムの、操作推論学習モデルの事前学習時における処理の流れを記したブロック図である。上記操作推論学習モデルのブロック図である。上記操作推論学習モデルの強化学習に用いられる、価値推論学習モデルのブロック図である。上記自動操縦ロボットを制御する操作推論学習モデルの学習システムの、操作推論学習モデルの事前学習が終了した後の強化学習時における処理の流れを記したブロック図である。上記実施形態における自動操縦ロボットを制御する操作推論学習モデルの学習方法のフローチャートである。

以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット（登録商標）を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。

図１は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置１は、車両２、シャシーダイナモメータ３、及びドライブロボット４を備えている。
車両２は、床面上に設けられている。シャシーダイナモメータ３は、床面の下方に設けられている。車両２は、車両２の駆動輪２ａがシャシーダイナモメータ３の上に載置されるように、位置づけられている。車両２が走行し駆動輪２ａが回転する際には、シャシーダイナモメータ３が反対の方向に回転する。
ドライブロボット４は、車両２の運転席２ｂに搭載されて、車両２を走行させる。ドライブロボット４は、第１アクチュエータ４ｃと第２アクチュエータ４ｄを備えており、これらはそれぞれ、車両２のアクセルペダル２ｃとブレーキペダル２ｄに当接するように設けられている。

ドライブロボット４は、後に詳説する学習制御装置１１によって制御されている。学習制御装置１１は、ドライブロボット４の第１アクチュエータ４ｃと第２アクチュエータ４ｄを制御することにより、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更、調整する。
学習制御装置１１は、ドライブロボット４を、車両２が規定された指令車速に従って走行するように制御する。すなわち、学習制御装置１１は、車両２のアクセルペダル２ｃとブレーキペダル２ｄの開度を変更することで、規定された走行パターン（モード）に従うように、車両２を走行制御する。より詳細には、学習制御装置１１は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両２を走行制御する。

学習制御システム（学習システム）１０は、上記のような試験装置１と学習制御装置１１を備えている。
学習制御装置１１は、ドライブロボット制御部２０、学習部３０、及び車両学習モデル評価部９０を備えている。
ドライブロボット制御部２０は、ドライブロボット４の制御を行うための制御信号を生成し、ドライブロボット４に送信することで、ドライブロボット４を制御する。学習部３０は、後に説明するような機械学習を行い、車両学習モデル、操作推論学習モデル、及び価値推論学習モデルを生成する。上記のような、ドライブロボット４の制御を行うための制御信号は、操作推論学習モデルにより生成される。車両学習モデル評価部９０は、車両学習モデルの学習精度を判定し、学習精度が低い場合には、車両学習モデルを更に追加学習するための追加学習データを取得する。
ドライブロボット制御部２０は、例えば、ドライブロボット４の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部３０、車両学習モデル評価部９０は、例えばパーソナルコンピュータ等の情報処理装置である。本実施形態においては、学習部３０と車両学習モデル評価部９０は、同一の情報処理装置に実装されている。

図２は、学習制御システム１０のブロック図である。図２においては、各構成要素を結ぶ線は、上記車両学習モデルを機械学習する際にデータの送受信があるもののみが示されており、したがって構成要素間の全てのデータの送受信を示すものではない。
試験装置１は、既に説明したような車両２、シャシーダイナモメータ３、及びドライブロボット４に加え、車両状態計測部５を備えている。車両状態計測部５は、車両２の状態を計測する各種の計測装置である。車両状態計測部５としては、例えばアクセルペダル２ｃやブレーキペダル２ｄの操作量を計測するためのカメラや赤外線センサなどであり得る。
本実施形態においては、ドライブロボット４が第１及び第２アクチュエータ４ｃ、４ｄを制御することでこれらペダル２ｃ、２ｄを操作する。したがって、車両状態計測部５に依らずとも、例えば第１及び第２アクチュエータ４ｃ、４ｄの制御量等を基に、ペダル２ｃ、２ｄの操作量を把握することができる。このため、本実施形態においては、車両状態計測部５は必須の構成ではない。しかし、後に変形例として記載するような、例えばドライブロボット４に替えて人間が車両２を操縦する際にペダル２ｃ、２ｄの操作量を把握したい場合や、エンジン回転数やギア状態、エンジン温度等の車両２の状態を直接計測して把握したい場合には必要となる。

ドライブロボット制御部２０は、ペダル操作パターン生成部２１、車両操作制御部２２、及び駆動状態取得部２３を備えている。学習部３０は、指令車速生成部３１、推論データ成形部３２、学習データ成形部３３、学習データ生成部３４、学習データ記憶部３５、強化学習部４０、及び試験装置モデル５０を備えている。強化学習部４０は、操作内容推論部４１、状態行動価値推論部４２、及び報酬計算部４３を備えている。試験装置モデル５０は、ドライブロボットモデル５１、車両モデル５２、及びシャシーダイナモメータモデル５３を備えている。車両学習モデル評価部９０は、誤差評価部９１、誤差表示部９２、及び追加学習データ取得部９３を備えている。
学習制御装置１１の、学習データ記憶部３５以外の各構成要素は、例えば上記の各情報処理装置内のＣＰＵにより実行されるソフトウェア、プログラムであってよい。また、学習データ記憶部３５は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。

後に説明するように、操作内容推論部４１は、ある時刻における走行状態を基に、指令車速に従うような、当該時刻よりも後の車両２の操作を推論する。この、車両２の操作の推論を効果的に行うために、特に操作内容推論部４１は、後に説明するように機械学習器を備えており、推論した操作に基づいたドライブロボット４の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して学習モデル（操作推論学習モデル）７０を生成する。操作内容推論部４１は、性能測定のために実際に車両２を走行制御させる際には、この学習が完了した操作推論学習モデル７０を使用して、車両２の操作を推論する。
すなわち、学習制御システム１０は大別して、強化学習時における操作の学習と、性能測定のために車両を走行制御させる際における操作の推論の、２通りの動作を行う。説明を簡単にするために、以下ではまず、操作の学習時における、学習制御システム１０の各構成要素の説明をした後に、車両の性能測定に際して操作を推論する場合での各構成要素の挙動について説明する。

まず、操作の学習時における、学習制御装置１１の構成要素の挙動を説明する。
学習制御装置１１は、操作の学習に先立ち、学習時に使用する走行実績データ（走行実績）を、走行実績として収集する。詳細には、ドライブロボット制御部２０が、アクセルペダル２ｃ及びブレーキペダル２ｄの、車両特性計測用の操作パターンを生成して、これにより車両２を走行制御し、走行実績データを収集する。
ペダル操作パターン生成部２１は、ペダル２ｃ、２ｄの、車両特性計測用の操作パターンを生成する。ペダル操作パターンとしては、例えば車両２と類似する他の車両において、ＷＬＴＣ（ＷｏｒｌｄｗｉｄｅｈａｒｍｏｎｉｚｅｄＬｉｇｈｔｖｅｈｉｃｌｅｓＴｅｓｔＣｙｃｌｅ）モードなどによって走行した際のペダル操作の実績値を使用することができる。
ペダル操作パターン生成部２１は、生成したペダル操作パターンを、車両操作制御部２２へ送信する。

車両操作制御部２２は、ペダル操作パターン生成部２１から、ペダル操作パターンを受信し、これを、ドライブロボット４の第１及び第２アクチュエータ４ｃ、４ｄへの指令に変換して、ドライブロボット４に送信する。
ドライブロボット４は、アクチュエータ４ｃ、４ｄへの指令を受信すると、これに基づいて車両２をシャシーダイナモメータ３上で走行させる。
駆動状態取得部２３は、例えばアクチュエータ４ｃ、４ｄの位置等の、ドライブロボット４の実際の駆動状態を取得する。車両２が走行することにより、車両２の走行状態は逐次変化する。駆動状態取得部２３と、車両状態計測部５、及びシャシーダイナモメータ３に設けられた様々な計測器により、車両２の走行状態が計測される。例えば、駆動状態取得部２３は上記のように、アクセルペダル２ｃの検出量と、ブレーキペダル２ｄの検出量を、走行状態として計測する。また、シャシーダイナモメータ３に設けられた計測器は、車速を走行状態として計測する。
計測された車両２の走行状態は、学習部３０の学習データ成形部３３へ送信される。
学習データ成形部３３は、車両２の走行状態を受信し、受信したデータを後の様々な学習において使用されるフォーマットに変換して、走行実績データとして学習データ記憶部３５に保存する。

車両２の走行状態すなわち走行実績データの収集が終了すると、学習データ生成部３４は学習データ記憶部３５から走行実績データを取得し、適切なフォーマットに成形して、試験装置モデル５０に送信する。
学習部３０の、試験装置モデル５０の車両モデル５２は、学習データ生成部３４から成形された走行実績データを取得し、これを用いて機械学習器６０を機械学習して、車両学習モデル６０を生成する。車両学習モデル６０は、車両２の実際の走行実績である走行実績データを基に車両２を模擬動作するように機械学習され、車両２に対する操作を受信すると、これを基に、車両２を模した走行状態である模擬走行状態を出力する。すなわち、車両モデル５２の機械学習器６０は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル６０を生成するものである。
本実施形態においては、車両学習モデル６０は、ニューラルネットワークで実現され、基準となる時刻（基準時刻）の走行状態と、当該走行状態において適用される操作が学習データとして入力され、基準時刻の走行状態を基に基準時刻より後の時刻の模擬走行状態を出力して、これを、後の時刻の実際の走行実績である教師データと比較することで機械学習される。
以下、説明を簡単にするため、車両モデル５２が備えている機械学習器と、これが学習されて生成される学習モデルをともに、車両学習モデル６０と呼称する。

図３は、車両学習モデル６０のブロック図である。本実施形態においては、車両学習モデル６０は、中間層を３層とした全５層の全結合型のニューラルネットワークにより実現されている。車両学習モデル６０は、入力層６１、中間層６２、及び出力層６３を備えている。図３においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。

本実施形態においては、車両学習モデル６０の入力となる走行状態は、任意の基準時刻を基点として、走行実績データ内の所定の第１時間だけ過去から基準時刻までの間の、車速の系列を含む。また、本実施形態においては、車両学習モデル６０の入力は、基準時刻から所定の第２時間だけ将来の時刻までの間の、アクセルペダル２ｃの操作量の系列、及びブレーキペダル２ｄの操作量の系列を含む。これらアクセルペダル２ｃの操作量の系列、及びブレーキペダル２ｄの操作量の系列は、実際には、学習データ記憶部３５に保存された走行実績データ内の、基準時刻以降のアクセルペダル２ｃの検出量と、ブレーキペダル２ｄの検出量であり、これらが基準時刻において車両２に対して適用される操作として、車両学習モデル６０に入力される。
入力層６１は、上記のような車速の系列である車速系列ｉ１、アクセルペダル２ｃの操作量の系列であるアクセルペダル系列ｉ２、及びブレーキペダル２ｄの操作量の系列であるブレーキペダル系列ｉ３の各々に対応する入力ノードを備えている。
上記のように、各入力ｉ１、ｉ２、ｉ３は系列であり、それぞれ、複数の値により実現されている。例えば、図３においては、一つの矩形として示されている、車速系列ｉ１に対応する入力は、実際には、車速系列ｉ１の複数の値の各々に対応するように、入力ノードが設けられている。
車両モデル５２は、各入力ノードに、対応する走行実績データの値を格納する。

中間層６２は、第１中間層６２ａ、第２中間層６２ｂ、及び第３中間層６２ｃを備えている。
中間層６２の各ノードにおいては、前段の層（例えば、第１中間層６２ａの場合は入力層６１、第２中間層６２ｂの場合は第１中間層６２ａ）の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層６２のノードへの重みを基にした演算がなされて、当該中間層６２のノード内に演算結果が格納される。
出力層６３においても、中間層６２の各々と同様な演算が行われ、出力層６３に備えられた各出力ノードに演算結果が格納される。
本実施形態においては、車両学習モデル６０の出力は、基準時刻から所定の第３時間だけ将来の時刻（後の時刻）までの間の、推定された車速の系列である。この推定車速系列ｏは、系列であるため、複数の値により実現されている。例えば、図３においては、一つの矩形として示されている、推定車速系列ｏに対応する出力は、実際には、推定車速系列ｏの複数の値の各々に対応するように、出力ノードが設けられている。

車両学習モデル６０においては、上記のように基準時刻の走行実績が走行状態ｉ１や操作ｉ２、ｉ３として入力されて、後の時刻の適切な推定車速系列ｏを、車両２の走行を模した走行状態である模擬走行状態ｏとして出力することができるように学習がなされる。
より詳細には、車両モデル５２は、別途学習データ記憶部３５から学習データ生成部３４を介して送信された、基準時刻から第３時間だけ将来の時刻までの間の走行実績、本実施形態においては車速系列の正解値を、教師データとして受信する。車両モデル５２は、教師データと、車両学習モデル６０が出力した推定車速系列ｏの平均二乗誤差が小さくなるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。

車両学習モデル６０は、基本的には、学習データ記憶部３５に蓄積された全ての学習データを用いて学習される。車両学習モデル評価部９０は、この時点における車両学習モデル６０の学習精度が十分であるか否かを判定する。
図４は、車両学習モデル評価部９０の説明図である。
例えば学習データ記憶部３５に蓄積された学習データの量が少なかったり、学習データに収録された走行実績のパターンが偏重したりすると、十分な学習データが用意されなかったパターンの走行実績において、車両学習モデル６０が十分な精度の推定車速系列ｏを推定できない場合がある。図４においては、時刻ｔ１から時刻ｔ２の時間範囲において、実際に走行した速度を時間の関数として表現した速度実績Ｌ１と、車両学習モデル６０が推定した推定車速系列ｏを時間の関数として表現した推定速度Ｌ２とに、誤差が生じている。
車両学習モデル評価部９０は、このような誤差を抽出することで車両学習モデル６０の学習精度を判定し、十分でない場合には、車両学習モデル６０を追加学習するための追加学習データを取得する。

より詳細には、学習データ記憶部３５に蓄積された全ての学習データを用いて学習されると、車両学習モデル評価部９０の誤差評価部９１は、この時点における車両学習モデル６０に、学習データ記憶部３５に蓄積された学習データ、あるいは車両学習モデル６０の学習終了を判定するために用意された試験データを入力データとして逐次入力して、推定車速系列ｏを出力させる。誤差評価部９１は、この推定車速系列ｏと、推定車速系列ｏに対応する、推定車速系列ｏを推論した際の入力となった操作をドライブロボット４に適用して車両２を走行させたときの実績データ、すなわち学習データや試験データに対応して設けられた教師データや正答データと比較して、これらの誤差を算出する。
誤差評価部９１は、誤差として、模擬走行状態ｏの車速と、実績データの車速の差を算出する。車速の差は、より詳細には、例えば、推定車速系列ｏに含まれる車速の各々に対して実績データとの差分を計算し、その絶対値の最大値を算出することで求められる。
誤差評価部９１は、この誤差を、判定閾値と比較する。その結果、全ての入力データにおいて誤差が判定閾値より小さい場合には、誤差評価部９１は、車両学習モデル６０の学習が終了したと判定し、後に説明するような、操作推論学習モデル７０の学習に移行する。

算出された誤差が判定閾値以上である入力データがある場合には、誤差表示部９２がその旨を表示するとともに、追加学習データ取得部９３が、このような誤差が算出された推定車速系列ｏに対応する操作である誤差検出操作を抽出する。誤差検出操作は、例えば、大きな誤差が生じはじめる図４における時刻ｔ１での車両２の走行状態を再現するための、車両２の運転開始から時刻ｔ１までの操作、すなわちアクセルペダル２ｃとブレーキペダル２ｄの各々の検出量と、時刻ｔ１からｔ２までの、誤差が実際に生じた時間範囲内の操作の双方を、走行実績から取得することで抽出され得る。
追加学習データ取得部９３は、誤差検出操作を基にした関連操作を生成する。より詳細には、追加学習データ取得部９３は、誤差検出操作に含まれる操作のうち、時刻ｔ１からｔ２までの、誤差が実際に生じた時間範囲内における操作の、アクセルペダルとブレーキペダルいずれか一方または双方を、例えば０．９〜１．１倍の僅かな範囲の間で変動させることで、一つの誤差検出操作から複数の関連操作を生成し得る。
追加学習データ取得部９３は、関連操作をドライブロボット４に適用する。より詳細には、車両操作制御部２２と同様に、関連操作をドライブロボット４の第１及び第２アクチュエータ４ｃ、４ｄへの指令に変換して、ドライブロボット４に送信する。
ドライブロボット４は、アクチュエータ４ｃ、４ｄへの指令を受信すると、これに基づいて車両２をシャシーダイナモメータ３上で走行させる。これにより、駆動状態取得部２３と、車両状態計測部５、及びシャシーダイナモメータ３に設けられた様々な計測器が、車両２の走行状態を計測する。
計測された車両２の、特に時刻ｔ１からｔ２までの、誤差が実際に生じた時間範囲内の走行状態は、学習部３０の学習データ成形部３３へ送信される。
学習データ成形部３３は、車両２の走行状態を受信し、受信したデータを後の様々な学習において使用されるフォーマットに変換して、車両学習モデル６０を追加学習するための追加学習データとして学習データ記憶部３５に保存する。

追加学習データが保存されると、学習部３０の車両モデル５２は、これを用いて、車両学習モデル６０を更に追加して学習させる。
車両学習モデル６０の追加学習と、追加学習データの取得は、誤差評価部９１において、全ての入力データで誤差が判定閾値より小さいと判定されるまで、繰り返し実行される。

車両学習モデル６０の学習が終了すると、学習制御システム１０の強化学習部４０は、操作内容推論部４１に設けられた、車両２の操作を推論する操作推論学習モデル７０を事前学習する。図５は、事前学習時のデータの送受信関係が示された学習制御システム１０のブロック図である。本実施形態においては、操作推論学習モデル７０は、強化学習により機械学習される。すなわち、操作推論学習モデル７０は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
学習制御システム１０は、既に学習が終了した車両学習モデル６０が出力した模擬走行状態を操作推論学習モデル７０に適用することで、操作推論学習モデル７０を事前に強化学習する。後に説明するように、操作推論学習モデル７０の強化学習が進行して事前の強化学習が終了した後に、操作推論学習モデル７０の出力した操作を基に実際に車両２を走行させて取得された走行状態を操作推論学習モデル７０に適用することで、操作推論学習モデル７０を更に強化学習する。このように、学習制御システム１０は、操作推論学習モデル７０の学習段階に応じて、推論した操作の実行対象及び走行状態の取得対象を、車両学習モデル６０から実車両２へと変更する。

後に説明するように、操作内容推論部４１は、現時点から第３時間だけ将来の時刻までの間の車両２の操作を出力し、これをドライブロボットモデル５１に送信する。本実施形態において、操作内容推論部４１は、特にアクセルペダル２ｃ及びブレーキペダル２ｄの操作の系列を出力する。
車両学習モデル６０の学習により、試験装置モデル５０は、全体として試験装置１の各々を模擬動作するように構成されている。試験装置モデル５０は、操作の系列を受信する。

ドライブロボットモデル５１は、ドライブロボット４を模擬動作するように構成されている。ドライブロボットモデル５１は、受信した操作を基に、学習が終了した車両学習モデル６０の入力となるアクセルペダル系列ｉ２とブレーキペダル系列ｉ３を生成し、車両モデル５２に送信する。
シャシーダイナモメータモデル５３は、シャシーダイナモメータ３を模擬動作するように構成されている。シャシーダイナモメータ３は、模擬走行中の車両学習モデル６０の車速を検出しつつ、これを内部に随時記録している。シャシーダイナモメータモデル５３は、この過去の車速の記録から車速系列ｉ１を生成し、車両モデル５２に送信する。
車両モデル５２は、車速系列ｉ１、アクセルペダル系列ｉ２、及びブレーキペダル系列ｉ３を受信してこれらを車両学習モデル６０に入力する。車両学習モデル６０が推定車速系列ｏを出力すると、車両モデル５２は推定車速系列ｏをシャシーダイナモメータモデル５３に送信する。
シャシーダイナモメータモデル５３は、推定車速系列ｏを推論データ成形部３２に送信する。

指令車速生成部３１は、モードに関する情報に基づいて生成された、指令車速を保持している。指令車速生成部３１は、現時点から所定の第４時間だけ将来の時刻までの間に、車両学習モデル６０が従うべき指令車速の系列を生成し、推論データ成形部３２に送信する。
推論データ成形部３２は、推定車速系列ｏと指令車速系列を受信し、適切に成形した後に強化学習部４０に送信する。

強化学習部４０は、過去に送信したアクセルペダル２ｃとブレーキペダル２ｄの操作を保持している。強化学習部４０は、これらの送信した操作を、車両学習モデル６０が実際にこれに従った結果としての検出値として見做し、これらアクセルペダル２ｃとブレーキペダル２ｄの操作の系列を基に、過去のアクセルペダル検出量の系列とブレーキペダル検出量の系列を生成する。強化学習部４０は、これらを推定車速系列ｏと指令車速系列とともに、走行状態として操作内容推論部４１に送信する。

操作内容推論部４１は、ある時刻において走行状態を受信すると、これを基に、学習中の操作推論学習モデル７０により、当該時刻より後の操作の系列を推論する。図６は、操作推論学習モデル７０のブロック図である。
操作推論学習モデル７０の入力層７１においては、入力ノードが、例えばアクセルペダル検出量ｓ１、ブレーキペダル検出量ｓ２から、指令車速ｓＮに至るまでの、走行状態ｓの各々に対応するように設けられている。操作推論学習モデル７０は、車両学習モデル６０と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
操作推論学習モデル７０の出力層７３においては、出力ノードの各々は、操作ａの各々に対応するように設けられている。本実施形態においては、操作の対象は、アクセルペダル２ｃとブレーキペダル２ｄであり、これに対応して、操作ａは、例えばアクセルペダル操作の系列ａ１とブレーキペダル操作の系列ａ２となっている。

操作内容推論部４１は、このようにして生成されたアクセルペダル操作ａ１とブレーキペダル操作ａ２をドライブロボットモデル５１に送信する。ドライブロボットモデル５１は、これを基にアクセルペダル系列ｉ２とブレーキペダル系列ｉ３を生成して車両学習モデル６０に送信し、車両学習モデル６０は次の車速を推論する。この、次の車速を基にして、次の走行状態ｓが生成される。
操作推論学習モデル７０の学習、すなわち誤差逆伝搬法、確率的勾配降下法によるニューラルネットワークを構成する各パラメータの値の調整は、現段階においては行われず、操作推論学習モデル７０は操作ａを推論するのみである。操作推論学習モデル７０の学習は、後に、価値推論学習モデル８０の学習に伴って行われる。

報酬計算部４３は、走行状態ｓと、これに対応して操作推論学習モデル７０により推論された操作ａ、及び当該操作ａを基に新たに生成された走行状態ｓを基に、適切に設計された式により報酬を計算する。報酬は、操作ａ、及びこれに伴う新たに生成された走行状態ｓが望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。後述する状態行動価値推論部４２は、行動価値を、報酬が大きいほどこれが高くするように計算し、操作推論学習モデル７０はこの行動価値が高くなるような操作ａを出力するように、強化学習が行われる。
報酬計算部４３は、走行状態ｓ、これに対応して推論された操作ａ、当該操作ａを基に新たに生成された走行状態ｓ、及び計算した報酬を、学習データ成形部３３に送信する。学習データ成形部３３は、これらを適切に成形して学習データ記憶部３５に保存する。これらのデータは、後述する価値推論学習モデル８０の学習に使用される。
このようにして、操作内容推論部４１による操作ａの推論と、この操作ａに対応した、車両モデル５２による推定車速系列ｏの推論、及び報酬の計算が、価値推論学習モデル８０の学習に十分なデータが蓄積されるまで、繰り返し行われる。

学習データ記憶部３５に、価値推論学習モデル８０の学習に十分な量の走行データが蓄積されると、状態行動価値推論部４２は価値推論学習モデル８０を学習する。価値推論学習モデル８０は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部４０は全体として、操作推論学習モデル７０が推論した操作ａがどの程度適切であったかを示す行動価値を計算し、操作推論学習モデル７０が、この行動価値が高くなるような操作ａを出力するように、強化学習を行う。行動価値は、走行状態ｓと、これに対する操作ａを引数として、報酬が大きいほど行動価値Ｑを高くするように設計された関数Ｑとして表わされる。本実施形態においては、この関数Ｑの計算を、走行状態ｓと操作ａを入力として、行動価値Ｑを出力するように設計された、関数近似器としての学習モデル８０により行う。

状態行動価値推論部４２は、学習データ記憶部３５から、学習データ生成部３４を介して成形された走行状態ｓと操作ａを受信し、価値推論学習モデル８０を機械学習させる。図７は、価値推論学習モデル８０のブロック図である。
価値推論学習モデル８０の入力層８１においては、入力ノードが、例えばアクセルペダル検出量ｓ１、ブレーキペダル検出量ｓ２から、指令車速ｓＮに至るまでの、走行状態ｓの各々と、及び、例えばアクセルペダル操作ａ１とブレーキペダル操作ａ２の、操作ａの各々に対応するように設けられている。価値推論学習モデル８０は、車両学習モデル６０と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
価値推論学習モデル８０の出力層８３においては、出力ノードは、例えば１つであり、これが、計算された行動価値Ｑの値に相当する。

状態行動価値推論部４２は、ＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）誤差、すなわち、操作ａを実行する前の行動価値と、操作ａを実行した後の行動価値の誤差を小さくして、行動価値Ｑとして適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の操作推論学習モデル７０によって推論された操作ａを適切に評価できるように、価値推論学習モデル８０を学習させる。
価値推論学習モデル８０の学習が終了すると、価値推論学習モデル８０は、より適切な行動価値Ｑの値を出力するようになる。すなわち、価値推論学習モデル８０が出力する行動価値Ｑの値が学習前とは変わるため、これに伴い、行動価値Ｑが高くなるような操作ａを出力するように設計された操作推論学習モデル７０を更新する必要がある。このため、操作内容推論部４１は操作推論学習モデル７０を学習する。
具体的には、操作内容推論部４１は、例えば行動価値Ｑの負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値Ｑが大きくなるような操作ａを出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、操作推論学習モデル７０を学習させる。
操作推論学習モデル７０が学習され更新されると、出力される操作ａが変化するため、再度走行データを蓄積し、これを基に価値推論学習モデル８０を学習する。
このように、学習部３０は、操作推論学習モデル７０と価値推論学習モデル８０の学習を繰り返すことにより、これら学習モデル７０、８０を強化学習する。

学習部３０は、この事前学習としての、車両学習モデル６０を操作ａの実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。
例えば、学習部３０は、車両学習モデル６０を操作ａの実行対象として用いた制御で十分な走行性能が得られるまで、事前学習を実行する。例えば、学習制御システム１０がモード走行を前提としている場合においては、車両学習モデル６０によるモード走行において、車速指令と推定車速系列ｏとの誤差が所定の閾値以下となり十分に小さい値となるまで、事前学習が実行される。
あるいは、所定の時間範囲におけるアクセルペダル２ｃやブレーキペダル２ｄの操作回数、操作量や変化率が、所定の閾値以下になった場合は、実際に車両２で試験を実行しても車両２に大きな負荷を与える可能性が低いと判断して、事前学習を終了するようにしてもよい。

操作推論学習モデル７０及び価値推論学習モデル８０の、車両学習モデル６０を操作ａの実行対象として用いた事前学習が終了すると、学習部３０は、車両学習モデル６０に替えて、実車両２を操作ａの実行対象として、操作推論学習モデル７０及び価値推論学習モデル８０を更に強化学習する。図８は、事前学習が終了した後の強化学習時におけるデータの送受信関係が示された学習制御システム１０のブロック図である。

操作内容推論部４１は、現時点から第３時間だけ将来の時刻までの間の車両２の操作ａを出力し、これを車両操作制御部２２に送信する。
車両操作制御部２２は、受信した操作ａを、ドライブロボット４の第１及び第２アクチュエータ４ｃ、４ｄへの指令に変換して、ドライブロボット４に送信する。
ドライブロボット４は、アクチュエータ４ｃ、４ｄへの指令を受信すると、これに基づいて車両２をシャシーダイナモメータ３上で走行させる。
シャシーダイナモメータ３は、車両２の車速を検出し、車速系列を生成して推論データ成形部３２に送信する。
指令車速生成部３１は、指令車速系列を生成して推論データ成形部３２に送信する。
推論データ成形部３２は、車速系列と指令車速系列を受信し、適切に成形した後に走行状態として、強化学習部４０に送信する。

強化学習部４０は、車両モデル５２により生成される推定車速系列ｏの替わりに上記の車速系列を用いて、図５を用いて説明した事前学習時と同様に、上記のように実車両２を操作ａの実行対象として用いて学習データを学習データ記憶部３５に蓄積する。強化学習部４０は、十分な量の走行データが蓄積されると、価値推論学習モデル８０を学習し、その後操作推論学習モデル７０を学習する。
学習部３０は、学習データの蓄積と、操作推論学習モデル７０と価値推論学習モデル８０の学習を繰り返すことにより、これら学習モデル７０、８０を強化学習する。

学習部３０は、車両２を操作ａの実行対象として用いた強化学習を、学習終了基準を満たすまで実行する。
例えば、学習部３０は、車両２を操作ａの実行対象として用いた制御で十分な走行性能が得られるまで、事前学習を実行する。例えば、学習制御システム１０がモード走行を前提としている場合においては、車両２によるモード走行において、車速指令と実際にシャシーダイナモメータ３により検出される車速との誤差が所定の閾値以下となり十分に小さい値となるまで、学習が実行される。

次に、車両２の性能測定に際して操作ａを推論する場合での、すなわち、操作推論学習モデル７０の強化学習が終了した後における、学習制御システム１０の各構成要素の挙動について説明する。

駆動状態取得部２３と、車両状態計測部５、及びシャシーダイナモメータ３に設けられた様々な計測器により、車両２の車速、アクセルペダル２ｃの検出量、ブレーキペダル２ｄの検出量等が計測される。これらの値は、推論データ成形部３２に送信される。
指令車速生成部３１は、指令車速系列を生成して推論データ成形部３２に送信する。
推論データ成形部３２は、車速、アクセルペダル２ｃの検出量、ブレーキペダル２ｄの検出量等と、指令車速系列を受信し、適切に成形した後に走行状態として、強化学習部４０に送信する。
操作内容推論部４１は、走行状態を受信すると、これを基に、学習済みの操作推論学習モデル７０により、車両２の操作ａを推論する。
操作内容推論部４１は、推論した操作ａを、車両操作制御部２２へ送信する。
車両操作制御部２２は、操作内容推論部４１から操作ａを受信し、この操作ａに基づき、ドライブロボット４を操作する。

次に、図１〜図８、及び図９を用いて、上記の学習制御システム１０を用いた、ドライブロボット４を制御する操作推論学習モデル７０の学習方法を説明する。図９は、学習方法のフローチャートである。
学習制御装置１１は、操作の学習に先立ち、学習時に使用する走行実績データ（走行実績）を、走行実績として収集する。詳細には、ドライブロボット制御部２０が、アクセルペダル２ｃ及びブレーキペダル２ｄの、車両特性計測用の操作パターンを生成して、これにより車両２を走行制御し、走行実績データを収集する（ステップＳ１）。
車両モデル５２は、学習データ生成部３４から成形された走行実績データを取得し、これを用いて機械学習器６０を機械学習して、車両学習モデル６０を生成する（ステップＳ３）。

誤差評価部９１は、誤差として、模擬走行状態ｏの車速と、実績データの車速の差を算出する。誤差評価部９１は、この誤差を、判定閾値と比較する。
算出された誤差が判定閾値以上である入力データがある場合には（ステップＳ５のＹｅｓ）、誤差表示部９２がその旨を表示するとともに、追加学習データ取得部９３が、誤差検出操作を基にした関連操作を生成する。
追加学習データ取得部９３は、関連操作をドライブロボット４に適用することで、追加学習データを取得する（ステップＳ７）。
追加学習データが保存されると、学習部３０の車両モデル５２は、これを用いて、車両学習モデル６０を更に学習させる（ステップＳ３へ遷移）。

全ての入力データにおいて誤差が判定閾値より小さくなり、車両学習モデル６０の学習が終了すると（ステップＳ５のＮｏ）、学習制御システム１０の強化学習部４０は、車両２の操作を推論する操作推論学習モデル７０を事前学習する（ステップＳ９）。より詳細には、学習制御システム１０は、既に学習が終了した車両学習モデル６０が出力した模擬走行状態を操作推論学習モデル７０に適用することで、操作推論学習モデル７０を事前に強化学習する。
学習部３０は、この事前学習としての、車両学習モデル６０を操作ａの実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。事前学習終了基準を満たさなければ（ステップＳ１１のＮｏ）、事前学習を継続する。事前学習終了基準が満たされると（ステップＳ１１のＹｅｓ）、事前学習を終了する。

操作推論学習モデル７０及び価値推論学習モデル８０の、車両学習モデル６０を操作ａの実行対象として用いた事前学習が終了すると、学習部３０は、車両学習モデル６０に替えて、実車両２を操作ａの実行対象として、操作推論学習モデル７０及び価値推論学習モデル８０を更に強化学習する（ステップＳ１３）。

次に、上記のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の効果について説明する。

本実施形態の学習制御システム１０は、車速を含む車両２の走行状態ｓを基に、車両２を規定された指令車速に従って走行させるような、車両２の操作ａを推論する操作推論学習モデル７０と、車両２に搭載されて、操作ａを基に車両２を走行させるドライブロボット（自動操縦ロボット）４を備え、操作推論学習モデル７０を強化学習する、ドライブロボット４を制御する操作推論学習モデル７０の学習システム１０であって、車両２の実際の走行実績を基に、操作ａが入力されると、車両２を模した走行状態ｓである模擬走行状態ｏを出力するように機械学習される、車両学習モデル６０を備え、車両学習モデル６０を機械学習する学習部３０と、車両学習モデル６０が出力する模擬走行状態と、模擬走行状態に対応する操作ａをドライブロボット４に適用して車両２を走行させたときの実績データと、を比較して、これらの誤差を算出し、誤差を判定閾値と比較する、誤差評価部９１と、誤差が判定閾値以上の場合に、誤差が算出された模擬走行状態に対応する操作ａである誤差検出操作を抽出し、誤差検出操作を基にした関連操作を生成し、関連操作をドライブロボット４に適用して、車両学習モデル６０を追加学習するための追加学習データを取得する、追加学習データ取得部９３と、を備え、学習部３０は、誤差が判定閾値以上の場合に、追加学習データにより車両学習モデル６０を更に学習し、誤差が判定閾値より小さい場合に、車両学習モデル６０が出力した模擬走行状態ｏを操作推論学習モデル７０に適用することで、操作推論学習モデル７０を強化学習する。
また、本実施形態の学習制御方法は、車速を含む車両２の走行状態ｓを基に、車両２を規定された指令車速に従って走行させるような、車両２の操作ａを推論する操作推論学習モデル７０と、車両２に搭載されて、操作ａを基に車両２を走行させるドライブロボット（自動操縦ロボット）４に関し、操作推論学習モデル７０を強化学習する、ドライブロボット４を制御する操作推論学習モデル７０の学習方法であって、車両２の実際の走行実績を基に、操作ａが入力されると、車両２を模した走行状態である模擬走行状態を出力するように、車両学習モデル６０を機械学習し、車両学習モデル６０が出力する模擬走行状態と、模擬走行状態に対応する入力となる操作ａをドライブロボット４に適用して車両２を走行させたときの実績データと、を比較して、これらの誤差を算出し、誤差を判定閾値と比較し、誤差が判定閾値以上の場合に、誤差が算出された模擬走行状態に対応する操作ａである誤差検出操作を抽出し、誤差検出操作を基にした関連操作を生成し、関連操作をドライブロボット４に適用して、車両学習モデル６０を追加学習するための追加学習データを取得し、誤差が判定閾値以上の場合に、追加学習データにより車両学習モデル６０を更に学習し、誤差が判定閾値より小さい場合に、車両学習モデル６０が出力した模擬走行状態ｏを操作推論学習モデル７０に適用することで、操作推論学習モデル７０を強化学習する。
例えば学習データ記憶部３５に蓄積された学習データの量が少なかったり、学習データに収録された走行実績のパターンが偏重したりすると、十分な学習データが用意されなかったパターンの走行実績において、車両学習モデル６０が十分な精度の推定車速系列ｏを推定できない場合がある。
上記のような構成によれば、模擬走行状態と実績データとを比較して誤差を算出することで、車両学習モデル６０の学習精度が不足していることを検出できる。特に本実施形態においては、判定閾値以上の誤差が算出された模擬走行状態に関し、これに対応する操作ａである誤差検出操作を抽出している。誤差が判定閾値以上となった理由として、この誤差検出操作に近い操作の実績データが少なく、この誤差検出操作に対応する実績データに類似するパターンの学習データに関して学習が不足したことが考えられる。この論拠に基づき、追加学習データ取得部９３は、誤差検出操作を基にした関連操作を生成し、関連操作をドライブロボット４に適用して、車両学習モデル６０を追加学習するための追加学習データを取得する。このように、車両学習モデル６０を追加学習するための追加学習データが自動的に取得され、これを用いて車両学習モデル６０が更に追加学習される。
これにより、車両学習モデル６０の学習精度の向上に要する時間を低減することができる。

特に本実施形態においては、学習部３０は、操作推論学習モデル７０を強化学習している。
このような学習制御システム１０では、既に説明したように、操作推論学習モデル７０と価値推論学習モデル８０の学習が繰り返され、学習途中の操作推論学習モデル７０が推論した操作を、最終的には車両２に適用しなければならない。しかし、操作推論学習モデル７０は、強化学習の途中段階においては、例えばペダルを極端に高い頻度で操作するような、人間には不可能で、実車両に負担がかかる、好ましくない操作ａを出力する可能性がある。
上記のような構成によれば、操作推論学習モデル７０は、上記のように学習精度が高められた車両学習モデル６０により強化学習される。このため、車両学習モデル６０を用いた操作推論学習モデル７０の学習が終了した後に、操作推論学習モデル７０が好ましくない操作ａを出力する可能性が低減される。したがって、操作推論学習モデル７０の出力を車両２に適用することで操作推論学習モデル７０の学習精度を高めようとする場合においても、実車両２の負担を低減可能である。

また、誤差評価部９１は、誤差として、模擬走行状態の車速と、実績データの車速の差を算出する。
上記のような構成によれば、学習制御システム１０を適切に実現することができる。

また、車両学習モデル６０は、ニューラルネットワークで実現され、基準時刻の走行実績と、操作が学習データとして入力され、基準時刻より後の時刻の模擬走行状態を出力して、これを、後の時刻の走行実績である教師データと比較することで機械学習される。
従来のように、車両モデルとして、車両の各構成要素に対して、動作を模した物理モデルを各々作成し、これらを組み合わせた物理モデルとして作成するのは、開発コストが嵩む。また、物理モデルの作成のためには実車両２の微細なパラメータや特性を熟知する必要があり、これらが入手できない場合においては、必要に応じて車両２を改造し、解析しなければならない。
上記のような構成によれば、車両学習モデル６０がニューラルネットワークにより実現されているため、物理モデルとして車両学習モデル６０を実現する場合に比べると実現が容易である。

また、走行状態ｓは、車速に加え、アクセルペダル開度、ブレーキペダル開度のいずれか、またはいずれかの組み合わせを含む。
上記のような構成によれば、上記のような学習制御システム１０を適切に実現可能である。

なお、本発明のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法は、図面を参照して説明した上述の実施形態に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。

例えば、上記実施形態においては、事前に車両学習モデル６０を操作ａの実行対象として操作推論学習モデル７０を強化学習した後には、車両２を操作ａの実行対象として操作推論学習モデル７０を強化学習していた。
事前学習後においては、操作推論学習モデル７０が推論した操作により車両２を走行させることで、車両２の走行実績を更に取得することができる。この、新たに取得された走行実績を用いて、車両学習モデル６０を更に学習し、模擬走行状態の推論精度を高めたうえで、事前学習後の強化学習において、推論した操作の実行及び走行状態の取得の対象として、車両２に加えて、更なる学習がなされた車両学習モデル６０を併用することもできる。このような構成においては、車両２を使用して試験を行う時間が低減するため、操作推論学習モデル７０の学習時間を低減可能である。

また、上記実施形態においては、車両学習モデル６０の学習に使用する、車両２の実際の走行実績データを収集する際に、ドライブロボット４を使用した構成を説明したが、この場合に車両２を操縦するのはドライブロボット４に限られず、例えば人間であってもよい。この場合においては、上記実施形態で既に説明したように、アクセルペダル２ｃやブレーキペダル２ｄの操作量を計測するために、例えばカメラや赤外線センサが用いられ得る。

また、上記実施形態においては、走行状態として、車速、アクセルペダル開度、ブレーキペダル開度を用いていたが、これに限られない。例えば、走行状態は、車速に加え、アクセルペダル開度、ブレーキペダル開度、エンジン回転数、ギア状態、エンジン温度のいずれか、またはいずれかの組み合わせを含むように構成してもよい。
例えば、走行状態として、上記実施形態の構成に加えてエンジン回転数、ギア状態、エンジン温度を追加する場合においては、車両学習モデル６０の入力には、車速系列ｉ１、アクセルペダル系列ｉ２、ブレーキペダル系列ｉ３に加え、過去の時間におけるエンジン回転数の系列、ギア状態の系列、及びエンジン温度の系列が追加され得る。また、出力には、推定車速系列ｏに加え、将来の時間におけるエンジン回転数の系列、ギア状態の系列、及びエンジン温度の系列が追加され得る。
このように構成した場合においては、より精度の高い車両学習モデル６０を生成することができる。

これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。

１試験装置
２車両
３シャシーダイナモメータ
４ドライブロボット（自動操縦ロボット）
１０学習制御システム（学習システム）
１１学習制御装置
２０ドライブロボット制御部
２１ペダル操作パターン生成部
２２車両操作制御部
２３駆動状態取得部
３０学習部
３１指令車速生成部
３２推論データ成形部
３３学習データ成形部
３４学習データ生成部
３５学習データ記憶部
４０強化学習部
４１操作内容推論部
４２状態行動価値推論部
４３報酬計算部
５０試験装置モデル
５１ドライブロボットモデル
５２車両モデル
５３シャシーダイナモメータモデル
６０車両学習モデル
７０操作推論学習モデル
８０価値推論学習モデル
９０車両学習モデル評価部
９１誤差評価部
９３追加学習データ取得部
ｉ１車速系列
ｉ２アクセルペダル系列
ｉ３ブレーキペダル系列
ａ操作
ｓ走行状態
ｏ模擬走行状態

Claims

車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットを備え、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムであって、
前記車両の実際の走行実績を基に、前記操作が入力されると、前記車両を模した前記走行状態である模擬走行状態を出力するように機械学習される、車両学習モデルを備え、当該車両学習モデルを機械学習する学習部と、
前記車両学習モデルが出力する前記模擬走行状態と、当該模擬走行状態に対応する前記操作を前記自動操縦ロボットに適用して前記車両を走行させたときの実績データと、を比較して、これらの誤差を算出し、当該誤差を判定閾値と比較する、誤差評価部と、
前記誤差が前記判定閾値以上の場合に、当該誤差が算出された前記模擬走行状態に対応する前記操作である誤差検出操作を抽出し、当該誤差検出操作を基にした関連操作を生成し、当該関連操作を前記自動操縦ロボットに適用して、前記車両学習モデルを追加学習するための追加学習データを取得する、追加学習データ取得部と、
を備え、
前記学習部は、
前記誤差が前記判定閾値以上の場合に、前記追加学習データにより前記車両学習モデルを更に学習し、
前記誤差が前記判定閾値より小さい場合に、前記車両学習モデルが出力した前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システム。
前記誤差評価部は、前記誤差として、前記模擬走行状態の車速と、前記実績データの車速の差を算出する、請求項１に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
前記車両学習モデルは、ニューラルネットワークで実現され、基準時刻の前記走行状態と、前記操作が学習データとして入力され、前記基準時刻より後の時刻の前記模擬走行状態を出力して、これを、前記後の時刻の前記走行実績である教師データと比較することで機械学習される、請求項１または２に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
前記走行状態は、前記車速に加え、アクセルペダル開度、ブレーキペダル開度、エンジン回転数、ギア状態、エンジン温度のいずれか、またはいずれかの組み合わせを含む、請求項１から３のいずれか一項に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。
車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットに関し、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法であって、
前記車両の実際の走行実績を基に、前記操作が入力されると、前記車両を模した前記走行状態である模擬走行状態を出力するように、車両学習モデルを機械学習し、
前記車両学習モデルが出力する前記模擬走行状態と、当該模擬走行状態に対応する前記操作を前記自動操縦ロボットに適用して前記車両を走行させたときの実績データと、を比較して、これらの誤差を算出し、当該誤差を判定閾値と比較し、
前記誤差が前記判定閾値以上の場合に、当該誤差が算出された前記模擬走行状態に対応する前記操作である誤差検出操作を抽出し、当該誤差検出操作を基にした関連操作を生成し、当該関連操作を前記自動操縦ロボットに適用して、前記車両学習モデルを追加学習するための追加学習データを取得し、
前記誤差が前記判定閾値以上の場合に、前記追加学習データにより前記車両学習モデルを更に学習し、
前記誤差が前記判定閾値より小さい場合に、前記車両学習モデルが出力した前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを強化学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法。