JP2024028024A

JP2024028024A - 強化学習補助装置、強化学習補助システム、及び強化学習補助方法

Info

Publication number: JP2024028024A
Application number: JP2022131327A
Authority: JP
Inventors: 直也松本; Naoya Matsumoto; 俊也高野; Toshiya Takano; 幸造伴野; Kozo Tomono
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2024-03-01

Abstract

【課題】学習シナリオの生成、及び学習シナリオの評価の少なくとも一方をより効率的に行える強化学習補助装置、強化学習補助システム、及び強化学習補助方法を提供する。【解決手段】本実施形態によれば、強化学習補助装置は、生成部と、予測部と、を備える。生成部は、学習モデルに対する学習データの単位となる学習シナリオを生成する。予測部は、学習シナリオを用いて学習した学習モデルにおいて、学習シナリオに対応し、学習シナリオと異なるテストシナリオに対する学習モデルの収束性を予測する。【選択図】図１

Description

本発明の実施形態は、強化学習補助装置、強化学習補助システム、及び強化学習補助方法に関する。

近年、モデルが複雑で、高度な制御が要求される分野のブレークスルー技術として、人工知能技術のひとつである強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｓＬｅａｒｎｉｎｇ）が注目されている。この強化学習を用いて、モータなどの制御を学習する学習モデルでは、制御対象に対して、操作量を与え、その結果得られた制御値から報酬値を計算し、高い報酬値が得られるように各状態に対する操作量を学習する。

また、空調やポンプ等の、あらかじめ運転パターンが決まっているモータなどを制御する際、想定される運転パターンを学習シナリオとして、学習モデルを学習することが知られている。

特開２０２０－３４９９４号公報

しかしながら、学習シナリオを用いる強化学習では、学習シナリオによって学習後の精度や収束に必要な学習回数が変化する。このため、様々な学習シナリオを試行して想定する運転パターンの通りに制御できる学習シナリオを見つける必要がある。このように、学習シナリオは無数にあるため、各学習シナリオを素早く評価し、短い時間で運動パターン通りに制御できる学習データを見つけることが望まれている。

ところが、学習シナリオの作成では、プログラムで数式を用いて作成するのが一般的である。このため、ユーザには理解しづらく、更には連続した時間に対応する目標値を設定する必要があるために、学習データの変更には時間がかかってしまう。また、強化学習を行う際には収束するまで学習を行う必要があり、収束するまでの学習回数が多くなる場合には、学習時間が長くなってしまい、学習シナリオの評価が困難となってしまう恐れがある。

このような課題を解決するため、本実施形態における課題は、学習シナリオの生成、及び学習シナリオの評価の少なくとも一方をより効率的に行える強化学習補助装置、強化学習補助システム、及び強化学習補助方法を提供することである。

本実施形態によれば、強化学習補助装置は、生成部と、予測部と、を備える。生成部は、学習モデルに対する学習データの単位となる学習シナリオを生成する。予測部は、学習シナリオを用いて学習した学習モデルにおいて、学習シナリオに対応し、学習シナリオと異なるテストシナリオに対する学習モデルの収束性を予測する。

学習シナリオの生成、及び学習シナリオの評価の少なくとも一方をより効率的に行える。

強化学習補助システムの構成例を示すブロック図。学習シナリオの一例を示す図。テストシナリオの一例を示す図。図３のテストシナリオに対する推論部の出力結果を示す図。収束予測部の演算経過を示す図。収束予測部の推論経過を示す図。学習シナリ作成用の表示画像の例。図７の学習シナリオを用いた場合の予測部の評価結果例を示す図。図７の学習シナリオに対する結果例を示す図で。テストシナリ作成用の表示画像の例を示す図。図９のテストシナリオに対する推論部の出力結果を示す図。テストシナリオを変更して学習シナリオを生成する過程例を示す図。テストシナリオから学習シナリオを生成する続きの過程例を示す図。強化学習補助システムの動作例を示すフローチャート。

以下、本発明の実施形態に係る強化学習補助装置、強化学習補助システム、及び強化学習補助方法について、図面を参照しながら詳細に説明する。なお、以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。また、本実施形態で参照する図面において、同一部分又は同様な機能を有する部分には同一の符号又は類似の符号を付し、その繰り返しの説明は省略する場合がある。また、図面の寸法比率は説明の都合上実際の比率とは異なる場合や、構成の一部が図面から省略される場合がある。

（一実施形態）
図１は、本実施形態に係る強化学習補助システム１の構成例を示すブロック図である。図１を用いて、強化学習補助システム１の構成を説明する。図１に示すように、本実施形態に係る強化学習補助システム１は、例えば強化学習に用いる学習シナリオの生成、及び評価が可能なシステムである。

本実施形態では、運転パターンに対応するデータをテストシナリオと称し、強化学習に用いる学習データの単位を学習シナリオと称する。学習シナリオは、例えばテストシナリオの特徴的な情報に対応しており、テストシナリオを再現する学習モデルを学習するために用いられる。

テストシナリオを学習した学習モデルはテストシナリオを再現することが可能である。しかし、テストシナリオを学習した学習モデルのテストシナリオに対する再現性が必ずしも最適ではないことが分かってきている。そこで、本実施形態では、例えばテストシナリオに対する再現性がより高い学習シナリオを生成する。或いは、例えば所定の収束条件に対する収束性のより高い学習シナリオを生成する。

図１に示すように、強化学習装置１００は、例えば、ＣＰＵ（ＣｅｎｓｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｓ）を含んで構成され、モータなど一定の運転パターン（テストシナリオ）が想定されている制御対象のより適した行動を、学習シナリオを用いた強化学習によって取得するための装置である。この強化学習装置１００は、環境部１１０、状態入力部１２０、学習部１３０、学習シナリオ取得部１４０、学習パラメータ記憶部１５０、及び学習パラメータ出力部１６０を備える。なお、強化学習装置１００の詳細は後述する。強化学習装置１００は、例えば、学習パラメータ記憶部１５０に記憶されるプログラムを実行することにより、各処理部を構成する。

強化学習補助装置２００は、例えば、ＣＰＵ（ＣｅｎｓｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｓ）を含んで構成され、様々なシナリオの作成、及びその評価が可能な装置である。強化学習補助装置２００は、評価部２１０、予測部２２０、作成部２３０、表示制御部２４０、表示部２５０、及び操作部２６０を備える。強化学習補助装置２００は、例えば、評価部２１０の評価用パラメータ記憶部２１２に記憶されるプログラムを実行することにより、各処理部を構成する。

評価部２１０は、作成部２３０が作成した学習シナリオを用いて強化学習装置１００で学習した学習モデルの収束過程における性能を評価する。この評価部２１０は、評価用パラメータ取得部２１１、評価用パラメータ記憶部２１２、評価環境部２１３、評価状態認識部２１４、評価目標認識部２１５、テストシナリオ記憶部２１６、推論部２１７、及び評価結果出力部２１８を有する。なお、評価部２１０の詳細も後述する。

予測部２２０は、学習モデルの収束過程における性能の情報を用いて、学習シナリオで学習する際の学習モデルの収束性、テストシナリオの再現性を予測する。予測部２２０は、評価結果記憶部２２１と、収束予測部２２２とを有する。

作成部２３０は、テストシナリオ、及びテストシナリオに対応する様々な学習シナリオの作成が可能である、この作成部２３０は、作図部２３１、及びシナリオ出力部２３２を有する。なお、本実施形態に係る作成部２３０が生成部に対応する。また作成部２３０の詳細も後述する。

表示制御部２４０は、強化学習補助装置２００が生成した各種のデータを画像として表示部２５０に表示させる。表示部２５０は、例えば、モニタであり、表示制御部２４０の制御に従い、各種のデータを画像として表示する。操作部２６０は、例えばマウスやキーボードで構成され、操作者の操作に応じた操作信号を、強化学習装置１００、及び強化学習補助装置２００に入力可能である。なお、表示部２５０と操作部２６０を一体化したタッチパネルとして構成してもよい。

（強化学習装置）
図２は、学習シナリオの一例を示す図である。横軸はステップ時間ｓであり、縦軸は制御値ωｒ（ｓ）である。この学習シナリオは、テストシナリオ（図３参照）に対応しており、例えばテストシナリオの加速領域、及び減速領域の情報を抽出して生成されている。

ここで、図２を参照しつつ、強化学習装置１００の詳細を説明する。強化学習装置１００は、学習シナリオを用いて、学習モデルを学習する。この強化学習装置１００では、学習モデルにおける学習の途中経過の情報を生成することが可能である。後述の強化学習補助装置２００では、この学習の途中経過の情報を用いて、学習シナリオを用いて学習した学習モデルの、収束性、及びテストシナリオに対する再現性が評価される。

環境部１１０は、例えば制御対象及び制御対象の情報を取得する機器を有する。本実施形態では、この環境部１１０は、制御対象の現在の状態ω（ｓ）、状態ω（ｓ）から学習部１３０の学習モデルで算出される行動推定Ｖ（ｓ）よって環境である制御対象を操作したことによる新たな状態ω（ｓ＋１）を生成可能である。例えば、本実施形態では、現在の状態ω（ｓ）が制御値に対応し、制御対象がモータであれば、現在の状態ω（ｓ）が現在のモータの回転速度であり、行動推定Ｖ（ｓ）が電圧であり、新たな状態ω（ｓ＋１）は、電圧を印可したことによる次の回転速度である。

環境部１１０は、制御対象から取得した現在の状態ω（ｓ）及び、この状態ω（ｓ）から学習部１３０の学習モデルで算出される行動推定Ｖ（ｓ）と、この行動推定Ｖ（ｓ）によって環境である制御対象を操作したことによる新たな状態ω（ｓ＋１）とを用いて報酬Ｒ（ｓ）を生成する。例えば、行動推定Ｖ（ｓ）に対する報酬Ｒ（ｓ）は、状態ω（ｓ＋１）と、図２で示す制御値ωｒ（ｓ＋１）と、に基づき算出される。例えば、報酬Ｒ（ｓ）は、状態ω（ｓ＋１）が目的とする制御値ωｒ（ｓ＋１）に近いほど、大きな値になるように設定される。なお、本実施形態では、一つの状態ω（ｓ）で説明するが、これに限定されない。状態ω（ｓ）は、複数種類であってもよい。

学習部１３０には、図２で示す制御値ωｒ（ｓ）が目標値として、時系列に目標認識部１２２から順にステップ時間ｓ毎に供給される。また、学習部１３０には、環境部１１０からステップ時間ｓにおける状態ω（ｓ）と即時報酬Ｒ（ｓ）が供給される。これにより、学習部１３０は、学習モデルを大きな報酬Ｒ（ｓ）が得られるように学習する。このような学習が繰り返し行われることにより、学習モデルによる制御対象の制御では、図２で示す制御値の時系列変動に対する再現性が向上する。つまり、学習モデルの学習が進むと、状態ω（ｓ）に対して状態ωｒ（ｓ＋１）に近づく行動推定Ｖ（ｓ）を出力するようになる。

より具体的には、環境部１１０は、モータなどの実機を動作させ、その動きをセンサやカメラで計測することで、制御対象に対する行動推定Ｖ（ｓ）によって変化した新たな状態ω（ｓ＋１）と、その結果の評価を行う報酬Ｒ（ｓ）を生成する。また、環境部１１０は、制御対象のモデルのシミュレータを用いて、シミュレーションにより、シミュレーションモデルを動作させ、制御対象に対する行動推定Ｖ（ｓ）によって変化した状態と、変化した新たな状態ω（ｓ＋１）と、その結果の評価を行う報酬Ｒ（ｓ）を生成してもよい。上述のように、制御対象がモータである場合には、例えば状態ω（ｓ）は、実測されるモータの回転速度であり、行動推定Ｖ（ｓ）は、モータに印可される電圧であり、制御値ωｒ（ｓ＋１）は、モータの目標回転速度である。

状態入力部１２０の学習シナリオ記憶部１２１は、例えば図２に示す制御値ωｒ（ｓ）の時系列データを学習シナリオとして記憶する。目標認識部１２２は、学習シナリオ記憶部１２１に記憶される学習シナリオデータからステップ時間ｓに対応する制御値ωｒ（ｓ）を目標値として認識し、学習部１３０に出力する。すなわち、目標認識部１２２は、学習シナリオデータに基づき、各ステップ時間ｓに対応する制御値ωｒ（ｓ）を時系列に学習部１３０に出力する。

学習部１３０は、学習機能を有し、上述のように、状態認識部１２３から供給される現在の状態ω（ｓ）と、環境部１１０から供給される報酬Ｒ（ｓ）を用いて、例えば強化学習であるＱ学習により、学習モデル（例えばニューラルネットワーク）を学習する。すなわち、この学習モデルは、状態ω（ｓ）を入力とし、行動推定Ｖ（ｓ）を出力する。

学習シナリオ取得部１４０は、強化学習補助装置２００のシナリオ出力部２３２から学習シナリオのデータを取得し、学習シナリオ記憶部１２１に出力する。学習パラメータ記憶部１５０は、学習部１３０により学習される学習モデルの各パラメータを、所定の周期毎に記憶する。この学習モデルのパラメータは、例えば、ニューラルネットワークの重み係数などの情報である。すなわち、学習パラメータ記憶部１５０は、学習モデルの所定回数毎の学習経過として、学習モデルのパラメータを時系列に記憶する。そして、学習パラメータ出力部１６０は、学習パラメータ記憶部１５０に記憶された学習モデルの各パラメータを学習回数に関連づけ、強化学習補助装置２００の評価用パラメータ取得部２１１に供給する。

（強化学習補助装置の評価部）
評価部２１０の評価用パラメータ取得部２１１は、学習パラメータ出力部１６０を介して、学習回数に関連づけられた学習モデルのパラメータを取得し、評価用パラメータ記憶部２１２に供給する。評価用パラメータ記憶部２１２は、学習経過として、学習回数に関連づけられた学習モデルのパラメータを記憶する。

推論部２１７は、評価用パラメータ記憶部２１２に記憶される学習モデルのパラメータを用いて、推論モデルを生成する。すなわち、この推論モデルは、制御モデルに対応する。上述のように、この推論モデルは、例えば状態ωｒ（ｓ）を入力とし、行動推定Ｖ（ｓ）を出力する。

図３は、テストシナリオの一例を示す図である。横軸はステップ時間ｓであり、縦軸は制御値ωｒ（ｓ）である。

ここで、図３を参照しつつ、評価部２１０の詳細を説明する。テストシナリオは、上述のように、例えば運転パターンに対応する。モータの場合、加速部分と、減速部分のパターンが重要視される場合がある。この場合、定速運転部分のデータは、学習には冗長となってしまう。このため、例えば図２で上述したように、加速部分と、減速部分とのデータを、学習シナリオとしている。一方で、制御モデルの評価は、運転パターンに対応させて行われる。このため、評価部２１０では、図３で示すように、実際の運転パターンに対応するテストシナリオを評価に用いる。テストシナリオに対する評価は、１周期分のデータで行われる。例えば図３では、１～３０ステップ時間（ｓ）が１周期分のデータとなる。

評価部２１０の評価環境部２１３は、現在の状態ω（ｓ）に対して推論部２１７で算出される行動推定Ｖ（ｓ）を入力として、次の状態ω（ｓ＋１）を生成する。そして、評価環境部２１３は、次の状態ω（ｓ＋１）を評価状態認識部２１４に出力に出力する。より具体的には、評価環境部２１３は、環境部１１０と同様に、モータなどの実機を動作させ、その動きをセンサやカメラで計測することで、制御対象に対する行動推定Ｖ（ｓ）によって変化した次の状態ω（ｓ＋１）を生成する。また、評価環境部２１３は、環境部１１０と同様に、制御対象のモデルのシミュレータを用いて、シミュレーションにより、モデルを動作させ、制御対象に対する行動推定Ｖ（ｓ）によって変化した次の状態ω（ｓ＋１）を生成してもよい。

評価状態認識部２１４は、上述のように評価環境部２１３から制御対象の次の状態ω（ｓ＋１）を取得し、制御対象の状態を認識し、推論部２１７に出力する。

評価目標認識部２１５は、テストシナリオ記憶部２１６に記憶されるテストシナリオデータ（図３参照）から時間に対応する制御値ωｒ（ｓ）を目標値として認識し、推論部２１７に出力する。テストシナリオ記憶部２１６は、例えば図３に示す制御値ωｒ（ｓ）（例え目標回転速度）の時系列データをテストシナリオとして記憶する。

上述のように、推論部２１７には、図３で示す制御値である制御値ωｒ（ｓ）が、時系列に評価目標認識部２１５から順にステップ毎に供給される。推論部２１７の推論モデル（制御モデル）は、状態ωｒ（ｓ）に応じて、ステップ時間ｓ毎に行動推定Ｖ（ｓ）を生成し、評価環境部２１３に出力する。

図４は、図３のテストシナリオに対する推論部２１７の出力結果を示す図である。横軸は時間であり、縦軸は制御値である。ラインＬ１０は、テストシナリオである。ラインＬ１２は、推論部２１７の制御モデルが出力した行動推定Ｖ（ｓ）に対して評価環境部２１３が出力した状態ω（ｓ＋１）である。例えば、制御対象がモータの場合には、ラインＬ１０はモータの目標回転速度に対応し、ラインＬ１２は評価環境部２１３が出力するモータの実回転速度に対応する。評価結果出力部２１８は、評価環境部２１３が出力した制御値に対応する状態ω（ｓ＋１）を、テストシナリオのステップ時間ｓに関連づけて、予測部２２０の評価結果記憶部２２０に出力する。

（強化学習補助装置の予測部）
予測部２２０の評価結果記憶部２２０は、学習モデルの学習回数毎のテストシナリオのステップ時間ｓに関連づけられた状態ω（ｓ＋１）を、記憶する。

図５は、収束予測部２２２の演算経過を示す図である。横軸は時間であり、縦軸は図４で示したラインＬ１０とラインＬ１２との差分値である。図５に示すように、収束予測部２２２は、テストシナリオの１周期分（例えば３０秒）のラインＬ１０とラインＬ１２との差分値を演算し、この差分値の絶対値の平均値である平均誤差を学習回数に対する評価結果として演算する。なお、収束予測部２２２が演算する評価結果は、平均誤差に限定されず、例えば最大誤差でもよい。

図６は、収束予測部２２２の推論経過を示す図である。横軸は学習回数であり、縦軸は平均誤差である。ラインＬ１４は、学習回数毎の評価結果である平均誤差の値である。収束予測部２２２は、学習回数毎の評価結果である平均誤差に基づいて、収束曲線Ｌ１６を生成する。収束予測部２２２は、収束曲線Ｌ１６の生成に例えば、最小二乗近似、スプライン補間、多重回帰分析、ニューラルネットワークなどの一般的なアルゴリズムを用いることが可能である。

収束予測部２２２は、収束曲線Ｌ１６に基づき、学習モデルの収束値を予測する。また、収束予測部２２２は、収束曲線Ｌ１６に基づき、所定の収束値（収束条件）、例えば０．２に達するまでの学習回数を予測する。なお、収束値が０に近いほど、その学習モデルのテストシナリオに対する再現性が高いことを示す。

このように、収束予測部２２２は、学習が収束する前の例えば学習回数が１００００回までの評価値を用いて、例えば学習モデルの収束状態での学習結果を予測することが可能である。これにより、学習シナリオの評価をより短い時間で行うことが可能となる。このため、後述するように、学習シナリオを操作者が生成する度に、より短い時間で、学習シナリオを評価することが可能となる。

（強化学習補助装置の作成部及び表示制御部）

作図部２３１は、表示制御部２４０を介してグラフィカルユーザーインターフェース（ＧＵＩ：ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を用いてテストシナリオ、及び学習シナリオを作成することが可能である。シナリオ出力部２３２は、作図部２３１が生成したテストシナリオ、及び学習シナリオを学習シナリオ記憶部１２１、及びテストシナリオ記憶部２１６に関連づけて記憶させる。

図７は、作図部２３１が生成した学習シナリ作成用の表示画像Ｍ８の例を示す図である。図７に示すように作図部２３１は、表示制御部２４０を介して、表示部２５０に学習シナリ用の表示画像Ｍ８を表示させることが可能である。学習シナリ用の表示画像Ｍ８は、学習シナリオＬ１８のステップ時間ｓ毎のデータを表示する。縦軸は制御値ωｒ（ｓ）であり、横軸はステップ時間ｓである。

操作者は、操作部２６０を介して、実行学習回数Ａ１０、評価周期Ａ１２、サンプリング周期Ａ１４、学習シナリオ時間Ａ１６、収束条件Ａ１８を入力可能である。また、学習開始ボタンＡ２０を指示すると、学習シナリオＬ１８の評価が開始される。実行学習回数Ａ１０は、学習シナリオＬ１８に対する学習回数である。例えば、３０ステップ有する学習シナリオＬ１８を用いた実行学習回数が１００００回ならば、３０００００ステップの学習が学習モデルに対して行われる。

評価周期Ａ１２は、学習回数に対する評価周期である。例えば５００回なら、５００回の学習毎に学習済みの学習モデルのパラメータを用いて、学習モデルの誤差などを評価する。サンプリング周期Ａ１４は、学習シナリオＬ１８をシナリオデータにする場合の各ステップ時間ｓの時間間隔である。例えば１秒なら、３０ステップ分のデータが生成される。同様に、例えば０．１秒なら、３００ステップ分のデータが生成される。

学習シナリオ時間Ａ１６は、学習シナリオＬ１８の１周期分の時間範囲である。例えば３０秒なら、３０秒分の学習シナリオＬ１８のデータが学習モデルの１回分の学習に用いられる。収束条件Ａ１８は、収束条件を設定する。例えば、０．２であれば、収束予測部２２２は、誤差が０．２に達するまでの学習回数を予測する。

また、作図部２３１は、各ポイントＰ１０を、操作部２６０の操作により移動させることで学習シナリオＬ１８の形状変更が可能である。作図部２３１は、移動させられた各ポイントＰ１０を、スプライン補間や、最小二乗近似補間などで接続し、学習シナリＬ１８を再生成する。このように、学習シナリオＬ１８を時間と制御値の２軸のＧＵＩを用いて作成可能となり、学習シナリオＬ１８の変更と、変更内容の把握がより容易となる。

次に、学習開始ボタンＡ２０を指示すると、学習シナリオＬ１８の評価が開始される。図８は、図７の学習シナリオＬ１８を用いた場合の予測部２２０の評価結果例を示す図である。

画面Ｍ１０、Ｍ１０ａ、Ｍ１２は、表示制御部２４０を介して表示部２５０に表示された画面例である。画面Ｍ１０は、上述したように収束予測部２２２の処理結果である誤差Ｌ１４と収束予測曲線Ｌ１６を表示する。画面Ｍ１０ａは、収束誤差に用いる誤差の演算方法を示す。

また、画面Ｍ１２は、収束予測部２２２の処理結果として、収束時の誤差値の見込値である収束誤差見込みと、誤差が収束条件Ａ１８（図７参照）に達するまでの学習回数見込みである。上述のように、収束誤差見込みが、学習シナリオＬ１８で学習した学習モデルのテストシナリオＬ１０（図４参照）に対す再現性を客観的な数値として示している。例えば、０であれば完全にテストシナリオＬ１０（図４参照）を再現出来ることを推定している。

このように、収束予測部２２２により収束する学習回数見込み、収束誤差見込みを予測し、表示させることにより、学習シナリオの評価をより短時間で行うことが可能となる。つまり、学習モデルの学習を途中で停止させても、学習モデルの収束性を推定可能となる。

これにより、このような結果をみた操作者は、各ポイントＰ１０を、操作部２６０の操作により移動させ新たな学習シナリＬ１８を再生成し、再評価することがより短時間で可能となる。このような操作を繰り返し、目的とする学習シナリオを生成することが可能となる。目的とする学習シナリオを生成した後には、例えば実行学習回数Ａ１０（図７参照）を、必要学習回数見込みを参考に設定し、最終的な学習モデルを強化学習装置１００に学習させることができる。

図９は、図７の学習シナリオＬ１８に対する結果例を示す図である。画面Ｍ１４、Ｍ１６、Ｍ１８は、作図部２３１が表示制御部２４０を介して表示部２５０に表示させた画面例である。画面Ｍ１４は、図７の学習シナリオＬ１８に対する推論部２１７の出力結果を示す図である。横軸は時間であり、縦軸は制御値である。ラインＬ２０は、テストシナリオである。ラインＬ２２は、学習シナリオＬ１８により学習した推論部２１７の学習モデルが、出力した行動値Ｖ（ｓ）に対して、評価環境部２１３が出力した制御値に対応する状態ω（ｓ＋１）である。横軸はステップ時間ｓであり、縦軸は制御値ωｒ（ｓ）である。

画面Ｍ１６は、収束予測部２２２の演算経過を示す図である。横軸はステップ時間ｓであり、縦軸はＭ１４で示したラインＬ２０とラインＬ２２との差分値である。画面Ｍ１８は、実行学習回数Ａ１０（図７参照）を示す画像である。このような画像を提示することにより、学習シナリオＬ１８を用いた場合の、学習モデルの性能を判断することが容易となる。

図１０は、作図部２３１が表示制御部２４０を介して生成したテストシナリ作成用の表示画像Ｍ１８の例を示す図である。図１０に示すように作図部２３１は、表示制御部２４０を介して、表示部２５０にテストシナリ用の表示画像Ｍ１８を表示させることが可能である。テストシナリ用の表示画像Ｍ１８は、テストシナリオＬ２０のステップ時間ｓ毎のデータを表示する。縦軸は制御値ωｒ（ｓ）であり、横軸はステップ時間ｓである。

操作者は、操作部２６０を介して、テストシナリオ期間Ａ２２を設定する。これにより、作図部２３１は、テストシナリオ期間Ａ２２に応じたテストシナリオＬ２０を生成可能となる。

また、作図部２３１は、各ポイントＰ１２を、操作部２６０の操作により移動させることが可能である。作図部２３１は、移動させられた各ポイントＰ１２を、スプライン補間や、最小二乗近似補間などで接続し、テストシナリオＬ２０を再生成する。このように、テストシナリオＬ２０を時間と制御値の２軸のＧＵＩを用いて作成可能となり、テストシナリオＬ２０の変更と、変更内容の把握がより容易となる。

図１１は、図９のテストシナリオＬ２０に対する推論部２１７の出力結果を示す図である。すなわち、テストシナリオＬ２０自体を学習シナリオとして１００００回学習した後の評価結果を示す。図１１において、学習回数はテストシナリオＬ２０自体を用いて学習した学習モデルの学習回数を示し、時間は図１０の横軸のステップ時間ｓに対応する。評価結果は、テストシナリオＬ２０の各時間に対する誤差を示し、シナリオデータは、テストシナリオＬ２０の各時間に対するデータ値を示す。

例えば、操作者は、このような分析結果を参照しつつ、テストシナリオＬ２０を変更して学習シナリオを生成することが可能である。例えば、図１１を参照すると、テストシナリオＬ２０の一定値である０、１０に対する誤差が大きく、収束性を悪くしていることが把握可能となる。

図１２は、テストシナリオＬ２０を変更して学習シナリオを生成する過程例を示す図である。操作者が学習シナリ作成用の表示画像（図７参照）を用いて、テストシナリオＬ２０を変更して学習シナリオＬ２３を生成する過程を示している。テストシナリオＬ２０では、一定値である０、１０に対する誤差が大きく、収束性を悪くしているので、マークＭ２０の範囲を中心とした学習シナリオＬ２３を生成した例である。学習シナリオＬ２３に対する対する評価も予測部２２０の評価結果例を示す図（図８参照）で容易に可能となる。これにより、例えば、操作者は、テストシナリオＬ２０の直線領域を減らすことで、収束性が上がることを客観的に短時間で把握可能となる。

図１３は、学習シナリオＬ２３を変更して学習シナリオＬ１８（図７参照）を生成する過程例を示す図である。操作者が学習シナリ作成用の表示画像（図７参照）を用いて、学習シナリオＬ２３のポイントＰ１２を操作し、学習シナリオＬ２４を生成している。学習シナリオＬ２４に対する対する評価も予測部２２０の評価結果例を示す図（図８参照）で容易に可能となる。これにより、例えば、操作者は学習シナリオＬ２３の直線領域を更に減らすことで、更に収束性が上がることを客観的に短時間で把握可能となる。そして、更に操作者は、学習シナリオＬ２４を連続的にコピーして図７で示す学習シナリオＬ１８を生成可能となる。或いは、操作者は、学習シナリオＬ２４に対して、学習シナリオ期間Ａ１６を１０とし、実行学習回数Ａ１０を３００００とすることで、図７の学習シナリオＬ１８と等価の学習シナリオを生成可能となる。このように、学習シナリオを時間と制御値の２軸のＧＵＩを用いて作成可能となり、学習シナリオデータの変更と、変更内容の把握がより容易となるので、目的とする学習シナリオＬ１８の生成もより短時間で可能となる。

以上が、本実施形態に係る構成の説明であるが、以下に図１４を用いて制御処理例を説明する。図１４は、強化学習補助システム１の動作例を示すフローチャートである。図１４に示すように、強化学習補助装置２００は、所定のＧＵＩ（図７、１０参照）を用いてテストシナリオと、テストシナリオに対応する学習シナリオとの作成を行う（ステップＳ１）。

次に、強化学習装置１００は、強化学習補助装置２００の生成した学習シナリオに基づき、学習モデルの学習を行う（ステップＳ２）。強化学習装置１００は、指定の実行学習回数Ａ１０（図７参照）が終了したか否かを判定する（ステップＳ３）、終了していないと判定する場合（ステップＳ３のＮｏ）、ステップＳ２からの処理をくり返す。この間に強化学習装置１００は、評価周期Ａ１２（図７参照）にしたがった周期で学習モデルのパラメータを記憶する

一方で、強化学習装置１００は、終了していると判定する場合（ステップＳ３のＹｅｓ）、強化学習装置１００は、周期的に記憶した学習モデルのパラメータを、強化学習補助装置２００に出力する。

次に、強化学習補助装置２００は、周期的に記憶した学習モデルのパラメータを用いて、テストシナリオに対する評価として、周期別の平均誤差を生成する（図６参照）（ステップＳ４）。

次に、強化学習補助装置２００は、周期別の平均誤差を用いて収束性を予測する（図６参照）（ステップＳ５）。続けて、強化学習補助装置２００は、表示部２５０に収束性の予測に関する情報（図８参照）を表示させ、処理を終了する（ステップＳ６）。

以上説明したように、本実施形態によれば、作図部２３１が、学習モデルに対する学習データの単位となる学習シナリオＬ１８を生成し、予測部２２０が、学習シナリオＬ１８を用いて学習した学習モデルにおいて、学習シナリオＬ１８に対応し、学習シナリオＬ１８と異なるテストシナリオＬ２０に対する学習モデルの収束性を予測することとした。これにより、運転パターに対応するテストシナリオＬ２０と異なる学習シナリオＬ１８のテストシナリオＬ２０に対する評価をより短時間で可能となる。

また、作図部２３１が生成した学習シナリオＬ１８、及びテストシナリオＬ２０を、表示制御部２４０を介して表示部２５０に表示させ、操作部２６０を介して、表示部２５０に表示されるシナリオＬ１８、Ｌ２０の形状などを変更し、再生成することとした。これにより、シナリオＬ１８、Ｌ２０の変更の状態を観察しながら、シナリオＬ１８、Ｌ２０の再生成が可能となる。

また、予測部２２０が、学習シナリオＬ１８を用いた学習途中の学習モデルのテストシナリオＬ２０に対する評価値により、所定の収束値を満たす学習回数と、テストシナリオＬ２０に対する再現性を数値化することとした。これにより、学習シナリオＬ１８を用いた学習モデルが収束する前の段階で、学習シナリオＬ１８の評価を行うことが可能となり、より短時間で客観的な評価の伴う学習シナリオＬ１８の再生成が可能となる。

以上、いくつかの実施形態を説明したが、これらの実施形態は、例としてのみ提示したものであり、発明の範囲を限定することを意図したものではない。本明細書で説明した新規な装置、方法及びプログラムは、その他の様々な形態で実施することができる。また、本明細書で説明した装置、方法及びプログラムの形態に対し、発明の要旨を逸脱しない範囲内で、種々の省略、置換、変更を行うことができる。

１：強化学習補助システム、１００：強化学習装置、２００：強化学習補助装置、２１７：推論部、２２０：予測部、２３０：作成部（生成部）、２４０：表示制御部、２５０：表示部、２６０：操作部、Ｌ１０、Ｌ２０：テストシナリオ、Ｌ１８、Ｌ２３、Ｌ２４：学習シナリオ。

Claims

学習モデルに対する学習データの単位となる学習シナリオを生成する生成部と、
前記学習シナリオを用いて学習した前記学習モデルにおいて、前記学習シナリオに対応し、前記学習シナリオと異なるテストシナリオに対する前記学習モデルの収束性を予測する予測部と、
を備える、強化学習補助装置。
前記学習シナリオを表示部に表示させる表示制御部と、
前記表示部に表示される前記学習シナリオの形状を変更する操作を行うことが可能な操作部と、
を更に備え、
前記予測部は、前記変更された前記学習シナリオを用いた前記学習モデルの前記テストシナリオに対する収束性を予測する、請求項１に記載の強化学習補助装置。
前記表示制御部は、前記テストシナリオを前記表示部に表示させ、
前記操作部は、前記表示部に表示される前記テストシナリオの周期及び形状の少なくともいずれかを変更する操作を行うことが可能である、請求項２に記載の強化学習補助装置。
前記予測部は、前記テストシナリオに対する前記学習モデルの再現性を前記収束性として予測する、請求項３に記載の強化学習補助装置。
前記予測部は、前記学習モデルの所定の収束条件に達する学習回数を前記収束性として予測する、請求項４に強化学習補助装置。
前記学習シナリオ、及び前記テストシナリオは、時系列な制御値のデータであり、
前記予測部は、前記学習モデルにより制御される制御対象が時系列に出力する制御値と、前記テストシナリオの時系列な制御値との誤差を用いて前記学習モデルの前記収束性を予測し、
前記再現性は、前記誤差が小さくなるに従いが高くなる、請求項５に強化学習補助装置。
前記学習シナリオを用いた前記学習モデルの学習途中の学習回数と、学習回数に対応する前記学習モデルのパラメータを取得する評価用パラメータ取得部と、
前記学習途中のパラメータを用いた前記学習モデルに対応する推論モデルを生成する推論部と、を更に備え、
前記予測部は、前記推論モデルの前記テストシナリオに対する出力値を用いて、前記学習モデルの前記収束性を予測する、請求項６に強化学習補助装置。
前記学習モデルの学習を終了させる学習回数である実行学習回数と、前記実行学習回数が終了するまでの学習回数の間隔である評価周期と、にしたがい、
前記推論部は、前記実行学習回数が終了するまでの前記学習モデルに対応する複数の推論モデルを生成し、
前記予測部は、前記複数の推論モデルの前記テストシナリオに対する出力値を用いて、前記学習モデルの前記収束性を予測する、請求項７に強化学習補助装置。
前記生成部は、前記学習シナリオに設定されたサンプリング周期でサンプリングし、前記学習シナリオのデータを再生成する、請求項８に記載の強化学習補助装置。
前記表示制御部は、前記テストシナリオに対する収束性に関する情報を、図表化して前記表示部に表示させる、請求項９に記載の強化学習補助装置。
前記表示制御部は、前記評価周期毎の評価結果として、前記推論モデルの前記テストシナリオに対する出力値と、前記テストシナリオの値との平均誤差又は最大誤差を前記表示部に表示する、請求項９に記載の強化学習補助装置。
前記表示制御部は、前記テストシナリオの時系列データ、及び、前記推論モデルの前記テストシナリオに対する出力値と、前記テストシナリオの値との誤差の時系列データを前記表示部に表示する、請求項１１に記載の強化学習補助装置。
前記操作部は、
前記表示部における画面の位置に対応する操作信号を入力可能である、請求項１２に記載の強化学習補助装置。
前記操作部は、前記表示部に表示される前記学習シナリオの作図、前記実行学習回数、前記評価周期、前記学習シナリオのサンプリング周期、及び学習シナリオの一周期の時間、予想部で収束の判断に用いる許容誤差の条件の少なくともいずれかを前記表示部の画面位置に対応する操作信号により入力可能である、請求項１３に記載の強化学習補助装置。
請求項１に記載の強化学習補助装置と、
前記学習シナリオを用いた前記学習モデルの学習を行う強化学習装置と、
を備え、
前記学習モデルは、前記学習シナリオを用いて、現在の状態に対する行動を学習している、強化学習補助システム。
学習モデルに対する学習データの単位となる学習シナリオを生成する生成工程と、
前記学習シナリオを用いて学習した前記学習モデルにおいて、前記学習シナリオに対応し、前記学習シナリオと異なるテストシナリオに対する前記学習モデルの収束性を予測する予測工程と、
を備える、強化学習補助方法。