JP2020056737A - 自動操縦ロボットの制御装置及び制御方法 - Google Patents
自動操縦ロボットの制御装置及び制御方法 Download PDFInfo
- Publication number
- JP2020056737A JP2020056737A JP2018188766A JP2018188766A JP2020056737A JP 2020056737 A JP2020056737 A JP 2020056737A JP 2018188766 A JP2018188766 A JP 2018188766A JP 2018188766 A JP2018188766 A JP 2018188766A JP 2020056737 A JP2020056737 A JP 2020056737A
- Authority
- JP
- Japan
- Prior art keywords
- time
- vehicle
- learning
- value
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
Description
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
これに対し、特許文献1には、車速追従性を高め、事前に行う設定を容易にすることを目的とした、車両速度制御装置が開示されている。
特許文献1の車両速度制御装置は、例えばPID制御則等の、既知のフィードバック制御則に基づいている。
特許文献1のような、フィードバック制御に基づく指令車速への追従制御においては、指令車速に追従させつつ、燃費や排ガス性能をも同時に考慮した車両の操作、例えばアクセルペダルやブレーキペダルの操作量を計算することは、容易ではない。すなわち、燃費や排ガス性能を適切に考慮できないために、指令車速に追従させようとするあまり、例えばアクセルペダルやブレーキペダルを大きく操作したり、小刻みな操作を繰り返したりすることがある。この場合には、車両が備える本来の燃費や排ガス性能よりも、悪い性能が測定される可能性がある。
本実施形態における自動操縦ロボットの制御装置は、車両に搭載されて車両を走行させる自動操縦ロボットを、車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車両の走行状態を取得する走行状態取得部と、第1の時刻における走行状態を基に、第1学習モデルにより、第1の時刻より後の車両の操作の内容を推論する操作内容推論部と、操作の内容に基づき自動操縦ロボットを制御する車両操作制御部と、を備え、走行状態は、車両において検出された車速と、走行状態が取得された時刻における指令車速を含み、第1学習モデルは、操作の内容に基づいた自動操縦ロボットの操作の後の、第1の時刻より後の第2の時刻における走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
制御装置10は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置10は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両1を走行制御する。より詳細には、制御装置10は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット4の制御を行うための制御信号が生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
これら制御装置10の構成要素のうち、走行状態取得部22、車両操作制御部23、操作内容推論部31、報酬計算部32、及び強化学習部33は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、指令車速記憶部21及び学習用データ記憶部34は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
すなわち、制御装置10は大別して、強化学習時における操作の内容の学習と、性能測定のために車両を走行制御させる際における操作の内容の推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作の内容の学習時における、制御装置10の各構成要素の説明をした後に、車両の性能測定に際して操作の内容を推論する場合での各構成要素の挙動について説明する。
図2においては、各構成要素が太線と細線の2種類の矢印で結ばれて、データや処理の流れが示されている。車両の性能測定に際して操作の内容を推論する場合でのデータや処理の流れは、太線により示されている。操作の内容の学習時におけるデータや処理の流れは、太線と細線の双方の矢印により示されている。
指令車速記憶部21には、モードに関する情報に基づいて生成された、指令車速が記憶されている。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速記憶部21には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。
走行状態としては、前回の走行状態取得時刻からのアクセルペダル操作の、ドライブロボット4の操作実績中の操作量(以下、アクセルペダル検出量と呼称する)、前回の走行状態取得時刻からのブレーキペダル操作の、ドライブロボット4の操作実績中の操作量(以下、ブレーキペダル検出量と呼称する)、車両2において検出されたエンジン回転数(以下、エンジン回転数検出量と呼称する)、車両2において検出された車速(以下、検出車速と呼称する)を含む。
走行状態は、更に、当該走行状態が取得された時刻において、車両2が実現すべき指令車速を含む。
走行状態の各々は、後述する機械学習器を学習させて学習モデル(第1学習モデル40)を生成する際の入力として主に使用される。このため、走行状態の各々に関し、走行状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。
例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両2の状態を実際に観測、計測することにより取得される走行状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Tobsとすると、観測データ参照時間Tobsの系列として、複数の値を有していてもよい。
また、上記のような観測データとは異なり、指令車速記憶部21に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Trefとすると、指令車速参照時間Trefの系列として、複数の値を有していてもよい。
本実施形態においては、走行状態の各々は、複数の値により実現されている。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
学習部30の操作内容推論部31は、機械学習器を備えている。この機械学習器は、強化学習されることにより、第1学習モデル40が生成される。第1学習モデル40は、車両2の操作の内容を推論するのに使用される。すなわち、機械学習器は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル40を生成するものである。
学習部30は、この機械学習器を強化学習するに際し、強化学習に必要な入力となる、走行データを蓄積する。制御装置10が、学習がまだ終了していない、学習途中の機械学習器によって推論された操作の内容によって、一連のデータ収集を行う際における時間単位であるエピソードごとに車両2を走行制御することにより、走行データが蓄積される。この走行データにより機械学習器を強化学習した後に、この出力となる操作の内容を用いて再度走行データを蓄積し、機械学習器を再度学習する。このように、機械学習器を繰り返し更新することにより、最終的に強化学習された、学習済みの第1学習モデル40が生成される。
以下、説明を簡単にするため、操作内容推論部31が備えている機械学習器と、これが学習されて生成される学習モデルをともに、第1学習モデル40と呼称する。
ドライブロボット制御部20は、後述するように、ドライブロボット4を制御する制御信号を、ドライブロボット4へと、所定の第2の時間間隔をおいて送信する。この、制御信号の送信間隔を制御周期Tsとすると、ステップ周期Tstepは、制御周期Tsと同等であってもよいし、制御周期Tsよりも大きな値であってもよい。ステップ周期Tstepが制御周期Tsよりも大きな値である場合には、第1学習モデル40は、一度の推論により、ステップ周期Tstepに含まれる複数の制御周期Tsに相当する、複数の、車両2の操作の内容を出力する。
本実施形態においては、操作内容推論部31は、第1学習モデル40によって、第1の時刻からステップ周期Tstep後までの時間範囲内の、複数の制御周期Tsに相当する複数の時刻における操作の内容を推論する。
このようにした場合においては、第1学習モデル40は、実際に車両2が操作されるステップ周期Tstep後までの操作の内容を推測するに際し、ステップ周期Tstepよりも更に後の時刻における車両2の操作の内容を推測するため、将来の状況を見越した推測をするようになる可能性がある。
本実施形態においては、第1学習モデル40は、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第1学習モデル40は、入力層41、中間層42、及び出力層43を備えている。
図3においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
既に説明したように、各走行状態sは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、走行状態取得部22から受信した、対応する走行状態sの値が格納される。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
既に説明したように、各操作の内容aは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、出力ノードが設けられている。
第1学習モデル40の具体的な学習については、後に説明する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の、第1の時刻よりも後の第2の時刻における走行状態を再度取得する。
操作内容推論部31は、第1の時刻における走行状態st、これに対して推論され実際に実行された操作の内容at、及び第2の時刻における走行状態st+1を、次に説明する報酬計算部32に送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬を計算する。後述する強化学習部33は、この報酬を基に、操作の内容atがどの程度適切であったかを示す行動価値を計算し、第1学習モデル40は、この行動価値が高くなるような操作の内容aを出力するように、強化学習が行われる。
報酬計算部32によって計算された報酬は、操作内容推論部31に送信されて操作内容推論部31により受信され、これを受けて操作内容推論部31は、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1と、及び受信した報酬の組み合わせを、学習用データ記憶部34へ送信し、記憶する。
燃費は、例えばガソリンや軽油などの燃料の、単位容量当たりの走行距離、または、一定の距離をどれだけの燃料で走行できるかを示す指標である。
排ガス性能は、排気ガスに含まれる、一酸化炭素、窒素酸化物、炭化水素類、黒煙等の大気汚染物質の濃度が、一定の基準以下であるか否かを示す指標である。
これら燃費や排ガス性能は、車両2の操作という観点では、アクセルペダル2cとブレーキペダル2dの操作が関連する。すなわち、報酬は、アクセルペダル2cとブレーキペダル2dの検出量に基づいて計算されるのが適切である。
ここで、ws、wAP、wBPは、それぞれ、指令車速報酬要素rs、アクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPに対応した重みである。
この場合においては、操作の内容atによって検出車速が指令車速に十分に追従できている場合においては、検出車速と指令車速の差分の絶対値は第1閾値以下の値となり、指令車速報酬要素rsの値が大きくなる。逆に、検出車速が指令車速に十分に追従できていない場合においては、検出車速と指令車速の差分の絶対値は第1閾値よりも大きな値となり、指令車速報酬要素rsの値が小さくなる。
このように、操作の内容atに基づいたドライブロボット4の操作の後の、第2の時刻における検出車速と指令車速との差が小さいほど値が大きくなるように設定された指令車速報酬要素rs(第2要素)が計算され、指令車速報酬要素rsを基に報酬rが計算されている。
この場合においては、操作の内容atにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第2閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容atにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第2閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
この場合においては、操作の内容atにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第3閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容atにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第3閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
この場合においては、操作の内容atにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第4閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容atにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第4閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
この場合においては、操作の内容atにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第5閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容atにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第5閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
ここで、報酬rは、第2の時刻における走行状態st+1に対して計算されたものであるから、以降、報酬rt+1と記載する。
学習用データ記憶部34は、操作内容推論部31から送信された、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1、及び報酬rt+1の組み合わせを受信して、記憶する。
この組み合わせは、走行データとして、第1学習モデル40の強化学習に使用される。
学習用データ記憶部34に、強化学習に十分な量の走行データが蓄積されると、次に説明する強化学習部33により強化学習が実行される。
まず、第1学習モデル40の学習について説明する。
行動価値関数Q(st、at)は、第1の時刻における走行状態stにおいて操作の内容atを実行した際に、以降の時刻において最終的に得られると考えられる収益、すなわち時間割引報酬の和の期待値を表す。maxQ(st+1、a)は、第2の時刻においてとり得る操作の内容aに対する行動価値関数Qの最大値であり、これに割引率γを乗算して報酬rt+1を加算した値は、第1の時刻において操作の内容atを実行し、報酬rt+1を受け取った後の、すなわち第2の時刻における行動価値である。この、第2の時刻における行動価値と、第1の時刻における行動価値Q(st、at)の差分であるTD(Temporal Difference)誤差に対し、学習率αを乗算して、元々の行動価値関数Q(st、at)に加算することにより、行動価値関数Q(st、at)を更新する。
すなわち、上記の数式2は、行動価値関数Q(st、at)の更新式であり、行動価値関数Q(st、at)は随時、更新される。
このように、強化学習部33は、第1学習モデル40の学習と、行動価値関数Q(st、at)の更新を、並行して、例えば交互に繰り返すことにより、実行する。
本実施形態においては、μ(st)を、第1学習モデル40に走行状態stを入力としたときの出力関数(すなわち操作の内容at)としたときに、「−Q(st、μ(st))」の値を損失関数とし、これをできるだけ小さくする操作の内容atを出力するように、第1学習モデル40を学習させる。すなわち、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、強化学習部33は第1学習モデル40を学習させる。
本実施形態においては、第2学習モデル50は、第1学習モデル40と同様に、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第2学習モデル50は、入力層51、中間層52、及び出力層53を備えている。
図4においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
第1学習モデル40と同様に、各走行状態sは、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
また、各操作の内容aも、第1学習モデル40と同様に、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、学習用データ記憶部34から受信した、第1の時刻における走行状態stと、操作の内容atの値が格納される。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
第2学習モデル50は、次式を損失関数として、これをできるだけ小さくするように学習される。
第2学習モデル50においても、第1学習モデル40と同様に、誤差逆伝搬法、確率的勾配降下法等により、数式3として示された損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、第2学習モデル50は学習される。
また、第1学習モデル40は、報酬rt+1を基に操作の内容atを評価して操作の内容atの評価値Q(st、at)を計算する第2学習モデル50によって計算された、評価値Q(st、at)を基に、評価値Q(st、at)がより高い操作の内容を推論するように学習されている。
更に、第2学習モデル50は、第1学習モデル40により出力された操作の内容atを入力とし、報酬rt+1が大きいほど高い評価値Q(st、at)を出力するように学習され、これら第1学習モデル40と第2学習モデルの学習50が繰り返されることにより、第1学習モデル40と第2学習モデルの学習50は強化学習されている。
蓄積された走行データを基に、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、報酬rt+1を基に、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習する。
この学習後の第2学習モデル50を用いて、これが出力する評価値Q(st、at)が大きな操作の内容atを出力するように、第1学習モデル40を学習する。
これにより、第1学習モデル40が出力する操作の内容atが変化するため、再度走行データを蓄積する。
このように、走行データの蓄積と、第1学習モデル40及び第2学習モデル50の学習を繰り返すことで、第1学習モデル40及び第2学習モデル50の学習が完了する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
この第1学習モデル40は、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように計算された報酬rを基に、強化学習されている、学習済みのモデルである。
より詳細には、操作内容推論部31が、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、第1学習モデル40は、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
本ドライブロボット4の制御方法は、車両2に搭載されて車両2を走行させるドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する、ドライブロボット4の制御方法であって、車両2の走行状態sを取得し、走行状態sは、車両2において検出された車速と、走行状態sが取得された時刻における指令車速を含み、第1の時刻から、第1の時刻より後の車両2の操作の内容aを推論する第1学習モデル40であって、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように報酬rを計算し、報酬rを基に強化学習された第1学習モデル40により、第1の時刻における走行状態sを基に、車両の操作の内容aを推論し、操作の内容aに基づきドライブロボット4を制御する。
まず、図5、図6を用いて、操作の内容の学習時における動作を説明する。
その後、図6に示される手順に従い、車両2の走行データを収集する(ステップS5)。
エピソードが開始されると(ステップS21)、当該エピソードが開始された時点における、車両2の初期状態を観測する(ステップS23)。エピソードは、車両2が走行制御されている途中において開始される場合もあるため、エピソードの開始時における車両2の初期状態は、車両2が停止している状態はもちろん、走行中の状態をも含み得る。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
より詳細には、操作内容推論部31は、走行状態sを、第1学習モデル40の入力層41の、各走行状態sに対応する入力ノードに入力する。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
出力層43においても、中間層42の各々と同様な演算が行われ、出力層43に備えられた各出力ノードに演算結果、すなわち操作の内容aが格納される。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS23と同様な要領で、再度取得する。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬rt+1を計算して、操作内容推論部31に送信する。
操作内容推論部31は、報酬rt+1を受信する(ステップS27)。
操作内容推論部31は、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1と、及び受信した報酬rt+1の組み合わせを、学習用データ記憶部34へ送信し、記憶する(ステップS29)。
エピソードが終了していないと判定した場合には(ステップS31のNo)、第2の時刻を第1の時刻とし、第2の時刻における走行状態st+1を第1の時刻における走行状態stと更新したうえで、ステップS25へ遷移し、この新たな第1の時刻における操作の内容aの推論を行う。このように、各時刻において、操作の内容aの推論、推論した操作の内容aを実行した後の状態の取得、これに基づく報酬の計算を繰り返すことにより、制御装置10は、走行データを学習用データ記憶部34に蓄積する。
まず、蓄積された走行データを基に、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習する。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
出力層53においても、中間層52の各々と同様な演算が行われ、出力層53に備えられた出力ノードに演算結果、すなわち行動価値関数Q(st、at)の値が格納される。
強化学習部33は、「−Q(st、μ(st))」の値を損失関数とし、これをできるだけ小さくする操作の内容atを出力するように、第1学習モデル40を学習させる。すなわち、第1学習モデル40は、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって学習される。
学習が終了していないと判定された場合には(ステップS9のNo)、ステップS5へ遷移する。すなわち、制御装置10は走行データを更に収集し、これを用いた第1学習モデル40と第2学習モデル50の更新を繰り返す。
学習が終了したと判定された場合には(ステップS9のYes)、学習処理を終了する(ステップS11)。
走行状態sの観測は、次のように行われる。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
より詳細には、操作内容推論部31は、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS53と同様な要領で、再度取得する(ステップS57)。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
走行が終了していないと判定された場合には(ステップS59のNo)、ステップS55へ遷移する。すなわち、制御装置10は、ステップS57で取得した走行状態sを基にした操作の内容aの推論と、更なる走行状態sの観測を繰り返す。
走行が終了したと判定された場合には(ステップS59のYes)、走行処理を終了する(ステップS61)。
上記のような構成によれば、車両2の操作の内容atを推論する操作内容推論部31において、第1学習モデル40は、燃費と排ガス性能がより高い操作の内容atであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。したがって、操作内容推論部31は、燃費や排ガス性能が考慮された操作の内容atを推論することができるため、ドライブロボット4に、燃費や排ガス性能を考慮して車両2を操作させることができる。
また、第1学習モデル40が操作の内容を推論するに際し基づく、車両2の走行状態stは、走行状態stが取得された時刻における指令車速を含むため、指令車速に高精度で追従するような操作の内容atを推論可能である。
したがって、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置10を提供可能である。
これに対し、本実施形態においては、操作の内容aに関して燃費や排ガス性能が良好か否かの程度を明確な値として有する報酬rを基に、燃費や排ガス性能が良好な操作の内容aを推論するように、第1学習モデル40が強化学習されている。すなわち、本実施形態においては、第1学習モデル40は強化学習により学習されているため、燃費や排ガス性能を向上させることを明示的な目標として、第1学習モデル40が操作の内容aを推論することができる。このため、教師あり学習等の他の機械学習を適用した形態と比較しても、より良好な燃費や排ガス性能となるような操作の内容aを推論し得る。
上記のような構成によれば、車両2の操作において、燃費や排ガス性能と密接に関連するアクセルペダル2cとブレーキペダル2dの検出量を走行状態sに含めているため、適切に報酬rを計算し、結果として、第1学習モデル40によって適切に操作の内容aを推論することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、燃費や排ガス性能が良好であると考えられる、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さい場合に、第1要素rAP、rBPの値が小さくなるように計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量は、これら検出量を表現した関数の一階微分または二階微分の値に密接に関連する。すなわち、検出量を表現した関数の一階微分または二階微分の値を基に第1要素rAP、rBPを計算することにより、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が小さく燃費や排ガス性能が良好であると考えられる。この場合には、第1要素rAP、rBPが正の値となるように計算される。また、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以上であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が大きく燃費や排ガス性能が良好ではないと考えられる。この場合には、第1要素rAP、rBPが負の値となるように計算される。
このように、燃費や排ガス性能が良好である場合に値が大きくなるように第1要素rAP、rBPが計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、検出車速と指令車速との差が小さいほど値が大きくなるように第2要素rsが計算されるため、指令車速への追従性が高いほど、第2要素rsが大きな値を有し得る。報酬rt+1は、このような第2要素rsを基に計算されているため、指令車速に高い精度で追従させるように車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、一度の推論で複数の操作の内容を推論するため、操作間隔を推論に要する時間よりも短くすることができる。このため、緻密な操作が可能となる。
また、推論により、実際には使用されないほど将来の操作の内容をも推論することができる。この場合においては、将来を見越した操作の内容aを推論することができるため、操作の内容aの精度が向上し、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
上記のような構成によれば、報酬rt+1を基にした評価値Q(st、at)の計算を、関数近似器としての第2学習モデル50によって計算している。このため、評価値Q(st、at)の計算が容易となる。
上記のような構成によれば、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習し、この学習後の第2学習モデル50を用いて、これが出力する評価値Q(st、at)が大きくなるように、第1学習モデル40を学習することを繰り返して、第1学習モデル40及び第2学習モデル50を学習させることができる。したがって、第1学習モデル40及び第2学習モデル50を効果的に学習させることができる。
次に、図8を用いて、上記実施形態として示したドライブロボットの制御装置及び制御方法の変形例を説明する。図8は、本変形例におけるドライブロボットの制御装置のブロック図である。本変形例におけるドライブロボット4の制御装置60は、上記実施形態のドライブロボット4の制御装置10とは、ドライブロボット制御部61が、学習部30の、学習が終了した時点における、操作内容推論部31及び第1学習モデル40と同じ構成の、操作内容推論部31A及び第1学習モデル40Aを備えている点が異なっている。
実際に車両2の性能測定に際して操作の内容aを推論する場合においては、ドライブロボット制御部61内の操作内容推論部31Aが、第1学習モデル40Aを使用して操作の内容aを推論する。
特に、本変形例の構成においては、実際に車両2の性能測定に際して操作の内容aを推論する場合における処理が、ドライブロボット制御部61の内部だけで完結されており、ドライブロボット制御部61が学習部30と通信する必要がない。
例えば、燃費の値を測定または計算し、燃費の性能が高いほど値が大きくなるように設定された第3要素を計算し、これを基に、燃費が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、燃費のみが報酬に反映され得る。
あるいは、例えば、排ガス性能の値を測定または計算し、排ガス性能が高いほど値が大きくなるように設定された第4要素を計算し、これを基に、排ガス性能が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、排ガス性能のみが報酬に反映され得る。排ガス性能を燃費とは独立して報酬に反映することにより、例えば、自動車の排気経路に設けられる三元触媒コンバータ等において、排ガス中の有害物質の除去性能を評価する場合等に適用可能である。
これら第3及び第4の要素を共に報酬に反映させることによって、燃費と排ガス性能を共に、強化学習に影響し得るようにしてもよいのは、言うまでもない。
第1要素は、例えば、第1の時刻と第2の時刻の時間間隔が十分に短い場合には、第1の時刻におけるアクセルペダルの開度と、第2の時刻におけるアクセルペダルの開度の2値を比較し、その差分が所定の値以上であれば、アクセルペダル2cやブレーキペダル2dの操作量が大きいと考え、小さい値となるように計算してもよい。
また、上記のように計算した二階微分に関し、第1の時刻と第2の時刻の間において、その値が、正負が所定の回数以上入れ替わるように変動した場合においては、小刻みなペダル操作が行われたとして第1要素の値を小さくするように計算してもよい。
また、アクセルペダル2cやブレーキペダル2dの変化量、すなわち二階微分または一階微分の最大値の絶対値に−1を乗算して負の値とし、これを第1要素としてもよい。この第1要素をできるだけ大きくするように計算することで、アクセルペダル2cやブレーキペダル2dの変化量が小さくなるような結果を取得し得る。
あるいは、上記全てを、報酬を計算する上での異なる要素として個別に計算し、報酬に反映することで、上記全ての要因が個別に報酬に影響するように、報酬を計算しても構わない。
これは、学習モデル40、50の損失関数に関しても同様である。上記実施形態において、例えば第2学習モデル50の損失関数は、既に説明した数式3に示される構造としたが、これに代えて、次の数式4を第2学習モデル50の損失関数としてもよい。数式4は、損失関数の計算において、学習対象として現存する、学習中の現段階のネットワークを用いるのではなく、少し前の時点で固定された第1学習モデル40及び第2学習モデル50に対し、これをターゲットネットワークとして使用する場合の損失関数である。Qtargetは、ターゲットネットワークとしての第2学習モデル50における行動価値関数であり、μtargetは、ターゲットネットワークとしての第1学習モデル40における出力関数である。
操作の内容aに対して、過去または将来の一定の期間にわたって移動平均を計算することによっても、同様な効果が期待できる。
あるいは、ドライブロボット制御部20は、フィードバック系の制御を行うフィードバック制御部を備え、操作の内容aは、フィードフォワード値としてフィードバック制御部で使用されてもよい。すなわち、フィードバック制御部により、例えばPID制御などのフィードバック系の制御系を実現し、操作内容推論部31により推論された操作の内容aを、当該制御系におけるフィードフォワード値として使用するように構成してもよい。この場合においては、車速追従性が向上する。
2 車両
2c アクセルペダル
2d ブレーキペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
10、60 制御装置
20、61 ドライブロボット制御部
21 指令車速記憶部
22 走行状態取得部
23 車両操作制御部
30 学習部
31、31A 操作内容推論部
32 報酬計算部
33 強化学習部
34 学習用データ記憶部
40、40A 第1学習モデル
50 第2学習モデル
Q 行動価値関数(評価値)
s 走行状態
s1 アクセルペダル検出量
s2 ブレーキペダル検出量
sN 指令車速
a 操作の内容
a1 アクセルペダル操作
a2 ブレーキペダル操作
Claims (11)
- 車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
前記車両の走行状態を取得する走行状態取得部と、
第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論する操作内容推論部と、
前記操作の内容に基づき前記自動操縦ロボットを制御する車両操作制御部と、
を備え、
前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている、自動操縦ロボットの制御装置。 - 前記操作の対象は、アクセルペダルとブレーキペダルを含み、前記走行状態は、アクセルペダルとブレーキペダルの検出量を含む、請求項1に記載の自動操縦ロボットの制御装置。
- 前記アクセルペダル及び前記ブレーキペダルの前記検出量の変化が小さいほど値が大きくなるように設定された第1要素が計算され、当該第1要素を基に前記報酬が計算されている、請求項2に記載の自動操縦ロボットの制御装置。
- 時間軸と、前記アクセルペダルまたは前記ブレーキペダルの前記検出量を軸とする座標系上で、前記検出量を関数として表現した際に、前記関数の一階微分または二階微分の値を基に、前記第1要素が計算されている、請求項3に記載の自動操縦ロボットの制御装置。
- 前記関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、前記第1要素が正の値となるように、かつ、前記最大値の絶対値が前記所定の閾値よりも大きければ、前記第1要素が負の値となるように、前記第1要素が計算されている、請求項4に記載の自動操縦ロボットの制御装置。
- 時間軸と、前記アクセルペダルまたは前記ブレーキペダルの前記検出量を軸とする座標系上で、前記検出量を関数として表現した際に、前記関数の積分量が小さいほど値が大きくなるように設定された積分要素が計算され、当該積分要素を基に前記報酬が計算されている、請求項2に記載の自動操縦ロボットの制御装置。
- 前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第2の時刻における前記検出された車速と前記指令車速との差が小さいほど値が大きくなるように設定された第2要素が計算され、当該第2要素を基に前記報酬が計算されている、請求項1から6のいずれか一項に記載の自動操縦ロボットの制御装置。
- 前記操作内容推論部は、前記第1の時刻以降の複数の時刻における前記操作の内容を推論する、請求項1から7のいずれか一項に記載の自動操縦ロボットの制御装置。
- 前記第1学習モデルは、前記報酬を基に前記操作の内容を評価して前記操作の内容の評価値を計算する第2学習モデルによって計算された、前記評価値を基に、前記評価値がより高い前記操作の内容を推論するように学習されている、請求項1から8のいずれか一項に記載の自動操縦ロボットの制御装置。
- 前記第2学習モデルは、前記第1学習モデルにより出力された前記操作の内容を入力とし、前記報酬が大きいほど高い前記評価値を出力するように学習され、
これら前記第1学習モデルと前記第2学習モデルの学習が繰り返されることにより、前記第1学習モデルと前記第2学習モデルは強化学習されている、請求項9に記載の自動操縦ロボットの制御装置。 - 車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
前記車両の走行状態を取得し、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
第1の時刻から、当該第1の時刻より後の前記車両の操作の内容を推論する第1学習モデルであって、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように報酬を計算し、前記報酬を基に強化学習された前記第1学習モデルにより、前記第1の時刻における前記走行状態を基に、前記車両の操作の内容を推論し、
前記操作の内容に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188766A JP7110891B2 (ja) | 2018-10-04 | 2018-10-04 | 自動操縦ロボットの制御装置及び制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188766A JP7110891B2 (ja) | 2018-10-04 | 2018-10-04 | 自動操縦ロボットの制御装置及び制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020056737A true JP2020056737A (ja) | 2020-04-09 |
JP7110891B2 JP7110891B2 (ja) | 2022-08-02 |
Family
ID=70107078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018188766A Active JP7110891B2 (ja) | 2018-10-04 | 2018-10-04 | 自動操縦ロボットの制御装置及び制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7110891B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
WO2022059484A1 (ja) * | 2020-09-15 | 2022-03-24 | 株式会社明電舎 | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2246686A1 (en) * | 2009-05-01 | 2010-11-03 | Froude Hofmann Limited | Vehicle test apparatus and method |
JP2014115168A (ja) * | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | 車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラム |
JP2016156687A (ja) * | 2015-02-24 | 2016-09-01 | 株式会社明電舎 | 車両速度制御装置 |
JP2017111116A (ja) * | 2015-12-10 | 2017-06-22 | 株式会社堀場製作所 | 車両速度パターン表示装置、この装置に用いられるプログラム、走行試験方法、及び自動運転装置 |
-
2018
- 2018-10-04 JP JP2018188766A patent/JP7110891B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2246686A1 (en) * | 2009-05-01 | 2010-11-03 | Froude Hofmann Limited | Vehicle test apparatus and method |
JP2014115168A (ja) * | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | 車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラム |
JP2016156687A (ja) * | 2015-02-24 | 2016-09-01 | 株式会社明電舎 | 車両速度制御装置 |
JP2017111116A (ja) * | 2015-12-10 | 2017-06-22 | 株式会社堀場製作所 | 車両速度パターン表示装置、この装置に用いられるプログラム、走行試験方法、及び自動運転装置 |
Non-Patent Citations (1)
Title |
---|
河本 誠 他5名: "強化学習を用いたアクセル・ブレーキペダル操作のためのドライバモデルの有効性検証 HILSを用いた車速追従", 日本機械学会東海支部第62期総会講演会講演論文集, vol. No.133-1, JPN7022000010, 2013, JP, pages 39 - 40, ISSN: 0004679125 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
JP7365967B2 (ja) | 2020-05-27 | 2023-10-20 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
WO2022059484A1 (ja) * | 2020-09-15 | 2022-03-24 | 株式会社明電舎 | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 |
JP2022048416A (ja) * | 2020-09-15 | 2022-03-28 | 株式会社明電舎 | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7110891B2 (ja) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Biswas et al. | Energy management systems for electrified powertrains: State-of-the-art review and future trends | |
US20220143823A1 (en) | Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot | |
KR102313002B1 (ko) | 차량 속도 제어 장치 및 차량 속도 제어 방법 | |
JP6908144B1 (ja) | 自動操縦ロボットの制御装置及び制御方法 | |
JP2020056737A (ja) | 自動操縦ロボットの制御装置及び制御方法 | |
JP2020067762A (ja) | 制御支援装置、機器制御装置、制御支援方法、制御支援プログラム、コンピュータを機能させるための学習済みモデル、および学習済みモデルの生成方法 | |
US20220147897A1 (en) | Machine learning for predictive optmization | |
JP2021051640A (ja) | モデル作成装置及びモデル作成方法 | |
JP2021051641A (ja) | モデル評価装置及びモデル評価方法 | |
JP2021051638A (ja) | モデル作成装置、データ生成装置、モデル作成方法及びデータ生成方法 | |
Liessner et al. | Safe deep reinforcement learning hybrid electric vehicle energy management | |
JP2021051637A (ja) | モデル作成装置、データ生成装置、モデル作成方法及びデータ生成方法 | |
JP2021051642A (ja) | モデル作成装置及びモデル作成方法 | |
Liessner et al. | Simultaneous electric powertrain hardware and energy management optimization of a hybrid electric vehicle using deep reinforcement learning and Bayesian optimization | |
US11718295B2 (en) | Automatic driving robot control device and control method | |
JP2021143882A (ja) | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 | |
WO2022059484A1 (ja) | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 | |
Malikopoulos et al. | A real-time computational learning model for sequential decision-making problems under uncertainty | |
JP7248053B2 (ja) | 制御装置及び制御方法 | |
JP2021128510A (ja) | 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法 | |
JP2024001584A (ja) | 自動操縦ロボットの制御装置及び制御方法 | |
Togai et al. | Human driving behavior analysis and model representation with expertise acquiring process for controller rapid prototyping | |
Malikopoulos et al. | A State-Space Representation Model and Learning Algorithm for Real-Time Decision-Making Under Uncertainty | |
US20240075943A1 (en) | Method and system for controlling a vehicle using machine learning | |
JP2023071063A (ja) | モデル学習システム及びモデル学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7110891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |