JP7467133B2

JP7467133B2 - 制御装置、制御方法、及びモータ制御装置

Info

Publication number: JP7467133B2
Application number: JP2020010335A
Authority: JP
Inventors: 俊也高野; 智秋茂田; 優一阿邊
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2024-04-15
Anticipated expiration: 2040-01-24
Also published as: JP2021117699A

Description

本発明の実施形態は、制御装置、制御方法、及びモータ制御装置に関する。

近年、モデルが複雑で、高度な制御が要求される分野のブレークスルー技術として、人工知能技術のひとつである強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）が注目されている。強化学習は、教師有り学習（ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）および教師無し学習（ＵｎｓｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）と並ぶ機械学習の手法の１つとして位置付けられており、制御対象に対して、操作量を与え、その結果得られた制御量から報酬値を計算し、高い報酬値が得られるように各状態に対する操作量を学習する。

強化学習は、直接正解を与えて学習する教師有り学習とは異なり、報酬値を指標として操作量を学習するため、制御対象に関する完全な理解を必要とせず、複雑なモデルの制御への応用が期待される。ところが、強化学習の初期段階においては、制御対象に対して、試行錯誤的に操作量を与えるため、制御対象を正しく運転操作できず、異常停止させてしまう恐れがある。

特許第４９７４３３号公報

本発明が解決しようとする課題は、制御対象が異常動作や停止することを抑制しつつ制御モデルを学習可能な制御装置、制御方法、及びモータ制御装置を提供することである。

本実施形態によれば、操作量に応じて実動する制御対象の制御装置であって、制御装置は、制御部と、推定部と、補正部と、を備える。制御部は、制御指令値と、制御指令値に対して制御対象が実動することにより生じた制御量と、を用いた強化学習により操作量を出力する制御モデルを学習する制御部であって、制御指令値、及び制御量を用いて操作量を出力する。推定部は、制御対象を操作量で操作したときの所定時間後の制御量が所定範囲内か否かを推定する。補正部は、所定の範囲外の場合に、所定時間後の制御量が所定範囲内となる補正操作量に補正した操作量を出力する。

制御対象が異常動作や停止することを抑制しつつ制御モデルを学習できる。

制御装置の構成を示すブロック図。制御部の詳細な構成を示すブロック図。操作量補正部の詳細な構成を示すブロック図。制御モデル学習部の詳細な構成を示すブロック図。モータ制御装置の構成を示すブロック図。モータ制御装置の制御部の詳細な構成を示すブロック図。ノイズＮ（ｔ）の例を示す図。モータ制御装置の操作量補正部の詳細な構成を示すブロック図。モータ制御装置の制御モデル学習部の詳細な構成を示すブロック図。モータ制御装置の制御処理例を示すフローチャート。

以下、本発明の実施形態に係る制御装置、制御方法、及びモータ制御装置について、図面を参照しながら詳細に説明する。なお、以下に示す実施形態は、本発明の実施形態の一例であって、本発明はこれらの実施形態に限定して解釈されるものではない。また、本実施形態で参照する図面において、同一部分又は同様な機能を有する部分には同一の符号又は類似の符号を付し、その繰り返しの説明は省略する場合がある。また、図面の寸法比率は説明の都合上実際の比率とは異なる場合や、構成の一部が図面から省略される場合がある。

（第１実施形態）
図１は、本発明による制御システム１の構成を示すブロック図である。図１を用いて、制御システム１の構成を説明する。図１に示すように、本実施形態に係る制御システム１は、学習機能を有するシステムであり、制御装置１０と、制御対象１２と、表示部１４とを備えて構成される。

制御装置１０は、制御対象１２を制御する制御装置であり、制御部２０と、操作量補正部３０と、操作量評価部４０と、制御モデル学習部５０と、可視化部６０とを、有する。制御対象１２は、例えばモータである。表示部１４は、例えば、液晶モニタで構成される。

なお、本実施形態では、制御により生じた制御対象１２の状態を示す測定量を制御状態量と称する。また、制御対象１２において制御の対象となる量を制御量と称する。例えば、制御対象１２の制御状態量もしくは制御状態量の一部が制御量である。また、制御量の目標値を制御指令値と称する。さらにまた、制御量に影響を与える手段を駆動する量を操作量と称する。例えば、制御対象１２がモータの場合には、制御指令値である回転速度に応じた電圧が電圧電流変換器に出力され、電圧電流変換器から出力された電流がモータに出力され、モータが回転する。この場合、制御量に影響を与える手段が電圧電流変換器であり、制御量に影響を与える操作量は電圧であり、制御量は回転速度である。

制御部２０は、強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ）により制御モデルを学習する学習機能を有し、制御指令値と、制御指令値に対して制御対象１２が実動することにより生じた制御状態量とに基づき、操作量を出力する。また、制御モデルの強化学習による学習状態を表示部１４に出力する。例えば、学習状態は、後述の報酬値である。なお、本実施形態に係る制御モデルは、例えばニューラルネットワークであるが、これに限定されない。

本実施形態で用いる制御モデルは、入力が、例えば制御指令値と、少なくとも制御量を含む制御状態量とであり、出力が操作量である。制御モデルは、例えば方策勾配法により制御モデルパラメータＷ（ｔ）を学習する。また、本実施形態では制御モデルパラメータＷ（ｔ）を学習することを、制御モデルの学習と称する。

この制御モデルでは、例えば制御指令値と、制御量との差が小さくなるほど報酬値を大きくする強化学習を行う。強化学習の方法には、一般的な方法を用いることが可能である。報酬値は、後述する操作量評価部４０が演算する制御評価値を用いることが可能である。なお、本実施形態では、方策勾配法を用いるが、これに限定されない。例えば、強化学習にはＱ－ｌｅａｒｎｉｎｇを用いることが可能である。また、この制御モデルは、制御モデルパラメータＷ（ｔ）を、教師あり学習により学習することが可能である。すなわち、制御モデルは、教師なしの強化学習と、教師有り学習とを併用して、制御モデルパラメータＷ（ｔ）の学習が可能である。なお、制御部２０の詳細は図２を用いて後述する。

操作量補正部３０は、制御対象１２を操作量で操作したときの所定時間後、例えば１秒後の制御量が所定範囲内か否かを推定する。また、操作量補正部３０は、制御対象１２を操作量で操作したときの所定時間後の制御量が所定範囲外の場合には、所定時間後の制御量が所定範囲内となる補正操作量に操作量を補正する。なお、操作量補正部３０の詳細は図３を用いて後述する。

操作量評価部４０は、制御対象１２の制御量が制御指令値に従っているほど値が高くなる制御評価値を出力する。例えば、操作量評価部４０は、制御指令値と、制御指令値に対応する制御量との差が小さくなるほど、評価値を高く出力する。なお、本実施形態に係る制御評価値が強化学習の報酬値に対応する。

制御モデル学習部５０は、制御部２０と同等の制御モデルを有している。この制御モデル学習部５０は、制御部２０と相互に連携しており、制御モデルパラメータＷ（ｔ）の情報を共有している。また、制御モデル学習部５０は操作量補正部３０により、操作量による所定時間後の制御量が所定の範囲外と推定された場合に、範囲外と推定された制御指令値と、少なくとも制御量を含む制御状態量を入力とし、補正操作量を教師データとする教師学習により制御モデルを学習する。例えば、制御モデルが出力する操作量が補正操作量に近づくように、制御モデルパラメータＷ（ｔ）を学習する。また、制御モデル学習部５０は、学習後の制御モデルパラメータＷ（ｔ）を制御部２０に出力する。

制御モデル学習部５０は、操作量評価部４０が演算する制御評価値に基づいて、学習を実行するか否かを判断してもよい。制御評価値は、制御評価値があらかじめ定めた基準値を超える場合に「学習する」、基準値を下回る場合に「学習しない」といった判断を行う。なお、制御モデル学習部５０の詳細は図４を用いて後述する。

可視化部６０は、制御部２０から取得した強化学習の学習状態と制御モデル学習部５０から取得した制御モデルの学習状態を表示部１４に表示する。例えば、可視化部６０は、制御部２０から取得した制御指令値、及び制御量の時系列値を表示部１４に表示する。この場合、学習が進むに従い、制御指令値と制御量との乖離が小さくなる。また、可視化部６０は、制御モデル学習部５０から取得した教師データである補正操作量と、制御モデルの出力値との差を時系列値に表示部１４に表示する。この場合、学習が進むに従い、補正操作量と、制御モデルの出力値との乖離が小さくなる。

ここで、図２に基づき制御部２０について詳細に説明する。図２は制御部２０の詳細な構成を示したブロック図である。図２に示すように、制御部２０は、強化学習部２０１と、操作量推定部２０２と、探索処理部２０３と、学習回数カウント部２０４と、制御状態上下限生成部２０５と、を備える。

強化学習部２０１は、上述のように、入力が、制御指令値と、制御量を少なくとも含む制御状態量とであり、出力が操作量である制御モデルの制御モデルパラメータＷ（ｔ）を学習する。すなわち、強化学習部２０１は、制御指令値が入力される度に、制御指令値と、対応する制御状態量と、操作量評価部４０により演算された制御評価値とを、用いて制御モデルパラメータＷ（ｔ）を強化学習する。これにより、制御モデルは、強化学習が進むにしたがい、より報酬値の大きくなる操作量を出力する。また、制御モデルパラメータＷ（ｔ）は、更新される度に操作量推定部２０２に出力される。

操作量推定部２０２は、制御モデルパラメータＷ（ｔ）を強化学習部２０１から取得し、学習された最新の制御モデルパラメータＷ（ｔ）に逐次的に更新する。これにより操作量推定部２０２は、最新の制御モデルパラメータＷ（ｔ）を用いて、制御指令値と、対応する制御状態量とを入力とし、操作量を出力する。また、操作量推定部２０２は、制御モデルパラメータＷ（ｔ）が更新されるごとに、制御モデル学習部５０（図１）に対して、制御モデルパラメータＷ（ｔ）を出力する。一方で、操作量推定部２０２は、制御モデル学習部５０において、制御モデルパラメータＷ（ｔ）が更新された場合には、更新された制御モデルパラメータＷ（ｔ）を強化学習部２０１および操作量推定部２０２に設定する。

探索処理部２０３は、操作量推定部２０２が出力する操作量推定値に摺動を与える。これにより、制御モデルの強化学習が、所謂局所解に陥ることを抑制する。すなわち、探索処理部２０３は、さらなる最適な制御量と操作量の組み合わせを探索するため、操作量推定部２０２の操作量に摺動を与える。この摺動は、ランダムノイズなどを模擬したノイズである。例えば、学習回数に応じてノイズの範囲を調整しながら、操作量にノイズを印加する。なお、本実施形態では、操作量推定部２０２が出力する操作量推定値、及び操作量推定値にノイズが印加された操作量を共に操作量と称する。また、操作量推定値にノイズの印加をしなくともよい。この場合、操作量推定値が操作量となる。

学習回数カウント部２０４は、学習回数をカウントする。本実施形態では、離散時間ｔごとに制御対象１２から制御状態量を取得し、学習を行う。これを１単位として、学習回数をカウントするものとする。すなわち、学習回数は、離散時間ｔの経過時間に対応する。

制御状態上下限生成部２０５は、制御指令値に対応する制御量の取り得る上限値および下限値を学習回数カウント部２０４の学習回数を参照し、生成する。

ここで、図３を用いて、操作量補正部３０の詳細な構成を説明する。図３は操作量補正部３０の詳細な構成を示したブロック図である。操作量補正部３０は、制御状態推定処理部３０１と、操作量補正処理部３０２とを有する。

制御状態推定処理部３０１は、操作量推定部２０２が出力する操作量で制御対象１２を制御した場合に生じる制御量を推定する。例えば、線形の近似式により制御指令値及び操作量に基づき、制御量を推定する。より具体的には、所定期間内に取得された現制御指令値が発令される前の所定期間内に取得された、制御量（ｙ）、制御指令値（ｘ１）、操作量（ｘ２）の複数データの組み合わせにより、線形の近似式を生成する。例えば、ｙ＝ａ×ｘ１＋ｂ＋ｘ２＋ｃなどの線形の近似式を生成し、制御指令値（ｘ１）、及び操作量（ｘ２）に基づき制御量（ｙ）を推定する。この線形近似式は、所謂一次近似式であり、現時点から所定時間内の状態を反映した予測式である。すなわち、この線形近似式は、制御モデルに対して、より簡略化された予測式である。

また、制御状態推定処理部３０１は、制御状態上限値と制御状態下限値との範囲内を制御量の所定範囲とする。例えば、制御状態上限値と制御状態下限値は、制御対象１２の定格値である。制御状態推定処理部３０１は、制御対象１２を操作量（ｘ２）で操作したときの所定時間後の制御量（ｙ）が所定範囲内か否かを推定する。なお、本実施形態に係る制御状態推定処理部３０１が推定部に対応する。

操作量補正処理部３０２は、推定した制御量（ｙ）が所定範囲内に無い場合に、制御量（ｙ）が所定範囲となる補正操作量（ｘ２’）に操作量（ｘ２）を補正する。例えば、操作量補正部３０は、上述の線形式にしたがい、制御量（ｙ）が所定範囲となる補正操作量（ｘ２’）を演算する。推定した制御量が所定範囲内に無い場合に、この補正操作量（ｘ２’）が操作量として制御対象１２に出力される。これにより、制御対象１２が異常動作や停止することが抑制される。なお、本実施形態に係る操作量補正処理部３０２が補正部に対応する。

ここで、図４を用いて制御モデル学習部５０の詳細な構成を説明する。図４は、制御モデル学習部５０の詳細な構成を示したブロック図である。制御モデル学習部５０は、制御モデル更新判定処理部５０１と、制御モデル部５０２と、誤差評価部５０３と、制御モデルパラメータ調整処理部５０４と、複数の遅延回路５０５～５０７とを有する。

制御モデル更新判定処理部５０１は、操作量補正処理部３０２（図１）が推定した制御量が所定範囲内に無いと判定した場合に、更に教師有り学習により制御モデルの制御モデルパラメータＷ（ｔ）を学習するか否かを判定する。例えば、この制御モデル更新判定処理部５０１は、操作量評価部４０（図１）により演算された制御評価値があらかじめ設定された基準値を超える場合に、制御モデルパラメータＷ（ｔ）の教師有り学習を行うと、判定する。

制御モデル部５０２は、教師有り学習を行うと、判定された場合に、強化学習部２０１（図２）から最新の制御モデルパラメータＷ（ｔ）を取得する。そして、制御モデル部５０２は、制御指令値制御対象１２の制御量を含む制御状態量、制御指令値を、遅延回路５０５、５０６を介して取得し、操作量を出力する。なお、まだ教師あり学習が行われる前の段階であるので、この操作量に対応する制御量は所定値を超える範囲にある。

誤差評価部５０３は、遅延回路５０７を介して制御モデル更新判定処理部５０１から取得した補正操作量と、制御モデル部５０２が演算した操作量との誤差を計算し、評価値として制御モデルパラメータ調整処理部５０４に出力する。

制御モデルパラメータ調整処理部５０４は、評価値が減少するように制御モデルの制御モデルパラメータＷ（ｔ）を調整する。すなわち、上述のように、制御モデルパラメータ調整処理部５０４は、制御モデルパラメータＷ（ｔ）、を教師あり学習により学習する。

教師あり学習が行われる度に、更新した制御モデルパラメータＷ（ｔ）は、制御モデル部５０２に出力され、誤差評価部５０３により誤差が再演算される。この誤差は制御モデル学習状態として出力される。この場合、過学習を抑制するため、評価値が所定値低減された時点で、制御モデルパラメータ調整処理部５０４による教師有り学習を停止してもよい。教師有り学習が停止されると、制御モデルパラメータ調整処理部５０４は、教師有り学習した制御モデルパラメータＷ（ｔ）を、制御部２０の各部に設定する。

以上のように、本実施形態によれば、制御部２０が強化学習により学習される制御モデルを用いて制御指令値、及び制御量に基づく操作量を出力し、制御状態推定処理部３０１がこの操作量で制御対象１２を操作したときの所定時間後の制御量が所定範囲内か否かを推定し、所定の範囲外と推定された場合には、操作量補正処理部３０２が所定時間後の制御量が所定範囲内となる補正操作量に操作量を補正する。これにより、制御量が所定範囲内であれば、制御全体として報酬の大きくなる操作量による制御が可能となると共に強化学習が進められる。一方で、所定の範囲外であれば、異常動作や停止することが抑制された補正操作量により制御対象１２の制御が可能となる。このように、強化学習による制御モデルの学習を進めている初期段階でも、制御対象１２が異常動作や停止することを抑制しつつ、制御全体として報酬値の大きくなる制御を行うことができる。

また、所定時間後の制御量が所定範囲外になると推定される場合に、制御モデル学習部５０が、制御部２０が強化学習している制御モデルを、所定範囲外になると推定された制御指令値、及び制御量を用いて、補正操作量を教師データとして、教師有り学習する。これにより、所定範囲外になると推定された制御指令値、及び制御量が制御モデルに入力された場合でも、所定時間後の制御量が所定範囲となる操作量を出力するように制御モデルを学習できる。一般に制御量が所定範囲外になる場合には、装置が停止状態や異常状態となり、定常的な制御量を取得できないため、強化学習は停止してしまうが、本実施形態による制御装置１０は、所定時間後の制御量が所定範囲外になると推定される場合にも、教師有り学習により制御モデルの学習を進めることが可能であり、より効率的に制御モデルの学習を行うことが可能である。

（第２実施形態）
第２実施形態では、制御対象１２をモータ１２ａとしたモータ制御装置１０ａについて説明する。モータ１２ａに対応する各制御量を用いて各処理部の動作を説明する。

図５は、モータの回転速度ωｍｅａｓ（ｔ）を制御するモータ制御装置１０ａのブロック図である。

図５に示すように、制御部２０は、離散時間ｔにおいて、制御指令値として、回転速度ωｒｅｆ（ｔ）を、制御状態量として、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、及び電圧測定値Ｖｍｅａｓ（ｔ）を取得する。制御量は、制御状態量の中の、回転速度測定値ωｍｅａｓ（ｔ）である。

制御部２０は、操作量として電圧Ｖｅｓｔ（ｔ）、制御状態上限として回転速度の上限値ωｍａｘ、制御状態下限として回転速度の下限値ωｍｉｎを生成する。なお、回転軸の磁極の水平方向と垂直方向の２成分に分けて、モータを制御するベクトル制御では、電圧Ｖ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、電圧測定値Ｖｍｅａｓ（ｔ）、補正操作量Ｖｃｏｍｐ（ｔ）は、それぞれ２次元の要素を有する。電圧Ｖｅｓｔ（ｔ）は、モータ１２ａ内の電圧電流変換器へ印加される電圧である。電流測定値Ｉｍｅａｓ（ｔ）、電圧測定値Ｖｍｅａｓ（ｔ）は、モータ１２ａにおいて実際に測定された電流及び電圧である。

制御部２０は、制御指令値である回転速度ωｒｅｆ（ｔ）、制御量である回転速度測定値ωｍｅａｓ（ｔ）、制御状態量である圧測定値Ｖｍｅａｓ（ｔ）、及び電流測定値Ｉｍｅａｓ（ｔ）を入力とし、操作量を出力する制御モデルの制御パラメータＷ（ｔ）を強化学習により学習する。

制御モデル学習部５０も、制御部２０と同等の制御モデルを有する。制御部２０と制御モデル学習部５０の制御モデルは相互に連携しおり、制御モデルパラメータＷ（ｔ）は、同一の値が設定される。すなわち、制御部２０は、制御モデル学習部５０に対して、制御モデルパラメータＷ（ｔ）が更新されるごとに出力する。同様に、制御モデル学習部５０において、制御モデルの教師有り学習が発生した場合には、制御モデルパラメータＷ（ｔ）を制御モデル学習部５０から制御部２０に出力する。このように、制御部２０と制御モデル学習部５０は同一の制御モデルパラメータＷ（ｔ）を、相互に学習する。

制御部２０は、制御部２０における強化学習部２０１（図２）の学習状態Ｌ１（ｔ）を出力する。学習状態Ｌ１（ｔ）は、制御指令値である回転速度ωｒｅｆ（ｔ）と測定値である回転速度ωｍｅａｓ（ｔ）との誤差、操作量である制御電圧Ｖ（ｔ）、及び制御評価値ｒ（ｔ）などを含む。同様に、制御部２０は、制御モデル学習部５０における制御モデルパラメータ調整処理部５０４（図４）の学習状態Ｌ２（ｔ）を出力する。学習状態Ｌ２（ｔ）は、制御指令値である回転速度ωｒｅｆ（ｔ）と測定値である回転速度ωｍｅａｓ（ｔ）との誤差、操作量である制御電圧Ｖ（ｔ）、及び制御評価値ｒ（ｔ）などを含む。

操作量補正部３０は、電圧Ｖ（ｔ）、回転速度の上限値ωｍａｘ、回転速度の下限値ωｍｉｎを入力とし、補正操作量Ｖｃｏｍｐ（ｔ）を操作量として制御対象１２に出力する。より詳細には、制御部２０が出力する電圧Ｖ（ｔ）でモータ１２ａを制御した場合に、所定時間後の制御量である回転速度ωｍｅａｓ（ｔ）が回転速度の上限値ωｍａｘ、及び回転速度の下限値ωｍｉｎ以内となるか否かを推定する。回転速度の上限値ωｍａｘ、及び回転速度の下限値ωｍｉｎ以外となる場合に、所定時間後の制御量である回転速度ωｍｅａｓ（ｔ）が回転速度の上限値ωｍａｘ、及び回転速度の下限値ωｍｉｎ以内となる補正操作量Ｖｃｏｍｐ（ｔ）を操作量として出力する。この場合、補正操作量Ｖｃｏｍｐ（ｔ）は、操作量補正部３０による補正が無い場合には、操作量である電圧Ｖ（ｔ）である。

モータ１２ａは、補正操作量Ｖｃｏｍｐ（ｔ）に応じて回転速度ωｍｅａｓ（ｔ）で回転する。また、モータ１２ａは、現在の制御状態量である回転速度ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、及び電圧測定値Ｖｍｅａｓ（ｔ）を出力する。この場合、回転速度ωｍｅａｓ（ｔ）は、回転速度の上限値ωｍａｘ、及び回転速度の下限値ωｍｉｎ以内に制御される。

操作量評価部４０は、制御指令値ωｒｅｆ（ｔ）、モータ１２ａの制御状態量である電流測定値Ｉｍｅａｓ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）を用いて制御状態を評価し、制御評価値ｒ（ｔ）を出力する。より具体的には、操作量評価部４０は、制御評価値ｒ（ｔ）として、例えば制御指令値ωｒｅｆ（ｔ）と回転速度測定値ωｍｅａｓ（ｔ）との偏差の絶対値が小さくなるに従い大きな値を取る第１項と、電流測定値Ｉｍｅａｓ（ｔ）の絶対値が小さくなるに従い大きな値を取る第２項の加算値を出力する。また、操作量評価部４０は、補正操作量Ｖｃｏｍｐ（ｔ）と、電圧測定値Ｖｍｅａｓ（ｔ）との偏差の絶対値が小さくなるに従い大きな値をとる補正操作量Ｖｃｏｍｐ（ｔ）の制御評価値ｒｃｏｍｐ（ｔ）を出力する。

制御モデル学習部５０は、上述のように、制御モデルの制御モデルパラメータＷ（ｔ）を教師あり学習する。制御モデル学習部５０は、所定時間後の制御量である回転速度ωｍｅａｓ（ｔ）が回転速度の上限値ωｍａｘ、及び回転速度の下限値ωｍｉｎ以外となる場合に、制御モデルパラメータＷ（ｔ）を教師あり学習する。この場合、教師信号は補正操作量Ｖｃｏｍｐ（ｔ）であり、操作量Ｖｅｓｔ（ｔ）と補正操作量Ｖｃｏｍｐ（ｔ）との差が減少するように学習される。

可視化部６０は、学習状態Ｌ１（ｔ）およびＬ２（ｔ）を基に、学習の進行状況を表示部１４に表示する。

図６は、制御部２０の詳細な構成を示したブロック図である。図６に基づき制御部２０の詳細を説明する。

強化学習部２０１は、例えば、ニューロン数が４－６４－３２－８－１の５層で構成されるニューラルネットワークを制御モデルとして学習する。すなわち、入力層の４ニューロンには、回転速度ωｒｅｆ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、圧測定値Ｖｍｅａｓ（ｔ）がそれぞれ入力され、出力層の１ニューロンから操作量Ｖｅｓｔ（ｔ）が出力されるように、操作量評価部４０が演算する制御評価値を報酬値としてニューロン間の結合係数Ｗ（ｔ）が強化学習される。強化学習には、例えば方策勾配法（ｐｏｌｉｃｙｇｒａｄｉｅｎｔｍｅｔｈｏｄｓ）が用いられる。なお、本実施形態に係るニューロン間の結合係数Ｗ（ｔ）が制御モデルパラメに対応する。

このニューラルネットワークは、学習初期の段階では、学習が進んでいないので、操作量Ｖｅｓｔ（ｔ）によるモータ１２ａの制御では、指令値である回転速度ωｒｅｆ（ｔ）と、回転速度測定値ωｍｅａｓ（ｔ）との乖離が大きくなる。一方で、学習が進むに従い、回転速度ωｒｅｆ（ｔ）と、回転速度測定値ωｍｅａｓ（ｔ）との乖離がより小さくなる。

操作量推定部２０２は、強化学習部２０１と同等のニューロン数が４－６４－３２－８－１の５層で構成されるニューラルネットワークを制御モデルとして、有している。操作量推定部２０２の結合係数Ｗ（ｔ）は、強化学習部２０１で結合係数Ｗ（ｔ）が更新される度に同一の結合係数Ｗ（ｔ）に置き替えられる。これにより、入力層の４ニューロンには、操作量推定部２０２は、回転速度ωｒｅｆ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、圧測定値Ｖｍｅａｓ（ｔ）がそれぞれ入力され、出力層の１ニューロンから操作量推定値Ｖｅｓｔ（ｔ）が出力される。

探索処理部２０３は、最適な制御量と操作量の組み合わせを探索するため、操作量推定部２０２の操作量推定値Ｖｅｓｔ（ｔ）にノイズＮ（ｔ）を加算する。ノイズＮ（ｔ）は、例えば、式（１）に基づく。

ここで、θ、μ、σはパラメータである。Ｒａｎｄ（ｔ）は０から１の範囲の乱数で、離散時刻ｔごとに乱数を発生する。

図７は、ノイズＮ（ｔ）の例を示す図である。例え軸はＮ（ｔ）を示し、横軸は、サンプル回数ｔを示す。Ｎ（０）＝０．６、θ＝０．１、μ＝０．６およびσ＝０．１５である。このように、探索処理部２０３は、ノイズＮ（ｔ）を（２）式に従い、Ｖｅｓｔ（ｔ）に加算し、操作量Ｖ（ｔ）を出力する。

ここで、探索を実施する回数をＮｅとすると、Ｐは式（３）で与えられる。

ここで、Ｃｏｕｎｔは学習回数カウント部２０４からの出力で、離散時間ごとに繰り返し実施する学習回数をカウントしたものである。学習回数カウント部２０４は、学習回数Ｃｏｕｎｔを強化学習部２０１および探索処理部２０３に出力する。

制御状態上下限生成部２０４は、制御指令値ωｒｅｆ（ｔ）と学習回数カウント部からの出力Ｃｏｕｎｔを取得し、ωｒｅｆ（ｔ）とＣｏｕｎｔとに対応する制御状態の上限ωｍａｘと下限ωｍｉｎを出力する。すなわち、ωｍａｘおよびωｍｉｎはそれぞれ、式（４）および式（５）で示される。

Ｆ（Ｃｏｕｎｔ）およびＧ（Ｃｏｕｎｔ）は、学習回数を説明変数とする関数で、学習回数Ｃｏｕｎｔに応じて、上限値および下限値を調整する。例えば、Ｆ（Ｃｏｕｎｔ）は単調減少関数であり、Ｇ（Ｃｏｕｎｔ）は単調増加関数である。なお、ＦおよびＧは、学習状態Ｌ１もしくはＬ２を説明変数としてもよい。

図８は操作量補正部３０の詳細な構成を示したブロック図である。図８において、制御状態推定処理部３０１は、制御対象の制御状態量Ｖｍｅａｓ（ｔ）と、ωｍｅａｓ（ｔ）とを用いて操作量Ｖ（ｔ）で操作したときの次の離散時間（ｔ＋１）における制御状態推定値ωｅｓｔ（ｔ）を推定する。例えば、表面永久磁石型動機モータ（ＳＰＭＳＭ：ＳｕｒｆａｃｅＰｅｒｍａｎｅｎｔＭａｇｎｅｔＳｙｎｃｈｒｏｎｏｕｓＭｏｔｏｒ）において、駆動電圧Ｖｍｅａｓ（ｔ）は、式（６）で表わすことができる。ＫＥおよびαは定数である。

ＫＥおよびαは離散時間（ｔ－１）とｔで一定とみなすことができる。この場合、（８）式で示すように、ＫＥおよびαを計算することができる。

したがって、操作量Ｖ（ｔ）を離散時間ｔから（ｔ＋１）までのΔｔの時間、印加したときの制御量の推定値ωｅｓｔ（ｔ）は、（９）式で計算される。

操作量補正処理部３０２では、ωｅｓｔ（ｔ）と、上限回転数ωｍａｘおよび下限回転数ωｍｉｎとを比較し、ωｅｓｔ（ｔ）＞ωｍａｘあるいはωｅｓｔ（ｔ）＜ωｍｉｎとなる場合、操作量を補正する。すなわち、（１０）、（１１）、（１２）式に基づいて、補正操作量Ｖｃｏｍｐ（ｔ）を計算する。

図９は、制御モデル学習部５０の詳細を示したブロック図である。図９に基づき制御モデル学習部５０の詳細を説明する。

制御モデル更新判定処理部５０１は、制御評価値ｒ（ｔ）があらかじめ設定された基準値を超えるか否かを判定する。制御モデル更新判定処理部５０１は、制御評価値ｒ（ｔ）があらかじめ設定された基準値を超える場合に、制御モデル部５０２を学習すると判定する。

制御モデル部５０２は、強化学習部２０１と同等のニューロン数が４４－６４－３２－８－１の５層で構成されるニューラルネットワークを制御モデルとして、有している。制御モデル部５０２の結合係数Ｗ（ｔ）は、強化学習部２０１で結合係数Ｗ（ｔ）が更新される度に同一の結合係数Ｗ（ｔ）に置き替えられる。これにより、制御モデル部５０２では、入力層の４ニューロンに回転速度ωｒｅｆ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、圧測定値Ｖｍｅａｓ（ｔ）がそれぞれ入力され、出力層の１ニューロンから操作量（操作量推定値）Ｖｅｓｔ（ｔ）が出力される。

誤差評価部５０３は、操作量Ｖｅｓｔ（ｔ）と補正操作量Ｖｃｏｍｐ（ｔ）との２乗誤差を演算する。そして、を誤差評価部５０３は、この２乗誤差を評価値として制御モデルパラメータ調整処理部５０４に出力する。また、誤差評価部５０３は、この評価値を学習状態Ｌ２（ｔ）として可視化部６０に出力する。

制御モデルパラメータ調整処理部５０４は、制御モデル部５０２のニューラルネットワークの結合係数Ｗ（ｔ）を、例えば逆誤差伝播法バックプロパゲーション：Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）により学習する。この結合係数Ｗ（ｔ）を、制御モデル部５０２に再設定し、誤差評価部５０３が評価値を再演算する。このような処理を繰り返し、評価値が所定値に達するまでニューラルネットワークの結合係数Ｗ（ｔ）を例えば逆誤差伝播法により教師有り学習する。逆誤差伝播法による学習が終了すると、ニューラルネットワークの結合係数Ｗ（ｔ）は、強化学習部２０１、操作量推定部２０２に設定される。

図１０は、モータ制御装置１０aの制御処理例を示すフローチャートである。ここでは、指令値に対する操作量を出力する1ステップ分の処理を説明する。

先ず、制御部２０は、制御指令値として回転速度ωｒｅｆ（ｔ）が入力される（ステップＳ１００）。続けて、制御部２０の操作量推定部２０２が有するニューラルネットの入力層の各ニューロンに回転速度指令値ωｒｅｆ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、圧測定値Ｖｍｅａｓ（ｔ）がそれぞれ入力され、出力層の１ニューロンから操作量推定値Ｖｅｓｔ（ｔ）が出力される（ステップＳ１０２）。

次に、この操作量推定値Ｖｅｓｔ（ｔ）に、探索処理部２０３がノイズＮ（ｔ）を加算し、操作量Ｖ（ｔ）を出力する（ステップＳ１０４）。

次に、操作量補正部３０の制御状態推定処理部３０１は、（９）式に示すように、モータ１２aの操作量Ｖ（ｔ）と、回転速度測定値ωｍｅａｓ（ｔ）を用いて、次の離散時間（ｔ＋１）の制御量の推定値である回転速度ωｅｓｔ（ｔ）を推定する（ステップＳ１０６）。

次に、操作量補正部３０の制御状態推定処理部３０１は、推定値である回転速度ωｅｓｔ（ｔ）が所定範囲を超えているか否かを判定する（ステップＳ１０８）。この所定範囲は、上限回転ωｍａｘより小さく、且つωｍｉｎより大きい範囲である。所定範囲を超えている場合（ステップＳ１０８のＹ）、操作量Ｖ（ｔ）の補正操作量である補正操作量Ｖｃｏｍｐ（ｔ）が（１０）式に従い操作量補正処理部３０２により演算される（ステップＳ１１０）。続けて、操作量補正部３０は、補正操作量Ｖｃｏｍｐ（ｔ）をモータ１２aに出力する（ステップＳ１１２）。

次に、制御モデルがモータ１２aに出力される（ステップＳ１１０）。続けて、制御モデル学習部５０の制御モデルパラメータ調整処理部５０４が、補正操作量Ｖｃｏｍｐ（ｔ）を教師としてニューラルネットの教師有り学習を行う。この場合、入力層の各ニューロンに回転速度ωｒｅｆ（ｔ）、回転速度測定値ωｍｅａｓ（ｔ）、電流測定値Ｉｍｅａｓ（ｔ）、圧測定値Ｖｍｅａｓ（ｔ）がそれぞれ入力され、出力層の１ニューロンから出力される操作量推定値Ｖｅｓｔ（ｔ）と補正操作量Ｖｃｏｍｐ（ｔ）との差が減少するように学習される。

一方で、所定範囲を超えていない場合（ステップＳ１０８のＮ）、操作量Ｖ（ｔ）がモータ１２aに出力される（ステップＳ１１８）。続けて、制御部２０の強化学習部２０１が、操作量評価部の演算した評価値を報酬とし、ニューラルネットの強化学習を行う（ステップＳ１２０）。

以上説明したように、本実施形態によれば、制御部２０の操作量推定部２０２が強化学習した制御モデルを用いて、操作量推定値Ｖｅｓｔ（ｔ）に、探索処理部２０３がノイズＮ（ｔ）を加算し、操作量Ｖ（ｔ）を出力し、操作量補正部３０の制御状態推定処理部３０１が、操作量Ｖ（ｔ）と、制御量である回転速度測定値ωｍｅａｓ（ｔ）を用いて、次の離散時間（ｔ＋１）の制御量の推定値である回転速度ωｅｓｔ（ｔ）を推定する。そして、操作量補正部３０の制御状態推定処理部３０１が、推定値である回転速度ωｅｓｔ（ｔ）が所定範囲を超えているか否かを判定し、超えている場合に、操作量補正処理部３０２が、所定範囲を超えないように操作量Ｖ（ｔ）を補正した補正操作量Ｖｃｏｍｐ（ｔ）を制御対象１２に出力し、超えていない場合に操作量Ｖ（ｔ）を制御対象１２に出力する。これにより、制御量である回転速度測定値ωｍｅａｓ（ｔ）が所定範囲内であれば、制御全体として報酬の大きくなる操作量Ｖ（ｔ）による制御が可能となると共に、制御モデルの強化学習を行うことができる。一方で、所定の範囲外であれば、補正操作量Ｖｃｏｍｐ（ｔ）によりモータ１２aが異常動作や停止することない制御が可能となる。さらに、補正操作量Ｖｃｏｍｐ（ｔ）により、制御モデルの教師あり学習を行うことができる。

本実施形態による制御装置１０、及びモータ制御装置１０aにおけるデータ処理方法の少なくとも一部は、ハードウェアで構成してもよいし、ソフトウェアで構成してもよい。ソフトウェアで構成する場合には、データ処理方法の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記録媒体に収納し、コンピュータに読み込ませて実行させてもよい。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でもよい。また、データ処理方法の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線（無線通信も含む）を介して頒布してもよい。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布してもよい。

以上、いくつかの実施形態を説明したが、これらの実施形態は、例としてのみ提示したものであり、発明の範囲を限定することを意図したものではない。本明細書で説明した新規な装置、方法及びプログラムは、その他の様々な形態で実施することができる。また、本明細書で説明した装置、方法及びプログラムの形態に対し、発明の要旨を逸脱しない範囲内で、種々の省略、置換、変更を行うことができる。

１：制御システム、１０：制御装置、１０a：モータ制御装置、１２：制御対象、１２a：モータ、１４：表示部、２０：制御部、３０：操作量補正部、４０：操作量評価部、５０：制御モデル学習部、６０：可視化部、２０１：強化学習部。

Claims

操作量に応じて実動する制御対象の制御装置であって、
制御指令値と、前記制御指令値に対して前記制御対象が実動することにより生じた制御量と、を用いた前記制御対象が実動する学習期間中の強化学習により前記操作量を出力する制御モデルを学習する制御部であって、
前記学習期間中の前記制御モデルを用いて、第１制御指令値、及び前記第１制御指令値に対して前記制御対象が実動することにより生じた第１制御量に基づく第１操作量を出力する制御部と、
前記制御モデルに対してより簡略化された予測モデルであって、前記制御対象の制御指令値及び操作量に対して、前記制御対象の所定時間後の第２制御量を出力する予測モデルを用いて、前記制御対象を前記第１制御指令値に対して前記第１操作量で操作したときの所定時間後の第２制御量が所定範囲内か否かを推定する推定部と、
前記所定の範囲外の場合に、前記予測モデルを用いて、前記所定時間後の前記第２制御量が前記所定範囲内となる補正操作量に補正した第２操作量を出力する補正部と、
を備える制御装置。
前記所定の範囲外の場合における前記第１制御指令値、及び前記第１制御量を入力とし、前記補正操作量を教師データとする教師学習により前記制御モデルを学習する制御モデル学習部を更に備え、
前記制御部は、前記制御モデル学習部が学習した前記制御モデルを用いて前記操作量を出力する、請求項１に記載の制御装置。
前記所定の範囲内の場合における前記第１制御指令値、及び前記第１制御量を用いて、前記第１制御指令値と、前記第１制御量との偏差が小さくなるに従い大きくなる報酬値を算出し、前記報酬値が大きくなるように、前記制御モデルを強化学習により学習する強化学習部を更に備え、
前記制御部と前記制御モデル学習部は、前記強化学習部が学習した同一の前記制御モデルを用いる、請求項２に記載の制御装置。
前記強化学習部は、前記制御対象が実動する期間中に前記制御モデルを強化学習しており、
前記制御部と前記制御モデル学習部は、前記強化学習部が学習した前記制御モデルに逐次置き換える、請求項３に記載の制御装置。
前記制御モデルは、ニューラルネットワークで構成する、請求項４に記載の制御装置。
前記制御モデル学習部における前記制御モデルの教師有り学習は、前記報酬値が所定値以上の場合のみ、実行する、請求項５に記載の制御装置。
前記所定範囲は、強化学習の実行回数に応じて可変とする、請求項６に記載の制御装置。
前記所定範囲は、強化学習の学習進行に応じて可変とする、請求項７に記載の制御装置。
前記学習進行は、前記第１制御指令値と、前記第１制御指令値に対して前記制御対象が実動することにより生じた前記第１制御量との誤差とする、請求項８に記載の制御装置。
前記学習進行の状態を表示装置に可視化する可視化部を備える、請求項９に記載の制御装置。
操作量に応じて実動する制御対象の制御方法であって、
制御指令値と、前記制御指令値に対して前記制御対象が実動することにより生じた制御量と、を用いた前記制御対象が実動する学習期間中の強化学習により前記操作量を出力する制御モデルを学習する制御工程であって、
前記学習期間中の前記制御モデルを用いて、第１制御指令値、及び前記第１制御指令値に対して前記制御対象が実動することにより生じた第１制御量に基づく第１操作量を出力する制御工程と、
前記制御モデルに対してより簡略化された予測モデルであって、前記制御対象の制御指令値及び操作量に対して、前記制御対象の所定時間後の第２制御量を出力する予測モデルを用いて、
前記制御対象を前記第１制御指令値に対して前記第１操作量で操作したときの所定時間後の第２制御量が所定範囲内か否かを推定する推定工程と、
前記所定の範囲外の場合に、前記予測モデルを用いて、前記所定時間後の前記第２制御量が前記所定範囲内となる補正操作量に補正した第２操作量を出力する補正工程と、
を備える制御方法。
操作量に応じて実動するモータのモータ制御装置であって、
回転速度を指令する制御指令値と、前記制御指令値に対して前記モータが回転することにより生じた回転速度を含む制御量と、を用いた前記モータが実動する学習期間中の強化学習により前記操作量を出力する制御モデルを学習した制御部であって、
前記学習期間中の前記制御モデルを用いて、第１制御指令値、及び前記第１制御指令値に対して前記モータが実動することにより生じた第１制御量に基づく第１操作量を出力する制御部と、
前記制御モデルに対してより簡略化された予測モデルであって、前記モータの制御指令値及び操作量に対して、前記モータの所定時間後の第２制御量を出力する予測モデルを用いて、
前記モータを前記第１制御指令値に対して前記第１操作量で操作したときの所定時間後の第２制御量が所定範囲内か否かを推定する推定部と、
前記所定の範囲外の場合に、前記予測モデルを用いて、前記所定時間後の前記第２制御量が前記所定範囲内となる補正操作量に補正した第２操作量を出力する補正部と、
を備えるモータ制御装置。