JP7469063B2

JP7469063B2 - 学習装置、制御装置、及び学習方法

Info

Publication number: JP7469063B2
Application number: JP2020022848A
Authority: JP
Inventors: 勝博三枝; 健司河合
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2024-04-16
Anticipated expiration: 2040-02-13
Also published as: JP2021129420A

Description

本発明は、学習装置、制御装置、及び学習方法に関する。

工作機械の軸は、モータで駆動されている。サーボモータを駆動する際、モータの磁束を制御する。モータの磁束は電流の遅れ要素であり、十分な磁束が立ち上がるまでの準備時間が必要である。モータの加速度も遅れ要素であり、磁束が十分立ち上がった後、所望の加速度に到達するまで準備時間が必要である。

磁束を立ち上げるには、励磁電流を上げる。励磁電流を上げると、磁束が徐々に上昇し、磁束が安定する。従来、磁束が安定するまでの時間はモータの時定数で設定している。時定数に基づいて磁束の立ち上がりに必要な時間を算出する。

産業機械の制御装置は、動作プログラムを先読みし、速度指令の変化（増加）を事前に検知する。速度指令が変化（増加）する時刻ｔ１までにモータの磁束が十分に立ち上がるように、時刻ｔ１よりも所定時間だけ早い時刻ｔ０において磁束指令又は励磁電流指令を増加させる。例えば、特許文献１参照。

特開２０１９－７５９６１号公報

時定数に基づいて磁束の立ち上がり時間を推定すると、ズレが生じる。そのため、余裕を持って励磁電流を増加させ、速度指令が変化（増加）する時刻までに磁束を立ち上げる。余裕を持って励磁電流を増加させると、磁束が立ち上がる時間と速度指令を変化させる時間との間にタイムラグが生じる。

また、モータの速度制御を行う場合、磁束が立ち上がった後に、加速度を増加する。磁束の立ち上げと同様、加速度の増加にも準備時間が必要である。開始時間に余裕を持たせると、タイムラグが生じることがある。また、開始時間が早すぎると、電流増加時間が長くなり、モータの温度上昇に繋がる。

産業機械の制御において、モータを適切に制御する技術が望まれている。

本開示の一態様である学習装置は、少なくとも１つのプロセッサを備える学習装置であって、モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、前記モータの励磁電流を立ち上げる場合、前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、前記学習部は、前記励磁電流の立ち上げ終了時間と、前記モータの加速度の立ち上げ開始時間との差の絶対値が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える。
本開示の他の態様である学習装置は、少なくとも１つのプロセッサを備える学習装置であって、モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、前記モータの励磁電流を立ち上げる場合、前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、前記モータの駆動状態に関する情報は、前記モータの励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間と、を含み、前記学習部は、前記励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間との和が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える。
本開示の他の態様である学習装置は、少なくとも１つのプロセッサを備える学習装置であって、モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、前記モータの負荷を増加させる場合、前記モータの駆動状態に関する情報は、前記モータの速度が低下したときの低下幅と、前記励磁電流の電流量との情報を含み、前記励磁電流に関する情報は、前記励磁電流の電流量の情報を含み、前記学習部は、前記速度の低下幅が小さくなるように、前記励磁電流の大きさを調整する行動に対しプラスの報酬を与える。
本開示の一態様である制御装置は、産業機械のモータを制御する制御装置であって、学習装置を備え、前記学習装置が学習した励磁電流に基づき前記モータを駆動する。

本開示の一態様である学習方法は、少なくとも１つのプロセッサによって実装される学習方法であって、モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、前記モータの励磁電流を立ち上げる場合、前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、前記学習において、前記励磁電流の立ち上げ終了時間と、前記モータの加速度の立ち上げ開始時間との差の絶対値が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える。
本開示の他の態様である学習方法は、少なくとも１つのプロセッサによって実装される学習方法であって、モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、前記モータの励磁電流を立ち上げる場合、前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、前記モータの駆動状態に関する情報は、前記モータの励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間と、を含み、前記学習において、前記励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間との和が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える。
本開示の他の態様である学習方法は、少なくとも１つのプロセッサによって実装される学習方法であって、モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、前記モータの負荷を増加させる場合、前記モータの駆動状態に関する情報は、前記モータの速度が低下したときの低下幅と、前記励磁電流の電流量との情報を含み、前記励磁電流に関する情報は、前記励磁電流の電流量の情報を含み、前記学習において、前記速度の低下幅が小さくなるように、前記励磁電流の大きさを調整する行動に対しプラスの報酬を与える。

本発明の一態様によれば、モータを適切に制御することができる。

本実施形態における学習装置、数値制御装置、産業機械を示す図である。本実施形態における学習装置、数値制御装置のハードウェア構成図である。学習装置のブロック図である。励磁電流の立ち上げと加速度の立ち上げの関係を示す図である。励磁電流の立ち上げと負荷増加時における速度の変化を示す図である。学習装置の学習手順を示すフローチャートである。本実施形態における数値制御装置のブロック図である。

以下、本開示の学習装置１００と数値制御装置２００を説明する。図１における本開示の学習装置１００は、例えば、パーソナルコンピュータであり、プロセッサを用いて所定の学習プログラムを実行させることにより実現される。学習装置１００は、本開示の制御装置としての数値制御装置２００と接続されている。数値制御装置２００は、産業機械３００のサーボモータ２４２を制御する。本開示におけるサーボモータ２４２は誘導モータ２５０である。誘導モータ２５０は、速度サーボ機構や位置サーボ機構を備えており、誘導モータ２５０に印可する電流を変化させることによって速度や負荷を制御する。誘導モータ２５０には、温度センサ、位置センサ、速度センサが設けられており、誘導モータ２５０の状態情報を取得する。誘導モータ２５０の状態情報は、数値制御装置にフィードバックされる。学習装置１００は、数値制御装置にフィードバックされた誘導モータの状態情報を入力し、誘導モータ２５０の行動を学習する。

学習装置１００の学習結果は、パラメータの決定プロセスにおいてサーボアンプ２４１にフィードフォワードしてもよい。これにより、産業機械３００の設定時間が短縮されたり、加工時間が短縮されたりする。

なお、学習装置１００、数値制御装置２００、産業機械３００の構成は、図１に限定されない。数値制御装置２００が学習装置１００の機能を備えてもよいし、サーボアンプ２４１と数値制御装置２００とを個別の装置にしてもよい。また、誘導モータ２５０の状態情報や学習プログラムは、特定のコンピュータで占有するのではなく、広域又は狭域のネットワークを介して共有してもよい。

図２は、学習装置１００と数値制御装置２００のハードウェア構成図である。学習装置１００は、ＣＰＵ１１１、ＲＯＭ１１２、ＲＡＭ１１３、不揮発性メモリ１１４、バス１２０を備える。

ＣＰＵ１１１は、学習装置１００を全体的に制御するプロセッサである。ＣＰＵ１１１は、バス１２０を介してＲＯＭ１１２に格納されたシステム・プログラムを読み出し、該システム・プログラムに従って学習装置１００の全体を制御する。ＲＡＭ１１３には、一時的な計算データや表示データ、オペレータが入力した各種データ等が一時的に格納される。

不揮発性メモリ１１４は、例えば図示しないバッテリでバックアップされるなどして、学習装置１００の電源がオフされても記憶状態が保持されるメモリとして構成される。不揮発性メモリ１１４には、インタフェース１１５を介して外部機器から読み込まれたプログラムや図示しない入力部を介して入力されたプログラムなどが記憶される。不揮発性メモリ１１４に記憶されたプログラムは、ＲＡＭ１１３に展開される。また、ＲＯＭ１１２には、本開示に係る学習プログラムや学習装置１００全体を制御するシステム・プログラムが書き込まれている。学習装置１００の学習を不揮発性メモリ１１４やネットワーク上に記憶するプログラムを実行することにより実現される。

数値制御装置２００が備えるＣＰＵ２１１は、数値制御装置２００を全体的に制御するプロセッサである。ＣＰＵ２１１は、バス２２０を介してＲＯＭ２１２に格納されたシステム・プログラムを読み出し、該システム・プログラムに従って数値制御装置２００の全体を制御する。ＲＡＭ２１３には一時的な計算データや表示データ、図示しない入力部を介してオペレータが入力した各種データ等が一時的に格納される。

不揮発性メモリ２１４は、例えば図示しないバッテリでバックアップされるなどして、数値制御装置２００の電源がオフされても記憶状態が保持されるメモリとして構成される。不揮発性メモリ２１４には、インタフェース２１５を介して外部機器から読み込まれたプログラムや入力部（図示省略）を介して入力されたプログラム、数値制御装置２００の各部や工作機械等から取得された各種データ（例えば、工作機械から取得した設定パラメータ等）が記憶される。不揮発性メモリ２１４に記憶されたプログラムや各種データは、実行時／利用時にはＲＡＭ２１３に展開されても良い。また、ＲＯＭ２１２には、各種のシステム・プログラムがあらかじめ書き込まれている。

インタフェース２１５は、数値制御装置２００とアダプタ等の外部機器と接続するためのインタフェースである。ＰＭＣ（プログラマブル・マシン・コントローラ）２１６は、数値制御装置２００に内蔵されたシーケンス・プログラムで工作機械やロボット、該工作機械や該ロボットに取り付けられたセンサ等のような装置との間でＩ／Ｏユニット２１７を介して信号の入出力を行い制御する。

工作機械の各軸を制御するための軸制御回路２４０はＣＰＵ２１１からの軸の回転指令を受けて、軸の指令をサーボアンプ２４１に出力する。サーボアンプ２４１はこの指令を受けて、工作機械の主軸を回転させる誘導モータ２５０を駆動する。主軸は、位置センサ２５２、速度センサ２５３を内蔵し、位置センサ２５２と速度センサ２５３からの位置・速度フィードバック信号を軸制御回路２４０にフィードバックし、位置・速度のフィードバック制御を行う。

サーボモータ２４２には、位置センサ２５２、速度センサ２５３の他に、温度センサ２５１を備える。数値制御装置２００は、これらのセンサが取得した情報を誘導モータ２５０の状態情報として学習装置１００に出力する。ここで出力される状態情報は、時間と関連付けて記録される時系列データである。

本開示におけるサーボアンプ２４１は、ベクトル制御により誘導モータ２５０を制御する。ベクトル制御とは、誘導モータを流れる電流を、トルクを発生する電流成分と磁束を発生する電流成分に分解し、速度センサを用いてベクトルを制御する方法である。モータの回転状態をモータに取り付けた検出器によって検出すると同時に、モータの電流から負荷の大きさを判断して、目標とする速度やトルクを発生することができる。

図３～図５を参照して、学習装置１００について説明する。図３は学習装置のブロック図である。学習装置１００は、誘導モータ２５０の状態情報を入力する状態情報入力部１１と、入力した状態情報を記憶する状態情報記憶部１２と、誘導モータの励磁電流を学習する学習部１３と、使用する学習モデルを切り換える学習モデル切換部１４と、学習結果を記憶する学習結果記憶部１５と、学習結果をサーボアンプ２４１に出力する学習結果出力部１６とを備える。

本開示における学習部１３は、強化学習を行う。強化学習とは、対象について不完全な知識しかなく、対象へのはたらきかけによって観測する状態が変わってくる場合に、最適なはたらきかけ方の系列を発見する学習方法である。学習部１３の学習対象は誘導モータ２５０である。誘導モータ２５０に印可する励磁電流の大きさを変化させると誘導モータ２５０の駆動状態が変化する。学習部１３は、駆動状態を状態情報として入力し、励磁電流の大きさ、及び励磁電流の立ち上げ指令の出力時間が最適となるよう学習する。

学習部１３に入力される状態情報には誘導モータ２５０の温度が含まれる。学習部１３の学習モデルは、誘導モータ２５０の温度が許容範囲内に含まれるという状態を目標状態とする。学習モデルの設計者は、誘導モータ２５０が目標状態に収束するように学習の報酬を設定する。例えば、励磁電流の立ち上げ指令を出力するという行動の結果、通常は、誘導モータ２５０の温度が上がるが、誘導モータ２５０の温度が許容範囲内にあればプラスの報酬を与える。逆に、誘導モータ２５０の温度が許容範囲外になれば報酬を与えない、又は、マイナスの報酬を与える。このように学習させることにより、誘導モータ２５０の温度を許容範囲内に維持しつつ励磁電流の大きさと立ち上げ指令の出力時間を適切な値に設定することができる。

本開示の学習部１３は、２つの学習モデルを学習する。学習モデル切換部１４は、誘導モータ２５０の負荷を上げる場合と、誘導モータ２５０の速度を上げる場合とで、２つの学習モデルを切り換える。どちらの学習モデルに切り換えるかの判定は、例えば、プログラム解析によって行う。具体的に言えば、プログラム内に誘導モータ２５０の加速指令があれば、加速の学習モデルに切り換え、プログラム内に切削などの負荷を上げる指令があれば、負荷増加の学習モデルに切り換える。どの学習モデルに切り換えるかは、プログラムだけではなく、速度、加速度などの波形からも判定できる。

［加速時の電流変化］
まず、誘導モータ２５０を加速する場合について考える。図４（ａ）は、誘導モータ２５０を加速する場合の励磁電流の変化と、誘導モータ２５０の加速度の変化との関係を示している。誘導モータ２５０の加速度は、励磁電流の立ち上げ段階と、誘導モータ２５０の加速段階との２つの段階に分けることができる。それぞれの段階では、磁束の立ち上げ時間Ｔ１と、加速度の立ち上げ時間Ｔ２を要するものとする。学習の１つの目的は、この磁束の立ち上げ時間Ｔ１と、加速度の立ち上げ時間Ｔ２を短縮させることである。

励磁電流の立ち上げ開始指令を出力する時刻をｔｇとし、実際に励磁電流の立ち上げが終了する時刻をｔｆとし、加速度の立ち上げ開始に適した時刻をｔａとする。図４（ｂ）に示すように、時刻ｔａまでに励磁電流が十分な大きさになっていないと、加速度の立ち上がりが遅くなる。また、図４（ｃ）に示すように、励磁電流の立ち上げ終了時刻ｔｆが時刻ｔａより早いと、励磁電流の印加時間が長くなり、誘導モータの温度上昇に繋がる。

［負荷増加時の電流変化］
図５は、誘導モータ２５０の負荷を増加させる場合の励磁電流の変化と、誘導モータ２５０の速度の変化との関係を示している。誘導モータ２５０の負荷を増加させる場合も、誘導モータ２５０の励磁電流を立ち上げる段階と、誘導モータ２５０に負荷をかける段階との２段階に分かれる。励磁電流を立ち上げる段階では、誘導モータ２５０を加速する場合と同様、励磁電流を大きくすることで励磁電流の立ち上げ時間Ｔ１を短縮しつつ、励磁電流の立ち上げ開始時刻ｔｇを調整する。

誘導モータ２５０の負荷がかかると誘導モータ２５０の速度が低下する。例えば、切削の場合、誘導モータ２５０に取り付けられた被切削物に工具が接触すると、その瞬間、誘導モータ２５０の速度が低下する。速度の低下幅Ｖｄは小さいほうが、加工が安定する。加工を安定させるには励磁電流が大きいほうがよいが、励磁電流が大きいと誘導モータ２５０の温度が高くなる。学習部１３は、誘導モータ２５０の温度が許容範囲内を維持しつつ速度の低下幅Ｖｄが小さくなるように学習する。

ここで、加速時の学習モデルの例を２つと、負荷増加時の学習モデルの例を２つ示す。
［加速時の学習モデル１］
この例において、学習装置１００は、励磁電流の立ち上げ時間Ｔ１と加速度の立ち上げ時間Ｔ２の短いときに高い報酬を与える。学習の目的は、誘導モータ２５０の温度を許容範囲に維持しつつ、加速に要する時間を短縮することである。この学習モデルの１ステップは、励磁電流立ち上げ開始から加速度の立ち上がりの終了までである。学習装置１００は、このステップを繰り返し学習する。選択可能な行動は、ａ１（時刻ｔｇ時の励磁電流を大きくする）と、ａ２（励磁電流立ち上げの開始時間を遅くする）、ａ３（時刻ｔａ時の励磁電流を大きくする）の３つとする。学習対象である誘導モータ２５０が取りうる状態は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ時間Ｔ１と加速度の立ち上げ時間Ｔ２の和（Ｔ１＋Ｔ２）である。ここで、誘導モータ２５０の温度が許容範囲内にあり、Ｔ１＋Ｔ２が短くなる行動に高い報酬を与えると、目的状態に近い行動が学習できる。

［負荷増加時の学習モデル１］
この例において、学習装置１００は、励磁電流の立ち上げ開始から負荷の増加終了までを１ステップとする。学習装置１００は、このステップを繰り返し学習する。選択可能な行動は、ａ１（励磁電流の大きさを大きくする）とａ２（励磁電流立ち上げの開始時間を遅くする）の２つとする。学習対象である誘導モータ２５０が取りうる状態は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ時間Ｔ１、（３）速度の低下幅Ｖｄとする。ここで、誘導モータ２５０の温度が許容範囲内にあり、励磁電流の立ち上げ時間Ｔ１が小さく、速度の低下幅Ｖｄが小さくなる行動に高い報酬を与えると、目的状態に近い行動が学習できる。

上述した学習モデルは一例であり、本開示の要旨は、誘導モータ２５０の駆動状態に関する情報を入力し、誘導モータ２５０の励磁電流に関する情報を出力する学習部１３を提供することである。

ここで、学習モデルの他の例を挙げる。
［加速時の学習モデル２］
この例において、学習装置１００は、時刻ｔａとｔｆとの差が小さく、加速度の立ち上げ時間Ｔ２が短いときに高い報酬を与える。学習の目的は、誘導モータ２５０の温度を許容範囲内に維持しつつ、加速度の立ち上げに適した時刻ｔａと励磁電流の立ち上げ終了時刻ｔｆとを近づけ、さらに、加速度の立ち上げ時間Ｔ２を短縮することである。この学習モデルの１ステップは、励磁電流の立ち上げ開始から加速度の立ち上げ終了までである。学習装置１００は、このステップを繰り返し学習する。選択可能な行動は、ａ１（時刻ｔｇ時の励磁電流を大きくする）、ａ２（励磁電流の立ち上げ時刻ｔｇを遅くする）、ａ３（時刻ｔａ時の励磁電流を大きくする）の３つとする。学習対象である誘導モータ２５０が取り得る状態は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ終了時刻ｔｆ、（３）加速度の立ち上げ時間Ｔ２である。ここで、誘導モータ２５０の温度が許容範囲内にあり、ｔａとｔｆの差が小さくなり、加速度の立ち上げ時間Ｔ２が短くなる行動に高い報酬を与えると、目的状態に近い行動が学習できる。

［負荷増加時の学習モデル２］
この例において、学習装置１００は、時刻ｔａとｔｆの差が小さく、速度の低下幅Ｖｄが小さくなる行動に高い報酬を与える。学習の目的は、誘導モータ２５０の温度を許容範囲内に維持しつつ、負荷の増加時刻ｔｇ前に励磁電流の立ち上げを終了することである。この学習モデルの１ステップは、励磁電流の立ち上げ開始から負荷の増加までである。学習装置１００は、このステップを繰り返し学習する。選択可能な行動は、ａ１（時刻ｔｇ時の励磁電流を大きくする）、ａ２（励磁電流の立ち上げ開始時刻ｔｇを遅くする）の２つとする。学習対象である誘導モータ２５０が取り得る状態は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ終了時刻ｔｓ、（３）速度の低下幅Ｖｄとする。ここで、誘導モータ２５０の温度が許容範囲内にあり、ｔａとｔｆの差が小さく、速度の低下幅Ｖｄが小さくなる行動に高い報酬を与えると、目的状態に近い行動が学習できる。

本実施の形態では、学習装置１００は、誘導モータ２５０を加速する場合と、誘導モータ２５０の負荷を増加させる場合の２つの場合に応じて学習モデルを切り換える。なお、励磁電流の立ち上げ終了時刻ｔｆや加速度の立ち上げ時間Ｔ２は、励磁電流や加速度の値から計算するようにしてもよい。また、加速度の立ち上げに適した時刻ｔａは、プログラムやシミュレーションから推定したり、実際に産業機械を動かして確認したりする。
速度の低下幅は、速度の値から計算するようにしてもよい。また、誘導モータ２５０の負荷を増加する時刻ｔｂは、プログラムやシミュレーションから推定したり、実際に産業機械を動かして判定したりする。

次いで、学習装置１００の動作を図６のフローチャートを参照して説明する。学習の開始時には、まず初期設定を行う。上述の学習装置１００では、励磁電流の大きさと、励磁電流の立ち上げ開始時刻ｔｇとを行動とするため、過去のデータや経験に基づき目標値に近い値を初期値として設定する（ステップＳ１）。確からしい値を初期値として設定すると学習の収束が早まる。

次いで、学習モデル切換部１４は、プログラム解析を行い（ステップＳ２）、励磁電流の立ち上げ、加速度の立ち上げ、負荷の増加に関連する指令がプログラムに記載されているか否かを探索する。該当する指令がプログラムに記載されている場合、指令の種類に応じて学習モデルを切り換える（ステップＳ３）。

指令が誘導モータ２５０の加速度の立ち上げに関する場合（ステップＳ３；加速度）、学習部１３は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ時間Ｔ１と加速度の立ち上げ時間Ｔ２の和を含む情報を状態情報として入力して、ａ１（時刻ｔｇ時の励磁電流を大きくする）と、ａ２（励磁電流立ち上げの開始時間を遅くする）、ａ３（時刻ｔａ時の励磁電流を大きくする）の３つの行動の方策を学習する（ステップＳ４）。

指令が誘導モータ２５０の負荷の増加に関する場合（ステップＳ３；負荷）、学習部１３は、（１）誘導モータ２５０の温度、（２）励磁電流の立ち上げ終了時間ｔｆ、（３）速度の低下幅Ｖｄを含む情報を状態情報として入力して、ａ１（励磁電流を大きくする）と、ａ２（励磁電流立ち上げの開始時間を遅くする）の２つの行動の方策を学習する（ステップＳ５）。

学習部１３は、所定の回数、または、入力データが存在する限り学習を継続する。学習を継続する場合（ステップＳ６；Ｙｅｓ）、ステップＳ２のプログラム解析に移行し学習を繰り返す。なお、同じ動作を何度も繰り返すのであれば、プログラムを解析せずに学習モデルを固定してもよい。
学習が終了すると、学習結果記憶部１５に学習結果を記憶し、必要に応じて学習結果を数値制御装置２００などに出力する（ステップＳ７）。

学習モデルの構成や入力、出力も上記のものには限定されない。例えば、上記の開示では２つの学習モデルを切り替えたが、３つの学習モデルを切り替えることもできる。３つの学習モデルの一例として、励磁電流の立ち上げの学習モデルと、誘導モータ２５０の加速度の立ち上げの学習モデルと、誘導モータ２５０の負荷増加の学習モデルである。励磁電流の立ち上げの学習モデルでは、誘導モータ２５０の温度を許容範囲に維持しつつ励磁電流の立ち上げ時間Ｔ１が短くなるよう、励磁電流の立ち上げ開始時刻ｔｇと時刻ｔｇ時の励磁電流の大きさを学習する。誘導モータ２５０の加速度の立ち上げの学習モデルでは、誘導モータ２５０の温度を許容範囲に維持しつつ加速度の立ち上げ時間Ｔ２が小さくなるよう時刻ｔａ時の励磁電流の大きさを学習する。誘導モータ２５０の負荷増加の学習モデルでは、誘導モータ２５０の温度を許容範囲に維持しつつ負荷増加時の誘導モータの速度低下Ｖｄが小さくなるよう学習する。３つの学習モデルは、それぞれ、誘導モータ２５０の温度を許容範囲内に維持しつつ、目的状態に収束するよう学習を行う。

上述した学習モデルは、状態情報として誘導モータの温度、励磁電流の立ち上げ時間Ｔ１、加速度の立ち上げ時間Ｔ２、速度の低下幅Ｖｄなどの連続値を入力し、行動としてａ１（時刻ｔｇ時の励磁電流の大きさ）、ａ２（励磁電流の立ち上げ開始時間）、ａ３（時刻ｔａ時の励磁電流の大きさ）などの連続値を出力する。そのため、学習部１３は、例えば、方策勾配法など連続値を扱うことのできる学習アルゴリズムで学習を行う。なお、学習部１３は、使用する学習モデルや学習アルゴリズムに応じて入力した状態情報の正規化など、情報の前処理を行う。

入力情報や出力情報を離散化すれば、Ｑ－Ｌｅａｒｎｉｎｇなどの離散値を扱う学習アルゴリズムを使用することも可能である。その場合、学習部１３では情報の離散化などの前処理を行う。

学習部１３の学習は、誘導モータ２５０の駆動と同時に動的に行ってもよいし、過去の誘導モータ２５０の駆動状態と行動とを状態情報記憶部１２に記憶し、蓄積した状態情報と行動とを学習してもよい。図１に示すように学習結果をフィードフォワードして、産業機械の準備時間の短縮や安定性を向上させることもできる。

最後に、学習装置１００の学習結果を数値制御装置２００で利用する構成について説明する。図７は、数値制御装置２００のブロック図である。数値制御装置２００は、学習結果を入力する学習結果入力部２１と、学習結果に基づきサーボアンプ２４１に指令を送る学習指令出力部２２とを備える。学習結果は、例えば、プログラムの指令と、励磁電流の大きさと、励磁電流の増加指令の出力時間とを対応づけた情報である。数値制御装置２００は、誘導モータ２５０を制御する際、該当するプログラムの指令が存在すると、学習結果を読み出す。そして、読み出した学習結果に従い、誘導モータ２５０の励磁電流の立ち上げ指令を出力する。学習部１３が学習した励磁電流の立ち上げ時間に、学習部１３が学習した大きさの励磁電流を印加することにより、励磁電流の立ち上げに要する準備時間が短縮される。また、加速度を立ち上げる場合には、加速度の立ち上げ時間も短縮される。負荷を増加させる場合には、速度の低下幅を少なくすることができる。

以上、ここまで本発明の実施の形態について説明したが、本発明は上記した実施の形態の例にのみ限定されるものでなく、適宜の変更を加えることにより様々な態様で実施することができる。

１００学習装置
１１１ＣＰＵ
１１状態情報入力部
１３学習部
１４学習モデル切換部
１６学習結果出力部
２００数値制御装置
２１１ＣＰＵ
２４０軸制御回路
２４１サーボアンプ
２４２サーボモータ
２５０誘導モータ
２５１温度センサ
２５２位置センサ
２５３速度センサ

Claims

少なくとも１つのプロセッサを備える学習装置であって、
モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、
前記モータの励磁電流を立ち上げる場合、
前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、
前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、
前記学習部は、前記励磁電流の立ち上げ終了時間と、前記モータの加速度の立ち上げ開始時間との差の絶対値が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える、
学習装置。
少なくとも１つのプロセッサを備える学習装置であって、
モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、
前記モータの励磁電流を立ち上げる場合、
前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、
前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、
前記モータの駆動状態に関する情報は、前記モータの励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間と、を含み、
前記学習部は、前記励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間との和が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える、
学習装置。
少なくとも１つのプロセッサを備える学習装置であって、
モータの駆動状態に関する情報を入力、前記モータの励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を前記プロセッサに学習させる学習部を備え、
前記モータの負荷を増加させる場合、
前記モータの駆動状態に関する情報は、前記モータの速度が低下したときの低下幅と、前記励磁電流の電流量との情報を含み、
前記励磁電流に関する情報は、前記励磁電流の電流量の情報を含み、
前記学習部は、前記速度の低下幅が小さくなるように、前記励磁電流の大きさを調整する行動に対しプラスの報酬を与える、
学習装置。
産業機械のモータを制御する制御装置であって、
請求項１～３のいずれかに記載の学習装置を備え、
前記学習装置が学習した励磁電流に基づき前記モータを駆動する、制御装置。
少なくとも１つのプロセッサによって実装される学習方法であって、
モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、
前記モータの励磁電流を立ち上げる場合、
前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、
前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、
前記学習において、前記励磁電流の立ち上げ終了時間と、前記モータの加速度の立ち上げ開始時間との差の絶対値が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える、
学習方法。
少なくとも１つのプロセッサによって実装される学習方法であって、
モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、
前記モータの励磁電流を立ち上げる場合、
前記モータの駆動状態に関する情報は、前記励磁電流の立ち上げ終了時間に関する情報と、前記モータの温度に関する情報とを含み、
前記励磁電流に関する情報は、励磁電流の大きさと、前記励磁電流の立ち上げ開始時間との情報を含み、
前記モータの駆動状態に関する情報は、前記モータの励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間と、を含み、
前記学習において、前記励磁電流の立ち上げに要する時間と、前記モータの加速度の立ち上げに要する時間との和が小さくなるように、前記励磁電流の立ち上げ開始時間を調整する行動に対しプラスの報酬を与える、
学習方法。
少なくとも１つのプロセッサによって実装される学習方法であって、
モータの駆動状態に関する情報を入力、前記モータに印可する励磁電流に関する情報を出力とし、前記モータの駆動状態に適した励磁電流を学習する際に、
前記モータの負荷を増加させる場合、
前記モータの駆動状態に関する情報は、前記モータの速度が低下したときの低下幅と、前記励磁電流の電流量との情報を含み、
前記励磁電流に関する情報は、前記励磁電流の電流量の情報を含み、
前記学習において、前記速度の低下幅が小さくなるように、前記励磁電流の大きさを調整する行動に対しプラスの報酬を与える、
学習方法。