JP2018097680A - 制御システム及び機械学習装置 - Google Patents

制御システム及び機械学習装置 Download PDF

Info

Publication number
JP2018097680A
JP2018097680A JP2016242572A JP2016242572A JP2018097680A JP 2018097680 A JP2018097680 A JP 2018097680A JP 2016242572 A JP2016242572 A JP 2016242572A JP 2016242572 A JP2016242572 A JP 2016242572A JP 2018097680 A JP2018097680 A JP 2018097680A
Authority
JP
Japan
Prior art keywords
machine
learning
unit
servo gain
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016242572A
Other languages
English (en)
Other versions
JP6457472B2 (ja
Inventor
山口 剛太
Kota Yamaguchi
剛太 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2016242572A priority Critical patent/JP6457472B2/ja
Priority to US15/838,510 priority patent/US10564611B2/en
Priority to DE102017011544.3A priority patent/DE102017011544A1/de
Priority to CN201711337999.9A priority patent/CN108227482B/zh
Publication of JP2018097680A publication Critical patent/JP2018097680A/ja
Application granted granted Critical
Publication of JP6457472B2 publication Critical patent/JP6457472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • G05B19/4083Adapting programme, configuration
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/414Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/4155Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by programme execution, i.e. part programme or machine function execution, e.g. selection of a programme
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33034Online learning, training
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42018Pid learning controller, gains adapted as function of previous error
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42152Learn, self, auto tuning, calibrating, environment adaptation, repetition

Abstract

【課題】機械学習により機械の動作条件や動作環境、優先ファクタに応じて設備内機械のサーボゲインを最適化する制御装置及び機械学習装置を提供すること。【解決手段】本発明の制御システム1は、機械3の機械に係る情報を状態データとして観測する状態観測部21と、機械3による加工に係る情報を判定データとして取得する判定データ取得部22と、判定データと報酬条件とに基づいて報酬を計算する報酬計算部26と、機械のサーボゲインの調整を機械学習する学習部23と、機械のサーボゲインの調整の機械学習結果と、状態データと基づいて、機械3のサーボゲインの調整行動を決定する意思決定部27と、決定されたサーボゲインの調整行動に基づいて機械3のサーボゲインを変更するゲイン変更部28と、を備える。【選択図】図5

Description

本発明は、制御システム及び機械学習装置に関し、特に機械学習により設備内機械制御におけるサーボゲインを最適化する制御装置及び機械学習装置に関する。
制御装置のサーボゲインの設定は、制御対象となる機械の動作に大きな影響を与え、加工品の品質や生産性に対して直接的な影響を与える。サーボゲインの設定は、機械毎に、ワークやツール、精度やサイクルタイム、金型の重量や樹脂の粘度などの加工条件のもと、調整用ツールを使用し、必要に応じてその都度設定・調整されることが多く、最適化するのに時間を要する。また、運転状態に応じて、その都度運転中に最適なゲインに切換えたい状況もある。
制御装置のサーボゲインには、電流ループゲイン、速度ループゲイン、ポジションループゲイン、圧力制御比例・積分ゲインなど、様々な種類が存在する。従来は、機械の剛性、負荷イナーシャやツールの種類、動作の仕方など、様々な条件により、調整用ツールを使用するなどして、個々に最適な値を設定する必要があった。また、加工精度優先や速度優先など優先するファクタによっても、最適なゲインを再調整する必要がある。
サーボゲインの調整に係る従来技術としては、例えば特許文献1には、ニューラルネットワークを用いて機械動作の制御における調整を行うシステムが開示されている。また、特許文献2には、個々のロボットの性能データを取得し、ユーザの性能目標に応じて、制御利得を含めて制御プログラムを最適化する技術が開示されている。
特許第2851901号公報 特開2006−302282号公報
サーボゲインを調整する際には、例えば、機械の剛性、対象ワーク、ツールや治具、金型の重量、射出成形時の樹脂の粘度の影響などのような、制御対象となる機械の動作条件や動作環境などにより、運転前に最適なゲインを推定するのは困難である場合が多い。また、形状誤差、生産性、消費電力、機械への負荷など、どのようなファクタを優先してゲインを設定するのかがその都度異なるため、やはり運転前に最適なゲインを推定するのは困難である場合が多い。そして、このような課題を特許文献1,2に開示される技術は解決することができない。
そこで本発明の目的は、機械学習により機械の動作条件や動作環境、優先ファクタに応じて設備内機械のサーボゲインを最適化する制御装置及び機械学習装置を提供することである。
本発明は、複数の制御装置の上位の制御装置またはフィールドコンピュータに機械学習器を導入し、各機械の制御装置から収集した、各軸の情報(位置偏差、サイクルタイム、モータ負荷、消費電力、速度変動率など)、各機械の稼動条件に関する情報(モータの特性、機械の剛性、ワークの種類、樹脂の粘度、使用するツール、治具、金型の重量や形状、樹脂の種類や粘度など)に基づいて、優先ファクタを最適化するような機械学習を行う。本発明の制御システムでは、各機械の稼動条件と、価値関数の最新データにより最適なゲインの推定初期値を制御装置に設定し、制御装置から得られる各軸の情報に基づく報酬を算定して機械学習器の学習に用いる。本発明の制御システムでは、少なくとも優先ファクタに応じて複数の機械学習に用いる価値関数を記憶しておき、状況に応じて最適な価値関数をデータベースから選択して使い分けるようにしてもよい。
そして、本願の請求項1に係る発明は、ワークを加工する少なくとも1つの機械と、該機械による加工で用いられるサーボゲインを調整する上位装置を備えた制御システムであって、前記機械のサーボゲインの調整を機械学習する機械学習装置を備え、前記機械学習装置は、前記機械の機械に係る情報を状態データとして観測する状態観測部と、前記機械による加工に係る情報を判定データとして取得する判定データ取得部と、前記判定データとあらかじめ設定された報酬条件とに基づいて報酬を計算する報酬計算部と、前記機械のサーボゲインの調整を機械学習する学習部と、前記学習部による前記機械のサーボゲインの調整の機械学習結果と、前記状態データと基づいて、前記機械のサーボゲインの調整行動を決定する意思決定部と、前記意思決定部により決定されたサーボゲインの調整行動に基づいて前記機械のサーボゲインを変更するゲイン変更部と、を備え、前記学習部は、前記状態データと、前記調整行動と、前記調整行動の後に計算された報酬と、に基づいて前記機械のサーボゲインの調整を機械学習する、制御システムである。
本願の請求項2に係る発明は、前記機械に対してあらかじめ設定された優先ファクタに基づいて、前記機械学習及び前記調整行動の決定に用いられる価値関数を切換える価値関数切換え判定部を更に備える、請求項1に記載の制御システムである。
本願の請求項3に係る発明は、前記報酬条件は、前記優先ファクタ毎に設定される報酬条件に基づいてプラスまたはマイナスの報酬を計算する、請求項1または2に記載の制御システムである。
本願の請求項4に係る発明は、少なくとも1つの他の数値制御装置と接続されており、前記他の上位装置との間で機械学習の結果を相互に交換または共有する、請求項1〜3のいずれか1つに記載の制御システムである。
本願の請求項5に係る発明は、ワークを加工する少なくとも1つの機械による加工で用いられるサーボゲインの調整を機械学習する機械学習装置であって、前記機械の機械に係る情報を状態データとして観測する状態観測部と、前記機械による加工に係る情報を判定データとして取得する判定データ取得部と、前記判定データとあらかじめ設定された報酬条件とに基づいて報酬を計算する報酬計算部と、前記機械のサーボゲインの調整を機械学習する学習部と、前記学習部による前記機械のサーボゲインの調整の機械学習結果と、前記状態データと基づいて、前記機械のサーボゲインの調整行動を決定する意思決定部と、前記意思決定部により決定されたサーボゲインの調整行動に基づいて前記機械のサーボゲインを変更するゲイン変更部と、を有し、前記学習部は、前記状態データと、前記調整行動と、前記調整行動の後に計算された報酬と、に基づいて前記機械のサーボゲインの調整を機械学習する、機械学習装置である。
本願の請求項6に係る発明は、前記機械に対してあらかじめ設定された優先ファクタに基づいて、前記機械学習及び前記調整行動の決定に用いられる価値関数を切換える価値関数切換え判定部を更に備える、請求項5に記載の機械学習装置である。
本発明により、制御対象の各機械について、優先ファクタを向上させるゲインの組合せを推定でき、推定結果を制御装置による機械制御に適用することで、リアルタイムにかつ自動的に各機械での優先ファクタを向上させることができる。また、機械毎に作業者がゲインを調整する必要がなく、エッジ環境で統一的に全機械のゲインの最適化を自動に行えるようになり、ゲイン調整にかかる手間と時間を削減できる。更に、個々の機械の稼動条件と最適ゲインの推定結果で価値関数を更新し、共有された価値関数を別の機械の学習時に利用することができ、その結果、自動的かつ効率的に最適ゲインを推定、設定できる。
強化学習アルゴリズムの基本的な概念を説明する図である。 ニューロンのモデルを示す模式図である。 3層の重みを有するニューラルネットワークを示す模式図である。 本発明の実施形態による制御システムの機械学習に関するイメージ図である。 本発明の実施形態による制御システムの概略的な機能ブロック図である。 本発明の実施形態における機械学習の流れを示すフローチャートである。
以下、本発明の実施形態を図面と共に説明する。
本発明では、各機械を制御する少なくとも1以上の制御装置の上位に位置する上位装置(制御装置やフィールドコンピュータなど)に対して人工知能となる機械学習装置を導入し、各軸の情報や機械の稼動条件、優先ファクタに対する、各制御装置による機械の制御に用いられるサーボゲインの調整を機械学習することで、優先ファクタを向上させるゲインの組合せを自動的に求めることができるようにする。
以下では、本発明で導入する機械学習について簡単に説明する。
<1.機械学習>
ここで、機械学習について簡単に説明する。機械学習は、機械学習を行う装置(以下、機械学習装置)に入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力すると共に、知識の学習を行うことで実現される。機械学習の手法は様々であるが、大別すれば「教師あり学習」、「教師なし学習」、「強化学習」に分けられる。さらに、これらの手法を実現する上で、特徴量そのものの抽出を学習する、「深層学習」と呼ばれる手法がある。
「教師あり学習」とは、ある入力と結果(ラベル)のデータの組を大量に機械学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、即ち、その関係性を帰納的に獲得することができる。これは後述のニューラルネットワークなどのアルゴリズムを用いて実現することができる。
「教師なし学習」とは、入力データのみを大量に学習装置に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮、分類、整形などを行う装置を学習する手法である。それらのデータセットにある特徴を似た者どうしにクラスタリングすることなどができる。この結果を使って、何らかの基準を設けてそれを最適にするような出力の割り当てを行うことで、出力の予測を実現することができる。また「教師なし学習」と「教師あり学習」との中間的な問題設定として、「半教師あり学習」と呼ばれるものもあり、これは一部のみ入力と出力のデータの組が存在し、それ以外は入力のみのデータである場合がこれに当たる。本実施形態においては、実際に加工機を動作させなくても取得することが出来るデータを教師なし学習で利用し、学習を効率的に行うことが出来る。
「強化学習」とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、即ち、将来的に得られる報酬を最大にするための学習する方法である。強化学習においては、機械学習装置は行動が引き起こす結果を全く知らない状態から、または不完全にしか知らない状態から学習はスタートすることができる。また、人間の動作を真似るように事前学習(前述の教師あり学習や、逆強化学習といった手法)した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。
なお、加工機に対して機械学習を適用する場合、加工機が実際に動作して初めて、その結果をデータとして得ることが出来ること、即ち、試行錯誤しながら最適な行動を探索する必要があることを考慮する必要がある。本発明では、機械学習装置の主たる学習アルゴリズムとして報酬を与えることで機械学習装置が目標到達のための行動を自動的に学習する強化学習のアルゴリズムを採用している。
図1は、強化学習アルゴリズムの基本的な概念を説明する図である。強化学習においては、学習する主体となるエージェント(機械学習装置)と、制御対象となる環境(制御対象システム)とのやりとりにより、エージェントの学習と行動が進められる。より具体的には、(1)エージェントはある時点における環境の状態stを観測し、(2)観測結果と過去の学習に基づいて自分が取れる行動atを選択して行動atを実行し、(3)何らかの規則および行動atの実行に基づいて環境の状態stが次の状態st+1へと変化し、(4)行動atの結果としての状態の変化に基づいてエージェントが報酬rt+1を受け取り、(5)エージェントが状態st、行動at、報酬rt+1および過去の学習の結果に基づいて学習を進める、といったやりとりがエージェントと環境の間で行われる。
強化学習の初期の段階では、エージェントは(2)の行動選択において環境の状態stに対する最適な行動atを選択するための価値判断の基準が全く分かっていない。そこで、エージェントは或る状態stの元で様々な行動atを選択し、その時の行動atに対して与えられた報酬rt+1に基づいて、より良い行動の選択、すなわち正しい価値判断の基準を学習していく。
上記した(5)における学習においては、エ−ジェントは将来取得できる報酬の量を判断するための基準となる情報として、観測された状態st,行動at,報酬rt+1のマッピングを獲得する。例えば、各時刻において取り得る状態の個数がm、取り得る行動の個数がnとすると、行動を繰り返すことによって状態stと行動atの組に対する報酬rt+1を記憶するm×nの2次元配列が得られる。
そして、上記得られたマッピングに基づいて選択した状態や行動がどのくらい良いのかを示す関数である価値関数(評価関数)を用い、行動を繰り返す中で価値関数(評価関数)を更新していくことにより状態に対する最適な行動を学習していく。
状態価値関数は、ある状態stがどのくらい良い状態であるのかを示す価値関数である。状態価値関数は、状態を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態の価値などに基づいて更新される。状態価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、強化学習アルゴリズムの1つであるTD学習においては、状態価値関数は以下の数1式で更新される。なお、数1式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
Figure 2018097680
また、行動価値関数は、ある状態stにおいて行動atがどのくらい良い行動であるのかを示す価値関数である。行動価値関数は、状態と行動を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態における行動の価値などに基づいて更新される。行動価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、代表的な強化学習アルゴリズムの1つであるQ学習においては、行動価値関数は以下の数2式で更新される。なお、数2式においてαは学習係数、γは割引率と呼ばれ、0<α≦1、0<γ≦1の範囲で定義される。
Figure 2018097680
数2式は、行動atの結果帰ってきた報酬rt+1を元に、状態stにおける行動atの評価値Q(st,at)を更新する方法を表している。状態stにおける行動atの評価値Q(st,at)よりも、報酬rt+1+行動atによる次の状態における最良の行動max(a)の評価値Q(st+1,max(a))の方が大きければ、Q(st,at)を大きくするし、反対に小さければ、Q(st,at)も小さくする事を示している。つまり、ある状態におけるある行動の価値を、結果として即時返ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。
Q学習においては、このような更新を繰り返すことで、最終的にQ(st,at)が期待値E[Σγtt]となるようにすることを目指す(期待値は最適な行動に従って状態変化した時についてとる。もちろん、それは分かっていないので、探索しながら学習しなければならない)。
そして、上記した(2)における行動の選択においては、過去の学習によって作成された価値関数(評価関数)を用いて現在の状態stにおいて将来にわたっての報酬(rt+1+rt+2+…)が最大となる行動at(状態価値関数を用いている場合には、もっとも価値の高い状態へ移るための行動、行動価値関数を用いている場合には該状態において最も価値の高い行動)を選択する。なお、エージェントの学習中には学習の進展を目的として(2)における行動の選択において一定の確率でランダムな行動を選択することもある(εグリーディ法)。
なお、学習結果としての価値関数(評価関数)を記憶する方法としては、すべての状態行動ペア(s,a)に対して、その値をテーブル(行動価値テーブル)として保持しておく方法や、上記価値関数を近似するような関数を用意する方法がある。後者の方法では、前述の更新式は、確率勾配降下法などの手法で近似関数のパラメータを調整していくことで実現することが出来る。近似関数としては、ニューラルネットワークなどの教師あり学習器を用いることが出来る。
ニューラルネットワークは、たとえば図2に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。図2は、ニューロンのモデルを示す模式図である。
図2に示すように、ニューロンは、複数の入力x(ここでは一例として、入力x1〜入力x3)に対する出力yを出力するものである。各入力x1〜x3には、この入力xに対応する重みw(w1〜w3)が掛けられる。これにより、ニューロンは、次の数3式により表現される出力yを出力する。なお、数3式において、入力x、出力y及び重みwは、すべてベクトルである。また、θはバイアスであり、fkは活性化関数である。
Figure 2018097680
次に、上述したニューロンを組み合わせた3層の重みを有するニューラルネットワークについて、図3を参照して説明する。図3は、D1〜D3の3層の重みを有するニューラルネットワークを示す模式図である。図3に示すように、ニューラルネットワークの左側から複数の入力x(ここでは一例として、入力x1〜入力x3)が入力され、右側から結果y(ここでは一例として、結果y1〜結果y3)が出力される。
具体的には、入力x1〜入力x3は、3つのニューロンN11〜N13の各々に対して対応する重みが掛けられて入力される。これらの入力に掛けられる重みはまとめてw1と標記されている。ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。これらのz11〜z13はまとめて特徴ベクトルz1と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルz1は、重みw1と重みw2との間の特徴ベクトルである。
z11〜z13は、2つのニューロンN21、N22の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてw2と標記されている。ニューロンN21、N22は、それぞれ、z21、z22を出力する。これらは、まとめて特徴ベクトルz2と標記されている。この特徴ベクトルz2は、重みw2と重みw3との間の特徴ベクトルである。
特徴ベクトルz21、z22は、3つのニューロンN31〜N33の各々に対して対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてw3と標記されている。
最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。
ニューラルネットワークの動作には、学習モードと予測モードとがあり、学習モードにおいて学習データセットを用いて重みwを学習し、そのパラメータを用いて予測モードにおいて加工機の行動判断を行う(便宜上、予測と書いたが、検出、分類、推論など多様なタスクが可能である)。
予測モードで実際に制御装置により機械を制御して得られたデータを即時学習し、次の行動に反映させる(オンライン学習)ことも、あらかじめ収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメータで検知モードを行う(バッチ学習)こともできる。その中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。
重みw1〜w3は、誤差逆伝搬法(バックプロパゲーション)により学習可能なものである。誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの出力yと真の出力y(教師)との差分を小さくするように、それぞれの重みを調整(学習)する手法である。
ニューラルネットワークは、3層以上にさらに層を増やすことも可能である(深層学習と称される)。入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することが可能である。
このようなニューラルネットワークを近似関数として用いることで、上記した強化学習の過程における(1)〜(5)を繰り返しつつ上記した価値関数(評価関数)をニューラルネットワークとして記憶して学習を進めることができる。
一般的に機械学習装置は、ある環境において学習が終了した後に、新たな環境におかれた場合でも追加の学習を行うことでその環境に適応するように学習を進めることができる。したがって、本発明のように各制御装置による機械の制御に用いられるサーボゲインの調整に適用することで、新しい機械制御の前提条件に適用したりする場合であっても、過去のサーボゲインの調整の学習を基にして、新たな加工の前提条件における追加の学習をすることで、サーボゲインの調整の学習を短時間で行うことが可能となる。
また、強化学習においては、複数のエージェントをネットワークなどを介して接続したシステムとし、エージェント間で状態s、行動a、報酬rなどの情報を共有してそれぞれの学習に利用することで、それぞれのエージェントが他のエージェントの環境も考慮して学習をする分散強化学習を行うことで効率的な学習を行うことができる。本発明においても、複数の環境(旋盤加工機の数値制御装置)に組み込まれた複数のエージェント(機械学習装置)がネットワークなどを介して接続された状態で分散機械学習を行うことで、旋盤加工機の数値制御装置における旋削サイクル指令の加工経路と加工条件の調整の学習を効率的に行わせることができるようになる。
なお、強化学習のアルゴリズムとしては、Q学習、SARSA法、TD学習、AC法など様々な手法が周知となっているが、本発明に適用する方法としていずれの強化学習アルゴリズムを採用してもよい。上記したそれぞれの強化学習アルゴリズムは周知なので、本明細書における各アルゴリズムの詳細な説明は省略する。
以下では、機械学習装置を導入した本発明の制御システムについて、具体的な実施形態に基づいて説明する。
<2.実施形態>
図4は、本発明の一実施形態における機械学習装置を導入した制御システムにおける各制御装置による機械の制御に用いられるサーボゲインの調整に調整の機械学習に関するイメージを示す図である。なお、図4には本実施形態における制御システムでの機械学習の説明に必要な構成のみを示している。
本実施形態において、機械学習装置20が環境(<1.機械学習>で説明した状態st)を特定するための情報として、機械3から取得された各軸の情報や機械の稼動条件を状態情報として機械学習装置20に対して入力している。
本実施形態では、機械学習装置20が環境に対して出力するもの(<1.機械学習>で説明した行動at)として、各制御装置による機械の制御に用いられるサーボゲインの調整行動を出力する。
本実施形態による制御システム1では、上記した状態情報を、機械3から取得された各軸の情報や機械の稼動条件により状態を定義する。そして、上記した調整行動は機械学習装置20が出力する機械の制御に用いられるサーボゲインの調整量により定義できる。
また本実施形態では、機械学習装置20に対して与えられる報酬(<1.機械学習>で説明した報酬rt)として、優先ファクタと機械3の稼動結果により定まる条件(プラス・マイナス報酬)を採用する。なお、いずれのデータに基づいて報酬を決定するのかについては、作業者が適宜設定するようにしてもよい。
更に、本実施形態では、機械学習装置20は上記した状態情報(入力データ)、調整行動(出力データ)、報酬に基づいて機械学習を行う。機械学習においては、ある時刻tにおいて、入力データの組み合わせにより状態stが定義され、定義された状態stに対して行われるサーボゲインの調整が行動atとなり、そして、行動atによりサーボゲインの調整が行われた結果として新たに得られた機械の稼動結果のデータに基づいて評価計算された値が報酬rt+1となり、これを<1.機械学習>で説明したように、機械学習のアルゴリズムに応じた価値関数(評価関数)の更新式に当てはめることにより学習を進める。
以下では、制御システムの機能ブロック図に基づいて説明する。
図5は、本実施形態による制御システムの機能ブロック図である。図6に示した構成を、図1に示した強化学習における要素と対比すると、機械学習装置20がエージェントに対応し、機械学習装置20を除く機械3などの構成が環境に対応する。
本実施形態による制御システム1は、機械学習装置20を備えた上位装置2と、少なくとも1つの機械3とから構成される。また、上位装置は2、機械3を制御する制御装置に対して上位に位置する装置であり、制御装置やフィールドコンピュータ、ホストコンピュータなどである。
本実施形態による工場内設備としての機械3は、機械3の温度や剛性、加工対象のワークの種類、加工に用いられる工具や治具、金型の種類、加工に用いられる樹脂の種類や粘土の種類など、機械3に係る情報を取得して上位装置2へと出力する機械情報出力部30、軸の位置偏差率や変動率、加工に係るサイクルタイム、最大モータ負荷値、消費電力、モータの速度と変動率など、加工に係る情報を取得して上位装置2へと出力する加工情報出力部31、電流ループゲイン、速度ループゲイン、ポジションループゲイン、圧力制御比例・積分ゲインなどのサーボゲインを設定するサーボゲイン設定部32を備える。
機械情報出力部30は機械3に係る情報を、機械3の図示しない設定用メモリ等や、機械3の各部に備え付けられた図示しないセンサなどから取得して、上位装置2からの要求に応じて機械3に係る情報を出力する。
加工情報出力部31は、加工が行われる際に、機械3の各部に備え付けられた図示しないセンサやサーボモータの出力などを監視し、例えば1サイクルの加工が完了したタイミングで監視したデータに基づいて加工に係る情報を作成し、作成した加工に係る情報を上位装置2へと出力する。
サーボゲイン設定部32は、上位装置2からの要求に応じて機械3が備えるサーボモータのサーボゲインを設定する。サーボゲインの設定は、電流ループゲイン、速度ループゲイン、ポジションループゲイン、圧力制御比例・積分ゲインなどで設定することができる。
機械学習を行う機械学習装置20は、機械3で加工が開始される際に機械3のサーボゲインの調整動作を行い、また、該調整動作により調整されたサーボゲインによる機械3での加工が終了した際に該調整動作の学習を行う。
機械学習を行う機械学習装置20は、状態観測部21、判定データ取得部22、学習部23、価値関数切換え判定部24、価値関数更新部25、報酬計算部26、意思決定部27、ゲイン変更部28を備える。機械学習装置20は、図に示すように上位装置2内に組み込んで構成してもよいし、上位装置2に接続されているパソコン等で構成するようにしても良い。
状態観測部21は、機械3が備える機械情報出力部30が出力する機械に係る情報を状態に係るデータとして観測して機械学習装置20内に取得する機能手段である。状態観測部21は、観測した状態にかかるデータを学習部23へと出力する。状態観測部21は、観測した状態に係るデータを図示しないメモリ上に一時的に記憶して管理するようにしても良い。状態観測部21が観測する状態に係るデータは、機械3による最新の加工運転により取得したデータでも、過去の加工運転から取得したデータでも構わない。
判定データ取得部22は、機械3が備える加工情報出力部31が出力する加工に係る情報を判定データとして機械学習装置20内に取得する機能手段である。判定データ取得部22は、取得した判定データを学習部23へと出力する。判定データ取得部22は、取得した判定データを図示しないメモリ上に一時的に記憶して状態観測部21が取得した状態に係るデータと併せて管理するようにしても良い。判定データ取得部22が取得する判定データは、機械3による最新の加工運転により取得したデータでも、過去の加工運転から取得したデータでも構わない。
学習部23は、状態観測部21が観測した状態にかかるデータと、判定データ取得部22が取得した判定データと、後述する報酬計算部26が計算した報酬と基づいて、優先ファクタ毎の機械に係る情報、加工に係る情報に対するサーボゲインの調整行動の機械学習(強化学習)を行う。学習部23が行う機械学習においては、ある時刻tにおける状態に係るデータの組み合わせにより状態stが定義され、定義された状態stに応じて後述する意思決定部27が機械3のサーボゲインの調整動作を決定して後述するゲイン変更部28が機械3のサーボゲインを調整することが行動atとなり、機械3のサーボゲインの調整が為され、機械3による加工が行われ、その結果として判定データ取得部22が取得した判定データに基づいて後述する報酬計算部26で計算された値が報酬rt+1となる。学習に用いられる価値関数については、適用する学習アルゴリズムに応じて決定する。例えば、Q学習を用いる場合には、上記した数2式に従って行動価値関数Q(st,at)を更新することにより学習を進めるようにすれば良い。
価値関数切換え判定部24は、ユーザにより設定された各機械3の優先ファクタに基づいて、機械3に対するサーボゲインの調整行動の決定や、機械3に対するサーボゲインの調整行動の結果に基づく機械学習に用いる価値関数の切換えを行う。機械学習装置20の図示しないメモリ上に設けられた価値関数記憶部40には、あらかじめ機械の優先ファクタ毎に異なる複数の価値関数が記憶されており、価値関数切換え判定部24は、サーボゲインの調整行動を行う機械3(または、サーボゲインの調整行動を機械学習する機械3)に設定されている優先ファクタに応じて、学習部23、価値関数更新部25、意思決定部27が用いる価値関数を選択して切換える。このような、価値関数切換え判定部24による優先ファクタ毎の価値関数の切換えにより、機械学習効率の向上を図ることができる。
価値関数更新部25は、学習部23が行った機械学習の結果を価値関数切換え判定部24が選択した価値関数に対して適用した上で価値関数記憶部40に記憶する。価値関数更新部25が価値関数記憶部40に記憶した学習結果としての価値関数は、次回以降の機械学習やサーボゲインの調整行動の決定に利用される。学習結果の記憶には、上述したように、利用する機械学習アルゴリズムに応じた価値関数を、近似関数や、配列、又は多値出力のSVMやニューラルネットワーク等の教師あり学習器などにより記憶するようにすれば良い。
報酬計算部26は、あらかじめ図示しないメモリ上に設定されている報酬条件と、判定データ取得部22が取得した判定データとに基づいて、機械学習に用いる報酬の計算を行う。
以下に、本実施形態において設定される報酬条件の例を示す。なお、以下に示す報酬条件は一例であり、それぞれ設計的に変更してもよく、また、他の様々な報酬条件を設定できるようにしても良い。
●[報酬1:加工品質の向上(プラス・マイナス報酬)]
機械3の優先ファクタが加工品質の向上に設定されている場合、加工されたワークの加工精度があらかじめ設定されている適正範囲に収まっている場合にはプラスの報酬を与え、また、加工精度があらかじめ設定されている適性範囲にから外れている場合(加工精度が悪過ぎる場合、または、加工精度が必要以上に良すぎる場合)には、その度合いに応じてマイナス報酬を与える。なお、マイナスの報酬を与える場合には、加工精度が悪過ぎる場合に大きなマイナス報酬を、加工精度が必要以上に良すぎる場合には小さなマイナス報酬を与えるようにしても良い。
●[報酬2:生産性の向上(プラス・マイナス報酬)]
機械3の優先ファクタが生産性の向上に設定されている場合、あらかじめ設定された所定の基準値と比較してサイクルタイムに大きく違いがない場合には、小さなプラス報酬を与え、あらかじめ設定された所定の基準値と比較してサイクルタイムが短い場合には、その度合いに応じたプラス報酬を与える。また、あらかじめ設定された所定の基準値と比較してサイクルタイムが長い場合には、その度合いに応じてマイナス報酬を与える。
●[報酬3:省エネ性(プラス・マイナス報酬)]
機械3の優先ファクタが省エネ性に設定されている場合、あらかじめ設定された所定の基準値と比較して消費電力に大きく違いがない場合には、小さなプラス報酬を与え、あらかじめ設定された所定の基準値と比較して消費電力が短い場合には、その度合いに応じたプラス報酬を与える。また、あらかじめ設定された所定の基準値と比較して消費電力が長い場合には、その度合いに応じてマイナス報酬を与える。
上記した報酬条件は、単体で用いるよりも、複数の報酬条件を優先ファクタに応じて組み合わせて用いることが望ましい。例えば、優先ファクタが加工品質の向上に設定されている場合には、加工品質の向上に関する報酬条件のみを設定すればよいというわけではなく、生産性の工場や省エネ性に関する報酬条件も同時に設定し、加工品質の向上の報酬条件を満たしたときに得られる報酬の量を、生産性の工場や省エネ性の報酬条件を満たしたときに得られる報酬の量と比べて大きな値に設定すると、加工品質を優先しながら、最低限の生産性と省エネ性を維持するような調整行動を選択するように学習させることができる。優先ファクタが生産性の向上または省エネ性に設定されている場合も同様である。
意思決定部27は、学習部23により学習した(そして、価値関数記憶部40に記憶されている)学習結果と状態観測部21が観測した状態に係るデータとに基づいて機械3のサーボゲインの調整行動を決定する。ここでいうサーボゲインの調整行動の決定が、機械学習に用いられる行動aに相当する。サーボゲインの調整行動は、調整対象となるゲインの種類(電流ループゲイン、速度ループゲイン、ポジションループゲイン、圧力制御比例・積分ゲイン)の選択と、選択されたゲインの種類に対してどの程度に調整するかを組にして、それぞれの組を選択可能な行動(例えば、行動1=電流ループゲインをXXに設定、行動2=速度ループゲインを+YY、…)として行動パターン記憶部41に記憶して用意しておき、過去の学習結果に基づいて将来に得られる報酬が最も大きくなるように行動を選択するようにしてもよい。選択可能な行動は、複数種類のサーボゲインを同時に調整する行動としてもよく、また、機械3が備える複数のサーボモータのサーボゲインを同時に調整する行動としても良い。また、上記したεグリーディ法を採用し、所定の確率でランダムな行動を選択することで後の学習部23による学習の進展を図るようにしてもよい。
そして、ゲイン変更部28は、意思決定部27により決定された機械3のサーボゲインの調整行動に基づいて機械3のサーボゲイン設定部32に対してサーボゲインの調整を行うように指令する。
図6のフローチャートを用いて、学習部23が行う機械学習の流れを説明する。
●[ステップSA01]機械学習が開始されると、状態観測部21が機械3が出力する機械に係るデータを状態にかかるデータとして観測する。
●[ステップSA02]学習部23は、状態観測部21が観測した状態に係るデータに基づいて現在の状態stを特定する。
●[ステップSA03]意思決定部27は、過去の学習結果とステップSA02で特定した状態stに基づいて行動at(機械3のサーボゲインの調整行動)を選択する。
●[ステップSA04]ゲイン変更部28は、ステップSA03で選択された行動atを実行する。
●[ステップSA05]状態観測部21が、機械3の機械に係る情報を状態に係る情報として観測すると共に、判定データ取得部22が機械3の加工に係る情報を判定データとして取得する。この段階においては、機械3の状態は時刻tから時刻t+1への時間的推移と共にステップSA04で実行された行動atによって変化している。
●[ステップSA06]ステップSA05で取得された判定データに基づいて、報酬計算部26が報酬rt+1を算出する。
●[ステップSA07]ステップSA02で特定された状態st、ステップSA03で選択された行動at、ステップSA06で算出された報酬rt+1に基づいて、学習部23が機械学習を進め、ステップSA02へ戻る。
上記したように、意思決定部27による意思決定に基づいたゲイン変更部28による機械3のサーボゲインが調整され、調整されたサーボゲインにより機械3が制御されてワークが加工され、状態観測部21による状態データの観測と判定データ取得部22による判定データの取得が行われ、機械学習を繰り返すことにより、より優れた学習結果を得ることができる。
上記した機械学習が十分に行われた学習データを用いて実際に機械3のサーボゲインを調整する際には、機械学習装置20が新たな学習を行なわないようにしておいて、機械学習が十分に行われた学習データをそのまま使用して運転をするようにしてもよい。
また、機械学習が完了した機械学習装置20(または、他の機械学習装置20の機械学習が完了した学習データを複写した機械学習装置20)を他の上位装置2に取付けて、機械学習が十分に行われた時の学習データをそのまま使用して運転をするようにしてもよい。
上位装置2の機械学習装置20は単独で機械学習をするようにしてもよいが、複数の制御システム1がそれぞれ備える上位装置2がそれぞれ外部との通信手段を更に備えると、それぞれの価値関数記憶部40に記憶された価値関数を互いに送受信して共有することが可能となり、より効率良く機械学習を行うことができる。例えば、複数の上位装置2において異なる調整対象と異なる調整量を所定の範囲内でそれぞれ変動させながら、それぞれの上位装置2の間で状態に係るデータや判定データ、学習結果としての価値関数をやり取りすることにより並列して学習を進めるようにすることで効率的に学習させることができる。
このように複数の上位装置2の間でやり取りする際には、通信は図示しない管理装置等を経由しても良いし、直接上位装置2同士が直接通信しても構わないし、クラウドを使用しても構わないが、大量のデータを取り扱う場合があるため、なるべく通信速度が速い通信手段が好ましい。
以上、本発明の実施の形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。
例えば、上記実施形態で示した上位装置2が備える各機能手段の関係は図5の機能ブロック図に示したものに限定されるものではなく、各機能手段の機能に相当する構成を備えているのであれば、どのような機能単位に分割しても、また、機能間にどのような上下関係を持たせても良い。
また、上記実施形態では同時に1台の機械3が備えるサーボモータのサーボゲインの調整について示したが、例えば、工場に配置される複数の機械3に対して同時にサーボゲインの調整を行うことで、全体的な工場での省エネ性の向上を図るような学習をするように構成しても良い。このような場合、行動パターン記憶部41には複数の機械3に対するサーボゲインの調整の組合せを1つの行動とし、調整量などの組合せが異なる複数の行動を登録しておく。そして、複数の機械3から得られた消費電力が小さくなるように意思決定部27が行動を決定し、これを学習部23が学習していくことで、上記目的を達成する機械学習を行うことができる。
更に、上記実施形態では、価値関数切換え判定部24により優先ファクタ毎に価値関数を切換える構成を示したが、優先ファクタを学習部23の入力データに追加し、価値関数切換え部24を省略する構成としても良い。このようにすることで、優先ファクタごとの機械学習の効率は低下するものの、より長い期間を掛けて機械学習を行われることで同様の効果を得ることができる。
1 制御システム
2 上位装置
3 機械
20 機械学習装置
21 状態観測部
22 判定データ取得部
23 学習部
24 価値関数切換え判定部
25 価値関数更新部
26 報酬計算部
27 意思決定部
28 ゲイン変更部
30 機械情報出力部
31 加工情報出力部
32 サーボゲイン設定部
40 価値関数記憶部
41 行動パターン記憶部

Claims (6)

  1. ワークを加工する少なくとも1つの機械と、該機械による加工で用いられるサーボゲインを調整する上位装置を備えた制御システムであって、
    前記機械のサーボゲインの調整を機械学習する機械学習装置を備え、
    前記機械学習装置は、
    前記機械の機械に係る情報を状態データとして観測する状態観測部と、
    前記機械による加工に係る情報を判定データとして取得する判定データ取得部と、
    前記判定データとあらかじめ設定された報酬条件とに基づいて報酬を計算する報酬計算部と、
    前記機械のサーボゲインの調整を機械学習する学習部と、
    前記学習部による前記機械のサーボゲインの調整の機械学習結果と、前記状態データと基づいて、前記機械のサーボゲインの調整行動を決定する意思決定部と、
    前記意思決定部により決定されたサーボゲインの調整行動に基づいて前記機械のサーボゲインを変更するゲイン変更部と、
    を備え、
    前記学習部は、前記状態データと、前記調整行動と、前記調整行動の後に計算された報酬と、に基づいて前記機械のサーボゲインの調整を機械学習する、
    制御システム。
  2. 前記機械に対してあらかじめ設定された優先ファクタに基づいて、前記機械学習及び前記調整行動の決定に用いられる価値関数を切換える価値関数切換え判定部を更に備える、
    請求項1に記載の制御システム。
  3. 前記報酬条件は、
    前記優先ファクタ毎に設定される報酬条件に基づいてプラスまたはマイナスの報酬を計算する、
    請求項1または2に記載の制御システム。
  4. 少なくとも1つの他の数値制御装置と接続されており、
    前記他の上位装置との間で機械学習の結果を相互に交換または共有する、
    請求項1〜3のいずれか1つに記載の制御システム。
  5. ワークを加工する少なくとも1つの機械による加工で用いられるサーボゲインの調整を機械学習する機械学習装置であって、
    前記機械の機械に係る情報を状態データとして観測する状態観測部と、
    前記機械による加工に係る情報を判定データとして取得する判定データ取得部と、
    前記判定データとあらかじめ設定された報酬条件とに基づいて報酬を計算する報酬計算部と、
    前記機械のサーボゲインの調整を機械学習する学習部と、
    前記学習部による前記機械のサーボゲインの調整の機械学習結果と、前記状態データと基づいて、前記機械のサーボゲインの調整行動を決定する意思決定部と、
    前記意思決定部により決定されたサーボゲインの調整行動に基づいて前記機械のサーボゲインを変更するゲイン変更部と、
    を有し、
    前記学習部は、前記状態データと、前記調整行動と、前記調整行動の後に計算された報酬と、に基づいて前記機械のサーボゲインの調整を機械学習する、
    機械学習装置。
  6. 前記機械に対してあらかじめ設定された優先ファクタに基づいて、前記機械学習及び前記調整行動の決定に用いられる価値関数を切換える価値関数切換え判定部を更に備える、
    請求項5に記載の機械学習装置。
JP2016242572A 2016-12-14 2016-12-14 制御システム及び機械学習装置 Active JP6457472B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016242572A JP6457472B2 (ja) 2016-12-14 2016-12-14 制御システム及び機械学習装置
US15/838,510 US10564611B2 (en) 2016-12-14 2017-12-12 Control system and machine learning device
DE102017011544.3A DE102017011544A1 (de) 2016-12-14 2017-12-13 Steuerung und maschinelle Lernvorrichtung
CN201711337999.9A CN108227482B (zh) 2016-12-14 2017-12-14 控制系统以及机器学习装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016242572A JP6457472B2 (ja) 2016-12-14 2016-12-14 制御システム及び機械学習装置

Publications (2)

Publication Number Publication Date
JP2018097680A true JP2018097680A (ja) 2018-06-21
JP6457472B2 JP6457472B2 (ja) 2019-01-23

Family

ID=62201952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016242572A Active JP6457472B2 (ja) 2016-12-14 2016-12-14 制御システム及び機械学習装置

Country Status (4)

Country Link
US (1) US10564611B2 (ja)
JP (1) JP6457472B2 (ja)
CN (1) CN108227482B (ja)
DE (1) DE102017011544A1 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018120357A (ja) * 2017-01-24 2018-08-02 ファナック株式会社 数値制御装置及び機械学習装置
JP2018126796A (ja) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
JP2020004080A (ja) * 2018-06-28 2020-01-09 ファナック株式会社 出力装置、制御装置、及び評価関数値の出力方法
JP2020047228A (ja) * 2018-09-21 2020-03-26 ファナック株式会社 モータ制御装置
CN111046156A (zh) * 2019-11-29 2020-04-21 支付宝(杭州)信息技术有限公司 奖励数据的确定方法、装置和服务器
JP2020138279A (ja) * 2019-02-28 2020-09-03 ファナック株式会社 加工条件調整装置及び加工条件調整システム
JP2020140641A (ja) * 2019-03-01 2020-09-03 株式会社Preferred Networks 情報処理装置及び情報処理方法
JP2020157425A (ja) * 2019-03-27 2020-10-01 株式会社ジェイテクト 研削盤の支援装置及び支援方法
WO2021060090A1 (ja) * 2019-09-24 2021-04-01 ダイキン工業株式会社 制御システム
JP2021086283A (ja) * 2019-11-26 2021-06-03 横河電機株式会社 装置、方法およびプログラム
JPWO2022003833A1 (ja) * 2020-06-30 2022-01-06
EP3918544A4 (en) * 2019-01-31 2022-10-12 Baker Hughes Oilfield Operations LLC OPTIMIZATION OF INDUSTRIAL MACHINERY
WO2023243141A1 (ja) * 2022-06-17 2023-12-21 株式会社日立製作所 連合学習システム及び連合学習方法
JP7410365B2 (ja) 2019-07-10 2024-01-10 国立研究開発法人 海上・港湾・航空技術研究所 部材配置システム及び部材配置プログラム
US11960267B2 (en) 2020-04-24 2024-04-16 Yokogawa Electric Corporation Control apparatus, control method, and storage medium

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10396919B1 (en) 2017-05-12 2019-08-27 Virginia Tech Intellectual Properties, Inc. Processing of communications signals using machine learning
EP3738353A1 (en) * 2018-01-12 2020-11-18 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for roaming between wireless communications networks
US10574054B2 (en) * 2018-01-16 2020-02-25 Total Solar International Systems and methods for controlling and managing thermostatically controlled loads
CN112055636A (zh) * 2018-01-24 2020-12-08 米沃奇电动工具公司 包括机器学习块的电动工具
JP7060546B2 (ja) * 2018-07-10 2022-04-26 ファナック株式会社 歯当たり位置調整量推定装置、機械学習装置、ロボットシステム及び歯当たり位置調整量推定システム
JP6740290B2 (ja) * 2018-07-17 2020-08-12 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法
JP6740299B2 (ja) 2018-08-24 2020-08-12 ファナック株式会社 加工条件調整装置及び機械学習装置
JP6773738B2 (ja) * 2018-09-19 2020-10-21 ファナック株式会社 状態判定装置及び状態判定方法
DE102019006725B4 (de) * 2018-10-02 2023-06-01 Fanuc Corporation Steuereinrichtung und Steuersystem
JP6860541B2 (ja) 2018-10-29 2021-04-14 ファナック株式会社 出力装置、制御装置、及び評価関数値の出力方法
EP3651081B1 (en) * 2018-11-09 2021-04-21 Siemens Aktiengesellschaft Tuning of axis control of multi-axis machines
JP6849643B2 (ja) 2018-11-09 2021-03-24 ファナック株式会社 出力装置、制御装置、及び評価関数と機械学習結果の出力方法
WO2020216452A1 (de) * 2019-04-26 2020-10-29 Siemens Aktiengesellschaft Zustandsanalyse einer anlage
CN110370076A (zh) * 2019-08-08 2019-10-25 合肥学院 基于加工机床的自由曲面原位测量方法
CN114729762A (zh) * 2019-11-26 2022-07-08 大金工业株式会社 机器学习装置、需求控制系统以及空调控制系统
JP2021092970A (ja) * 2019-12-10 2021-06-17 キヤノン株式会社 制御方法、制御装置、機械設備、制御プログラム、記録媒体
WO2021192280A1 (ja) * 2020-03-27 2021-09-30 三菱電機株式会社 空調制御の学習装置および推論装置
JP2022070134A (ja) * 2020-10-26 2022-05-12 株式会社神戸製鋼所 機械学習方法、機械学習装置、機械学習プログラム、通信方法、及び樹脂処理装置
AT526214A1 (de) * 2022-05-23 2023-12-15 Fill Gmbh Optimieren einer numerischen Steuerung einer Werkzeugmaschine
CN116599767B (zh) * 2023-07-12 2023-11-03 深圳市光网世纪科技有限公司 基于机器学习的网络威胁监测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03259303A (ja) * 1990-03-09 1991-11-19 Hitachi Ltd 学習制御装置
JPH06274228A (ja) * 1993-03-18 1994-09-30 Mitsubishi Electric Corp 数値制御装置
JP2013106202A (ja) * 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP5969676B1 (ja) * 2015-09-30 2016-08-17 ファナック株式会社 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械
JP5997330B1 (ja) * 2015-07-31 2016-09-28 ファナック株式会社 主軸交換の要否を判定できる機械学習装置、主軸交換判定装置、制御装置、工作機械及び生産システム、並びに機械学習方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3259303B2 (ja) * 1992-01-28 2002-02-25 セイコーエプソン株式会社 液晶表示装置
JP4662411B2 (ja) * 2003-03-14 2011-03-30 日立ビアメカニクス株式会社 レーザ加工装置
CN1935470A (zh) 2005-04-15 2007-03-28 美国发那科机器人有限公司 优化机器人程序的方法以及机器人系统
US20070203871A1 (en) * 2006-01-23 2007-08-30 Tesauro Gerald J Method and apparatus for reward-based learning of improved systems management policies
DE112006003821B4 (de) * 2006-03-29 2010-12-16 Intel Corporation, Santa Clara Optimierung von Netzwerkprotokolloptionen durch verstärkendes Lernen und Propagation
JP4211831B2 (ja) * 2006-09-14 2009-01-21 トヨタ自動車株式会社 ハイブリッド車両、ハイブリッド車両の制御方法およびその制御方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体
US8533026B2 (en) * 2006-10-17 2013-09-10 Oracle America, Inc. Method and system for maximizing revenue generated from service level agreements
US9298172B2 (en) * 2007-10-11 2016-03-29 International Business Machines Corporation Method and apparatus for improved reward-based learning using adaptive distance metrics
JP5461049B2 (ja) * 2009-04-07 2014-04-02 株式会社デンソー エンジン制御装置
US20120101960A1 (en) * 2010-10-22 2012-04-26 Chassang Sylvain Method and system for the acquisition, exchange and usage of financial information
JP5758728B2 (ja) * 2011-07-26 2015-08-05 株式会社日立ハイテクノロジーズ 荷電粒子線装置
CN103399488B (zh) * 2013-07-31 2018-01-09 中国人民解放军国防科学技术大学 基于自学习的多模型控制方法
JP6308150B2 (ja) * 2015-03-12 2018-04-11 トヨタ自動車株式会社 内燃機関の排気浄化装置
GB201610883D0 (en) * 2016-06-22 2016-08-03 Microsoft Technology Licensing Llc Privacy-preserving machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03259303A (ja) * 1990-03-09 1991-11-19 Hitachi Ltd 学習制御装置
JPH06274228A (ja) * 1993-03-18 1994-09-30 Mitsubishi Electric Corp 数値制御装置
JP2013106202A (ja) * 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP5997330B1 (ja) * 2015-07-31 2016-09-28 ファナック株式会社 主軸交換の要否を判定できる機械学習装置、主軸交換判定装置、制御装置、工作機械及び生産システム、並びに機械学習方法
JP5969676B1 (ja) * 2015-09-30 2016-08-17 ファナック株式会社 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10466658B2 (en) 2017-01-24 2019-11-05 Fanuc Corporation Numerical controller and machine learning device
JP2018120357A (ja) * 2017-01-24 2018-08-02 ファナック株式会社 数値制御装置及び機械学習装置
JP2018126796A (ja) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
US11087509B2 (en) 2018-06-28 2021-08-10 Fanuc Corporation Output device, control device, and evaluation function value output method
JP2020004080A (ja) * 2018-06-28 2020-01-09 ファナック株式会社 出力装置、制御装置、及び評価関数値の出力方法
JP2020047228A (ja) * 2018-09-21 2020-03-26 ファナック株式会社 モータ制御装置
EP3918544A4 (en) * 2019-01-31 2022-10-12 Baker Hughes Oilfield Operations LLC OPTIMIZATION OF INDUSTRIAL MACHINERY
JP2020138279A (ja) * 2019-02-28 2020-09-03 ファナック株式会社 加工条件調整装置及び加工条件調整システム
US11481630B2 (en) 2019-02-28 2022-10-25 Fanuc Corporation Machining condition adjustment device and machining condition adjustment system
JP7336856B2 (ja) 2019-03-01 2023-09-01 株式会社Preferred Networks 情報処理装置、方法及びプログラム
JP2020140641A (ja) * 2019-03-01 2020-09-03 株式会社Preferred Networks 情報処理装置及び情報処理方法
US11597056B2 (en) 2019-03-27 2023-03-07 Jtekt Corporation Apparatus and method for assisting grinding machine
CN111745467A (zh) * 2019-03-27 2020-10-09 株式会社捷太格特 磨床的辅助装置以及辅助方法
JP2020157425A (ja) * 2019-03-27 2020-10-01 株式会社ジェイテクト 研削盤の支援装置及び支援方法
JP7302226B2 (ja) 2019-03-27 2023-07-04 株式会社ジェイテクト 研削盤の支援装置及び支援方法
JP7410365B2 (ja) 2019-07-10 2024-01-10 国立研究開発法人 海上・港湾・航空技術研究所 部材配置システム及び部材配置プログラム
JP2021057030A (ja) * 2019-09-24 2021-04-08 ダイキン工業株式会社 制御システム
WO2021060090A1 (ja) * 2019-09-24 2021-04-01 ダイキン工業株式会社 制御システム
JP7331660B2 (ja) 2019-11-26 2023-08-23 横河電機株式会社 装置、方法およびプログラム
JP2021086283A (ja) * 2019-11-26 2021-06-03 横河電機株式会社 装置、方法およびプログラム
CN111046156A (zh) * 2019-11-29 2020-04-21 支付宝(杭州)信息技术有限公司 奖励数据的确定方法、装置和服务器
CN111046156B (zh) * 2019-11-29 2023-10-13 支付宝(杭州)信息技术有限公司 奖励数据的确定方法、装置和服务器
US11960267B2 (en) 2020-04-24 2024-04-16 Yokogawa Electric Corporation Control apparatus, control method, and storage medium
WO2022003833A1 (ja) * 2020-06-30 2022-01-06 三菱電機株式会社 位置決め制御装置および機械学習装置
JPWO2022003833A1 (ja) * 2020-06-30 2022-01-06
WO2023243141A1 (ja) * 2022-06-17 2023-12-21 株式会社日立製作所 連合学習システム及び連合学習方法

Also Published As

Publication number Publication date
US10564611B2 (en) 2020-02-18
CN108227482A (zh) 2018-06-29
US20180164756A1 (en) 2018-06-14
DE102017011544A1 (de) 2018-06-14
CN108227482B (zh) 2020-05-29
JP6457472B2 (ja) 2019-01-23

Similar Documents

Publication Publication Date Title
JP6457472B2 (ja) 制御システム及び機械学習装置
JP6457563B2 (ja) 数値制御装置及び機械学習装置
JP6470251B2 (ja) 数値制御装置及び機械学習装置
KR102168264B1 (ko) 이동축 이상 부하 경고 기능을 갖는 와이어 방전 가공기
JP6680756B2 (ja) 制御装置及び機械学習装置
JP6348098B2 (ja) 機械学習を使った中子の溶着位置決定機能を備えたワイヤ放電加工機のシミュレーション装置
JP6063016B1 (ja) 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械
JP5969676B1 (ja) 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械
JP6063013B1 (ja) びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置
JP6734318B2 (ja) 駆動装置及び機械学習装置
JP6077617B1 (ja) 最適な速度分布を生成する工作機械
JP6659652B2 (ja) 加工条件調整装置及び機械学習装置
JP6781191B2 (ja) プログラマブルコントローラ及び機械学習装置
JP2019185125A (ja) 制御装置及び機械学習装置
JP6841852B2 (ja) 制御装置及び制御方法
JP2019200661A (ja) シミュレーション装置
CN108427378B (zh) 数值控制装置
JP2018083238A (ja) 数値制御装置
JP6703020B2 (ja) 制御装置及び機械学習装置

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181220

R150 Certificate of patent or registration of utility model

Ref document number: 6457472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150