JP6740278B2 - 機械学習装置、制御装置、及び機械学習方法 - Google Patents

機械学習装置、制御装置、及び機械学習方法 Download PDF

Info

Publication number
JP6740278B2
JP6740278B2 JP2018077559A JP2018077559A JP6740278B2 JP 6740278 B2 JP6740278 B2 JP 6740278B2 JP 2018077559 A JP2018077559 A JP 2018077559A JP 2018077559 A JP2018077559 A JP 2018077559A JP 6740278 B2 JP6740278 B2 JP 6740278B2
Authority
JP
Japan
Prior art keywords
machine learning
correction amount
command
learning
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018077559A
Other languages
English (en)
Other versions
JP2019185530A (ja
Inventor
瑶 梁
瑶 梁
亮太郎 恒木
亮太郎 恒木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2018077559A priority Critical patent/JP6740278B2/ja
Priority to US16/376,025 priority patent/US10901396B2/en
Priority to DE102019204949.4A priority patent/DE102019204949A1/de
Priority to CN201910280101.1A priority patent/CN110376964B/zh
Publication of JP2019185530A publication Critical patent/JP2019185530A/ja
Application granted granted Critical
Publication of JP6740278B2 publication Critical patent/JP6740278B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/414Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
    • G05B19/4145Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by using same processor to execute programmable controller and numerical controller function [CNC] and PC controlled NC [PCNC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication
    • G05B19/41855Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication by local area network [LAN], network structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33034Online learning, training
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34013Servocontroller
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Numerical Control (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置に対して、補正生成部の補正量の最適化に係る機械学習を行う機械学習装置、この機械学習装置を含む制御装置及び機械学習方法に関する。
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、速度指令又はトルク指令に、位置フィードフォワード項又は速度フィードフォワード項等の補正量を加えるサーボ制御装置は、例えば特許文献1に記載されている。
特許文献1には、電源を遮断する前にサーボモータの動作状態を報知するサーボ制御装置の記載がある。このサーボ制御装置は、サーボモータと、セーフティユニットとを備える。セーフティユニットは、サーボモータの速度、位置、加速度、移動量、移動方向、トルクのうちの少なくともいずれか1つが第1動作範囲外にあると、サーボモータへの給電を遮断する。また、セーフティユニットは、速度、位置、加速度、移動量、移動方向、トルクのうちの少なくともいずれか1つが第1動作範囲に含まれ、かつ第1動作範囲よりも狭い第2動作範囲外にあると、警告を出力する。
特開2017−55655号公報
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、速度指令又はトルク指令に、位置フィードフォワード項又は速度フィードフォワード項等の補正量を加えるサーボ制御装置において、生成する補正量が適正な範囲になく、位置偏差が増大すると、サーボ制御装置によって駆動される、工作機械、ロボット、又は産業機械の動作が不安定となって、アラームで工作機械等が停止、終了してしまう場合がある。
例えば、空運転ではなく、工作機械を実動作させながら補正量を学習する場合、その補正量が適切な範囲にないと、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断する恐れがある。
他方、速度指令又はトルク指令に加える位置フィードフォワード項又は速度フィードフォワード項等の補正量を、後述する高次の伝達関数を用いて生成する場合に、当該伝達関数の係数を、工作機械を実動作させながら機械学習により求める方法が考えられる。
このような学習方法の一例として、強化学習による伝達関数の係数の機械学習が考えられる。強化学習とは、エージェントが、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化し、環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する、いわゆる教師無し学習である。このような強化学習により伝達関数の係数を機械学習する場合、環境の状態が位置偏差である場合に、例えばこの位置偏差が増大するような係数が選択されると、モータや機械先端に振動が発生して有効な機械学習ができなくなったり、また、アラームで工作機械等が停止、終了して、機械学習が中断する可能性がある。このため、工作機械を実動作させながら、補正量を機械学習する場合に、仮に不適切な補正量が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法が求められる。
本発明は、サーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、補正生成部における補正量の算出式を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ(例えば、後述のサーボモータ109)を制御する制御指令に加える補正量を生成する補正生成部(例えば、後述の位置フィードフォワード処理部113、速度フィードフォワード処理部115、又は補正生成部117)と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部(例えば、後述の速度指令制限部104又はトルク指令制限部108)と、を備えたサーボ制御装置(例えば、後述のサーボ制御装置100又は100A)に対して、前記補正生成部の前記補正量の最適化に係る機械学習を行う機械学習装置(例えば、後述の機械学習装置200)であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記制限部が前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正生成部にて生成する前記補正量の最適化の新たな探索を継続する機械学習装置である。
(2) 上記(1)の機械学習装置において、前記制限部は、前記補正量又は前記補正量が加えられた前記制御指令に制限を加えた場合に、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となったことを前記機械学習装置に通知し、
前記機械学習装置は、前記通知を受けたときに、前記補正量を学習に反映させてよい。
(3) 上記(1)又は(2)の機械学習装置において、前記機械学習として強化学習を行い、
前記制限部から前記通知を受けたときに、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲を超えるような前記補正量が選択されないような報酬を与えてよい。
(4) 上記(3)の機械学習装置において、前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力してよい。
(5) 上記(1)から(4)のいずれかの機械学習装置において、前記制御指令は、速度指令とトルク指令のうちの少なくとも1つを含み、前記補正量は、前記速度指令に加える位置フィードフォワード項と前記トルク指令に加える速度フィードフォワード項のうちの少なくとも1つを含んでよい。
(6) 上記上記(1)から(5)のいずれかの機械学習装置において、前記設定範囲は上限と下限とが固定された範囲であってよい。
(7) 上記(1)から(5)のいずれかの機械学習装置において、前記設定範囲は上限と下限とが変動する範囲であってよい。
(8) 上記(7)の機械学習装置において、前記制限部は加工精度又は加工サイクルタイムによって前記設定範囲の上限と下限を変えてよい。
(9) 本発明に係る制御装置は、上記(1)から(8)のいずれかの機械学習装置と、
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部を備えたサーボ制御装置と、
を備えた制御装置である。
(10) 上記(9)の制御装置において、前記機械学習装置は、前記サーボ制御装置に含まれてもよい。
(11) 本発明に係る機械学習方法は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正を生成し、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限するサーボ制御装置に対して、前記補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えられて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正量の最適化の新たな探索を継続する、機械学習方法である。
本発明によれば、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、前記補正生成部の補正量を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することができる。
本発明の第1実施形態の制御装置の一構成例を示すブロック図である。 補正された制御指令が制限される設定範囲が固定されている場合を示す特性図である。 補正された制御指令が制限される設定範囲が基準範囲とは別に設けられている場合を示す特性図である。 補正された制御指令が制限される設定範囲の上限及び下限が動的に変動する場合を示す特性図である。 加工形状が八角形の場合のモータの動作を説明するための図である。 加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。 本発明の第1実施形態の機械学習装置を示すブロック図である。 第1実施形態における機械学習装置の動作を示すフローチャートである。 本発明の第2実施形態の制御装置の一構成例を示すブロック図である。 本発明の他の実施形態の制御装置を示すブロック図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1実施形態)
図1は本発明の第1実施形態の制御装置の一構成例を示すブロック図である。図1に示す制御装置10は、サーボ制御装置100と機械学習装置200とを備えている。サーボ制御装置100は機械学習装置200と数値制御装置(CNC装置)300とに接続される。
最初に、サーボ制御装置100について説明する。
サーボ制御装置100は、減算器101、位置制御部102、加算器103、速度指令制限部104、減算器105、速度制御部106、加算器107、トルク指令制限部108、サーボモータ109、積分器110、位置検出処理部111、微分器112、位置フィードフォワード処理部113、2回微分器114、及び速度フィードフォワード処理部115を備えている。
数値制御装置300は、サーボモータ109を動作させるプログラムに基づいて位置指令値を作成する。工作機械において、被加工物(ワーク)を搭載するテーブルがX軸方向及びY軸方向に移動される場合には、X軸方向及びY軸方向に対してそれぞれ図1に示すサーボ制御装置100が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置100が設けられる。
数値制御装置300は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成し、減算器101、微分器112、2回微分器114及び機械学習装置200に出力する。
減算器101は、数値制御装置300から入力されるプログラムや命令に従って作成された位置指令を受け、位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部102及び機械学習装置200に出力する。
位置制御部102は、減算器101から出力される位置偏差にポジションゲインKpを乗じた値を、速度指令として加算器103に出力する。速度指令はサーボモータ109を制御する制御指令の1つである。
加算器103は、速度指令と、位置フィードフォワード処理部113から入力される位置フィードフォワード項(補正量となる)とを加算して速度指令制限部104に出力する。
速度指令制限部104は、位置フィードフォワード項が加算された速度指令(以下、補正された速度指令という)が、制限を行う設定範囲内(上限以下及び下限以上)に有るかどうかを検出する。補正された速度指令が設定範囲内であれば、速度指令制限部104は、そのまま補正された速度指令を減算器105に出力する。一方、補正された速度指令が設定範囲外である場合には、速度指令制限部104は、補正された速度指令に制限を加えて補正された速度指令を設定範囲内とし、設定範囲内とされた速度指令を減算器105に出力する。
また、速度指令制限部104は、速度指令に制限を加えて設定範囲内とした場合は速度制限通知を機械学習装置200に対して行う。
補正された速度指令が制限される設定範囲は以下のように設定される。なお図2〜図4において制御指令は速度指令となる。
図2に示す設定範囲は、上限A1と下限B1とが固定された基準範囲とされる。この設定範囲は、加工ワークが変わらない量産品を作製する場合に好適に用いられる。
図3に示す設定範囲は、基準範囲の上限A1と下限B1とは異なる、加工ワークによって決められる固定された上限A2と下限B2が設けられた範囲とされる。この設定範囲は、加工ワークが変わる受注生産品を作製する場合に好適に用いられる。
この設定範囲は、例えば、[(加工ワークのイナーシャ)/(基準イナーシャ)]×(基準範囲)で求めることができる。
図4に示す設定範囲は、上限A3と下限B3とが加工精度又は加工サイクルタイムによって動的に変動する範囲とされる。図4に示すように、上限A3と下限B3は、位置フィードフォワード(FF)が設けられない場合、又は後述する位置フィードフォワード処理部113の伝達関数の係数が初期値(β=1、G(s)=1)の場合の指令値に対して、幅Δ分離れた上下に設けられる。
幅Δは、加工精度によって上限A3と下限B3が動的に変動する場合は、例えば、[(要求加工精度)/(基準精度)]×(基準値)で求めることができる。基準値は固定値とされる。また幅Δは、加工サイクルタイムによって上限A3と下限B3が動的に変動する場合は、例えば、[(基準サイクルタイム)/(要求加工サイクルタイム)]×(基準値)で求めることができる。基準値は固定値とされる。
減算器105は、速度指令制限部104からの出力と、速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部106に出力する。
速度制御部106は、速度偏差に比例積分処理(PI処理)を行い、トルク指令として加算器107に出力する。具体的には、速度制御部106は、速度偏差を積分器で積分して、その積分値に積分ゲインKiを乗じた値と、速度偏差に比例ゲインKvを乗じた値とを加算して、トルク指令として加算器107に出力する。トルク指令はサーボモータ109を制御する制御指令の1つである。
加算器107は、速度制御部106から出力されたトルク指令と、速度フィードフォワード処理部115から出力された速度フィードフォワード項(補正量となる)とを加算してトルク指令制限部108に出力する。
トルク指令制限部108は、速度フィードフォワード項が加算されたトルク指令(以下、補正されたトルク指令という)が設定範囲内(上限以下及び下限以上)に有るかどうかを検出する。補正されたトルク指令が設定範囲内であれば、トルク指令制限部108は、そのまま補正されたトルク指令をサーボモータ109に出力する。補正されたトルク指令が設定範囲外である場合には、トルク指令制限部108は、補正されたトルク指令を制限して設定範囲内とし、設定範囲内とされたトルク指令をサーボモータ109に出力する。なお、トルク指令の設定範囲は、既に説明した速度指令の設定範囲と同様に決めることができる。この場合、図2〜図4において制御指令はトルク指令となる。図4に示す設定範囲は、上限A3と下限B3は、速度フィードフォワード(FF)が設けられない場合、又は後述する速度フィードフォワード処理部115の伝達関数の係数が初期値(α=1、F(s)=1)の場合の指令値に対して、幅Δ分離れた上下に設けられる。
また、トルク指令制限部108は、トルク指令を制限して設定範囲内とした場合はトルク指令制限通知を機械学習装置200に対して行う。
サーボモータ109は、例えば工作機械,ロボット,産業機械等に含まれてもよい。サーボ制御装置100はサーボモータ109とともに、工作機械,ロボット,産業機械等の一部として設けられてもよい。
サーボモータ109の回転角度位置は、サーボモータ109に関連付けられた、位置検出部となるロータリーエンコーダによって検出され、速度検出値は速度フィードバックとして減算器105に入力される。減算器105からサーボモータ109は、速度フィードバックループを構成する。
積分器110は速度検出値を積分して積分値を位置検出処理部111に出力する。位置検出処理部111は積分値に基づいて位置検出値を求める。位置検出値は位置フィードバックとして減算器101に入力される。減算器101から位置検出処理部111は、位置フィードバックループを構成する。
微分器112は、位置指令を微分して定数βを掛ける。位置フィードフォワード処理部113は微分器112の出力に、数式1(以下に数1として示す)で示す伝達関数G(s)で示された位置フィードフォワード処理を行う。位置フィードフォワード処理部113は、その処理結果を位置フィードフォワード項(補正量となる)として加算器103に出力する。
数式1の係数a、b(i,j≧0)は位置フィードフォワード処理部113の伝達関数G(s)の各係数である。
Figure 0006740278
2回微分器114は、位置指令を2回微分して定数αを掛ける。速度フィードフォワード処理部115は2回微分器114の出力に、数式2(以下に数2として示す)で示された伝達関数F(s)で示される速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項(補正量となる)として加算器107に出力する。
数式3の係数c、d(i,j≧0)は速度フィードフォワード処理部115の伝達関数F(s)の各係数である。
Figure 0006740278
機械学習装置200は、位置フィードフォワード処理部113の伝達関数の係数と、速度フィードフォワード処理部115の伝達関数の係数とを機械学習(以下、学習という)する。
機械学習装置200は、速度フィードフォワード処理部115の伝達関数の係数の学習と、位置フィードフォワード処理部113の伝達関数の係数の学習とは別に行い、位置フィードフォワード処理部113より内側(インナーループ)にある速度フィードフォワード処理部115の伝達関数の係数の学習を位置フィードフォワード処理部113の伝達関数の係数の学習よりも先に行う。具体的には、位置フィードフォワード処理部113の伝達関数の係数を固定し、速度フィードフォワード処理部115の伝達関数の係数の最適な値を学習する。その後に、機械学習装置200は、速度フィードフォワード処理部115の伝達関数の係数を学習で得られた最適な値に固定して、位置フィードフォワード処理部113の伝達関数の係数を学習する。
そうすることで、学習により最適化された速度フィードフォワード項の条件下で、位置フィードフォワード処理部113の伝達関数の係数の最適化に係る学習を行うことができ、位置偏差の変動を抑制することができる。
このため、位置フィードフォワード処理部113より内側(インナーループ)にある速度フィードフォワード処理部115の伝達関数の係数の学習が位置フィードフォワード処理部113の伝達関数の係数の学習より先にした方が、位置偏差の変動を抑制し、高精度化を実現できる。
以下の説明では、速度フィードフォワード処理部115の伝達関数の係数に係る機械学習(強化学習)を例として説明する。なお、本実施形態では、機械学習の一例として強化学習について説明するが、機械学習は特に強化学習に限定されない。
機械学習装置200は、予め設定された加工プログラム(「学習時の加工プログラム」となる)を実行することで、速度フィードフォワード処理部115の伝達関数の係数を機械学習(以下、学習という)する。
ここで、学習時の加工プログラムにより指定される加工形状は、例えば、図5に示す八角形、及び/又は図6に示す八角形の角が一つ置きに円弧に置き換えられた形等である。
ここでは、学習時の加工プログラムにより指定される加工形状の位置A1と位置A3、及び/又は位置B1と位置B3により、線形制御において回転速度が変更されたときの振動を評価し、位置偏差に対する影響を調べることで、伝達関数G(s)に係る係数の学習を行うものとする。
なお、加工形状の位置A2と位置A4、及び/又は位置B2と位置B4により、回転方向が反転する場合に生ずる惰走(いわゆる「象限突起」)を評価し、位置偏差に対する影響を調べることで、象限突起を抑制する補正量を算出するための伝達関数の係る係数の学習を行うこともできる。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Sの下で、行動Aを選択する価値Q(S,A)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態Sと行動Aとの組合せについて、価値Q(S,A)の正しい値は全く分かっていない。そこで、エージェントは、或る状態Sの下で様々な行動Aを選択し、その時の行動Aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(S,A)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(S,A)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(S,A)の更新式は、例えば、次の数式3(以下に数3として示す)により表すことができる。
Figure 0006740278
上記の数式3において、Sは、時刻tにおける環境の状態を表し、Aは、時刻tにおける行動を表す。行動Aにより、状態はSt+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態St+1の下で、その時に分かっている最もQ値の高い行動Aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式3は、試行Aの結果、返ってきた報酬rt+1を元に、状態Sにおける行動Aの価値Q(S,A)を更新する方法を表している。
この更新式は、状態Sにおける行動Aの価値Q(S,A)よりも、行動Aによる次の状態St+1における最良の行動の価値max Q(St+1,A)の方が大きければ、Q(S,A)を大きくし、逆に小さければ、Q(S,A)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(S,A)についてのQ(S,A)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(S,A)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(S,A)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、サーボ制御装置100における、速度フィードフォワード処理部115の伝達関数の各係数c、d(i,j≧0)の値、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Sとして、当該状態Sに係る、速度フィードフォワード処理部115の伝達関数の各係数c、dの値の調整を行動Aとして選択する価値Qを学習する。
機械学習装置200は、速度フィードフォワード処理部115の伝達関数の各係数c、dの値に基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置A1と位置A3、及び/又は位置B1と位置B3における、サーボ制御装置100の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Sを観測して、行動Aを決定する。機械学習装置200は、行動Aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Aを試行錯誤的に探索する。そうすることで、機械学習装置200は、速度フィードフォワード処理部115の伝達関数の各係数c、dの値に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Sに対して、最適な行動A(すなわち、速度フィードフォワード処理部115の最適な係数c、d)を選択することが可能となる。機械学習装置200は線形動作時の速度フィードフォワード処理部115の伝達関数の各係数c、dの学習を行うことができる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態Sに係る速度フィードフォワード処理部115の伝達関数の各係数c、dに対して適用される行動Aのうち、Qの値が最大となるような行動Aを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動A(すなわち、速度フィードフォワード処理部115の係数c、dを選択することが可能となる。
図7は第1実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図7に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、サーボ制御装置100における速度フィードフォワード処理部115の伝達関数の各係数c、d、及びこれらの係数に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Sを、サーボ制御装置100から取得する。また、状態情報取得部201は、トルク指令制限部108から、トルク指令を設定範囲内に制限したことを通知するトルク指令制限通知信号を取得する。この状態情報Sは、Q学習における、環境状態Sに相当する。
状態情報取得部201は、取得した状態情報Sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での速度フィードフォワード処理部115の係数c、dは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した速度フィードフォワード処理部115の係数c、dの初期設定値を、強化学習により最適なものに調整する。微分器112の係数βを固定値とし、例えばα=1とする。また、速度フィードフォワード処理部115の係数c、dは例えば、初期設定値として、数式2のc=1、c=0、c=0、、d=1、d=0、d=0、とする。また、係数c、dの次元m、nを予め設定する。すなわち、cについては0≦i≦m dについては0≦j≦nとする。
なお、係数c、dは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。
学習部202は、或る環境状態Sの下で、ある行動Aを選択する場合の価値Q(S,A)を学習する部分である。また、学習部202は、トルク指令制限部108からトルク指令制限通知信号を受けると、状態Sにおける速度フィードフォワード処理部115の係数c、dをサーボモータ109が異常な動作をする補正パラメータとして学習に反映させる。その後、当該状態Sの学習動作を続行させる。なお、当該状態Sの学習に係る加工プログラムの実行を途中で止めるようにしてもよい。そのためには、数値制御装置300に、当該状態Sの学習に係る加工プログラムの実行を止めるための指示信号を送ればよい。その後、学習部202は、異常が生じたときの速度フィードフォワード処理部115の係数c、dとは異なる、次の学習のための係数を新たに探索して、速度フィードフォワード処理部115に設定するとともに、速度フィードフォワード処理部115の係数を設定したことを示す係数設定通知信号を数値制御装置300へ送る。数値制御装置300は係数設定通知信号を受けると、学習を続ける場合に、加工プログラムを動作させて位置指令をサーボ制御装置100に送る。
報酬出力部2021は、或る状態Sの下で、行動Aを選択した場合の報酬を算出する部分である。ここで、状態Sにおける状態変数である位置偏差の集合(位置偏差集合)をPD(S)、行動情報Aにより状態Sから変化した状態情報S´に係る状態変数である位置偏差集合をPD(S´)で示す。また、状態Sにおける位置偏差の値を、予め設定された評価関数f(PD(S))に基づいて算出される値とする。行動情報Aは速度フィードフォワード処理部115の各係数c、d(i,jは0及び正の整数を示す)の修正である。
ここで、状態Sにおける状態変数である位置偏差の集合とは、前述した加工形状の位置A1と位置A3、及び/又は位置B1と位置B3を含む所定の範囲内で計測される位置偏差の集合を意味する。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
このとき、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))よりも大きくなった場合に、報酬出力部2021は、報酬の値を負の値とする。
なお、報酬出力部2021は、トルク指令制限部108から速度制限通知信号を受けたときには、設定範囲外のトルク指令を生み出す速度フィードフォワード項を生成する速度フィードフォワード処理部115の係数c、dが選択されないように報酬の値を絶対値の大きな負の値とすることができる。そうすることで、設定範囲外のトルク指令が生み出されたときの速度フィードフォワード処理部115の係数c、dは、今後の学習範囲から実質的に外すことができる。
一方で、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))よりも小さくなった場合に、報酬出力部2021は、報酬の値を正の値とする。
なお、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード処理部115に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))と等しい場合は、報酬出力部2021は、報酬の値をゼロとするようにしてもよい。
また、行動Aを実行後の状態S´の位置偏差の値f(PD(S´))が、前の状態Sにおける位置偏差の値f(PD(S))より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Aを実行後の状態S´の位置偏差の値f(PD(S´))が、前の状態Sにおける位置偏差の値f(PD(S))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部2022は、状態Sと、行動Aと、行動Aを状態Sに適用した場合の状態S´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移する都度、即座に価値関数Qの更新を行う学習方法である。また、バッチ学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行う学習方法である。
行動情報生成部2023は、現在の状態Sに対して、Q学習の過程における行動Aを選択する。行動情報生成部2023は、Q学習の過程において、サーボ制御装置100の速度フィードフォワード処理部115の各係数c、dを修正する動作(Q学習における行動Aに相当)を行わせるために、行動情報Aを生成して、生成した行動情報Aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態Sに含まれる速度フィードフォワード処理部115の各係数c、dに対して行動Aに含まれる、速度フィードフォワード処理部115の各係数c、dをインクレメンタル(例えば0.01程度)に加算又は減算させる。
そして、行動情報生成部2023は、速度フィードフォワード処理部115の各係数c、dの増加又は減少を適用して、状態S´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動A´としては、速度フィードフォワード処理部115の各係数c、dに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動A´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動A´としては、例えば、速度フィードフォワード処理部115の各係数c、dに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動A´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動Aの価値の中で、最も価値Q(S,A)の高い行動A´を選択するグリーディ法、又はある小さな確率εでランダムに行動A´選択し、それ以外では最も価値Q(S,A)の高い行動A´を選択するεグリーディ法といった公知の方法により、行動A´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報Aをサーボ制御装置100に対して送信する部分である。サーボ制御装置100は上述したように、この行動情報に基づいて、現在の状態S、すなわち現在設定されている速度フィードフォワード処理部115の各係数c、dを微修正することで、次の状態S´(すなわち修正された、速度フィードフォワード処理部115の各係数c、d)に遷移する。
また、行動情報生成部2023は、速度フィードフォワード処理部115の各係数c、dを、設定範囲外のトルク指令が生み出されたときの係数ci、djとは異なる係数c、dに調整して係数を設定したこと通知する係数設定通知信号を数値制御装置300に対して送る。
価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態S、行動A毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(S,A)が最大となる動作を速度フィードフォワード処理部115に行わせるための行動情報A(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(速度フィードフォワード処理部115)に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、速度フィードフォワード処理部115の各係数c、dを修正する情報が含まれる。
サーボ制御装置100では、この行動情報に基づいて速度フィードフォワード処理部115の各係数c、dが修正される。
機械学習装置200は、以上の動作で、速度フィードフォワード処理部115の各係数ci、djの学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本実施形態に係る機械学習装置200を利用することで、サーボ制御装置100の速度フィードフォワード処理部115の補正パラメータ(係数c、d)調整を簡易化することができる。補正パラメータ(係数c、d)調整により速度フィードフォワード処理部115の速度フィードフォワード項の調整がなされる。
本実施形態では、サーボ制御装置100は、トルク指令制限部108を備え、トルク指令制限部108は、速度フィードフォワード項が加算されたトルク指令(以下、補正されたトルク指令という)が設定範囲外となったときに、補正されたトルク指令を設定範囲内となるように制限する。機械学習装置200は、トルク指令制限部108からのトルク指令制限通知信号により、補正されたトルク指令が設定範囲外となったことを認識する。機械学習装置200は、補正されたトルク指令が設定範囲外となったことを認識すると、状態Sにおける速度フィードフォワード処理部115の係数c、dをサーボモータ109が異常な動作をする補正パラメータとして学習に反映させる。その後、機械学習装置200は次の学習のための係数を新たに探索して、次の行動情報を選択して、速度フィードフォワード処理部115に設定するとともに、速度フィードフォワード処理部115の係数を新たに設定したことを示す係数設定通知信号を数値制御装置300へ送る。そうすることで、次の行動に基づく学習動作を開始することができる。以上のように、本実施形態の機械学習装置は、速度フィードフォワード処理部115の補正パラメータ(係数c、d)を機械学習する場合に、機械学習中に、仮に不適切な速度フィードフォワード項(補正量)が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。
以上、サーボ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図8を参照して、本実施形態の機械学習装置200の動作について説明する。
図8に示すように、ステップS21で、機械学習装置200は学習動作を開始する。ここで、学習動作とは、状態Sにおいて、行動A(速度フィードフォワード処理部115の係数c、d)を選択して、速度フィードフォワード処理部115に設定し、学習時の加工プログラムを実行させることにより前述した加工形状の位置A1と位置A3、及び/又は位置B1と位置B3における位置偏差の集合(状態S´における状態変数)を取得して、当該位置偏差の評価値を算出し、状態Sにおける位置偏差の評価値と比較することにより、報酬を算出し、価値関数記憶部204が記憶する価値関数Qを更新する一連の処理を意味する。以下のステップにおいて、一連の処理を実行する。
そして、学習動作時に、トルク指令制限部108が、補正されたトルク指令が設定範囲外となったことを認識した場合、機械学習装置200は、状態Sにおける行動A(速度フィードフォワード処理部115の係数c、d)をサーボモータ109が異常な動作をする行動(補正パラメータ)として報酬に反映させて、当該状態S、行動Aの学習を続行させる。それにより、機械学習装置は、次の行動を探索して、新たな行動を生成することで、学習が中断することがないように、安全に機械学習を継続することが可能となる。
ステップS22において、機械学習装置200は、補正された制御指令が設定範囲以内か否かを判定する。補正された制御指令が設定範囲外となったと判定した場合(No)、ステップS25に移る。補正された制御指令が設定範囲内の場合(No)、ステップS23に移る。なお、ここでは制御指令はトルク指令となる。
ステップS23において、機械学習装置200は、当該学習動作が終了したか否かを判定する。当該学習動作が終了した場合(Yes)、ステップS24に移る。当該学習動作が終了していない場合(No)、ステップS22に移る。
ステップS24において、機械学習装置200は、次の行動を探索して、新たなパラメータを設定する。具体的には、機械学習装置200は速度フィードフォワード処理部115の補正量(速度フィードフォワード項)を調整するための補正パラメータ設定(速度フィードフォワード処理部115の係数c、dの設定)をする。その後ステップS29に移る。
ステップS25において、機械学習装置200は、補正されたトルク指令が設定範囲外となったときの速度フィードフォワード処理部115の係数c、dを学習に反映させる。
ステップS26において、機械学習装置200は、加工プログラムが終了したか否かを判定する。当該加工プログラムが終了した場合(Yes)、ステップS27に移る。当該加工プログラムが終了していない場合(No)、再度ステップS26を実行する。
ステップS27において、機械学習装置200は、次の行動を探索して、速度フィードフォワード処理部115の係数c、d(補正パラメータ)を、補正されたトルク指令が設定範囲外となったときの係数とは異なる係数に調整して設定する。
ステップS28において、機械学習装置200は、速度フィードフォワード処理部115の係数c、dが新たな係数に設定されたことを数値制御装置300に対して通知する。数値制御装置300はその通知を受けることで、速度フィードフォワード処理部115の係数c、dが新たな係数に設定されたこと認識する。そのため、学習を続ける場合に、速度フィードフォワード処理部115の係数c、dが新たな係数に設定された状態で、数値制御装置300は加工プログラムを動作させて位置指令をサーボ制御装置100に送ることができる。
ステップS28において、機械学習装置200は、機械学習を終了するかどうかを判断し、機械学習を継続する場合(No)、ステップS21に戻る。機械学習を終了する場合(Yes)には機械学習処理を終了する。
以上、機械学習装置200による、速度フィードフォワード処理部115の係数の学習について説明したが、位置フィードフォワード処理部113の伝達関数の係数の機械学習も同様にして行われる。以下、位置フィードフォワード処理部113の伝達関数の係数の機械学習について説明する。
機械学習装置200は、サーボ制御装置100における、位置フィードフォワード処理部113の伝達関数の各係数ai、bj(i,j≧0)の値、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Sとして、当該状態Sに係る、位置フィードフォワード処理部113の伝達関数の各係数ai、bjの値の調整を行動Aとして選択する価値Qを学習する。
機械学習装置200は、位置フィードフォワード処理部113の伝達関数の各係数ai、bjに基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置A1と位置A3、及び位置B1と位置B3における、サーボ制御装置100の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Sを観測して、行動Aを決定する。機械学習装置200は、行動Aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Aを試行錯誤的に探索する。そうすることで、機械学習装置200は、位置フィードフォワード処理部113の伝達関数の各係数ai、bjに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Sに対して、最適な行動A(すなわち、位置フィードフォワード処理部113の最適な係数ai、bj)を選択することが可能となる。位置A1と位置A3、及び位置B1と位置B3とでは、X軸方向及びY軸方向のサーボモータの回転方向は変わらず、機械学習装置200は線形動作時の位置フィードフォワード処理部113の伝達関数の各係数ai、bjの学習を行うことができる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態Sに係る位置フィードフォワード処理部113の伝達関数の各係数ai、bjに対して適用される行動Aのうち、Qの値が最大となるような行動Aを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動A(すなわち、位置フィードフォワード処理部113の係数ai、bj)を選択することが可能となる。
なお、機械学習装置200の備える状態情報取得部201、(報酬出力部2021、価値関数更新部2022、行動情報生成部2023を含む)学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205における位置フィードフォワード処理部113の伝達関数の各係数ai、bjに係る処理については、第1実施形態における速度フィードフォワード処理部115を位置フィードフォワード処理部113に読み換えるとともに、速度フィードフォワード処理部115の各係数c、dを位置フィードフォワード処理部113の伝達関数の各係数a、bに読み換えることで説明できるため、詳細な説明は省略する。
また、最初にQ学習を開始する時点での位置フィードフォワード処理部113の係数a、bは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した位置フィードフォワード処理部113の係数a、bの初期設定値を、強化学習により最適なものに調整する。微分器112の係数βは固定値とし、例えばβ=1とする。また、位置フィードフォワード処理部113の係数a、bは例えば、初期設定値として、数式1のa=1、a=0、a=0、b=1、b=0、b=0、とする。また、係数a、bの次元m、nを予め設定する。すなわち、aについては0≦i≦m bについては0≦j≦nとする。
また、係数a、bの初期設定値は、速度フィードフォワード処理部115の各係数a、bの初期設定値と同じ値を適用してもよい。
同様に、サーボ制御装置100における位置フィードフォワード処理部113の各係数a、bに係る処理についても、速度フィードフォワード処理部115の各係数c、dを位置フィードフォワード処理部113の伝達関数の各係数a、bに読み換えることで説明できる。
以上のように、サーボ制御装置100は、微分器112、位置フィードフォワード処理部113、及び速度指令制限部104を備える。機械学習装置200は、速度指令制限部104からの速度指令制限通知により、速度指令が設定範囲内に制限されたことを認識する。機械学習装置200は、速度指令が設定範囲内に制限されたことを認識すると、状態Sにおける位置フィードフォワード処理部113の係数a、bをサーボモータ109が異常な動作をする補正パラメータとして学習に反映させる。補正パラメータ(係数a、b)調整により位置フィードフォワード処理部113の位置フィードフォワード項の調整がなされる。その後、次の学習のための係数を新たに探索して、次の行動情報を選択して、位置フィードフォワード処理部113に設定するとともに、位置フィードフォワード処理部113の係数を新たに設定したことを示す係数設定通知信号を数値制御装置300。そうすることで、数値制御装置300は、学習を続ける場合に、位置フィードフォワード処理部113の係数がサーボモータ109が異常な動作をする係数でない新たな係数に設定された状態で、加工プログラムを動作させて位置指令をサーボ制御装置100に送ることができる。
以上のように、本実施形態の機械学習装置は、位置フィードフォワード処理部113の係数を機械学習する場合に、機械学習中に、仮に不適切な係数が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。
次に、機械学習装置200の動作について説明する。
機械学習装置200の位置フィードフォワード処理部113の伝達関数の各係数a、bに関連する動作についても、第1実施形態における図8に示した機械学習装置200の処理フローにおいて、速度フィードフォワード処理部115を位置フィードフォワード処理部113に読み換え、速度フィードフォワード処理部115の各係数c、dを位置フィードフォワード処理部113の伝達関数の各係数a、bに読み換えることで説明できるため、詳細な説明は省略する。なお、図8の処理フローにおいて、ステップS22における補正された制御指令は速度指令となる。
(変形例)
本実施形態では、位置フィードフォワード項が加算された速度指令の範囲を制限するために速度指令制限部104を設け、速度フィードフォワード項が加算されたトルク指令の範囲を制限するためにトルク指令制限部108を設けた。
しかし、速度指令制限部104の代わりに、位置フィードフォワード項の範囲を制限するために、位置フィードフォワード処理部113と加算器103との間に位置フィードフォワード項制限部を設けてもよい。また、トルク指令制限部108の代わりに、速度フィードフォワード項の範囲を制限するために、速度フィードフォワード処理部115と加算器107との間に速度フィードフォワード項制限部を設けてもよい。位置フィードフォワード項制限部の設定範囲及び速度フィードフォワード項制限部の設定範囲は、図2〜図4を用いて説明したように、固定された範囲としても、動的に変動する範囲としてもよい。
本実施形態において、機械学習装置200は、速度フィードフォワード処理部115の伝達関数の係数の学習を先に行い、速度フィードフォワード処理部115の伝達関数の係数を最適化した後に、位置フィードフォワード処理部113の伝達関数の係数の学習を行うようにしたが、本実施形態は、これに限定されない。
例えば、機械学習装置200は、位置フィードフォワード処理部113の伝達関数の係数、及び速度フィードフォワード処理部115の伝達関数の係数を同時に学習するようにしてもよい。このように、機械学習装置200が同時に学習した場合、二つの学習が相互に干渉して情報処理量が増大する可能性がある。
また、本実施形態では、補正生成部として、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項生成部(微分器112及び位置フィードフォワード処理部113)と、位置指令に基づいてトルク指令に対する補正量を生成する速度フィードフォワード項生成部(2回微分器114及び速度フィードフォワード処理部115)と、を備えるものとした。
しかし、補正生成部として、位置フィードフォワード項生成部か速度フィードフォワード項生成部かのいずれかを備えるものとしてもよい。その場合、例えば、位置フィードフォワード項生成部のみを設けるときには、2回微分器114、速度フィードフォワード処理部115、加算器107及びトルク指令制限部108は不要となる。
(第2実施形態)
以上説明した実施形態においては、機械学習装置200が、X軸方向及びY軸方向のサーボモータの回転方向が変わらない線形動作時の、位置フィードフォワード処理部と速度フィードフォワード処理部の係数の最適化に係る学習動作を行う場合について説明した。
しかし、本発明は、線形動作時の学習動作に限定されず、非線形動作の学習動作を行うにも適用することができる。例えば、既に説明したように、工作機械において、非線形動作として、モータとボールねじにより駆動される送り駆動系で円運動を行うと、軸の運動方向が反転する象限切替え時に突起状の軌跡誤差(以下、「象限突起」という)が生じることが知られている。
第2実施形態では、象限突起の補正量を機械学習装置200で学習し、速度指令制限部で象限突起の補正量が加算された速度指令の範囲を制限し、範囲外となったときの象限突起の補正量を学習に反映させる例について説明する。
図9は本発明の第2実施形態の制御装置の一構成例を示すブロック図である。図9の制御装置10Bにおいて、図1に示した制御装置の各構成部材と同一構成部材については同一符号を付して説明を省略する。
図9に示すように、サーボ制御装置100Aは、反転検出部116、及び補正生成部117、を備えている。サーボ制御装置100Aは、図1に示す、微分器112、位置フィードフォワード処理部113、2回微分器114、速度フィードフォワード処理部115、加算器107、及びトルク指令制限部108を備えていない。
数値制御装置300は、例えば図6に示す、八角形の角が一つ置きに円弧に置き換えられた形の加工形状の、学習時の加工プログラムに基づいて位置指令を作成する。
位置指令は、減算器101、反転検出部116、及び機械学習装置200に入力される。
反転検出部116は、位置指令から反転部を検出する。例えば、図6に示す円弧の位置B2で、テーブルをY軸方向に移動するモータは、回転方向が反転するが、反転検出部121は、位置指令に基づいて、位置B2での反転を検出する。補正生成部117は反転の検出信号に基づいて補正量を加算器103に出力する。
速度指令制限部104は、補正生成部117から出力される補正量が加算された速度指令(以下、補正された速度指令という)が制限を行う設定範囲内(上限以下及び下限以上)に有るかどうかを検出する。補正された速度指令が設定範囲内であれば、速度指令制限部104は、そのまま補正された速度指令を減算器105に出力する。一方、補正された速度指令が設定範囲外である場合には、速度指令制限部104は、補正された速度指令を制限して設定範囲内として、設定範囲内とされた速度指令を減算器105に出力する。
また、速度指令制限部104は、速度指令を設定範囲内に制限した場合は速度制限通知を機械学習装置200に対して行う。
以上のように、本実施形態の機械学習装置も、補正生成部117の補正量を機械学習する場合に、機械学習中に、仮に不適切な補正量が選択されることがあっても、象限突起が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。
(変形例)
本実施形態では、象限突起の補正量が加算された速度指令の範囲を制限するために速度指令制限部104を設けた。
しかし、速度指令制限部104の代わりに、象限突起の補正量の範囲を制限するために、補正生成部117と加算器103との間に補正量制限部を設けてもよい。補正量制限部の設定範囲は、固定された範囲としても、動的に変動する範囲としてもよい。
機械学習装置200は、象限突起の補正のために、図6に示す加工形状の位置B2と位置B4における、減算器101の出力となる位置偏差を用いて学習し、補正生成部117の補正量を調整する。
象限突起の補正を行う場合、図5に示した八角形の加工形状の、学習時の加工プログラムを用いてもよい。その場合、例えば、図5に示す位置A2で、テーブルをY軸方向に移動するモータの回転方向が反転し、位置A4で、テーブルをX軸方向に移動するモータの回転方向が反転する。機械学習装置200は、象限突起の補正のために、例えば、図5に示す八角形の加工形状の位置A2と位置A4における、減算器101の出力となる位置偏差を用いて学習し、補正生成部117の補正量を調整する。
以上本発明に係る各実施形態について説明したが、上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ読み取り可能な記録媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ読み取り可能な記録媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ読み取り可能な記録媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
<サーボ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200と、サーボ制御装置100又は100Aとを制御装置内に設けて構成し、機械学習装置200とサーボ制御装置100又は100Aとは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
また、上述した実施形態では、サーボ制御装置100又は100Aと数値制御装置300とは別体の装置により構成したが、サーボ制御装置100又は100Aの機能の一部又は全部を数値制御装置300により実現するようにしてもよい。数値制御装置300は、機械学習装置200、サーボ制御装置100又は100Aを含んでもよく、その場合、数値制御装置300が制御装置を構成する。
<システム構成の自由度>
図10は他の構成の制御装置を示すブロック図である。制御装置10Bは、図10に示すように、n台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、ネットワーク400、及び数値制御装置300−1〜300−nを備えている。なお、nは任意の自然数である。n台のサーボ制御装置100−1〜100−nのそれぞれは図1、図7、図8及び図9に示したサーボ制御装置100、100A〜100Cのいずれかに対応している。n台の機械学習装置200−1〜200−nのそれぞれは図1及び図9に示した機械学習装置200のいずれかに対応している。数値制御装置300−1〜300−nは数値制御装置300に対応し、サーボ制御装置100−1〜100−nのそれぞれに対して設けられる。サーボ制御装置100−1〜100−nは数値制御装置300−1〜300−nに含まれていてもよい。
ここで、サーボ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボ制御装置100−2〜100−nと機械学習装置200−2〜200−nについてもサーボ制御装置100−1と機械学習装置200−1と同様に接続される。図10では、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク400を介して接続されているが、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
上述した図10の制御装置では、機械学習装置200−1〜200−nとサーボ制御装置100−1−100−nとが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200−1が複数のサーボ制御装置100−1〜100−m(m<n又はm=n)とネットワーク400を介して通信可能に接続され、各サーボ制御装置100−1〜100−mの機械学習を実施するようにしてもよい。
その際、機械学習装置200−1の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200−1の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10、10A、10B 制御装置
100、100A サーボ制御装置
101 減算器
102 位置制御部
103 加算器
104 速度指令制限部
105 減算器
106 速度制御部
107 加算器
108 トルク指令制限部
109 モータ
110 積分器
111 位置検出処理部
112 微分器
113 位置フィードフォワード処理部
114 2回微分器
115 速度フィードフォワード処理部
116 反転検出部
117 補正生成部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 数値制御装置
400 ネットワーク

Claims (11)

  1. 工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部と、を備えたサーボ制御装置に対して、前記補正生成部の前記補正量の最適化に係る機械学習を行う機械学習装置であって、
    機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記制限部が前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正生成部にて生成する前記補正量の最適化の新たな探索を継続する機械学習装置。
  2. 前記制限部は、前記補正量又は前記補正量が加えられた前記制御指令に制限を加えた場合に、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となったことを前記機械学習装置に通知し、
    前記機械学習装置は、前記通知を受けたときに、前記補正量を学習に反映させる、請求項1に記載の機械学習装置。
  3. 前記機械学習として強化学習を行い、
    前記制限部から前記通知を受けたときに、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲を超えるような前記補正量が選択されないような報酬を与える請求項1又は2に記載の機械学習装置。
  4. 前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力する請求項3に記載の機械学習装置。
  5. 前記制御指令は、速度指令とトルク指令のうちの少なくとも1つを含み、前記補正量は、前記速度指令に加える位置フィードフォワード項と前記トルク指令に加える速度フィードフォワード項のうちの少なくとも1つを含む請求項1から4のいずれか1項に記載の機械学習装置。
  6. 前記設定範囲は上限と下限とが固定された範囲である、請求項1から5のいずれか1項に記載の機械学習装置。
  7. 前記設定範囲は上限と下限とが変動する範囲である、請求項1から5のいずれか1項に記載の機械学習装置。
  8. 前記制限部は加工精度又は加工サイクルタイムによって前記設定範囲の上限と下限を変える、請求項7に記載の機械学習装置。
  9. 請求項1から8のいずれか1項に記載の機械学習装置と、
    工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部と、を備えたサーボ制御装置と、
    を備えた制御装置。
  10. 前記機械学習装置は、前記サーボ制御装置に含まれる、請求項9に記載の制御装置。
  11. 工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成し、補正量又は前記補正量が加えられた制御指令を設定範囲に制限するサーボ制御装置に対して、前記補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
    機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えられて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正量の最適化の新たな探索を継続する、機械学習方法。
JP2018077559A 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法 Active JP6740278B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018077559A JP6740278B2 (ja) 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法
US16/376,025 US10901396B2 (en) 2018-04-13 2019-04-05 Machine learning device, control device, and machine learning method
DE102019204949.4A DE102019204949A1 (de) 2018-04-13 2019-04-08 Maschinelle lernvorrichtung, steuervorrichtung und maschinelles lernverfahren
CN201910280101.1A CN110376964B (zh) 2018-04-13 2019-04-09 机器学习装置、控制装置以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018077559A JP6740278B2 (ja) 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019185530A JP2019185530A (ja) 2019-10-24
JP6740278B2 true JP6740278B2 (ja) 2020-08-12

Family

ID=68053221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018077559A Active JP6740278B2 (ja) 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法

Country Status (4)

Country Link
US (1) US10901396B2 (ja)
JP (1) JP6740278B2 (ja)
CN (1) CN110376964B (ja)
DE (1) DE102019204949A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7031502B2 (ja) * 2018-06-07 2022-03-08 オムロン株式会社 制御システム、制御方法、学習装置、制御装置、学習方法及び学習プログラム
AT522480B1 (de) * 2019-11-14 2020-11-15 Fill Gmbh Verfahren zum Betreiben einer Bearbeitungsanlage
JP7327136B2 (ja) * 2019-12-13 2023-08-16 コベルコ建機株式会社 作業機械におけるパラメータ変更システム、パラメータ変更方法、および、パラメータ変更プログラム
WO2021137034A1 (en) * 2019-12-30 2021-07-08 Amo Development, Llc Multi-axis motor position compensation in ophthalmic surgical laser system using deep learning
DE112020007259T5 (de) 2020-05-29 2023-03-16 Mitsubishi Electric Corporation Laserbearbeitungssystem
US20220065135A1 (en) * 2020-08-25 2022-03-03 General Electric Company Gas turbine alignment assembly and method
JP2022107463A (ja) * 2021-01-08 2022-07-21 株式会社日立製作所 プラント制御装置、プラント制御方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0421101A (ja) * 1990-05-16 1992-01-24 Fanuc Ltd 学習コントローラの飽和処理方式
JP2005327191A (ja) * 2004-05-17 2005-11-24 Fanuc Ltd サーボ制御装置
JP4276187B2 (ja) * 2005-02-02 2009-06-10 ファナック株式会社 学習制御機能を有する数値制御装置
KR20100050822A (ko) * 2008-11-06 2010-05-14 (주) 아인전자 어학 학습 관리 장치
JP5759206B2 (ja) * 2011-03-01 2015-08-05 東芝三菱電機産業システム株式会社 学習係数制御装置
US8767343B1 (en) * 2012-04-24 2014-07-01 Western Digital Technologies, Inc. Disk drive increasing integrator output range to complete seek operation
JP6243385B2 (ja) * 2015-10-19 2017-12-06 ファナック株式会社 モータ電流制御における補正値を学習する機械学習装置および方法ならびに該機械学習装置を備えた補正値計算装置およびモータ駆動装置
JP6193961B2 (ja) * 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
JP6531682B2 (ja) * 2016-03-11 2019-06-19 オムロン株式会社 モータ制御装置、モータ制御方法、プログラム、および記録媒体
WO2018049250A1 (en) * 2016-09-08 2018-03-15 Curematch, Inc. Optimizing therapeutic options in personalized medicine
JP6264430B2 (ja) 2016-11-09 2018-01-24 オムロン株式会社 サーボシステムおよびセーフティユニット

Also Published As

Publication number Publication date
CN110376964A (zh) 2019-10-25
DE102019204949A1 (de) 2019-10-17
US10901396B2 (en) 2021-01-26
JP2019185530A (ja) 2019-10-24
CN110376964B (zh) 2021-11-19
US20190317477A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6740277B2 (ja) 機械学習装置、制御装置、及び機械学習方法
CN108628355B (zh) 伺服控制装置及系统、机器学习装置及方法
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6474449B2 (ja) 調整装置及び調整方法
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
CN110083080B (zh) 机器学习装置及方法、伺服电动机控制装置及系统
CN108880399B (zh) 机器学习装置、伺服控制系统以及机器学习方法
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP6740279B2 (ja) 調整装置及び調整方法
JP6806746B2 (ja) モータ制御装置
JP2020035213A (ja) 機械学習装置、制御システム及び機械学習方法
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190911

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191217

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200722

R150 Certificate of patent or registration of utility model

Ref document number: 6740278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150