JP6490127B2 - Machine learning device, servo control device, servo control system, and machine learning method - Google Patents

Machine learning device, servo control device, servo control system, and machine learning method Download PDF

Info

Publication number
JP6490127B2
JP6490127B2 JP2017049608A JP2017049608A JP6490127B2 JP 6490127 B2 JP6490127 B2 JP 6490127B2 JP 2017049608 A JP2017049608 A JP 2017049608A JP 2017049608 A JP2017049608 A JP 2017049608A JP 6490127 B2 JP6490127 B2 JP 6490127B2
Authority
JP
Japan
Prior art keywords
value
reward
servo control
machine learning
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017049608A
Other languages
Japanese (ja)
Other versions
JP2018152012A (en
Inventor
亮太郎 恒木
亮太郎 恒木
聡史 猪飼
聡史 猪飼
直人 園田
直人 園田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2017049608A priority Critical patent/JP6490127B2/en
Priority to DE102018203702.7A priority patent/DE102018203702B4/en
Priority to CN201810205461.0A priority patent/CN108628355B/en
Priority to US15/919,456 priority patent/US10564619B2/en
Publication of JP2018152012A publication Critical patent/JP2018152012A/en
Application granted granted Critical
Publication of JP6490127B2 publication Critical patent/JP6490127B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/19Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/19Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
    • G05B19/27Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path using an absolute digital measuring device
    • G05B19/31Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path using an absolute digital measuring device for continuous-path control
    • G05B19/311Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path using an absolute digital measuring device for continuous-path control the positional error is used to control continuously the servomotor according to its magnitude
    • G05B19/318Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path using an absolute digital measuring device for continuous-path control the positional error is used to control continuously the servomotor according to its magnitude with a combination of feedback covered by G05B19/313 - G05B19/316
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D13/00Control of linear speed; Control of angular speed; Control of acceleration or deceleration, e.g. of a prime mover
    • G05D13/62Control of linear speed; Control of angular speed; Control of acceleration or deceleration, e.g. of a prime mover characterised by the use of electric means, e.g. use of a tachometric dynamo, use of a transducer converting an electric value into a displacement
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by the network communication
    • G05B19/41855Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by the network communication by local area network [LAN], network structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/41Servomotor, servo controller till figures
    • G05B2219/41428Feedforward of position and speed
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42152Learn, self, auto tuning, calibrating, environment adaptation, repetition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Description

本発明は、速度フィードフォワード制御を用いたサーボ制御装置に対して、速度フィードフォワード制御における係数に関する学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置とサーボ制御システム、及び機械学習方法に関する。   The present invention relates to a machine learning device that learns about a coefficient in speed feedforward control for a servo control device using speed feedforward control, a servo control device and a servo control system including the machine learning device, and a machine learning method About.

速度フィードフォワード制御を用いたサーボ制御装置は、例えば、特許文献1に記載されたサーボ制御装置がある。特許文献1に記載されたサーボ制御装置は、位置指令を微分し位置のフィードフォワード制御量を求め、位置ループ制御で得られた制御量にフィードフォワード制御量を加算して速度指令とし、位置のフィードフォワード量を微分して得られる速度のフィードフォワード制御量を速度ループ制御によって得られる値に加算して電流指令とするサーボ制御装置である。   As a servo control device using speed feedforward control, for example, there is a servo control device described in Patent Document 1. The servo control device described in Patent Document 1 differentiates the position command to obtain the position feedforward control amount, adds the feedforward control amount to the control amount obtained by the position loop control to obtain a speed command, This is a servo control device in which a feedforward control amount of speed obtained by differentiating the feedforward amount is added to a value obtained by speed loop control to obtain a current command.

特開平3−15911号公報Japanese Patent Laid-Open No. 3-15911

サーボ制御装置においては、機械の摩擦、ガタ、ロストモーションなどの非線形特性の影響により、速度指令値が変化したときに位置偏差が発生する場合がある。このような場合に、速度フィードフォワードを高次のものにすることで、位置偏差を低減し、位置指令に対する追従性を向上できるが、速度のフィードフォワードの係数(パラメータ)の調整は難しくなる。   In the servo control device, a position deviation may occur when the speed command value changes due to the influence of nonlinear characteristics such as machine friction, backlash, and lost motion. In such a case, by making the speed feedforward higher, the position deviation can be reduced and the followability to the position command can be improved, but the adjustment of the speed feedforward coefficient (parameter) becomes difficult.

本発明は、速度フィードフォワード制御を用いたサーボ制御装置において、位置偏差を低減して、位置指令に対する追従性を向上させるために速度フィードフォワードを高次のものにした場合に、高次の速度フィードフォワードの係数の煩雑な調整を回避できる強化学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置、サーボ制御システム、及び機械学習方法を提供することを目的とする。   In the servo control device using the speed feedforward control, the present invention provides a higher order speed when the speed feedforward is made higher in order to reduce the position deviation and improve the followability to the position command. It is an object of the present invention to provide a machine learning device that performs reinforcement learning that can avoid complicated adjustment of a feedforward coefficient, a servo control device including the machine learning device, a servo control system, and a machine learning method.

(1) 本発明に係る機械学習装置(例えば、後述の機械学習装置200)は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段(例えば、後述の速度フィードフォワード計算部110)を備える、サーボ制御装置(例えば、後述のサーボ制御装置100)に対して機械学習を行う機械学習装置であって、
所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部201)と、
前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部2021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部2022)と、
を備える機械学習装置である。
(1) A machine learning device (for example, a machine learning device 200 described later) according to the present invention is a speed feedforward calculation unit (for example, a speed feedforward calculation unit 110 described later) that creates a speed feedforward value based on a position command. A machine learning device that performs machine learning on a servo control device (for example, a servo control device 100 described later),
By causing the servo control device to execute a predetermined machining program, state information including at least a servo state including a positional deviation and a combination of coefficients of a transfer function of the speed feedforward calculation means is obtained from the servo control device. Status information acquisition means (for example, status information acquisition unit 201 described later) to acquire;
Behavior information output means (for example, behavior information output unit 203 described later) that outputs behavior information including adjustment information of the combination of the coefficients included in the state information to the servo control device;
Reward output means (for example, reward output unit 2021 described later) for outputting a reward value in reinforcement learning based on the position deviation included in the state information;
Value function update means (for example, a value function update unit 2022 described later) that updates the action value function based on the value of the reward output by the reward output means, the state information, and the action information;
Is a machine learning device.

(2) 上記(1)のサーボ制御装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。   (2) In the servo control device of (1), the reward output means may output the reward value based on the absolute value of the position deviation.

(3) 上記(1)又は(2)のサーボ制御装置において、前記報酬出力手段は、少なくとも前記位置偏差及び前記位置偏差の微分値を含む値に基づく報酬の値を計算してもよい。   (3) In the servo control device according to (1) or (2), the reward output unit may calculate a reward value based on at least the position deviation and a value including the differential value of the position deviation.

(4) 上記(1)又は(2)のサーボ制御装置において、前記状態情報取得手段は、さらに、前記サーボ状態に含まれる速度指令値が変化してから前記位置偏差が所定の範囲内に収まるまでの時間Tを観測し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記時間Tの長さを含む値に基づいて、報酬の値を計算してもよい。
(4) In the servo control device according to (1) or (2), the state information acquisition unit further includes the position deviation within a predetermined range after a speed command value included in the servo state is changed. Observe the time T until
The reward output means may calculate a reward value based on a value including at least the position deviation and the length of the time T.

(5) 上記(1)又は(2)のサーボ制御装置において、前記状態情報取得手段は、さらに、
前記サーボ制御装置からトルク指令を取得し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記トルク指令の微分値を含む値に基づいて、報酬の値を計算してもよい。
(5) In the servo control device according to (1) or (2), the state information acquisition unit further includes:
Obtaining a torque command from the servo control device;
The reward output means may calculate a reward value based on at least a value including the position deviation and a differential value of the torque command.

(6) 上記(1)又は(2)のサーボ制御装置において、前記状態情報取得手段は、さらに、前記サーボ制御装置からトルク指令を取得し、
前記報酬出力部は、少なくとも前記位置偏差及び前記トルク指令がトルク指令の許容値まで到達しているかどうかに基づいて、報酬の値を計算してもよい。
(6) In the servo control device according to (1) or (2), the state information acquisition unit further acquires a torque command from the servo control device,
The reward output unit may calculate a reward value based on at least the position deviation and whether or not the torque command has reached a torque command allowable value.

(7) 上記(1)又は(2)のサーボ制御装置において、前記状態情報取得手段は、さらに、前記サーボ制御装置から速度偏差を取得し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記速度偏差を含む値に基づいて、報酬の値を計算してもよい。
(7) In the servo control device according to (1) or (2), the state information acquisition unit further acquires a speed deviation from the servo control device,
The reward output means may calculate a reward value based on a value including at least the position deviation and the speed deviation.

(8) 上記(1)から(7)のいずれかのサーボ制御装置において、記価値関数更新手段により更新された価値関数に基づいて、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせを生成して出力する最適化行動情報出力手段(例えば、後述の最適化行動情報出力部205)を備えてもよい。   (8) In the servo control device according to any one of (1) to (7), a combination of coefficients of the transfer function of the speed feedforward calculation unit is generated based on the value function updated by the value function update unit. Then, an optimization behavior information output unit (for example, an optimization behavior information output unit 205 described later) may be provided.

(9) 本発明に係るサーボ制御システムは、上記(1)から(8)のいずれかの機械学習装置と、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段を有するサーボ制御装置と、を備えたサーボ制御システムである。   (9) A servo control system according to the present invention includes a machine learning device according to any one of (1) to (8) above, and a servo control having a speed feedforward calculation unit that creates a speed feedforward value based on a position command. And a servo control system.

(10) 本発明に係るサーボ制御装置は、上記(1)から(8)のいずれかの機械学習装置と、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段と、を備えたサーボ制御装置である。   (10) A servo control device according to the present invention includes the machine learning device according to any one of (1) to (8) above, and a speed feedforward calculation unit that creates a speed feedforward value based on a position command. Servo control device.

(11) 本発明に係る機械学習方法は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段を備える、サーボ制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得し、
前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力し、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、
機械学習方法である。
(11) A machine learning method according to the present invention is a machine learning method of a machine learning apparatus that includes a speed feedforward calculation unit that creates a speed feedforward value based on a position command and performs machine learning on a servo controller. There,
By causing the servo control device to execute a predetermined machining program, state information including at least a servo state including a positional deviation and a combination of coefficients of a transfer function of the speed feedforward calculation means is obtained from the servo control device. Acquired,
Action information including adjustment information of the combination of the coefficients included in the state information is output to the servo control device;
Updating a behavior value function based on the value of reward in reinforcement learning based on the positional deviation included in the state information, the state information, and the behavior information;
It is a machine learning method.

本発明によれば、速度フィードフォワード制御を用いたサーボ制御装置において、位置偏差を低減して、位置指令に対する追従性を向上させるために速度フィードフォワードを高次のものにした場合に、高次の速度フィードフォワードの係数の煩雑な調整を回避できる強化学習を行うことができる。   According to the present invention, in the servo control device using the speed feedforward control, when the speed feedforward is made higher in order to reduce the position deviation and improve the followability to the position command, the higher order Reinforcement learning can be performed to avoid complicated adjustment of the speed feedforward coefficient.

本発明の第1の実施形態のサーボ制御システムを示すブロック図である。1 is a block diagram illustrating a servo control system according to a first embodiment of the present invention. サーボ制御装置と機械学習装置200がネットワークで接続された構成例を示すブロック図である。It is a block diagram which shows the structural example by which the servo control apparatus and the machine learning apparatus 200 were connected by the network. 制御対象300の一例を示すブロック図である。3 is a block diagram illustrating an example of a control target 300. FIG. 加工形状が円形の場合のサーボモータの動作を説明するための図である。It is a figure for demonstrating operation | movement of the servomotor in case a process shape is circular. 加工形状が円形で、位置A1で、テーブルをY軸方向に移動するサーボモータの回転方向が反転しようとした時の惰走により生ずる軌跡誤差を示す説明図である。It is explanatory drawing which shows the locus | trajectory error which arises by coasting when the process shape is circular and the rotation direction of the servomotor which moves a table to a Y-axis direction is going to reverse at position A1. 加工形状が四角の場合のサーボモータの動作を説明するための図である。It is a figure for demonstrating operation | movement of the servomotor in case a process shape is a square. 加工形状が角R付き四角の場合のサーボモータの動作を説明するための図である。It is a figure for demonstrating operation | movement of a servomotor in case a process shape is a square with a corner | angular R. FIG. 第1の実施形態の機械学習装置200を示すブロック図である。It is a block diagram showing machine learning device 200 of a 1st embodiment. 機械学習装置200の動作を説明するフローチャートである。6 is a flowchart for explaining the operation of the machine learning device 200. 機械学習装置200の最適化行動情報出力部205の動作を説明するフローチャートである。5 is a flowchart for explaining the operation of an optimized behavior information output unit 205 of the machine learning device 200. 本発明の第2の実施形態のサーボ制御装置を示すブロック図である。It is a block diagram which shows the servo control apparatus of the 2nd Embodiment of this invention. 変形例における、重み付けされて加算された評価関数を用いて選択しえる位置偏差の波形を示す特性図である。It is a characteristic view which shows the waveform of the position deviation which can be selected using the evaluation function weighted and added in the modification. 他の変形例における、重み付けされて加算された評価関数を用いて選択しえる位置偏差の波形を示す特性図である。It is a characteristic view which shows the waveform of the position deviation which can be selected using the weighted and added evaluation function in another modification.

以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1の実施形態)
図1は発明の第1の実施形態のサーボ制御システムを示すブロック図である。サーボ制御システム10は、図1に示すように、n台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク400を備えている。なお、nは任意の自然数である。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(First embodiment)
FIG. 1 is a block diagram showing a servo control system according to a first embodiment of the invention. As shown in FIG. 1, the servo control system 10 includes n servo control devices 100-1 to 100-n, n machine learning devices 200-1 to 200-n, and a network 400. Note that n is an arbitrary natural number.

ここで、サーボ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボ制御装置100−2〜100−nと機械学習装置200−2〜100−nについてもサーボ制御装置100−1と機械学習装置200−1と同様に接続される。図1では、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク400を介して接続されているが、サーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
図2は本発明の第1の実施形態のサーボ制御システムのサーボ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。図2のサーボ制御装置100と、機械学習装置200は例えば、図1に示すサーボ制御装置100−1と機械学習装置200−1とに対応している。
制御対象300は例えばサーボモータ、サーボモータを含む工作機械,ロボット,産業機械等である。サーボ制御装置100は工作機械,ロボット,産業機械等の一部として設けられてもよい。
Here, the servo control device 100-1 and the machine learning device 200-1 are in a one-to-one set and are connected to be communicable. The servo control devices 100-2 to 100-n and the machine learning devices 200-2 to 100-n are also connected in the same manner as the servo control device 100-1 and the machine learning device 200-1. In FIG. 1, n sets of the servo control devices 100-1 to 100-n and the machine learning devices 200-1 to 200-n are connected via the network 400, but the servo control device 100-1 ˜100-n and n sets of machine learning devices 200-1 to 200-n may be such that each set of servo control device and machine learning device is directly connected via a connection interface. The n sets of the servo control devices 100-1 to 100-n and the machine learning devices 200-1 to 200-n may be installed in the same factory, for example, or may be installed in different factories. May be.
The network 400 is, for example, a LAN (Local Area Network) constructed in a factory, the Internet, a public telephone network, or a combination thereof. There are no particular limitations on the specific communication method in the network 400, whether it is a wired connection or a wireless connection, or the like.
FIG. 2 is a block diagram showing a set of a servo control device and a machine learning device of the servo control system according to the first embodiment of the present invention, and a control target. The servo control device 100 and the machine learning device 200 in FIG. 2 correspond to, for example, the servo control device 100-1 and the machine learning device 200-1 shown in FIG.
The control object 300 is, for example, a servo motor, a machine tool including a servo motor, a robot, an industrial machine, or the like. The servo control device 100 may be provided as a part of a machine tool, a robot, an industrial machine, or the like.

最初に、サーボ制御装置100について説明する。
サーボ制御装置100は、位置指令作成部101、減算器102、位置制御部103、加算器104、減算器105、速度制御部106、加算器107、積分器108、位置フィードフォワード計算部109、及び速度フィードフォワード計算部110を備えている。
位置指令作成部101は位置指令値を作成し、作成した位置指令値を減算器102と位置フィードフォワード計算部109とに出力する。減算器102は位置指令値と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部103とに出力するとともに機械学習装置200に対して送信する。
First, the servo control device 100 will be described.
The servo control device 100 includes a position command creation unit 101, a subtractor 102, a position control unit 103, an adder 104, a subtractor 105, a speed control unit 106, an adder 107, an integrator 108, a position feedforward calculation unit 109, and A speed feedforward calculation unit 110 is provided.
The position command creation unit 101 creates a position command value and outputs the created position command value to the subtracter 102 and the position feedforward calculation unit 109. The subtractor 102 obtains a difference between the position command value and the detected position that has been subjected to position feedback, and outputs the difference as a position deviation to the position control unit 103 and transmits it to the machine learning device 200.

位置指令作成部101は、制御対象300を動作させるプログラムに基づいて位置指令値を作成する。制御対象300は、例えばサーボモータを含む工作機械で、被加工物(ワーク)を搭載するテーブルをX軸方向及びY軸方向に移動させて加工する場合には、X軸方向及びY軸方向に対してそれぞれ図2に示すサーボ制御装置が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置が設けられる。
位置指令作成部101は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。
The position command creating unit 101 creates a position command value based on a program that operates the control target 300. The control object 300 is, for example, a machine tool including a servo motor. When a table on which a workpiece (workpiece) is mounted is moved in the X-axis direction and the Y-axis direction, the control target 300 is processed in the X-axis direction and the Y-axis direction. In contrast, a servo control device shown in FIG. 2 is provided. When the table is moved in directions of three or more axes, a servo control device is provided for each axis direction.
The position command creating unit 101 creates a position command value by setting a feed speed so as to obtain a machining shape specified by the machining program.

位置制御部103は、位置偏差にポジションゲインKpを乗じた値を、速度指令値として加算器104に出力する。位置フィードフォワード計算部109は位置指令値を微分してフィードフォワード係数を掛けた値を、加算器104と速度フィードフォワード計算部110に出力する。   The position control unit 103 outputs a value obtained by multiplying the position deviation by the position gain Kp to the adder 104 as a speed command value. The position feedforward calculation unit 109 outputs a value obtained by differentiating the position command value and multiplied by the feedforward coefficient to the adder 104 and the speed feedforward calculation unit 110.

加算器104は、速度指令値と位置フィードフォワード計算部109の出力値とを加算して、フィードフォワード制御された速度指令値として減算器105に出力する。減算器105は加算器104の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部106に出力する。   The adder 104 adds the speed command value and the output value of the position feedforward calculation unit 109, and outputs the result to the subtractor 105 as a speed command value subjected to feedforward control. The subtractor 105 obtains the difference between the output of the adder 104 and the speed detection value that is speed-feedback, and outputs the difference to the speed control unit 106 as a speed deviation.

速度制御部106は、速度偏差に積分ゲインK1vを乗じて積分した値と、速度偏差に比例ゲインK2vを乗じた値とを加算して、トルク指令値として加算器107に出力する。   The speed control unit 106 adds the value obtained by multiplying the speed deviation by the integral gain K1v and the value obtained by multiplying the speed deviation by the proportional gain K2v, and outputs the result to the adder 107 as a torque command value.

速度フィードフォワード計算部110は、数式1(以下に数1として示す)で示す伝達関数Gf(S)で示される速度フィードフォワード計算処理を行い加算器107に出力する。

Figure 0006490127
The speed feedforward calculation unit 110 performs a speed feedforward calculation process indicated by a transfer function Gf (S) expressed by Equation 1 (shown as Equation 1 below) and outputs the result to the adder 107.
Figure 0006490127

加算器107は、トルク指令値と速度フィードフォワード計算部110の出力値とを加算して、フィードフォワード制御されたトルク指令値として制御対象300に出力する。   The adder 107 adds the torque command value and the output value of the speed feedforward calculation unit 110, and outputs the result to the control target 300 as a torque command value subjected to feedforward control.

制御対象300は速度検出値を出力し、速度検出値は速度フィードバックとして減算器105に入力される。速度検出値は積分器108で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器102に入力される。
以上のように、サーボ制御装置100は構成される。
The control object 300 outputs a speed detection value, and the speed detection value is input to the subtractor 105 as speed feedback. The speed detection value is integrated by the integrator 108 to become a position detection value, and the position detection value is input to the subtractor 102 as position feedback.
As described above, the servo control device 100 is configured.

次に、サーボ制御装置100により制御される制御対象300について説明する。
図3は制御対象300の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボ制御装置100は、サーボモータ302で連結機構303を介してテーブル304を移動させ、テーブル304の上に搭載された被加工物(ワーク)を加工する。連結機構303は、サーボモータ302に連結されたカップリング3031と、カップリング3031に固定されるボールねじ3033とを有し、ボールねじ3033にナット3032が螺合されている。サーボモータ302の回転駆動によって、ボールねじ3033に螺着されたナット3032がボールねじ3033の軸方向に移動する。
Next, the control target 300 controlled by the servo control device 100 will be described.
FIG. 3 is a block diagram illustrating a machine tool including a servo motor, which is an example of the control target 300.
The servo control device 100 moves the table 304 with the servo motor 302 via the coupling mechanism 303 to process a workpiece (workpiece) mounted on the table 304. The coupling mechanism 303 includes a coupling 3031 coupled to the servo motor 302 and a ball screw 3033 fixed to the coupling 3031, and a nut 3032 is screwed to the ball screw 3033. The nut 3032 screwed to the ball screw 3033 moves in the axial direction of the ball screw 3033 by the rotational drive of the servo motor 302.

サーボモータ302の回転角度位置は、サーボモータ302に関連付けられた、位置検出部となるロータリーエンコーダ301によって検出され、検出された信号は速度フィードバックとして利用される。検出された信号は積分することで位置フィードバックとして利用される。なお、ボールねじ3033の端部に取り付けられ、ボールねじ3033の移動距離を検出するリニアスケール305の出力を位置フィードバックとして用いてもよい。また、加速度センサを用いて位置フィードバックを生成してもよい。   The rotation angle position of the servo motor 302 is detected by a rotary encoder 301 that is associated with the servo motor 302 and serves as a position detection unit, and the detected signal is used as speed feedback. The detected signal is integrated and used as position feedback. The output of the linear scale 305 that is attached to the end of the ball screw 3033 and detects the moving distance of the ball screw 3033 may be used as position feedback. Further, position feedback may be generated using an acceleration sensor.

<機械学習装置200>
機械学習装置200は、予め設定された加工プログラム(以下、「学習時の加工プログラム」ともいう)を実行することで、速度フィードフォワード計算部110の伝達関数の係数を学習する。ここで、学習時の加工プログラムにより指定される加工形状は、例えば、円、四角、及び角R付き四角(a square with quarter arc)等である。
<Machine learning device 200>
The machine learning device 200 learns the coefficient of the transfer function of the speed feedforward calculation unit 110 by executing a preset machining program (hereinafter also referred to as “learning machining program”). Here, the machining shape designated by the machining program at the time of learning is, for example, a circle, a square, a square with a square R (a square with quarter arc), or the like.

図4A、図4Bは、加工形状が円形の場合のサーボモータの動作を説明するための図である。図4Cは、加工形状が四角の場合のサーボモータの動作を説明するための図である。図4Dは、加工形状が角R付き四角の場合のサーボモータの動作を説明するための図である。図4A〜図4Dにおいて、被加工物(ワーク)が時計まわりに加工されるようにテーブルが移動する。   4A and 4B are diagrams for explaining the operation of the servo motor when the machining shape is circular. FIG. 4C is a diagram for explaining the operation of the servo motor when the machining shape is a square. FIG. 4D is a diagram for explaining the operation of the servo motor when the machining shape is a square with a corner R. 4A to 4D, the table moves so that the workpiece (workpiece) is processed clockwise.

加工形状が円形の場合は、図4Aに示すように、位置A1で、テーブルをY軸方向に移動するサーボモータは回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。位置A2で、テーブルをX軸方向に移動するサーボモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。
図4Bは、加工形状が円形で、位置A1で、テーブルをY軸方向に移動するサーボモータの回転方向が反転しようとした時の惰走により生ずる軌跡誤差を示す説明図である。
図4Bに示すように、テーブルをY軸方向に移動するサーボモータの回転方向が位置A1で反転しようとした時に、反転遅れが生じ、半径方向に軌跡誤差が拡大し、軌跡誤差の拡大表示を行うと軌跡誤差が突起として見える。
When the machining shape is circular, as shown in FIG. 4A, at the position A1, the servo motor that moves the table in the Y-axis direction reverses the rotation direction, and the table moves so that the table is linearly reversed in the Y-axis direction. At the position A2, the servo motor that moves the table in the X-axis direction reverses the rotation direction, and the table moves so as to reverse the line in the X-axis direction.
FIG. 4B is an explanatory diagram showing a trajectory error caused by coasting when the machining shape is circular and the rotation direction of the servo motor that moves the table in the Y-axis direction is about to be reversed at position A1.
As shown in FIG. 4B, when the rotation direction of the servo motor that moves the table in the Y-axis direction is about to reverse at position A1, a reverse delay occurs, the trajectory error expands in the radial direction, and an enlarged display of the trajectory error is displayed. When done, the trajectory error appears as a protrusion.

加工形状が四角の場合は、図4Cに示すように、位置Bで、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをX軸方向に移動するサーボモータは、回転から停止に移り、テーブルはX軸方向の直線動作からY軸方向の直線動作に移る。   When the machining shape is a square, as shown in FIG. 4C, the servo motor that moves the table in the Y-axis direction at position B shifts from the stop to the rotation operation, and the servo motor that moves the table in the X-axis direction is From rotation to stop, the table moves from linear motion in the X-axis direction to linear motion in the Y-axis direction.

加工形状が角R付き四角の場合は、図4Dに示すように、位置C1で、テーブルをY軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはX軸方向の直線動作から円弧動作に移る。位置C2で、テーブルをX軸方向に移動するサーボモータは、回転から停止に移り、テーブルは円弧動作からY軸方向の直線動作に移る。
以上説明した、学習時の加工プログラムにより指定される加工形状により、回転方向が反転したり、回転状態から停止したりする場合に生ずる惰走(惰性で動作する)を評価し、位置偏差に対する影響を調べることができる。
When the machining shape is a square with a corner R, as shown in FIG. 4D, the servo motor that moves the table in the Y-axis direction at the position C1 moves from the stop to the rotation operation, and the table moves from the linear operation in the X-axis direction. Move to arc motion. At the position C2, the servo motor that moves the table in the X-axis direction moves from rotation to stop, and the table moves from the arc motion to the linear motion in the Y-axis direction.
Evaluate the coasting (running by inertia) that occurs when the rotation direction is reversed or stopped from the rotation state according to the machining shape specified by the machining program at the time of learning described above, and the influence on the position deviation Can be examined.

学習時の加工プログラムを実行することで、サーボ制御装置100の位置指令作成部101は順次、円、四角、角R付き四角(a square with quarter arc)の加工形状となるように位置指令値を出力する。また、円、四角、角R付き四角(a square with quarter arc)の加工形状ごとに、送り速度を変更し、複数の送り速度についての影響も学習できるようにする。送り速度は、加工形状の図形の移動途中、例えば四角の加工形状にテーブルを移動させているときに、角を過ぎたときに送り速度を変更してもよい。   By executing the machining program at the time of learning, the position command creation unit 101 of the servo control device 100 sequentially sets the position command value so as to obtain a machining shape of a circle, a square, and a square with a square R. Output. In addition, the feed speed is changed for each machining shape of a circle, a square, and a square with a square R (a square with quarter arc) so that the influence on a plurality of feed speeds can be learned. The feed rate may be changed during the movement of the figure of the machining shape, for example, when the table is moved to a square machining shape, when the corner is passed.

機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Prior to description of each functional block included in the machine learning device 200, first, a basic mechanism of reinforcement learning will be described. An agent (corresponding to the machine learning device 200 in the present embodiment) observes the state of the environment, selects a certain action, and the environment changes based on the action. As the environment changes, some reward is given and the agent learns to select a better action (decision).
While supervised learning shows a complete correct answer, the reward in reinforcement learning is often a fractional value based on some change in the environment. For this reason, the agent learns to select an action to maximize the sum of rewards in the future.

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。   In this way, in reinforcement learning, by learning an action, an appropriate action is learned based on the interaction that the action gives to the environment, that is, a learning method for maximizing a reward obtained in the future is learned. This indicates that, in the present embodiment, for example, an action that affects the future, such as selecting action information for reducing the positional deviation, can be acquired.

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値Q(s,a)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
Here, although any learning method can be used as reinforcement learning, in the following description, a method of learning a value Q (s, a) for selecting an action a under a state s of an environment. A case where Q learning (Q-learning) is used will be described as an example.
The purpose of Q learning is to select the action a having the highest value Q (s, a) as the optimum action from the actions a that can be taken in a certain state s.

しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(s,a)を学習していく。   However, when Q learning is first started, the correct value Q (s, a) is not known at all for the combination of the state s and the action a. Therefore, the agent selects various actions a under a certain state s, and selects a better action based on the reward given to the action a at that time, whereby the correct value Q (s , A) is learned.

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(s,a)の更新式は、例えば、次の数式2(以下に数2として示す)により表すことができる。 In addition, since it is desired to maximize the total amount of rewards obtained in the future, the goal is to finally satisfy Q (s, a) = E [Σ (γ t ) r t ]. Here E [] denotes the expected value, t is the time, parameter γ is called the discount rate to be described later, is r t compensation at time t, sigma is the sum by the time t. The expected value in this equation is the expected value when the state changes according to the optimum behavior. However, since it is unclear what the optimal action is in the Q learning process, reinforcement learning is performed while searching by performing various actions. Such an update formula of the value Q (s, a) can be expressed by, for example, the following Formula 2 (shown as Formula 2 below).

Figure 0006490127
Figure 0006490127

上記の数式2において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。 In Equation 2 above, s t represents the state of the environment at time t, a t represents the action at time t. By the action a t, the state changes to s t + 1. rt + 1 represents the reward obtained by the change in the state. The term with max is a value obtained by multiplying the Q value when the action a having the highest Q value known at that time is selected under the state s t + 1 by γ. Here, γ is a parameter of 0 <γ ≦ 1, and is called a discount rate. In addition, α is a learning coefficient and is in a range of 0 <α ≦ 1.

上述した数式2は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
Equation 2 described above, the results of the trial a t, based on the reward r t + 1 which has been returned, behavior in state s t a t value Q (s t, a t) represents a method for updating.
This update equation, behavior in state s t a t value Q (s t, a t) than, action a t by next state s value of the best behavior in t + 1 max a Q of (s t + 1, a) If the direction is larger, Q (s t , a t ) is increased. On the other hand, if the direction is smaller, Q (s t , a t ) is decreased. That is, the value of a certain action in a certain state is brought close to the value of the best action in the next state. However, the difference varies depending on the discount rate γ and the reward r t + 1 , but basically, the value of the best action in a certain state is propagated to the value of the action in the previous state. It is a mechanism to go.

ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。   Here, in Q learning, there is a method in which learning is performed by creating a table of Q (s, a) for all state-action pairs (s, a). However, there are too many states to obtain the value of Q (s, a) for all the state-action pairs, and it may take a long time for Q learning to converge.

そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。   Therefore, a known technique called DQN (Deep Q-Network) may be used. Specifically, the value function Q is configured using an appropriate neural network, and the value of Q (s, a) is approximated by adjusting the parameter of the neural network and approximating the value function Q with an appropriate neural network. A value may be calculated. By using DQN, it is possible to shorten the time required for Q learning to converge. The DQN is described in detail in the following non-patent literature, for example.

<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
<Non-patent literature>
"Human-level control through deep reinforcement learning", Volodymyr Mnih1 [online], [Search January 17, 2017], Internet <URL: http://files.davidqiu.com/research/nature14236.pdf>

以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、サーボ制御装置100における速度フィードフォワード計算部110の伝達関数の各係数a、b(i,j≧0)の値、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を状態sとして、当該状態sに係る速度フィードフォワード計算部110の各係数a、bの調整を行動aとして選択する価値Qを学習する。 The machine learning device 200 performs the Q learning described above. Specifically, the machine learning device 200 stores the values of the coefficients a i and b j (i, j ≧ 0) of the transfer function of the speed feedforward calculation unit 110 in the servo control device 100 and the machining program at the time of learning. A servo state such as a command and feedback including position deviation information of the servo control device 100 acquired by executing the state s, and each coefficient a i , b j of the speed feedforward calculation unit 110 related to the state s The value Q for selecting the adjustment as the action a is learned.

機械学習装置200は、速度フィードフォワード計算部110の伝達関数の各係数a、bに基づいて、学習時の加工プログラムを実行することで得られるサーボ制御装置100の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報sを観測して、行動aを決定する。機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、速度フィードフォワード計算部110の伝達関数の各係数a、bに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態sに対して、最適な行動a(すなわち、速度フィードフォワード計算部110の最適な係数a、b)を選択することが可能となる。 The machine learning device 200 includes position deviation information of the servo control device 100 obtained by executing a machining program at the time of learning based on the coefficients a i and b j of the transfer function of the speed feedforward calculation unit 110. The state information s including the servo state such as the command and feedback is observed to determine the action a. The machine learning device 200 returns a reward every time the action a is performed. For example, the machine learning device 200 searches for an optimal action a by trial and error so that the total of rewards in the future becomes maximum. By doing so, the machine learning device 200 is obtained by executing the machining program at the time of learning based on the coefficients a i and b j of the transfer function of the speed feedforward calculation unit 110. It is possible to select an optimum action a (that is, optimum coefficients a i and b j of the speed feedforward calculation unit 110) for a state s including a servo state such as a command including position deviation information and feedback. Become.

すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係る速度フィードフォワード計算部110の伝達関数の各係数a、bに対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動a(すなわち、速度フィードフォワード計算部110の係数a、b)を選択することが可能となる。 That is, based on the value function Q learned by the machine learning device 200, among the actions a applied to the coefficients a i and b j of the transfer function of the speed feedforward calculation unit 110 according to a certain state s. By selecting the action a that maximizes the value of Q, the action a that minimizes the positional deviation acquired by executing the processing program at the time of learning (that is, the speed feedforward calculation unit 110) Coefficients a i , b j ) can be selected.

図5は本発明の第1の実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図5に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
FIG. 5 is a block diagram illustrating the machine learning device 200 according to the first embodiment of this invention.
In order to perform the above-described reinforcement learning, as illustrated in FIG. 5, the machine learning device 200 includes a state information acquisition unit 201, a learning unit 202, a behavior information output unit 203, a value function storage unit 204, and optimized behavior information output. The unit 205 is provided. The learning unit 202 includes a reward output unit 2021, a value function update unit 2022, and a behavior information generation unit 2023.

状態情報取得部201は、サーボ制御装置100における速度フィードフォワード計算部110の伝達関数の各係数a、bに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置100の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態sを、サーボ制御装置100から取得する。この状態情報sは、Q学習における、環境状態sに相当する。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での速度フィードフォワード計算部110の係数a、bは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した速度フィードフォワード計算部110の係数a、bの初期設定値を、強化学習により最適なものに調整する。速度フィードフォワード計算部110の係数a、bは例えば、初期設定値として、数式1のa=1、a=0、b=0、b=制御対象のイナーシャ値とする。また、係数a、bの次元m、nを予め設定する。
すなわち、aについては0≦i≦m bについては0≦j≦nとする。
The state information acquisition unit 201 is acquired by executing the machining program at the time of learning based on the coefficients a i and b j of the transfer function of the speed feedforward calculation unit 110 in the servo control device 100. The state s including the servo state such as the command including the position deviation information and the feedback is acquired from the servo control device 100. This state information s corresponds to the environmental state s in Q learning.
The state information acquisition unit 201 outputs the acquired state information s to the learning unit 202.
It should be noted that the coefficients a i and b j of the velocity feedforward calculation unit 110 at the time when Q learning is first started are generated by the user in advance. In this embodiment, the initial setting values of the coefficients a i and b j of the velocity feedforward calculation unit 110 created by the user are adjusted to the optimum values by reinforcement learning. The coefficients a i and b j of the speed feedforward calculation unit 110 are, for example, as initial setting values, a 0 = 1, a 1 = 0, b 0 = 0, b 1 = inertial value of the control target. Further, dimensions m and n of the coefficients a i and b j are set in advance.
That is, 0 ≦ i ≦ m b j for a i and 0 ≦ j ≦ n.

学習部202は、或る環境状態sの下で、ある行動aを選択する場合の価値Q(s,a)を学習する部分である。具体的には、学習部202は、報酬出力部2021、価値関数更新部2022及び行動情報生成部2023を備える。   The learning unit 202 is a part that learns a value Q (s, a) when a certain action a is selected under a certain environmental state s. Specifically, the learning unit 202 includes a reward output unit 2021, a value function update unit 2022, and a behavior information generation unit 2023.

報酬出力部2021は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。ここで、状態sにおける状態変数である位置偏差の集合(位置偏差集合)をPD(s)、行動情報a(速度フィードフォワード計算部の各係数a、b(i,jは0及び正の整数を示す)の修正)により状態sから変化した状態情報s´に係る状態変数である位置偏差集合をPD(s´)で示す。また、状態sにおける位置偏差の値を、予め設定された評価関数f(PD(s))に基づいて算出される値とする。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
The reward output unit 2021 is a part that calculates a reward when the action a is selected under a certain state s. Here, a set of position deviations (position deviation set) which is a state variable in the state s is PD (s), action information a (coefficients a i and b j of the speed feedforward calculation unit (i and j are 0 and positive). The position deviation set, which is a state variable related to the state information s ′ that has changed from the state s by the correction) of (indicating an integer) is indicated by PD (s ′). The value of the position deviation in the state s is a value calculated based on a preset evaluation function f (PD (s)).
As the evaluation function f, for example,
Function that calculates the integrated value of absolute value of position deviation 絶 対 | e | dt
Function that calculates the integrated value by weighting the absolute value of position deviation with time 時間 t | e | dt
A function for calculating an integrated value of the absolute value of the position deviation to the power of 2n (n is a natural number);
∫e 2n dt (n is a natural number)
Function for calculating the maximum absolute value of position deviation Max {| e |}
Etc. can be applied.

このとき、行動情報aにより修正された状態情報s´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))よりも大きくなった場合に、報酬出力部2021は、報酬の値を負の値とする。   At this time, the position deviation value f (PD (s ′)) of the servo control device 100 operated based on the corrected speed feedforward calculation unit 110 related to the state information s ′ corrected by the action information a is the action When the position deviation value f (PD (s)) of the servo control device 100 operated based on the speed feedforward calculation unit 110 before correction related to the state information s before correction by the information a becomes larger. The reward output unit 2021 sets the reward value to a negative value.

一方で、行動情報aにより修正された状態情報s´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))よりも小さくなった場合に、報酬の値を正の値とする。
なお、行動情報aにより修正された状態情報s´に係る修正後の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の速度フィードフォワード計算部110に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
On the other hand, the position deviation value f (PD (s ′)) of the servo control device 100 operated based on the corrected speed feedforward calculation unit 110 related to the state information s ′ corrected by the action information a is the action When the value becomes smaller than the position deviation value f (PD (s)) of the servo control device 100 operated based on the speed feedforward calculation unit 110 before correction related to the state information s before correction by the information a. The reward value is a positive value.
Note that the position deviation value f (PD (s ′)) of the servo control device 100 operated based on the corrected speed feedforward calculation unit 110 related to the state information s ′ corrected by the behavior information a is the behavior information. When it is equal to the position deviation value f (PD (s)) of the servo control device 100 operated based on the speed feedforward calculation unit 110 before correction related to the state information s before correction by a, a reward output unit 2021 sets the value of the reward to zero.

また、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。   Further, the negative value when the position deviation value f (PD (s ′)) in the state s ′ after the execution of the action a becomes larger than the position deviation value f (PD (s)) in the previous state s. As the value, a negative value may be increased according to the ratio. In other words, it is preferable that the negative value increases in accordance with the degree of increase in the position deviation value. On the other hand, when the position deviation value f (PD (s ′)) in the state s ′ after the action “a” is executed becomes smaller than the position deviation value f (PD (s)) in the previous state s. As the value of, a positive value may be increased according to the ratio. That is, it is preferable that the positive value is increased according to the degree of decrease in the position deviation value.

価値関数更新部2022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
The value function updating unit 2022 performs Q-learning based on the state s, the action a, the state s ′ when the action a is applied to the state s, and the reward value calculated as described above. As a result, the value function Q stored in the value function storage unit 204 is updated.
The update of the value function Q may be performed by online learning, batch learning, or mini batch learning.
The online learning is a learning method in which the value function Q is immediately updated every time the state s transitions to a new state s ′ by applying a certain action a to the current state s. In batch learning, learning data is collected by applying a certain action a to the current state s, and repeating the transition of the state s to a new state s ′. In this learning method, the value function Q is updated using the learning data. Further, mini-batch learning is a learning method in which the value function Q is updated each time learning data is accumulated to some extent, which is intermediate between online learning and batch learning.

行動情報生成部2023は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部2023は、Q学習の過程において、サーボ制御装置100の速度フィードフォワード計算部の各係数a、bを修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態sに含まれる速度フィードフォワード計算部の各係数に対して行動aに含まれる、速度フィードフォワード計算部の各係数a、bをインクレメンタル(例えば0.01程度)に加算又は減算させる。 The behavior information generation unit 2023 selects the behavior a in the Q learning process for the current state s. The behavior information generation unit 2023 performs an operation (corresponding to the behavior a in Q learning) for correcting the coefficients a i and b j of the speed feedforward calculation unit of the servo control device 100 in the process of Q learning. The behavior information a is generated, and the generated behavior information a is output to the behavior information output unit 203. More specifically, the behavior information generation unit 2023 includes, for example, each coefficient a i and b j of the speed feedforward calculation unit included in the behavior a with respect to each coefficient of the speed feedforward calculation unit included in the state s. Are added or subtracted incrementally (for example, about 0.01).

そして、行動情報生成部2023は、速度フィードフォワード計算部110の各係数a、bの増加又は減少を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、速度フィードフォワード計算部の各係数a、bに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動a´を選択する方策を取るようにしてもよい。 Then, the behavior information generation unit 2023 applies the increase or decrease of each coefficient a i , b j of the speed feedforward calculation unit 110, transitions to the state s ′, and positive reward (positive reward) Is returned, as the next action a ′, the position deviation value such as incrementally adding to or subtracting from each coefficient a i , b j of the velocity feedforward calculation unit as in the previous action is used. You may make it take the policy of selecting action a 'which becomes smaller.

また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動a´としては、例えば、速度フィードフォワード計算部の各係数a、bに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動a´を選択する方策を取るようにしてもよい。 Conversely, if a negative reward (negative reward) is returned, the behavior information generation unit 2023 may, for example, use the coefficients a i and b j of the speed feedforward calculation unit as the next behavior a ′. On the other hand, a measure may be taken to select an action a ′ whose positional deviation is smaller than the previous value, such as incrementally subtracting or adding to the previous action.

また、行動情報生成部2023は、現在の推定される行動aの価値の中で、最も価値Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。   In addition, the behavior information generation unit 2023 randomly selects a behavior a ′ having the highest value Q (s, a) among the currently estimated values of the behavior a, or randomly acts with a certain small probability ε. It is also possible to take a measure for selecting the action a ′ by a known method such as the ε-greedy method in which a ′ is selected and the action a ′ having the highest value Q (s, a) is selected.

行動情報出力部203は、学習部202から出力される行動情報aをサーボ制御装置100に対して送信する部分である。サーボ制御装置100は上述したように、この行動情報に基づいて、現在の状態s、すなわち現在設定されている速度フィードフォワード計算部110の各係数a、bを微修正することで、次の状態s´(すなわち修正された、速度フィードフォワード計算部110の各係数)に遷移する。 The behavior information output unit 203 is a part that transmits the behavior information a output from the learning unit 202 to the servo control device 100. As described above, the servo control apparatus 100 finely corrects the current state s, that is, the coefficients a i and b j of the currently set speed feedforward calculation unit 110, based on this behavior information. State s ′ (that is, each coefficient of the velocity feedforward calculation unit 110 that has been corrected).

価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。   The value function storage unit 204 is a storage device that stores the value function Q. The value function Q may be stored as a table (hereinafter referred to as an action value table) for each state s and action a, for example. The value function Q stored in the value function storage unit 204 is updated by the value function update unit 2022. Further, the value function Q stored in the value function storage unit 204 may be shared with other machine learning devices 200. If the value function Q is shared by a plurality of machine learning devices 200, it is possible to perform reinforcement learning in a distributed manner in each machine learning device 200, so that the efficiency of reinforcement learning can be improved. Become.

最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(s,a)が最大となる動作を速度フィードフォワード計算部110に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(速度フィードフォワード計算部110)に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、速度フィードフォワード計算部110の各係数a、bを修正する情報が含まれる。
Based on the value function Q updated by the value function updating unit 2022 performing Q learning, the optimization behavior information output unit 205 sends an operation that maximizes the value Q (s, a) to the speed feedforward calculation unit 110. Action information a (hereinafter referred to as “optimized action information”) to be performed is generated.
More specifically, the optimization behavior information output unit 205 acquires the value function Q stored in the value function storage unit 204. The value function Q is updated by the value function updating unit 2022 performing Q learning as described above. Then, the optimized behavior information output unit 205 generates behavior information based on the value function Q, and outputs the generated behavior information to the servo control device 100 (speed feedforward calculation unit 110). The optimized behavior information includes information for correcting the coefficients a i and b j of the speed feedforward calculation unit 110, similarly to the behavior information output by the behavior information output unit 203 in the process of Q learning.

サーボ制御装置100では、この行動情報に基づいて速度フィードフォワード計算部110の各係数a、bが修正され、速度フィードフォワードを高次のものとして、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100の速度フィードフォワード計算部110のパラメータ調整を簡易化することができる。
In the servo control device 100, the coefficients a i and b j of the speed feedforward calculation unit 110 are corrected based on this behavior information, and the speed feedforward is set to a higher order so as to reduce the position deviation value. can do.
As described above, by using the machine learning device 200 according to the present invention, parameter adjustment of the speed feedforward calculation unit 110 of the servo control device 100 can be simplified.

以上、サーボ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
The function blocks included in the servo control device 100 and the machine learning device 200 have been described above.
In order to realize these functional blocks, each of the servo control device 100 and the machine learning device 200 includes an arithmetic processing device such as a CPU (Central Processing Unit). Each of the servo control device 100 and the machine learning device 200 includes an auxiliary storage device such as an HDD (Hard Disk Drive) that stores various control programs such as application software and an OS (Operating System), and an arithmetic processing device. Includes a main storage device such as a RAM (Random Access Memory) for storing data temporarily required for executing the program.

そして、サーボ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。   In each of the servo control device 100 and the machine learning device 200, the arithmetic processing device reads the application software and the OS from the auxiliary storage device, and develops the read application software and the OS into the main storage device. And arithmetic processing based on the OS. In addition, based on the calculation result, various hardware included in each device is controlled. Thereby, the functional block of this embodiment is implement | achieved. That is, this embodiment can be realized by cooperation of hardware and software.

機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。   Since the machine learning device 200 has a large amount of computation associated with machine learning, for example, a GPU (Graphics Processing Units) is installed in a personal computer, and the GPU is machine-driven by a technology called GPGPU (General-Purpose computing on Graphics Processing Units). If it is used for arithmetic processing associated with learning, high-speed processing can be performed. Furthermore, in order to perform higher-speed processing, a computer cluster is constructed by using a plurality of computers equipped with such GPUs, and parallel processing is performed by a plurality of computers included in the computer cluster. May be.

次に、図6のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置200の動作について説明をする。   Next, the operation of the machine learning device 200 during Q learning in the present embodiment will be described with reference to the flowchart of FIG.

ステップS11において、状態情報取得部201がサーボ制御装置100から状態情報sを取得する。取得した状態情報は、価値関数更新部2022や行動情報生成部2023に対して出力される。上述したように、この状態情報sは、Q学習における状態に相当する情報であり、ステップS11時点での、速度フィードフォワード計算部110の各係数a、bが含まれる。こうして、速度フィードフォワード計算部110から係数が初期値であるときの、所定の送り速度且つ円の加工形状に対応する位置偏差の集合PD(s)が取得される。 In step S <b> 11, the state information acquisition unit 201 acquires state information s from the servo control device 100. The acquired state information is output to the value function update unit 2022 and the behavior information generation unit 2023. As described above, the state information s is information corresponding to the state in Q learning, and includes the coefficients a i and b j of the velocity feedforward calculation unit 110 at the time of step S11. In this way, a set PD (s) of position deviations corresponding to the predetermined feed speed and the machining shape of the circle when the coefficient is the initial value is acquired from the speed feedforward calculation unit 110.

なお、前述したように、初期状態sにおける速度フィードフォワード計算部110の係数a、bは例えば、a=1、a=0、b=0、b=制御対象のイナーシャ値とする。 As described above, the coefficients a i and b j of the velocity feedforward calculation unit 110 in the initial state s 0 are, for example, a 0 = 1, a 1 = 0, b 0 = 0, b 1 = inertia to be controlled. Value.

最初にQ学習を開始する時点での減算器102から状態sにおける位置偏差の値PD(s)は、学習時の加工プログラムでサーボ制御装置100を動作させることで得られる。位置指令作成部101は、加工プログラムにより指定された所定の加工形状で、例えば、円、四角、角R付き四角(a square with quarter arc)の加工形状で、送り速度を変えて位置指令を順次出力する。例えば、所定の送り速度で円の加工形状に対応する位置指令値が位置指令作成部101から出力され、減算器102は位置指令値と積分器108から出力される検出位置との差を位置偏差PD(s)として機械学習装置200に出力する。 The position deviation value PD (s 0 ) in the state s 0 from the subtracter 102 at the time when Q learning is first started is obtained by operating the servo control device 100 with the machining program at the time of learning. The position command generation unit 101 sequentially outputs position commands in a predetermined machining shape specified by the machining program, for example, a circle, a square, a square with a quarter arc, and a feed rate is changed. Output. For example, the position command value corresponding to the machining shape of the circle is output from the position command generator 101 at a predetermined feed speed, and the subtractor 102 calculates the difference between the position command value and the detected position output from the integrator 108 as a position deviation. It is output to the machine learning device 200 as PD (s 0 ).

ステップS12において、行動情報生成部2023は新たな行動情報aを生成し、生成した新たな行動情報aを、行動情報出力部203を介してサーボ制御装置100に対して出力する。行動情報生成部2023は前述した方策に基づいて、新たな行動情報aを出力する。なお、行動情報aを受信したサーボ制御装置100は、受信した行動情報に基づいて現在の状態sに係る速度フィードフォワード計算部110の各係数a、bを修正した状態s´により、サーボモータを含む工作機械を駆動させる。上述したように、この行動情報は、Q学習における行動aに相当するものである。 In step S <b> 12, the behavior information generation unit 2023 generates new behavior information a, and outputs the generated new behavior information a to the servo control device 100 via the behavior information output unit 203. The behavior information generation unit 2023 outputs new behavior information a based on the above-described policy. The servo control device 100 that has received the behavior information “a” uses the state s ′ in which the coefficients a i and b j of the speed feedforward calculation unit 110 according to the current state s are corrected based on the received behavior information. A machine tool including a motor is driven. As described above, this action information corresponds to action a in Q learning.

ステップS13において、状態情報取得部201は、減算器102から新たな状態s´における位置偏差PD(s´)、及び速度フィードフォワード計算部110から係数a、bを取得する。こうして、状態情報取得部201は、速度フィードフォワード計算部110から状態s´における係数a、bであるときの、所定の送り速度且つ円の加工形状に対応する位置偏差の集合PD(s´)を取得する。取得した状態情報は、報酬出力部2021に対して出力される。 In step S < b> 13, the state information acquisition unit 201 acquires the position deviation PD (s ′) in the new state s ′ from the subtractor 102 and the coefficients a i and b j from the speed feedforward calculation unit 110. In this way, the state information acquisition unit 201 obtains a set PD (s) of position deviations corresponding to a predetermined feed speed and a circular machining shape when the coefficients a i and b j in the state s ′ from the speed feedforward calculation unit 110. '). The acquired state information is output to the reward output unit 2021.

ステップS14において、報酬出力部2021は、状態s´における位置偏差の値f(PD(s´))と状態sにおける位置偏差の値f(PD(s))との大小関係を判断し、f(PD(s´))>f(PD(s))の場合には、ステップS15において、報酬を負の値とする。f(PD(s´))<f(PD(s))の場合には、ステップS16において、報酬を正の値とする。f(PD(s´))=f(PD(s))の場合には、ステップS17において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。   In step S14, the reward output unit 2021 determines the magnitude relationship between the position deviation value f (PD (s ')) in the state s' and the position deviation value f (PD (s)) in the state s, and f If (PD (s ′))> f (PD (s)), the reward is set to a negative value in step S15. If f (PD (s ′)) <f (PD (s)), the reward is set to a positive value in step S16. If f (PD (s ′)) = f (PD (s)), the reward is set to zero in step S17. In addition, you may make it weight with respect to the negative value of a reward, and a positive value.

ステップS15、ステップS16及びステップS17の何れかが終了すると、ステップS18において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204に記憶している価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
When any of step S15, step S16, and step S17 ends, the value function update unit 2022 stores the value function storage unit 204 in the value function storage unit 204 based on the reward value calculated in any one of the steps in step S18. The value function Q being updated is updated. And it returns to step S11 again and the value function Q converges to an appropriate value by repeating the process mentioned above. Note that the processing may be terminated on condition that the above-described processing is repeated a predetermined number of times or repeated for a predetermined time.
In addition, although step S18 has illustrated online update, it may replace with online update and may be replaced with batch update or mini batch update.

以上、図6を参照して説明した動作により、本実施形態では、機械学習装置200を利用することで、高次の速度フィードフォワードの係数a、bの調整のための、適切な価値関数を得ることができ、速度フィードフォワードの係数a、bの最適化を簡易化することができる、という効果を奏する。
次に、図7のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
As described above, according to the operation described with reference to FIG. 6, in the present embodiment, by using the machine learning device 200, an appropriate value for adjusting the coefficients a i and b j of the higher-order velocity feedforward. A function can be obtained, and the optimization of the speed feedforward coefficients a i and b j can be simplified.
Next, with reference to the flowchart of FIG. 7, the operation | movement at the time of the production | generation of the optimization action information by the optimization action information output part 205 is demonstrated.
First, in step S <b> 21, the optimized behavior information output unit 205 acquires the value function Q stored in the value function storage unit 204. The value function Q is updated by the value function updating unit 2022 performing Q learning as described above.

ステップS22において、最適化行動情報出力部205は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置100の速度フィードフォワード計算部110に対して出力する。   In step S <b> 22, the optimization behavior information output unit 205 generates optimization behavior information based on the value function Q, and sends the generated optimization behavior information to the speed feedforward calculation unit 110 of the servo control device 100. Output.

また、図7を参照して説明した動作により、本実施形態では、機械学習装置200により学習することにより求められる価値関数Qに基づいて、最適化行動情報を生成し、サーボ制御装置100が、この最適化行動情報に基づいて、現在設定されている速度フィードフォワード計算部110の係数a、bの調整を簡易化するとともに、位置偏差の値を低減することができる。また、速度フィードフォワードをより高次元のものに初期設定して、機械学習装置200により学習することで、位置偏差の値をさらに低減することができる。 Further, according to the operation described with reference to FIG. 7, in the present embodiment, the optimization behavior information is generated based on the value function Q obtained by learning by the machine learning device 200, and the servo control device 100 Based on this optimized behavior information, the adjustment of the coefficients a i and b j of the currently set speed feedforward calculation unit 110 can be simplified and the position deviation value can be reduced. In addition, the position deviation value can be further reduced by initializing the velocity feedforward to a higher-dimensional one and learning by the machine learning device 200.

(第2の実施形態)
第1の実施形態においては、報酬出力部2021は、報酬の値を、状態sにおける位置偏差PD(s)を入力として予め設定された評価関数f(PD(s))に基づいて算出される状態sの位置偏差の値f(PD(s))と、状態s´における位置偏差PD(s´)を入力として評価関数fに基づいて算出される状態s´の位置偏差の値f(PD(s´))とを比較することで算出した。
しかし、報酬の値の算出にあたっては位置偏差以外の他の要素を加えてもよい。
(Second Embodiment)
In the first embodiment, the reward output unit 2021 calculates a reward value based on a preset evaluation function f (PD (s)) with a positional deviation PD (s) in the state s as an input. The position deviation value f (PD) of the state s ′ calculated based on the evaluation function f with the position deviation value f (PD (s)) of the state s and the position deviation PD (s ′) in the state s ′ as inputs. (S ')) was compared.
However, elements other than the position deviation may be added in calculating the reward value.

図8は本発明の第2の実施形態のサーボ制御システム10Aを示すブロック図である。
第2の実施形態のサーボ制御システム10Aと図2に示した第1の実施形態のサーボ制御システム10との違いは、機械学習装置200に、減算器102の出力となる位置偏差の他に、加算器104の出力となる位置フォワード制御された速度指令、位置フォワード制御された速度指令と速度フィードバックとの差、及び加算器107の出力となる位置フォワード制御されたトルク指令が機械学習装置200に入力されている点である。なお、図8では、加算器104の出力となる位置フォワード制御された速度指令、位置フォワード制御された速度指令と速度フィードバックとの差、及び加算器107の出力となる位置フォワード制御されたトルク指令の全てが、機械学習装置200に入力されている例を示しているが、これらのいずれか1つ又は複数の組み合わせと、位置偏差とを用いて強化学習を行うことができる。
FIG. 8 is a block diagram showing a servo control system 10A according to the second embodiment of the present invention.
The difference between the servo control system 10A of the second embodiment and the servo control system 10 of the first embodiment shown in FIG. 2 is that, in addition to the positional deviation that is the output of the subtractor 102, The position forward-controlled speed command that is the output of the adder 104, the difference between the speed command that is position-forward controlled and the speed feedback, and the position-forward controlled torque command that is the output of the adder 107 are output to the machine learning device 200. This is the point being entered. In FIG. 8, the position forward-controlled speed command that is the output of the adder 104, the difference between the speed command that is position-forward controlled and the speed feedback, and the position-forward-controlled torque command that is the output of the adder 107. However, it is possible to perform reinforcement learning using any one or a combination of these and a positional deviation.

位置偏差が小さくなっても、機械にショックが発生する場合がある。具体的には、加加速度が大きい(加速度の変化が大きい)と機械にショックが発生する。機械のショックを低減するために、位置偏差の変化が小さいもの、トルク指令値の変化が小さいものが望まれる。そこで、位置偏差の値f(PD(s))による報酬の計算の他に、位置偏差の変化(位置偏差の微分値)及び/又はトルク指令値の変化(トルク指令値の微分)により報酬を計算するようにしてもよい。
以下、状態sにおける位置偏差の微分値の集合をPD´(s)と記載する。また、状態sにおけるトルク指令値の集合をTC(s)、状態sにおけるトルク指令値の微分値の集合をTC´(s)と記載する。
Even if the position deviation becomes small, a shock may occur in the machine. Specifically, when the jerk is large (the change in acceleration is large), a shock occurs in the machine. In order to reduce the shock of the machine, it is desirable to have a small change in position deviation and a small change in torque command value. Therefore, in addition to the calculation of the reward based on the position deviation value f (PD (s)), the reward is calculated based on a change in the position deviation (differential value of the position deviation) and / or a change in the torque command value (differentiation of the torque command value). You may make it calculate.
Hereinafter, a set of differential values of the position deviation in the state s is referred to as PD ′ (s). A set of torque command values in the state s is described as TC (s), and a set of differential values of the torque command values in the state s is described as TC ′ (s).

<位置偏差の微分値>
報酬の計算において位置偏差の微分値を考慮する場合、位置偏差の微分値の評価関数gを予め設定し、状態sの位置偏差の微分値の評価値g(PD´(s))と、状態s´の位置偏差の微分値の評価値g(PD´(s´))とを比較することで、位置偏差の場合と同様に、位置偏差の微分値に基づく第2の報酬を算出することができる。
なお、評価関数gとしては、評価関数fと同様に、例えば、位置偏差の微分値の絶対値の積算値を算出する関数、位置偏差の微分値の絶対値に時間の重み付けをして積算値を算出する関数、位置偏差の微分値の絶対値の2n乗の積算値を算出する関数、又は位置偏差の微分値の絶対値の最大値を算出する関数等を適用することができる。
そうすることで、行動情報aにより修正された状態s´における位置偏差の微分値の評価値g(PD´(s´))が、行動情報aにより修正される前の状態sにおける位置偏差の微分値の評価値g(PD´(s))よりも大きくなった場合に、報酬出力部2021は、第2の報酬の値を負の値とする。
<Derivative value of position deviation>
When considering the differential value of the position deviation in the calculation of the reward, the evaluation function g of the differential value of the position deviation is set in advance, the evaluation value g (PD ′ (s)) of the differential value of the position deviation of the state s, and the state By calculating the evaluation value g (PD ′ (s ′)) of the differential value of the positional deviation of s ′, the second reward based on the differential value of the positional deviation is calculated as in the case of the positional deviation. Can do.
As the evaluation function g, as with the evaluation function f, for example, a function for calculating the integrated value of the absolute value of the differential value of the position deviation, the integrated value by weighting the absolute value of the differential value of the position deviation with time. A function for calculating the absolute value of the absolute value of the differential value of the positional deviation, a function for calculating the maximum value of the absolute value of the differential value of the positional deviation, or the like can be applied.
By doing so, the evaluation value g (PD ′ (s ′)) of the differential value of the position deviation in the state s ′ corrected by the behavior information a is the position deviation in the state s before being corrected by the behavior information a. When the evaluation value g (PD ′ (s)) of the differential value becomes larger, the reward output unit 2021 sets the second reward value to a negative value.

一方で、状態s´における位置偏差の微分値の評価値g(PD´(s´))が、前の状態sにおける位置偏差の微分値の評価値g(PD´(s))よりも小さくなった場合に、報酬出力部2021は、第2の報酬の値を正の値とする。
また、状態s´における位置偏差の微分値の評価値g(PD´(s´))が、前の状態sにおける位置偏差の微分値の評価値g(PD´(s))と等しい場合に、第2の報酬の値をゼロとする。
On the other hand, the evaluation value g (PD ′ (s ′)) of the differential value of the position deviation in the state s ′ is smaller than the evaluation value g (PD ′ (s)) of the differential value of the position deviation in the previous state s. When it becomes, the reward output unit 2021 sets the value of the second reward to a positive value.
Further, when the evaluation value g (PD ′ (s ′)) of the differential value of the position deviation in the state s ′ is equal to the evaluation value g (PD ′ (s)) of the differential value of the position deviation in the previous state s. The value of the second reward is set to zero.

第1の実施形態で説明した位置偏差の評価値に基づいて算出される報酬を第1の報酬と呼ぶと、報酬出力部2021は、位置偏差の微分値を考慮する報酬としては、第1の報酬の値と第2の報酬の値との間で重み付けを行って加算するようにしてもよい。価値関数更新部2022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された、位置偏差の微分値を考慮する報酬の値に基づいてQ学習を行うことにより、価値関数記憶部204に記憶する価値関数Qを更新する。   When the reward calculated based on the evaluation value of the position deviation described in the first embodiment is referred to as a first reward, the reward output unit 2021 uses the first reward as a reward considering the differential value of the position deviation. You may make it weight and add between the value of a reward, and the value of a 2nd reward. The value function updating unit 2022 considers the state s, the action a, the state s ′ when the action a is applied to the state s, and the reward value that takes into account the differential value of the position deviation calculated as described above. The value function Q stored in the value function storage unit 204 is updated by performing Q learning based on the above.

<変形例>
以上説明した例では第1の報酬の値と第2の報酬の値との間で重み付けを行って加算したが、位置偏差の絶対値に関する評価関数fと位置偏差の微分値の絶対値に関する評価関数gとの間に重み付けをして、加算された評価関数を用いて報酬を決定してもよい。図9は、重み付けされて加算された評価関数を用いて選択しえる位置偏差の波形を示す特性図である。
位置偏差をeで示し、
位置偏差に関する評価関数f=∫|e|dt、
位置偏差の微分値に関する評価関数g=∫|de/dt|dtとすると、
両者を重み付けして加算された評価関数は、
c×∫|e|dt+d×∫|de/dt|dt(c、dは重み係数)
となる。
この重み付けして加算された評価関数に基づいて報酬の値を決定すると、図9に示すように、位置偏差の微分値に関する評価関数の値が大きい実線に示す波形に比べて、位置偏差の微分値に関する評価関数の値が小さい破線に示す波形が選択されることがわかる。
<Modification>
In the example described above, the value of the first reward and the value of the second reward are weighted and added, but the evaluation function f regarding the absolute value of the position deviation and the evaluation regarding the absolute value of the differential value of the position deviation. The reward may be determined using the evaluation function added by weighting the function g. FIG. 9 is a characteristic diagram showing a waveform of a position deviation that can be selected by using the weighted and added evaluation function.
The position deviation is indicated by e,
Evaluation function f = ∫ | e | dt for position deviation
If the evaluation function g = ∫ | de / dt | dt for the differential value of the position deviation is
The evaluation function added by weighting both is
c × ∫ | e | dt + d × ∫ | de / dt | dt (where c and d are weighting factors)
It becomes.
When the reward value is determined based on the weighted evaluation function, as shown in FIG. 9, the position deviation derivative is compared with the waveform shown by the solid line in which the evaluation function value related to the position deviation derivative is large. It can be seen that a waveform indicated by a broken line having a small evaluation function value is selected.

<トルク指令値の微分値>
報酬の計算において、状態sにおけるトルク指令値TC(s)の微分値を考慮する場合、トルク指令値の微分値TC´(s)の評価関数hを予め設定し、トルク指令値の微分値の値h(TC´(s))に基づき、位置偏差の微分値の場合と同様に、トルク指令値の微分値に基づく第3の報酬を算出することができる。
報酬出力部2021は、トルク指令値の微分値を考慮する報酬としては、第1の報酬の値と第3の報酬の値との間で重み付けを行って加算するようにしてもよい。
また、位置偏差の微分値及びトルク指令値の微分値を考慮する場合には、報酬出力部2021は、例えば報酬の値を、第1の報酬の値と第2の報酬の値と第3の報酬の値との間で重み付けを行って加算するようにしてもよい。
<Derivative value of torque command value>
In calculating the reward, when considering the differential value of the torque command value TC (s) in the state s, an evaluation function h of the differential value TC ′ (s) of the torque command value is set in advance, and the differential value of the torque command value is calculated. Based on the value h (TC ′ (s)), the third reward based on the differential value of the torque command value can be calculated as in the case of the differential value of the position deviation.
The reward output unit 2021 may add the weights between the first reward value and the third reward value as the reward considering the differential value of the torque command value.
Also, when considering the differential value of the position deviation and the differential value of the torque command value, the reward output unit 2021, for example, sets the reward value, the first reward value, the second reward value, and the third reward value. You may make it weight and add between the value of reward.

<変形例>
位置偏差の場合と同様に、位置偏差に関する評価関数とトルク指令値の微分値に関する評価関数との間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
また、さらに、位置偏差の微分値及びトルク指令値の微分値を考慮する場合には、位置偏差に関する評価関数と位置偏差の微分値に関する評価関数とトルク指令値の微分値に関する評価関数との間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
<Modification>
As in the case of the position deviation, weighting is performed between the evaluation function related to the position deviation and the evaluation function related to the differential value of the torque command value, the weighted evaluation function is added, and the reward is calculated using the weighted evaluation function. You may decide.
In addition, when taking into account the differential value of the position deviation and the differential value of the torque command value, there is a relationship between the evaluation function related to the position deviation, the evaluation function related to the differential value of the position deviation, and the evaluation function related to the differential value of the torque command value. May be weighted, the weighted evaluation function may be added, and the reward may be determined using the weighted evaluation function.

<速度指令値>
速度指令値が変化してから位置偏差がある範囲内に収まるまでの時間Tはできるだけ短くすることが好ましい。そこで、位置偏差による報酬の計算の他に、速度指令値が変化してから位置偏差がある範囲内に収まるまでの時間Tを考慮した報酬を計算することができる。
状態情報取得部201が、加算器104の出力となる位置フォワード制御された速度指令値の変化を検出し、速度指令値が変化してから、減算器102の出力となる位置偏差が所定の範囲内に収まるまでの時間Tを観測する。以下、状態sにおける、速度指令値が変化してから、減算器102の出力となる位置偏差が所定の範囲内に収まるまでの時間Tの集合をT(s)と記載する。
報酬の計算において、状態sにおける速度指令値が変化してから、減算器102の出力となる位置偏差が所定の範囲内に収まるまでの時間Tを考慮する場合、時間T(s)の評価関数pを予め設定し、時間T(s)の評価値p(T(s))に基づき、位置偏差の微分値の場合と同様に、時間T(s)に基づく第4の報酬を算出することができる。
状態sにおける速度指令値が変化してから、減算器102の出力となる位置偏差が所定の範囲内に収まるまでの時間Tを考慮する報酬としては、第1の報酬の値と第4の報酬の値との間で重み付けを行って加算するようにしてもよい。
また、さらに、位置偏差の微分値、トルク指令値の微分値、及び前述した時間T(s)のいずれかを組み合わせて考慮する場合には、例えば報酬の値を、第1の報酬の値と、組み合わせに対応する第2の報酬の値、第3の報酬の値、及び第4の報酬の値との間で重み付けを行って加算するようにしてもよい。
<Speed command value>
It is preferable that the time T from when the speed command value changes until the position deviation falls within a certain range is as short as possible. Therefore, in addition to the calculation of the reward based on the position deviation, the reward considering the time T until the position deviation falls within a certain range after the speed command value changes can be calculated.
The state information acquisition unit 201 detects a change in the position forward-controlled speed command value that is output from the adder 104, and after the speed command value changes, the position deviation that is output from the subtractor 102 is within a predetermined range. The time T until it falls within is observed. Hereinafter, a set of time T from the change of the speed command value in the state s until the position deviation as the output of the subtracter 102 falls within a predetermined range is referred to as T (s).
In the calculation of the reward, when considering the time T from when the speed command value in the state s changes until the position deviation output from the subtracter 102 falls within a predetermined range, the evaluation function of the time T (s) p is set in advance, and the fourth reward based on the time T (s) is calculated based on the evaluation value p (T (s)) of the time T (s) as in the case of the differential value of the position deviation. Can do.
As a reward that considers the time T from when the speed command value in the state s changes until the positional deviation that is the output of the subtracter 102 falls within a predetermined range, the value of the first reward and the fourth reward You may make it add by weighting between the values of.
Further, when considering any combination of the differential value of the position deviation, the differential value of the torque command value, and the time T (s) described above, for example, the reward value is set as the first reward value. The second reward value, the third reward value, and the fourth reward value corresponding to the combination may be weighted and added.

<変形例>
以上説明した例では第1の報酬の値と第4の報酬の値との間で重み付けを行って加算したが、位置偏差の絶対値に関する評価関数fと時間T(s)に関する評価関数pとの間に重み付けをして、加算された評価関数を用いて報酬を算出してもよい。図10は、重み付けされて加算された評価関数を用いて選択しえる位置偏差の波形を示す特性図である。
位置偏差をeで示し、
位置偏差に関する評価関数fを∫|e|dt、
時間T(s)に関する評価関数pを∫t0dtとすると、
重み付けして加算された評価関数はy×∫|e|dt+z×∫t0dt(y,zは重み係数)となる。
重み付けして加算された評価関数に基づいて報酬の値を決定すると、図10に示すように、実線に示す波形W2より時間Tが小さい破線に示す波形W1が選択されることがわかる。なお、図10において、時間Tは波形W1、W2ではそれぞれt0(1)、t0(2)として示される。
なお、位置偏差の微分値、トルク指令値の微分値、及び前述した時間T(s)のいずれかを組み合わせて考慮する場合には、位置偏差に関する評価関数と位置偏差の微分値に関する評価関数とトルク指令値の微分値に関する評価関数と、時間T(s)に関する評価関数の間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
<Modification>
In the example described above, the value of the first reward and the value of the fourth reward are weighted and added, but the evaluation function f regarding the absolute value of the position deviation and the evaluation function p regarding the time T (s) The reward may be calculated using the added evaluation function. FIG. 10 is a characteristic diagram showing a waveform of a position deviation that can be selected by using the weighted and added evaluation function.
The position deviation is indicated by e,
評 価 | e | dt
If the evaluation function p for the time T (s) is ∫t 0 dt,
The weighted and added evaluation function is y × ∫ | e | dt + z × ∫t 0 dt (y and z are weighting factors).
When the reward value is determined based on the weighted and added evaluation function, as shown in FIG. 10, it can be seen that the waveform W1 indicated by a broken line whose time T is smaller than the waveform W2 indicated by the solid line is selected. In FIG. 10, time T is shown as t 0 (1) and t 0 (2) in waveforms W1 and W2, respectively.
In addition, when considering any combination of the differential value of the position deviation, the differential value of the torque command value, and the time T (s) described above, the evaluation function related to the position deviation and the evaluation function related to the differential value of the position deviation Weighting may be performed between the evaluation function related to the differential value of the torque command value and the evaluation function related to the time T (s), the weighted evaluation function may be added, and the reward may be determined using the weighted evaluation function. .

<トルク指令値>
トルク指令値には上限値が存在する。そこで、許容値TCmaxを例えば、上限値又は上限値以下の値に設定し、この許容値TCmaxを超えないようにすることが好ましい。そこで、位置偏差による報酬の計算の他に、トルク指令値が許容値TCmaxまで達しているか否かにより報酬を計算する。
具体的には、状態情報取得部201が、状態sにおいて、加算器107の出力となる位置フォワード制御されたトルク指令値TC(s)を観測する。状態情報取得部201は、状態sにおいて観測されるトルク指令値が一つでも許容値TCmaxを超えたことを観測した場合、報酬出力部2021は、第1の報酬の値や前の状態におけるトルク指令値の如何に関わらず、報酬を負の値とする。
<Torque command value>
There is an upper limit for the torque command value. Therefore, it is preferable to set the allowable value TCmax to, for example, an upper limit value or a value less than or equal to the upper limit value so that the allowable value TCmax is not exceeded. Therefore, in addition to the calculation of the reward based on the position deviation, the reward is calculated based on whether or not the torque command value has reached the allowable value TCmax.
Specifically, the state information acquisition unit 201 observes the position forward-controlled torque command value TC (s) that is the output of the adder 107 in the state s. When the state information acquisition unit 201 observes that even one torque command value observed in the state s exceeds the allowable value TCmax, the reward output unit 2021 determines the value of the first reward or the torque in the previous state. Regardless of the command value, the reward is a negative value.

なお、状態sにおいて観測されるトルク指令値が許容値TCmaxを超えない場合、トルク指令値TC(s)の評価関数qを予め設定し、トルク指令値TC(s)の評価値q(TC(s))に基づき、位置偏差の微分値の場合と同様に、トルク指令値TC(s)に基づく第5の報酬を算出するようにしてもよい。
その場合、報酬出力部2021は、第1の報酬の値と第5の報酬の値との間で重み付けを行って加算するようにしてもよい。
さらに、位置偏差の微分値、トルク指令値の微分値、前述した時間T(s)、及びトルク指令値のいずれかを組み合わせて考慮する場合には、例えば報酬の値を、第1の報酬の値と、組み合わせに対応する第2の報酬の値、第3の報酬の値、第4の報酬の値、及び第5の報酬の値との間で重み付けを行って加算するようにしてもよい。
If the torque command value observed in the state s does not exceed the allowable value TCmax, an evaluation function q of the torque command value TC (s) is set in advance, and the evaluation value q (TC ( s)), the fifth reward based on the torque command value TC (s) may be calculated in the same manner as the differential value of the position deviation.
In that case, the reward output unit 2021 may weight and add between the first reward value and the fifth reward value.
Further, when considering any combination of the differential value of the position deviation, the differential value of the torque command value, the time T (s) described above, and the torque command value, for example, the reward value is changed to the first reward value. The value and the second reward value, the third reward value, the fourth reward value, and the fifth reward value corresponding to the combination may be weighted and added. .

<変形例>
位置偏差の場合と同様に、位置偏差に関する評価関数とトルク指令値TC(s)の評価関数qとの間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
また、さらに、位置偏差の微分値、トルク指令値の微分値、時間T(s)、トルク指令値TC(s)のいずれかを組み合わせて考慮する場合には、位置偏差に関する評価関数と位置偏差の微分値に関する評価関数とトルク指令値の微分値に関する評価関数と、時間T(s)に関する評価関数とトルク指令値TC(s)の評価関数の間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
<Modification>
As in the case of the position deviation, weighting is performed between the evaluation function relating to the position deviation and the evaluation function q of the torque command value TC (s), the weighted evaluation function is added, and the weighted evaluation function is used. A reward may be determined.
Further, when any one of the differential value of the position deviation, the differential value of the torque command value, the time T (s), and the torque command value TC (s) is considered in combination, the evaluation function and the position deviation related to the position deviation are considered. Are weighted between the evaluation function related to the differential value of the torque, the evaluation function related to the differential value of the torque command value, the evaluation function related to the time T (s), and the evaluation function of the torque command value TC (s). The reward may be determined using a weighted evaluation function.

<速度偏差>
偏差には位置偏差のほかに速度偏差もある。位置偏差は小さくても速度偏差が大きすぎることは好ましくない。位置偏差だけでなく、速度偏差も使用し、位置偏差の報酬の値の重みを大きくし、位置偏差と速度偏差とが小さくなる速度フィードフォワード係数を見つけることが好ましい。その場合、位置偏差による報酬の計算の他に、速度偏差による第6の報酬を計算することが好ましい。ここで、状態sにおける状態変数である速度偏差の集合(速度偏差集合)をVD(s)という。
報酬の計算において、状態sにおける速度偏差VD(s)を考慮する場合、速度偏差VD(s)の評価関数uを予め設定し、速度偏差VD(s)の評価値u(VD(s))に基づき、位置偏差の微分値の場合と同様に、速度偏差VD(s)に基づく第6の報酬を算出することができる。
<Speed deviation>
In addition to position deviation, deviation includes speed deviation. Even if the position deviation is small, it is not preferable that the speed deviation is too large. It is preferable to use not only the position deviation but also the speed deviation, increase the weight of the position deviation reward value, and find a speed feedforward coefficient that reduces the position deviation and the speed deviation. In this case, it is preferable to calculate the sixth reward based on the speed deviation in addition to the calculation based on the position deviation. Here, a set of speed deviations (speed deviation set), which is a state variable in the state s, is referred to as VD (s).
When calculating the speed deviation VD (s) in the state s in the calculation of the reward, an evaluation function u of the speed deviation VD (s) is set in advance, and the evaluation value u (VD (s)) of the speed deviation VD (s) The sixth reward based on the speed deviation VD (s) can be calculated based on the same as in the case of the differential value of the position deviation.

状態sにおける速度偏差VD(s)を考慮する報酬としては、第1の報酬の値と第6の報酬の値との間で重み付けを行って加算するようにしてもよい。
なお、位置偏差の微分値、トルク指令値の微分値、時間T(s)、トルク指令値、及び速度偏差VD(s)のいずれかを組み合わせて考慮する場合には、例えば報酬の値を、第1の報酬の値と、組み合わせに対応する第2の報酬の値、第3の報酬の値、第4の報酬の値、第5の報酬の値、及び第6の報酬の値との間で重み付けを行って加算するようにしてもよい。
As a reward considering the speed deviation VD (s) in the state s, the first reward value and the sixth reward value may be weighted and added.
In addition, when considering any combination of the differential value of the position deviation, the differential value of the torque command value, the time T (s), the torque command value, and the speed deviation VD (s), for example, the reward value is Between the value of the first reward and the value of the second reward, the value of the third reward, the value of the fourth reward, the value of the fifth reward, and the value of the sixth reward It is also possible to add by weighting.

<変形例>
位置偏差の場合と同様に、位置偏差に関する評価関数と速度偏差VD(s)の評価関数との間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
また、さらに、位置偏差の微分値、トルク指令値の微分値、時間T(s)、トルク指令値TC(s)、速度偏差のいずれかを組み合わせて考慮する場合には、位置偏差に関する評価関数と位置偏差の微分値に関する評価関数とトルク指令値の微分値に関する評価関数と、時間T(s)に関する評価関数とトルク指令値TC(s)の評価関数と、速度偏差VD(s)の評価関数と、の間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
<Modification>
As in the case of the position deviation, weighting is performed between the evaluation function related to the position deviation and the evaluation function of the speed deviation VD (s), the weighted evaluation function is added, and the reward is calculated using the weighted evaluation function. You may decide.
Further, in the case of considering any combination of the differential value of the position deviation, the differential value of the torque command value, the time T (s), the torque command value TC (s), and the speed deviation, an evaluation function related to the position deviation. And an evaluation function related to the differential value of the position deviation, an evaluation function related to the differential value of the torque command value, an evaluation function related to the time T (s), an evaluation function of the torque command value TC (s), and an evaluation of the speed deviation VD (s) A weight may be weighted between the functions, the weighted evaluation function may be added, and the reward may be determined using the weighted evaluation function.

なお、第2の実施形態で挙げた評価関数g(PD´(s))、h(TC´(s))、p(T(s))、q(TC(s))、u(VD(s))としては、評価関数f(PD(s))と同様に、例えば、絶対値の積算値を算出する関数、絶対値に時間の重み付けをして積算値を算出する関数、絶対値の2n乗の積算値を算出する関数、又は絶対値の最大値を算出する関数等を適用することができる。   Note that the evaluation functions g (PD ′ (s)), h (TC ′ (s)), p (T (s)), q (TC (s)), u (VD () mentioned in the second embodiment are used. As for the evaluation function f (PD (s)), for example, a function for calculating an integrated value of absolute values, a function for calculating an integrated value by weighting the absolute values with time, A function for calculating the integrated value of 2n, a function for calculating the maximum absolute value, or the like can be applied.

上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。   Each component included in the servo control unit and the machine learning device of the servo control device described above can be realized by hardware, software, or a combination thereof. In addition, a servo control method performed by the cooperation of each component included in the servo control device can also be realized by hardware, software, or a combination thereof. Here, “realized by software” means realized by a computer reading and executing a program.

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   The program may be stored using various types of non-transitory computer readable media and supplied to the computer. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD- R, CD-R / W, and semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)). The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。   Although the above-described embodiment is a preferred embodiment of the present invention, the scope of the present invention is not limited only to the above-described embodiment, and various modifications are made without departing from the gist of the present invention. Can be implemented.

<サーボ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200を、サーボ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
<Modification in which the servo control device includes a machine learning device>
In the above-described embodiment, the machine learning device 200 is configured by a device separate from the servo control device 100. However, part or all of the functions of the machine learning device 200 may be realized by the servo control device 100. Good.

<システム構成の自由度>
上述した実施形態では、機械学習装置200とサーボ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボ制御装置100とネットワーク400を介して通信可能に接続され、各サーボ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
<Freedom of system configuration>
In the embodiment described above, the machine learning device 200 and the servo control device 100 are communicably connected as a one-to-one set. For example, one machine learning device 200 includes a plurality of servo control devices 100 and a network 400. May be communicably connected to each other, and machine learning of each servo control device 100 may be performed.
In that case, each function of the machine learning device 200 may be distributed to a plurality of servers as appropriate. Moreover, you may implement | achieve each function of the machine learning apparatus 200 using a virtual server function etc. on a cloud.
Further, when there are a plurality of machine learning devices 200-1 to 200-n respectively corresponding to a plurality of servo control devices 100-1 to 100-n of the same type, the same specification, or the same series, each machine learning You may make it comprise so that the learning result in apparatus 200-1-200-n may be shared. By doing so, it becomes possible to construct a more optimal model.

10 サーボ制御システム
100 サーボ制御装置
101 位置指令作成部
102 減算器
103 位置制御部
104 加算器
105 減算器
106 速度制御部
107 加算器
108 積分器
109 位置フィードフォワード計算部
110 速度フィードフォワード計算部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 制御対象
400 ネットワーク
DESCRIPTION OF SYMBOLS 10 Servo control system 100 Servo control apparatus 101 Position command preparation part 102 Subtractor 103 Position control part 104 Adder 105 Subtractor 106 Speed control part 107 Adder 108 Integrator 109 Position feedforward calculation part 110 Speed feedforward calculation part 200 Machine Learning device 201 State information acquisition unit 202 Learning unit 203 Behavior information output unit 204 Value function storage unit 205 Optimization behavior information output unit 300 Control target 400 Network

Claims (11)

位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段を備える、サーボ制御装置に対して機械学習を行う機械学習装置であって、
所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
A machine learning device for performing machine learning on a servo control device, comprising speed feedforward calculation means for creating a speed feedforward value based on a position command,
By causing the servo control device to execute a predetermined machining program, state information including at least a servo state including a positional deviation and a combination of coefficients of a transfer function of the speed feedforward calculation means is obtained from the servo control device. State information acquisition means for acquiring;
Behavior information output means for outputting behavior information including adjustment information of the combination of the coefficients included in the state information to the servo control device;
Reward output means for outputting a reward value in reinforcement learning based on the position deviation included in the state information;
Value function updating means for updating the value function based on the value of the reward output by the reward output means, the state information, and the behavior information;
A machine learning device comprising:
前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項1に記載の機械学習装置。   The machine learning device according to claim 1, wherein the reward output unit outputs the reward value based on an absolute value of the position deviation. 前記報酬出力手段は、少なくとも前記位置偏差及び前記位置偏差の微分値を含む値に基づく報酬の値を計算する請求項1又は2に記載の機械学習装置。   The machine learning device according to claim 1, wherein the reward output unit calculates a reward value based on at least the position deviation and a value including the differential value of the position deviation. 前記状態情報取得手段は、さらに、前記サーボ状態に含まれる速度指令値が変化してから前記位置偏差が所定の範囲内に収まるまでの時間Tを観測し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記時間Tの長さを含む値に基づいて、報酬の値を計算する請求項1又は2に記載の機械学習装置。
The state information acquisition means further observes a time T from when the speed command value included in the servo state changes until the position deviation falls within a predetermined range,
The machine learning device according to claim 1, wherein the reward output unit calculates a reward value based on a value including at least the position deviation and the length of the time T.
前記状態情報取得手段は、さらに、前記サーボ制御装置からトルク指令を取得し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記トルク指令の微分値を含む値に基づいて、報酬の値を計算する請求項1又は2に記載の機械学習装置。
The state information acquisition means further acquires a torque command from the servo control device,
The machine learning device according to claim 1, wherein the reward output unit calculates a reward value based on a value including at least the position deviation and a differential value of the torque command.
前記状態情報取得手段は、さらに、前記サーボ制御装置からトルク指令を取得し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記トルク指令がトルク指令の許容値まで到達しているかどうかに基づいて、報酬の値を計算する請求項1又は2に記載の機械学習装置。
The state information acquisition means further acquires a torque command from the servo control device,
The machine learning device according to claim 1, wherein the reward output means calculates a reward value based on at least the position deviation and whether the torque command reaches a torque command allowable value.
前記状態情報取得手段は、さらに、前記サーボ制御装置から速度偏差を取得し、
前記報酬出力手段は、少なくとも前記位置偏差及び前記速度偏差を含む値に基づいて、報酬の値を計算する請求項1又は2に記載の機械学習装置。
The state information acquisition means further acquires a speed deviation from the servo control device,
The reward output means, based on a value including at least the positional deviation and the speed deviation, the machine learning device according to claim 1 or 2 to calculate the value of compensation.
前記価値関数更新手段により更新された前記価値関数に基づいて、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせを生成して出力する最適化行動情報出力手段を備えた請求項1から請求項7のいずれか1項に記載の機械学習装置。 Based on the value function is updated by the value function update unit, according to claim from the speed feed claim 1 having the optimized action information output means for generating and outputting a combination of the coefficients of the transfer function of the forward calculation means 8. The machine learning device according to any one of 7 above. 請求項1から請求項8のいずれか1項に記載の機械学習装置と、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段を有するサーボ制御装置と、を備えたサーボ制御システム。   A servo control system comprising: the machine learning device according to any one of claims 1 to 8; and a servo control device having speed feedforward calculation means for creating a speed feedforward value based on a position command. . 請求項1から請求項8のいずれか1項に記載の機械学習装置と、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段と、を備えたサーボ制御装置。   A servo control device comprising: the machine learning device according to any one of claims 1 to 8; and a speed feedforward calculation unit that creates a speed feedforward value based on a position command. 位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段を備える、サーボ制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記速度フィードフォワード計算手段の伝達関数の係数の組み合わせと、を含む状態情報を、前記サーボ制御装置から取得し、
前記状態情報に含まれる前記係数の組み合わせの調整情報を含む行動情報を前記サーボ制御装置に出力し、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法。
A machine learning method of a machine learning device that performs machine learning on a servo control device, comprising a speed feedforward calculation means for creating a speed feedforward value based on a position command,
By causing the servo control device to execute a predetermined machining program, state information including at least a servo state including a positional deviation and a combination of coefficients of a transfer function of the speed feedforward calculation means is obtained from the servo control device. Acquired,
Action information including adjustment information of the combination of the coefficients included in the state information is output to the servo control device;
A machine learning method of updating a value function based on a value of reward in reinforcement learning based on the position deviation included in the state information, the state information, and the behavior information.
JP2017049608A 2017-03-15 2017-03-15 Machine learning device, servo control device, servo control system, and machine learning method Active JP6490127B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017049608A JP6490127B2 (en) 2017-03-15 2017-03-15 Machine learning device, servo control device, servo control system, and machine learning method
DE102018203702.7A DE102018203702B4 (en) 2017-03-15 2018-03-12 Machine learning apparatus, servo control apparatus, servo control system, and machine learning method
CN201810205461.0A CN108628355B (en) 2017-03-15 2018-03-13 Servo control device and system, machine learning device and method
US15/919,456 US10564619B2 (en) 2017-03-15 2018-03-13 Machine learning device, servo control device, servo control system, and machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017049608A JP6490127B2 (en) 2017-03-15 2017-03-15 Machine learning device, servo control device, servo control system, and machine learning method

Publications (2)

Publication Number Publication Date
JP2018152012A JP2018152012A (en) 2018-09-27
JP6490127B2 true JP6490127B2 (en) 2019-03-27

Family

ID=63372509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017049608A Active JP6490127B2 (en) 2017-03-15 2017-03-15 Machine learning device, servo control device, servo control system, and machine learning method

Country Status (4)

Country Link
US (1) US10564619B2 (en)
JP (1) JP6490127B2 (en)
CN (1) CN108628355B (en)
DE (1) DE102018203702B4 (en)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6474449B2 (en) 2017-04-07 2019-02-27 ファナック株式会社 Adjusting apparatus and adjusting method
JP6646025B2 (en) * 2017-09-15 2020-02-14 ファナック株式会社 Control device and machine learning device
JP6748135B2 (en) * 2018-03-19 2020-08-26 ファナック株式会社 Machine learning device, servo control device, servo control system, and machine learning method
JP6740279B2 (en) * 2018-04-13 2020-08-12 ファナック株式会社 Adjusting device and adjusting method
JP6860540B2 (en) * 2018-10-25 2021-04-14 ファナック株式会社 Output device, control device, and learning parameter output method
JP6860541B2 (en) 2018-10-29 2021-04-14 ファナック株式会社 Output device, control device, and evaluation function value output method
JP6849643B2 (en) 2018-11-09 2021-03-24 ファナック株式会社 Output device, control device, and evaluation function and machine learning result output method
EP3671372A1 (en) * 2018-12-18 2020-06-24 Siemens Aktiengesellschaft Position-controlled control with compensation of elasticity-induced position errors
WO2020148808A1 (en) * 2019-01-15 2020-07-23 三菱電機株式会社 Control device for power converter
JP6978452B2 (en) * 2019-02-12 2021-12-08 ファナック株式会社 How to set the machine learning device, control device, and machine learning search range
JP7000371B2 (en) * 2019-03-22 2022-01-19 ファナック株式会社 Machine learning equipment, control systems and machine learning methods
EP3715608B1 (en) * 2019-03-27 2023-07-12 Siemens Aktiengesellschaft Machine control based on automated learning of subordinate control skills
JP7010877B2 (en) * 2019-04-25 2022-01-26 ファナック株式会社 Machine learning equipment, numerical control system and machine learning method
JP7256703B2 (en) * 2019-06-21 2023-04-12 ファナック株式会社 Controllers, control systems, and machine learning devices
JP2021002194A (en) * 2019-06-21 2021-01-07 ファナック株式会社 Numerical control apparatus, cnc machine tool, numerical control method, and numerical control program
JP6932160B2 (en) * 2019-07-22 2021-09-08 株式会社安川電機 Machine learning method and method of estimating the parameters of industrial equipment or the internal state of equipment controlled by industrial equipment
JP2021040239A (en) 2019-09-03 2021-03-11 ファナック株式会社 Machine learning device, receiving device, and machine learning method
JP7357537B2 (en) * 2019-12-24 2023-10-06 本田技研工業株式会社 Control device, control method for control device, program, information processing server, information processing method, and control system
JP6800384B1 (en) * 2020-03-04 2020-12-16 三菱電機株式会社 Positioning control device and positioning method
KR20210121844A (en) * 2020-03-31 2021-10-08 현대자동차주식회사 Vehicle and method for controlling thereof
US11348036B1 (en) 2020-12-01 2022-05-31 OctoML, Inc. Optimizing machine learning models with a device farm
JPWO2022186051A1 (en) 2021-03-02 2022-09-09
CN113791538B (en) * 2021-08-06 2023-09-26 深圳清华大学研究院 Control method, control device and control system of machine room equipment
US20230070826A1 (en) * 2021-09-08 2023-03-09 Honeywell International Inc. Autonomous instrument management
TWI805353B (en) * 2022-01-25 2023-06-11 台達電子工業股份有限公司 Servo actuator and fast self-tuning method of gain for using the same

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4947336A (en) * 1988-04-15 1990-08-07 Froyd Stanley G Multiple axis motion control system
JP2762364B2 (en) 1989-03-20 1998-06-04 ファナック株式会社 Feedforward control method for servo motor
US5751585A (en) * 1995-03-20 1998-05-12 Electro Scientific Industries, Inc. High speed, high accuracy multi-stage tool positioning system
JPH11102211A (en) * 1997-09-25 1999-04-13 Toshiba Mach Co Ltd Method and device for servo control
US6060854A (en) * 1998-11-12 2000-05-09 Vickers, Inc. Method and apparatus for compensating for windup in a machine
US6677722B2 (en) * 2001-04-19 2004-01-13 Toshiba Kikai Kabushiki Kaisha Servo control method
JP2003061377A (en) * 2001-08-17 2003-02-28 Yaskawa Electric Corp Motor control apparatus with auto-tuning function
WO2004092859A1 (en) * 2003-04-11 2004-10-28 Mitsubishi Denki Kabushiki Kaisha Servo controller
JP2006018431A (en) * 2004-06-30 2006-01-19 Yaskawa Electric Corp Servo control device
JP4283214B2 (en) * 2004-12-16 2009-06-24 ファナック株式会社 Machine tip control device
JP4575508B1 (en) * 2009-05-20 2010-11-04 ファナック株式会社 Servo control device for dual position feedback control
CN103180790B (en) * 2010-10-27 2016-04-20 株式会社牧野铣床制作所 Numerical control method
CN102374038B (en) * 2011-09-06 2013-09-11 天津大学 VVT (Variable Valve Timing) control method capable of combining self-learning feed-forward and active anti-interference feedback
JP5897645B2 (en) * 2014-06-05 2016-03-30 ファナック株式会社 Servo control device that reduces the deflection of the machine tip
CN104486248B (en) * 2014-12-04 2017-11-14 南京邮电大学 The AQM system and method for stochastic earlytest algorithm based on Generalized PID
CN106338970B (en) * 2016-11-17 2018-09-07 沈阳工业大学 A kind of 5-shaft linkage numerical control Servo System of Machine Tools control method

Also Published As

Publication number Publication date
US20180267499A1 (en) 2018-09-20
CN108628355A (en) 2018-10-09
JP2018152012A (en) 2018-09-27
DE102018203702A1 (en) 2018-09-20
DE102018203702B4 (en) 2020-12-31
CN108628355B (en) 2020-02-21
US10564619B2 (en) 2020-02-18

Similar Documents

Publication Publication Date Title
JP6490127B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
CN109274314B (en) Machine learning device, servomotor control system, and machine learning method
JP6499720B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP6748135B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP6474449B2 (en) Adjusting apparatus and adjusting method
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6740277B2 (en) Machine learning device, control device, and machine learning method
JP6474456B2 (en) Machine learning apparatus, servo control system, and machine learning method
JP6740278B2 (en) Machine learning device, control device, and machine learning method
JP6784722B2 (en) Output device, control device, and evaluation function value output method
US11029650B2 (en) Machine learning device, control system, and machine learning method
JP6978452B2 (en) How to set the machine learning device, control device, and machine learning search range
CN110941242A (en) Motor control device
CN111722530B (en) Machine learning device, control system, and machine learning method
JP6740263B2 (en) Machine learning device, servo motor control device, servo motor control system, and machine learning method
JP6740290B2 (en) Machine learning device, control device, and machine learning method

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180627

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190226

R150 Certificate of patent or registration of utility model

Ref document number: 6490127

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150