JP7010877B2 - 機械学習装置、数値制御システム及び機械学習方法 - Google Patents

機械学習装置、数値制御システム及び機械学習方法 Download PDF

Info

Publication number
JP7010877B2
JP7010877B2 JP2019084477A JP2019084477A JP7010877B2 JP 7010877 B2 JP7010877 B2 JP 7010877B2 JP 2019084477 A JP2019084477 A JP 2019084477A JP 2019084477 A JP2019084477 A JP 2019084477A JP 7010877 B2 JP7010877 B2 JP 7010877B2
Authority
JP
Japan
Prior art keywords
value
machine learning
reward
blocks
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019084477A
Other languages
English (en)
Other versions
JP2020181403A (ja
Inventor
春宇 鮑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2019084477A priority Critical patent/JP7010877B2/ja
Priority to US16/828,021 priority patent/US11640557B2/en
Priority to DE102020204854.1A priority patent/DE102020204854A1/de
Priority to CN202010323648.8A priority patent/CN111857052B/zh
Publication of JP2020181403A publication Critical patent/JP2020181403A/ja
Application granted granted Critical
Publication of JP7010877B2 publication Critical patent/JP7010877B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • G05B19/4086Coordinate conversions; Other special calculations
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/4093Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by part programming, e.g. entry of geometrical information as taken from a technical drawing, combining this with machining and material information to obtain control information, named part programme, for the NC machine
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35356Data handling
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/36Nc in input of data, input key till input tape
    • G05B2219/36125Select out of library, beforehand only functions needed for part program
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/43Speed, acceleration, deceleration control ADC
    • G05B2219/43011Shorter time by adjusting corner speed, avoid zero speed when engage corner
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/49Nc machine tool, till multiple
    • G05B2219/49164Corner, making corner
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Description

本発明は、コーナー部の指令を最適化する機械学習を行う機械学習装置、この機械学習装置を含む数値制御システム、及び機械学習方法に関する。
機械学習装置を用いた工作機械は、例えば特許文献1から特許文献5に記載されている。
特許文献1には、直線と曲線で形成される所定の加工物の輪郭を工具経路とする工具の動作を機械学習する工作機械が記載されている。具体的には、特許文献1には、工作機械の動作を評価して評価データを出力する動作評価部と、工作機械の軸の移動量を機械学習する機械学習器とを備え、機械学習器は、工作機械の物理量データと評価データとを取得する状態観測部と、物理量データと評価データに基づいて報酬を計算する報酬計算部と、機械学習結果および物理量データに基づいて軸の移動量の調整を行う移動量調整学習部と、移動量調整学習部が調整した軸の移動量を出力する移動量出力部と、を有し、移動量調整学習部は、調整された前記軸の移動量と、状態観測部により取得された物理量データと、報酬計算部が計算した前記報酬と、に基づいて軸の移動量の調整を機械学習する工作機械が記載されている。
特許文献2には、各軸の制御における最適な加減速を生成する工作機械が記載されている。具体的には、特許文献2には、工作機械の動作を評価する動作評価部と、工作機械の軸の移動量を機械学習する機械学習器とを備え、機械学習器は、工作機械の状態データとを取得する状態観測部と、状態データに基づいて報酬を計算する報酬計算部と、軸の移動量の決定を機械学習する移動量調整学習部と、機械学習結果に基づいて軸の移動量を決定して出力する移動量出力部と、を有し、移動量調整学習部は、決定された前記軸の移動量と、状態観測部により取得された状態データと、報酬計算部が計算した報酬と、に基づいて軸の移動量の決定を機械学習する工作機械が記載されている。
特許文献3には、オーバーヒートの発生を回避しながらもサイクルタイムを短縮するための行動情報を選択することを可能とする強化学習を行う行動情報学習装置が記載されている。具体的には、特許文献3には、工作機械における加工に係る主軸の動作パターン及びパラメータの組合せを含む状態情報を取得する状態情報取得手段と、前記状態情報に含まれる前記動作パターン及び前記パラメータの組合せの調整情報を含む行動情報を出力する行動情報出力手段と、前記工作機械の温度及び前記工作機械の前記加工に係る加工時間についての情報である判定情報を取得し、該取得した判定情報に基づいて強化学習における報酬の値を出力する報酬計算手段と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて前記強化学習を行うことにより価値関数を更新する価値関数更新手段と、を備える行動情報学習装置が記載されている。
特許文献4には、外形加工数値制御データを作成する際に、削り残し部分を別の工具で補正するのではなく、ひとつの工具で削り残しを低減することで、加工時間を短縮する数値制御データ作成装置が記載されている。具体的には、特許文献4には、凹形状のある外形形状を入力とすると、予め登録された工具情報から最適な工具を選び、加工工程順に数値制御データを作成し、次に、入力された外形形状から、凹部を抽出し、この部位のデータを正負の公差分まで考慮して算出した外形加工数値制御データに修正することにより、補正加工工程を新たに追加しなくとも、高い精度で外形を切削することができる数値制御データ作成装置が記載されている。
特許文献5には、コーナー部を形成する2つの移動ブロックの成す角に応じて加工経路を補正するワイヤ放電加工機が記載されている。具体的には、特許文献5には、加工プログラム記憶部から加工プログラムのブロックを読み込んで解析し、コーナー角度検出部によってコーナーがあると判断されると、コーナー角度検出部で検出されたコーナー角度に基づいて補正距離と戻し距離とを演算し、補正距離にしたがって先に加工するブロックの終点を延長するように補正し、戻し距離にしたがって次に加工するブロックを始点からブロック途中まで削除し、延長されて作成された新たなブロック終点と、削除されて作成された新たなブロック開始点とを繋ぐように加工経路を加工経路補正部において作成し、加工経路制御部によってワイヤ電極を被加工物に対して相対移動させるワイヤ放電加工機が記載されている。
特開2017-033138号公報 特開2017-068325号公報 特開2018-120453号公報 特開平08-202424号公報 特開2014-121755号公報
工作機械を制御する数値制御装置において、コーナー部で機械にショックが発生することを回避するため、補間後加減速制御が行われている。その結果、指令経路のブロック間でオーバラップして加減速が行われるため、加工経路が指令された加工経路からずれて内回り量が発生する。
工作機械を制御する数値制御装置において、この内回り量を削減して、加工精度を向上させつつ、加工時間を削減することが望まれている。
(1) 本開示の一態様は、加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置である。
(2) 本開示の他の一態様は、上記(1)に記載の機械学習装置と、該機械学習装置によって、前記m個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システムである。
(3) 本開示の更に他の一態様は、加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
機械学習方法である。
本開示の各態様によれば、内回り量を削減して、加工精度を向上させるとともに加工時間を短縮することができる。
本開示の一実施形態の数値制御システムの構成を示すブロック図である。 2つのブロックを有する指令及び5つのブロックの内部指令の一例を示す説明図である。 2つのブロックを有する指令に基づく指令経路と加工経路、及び5つのブロックを有する内部指令に基づく内部指令経路と補正された加工経路を示す図である。 図3に示した補正された加工経路の許容誤差範囲を示す図である。 本開示の一実施形態の機械学習装置200を示すブロック図である。 2つのブロックを有する指令に基づく加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。 5つのブロックを有する内部指令に基づく、補正された加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。 本実施形態におけるQ学習(Q-learning)時の機械学習装置200の動作を示すフローチャートである。 図8のステップS14内での加工精度に基づく報酬の算出方法を示すフローチャートである。 図8のステップS14内での加工時間に基づく報酬の算出方法の一部を示すフローチャートである。 本開示の一実施形態の機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。 数値制御システムの他の構成例を示すブロック図である。
以下、本開示の実施形態について図面を用いて詳細に説明する。
まず、本開示の機械学習装置を含む、数値制御システムについて説明する。
図1は、本開示の一実施形態の数値制御システムの構成を示すブロック図である。
図1に示すように、数値制御システム10は、CNC(Computerized Numerical Control)装置等の数値制御装置100、機械学習装置200及びモータ301、302を備えている。機械学習装置200は数値制御装置100に含まれてもよい。
モータ301、302は、例えば、工作機械、ロボット、産業機械等の一部として設けられる。また、数値制御装置100は、工作機械、ロボット、産業機械等の一部として設けられてもよい。モータ301、302は、以下の説明では回転運動をするモータとして説明するが、直線運動をするリニアモータであってもよい。
工作機械は例えば3軸加工機で、図1ではX軸及びY軸の送り軸モータとなるモータ301、302のみを示している。送り軸モータとしては他にZ軸のモータが設けられており、また3軸加工機はボールエンドミル等の工具を回転させる主軸モータも備えているがここでは、説明を省略する。
モータ301、302は、ボールねじ等を介して、ワークを作製するための基板が載せられたテーブルをX軸方向及びY軸方向にそれぞれ直線移動する。Z軸のモータは工具又はテーブルをZ軸方向に直線移動する。なお、3軸加工機の構成は係る構成に限定されず、例えば、工具を固定し、テーブルをX軸方向、Y軸方向及びZ軸方向に直線移動させたり、テーブルを固定し、工具をX軸方向、Y軸方向及びZ軸方向に直線移動させたりしてもよい。
数値制御装置100は、指令解析部101、内部指令生成部102、補間部103、加減速制御部104、X軸サーボ制御部105、及びY軸サーボ制御部106を備えている。数値制御装置100はZ軸サーボ制御部及び主軸制御部を含むが、ここでは説明を省略し、以下、X軸及びY軸についてのコーナー部の制御について説明する。
指令解析部101は、入力された加工プログラムからX軸及びY軸の移動の指令を含むブロックを逐次読みだして解析し、解析結果に基づいて各軸の移動を指令する移動指令データを作成し、作成した移動指令データを補間部103に出力する。
指令解析部101は、加工プログラムに2つのブロックからなるコーナー部を含み指令(第1の指令となる)が含まれることを検出した場合には、内部指令生成部102及び機械学習装置200に2つのブロックの指令を送る。なお、ここではコーナー部は直角としているが、鋭角でも鈍角でもよい。
内部指令生成部102は2つのブロックの指令に基づいて、コーナー部の5つのブロックの内部指令(第2の指令となる)を生成して、作成した5つのブロックの内部指令を指令解析部101及び機械学習装置200に送る。内部指令には、5つのブロックの各ブロックの座標値が含まれている。指令解析部101は、2つのブロックの指令を5つのブロックの内部指令に替えた移動指令データを作成し、作成した移動指令データを補間部103に出力する。生成するブロックの数は2より多いm個(mは自然数)以上であればよく、5つに限定されず、それ以外の数、例えば4つ又は7つであってもよい。
補間部103は、指令解析部101から出力された移動指令データにより指令される移動指令に基づいて、指令経路上の点を補間周期で補間計算した補間データを生成する。
加減速制御部104は、補間部103から出力された補間データに基づいて、加減速処理を行い補間周期ごとの各軸の速度を計算し、算出結果に基づくデータをX軸サーボ制御部105及びY軸サーボ制御部106に出力する。また、加減速制御部104は加速度を機械学習装置200へ出力する。
図2は、2つのブロックを有する指令及び5つのブロックの内部指令の一例を示す説明図である。指令「G01;」、「N01 X10.0;」、及び「N02 Y10.0;」は指令解析部101によって解析された指令であり、「G01」は「直線補間(切削送り)」、「N」は「シーケンス番号(行のブロック番号)、「X」はX軸座標、「Y」はY軸座標を示している。具体的には、この指令は、切削送りでの直線補間で、第1ブロックでX軸及びY軸座標(0,0)から(10,0)への移動、第2ブロックでX軸及びY軸座標(10,0)から(10,10)への移動の指令であることを示している。
内部指令「G01;」、「N01 X5.0;」、「N02 X9.9 Y-0.1;」、「N03 X10.1 Y0.1;」、「N04 X10.0 Y5.0;」、及び「N05 Y10.0;」は、内部指令生成部102によって指令「G01;」、「N01 X10.0;」、「N02 Y10.0;」に基づいて生成された指令である。具体的には、この内部指令は、削除送りで、第1ブロックでX軸及びY軸座標(0,0)から(5,0)への移動、第2ブロックでX軸及びY軸座標(5,0)から(9.9,-0.1)への移動、第3ブロックでX軸及びY軸座標(9.9,-0.1)から(10.1,0.1)への移動、第4ブロックでX軸及びY軸座標(10.1,0.1)から(10.0,5.0)への移動、第5ブロックでX軸及びY軸座標(10.0,5.0)から(10.0,10.0)への移動の指令であることを示している。
図3は2つのブロックを有する指令に基づく指令経路と加工経路、及び5つのブロックを有する内部指令に基づく内部指令経路と補正された加工経路を示す図である。図3に示される、点Aと点Gとの間の指令経路、及び点Gと点Fとの間の指令経路は、指令「G01;」、「N01 X10.0;」、及び「N02 Y10.0;」による2つのブロックによる指令経路であり、この指令経路は図3において実線で示されている。また、図3において、2つのブロックの指令経路で実際に加工される加工経路が実線で示されている。
図3に示される、点Aと点Bとの間の指令経路、点Bと点Cとの間の指令経路、点Cと点Dとの間の指令経路、点Dと点Eとの間の指令経路、及び点Eと点Fとの間の指令経路は、内部指令「G01;」、「N01 X5.0;」、「N02 X9.9 Y-0.1;」、「N03 X10.1 Y0.1;」、「N04 X10.0 Y5.0;」、及び「N05 Y10.0;」による5つのブロックの指令経路であり、この指令経路は図3において間隔の広い点線で示されている。また、図3において、5つのブロックの指令経路で実際に加工される、補正された加工経路が間隔の狭い点線で示されている。
図3に示される実線で示される加工経路では、加減速制御部104で行われる補間後加減速制御のために、指令経路のブロック間で、オーバラップして加減速が行われる。その結果、加工経路は指令された指令経路からずれて内回り量が発生する。
後述する機械学習装置200は、内回り量を削減し、加工時間を低減できるように、内部指令のX軸及びY軸座標のデータ(座標値)の最適な値を学習する。
X軸サーボ制御部105及びY軸サーボ制御部106は加減速制御部104からの出力に基づいて、それぞれX軸及びY軸のモータ301、302を制御する。
X軸サーボ制御部105及びY軸サーボ制御部106とはそれぞれ、位置、速度フィードバックループを構成するための位置制御部、速度制御部、トルク指令値に基づいてモータを駆動するモータ駆動アンプ、及びユーザの操作を受け付けるための操作盤等を含んでいる。
X軸サーボ制御部105及びY軸サーボ制御部106は、モータ301、302にそれぞれ結びついたエンコーダ等の位置検出器からの位置フィードバック信号と加減速制御部104から出力される位置指令とを用いて位置偏差を求める。モータ301、302にそれぞれ結びついた位置検出器から出力される位置検出値は位置フィードバック信号として用いられるとともに、機械学習装置200へ位置情報として出力される。なお、X軸サーボ制御部105及びY軸サーボ制御部106の内部構成は当業者によく知られているので詳細な説明及び図示を省略する。
<機械学習装置200>
機械学習装置200は、加工プログラムを実行し、加工プログラムの指令、数値制御装置100で生成された内部指令、内部指令の5つのブロックで設定された送り速度、各軸の時定数、加減速制御部104から出力される加速度及びモータ301及びモータ302から出力される位置検出値を用いて、内部指令の5つのブロックのX軸座標値及びY軸座標値を機械学習(以下、学習という)する。機械学習装置200による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
ここで、数値制御装置100は、加工プログラムによりモータ301、302を制御し、被加工物(ワーク)を搭載しない状態で工作機械を駆動する。
以下の説明では機械学習装置200が強化学習を行う場合について説明するが、機械学習装置200が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Sの下で、行動Aを選択する価値Q(S,A)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態Sと行動Aとの組合せについて、価値Q(S,A)の正しい値は全く分かっていない。そこで、エージェントは、或る状態Sの下で様々な行動Aを選択し、その時の行動Aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(S,A)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(S,A)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(S,A)の更新式は、例えば、次の数式1(以下に数1として示す)により表すことができる。
Figure 0007010877000001
上記の数式1において、Sは、時刻tにおける環境の状態を表し、Aは、時刻tにおける行動を表す。行動Aにより、状態はSt+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態St+1の下で、その時に分かっている最もQ値の高い行動Aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式1は、試行Aの結果、返ってきた報酬rt+1を元に、状態Sにおける行動Aの価値Q(S,A)を更新する方法を表している。
この更新式は、状態Sにおける行動Aの価値Q(S,A)よりも、行動Aによる次の状態St+1における最良の行動の価値max Q(St+1,A)の方が大きければ、Q(S,A)を大きくし、逆に小さければ、Q(S,A)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(S,A)についてのQ(S,A)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(S,A)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(S,A)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、加工プログラムの指令、数値制御装置100で生成された内部指令、内部指令の5つのブロックで設定された送り速度、各軸の時定数、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値を状態Sとして、当該状態Sに係る、内部指令の5つのブロックのX軸座標値及びY軸座標値(以下、座標値xi、yi(1≦i≦5)という)の調整を行動Aとして選択する価値Qを学習する。なお、送り速度は切削加工時の送り速度であり予め設定される。各軸の時定数も予め設定される。
機械学習装置200は、加工プログラムの指令、数値制御装置100で生成された内部指令、内部指令の5つのブロックで設定された送り速度、各軸の時定数、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値を含む状態情報Sを観測して、行動Aを決定する。機械学習装置200は、行動Aをするたびに報酬が返ってくる。この報酬は、加工精度及び加工時間に基づいて決められる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Aを試行錯誤的に探索する。そうすることで、機械学習装置200は、5つのブロックの座標値xi、yを含む指令を用いて、数値制御装置を駆動し、加工プログラムの指令、数値制御装置100で生成された内部指令、内部指令の5つのブロックで設定された送り速度、各軸の時定数、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値を含む状態Sに対して、最適な行動A(すなわち、内部指令の最適な座標値xi、yi)を選択することが可能となる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態Sに係る内部指令の座標値xi、yiに対して適用される行動Aのうち、Qの値が最大となるような行動Aを選択することで、加工経路の精度が向上し、加工時間が削減できる最適な行動A(すなわち、内部指令の座標値xi、yi)を選択することが可能となる。
図5は本開示の一実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図5に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、加工プログラムの指令、数値制御装置100で生成された内部指令、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値を状態情報Sとして数値制御装置100から取得する。内部指令の5つのブロックで設定された送り速度、及び各軸の時定数は予め取得され、状態情報Sの一部として記憶されている。この状態情報Sは、Q学習における、環境状態Sに相当する。
状態情報取得部201は、状態情報Sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での内部指令の座標値xi、yiは、予め数値制御装置100の製造者又はユーザが生成するようにする。本実施形態では、製造者等が作成した内部指令の座標値xi、yiの初期設定値を、強化学習により最適なものに調整する。
なお、内部指令の座標値xi、yiは予め製造者又はユーザが工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。
学習部202は、或る環境状態Sの下で、ある行動Aを選択する場合の価値Q(S,A)を学習する部分である。
報酬出力部2021は、或る状態Sの下で、行動Aを選択した場合の報酬を算出する部分である。報酬は複数の評価項目に基づいて全体の報酬を算出してもよい。また複数の評価項目に基づいて算出する報酬に重み付けすることにより全体の報酬を算出してもよい。本実施形態では、加工精度及び加工時間に基づいて報酬を算出する。
報酬出力部2021は、まず、加工プログラムの指令により得られる指令経路(例えば図3の指令経路)の位置と、モータ301、302から出力される位置検出値により得られる、補正した実際の加工経路(例えば図3の補正した加工経路)の位置との差rを求める。この差rは補正後の内回り量となる。報酬出力部2021は、この補正後の内回り量が、図4に示す、予め定めた許容誤差範囲内かどうかを判断する。図4は図3に示した補正された加工経路の許容誤差範囲を示す図であり、図4において許容誤差範囲は一点鎖線で示される。補正後の内回り量が予め定めた許容誤差範囲内であれば以下に説明する加工精度に基づく報酬を算出する。一方、補正後の内回り量が予め定めた許容誤差範囲を超えていれば、以下に説明する加工精度に基づく報酬の算出を行わず、新たな行動情報を生成する。以上説明した、補正後の内回り量が予め定めた許容誤差範囲内かどうかを判断する処理は行わなくともよい。しかし、この処理を行うことで、補正後の内回り量が許容誤差範囲を超える場合は報酬の算出を行う必要がなくなるので、学習時間を削減することができる。
次に、加工精度に基づく報酬の算出について説明する。
報酬出力部2021は、加工プログラムの指令により得られる指令経路(例えば図3の指令経路)の位置と、モータ301、302から出力される位置検出値により得られる、補正した実際の加工経路(例えば図3の補正した加工経路)の位置との差rの積分を評価関数とする。この差rは補正後の内回り量となる。加工プログラムの指令経路のX軸の座標値をx、Y軸の座標値をyで示し、座標値x、yに対応する、補正した実際の加工経路(例えば図3の補正した加工経路)のX軸の座標値をx、Y軸の座標値をyで示すと、評価関数fは、以下の数式2(以下に数2として示す)の評価関数fを用いることができる。
Figure 0007010877000002
評価関数fは数式2の評価関数fに限定されず、他の評価関数、例えば、以下の数式3(以下に数3として示す)で示す、差rの分散値である評価関数fとしてもよいを用いることができる。数式3において、r’は差rの平均値を示す。nはデータ数を示す。
Figure 0007010877000003
数式2の評価関数f及び数式3の評価関数fはいずれも内回り量(=差r)を用いた評価関数であり、数式2の評価関数f又は数式3の評価関数fに基づいて以下のように報酬が算出される。以下の説明では、評価関数fとして説明するが、数式2の評価関数f及び数式3の評価関数fのいずれを用いてもよい。
ここで、状態Sにおける評価関数fの値をf(S)、状態情報S´に係る評価関数fの値をf(S´)で示す。
このとき、行動情報Aにより修正された状態情報S´に係る評価関数値f(S´)が、行動情報Aにより修正される前の状態情報Sに係る修正前の評価関数f(S)よりも大きくなった場合に、報酬出力部2021は、報酬の値を第1の負の値とする。
一方で、評価関数値f(S´)が、評価関数f(S)よりも小さくなった場合に、報酬出力部2021は、報酬の値を第1の正の値とする。
、評価関数f(S´)が、評価関数f(S)と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
また、行動Aを実行後の状態S´の評価関数f(S´)が、前の状態Sにおける評価関数f(S)より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりf(S´)の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Aを実行後の状態S´の評価関数f(S´)が、前の状態Sにおける評価関数f(S)より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりf(S´)の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
なお、上述した加工精度に基づく報酬の算出の前に、数式2で与えられる評価関数fの値が予め設定した第1の閾値以上となった場合、又は数式3で与えられる評価関数fの値が予め設定した第2の閾値以上となった場合は第1の負の値よりも絶対値が大きい第2の負の値として、上述した加工精度に基づく報酬の算出を行わず、新たな行動情報を生成してもよい。ここで、第1及び第2の閾値は、評価関数f及び評価関数f、すなわち指令経路と補正した実際の加工経路との差rの積分が所定の上限値未満となるように設定された値である。この処理を行うことで、評価関数が閾値以上の場合は報酬の算出を行う必要がなくなるので、学習時間を削減することができる。
次に、加工時間に基づく報酬の算出について説明する。
報酬出力部2021は、モータ301、302から出力される位置検出値(位置情報)から、補正した実際の加工経路(例えば図3の補正した加工経路)での加工時間をカウントする。例えば図3において点Aでモータ301が回転を開始し、点Fでモータ302が回転を停止するまで時間を加工時間とする。なお、加工時間は、数値制御装置100によってモータ301、302から出力される位置検出値からカウントされ、状態情報取得部201が状態情報として取得してもよい。
報酬出力部2021は、以下のように加工時間に基づく報酬を算出する。ここで、行動Aにより状態Sから状態S´に遷移した場合に、状態S及び状態S´における加工時間を値T(S)及び値T(S´)とする。
値T(S´)>値T(S)の場合は、報酬を正の第2の値とする。
値T(S´)=値T(S)の場合は、報酬を正の第2の値より大きい正の第3の値とする。ゼロとする。
値T(S´)<値T(S)の場合は、報酬を正の第3の値より大きい正の第4の値とする。
なお、報酬の値の与え方はこれに限定されず、例えば、値T(S´)>値T(S)の場合は報酬をゼロとし、値T(S´)=値T(S)及び値T(S´)<値T(S)の場合は報酬を同じ正の値としてもよい。
以上説明した、加工精度に基づく報酬及び加工時間に基づく報酬の算出において、設定される報酬の値は、加工精度が加工時間よりも優先されるように設定されることが望ましい。加工精度が低い場合には被加工物の品質が低下するからである。
また、行動Aを実行後の状態S´の加工時間が、前の状態Sにおける加工時間より長くなった場合(値T(S´)>値T(S))の正の値としては、比率に応じて正の値を小さくするようにしてもよい。つまり加工時間が長くなった度合いに応じて正の値を小さくなるようにしてもよい。逆に、行動Aを実行後の状態S´の加工時間が、前の状態Sにおける加工時間より短くなった場合(値T(S´)<値T(S))の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり加工時間が短くなった度合いに応じて正の値が大きくなるようにしてもよい。
報酬出力部2021は、上記のように算出された、加工精度に基づく報酬と、加工時間に基づく報酬とに基づいて全体の報酬を算出する。全体の報酬を算出する場合、加算に限定されず、例えば、重み付け加算してもよく、また、加工精度に基づく報酬と加工時間に基づく報酬との平均値を算出してもよい。全体の報酬を算出する方法は、加工精度と加工時間との優先度に応じて適宜設定することができる。例えば、加工精度を重視する場合には、加工精度に基づく報酬に1を超える重み係数を掛けて加工時間に基づく報酬に加算して重み付け加算することができる。
価値関数更新部2022は、状態Sと、行動Aと、行動Aを状態Sに適用した場合の状態S´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移する都度、即座に価値関数Qの更新を行う学習方法である。また、バッチ学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行う学習方法である。
行動情報生成部2023は、現在の状態Sに対して、Q学習の過程における行動Aを選択する。行動情報生成部2023は、Q学習の過程において、内部指令の座標値xi、yiを修正する動作(Q学習における行動Aに相当)を行わせるために、行動情報Aを生成して、生成した行動情報Aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態Sに含まれる内部指令の座標値xi、yiに対して行動Aに含まれる、内部指令の座標値xi、yiをインクレメンタルに加算又は減算させる。
そして、行動情報生成部2023は、内部指令の座標値xi、yiの増加又は減少を適用して、状態S´に遷移して、全体の報酬が大きくなった場合、次の行動A´としては、内部指令の座標値xi、yiに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、全体の報酬がより大きくなるような行動A´を選択する方策を取るようにしてもよい。
また、逆に、全体の報酬が小さくなった場合、行動情報生成部2023は、次の行動A´としては、例えば、内部指令の座標値xi、yiに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、全体の報酬がより大きくなるような行動A´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動Aの価値の中で、最も価値Q(S,A)の高い行動A´を選択するグリーディ法や、ある小さな確率εでランダムに行動A´選択し、それ以外では最も価値Q(S,A)の高い行動A´を選択するεグリーディ法といった公知の方法により、行動A´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報(内部指令の座標値xi、yiの修正情報)Aを指令フィルタ110に対して送信する部分である。内部指令生成部102は、この行動情報に基づいて、現在の状態S、すなわち現在設定されている内部指令の座標値xi、yiを微修正することで、次の状態S´(すなわち修正された、内部指令の座標値xi、yi)に遷移する。
価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態S、行動A毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(S,A)が最大となる動作を内部指令生成部102に行わせるための行動情報A(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報を指令フィルタ110に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、内部指令生成部102の内部指令の座標値xi、yiを修正する情報が含まれる。
内部指令生成部102は、この行動情報に基づいて内部指令の座標値xi、yiを修正する。
機械学習装置200は、以上の動作で、内部指令生成部102の座標値xi、yiの最適化を行い、加工精度を向上し、加工時間を短縮するように動作することができる。
加工時間を短縮できる効果について図6及び図7を用いて以下に説明する。
図6は2つのブロックを有する指令に基づく加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。図7は5つのブロックを有する内部指令に基づく、補正された加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。
2つのブロックを有する指令に基づく加工経路では、図6に示すように、X軸の速度が減速を開始する時刻にY軸の速度が加速を開始する。一方、5つのブロックを有する内部指令に基づく、補正された加工経路では、図7に示すように、X軸の速度が減速を開始する時刻前からY軸の速度が加速され、X軸の速度が減速を開始する時刻ではY軸は既に加速を完了しているため、加工時間を短縮することができる。
以上、数値制御装置100及び機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、数値制御装置100及び機械学習装置200は、CPU(Central Processing Unit)等の演算処理装置を備える。また、数値制御装置100及び機械学習装置200は、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、数値制御装置100及び機械学習装置200において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
なお、数値制御装置100は機械学習装置200を含んでもよく、この場合、CPU(Central Processing Unit)等の演算処理装置、補助記憶装置及び主記憶装置は共用され、数値制御装置100及び機械学習装置200に対してそれぞれ設ける必要はなくなる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図8、図9及び図10のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置200の動作について説明をする。図8は本実施形態におけるQ学習時の機械学習装置200の動作を示すフローチャート、図9は図8のステップS14内での加工精度に基づく報酬の算出方法を示すフローチャート、図10は図8のステップS14内での加工時間に基づく報酬の算出方法の一部を示すフローチャートである。
まず、図8のステップS11において、状態情報取得部201が数値制御装置100から最初の状態情報を取得する。取得した状態情報は、価値関数更新部2022及び行動情報生成部2023に対して出力される。上述したように、この状態情報は、Q学習における状態Sに相当する情報であり、ステップS11時点での、加工プログラムの指令、数値制御装置100で生成された内部指令、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値が含まれる。内部指令の5つのブロックで設定された送り速度、及び各軸の時定数は予め取得され、状態情報Sの一部として記憶されている。
なお、最初にQ学習を開始する時点での内部指令の座標値xi、yiは、予め数値制御装置100の製造者又はユーザが生成するようにする。本実施形態では、製造者等が作成した内部指令の座標値xi、yiの初期設定値を、強化学習により最適なものに調整する。
ステップS12において、行動情報生成部2023は新たな行動情報Aを生成し、生成した新たな行動情報Aを、行動情報出力部203を介して数値制御装置100の内部指令生成部102に対して出力する。行動情報を受信した内部指令生成部102は、受信した行動情報に基づいて現在の状態Sに係る内部指令の座標値x、yを修正して状態S´とし、数値制御装置100は修正された状態S´により、モータ301、302を駆動する。
ステップS13において、状態情報取得部201は、数値制御装置100から取得した新たな状態S´に相当する状態情報を取得する。ここで、新たな状態情報には、状態S´に係る加工プログラムの指令、数値制御装置100で生成された内部指令、加減速制御部104から出力される加速度、及び加工プログラムを実行することで取得される、モータ301、302から出力される位置検出値が含まれる。状態S´に係る、加工プログラムの指令経路の位置と、位置検出値により得られる、補正した実際の加工経路(例えば図3の補正した加工経路)の位置との差rの積分(加工精度)、及び位置検出値から算出される、補正した実際の加工経路での加工時間とは判定情報となる。状態情報取得部201は学習部202に対して取得した状態情報を出力する。
ステップS14において、報酬出力部2021は入力された判定情報、すなわち加工精と加工時間とに基づいて報酬を算出する。ステップS14は加工精度に基づいて報酬を算出するステップS14Aと、加工時間に基づいて報酬を算出するステップS14Bと、ステップS14Aで求めた報酬と、ステップS14Bで求めた報酬とに基づいて全体の報酬を算出するステップS14Cとを含む。なお、ここでは、数式2に示した評価関数を用いて報酬を算出する例について説明したが、数式3に示した評価関数を用いて報酬を算出してもよい。
前述したように、報酬出力部2021は、加工精度に基づいて報酬を算出するステップ14Aの前に、補正後の内回り量を求め、この補正後の内回り量が、図4に示す、予め定めた許容誤差範囲内かどうかを判断し、補正後の内回り量が予め定めた許容誤差範囲内であればステップS14Aに移り、補正後の内回り量が許容誤差範囲を超えていれば、ステップS12に戻るようにしてもよい。
加工精度に基づいて報酬を算出するステップS14Aにおいて、まず、報酬出力部2021は、ステップS141で、評価関数値fが閾値(既に説明した第1の閾値)以上かどうかを判断する。評価関数値fが閾値以上の場合(YESの場合)は、加工精度が許容範囲外として、ステップ142で報酬を負の第2の値とし、ステップS12に戻る。この負の第2の値は後述する第1の負の値よりも絶対値が大きく、学習により選択されない値、例えば、負の無限大とする。なお、ステップS141及びS142は行われなくともよい。
ステップS141で、評価関数値fが閾値未満の場合(NOの場合)は、報酬出力部2021は、ステップS143で、状態S’での評価関数値f(S’)と状態Sでの評価関数値f(S)とを比較し、評価関数値f(S’)が評価関数値f(S)より大きいか、小さいか、又は同じどうかを判断する。
f(S’)>f(S)である場合は、ステップS144で報酬を負の第1の値とする。f(S’)=f(S)である場合は、ステップS145で報酬をゼロとする。f(S’)<f(S)である場合は、ステップS146で報酬を正の第1の値とする。
次に加工時間に基づいて報酬を算出するステップS14Bにおいて、報酬出力部2021は、ステップS147で、状態S´に係る加工処理を行うために要した加工時間T(S´)と状態Sに係る加工処理を行うために要した加工時間T(S)とを比較し、加工時間T(S’)が加工時間T(S)より大きいか、小さいか、又は同じどうかを判断する。
T(S´)>T(S)の場合は、ステップS148で報酬を第2の正の値とする。T(S´)=T(S)の場合は、ステップS149で報酬を第2の正の値より大きい第3の正の値とする。T(S´)<値T(S)の場合は、ステップS150で報酬を第3の正の値より大きい第4の正の値とする。
全体の報酬を算出するステップS14Cは、加工精度に基づく報酬と加工時間に基づく報酬とを、例えば、加算したり、重み付け加算したり、平均値を求めたりすることで、全体の報酬を算出するステップである。
ステップS14が終了すると、ステップS15において、全体の報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204が記憶している価値関数Qを更新する。次に、ステップS16において、学習部202は学習を継続するかどうかを判断する。学習を継続するかどうかの判断は、例えば、最大試行回数に達したかどうか、所定時間を経過したかどうかにより判断することができる。学習を継続する場合は、ステップS12に戻る。ステップS12からステップS16までの処理は学習が終了するまで繰り返し行われる。
なお、ステップS15はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図8、図9及び図10を参照して説明した動作により、本実施形態では、加工精度を向上し、加工時間を短縮するための行動情報を生成するための価値関数Qを生成することができる、という効果を奏する。
次に、図11のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部205は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置100の内部指令生成部102に対して出力する。
以上のように、数値制御装置100が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、内部指令を生成することにより、工作機械は、ワークの加工精度を向上させつつ、加工時間をより短くなるように動作することができる、という効果を奏する。
上記のモータ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
数値制御システムの構成は図1の構成以外にも以下の構成がある。
<機械学習装置がネットワークを介して数値制御装置の外部に設けられた変形例>
図12は数値制御システムの他の構成例を示すブロック図である。図12に示す数値制御システム10Aが、図1に示した数値制御システム10と異なる点は、n(nは2以上の自然数)個の数値制御装置100A-1~100A-nがネットワーク400を介して機械学習装置200A-1~200A-nが接続されていることである。図12では、モータ301、302は省略されているが、モータ301、302は数値制御装置100A-1~100A-nのそれぞれに対して接続されている。機械学習装置200A-1~200A-nは図5に示した機械学習装置200と同じ構成を有している。
ここで、数値制御装置100A-1と、機械学習装置200A-1とは1対1の組とされて、通信可能に接続されている。数値制御装置100A-2~100A-nと、機械学習装置200A-2~200A-nについても数値制御装置100A-1と機械学習装置200A-1と同様に接続される。図12では、数値制御装置100A-1~100A-nと、機械学習装置200A-1~200A-nとのn個の組は、ネットワーク400を介して接続されているが、数値制御装置100A-1~100A-nと、機械学習装置200A-1~200A-nとのn個の組は、それぞれの組の数値制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これら数値制御装置100A-1~100A-nと機械学習装置200A-1~200A-nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
<システム構成の自由度>
上述した実施形態では、数値制御装置100A-1~100A-nと、機械学習装置200A-1~200A-nとはそれぞれ1対1の組とされて通信可能に接続されているが、例えば1台の機械学習装置が複数の数値制御装置とネットワーク400を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、1台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、1台の機械学習装置の各機能を実現してもよい。
また、n台の同じ型名、同一仕様、又は同一シリーズの数値制御装置100A-1~100A-nとそれぞれ対応するn個の機械学習装置200A-1~200A-nがあった場合に、各機械学習装置200A-1~200A-nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
(1)本開示の一態様は、加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置である。
この機械学習装置によれば、内回り量を削減するとともに加工時間を短縮することができる。
(2) 前記加工時間は前記位置情報を用いてカウントされる上記(1)に記載の機械学習装置。
この機械学習装置によれば、数値制御装置に加工時間をカウントする機能を設ける必要がなくなる。
(3) 前記価値関数更新手段により更新された価値関数に基づいて、前記m個以上のブロックの各ブロックの座標値を生成して出力する最適化行動情報出力手段を備えた上記(1)又は(2)に記載の機械学習装置。
(4) 上記(1)から(3)のいずれかに記載の機械学習装置と、該機械学習装置によって、前記m個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システム。
この数値制御システムによれば、内回り量を削減するとともに加工時間を短縮することができる。
(5) 本開示の他の一態様は、加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
機械学習方法である。
この機械学習方法によれば、内回り量を削減するとともに加工時間を短縮することができる。
10、10A 数値制御システム
100、100A-1~100A-n 数値制御装置
101 指令解析部
102 内部指令生成部
103 補間部
104 加減速制御部
105 X軸サーボ制御部
106 Y軸サーボ制御部
200 機械学習装置
200A-1~200A-n 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
400 ネットワーク

Claims (5)

  1. 加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
    前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
    前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
    前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記加工時間は前記位置情報を用いてカウントされる請求項1に記載の機械学習装置。
  3. 前記価値関数更新手段により更新された価値関数に基づいて、前記m個以上のブロックの各ブロックの座標値を生成して出力する最適化行動情報出力手段を備えた請求項1又は2に記載の機械学習装置。
  4. 請求項1から3のいずれか1項に記載の機械学習装置と、該機械学習装置によって、前記m個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システム。
  5. 加工プログラムを解析し、該加工プログラムに2個のブロックからなるコーナー部を含む第1の指令が含まれる場合に、該2個のブロックを該2個よりも多いm個(mは自然数)以上のブロックに替えた第2の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
    前記第1の指令、前記m個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
    前記状態情報に含まれる前記m個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
    前記状態情報に含まれる前記第1の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
    機械学習方法。
JP2019084477A 2019-04-25 2019-04-25 機械学習装置、数値制御システム及び機械学習方法 Active JP7010877B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019084477A JP7010877B2 (ja) 2019-04-25 2019-04-25 機械学習装置、数値制御システム及び機械学習方法
US16/828,021 US11640557B2 (en) 2019-04-25 2020-03-24 Machine learning device, numerical control system, and machine learning method
DE102020204854.1A DE102020204854A1 (de) 2019-04-25 2020-04-16 Vorrichtung für maschinelles Lernen, numerisches Steuersystem undVerfahren für maschinelles Lernen
CN202010323648.8A CN111857052B (zh) 2019-04-25 2020-04-22 机器学习装置、数值控制系统以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019084477A JP7010877B2 (ja) 2019-04-25 2019-04-25 機械学習装置、数値制御システム及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2020181403A JP2020181403A (ja) 2020-11-05
JP7010877B2 true JP7010877B2 (ja) 2022-01-26

Family

ID=72839760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019084477A Active JP7010877B2 (ja) 2019-04-25 2019-04-25 機械学習装置、数値制御システム及び機械学習方法

Country Status (4)

Country Link
US (1) US11640557B2 (ja)
JP (1) JP7010877B2 (ja)
CN (1) CN111857052B (ja)
DE (1) DE102020204854A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
JP6564432B2 (ja) * 2017-08-29 2019-08-21 ファナック株式会社 機械学習装置、制御システム、制御装置、及び機械学習方法
WO2021044491A1 (ja) * 2019-09-02 2021-03-11 ヤマザキマザック株式会社 制御装置、工作機械、算出方法及びプログラム
JP6903255B1 (ja) * 2021-01-08 2021-07-14 三菱電機株式会社 加工プログラム修正装置、数値制御装置、加工プログラム修正方法および機械学習装置
CN113905606B (zh) * 2021-09-13 2022-09-30 中国地质大学(武汉) 基于深度强化学习的贴片机贴装调度模型训练方法
CN114690707B (zh) * 2021-12-01 2023-08-18 南京工业大学 一种基于改进bp神经网络的数控成形磨齿机直线轴几何综合误差辨识方法
CN114755974B (zh) * 2022-04-19 2022-12-02 中科航迈数控软件(深圳)有限公司 复杂结构件加工路径优化方法、装置、终端及存储介质
JP7355952B1 (ja) 2022-08-23 2023-10-03 ファナック株式会社 制御装置及びコンピュータ読み取り可能な記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5890208B2 (ja) 2012-03-14 2016-03-22 日本放送協会 パケット送信装置、パケット受信装置及びパケット伝送システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5890208A (ja) * 1981-11-25 1983-05-28 Yaskawa Electric Mfg Co Ltd 自動機械におけるptp制御の軌道補正方式
JP2746170B2 (ja) 1995-01-27 1998-04-28 日本電気株式会社 数値制御データ作成装置
JPH1148176A (ja) * 1997-08-08 1999-02-23 Yaskawa Electric Corp ロボット位置教示装置
JP5734270B2 (ja) 2012-12-21 2015-06-17 ファナック株式会社 コーナ角度に応じて自動的に加工経路の補正を行うワイヤ放電加工機
JP6169655B2 (ja) 2015-07-30 2017-07-26 ファナック株式会社 工作機械、シミュレーション装置、及び機械学習器
JP2017030067A (ja) * 2015-07-30 2017-02-09 ファナック株式会社 加工時間測定機能とオンマシン測定機能を有する制御装置付き加工装置
JP6219897B2 (ja) 2015-09-28 2017-10-25 ファナック株式会社 最適な加減速を生成する工作機械
JP6548830B2 (ja) * 2016-09-02 2019-07-24 三菱電機株式会社 指令値生成装置
JP6453919B2 (ja) 2017-01-26 2019-01-16 ファナック株式会社 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6490127B2 (ja) * 2017-03-15 2019-03-27 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6499720B2 (ja) * 2017-06-22 2019-04-10 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6608879B2 (ja) * 2017-07-21 2019-11-20 ファナック株式会社 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法
JP6564432B2 (ja) * 2017-08-29 2019-08-21 ファナック株式会社 機械学習装置、制御システム、制御装置、及び機械学習方法
JP6740199B2 (ja) * 2017-10-30 2020-08-12 ファナック株式会社 数値制御装置、cnc工作機械、数値制御方法及び数値制御用プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5890208B2 (ja) 2012-03-14 2016-03-22 日本放送協会 パケット送信装置、パケット受信装置及びパケット伝送システム

Also Published As

Publication number Publication date
JP2020181403A (ja) 2020-11-05
CN111857052A (zh) 2020-10-30
US20200342356A1 (en) 2020-10-29
US11640557B2 (en) 2023-05-02
DE102020204854A1 (de) 2020-10-29
CN111857052B (zh) 2024-03-22
DE102020204854A8 (de) 2020-12-10

Similar Documents

Publication Publication Date Title
JP7010877B2 (ja) 機械学習装置、数値制御システム及び機械学習方法
US10921774B2 (en) Machine learning devices and methods for optimizing the speed and accuracy of thread mill, inner diameter, outer shape, and surface machine tools
US10747193B2 (en) Machine learning apparatus, servo control apparatus, servo control system, and machine learning method
JP6490127B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6453919B2 (ja) 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6474449B2 (ja) 調整装置及び調整方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6453921B2 (ja) 学習モデル構築装置、及び制御情報最適化装置
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
JP2018077778A (ja) 数値制御装置
US11914333B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP7175403B2 (ja) 加工プログラム変換装置、数値制御装置および加工プログラムの変換方法
JP6806746B2 (ja) モータ制御装置
JP2020134960A (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP7166488B1 (ja) 数値制御装置、加工システム、数値制御方法および加工方法
JP6836540B2 (ja) 情報処理装置及び情報処理方法
WO2021187268A1 (ja) 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220113

R150 Certificate of patent or registration of utility model

Ref document number: 7010877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150