DE102019204861A1 - Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren - Google Patents

Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren Download PDF

Info

Publication number
DE102019204861A1
DE102019204861A1 DE102019204861.7A DE102019204861A DE102019204861A1 DE 102019204861 A1 DE102019204861 A1 DE 102019204861A1 DE 102019204861 A DE102019204861 A DE 102019204861A DE 102019204861 A1 DE102019204861 A1 DE 102019204861A1
Authority
DE
Germany
Prior art keywords
machine learning
compensation
value
feedback loop
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102019204861.7A
Other languages
English (en)
Other versions
DE102019204861B4 (de
Inventor
Shougo SHINODA
Ryoutarou TSUNEKI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of DE102019204861A1 publication Critical patent/DE102019204861A1/de
Application granted granted Critical
Publication of DE102019204861B4 publication Critical patent/DE102019204861B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
    • G05B19/4063Monitoring general control system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34082Learning, online reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42063Position and speed and current and force, moment, torque
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42128Servo characteristics, drive parameters, during test move
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42152Learn, self, auto tuning, calibrating, environment adaptation, repetition

Abstract

Es ist eine Aufgabe der vorliegenden Erfindung zu verhindern, dass ein Kompensationswert maschinell erlernt wird, der den Betrieb instabil macht, auch wenn ein Betrieb einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine instabil wird. Es wird eine Maschinenlernvorrichtung zum Durchführen von maschinellem Lernen im Zusammenhang mit der Optimierung eines Kompensationswertes einer Kompensationserzeugungseinheit in Bezug auf eine Servo-Steuervorrichtung zum Steuern eines Servomotors zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine bereitgestellt, die mindestens eine Rückkopplungsschleife, eine Kompensationserzeugungseinheit zum Erzeugen eines Kompensationswertes, der auf die Rückkopplungsschleife anzuwenden ist, und eine Anomalie-Erfassungseinheit zum Erfassen eines anormalen Betriebs des Servomotors umfasst, wobei während eines Maschinenlernvorgangs, wenn die Anomalie-Erfassungseinheit eine Anomalie erkennt, die Kompensation der Kompensationsgenerationseinheit gestoppt wird und die Maschinenlernvorrichtung die Optimierung des von der Kompensationsgenerationseinheit erzeugten Kompensationswertes fortsetzt.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gegenstand der Erfindung
  • Die vorliegende Erfindung betrifft eine Maschinenlernvorrichtung, die ein maschinelles Lernen im Zusammenhang mit der Optimierung eines Kompensationswertes einer Kompensationserzeugungseinheit in Bezug auf eine Servo-Steuervorrichtung mit mindestens einer Rückkopplungsschleife und einer Kompensationserzeugungseinheit, die eine Kompensation erzeugt, die auf die Rückkopplungsschleife anzuwenden ist, durchführt, eine Steuervorrichtung, die die Maschinenlernvorrichtung umfasst und ein Maschinenlernverfahren.
  • Stand der Technik
  • Eine Servo-Steuervorrichtung, die eine Rückkopplungsschleife umfasst und eine Kompensation auf die Rückkopplungsschleife anwendet, ist beispielsweise in Patentdokument 1 offenbart.
  • Patentdokument 1 offenbart eine numerische Steuerung, die einen Arbeitsaufwand aufgrund maschineller Bearbeitung verringert, bis ein Positionsfehler auf der Grundlage einer Lernsteuerung konvergiert, und die eine automatische Speicherung von Kompensationsdaten sowie die Durchführung der eigentlichen Bearbeitung ermöglicht. Insbesondere umfasst die numerische Steuerung eine Lernsteuereinheit, die eine Positions-Rückkopplungsschleife umfasst, in der ein Positionsfehler erzeugt wird, und die Kompensationsdaten auf der Grundlage eines Positionsfehlers im gleichen Betriebsmuster erzeugt und speichert und den Positionsfehler während der Ausführung des gleichen Betriebsmusters auf der Grundlage der Kompensationsdaten kompensiert. Die numerische Steuerung verschiebt ein Werkzeug und ein Werkstück von einer von einem Programm angewiesenen Position zu einer Position, an der das Werkzeug und das Werkstück einander nicht stören und wiederholt automatisch einen Leerlaufvorgang mit dem gleichen Betriebsmuster mit einer bestimmten Häufigkeit oder bis der Positionsfehler gleich oder kleiner als ein vorgegebener Wert ist, um die Kompensationsdaten zu erzeugen. Nach der Erstellung der Kompensationsdaten speichert die numerische Steuerung automatisch die Kompensationsdaten, beendet die Verschiebung, sodass das Werkzeug und das Werkstück an die angewiesene Position zurückkehren, an der das Werkzeug und das Werkstück sich gegenseitig beeinträchtigen, kompensiert auf der Grundlage der erzeugten Kompensationsdaten den Positionsfehler, führt das gleiche Betriebsmuster aus und führt eine maschinelle Bearbeitung durch.
  • Patentdokument 1: Ungeprüfte japanische Patentanmeldung, Veröffentlichungs-Nr. 2006-215732
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • In einer Servo-Steuervorrichtung, die eine Rückkopplungsschleife aufweist und eine Kompensation erzeugt, die auf die Rückkopplungsschleife auf der Grundlage eines Positionsfehlers oder dergleichen anzuwenden ist, kann, wenn ein erzeugter Kompensationswert nicht in einem angemessenen Bereich liegt und der Positionsfehler zunimmt, der Betrieb einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine, die von der Servo-Steuervorrichtung angetrieben werden, instabil werden und die Werkzeugmaschine oder dergleichen aufgrund einer Warnung angehalten oder abgeschaltet werden. Wenn beispielsweise ein Kompensationswert gelernt wird, während anstatt eines Leerlaufvorgangs ein tatsächlicher Betrieb einer Werkzeugmaschine durchgeführt wird, und der Kompensationswert nicht in einem geeigneten Bereich liegt, können Vibrationen an der Maschine oder der Bearbeitungsposition auftreten, die ein effektives Lernen behindern, oder die Werkzeugmaschine oder dergleichen kann durch eine Warnung gestoppt und abgeschaltet werden, wodurch das Lernen unterbrochen wird. In diesem Zusammenhang werden bei der in Patentdokument 1 offenbarten Lernsteuerung Kompensationsdaten durch Wiederholen eines Leerlaufvorgangs erzeugt; daher besteht während der Lernsteuerung auf der Grundlage des Leerlaufbetriebs keine Möglichkeit, dass Vibrationen an einer Maschine oder der Bearbeitungsposition auftreten, die ein effektives Lernen behindern, oder dass die Werkzeugmaschine oder dergleichen aufgrund einer Warnung angehalten oder abgeschaltet wird, um das Lernen zu unterbrechen. Andererseits, wenn die auf die Rückkopplungsschleife anzuwendende Kompensation mit einer später beschriebenen Übertragungsfunktion höherer Ordnung erzeugt wird, kann ein Verfahren verwendet werden, bei dem eine Maschinenlernvorrichtung die Koeffizienten der Übertragungsfunktion durch maschinelles Lernen berechnet, während die Werkzeugmaschine tatsächlich bedient wird. Als Beispiel eines solchen Lernverfahrens kann ein Maschinenlernverfahren zum Erlernen der Koeffizienten einer Übertragungsfunktion gemäß einem verstärkenden Lernen verwendet werden. Das verstärkende Lernen ist eine Form des sogenannten unbeaufsichtigten Lernens, bei dem, wenn ein Agent den Zustand der Umgebung beobachtet und eine bestimmte Aktion auswählt, sich die Umgebung aufgrund der Aktion ändert, eine bestimmte Belohnung entsprechend der Veränderung der Umgebung angeboten wird und der Agent eine bessere Auswahl (Entscheidung) der Aktion lernt. Wenn die Koeffizienten der Übertragungsfunktion durch ein solches verstärkendes Lernen maschinell erlernt werden und ein Zustand der Umgebung ein Positionsfehler ist, besteht bei Auswahl eines Koeffizienten, der den Positionsfehler erhöht, die Möglichkeit, dass Vibrationen am Motor oder der Bearbeitungsstelle auftreten, wodurch ein effektives Lernen verhindert wird, oder die Werkzeugmaschine usw. wird durch eine Warnung gestoppt oder abgeschaltet, wodurch das Lernen unterbrochen wird. Daher besteht der Bedarf an einer Maschinenlernvorrichtung, die in der Lage, das maschinelle Lernen fortzusetzen, wenn die Maschinenlernvorrichtung maschinell Kompensationswerte lernt, während der tatsächlichen Bedienung einer Werkzeugmaschine, sodass, selbst im Falle einer Auswahl eines unangemessenen Kompensationswertes Situationen verhindert werden, in denen Vibrationen am Motor oder einer Bearbeitungsstelle auftreten, wodurch ein effizientes Lernen verhindert wird, oder in denen eine Werkzeugmaschine oder dergleichen aufgrund einer Warnung gestoppt oder abgeschaltet wird, wodurch das Lernen unterbrochen wird, sowie an einer Steuervorrichtung, die die Maschinenlernvorrichtung umfasst und einem Maschinenlernverfahren.
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine Maschinenlernvorrichtung in Bezug auf eine Servo-Steuervorrichtung, die mindestens eine Rückkopplungsschleife und eine Kompensationserzeugungseinheit umfasst, die eine Kompensation erzeugt, die auf die Rückkopplungsschleife anzuwenden ist, die verwendet wird, wenn eine Rechengleichung eines Kompensationswertes der Kompensationserzeugungseinheit maschinell erlernt wird, während tatsächlich eine Werkzeugmaschine, ein Roboter oder eine Industriemaschine bedient wird, wobei die Maschinenlernvorrichtung in der Lage ist, das maschinelle Lernen fortzusetzen, sodass selbst im Falle einer Auswahl eines unangemessenen Kompensationswertes Situationen verhindert werden, in denen Vibrationen an einem Motor oder an einer Bearbeitungsstelle auftreten, wodurch effektives Lernen behindert wird, oder in denen eine Werkzeugmaschine oder dergleichen aufgrund einer Warnung gestoppt oder abgeschaltet wird, wodurch das Lernen unterbrochen wird, sowie eine Steuervorrichtung, die die Maschinenlernvorrichtung umfasst, und ein Maschinenlernverfahren bereitzustellen.
    1. (1) Eine Maschinenlernvorrichtung gemäß der vorliegenden Erfindung ist eine Maschinenlernvorrichtung (wie beispielsweise eine später beschriebene Maschinenlernvorrichtung 200) zum Durchführen von maschinellem Lernen im Zusammenhang mit der Optimierung eines Kompensationswertes einer Kompensationserzeugungseinheit mit Bezug auf eine Servo-Steuervorrichtung (wie beispielsweise eine später beschriebene Servo-Steuervorrichtung 100, 100A, 100B oder 100C) zum Steuern eines Servomotors (wie beispielsweise einen später beschriebenen Servomotor 106) zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine, die wenigstens eine Rückkopplungsschleife, eine Kompensationseinheit (wie beispielsweise eine Positionsvorsteuerungs-Verarbeitungseinheit 116, eine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 oder eine Kompensationserzeugungseinheit 110, 122, die später beschrieben werden) zum Erzeugen eines Kompensationswertes, der auf die Rückkopplungsschleife anzuwenden ist, und eine Anomalie-Erfassungseinheit (wie beispielsweise eine später beschriebene Anomalie-Erfassungseinheit 109, 124) zum Erfassen eines anomalen Betriebs des Servomotors umfasst, wobei während eines Maschinenlernvorgangs, wenn die Anomalie-Erfassungseinheit eine Anomalie erkennt, die Kompensation der Kompensationserzeugungseinheit gestoppt wird und die Maschinenlernvorrichtung die Optimierung des von der Kompensationserzeugungseinheit erzeugten Kompensationswertes fortsetzt.
    2. (2) In der Maschinenlernvorrichtung gemäß Punkt (1) kann die Servo-Steuervorrichtung einen Schalter (wie beispielsweise einen später beschriebenen Schalter 105, 114, 126, 128, 130, 132) umfassen, der zwischen der Rückkopplungsschleife und dem Inneren der Kompensationserzeugungseinheit oder einer hinteren Stufe der Kompensationserzeugungseinheit vorgesehen ist, und wenn die Anomalie-Erfassungseinheit einen anomalen Betrieb erkennt, schaltet die Anomalie-Erfassungseinheit den Schalter aus und benachrichtigt die Maschinenlernvorrichtung, dass die Kompensation der Rückkopplungsschleife gestoppt wird, und nach Erhalt der Benachrichtigung, dass die Kompensation der Rückkopplungsschleife gestoppt ist, wendet die Maschinenlernvorrichtung den Kompensationswert auf das Lernen an.
    3. (3) In der Maschinenlernvorrichtung gemäß Punkt (1) oder (2) kann verstärkendes Lernen als maschinelles Lernen durchgeführt werden, und wenn die Benachrichtigung über den Kompensationsstopp von der Anomalie-Erfassungseinheit empfangen wird, wird eine Belohnung angeboten, sodass der Kompensationswert, bei dem ein anomaler Betrieb auftritt, nicht ausgewählt wird.
    4. (4) In der Maschinenlernvorrichtung gemäß Punkt (3) kann eine Wertfunktion auf der Grundlage der Belohnung aktualisiert werden, und der optimale Kompensationswert oder Einstellinformationen von Kompensationsparametern auf der Grundlage der aktualisierten Wertfunktion erzeugt und an die Kompensationserzeugungseinheit ausgegeben werden.
    5. (5) In der Maschinenlernvorrichtung gemäß einem der Punkte (1) bis (4) kann die Anomalie-Erfassungseinheit eine Anomalie erfassen, wenn ein Positionsfehler oder ein Drehmomentbefehl oder beides gleich oder größer als ein vorgegebener Schwellenwert ist.
    6. (6) In der Maschinenlernvorrichtung gemäß einem der Punkte (1) bis (5) kann die Servo-Steuervorrichtung ferner eine Informationseinheit (wie beispielsweise eine später beschriebene Informationseinheit 117, 125) umfassen, um über die Erfassung einer Anomalie zu informieren, wenn eine Anomalie von der Anomalie-Erfassungseinheit erfasst wird.
    7. (7) In der Maschinenlernvorrichtung gemäß einem der Punkte (2) bis (6) kann die Servo-Steuervorrichtung eine Tiefpassfilter (wie beispielsweise einen später beschriebenen Tiefpassfilter 127, 129, 131 oder 133) umfassen, der an einer hinteren Stufe des Schalters vorgesehen ist, und den Kompensationswert beim Schalten des Schalters durch den Tiefpassfilter leiten.
    8. (8) In der Maschinenlernvorrichtung gemäß einem der Punkte (2) bis (6) kann die Rückkopplungsschleife eine Geschwindigkeits-Regeleinheit (wie beispielsweise eine später beschriebene Geschwindigkeits-Regeleinheit 104) mit einem Integrator (wie beispielsweise einen später beschriebenen Integrator 1041) umfassen, der einen Geschwindigkeitsfehler integriert, wobei der Integrator beim Schalten des Schalters neu beschrieben werden kann.
    9. (9) In der Maschinenlernvorrichtung gemäß einem der Punkte (1) bis (8) kann die wenigstens eine Rückkopplungsschleife eine Positionsrückkopplungsschleife und/oder eine Geschwindigkeitsrückkopplungsschleife umfassen, und die Kompensationserzeugungseinheit kann eine Positionsvorsteuerungs-Verarbeitungseinheit (wie beispielsweise eine später beschriebene Positionsvorsteuerungs-Verarbeitungseinheit 116) zum Hinzufügen einer Positionsvorsteuerungsbedingung zu der Positionsrückkopplungsschleife und/oder eine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit (wie beispielsweise eine später beschrieben Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113) zum Hinzufügen einer Geschwindigkeitsvorsteuerungsbedingung zu der Geschwindigkeitsrückkopplungsschleife umfassen.
    10. (10) In der Maschinenlernvorrichtung gemäß einem der Punkte (1) bis (8) kann die wenigstens eine Rückkopplungsschleife eine Positions-Rückkopplungsschleife sein, und die Kompensationserzeugungseinheit eine Kompensation während des Umkehrens des Servomotors erzeugen.
    11. (11) Eine Steuervorrichtung gemäß der vorliegenden Erfindung ist eine Steuervorrichtung, umfassend: die Maschinenlernvorrichtung (wie beispielsweise eine später beschriebene Maschinenlernvorrichtung 200) gemäß einem der Punkte (1) bis (10); und eine Servo-Steuervorrichtung (wie beispielsweise eine später beschriebene Servo-Steuervorrichtung 100, 100A, 100B oder 100C) zum Steuern eines Servomotors (wie beispielsweise einen später beschriebenen Servomotor 106 zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine, die mindestens eine Rückkopplungsschleife, eine Kompensationserzeugungseinheit (wie beispielsweise eine später beschriebene Positionsvorsteuerungs-Verarbeitungseinheit 116, eine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 oder eine Kompensationserzeugungseinheit 110) zum Erzeugen einer Kompensation, die auf die Rückkopplungsschleife anzuwenden ist, und eine Anomalie-Erfassungseinheit (wie beispielsweise eine später beschriebene Anomalie-Erfassungseinheit 109, 124) zum Erfassen eines anomalen Betriebs des Servomotors umfasst.
    12. (12) In der Steuervorrichtung gemäß Punkt (11) kann die Maschinenlernvorrichtung in der Servo-Steuervorrichtung enthalten sein.
    13. (13) Das Maschinenlernverfahren gemäß der vorliegenden Erfindung ist ein Maschinenlernverfahren einer Maschinenlernvorrichtung (wie beispielsweise eine später beschriebene Maschinenlernvorrichtung 200) zum Durchführen von maschinellem Lernen im Zusammenhang mit Optimierung eines Kompensationswertes, der auf mindestens eine Rückkopplungsschleife in Bezug auf eine Servo-Steuervorrichtung (wie beispielsweise eine später beschriebene Servo-Steuervorrichtung 100, 100A, 100B oder 100C) anzuwenden ist, zum Steuern eines Servomotors (wie beispielsweise eines später beschriebenen Servomotors 106) zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine und zum Erzeugen einer Kompensation, die auf die mindestens eine Rückkopplungsschleife anzuwenden ist, und zum Erfassen eines anomalen Betriebs des Servomotors, wobei während eines Maschinenlernvorgangs, wenn die Servo-Steuervorrichtung eine Anomalie erfasst, die Kompensation, die auf die mindestens eine Rückkopplungsschleife anzuwenden ist, gestoppt wird, und die Maschinenlernvorrichtung die Optimierung des Kompensationswertes fortsetzt.
  • Gemäß der vorliegenden Erfindung ist es in Bezug auf eine Servo-Steuervorrichtung mit mindestens einer Rückkopplungsschleife und einer Kompensationserzeugungseinheit, die eine auf die Rückkopplungsschleife anzuwendende Kompensation erzeugt, möglich, wenn die Kompensationserzeugungseinheit maschinell gelernt wird, während sie tatsächlich eine Werkzeugmaschine, einen Roboter oder eine Industriemaschine bedient, ein maschinelles Lernen fortzusetzen, sodass, selbst wenn ein unangemessener Kompensationswert berechnet wird, Situationen vermieden werden, in denen Vibrationen an einer Maschine oder einer Bearbeitungsstelle auftreten, wodurch ein effektives Lernen behindert wird, oder in denen eine Werkzeugmaschine oder dergleichen aufgrund einer Warnung angehalten oder abgeschaltet wird, wodurch das Lernen unterbrochen wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt. 2 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Kompensationserzeugungseinheit gemäß der ersten Ausführungsform darstellt. 3 zeigt ein Diagramm zur Beschreibung eines Vorgangs eines Motors, wenn die Bearbeitungsform ein Achteck ist. 4 zeigt ein Diagramm zur Beschreibung des Betriebs eines Motors, wenn eine Bearbeitungsform eine Form ist, bei der die Ecken eines Achtecks abwechselnd durch Bögen ersetzt werden. 5 zeigt ein Blockdiagramm, das eine Maschinenlernvorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung darstellt. 6 zeigt ein Flussdiagramm, das einen Ablauf der Maschinenlernvorrichtung gemäß der ersten Ausführungsform darstellt. 7 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung darstellt. 8 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung darstellt. 9 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß der vierten Ausführungsform der vorliegenden Erfindung darstellt. 10 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe einer Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit einer Servo-Steuervorrichtung gemäß einer fünften Ausführungsform der vorliegenden Erfindung darstellt. 11 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe einer Positionsvorsteuerungs-Verarbeitungseinheit einer Servo-Steuervorrichtung gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt. 12 zeigt ein Kennliniendiagramm, das die Änderung des Kompensationswertes durch einen Positionsvorsteuerungsprozess (Position FF) oder einen Geschwindigkeitsvorsteuerungsprozess (Geschwindigkeit FF) in Abhängigkeit des Vorhandenseins eines Filters darstellt. 13 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe eines Doppel-Differenzierers einer Servo-Steuervorrichtung mit einer anderen Konfiguration gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt. 14 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe eines Differenzierers einer Servo-Steuervorrichtung mit einer anderen Konfiguration gemäß der fünften Ausführungsform der vorliegenden darstellt. 15 zeigt ein Kennliniendiagramm, das die Änderung des Kompensationswertes durch einen Positionsvorsteuerungsprozess (Position FF) oder einen Geschwindigkeitsvorsteuerungsprozess (Geschwindigkeit FF) in Abhängigkeit des Vorhandenseins eines Filters in der Servo-Steuervorrichtung mit einer anderen Konfiguration darstellt. 16 zeigt ein Blockdiagramm, das eine Konfiguration einer Geschwindigkeitssteuervorrichtung einer Servo-Steuervorrichtung gemäß einer sechsten Ausführungsform der vorliegenden Erfindung darstellt. 17 zeigt ein Kennliniendiagramm, das die Änderung eines Drehmomentbefehls in Abhängigkeit davon, ob der Integrator neu beschrieben wird oder nicht, darstellt. 18 zeigt ein Blockdiagramm, das eine Steuervorrichtung gemäß einer weiteren Ausführungsform der vorliegenden Erfindung darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • Im Nachfolgenden wird eine Ausführungsform der vorliegenden Erfindung mit Bezug auf die Zeichnungen beschrieben.
  • (Erste Ausführungsform)
  • 1 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung darstellt. Eine Steuervorrichtung 10, die in 1 gezeigt ist, umfasst eine Servo-Steuervorrichtung 100 und eine Maschinenlernvorrichtung 200. Die Servo-Steuervorrichtung 100 ist mit einer numerischen Steuerung (einem CNC-Gerät) 400 verbunden.
  • Zunächst wird die Servo-Steuervorrichtung 100 beschrieben. Die Servo-Steuervorrichtung 100 umfasst einen Subtrahierer 101, eine Positionsregeleinheit 102, einen Addierer/Subtrahierer 103, eine Geschwindigkeitsregeleinheit 104, einen Schalter 105, einen Servomotor 106, einen Integrator 107, eine Positionserfassungsverarbeitungseinheit 108, eine Anomalie-Erfassungseinheit 109, eine Kompensationserzeugungseinheit 110 und eine Informationseinheit 117.
  • Die numerische Steuerung 400 berechnet einen Positionsbefehlswert auf der Grundlage eines Programms zum Betreiben des Servomotors 106. Wenn sich in einer Werkzeugmaschine ein Tisch mit einem darauf montierten Werkstück (eine Arbeit) in einer X-Achsenrichtung und einer Y-Achsenrichtung bewegt, ist die in 1 dargestellte Servo-Steuervorrichtung 100 jeweils in der X-Achsenrichtung und der Y-Achsenrichtung vorgesehen. Wird der Tisch in Richtungen von drei oder mehr Achsen bewegt, ist die Servo-Steuervorrichtung 100 in den jeweiligen axialen Richtungen vorgesehen. Die numerische Steuerung 400 legt eine Zuführrate fest und berechnet einen Positionsbefehl, sodass eine durch ein Bearbeitungsprogramm bestimmte Bearbeitungsform erhalten wird, und gibt den Positionsbefehl an den Subtrahierer 101, die Kompensationserzeugungseinheit 110 und die Maschinenlernvorrichtung 200 aus. Der Positionsbefehl wird gemäß dem eingegebenen Programm und den Befehlen berechnet.
  • Der Subtrahierer 101 empfängt den Positionsbefehl von der numerischen Steuerung 400, berechnet eine Differenz zwischen dem Positionsbefehl und der erfassten, positionsrückgekoppelten Position und gibt die Differenz als Positionsfehler an die Positionsregeleinheit 102, die Anomalie-Erfassungseinheit 109 und die Maschinenlernvorrichtung 200 aus.
  • Die Positionsregeleinheit 102 gibt einen Wert als Geschwindigkeitsbefehl aus, der erhalten wird, indem der von dem Subtrahierer 101 ausgegebene Positionsfehler mit einer Positionsverstärkung Kp des Addierers/Subtrahierers 103 multipliziert wird.
  • Der Addierer/Subtrahierer 103 addiert den Geschwindigkeitsbefehl und einen Kompensationswert, der von der Kompensationserzeugungseinheit 110 über den Schalter 105 eingegeben wird, berechnet eine Differenz zwischen dem hinzugefügten Wert und einem Rückkopplungsgeschwindigkeitserfassungswert und gibt die Differenz an die Geschwindigkeitsregeleinheit 104 als kompensierten Geschwindigkeitsfehler aus.
  • Die Geschwindigkeitsregeleinheit 104 führt eine proportional integrale Verarbeitung (P-Verarbeitung) des kompensierten Geschwindigkeitsfehlers durch und gibt den verarbeiteten Geschwindigkeitsfehler an den Servomotor 106 aus. Insbesondere addiert die Geschwindigkeitsregeleinheit 104 einen Wert, der durch Integrieren des kompensierten Geschwindigkeitsfehlers unter Verwendung eines Integrators und durch Multiplizieren des Integrationswertes mit einer integralen Verstärkung Ki erhalten wird, zu einem Wert, der durch Multiplizieren des kompensierten Geschwindigkeitsfehlers mit einer proportionalen Verstärkung Kv erhalten wird, und gibt den addierten Wert an den Servomotor 106 als Drehmomentbefehl zum Antreiben des Servomotors 106 aus.
  • Der Servomotor 106 kann beispielsweise in einer Werkzeugmaschine, einem Roboter oder einer Industriemaschine enthalten sein. Die Servo-Steuervorrichtung 100 kann zusammen mit dem Servomotor 106 als ein Teil einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine ausgebildet sein.
  • Eine Drehwinkelposition des Servomotors 106 wird von einem Drehgeber erfasst, der als eine Positionserfassungseinheit dient, die dem Servomotor 106 zugeordnet ist, und der Geschwindigkeitserfassungswert wird in den Addierer/Subtrahierer 103 als eine Geschwindigkeitsrückkopplung eingegeben. Die Komponenten, die vom Addierer/Subtrahierer 103 bis zum Servomotor 106 reichen, bilden eine Geschwindigkeitsrückkopplungsschleife.
  • Der Integrator 107 integriert einen Geschwindigkeitserfassungswert, um einen Integrationswert an die Positionserfassungsverarbeitungseinheit 108 auszugeben. Die Positionserfassungsverarbeitungseinheit 108 berechnet einen Positionserfassungswert auf der Grundlage des Integrationswertes. Der Positionserfassungswert wird in den Subtrahierer 101 als Positionsrückkopplung eingegeben. Die Komponenten, die vom Subtrahierer 101 bis zur Positionserfassungsverarbeitungseinheit 108 reichen, bilden eine Positionsrückkopplungsschleife.
  • Wenn der von dem Subtrahierer 101 ausgegebene Positionsfehler gleich oder größer als ein Schwellenwert ist, sendet die Anomalie-Erfassungseinheit 109 ein Anomalie-Erfassungssignal, das als ein Schaltsignal dient, an den Schalter 105, sodass der Schalter 105 abgeschaltet wird (ein nichtleitender Zustand). Danach überträgt die Anomalie-Erfassungseinheit 109 ein Kompensationsstopp-Benachrichtigungssignal, um die Maschinenlernvorrichtung 200 über einen Kompensationsstopp zu benachrichtigen. Ein Bearbeitungsprogramm während des Lernens, das ein Betriebsprogramm ist, das zur Durchführung des maschinellen Lernens betrieben wird, wird durchgeführt, während die Kompensation angehalten ist und bis das Programm beendet ist. Wird das Betriebsprogramm mitten im Betrieb gestoppt, da das Betriebsprogramm im nächsten Betrieb von der Position aus gestartet wird, an der die Maschine gestoppt wurde, kann je nach Maschine ein Prozess zum Zurücksetzen des Betriebsprogramms auf die Startposition erforderlich sein. Andererseits arbeitet das Betriebsprogramm, das zur Durchführung des maschinellen Lernens verwendet wird, kontinuierlich, und ein Vorgang zum Zurückkehren in die Ausgangsposition ist grundsätzlich enthalten. Daher arbeitet das Betriebsprogramm, das zur Durchführung des maschinellen Lernens verwendet wird, während die Kompensation angehalten wird und kehrt zu der Startposition zurück, wenn das Programm beendet ist, und die Maschinenlernvorrichtung 200 kann mit dem nächsten lernen fortfahren. Das Betriebsprogramm, das zur Durchführung des Maschinenlernens betrieben wird, kann mitten im Betrieb angehalten werden, wenn die Kompensation angehalten wird, wobei jedoch in diesem Fall, wie zuvor beschrieben, ein Schritt zum Zurücksetzen der Maschine zur Startposition erforderlich sein. Das Kompensationsstoppbenachrichtigungssignal darf nicht getrennt von dem Anomalie-Erfassungssignal bereitgestellt werden, und es kann das Anomalie-Erfassungssignal verwendet werden. Die Maschinenlernvorrichtung 200 überträgt ein Kompensationswerteinstellungsbenachrichtigungssignal an die Anomalie-Erfassungseinheit 109, um darüber zu benachrichtigen, dass der Kompensationswert der Kompensationserzeugungseinheit 110 auf einen Kompensationswert eingestellt ist, der sich von dem Kompensationswert zum Zeitpunkt der Erfassung einer Anomalie unterscheidet. Nach dem Empfangen des Kompensationswerteinstellbenachrichtigungssignals erkennt die Anomalie-Erfassungseinheit 109, dass ein neuer Kompensationswert, der sich von dem Kompensationswert zum Zeitpunkt des Auftretens der Anomalie unterscheidet, von der Maschinenlernvorrichtung 200 gesucht und eingestellt wurde, und sendet bei Beginn eines neuen Lernvorgangs ein Schaltsignal an den Schalter 105, sodass der Schalter 105 eingeschaltet wird (leitender Zustand). Auf diese Weise, wenn die Anomalie-Erfassungseinheit 109 eine Anomalie zum Ausschalten des Schalters 105 erkennt, da der Kompensationswert nicht an den Addierer/Subtrahierer 103 ausgegeben wird, arbeitet die Servo-Steuervorrichtung 100 nur mit der Positionsrückkopplungsschleife und der Geschwindigkeitsrückkopplungsschleife, und der Betrieb ist stabil.
  • Die Kompensationserzeugungseinheit 110 erzeugt einen Kompensationswert für die Positionsrückkopplungsschleife auf der Grundlage des Positionsfehlers und gibt den Kompensationswert über den Schalter 105 an den Addierer/Subtrahierer 103 aus. Der Kompensationswert ist eine Positionsvorsteuerungsbedingung auf der Grundlage des Positionsbefehls oder ein Kompensationswert zur Unterdrückung von beispielsweise Quadrantenvorsprüngen. Wird der Schalter 105 durch die Anomalie-Erfassungseinheit 109 abgeschaltet, wird der Kompensationswert, der von der Kompensationserzeugungseinheit 110 erzeugt wird, nicht an den Addierer/Subtrahierer 103 ausgegeben.
  • Die Informationseinheit 117 informiert einen Administrator über eine Anomalie bei der Anzeige von Informationen auf einem Flüssigkristallbildschirm, durch Beleuchten einer LED, oder durch Ausgeben von Tönen über einen Lautsprecher, wenn die Anomalie von der Anomalie-Erfassungseinheit 109 erfasst wird. Die Informationseinheit 117 kann eine Kommunikationseinheit sein, die Informationen überträgt, um Informationen über eine Anomalie über ein Netzwerk nach außen abzugeben.
  • 2 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel der Kompensationserzeugungseinheit 110 gemäß der ersten Ausführungsform darstellt. Hierbei wird angenommen, dass die Kompensationserzeugungseinheit 110 eine Einheit zum Erzeugen einer Positionsvorsteuerungsbedingung umfasst, die eine Positionsvorsteuerungsbedingung für einen Geschwindigkeitsbefehl auf der Grundlage eines Positionsbefehls erzeugt.
  • Wie in 2 gezeigt, umfasst die Einheit zum Erzeugen einer Positionsvorsteuerungsbedingung einen Differenzierer 115 und eine Positionsvorsteuerungs-Verarbeitungseinheit 116. Der Differenzierer 115 differenziert den Positionsbefehl und multipliziert das Ergebnis mit einer Konstanten β. Die Positionsvorsteuerungs-Verarbeitungseinheit 116 führt einen Positionsvorsteuerungsschritt, der durch eine Übertragungsfunktion G(s) in der Gleichung 1 (siehe die nachstehende Formel 1) an der Ausgabe des Differenzierers 115 durch. Die Positionsvorsteuerungs-Verarbeitungseinheit 116 gibt das Verarbeitungsergebnis über den Schalter 105 als eine Positionsvorsteuerungsbedingung, die als ein Kompensationswert dient) an den Addierer/Subtrahierer 103 aus. Die Koeffizienten a, und bj (m ≥ i ≥ 0, n ≥ j ≥ 0; m und n sind natürliche Zahlen) in der Gleichung 1 sind Koeffizienten der Übertragungsfunktion G(s) der Positionsvorsteuerungs-Verarbeitungseinheit 116. G ( s ) = b 0 + b 1 s + b 2 s 2 + + b n s n a 0 + a 1 s + a 2 s + + a m s m
    Figure DE102019204861A1_0001
  • Die Maschinenlernvorrichtung 200 sucht nach einem Kompensationswert zur Durchführung von maschinellem Lernen. In der vorliegenden Ausführungsform wird das verstärkende Lernen zwar als Beispiel für maschinelles Lernen beschrieben, aber das maschinelle Lernen beschränkt sich nicht unbedingt auf das verstärkende Lernen. Beim verstärkenden Lernen beobachtet ein Agent (die Maschinenlernvorrichtung 200 in der vorliegenden Ausführungsform) den Zustand der Umgebung und wählt eine bestimmte Aktion aus. Dann ändert sich die Umgebung je nach Aktion. Je nach Veränderung der Umgebung erfolgt eine bestimmte Belohnung, und der Agent lernt, eine bessere Auswahl (Entscheidung) der Aktion zu treffen. In der vorliegenden Ausführungsform ist beispielsweise der vom Subtrahierer 101 ausgegebene Positionsbefehl ein Zustand der Umgebung, und ein Agent wählt den Kompensationswert der Kompensationserzeugungseinheit 110 als Aktionsinformation zur Reduzierung des Positionsfehlers aus. In diesem Beispiel wird das maschinelle Lernen (verstärkendes Lernen) in Bezug auf eine Positionsvorsteuerungsbedingung zum Erzeugen eines Kompensationswertes für den Geschwindigkeitsbefehl auf der Grundlage des Positionsbefehls, der von der Kompensationserzeugungseinheit 110 ausgegeben wird, als Beispiel beschrieben. Die maschinelle Lernvorrichtung 200 führt das maschinelle Lernen (im Folgenden als Lerner bezeichnet) an den Koeffizienten a, und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch, indem ein vorbestimmtes Bearbeitungsprogramm ausgeführt wird (das „Bearbeitungsprogramm während des Lernens“).
  • Hierin ist eine vom Bearbeitungsprogramm während des Lernens bestimmte Bearbeitungsform ein in 3 dargestelltes Achteck und/oder eine Form, bei der die Ecken eines Achtecks abwechselnd durch beispielsweise in 4 dargestellte Bögen ersetzt werden. Dabei wird davon ausgegangenen, dass die maschinelle Lernvorrichtung 200 das Lernen der Koeffizienten der Übertragungsfunktion G(s) durchführt, indem die Vibrationen Veränderung der Drehzahl während der linearen Steuerung an den Positionen A1 und A3 und/oder den Positionen B1 und B3 der Bearbeitungsform, die während des Lernens durch das Bearbeitungsprogramm festgelegt wird, durchführt, um dadurch den Einfluss auf den Positionsfehler zu untersuchen. Die Maschinenlernvorrichtung 200 kann das Lernen der Koeffizienten in Bezug auf eine Übertragungsfunktion zum Berechnen eines Kompensationswertes zur Unterdrückung eines Schubbetriebs (sogenannte „Quadrantenvorsprünge“) durchführen, indem sie Quadrantenvorsprünge auswertet, die beim Umkehren der Drehrichtung an den Positionen A2 und A4 und/oder den Positionen B2 und B4 der Bearbeitungsform auftreten, wodurch der Einfluss auf den Positionsfehler untersucht wird.
  • Vor der Beschreibung der entsprechenden Funktionsblöcke, die in der Maschinenlernvorrichtung 200 enthalten sind, wird zunächst ein grundlegender Mechanismus des verstärkenden Lernens beschrieben. Wie zuvor beschrieben, beobachtet ein Agent (die Maschinenlernvorrichtung 200 in der vorliegenden Ausführungsform) den Zustand der Umgebung und wählt eine bestimmte Aktion aus. Anschließend wird die Umgebung auf der Grundlage der Aktion geändert. Es wird eine bestimmte Belohnung gemäß der Änderung der Umgebung vergeben, wodurch der Agent lernt, eine bessere Auswahl (Entscheidung) der Aktion durchzuführen. Während das beaufsichtigte Lernen eine vollständig richtige Antwort bietet, liefert die Belohnung beim Verstärkungslernen häufig Bruchwerte auf der Grundlage einer Änderung eines Bereichs der Umgebung. Somit lernt der Agent eine Aktion derart auszuwählen, dass zukünftig die gesamte Belohnung maximiert wird.
  • Auf diese Weise wird beim Verstärkungslernen durch Lernen von Maßnahmen bzw. eine Aktion, eine geeignete Aktion auf der Grundlage gegenseitiger Auswirkungen eine Aktion auf die Umgebung, d. h. eine Maßnahme zur Maximierung der in Zukunft zu erzielenden Belohnung, erlernt. Dies bedeutet, dass gemäß der vorliegenden Ausführungsform eine Aktion erhalten wird, die sich auf die Zukunft auswirkt, wie beispielsweise eine Aktion zur Auswahl von Aktionsinformationen zur Verringerung eines Positionsfehlers.
  • Obwohl hier jedes Lernverfahren als das verstärkende Lernen verwendet werden kann, wird in der nachfolgenden Beschreibung Q-Lernen als Beispiel beschrieben, das ein Verfahren des Lernens einer Wertfunktion Q(S,A) zum Auswählen einer Aktion A unter einem bestimmten Zustand S der Umgebung darstellt. Es ist eine Aufgabe des Q-Lernens, eine Aktion A mit der höchsten Wertfunktion Q(S,A) als optimale Aktion unter den Aktionen A auszuwählen, die in einem bestimmten Zustand S durchgeführt werden kann.
  • Zu einem Anfangszeitpunkt, zu dem das Q-Lernen beginnt, ist jedoch der korrekte Wert des Werts Q(S,A) für eine Kombination des Zustands S und der Aktion A überhaupt nicht bekannt. Somit lernt der Agent den korrekten Wert Q(S,A) durch Auswählen verschiedener Aktionen A unter einem bestimmten Zustand S und durch Treffen einer besseren Auswahl einer Aktion auf der Grundlage von Belohnungen, die für die ausgewählten Aktionen A vergeben werden.
  • Da der Agent die gesamte Belohnung maximieren möchte, die zukünftig erhalten wird, zielt das Q-Lernen darauf ab, am Ende eine Beziehung Q(S,A)=E[Σ(γt)rt] zu erhalten. Hier gibt E[] einen erwarteten Wert, t die Zeit, γ einen Parameter, der als Diskontierungsfaktor bezeichnet und später beschrieben wird, rt eine Belohnung zum Zeitpunkt t und Σ die Summe zum Zeitpunkt t an. In dieser Gleichung ist der erwartete Wert ein erwarteter Wert, wenn der Zustand gemäß einer optimalen Aktion geändert wurde. Da jedoch unklar ist, welche Aktion im Q-Lernprozess optimal wäre, wird das verstärkende Lernen durchgeführt, während durch verschiedene Aktionen nach einer optimalen Aktion gesucht wird. Eine aktualisierte Gleichung eines solchen Werts Q(S,A) kann durch die folgende Gleichung 2 ausgedrückt werden (Formel 2):
    Q ( S t + 1 , A t + 1 ) Q ( S t , A t ) + α ( r t + 1 + γ m a x A Q ( S t + 1 , A ) Q ( S t , A t ) )
    Figure DE102019204861A1_0002
  • In der Gleichung 2 gibt St einen Zustand der Umgebung zum Zeitpunkt t und At eine Aktion zum Zeitpunkt t an. Durch die Aktion At ändert sich der Zustand auf St+1.
    rt+1 gibt eine Belohnung an, die durch die Zustandsänderung erzielt wird. Darüber hinaus ist ein Term mit max eine Multiplikation des Q-Wertes mit γ, wenn eine Aktion A mit dem höchsten in diesem Moment bekannten Q-Wert unter dem Zustand St+1 ausgewählt wird. Hier ist γ ein Parameter von 0 < γ ≤ 1 und wird als Diskontierungssatz bezeichnet. Darüber hinaus ist α ein Lernkoeffizient und liegt in dem Bereich von 0 < α ≤ 1.
  • Die Gleichung 2 gibt ein Verfahren zur Aktualisierung eines Werts Q(St, At) einer Aktion At in einem Zustand St auf der Grundlage einer Belohnung rt+1 an, die im Gegenzug angeboten wurde, als die Aktion At ausgeführt wurde. Diese aktualisierende Gleichung gibt an, dass, wenn der Wert maxa Q(St+1, A) der besten Aktion im nächsten Zustand St+1, der einer Aktion At zugeordnet ist, größer ist als der Q(St, At) einer Aktion At im Zustand St, wird Q(St, At) erhöht, und andernfalls wird Q(St, At) verringert. Das heißt, die aktualisierende Gleichung bringt den Wert einer bestimmten Aktion in einem bestimmten Zustand, der sich in der Nähe des Wertes der besten Aktion in dem nächsten Zustand befindet, der mit der Aktion verknüpft ist. Obwohl jedoch diese Differenz in Abhängigkeit von dem Diskontierungssatz γ und der Belohnung rt+1 unterschiedlich ist, bewegt sich der Wert der besten Aktion in einem bestimmten Zustand im Grunde genommen zu dem Wert einer Aktion in einem Zustand vor diesem Zustand.
  • Hier ist ein Q-Lernverfahren zum Erstellen einer Wertfunktion Q(S,A)-Tabelle für alle Zustandsaktionspaare (S, A) zur Durchführung des Lernens bekannt. Die Konvergenz des Q-Lernens kann jedoch erheblich lange dauern, da die Anzahl der Zustände zu groß ist, um die Q(S,A)-Werte aller Zustandsaktionspaare zu berechnen.
  • Somit kann das Q-Lernen ein bestehendes Verfahren verwenden, das als DQN (deep Q-network) bezeichnet wird. Insbesondere wird bei dem DQN der Wert des Werts Q(S,A) berechnet, indem eine Wertfunktion Q unter Verwendung eines geeigneten neuronalen Netzes konstruiert und die Wertfunktion Q mit dem entsprechenden neuronalen Netz durch Anpassen der Parameter des neuronalen Netzes approximiert wird. Durch Einsatz von DQN ist es möglich, die Zeit für die Konvergenz des Q-Lernens zu verkürzen. Die Einzelheiten von DQN sind beispielsweise in der nachfolgenden Nicht-Patentliteratur offenbart.
  • < Nicht-Patentdokument>
  • „Human-level control through deep reinforcement learning“, Volodymyr Mnihl [online], [recherchiert am 17. Januar 2017], Internet <URL: http://files.davidqiu.com/research/nature14236.pdf>
  • Die Maschinenlernvorrichtung 200 führt das zuvor beschriebene Q-Lernen durch. Insbesondere lernt die Maschinenlernvorrichtung 200 einen Wert Q zum Auswählen einer Aktion A zur Festlegung der Werte der Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116, die einem Zustand S zugeordnet ist, wobei im Zustand S ein Servozustand, wie Befehle und Rückkopplungen, vorliegt, die Werte der Koeffizienten al und bj (m ≥ i ≥ 0, n ≥ j ≥ 0; n und m sind natürliche Zahlen) der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 der Servo-Steuervorrichtung 100, sowie die Positionsfehlerinformationen und die Positionsbefehle der Servo-Steuervorrichtung 100, die durch Ausführen des Bearbeitungsprogramms während des Lernens erfasst werden, umfassen.
  • Die Maschinenlernvorrichtung 200 beobachtet die Zustandsinformationen S mit dem Servozustand, wie beispielsweise Befehle und Rückkopplungen, die die Positionsbefehle und die Positionsfehlerinformationen der Servo-Steuervorrichtung 100 an den Positionen A1 und A3 und/oder den Positionen B1 und B3 der Bearbeitungsform umfassen, durch Ausführen des Bearbeitungsprogramms während des Lernens auf der Grundlage der Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116, um die Aktion zu bestimmen. Die Maschinenlernvorrichtung 200 empfängt immer dann eine Belohnung, wenn die Aktion A ausgeführt wird. Die Maschinenlernvorrichtung 200 sucht durch systematisches Ausprobieren nach der optimalen Aktion A, sodass die Gesamtbelohnung zukünftig maximiert wird. Dadurch kann die Maschinenlernvorrichtung 200 eine optimale Aktion A (d. h. die optimalen Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116) mit Bezug auf den Zustand S auswählen, der den Servozustand, wie Befehle und Rückkopplungen, umfasst, die Positionsbefehle und Positionsfehlerinformationen der Servo-Steuervorrichtung 100 umfassen, die durch Ausführen des Bearbeitungsprogramms während des Lernens auf der Grundlage der Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 erfasst werden. Die Maschinenlernvorrichtung 200 kann die Koeffizienten ai und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 im linearen Betrieb lernen.
  • Das heißt, die Maschinenlernvorrichtung 200 kann eine Aktion A auswählen, d. h., die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116, die den Positionsfehler minimiert, der bei der Ausführung des Bearbeitungsprogramms während des Lernens durch Auswählen einer solchen Aktion A erfasst wird, die den Wert der Wertfunktion Q unter den Aktionen A maximiert, der auf die Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 angewandt wird, die sich auf einen bestimmten Zustand S auf der Grundlage der gelernten Wertfunktion Q bezieht.
  • 5 zeigt ein Blockdiagramm, das die Maschinenlernvorrichtung 200 gemäß der ersten Ausführungsform darstellt. Wie in 5 gezeigt, umfasst zur Durchführung des zuvor beschriebenen verstärkenden Lernens die Maschinenlernvorrichtung 200 eine Zustandsinformationserfassungseinheit 201, eine Lerneinheit 202, eine Aktionsinformationsausgabeeinheit 203, eine Wertfunktionsspeichereinheit 204 und eine Optimierungsaktionsinformationsausgabeeinheit 205. Die Lerneinheit 202 umfasst eine Belohnungsausgabeeinheit 2021, eine Wertfunktionsaktualisierungseinheit 2022 und eine Aktionsinformationserzeugungseinheit 2023.
  • Die Zustandsinformationserfassungseinheit 201 erfasst von der Servo-Steuervorrichtung 100 den Zustand S mit einem Servozustand, wie beispielsweise Befehle und Rückkopplungen, die Positionsbefehle und Positionsfehlerinformationen der Servo-Steuervorrichtung 100 umfassen, die durch Ausführen des Bearbeitungsprogramms während des Lernens auf der Grundlage der Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 der Servo-Steuervorrichtung 100 erfasst werden. Darüber hinaus erfasst die Zustandsinformationserfassungseinheit 201 ein Kompensationsstoppbenachrichtigungssignal zur Benachrichtigung eines Kompensationsstopps von der Anomalie-Erfassungseinheit 109. Die Zustandsinformationen S entsprechen einem Zustand S der Umgebung beim Q-Lernen. Die Zustandsinformationserfassungseinheit 201 gibt die erfassten Zustandsinformationen S an die Lerneinheit 202 aus.
  • Die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 zu einem Zeitpunkt, zu dem das Q-Lernen anfänglich beginnt, werden im Voraus durch einen Anwender erzeugt. In der vorliegenden Ausführungsform stellt die Maschinenlernvorrichtung 200 die Anfangswerte der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116, die von dem Anwender erzeugt werden, auf optimale Werte durch das verstärkende Lernen ein. Der Koeffizient β des Differenzierers 115 wird auf einen festen Wert festgelegt, wie beispielsweise β = 1. Die Anfangswerte der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 werden derart eingestellt, dass beispielsweise in der Gleichung 1 a0 = 1, a1 = 0, a2 = 0, ... und am = 0, b0 = 1, b1 = 0, b2 = 0, ··· und bn = 0 gilt. Die Abmessungen m und n der Koeffizienten al und bj werden im Voraus eingestellt. Das heißt, 0 ≤ i ≤ m für ai, und 0 ≤ j ≤ n für bj. Wenn eine Werkzeugmaschine im Voraus von einem Anwender eingestellt wird, können die eingestellten Werte als Anfangswerte der Koeffizienten ai und bj verwendet werden.
  • Die Lerneinheit 202 ist eine Einheit, die den Wert Q(S,A) erlernt, wenn eine bestimmte Aktion A unter einem bestimmten Zustand S der Umgebung ausgewählt wird. Nach dem Empfangen des Kompensationsstoppbenachrichtigungssignals von der Anomalie-Erfassungseinheit 109 kann die Lerneinheit 202 die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 in dem Zustand S auf das lernen als Kompensationsparameter anwenden, mit denen der Servomotor 106 anomal arbeitet. In diesem Fall wird, wie vorstehend beschrieben, das Bearbeitungsprogramm zum Lernen des Zustands S betrieben, während die Kompensation angehalten ist und bis das Bearbeitungsprogramm beendet ist. In diesem Fall arbeitet das Bearbeitungsprogramm nur in der Positions-Rückkopplungsschleife und der Geschwindigkeits-Rückkopplungsschleife. Danach sucht die Lerneinheit 202 nach neuen Koeffizienten für das nächste Lernen, die sich von den Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 an dem Punkt, an dem Anomalie auftritt, unterscheiden, legt die Koeffizienten in der Positionsvorsteuerungs-Verarbeitungseinheit 116 fest und überträgt ein Koeffizienteneinstellbenachrichtigungssignal, das angibt, dass die Koeffizienten der Positionsvorsteuerungs-Verarbeitungseinheit 116 eingestellt sind, an die Anomalie-Erfassungseinheit 109.
  • Die Belohnungsausgabeeinheit 2021 ist eine Einheit, die eine Belohnung berechnet, wenn eine Aktion A unter einem bestimmten Zustand S ausgewählt wird. Hier wird ein Satz (ein Positionsfehlersatz) der Positionsfehler, die Zustandsvariablen des Zustands S sind, mit PD(S) bezeichnet, und ein Positionsfehlersatz, der Zustandsvariablen darstellt, die sich auf die Zustandsinformationen S' beziehen, die aufgrund der Aktionsinformationen A vom Zustand S' geändert werden, wird mit PD(S') gekennzeichnet. Darüber hinaus ist der Wert der Ermittlungsfunktion des Positionsfehlers im Zustand S ein Wert, der auf der Grundlage einer vorgegebenen Ermittlungsfunktion f(PD(S)) berechnet wird. Die Aktionsinformationen A ist die Korrektur der Koeffizienten al und bj (i und j sind 0 oder positive ganze Zahlen) der Positionsvorsteuerungs-Verarbeitungseinheit 116. Hier bedeutet ein Satz von Positionsfehlern, die Zustandsvariablen des Zustands S sind, einen Satz von Positionsfehlern, die innerhalb eines vorbestimmten Bereichs gemessen werden, einschließlich der Positionen A1 und A3 und/oder der Positionen B1 und B3 der Bearbeitungsform. Als Ermittlungsfunktion f können nachfolgende Funktionen verwendet werden:
  • Eine Funktion, die einen integrierten Wert eines Absolutwertes eines Positionsfehlers berechnet
    ∫|e|dt
  • Eine Funktion, die einen integrierten Wert durch eine Gewichtung eines Absolutwertes eines Positionsfehlers mit der Zeit berechnet
    ∫t|e|dt
  • Eine Funktion, die einen integrierten Wert einer 2er Potenz (n ist eine natürliche Zahl) eines Absolutwertes eines Positionsfehlers berechnet
    fe2ndt (n ist eine natürliche Zahl)
  • Eine Funktion, die einen Maximalwert eines Absolutwertes eines Positionsfehlers berechnet
    Max{|e|}
    wobei e ein Positionsfehler ist.
  • In diesem Zustand legt die Belohnungsausgabeeinheit 2021 den Wert einer Belohnung auf einen negativen Wert fest, wenn der Ermittlungsfunktionswert f(PD(S')) des Positionsfehlers der Servo-Steuervorrichtung 100, die auf der Grundlage der Positionsvorsteuerungs-Verarbeitungseinheit 116 nach der Korrektur, bezogen auf die Zustandsinformation S', die durch die Aktionsinformation A korrigiert wird, betrieben wird, größer ist als der Ermittlungsfunktionswert f(PD(S)) des Positionsfehlers der Servo-Steuervorrichtung 100, die auf der Grundlage der Positionsvorsteuerungs-Verarbeitungseinheit 116 vor der Korrektur in Bezug auf die Zustandsinformation S, bevor diese durch die Aktionsinformation A korrigiert wird, betrieben wird. Wenn das Kompensationsstoppbenachrichtigungssignal von der Anomalie-Erfassungseinheit 109 empfangen wird, kann die Belohnungsausgabeeinheit 2021 den Wert der Belohnung auf einen negativen Wert festlegen, der einen großen Absolutwert aufweist, sodass die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 zum Zeitpunkt der Erfassung der Anomalie nicht ausgewählt werden. Auf diese Weise können die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 zum Zeitpunkt der Erfassung einer Anomalie im Wesentlichen aus dem zukünftigen Lernbereich ausgeschlossen werden.
  • Wenn andererseits der Ermittlungsfunktionswert f(PD(S')) des Positionsfehlers kleiner als der Ermittlungsfunktionswert f(PD(S)) des Positionsfehlers wird, stellt die Belohnungsausgabeeinheit 2021 den Wert der Belohnung auf einen positiven Wert ein. Wenn der Ermittlungsfunktionswert f(PD(S')) des Positionsfehlers gleich dem Ermittlungsfunktionswert f(PD(S)) des Positionsfehlers ist, kann die Belohnungsausgabeeinheit 2021 den Wert der Belohnung auf Null setzen.
  • Wenn ferner der Ermittlungsfunktionswert f(PD(S')) des Positionsfehlers im Zustand S' nach der Ausführung der Aktion A größer wird als der Ermittlungsfunktionswert f(PD(S)) des Positionsfehlers im vorherigen Zustand S, kann der negative Wert proportional erhöht werden. Das heißt, der negative Wert kann entsprechend dem Grad der Erhöhung des Positionsfehlerwerts erhöht werden. Wird dagegen der Ermittlungsfunktionswert f(PD(S')) des Positionsfehlers im Zustand S' nach der Ausführung der Aktion A kleiner als der Ermittlungsfunktionswert f(PD(S)) des Positionsfehlers im vorherigen Zustand S, kann der positive Wert proportional erhöht werden. Das heißt, der positive Wert kann gemäß dem Grad der Abnahme des Positionsfehlerwertes erhöht werden.
  • Die Wertfunktionsaktualisierungseinheit 2022 aktualisiert die Wertfunktion Q, die in der Wertfunktionsspeichereinheit 204 gespeichert ist, indem ein Q-Lernen auf der Grundlage des Zustands S, der Aktion A, dem Zustand S', wenn die Aktion A auf den Zustand S angewendet wurde, und dem auf die zuvor genannte Weise berechneten Wert der Belohnung durchgeführt wird. Die Aktualisierung der Wertfunktion Q kann durch Online-Lernen, Batch-Lernen oder Mini-Batch-Lernen erfolgen. Online-Lernen ist ein Lernverfahren, bei dem eine bestimmte Aktion A auf einen aktuellen Zustand S angewendet und die Wertfunktion Q sofort aktualisiert wird, wenn der aktuelle Zustand S in einen neuen Zustand S' übergeht. Batch-Lernen ist ein Lernverfahren, bei dem durch Anwenden einer bestimmten Aktion A auf einen aktuellen Zustand S und durch Wiederholen des Zustands S, der in einen neuen Zustand S' übergeht, und durch Sammeln erlernter Daten die Wertfunktion Q unter Verwendung aller gesammelten Lerndaten aktualisiert wird. Das Mini-Batch-Lernen ist ein Lernverfahren, das zwischen dem Online-Lernen und dem Batch-Lernen liegt und die Aktualisierung der Wertfunktion Q umfasst, wenn eine bestimmte Menge an Lerndaten gesammelt wurde.
  • Die Aktionsinformationserzeugungseinheit 3023 wählt die Aktion A in dem Q-Lernschritt mit Bezug auf den aktuellen Zustand S aus. Die Aktionsinformationserzeugungseinheit 2023 erzeugt Aktionsinformationen A und gibt die erzeugten Aktionsinformationen A an die Aktionsinformationsausgabeeinheit 203 aus, um einen Vorgang (entsprechend der Aktion A des Q-Lernens) zur Korrektur der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 der Servo-Steuervorrichtung 100 im Q-Lernschritt durchzuführen. Genauer gesagt, addiert oder subtrahiert die Aktionsinformationserzeugungseinheit 2023 die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116, die in der Aktion A enthalten sind, schrittweise (beispielsweise mit einem Schritt von etwa 0,01) mit Bezug auf die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116, die in dem Zustand enthalten sind.
  • Werden die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 erhöht oder verringert, geht der Zustand S in den Zustand S' über und wird eine Plus-Belohnung (eine positive Belohnung) im Gegenzug angeboten, kann die Aktionsinformationserzeugungseinheit 2023 eine Verfahrensweise wählen, bei der eine Aktion A', die dazu führt, dass der Wert des Positionsfehlers weiter sinkt, wie beispielsweise durch schrittweises Erhöhen oder Verringern der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 wie die vorhergehende Aktion, als nächste Aktion A' ausgewählt wird.
  • Im Gegensatz dazu, wenn im Gegenzug eine Minus-Belohnung (eine negative Belohnung) angeboten wird, kann die Aktionsinformationserzeugungseinheit 2023 eine Verfahrensweise wählen, bei der eine Aktion A', die dazu führt, dass der Positionsfehler kleiner als der vorherige Wert wird, wie beispielsweise durch schrittweises Verringern oder Erhöhen der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 im Gegensatz zur vorherigen Aktion, als die nächste Aktion A' ausgewählt wird.
  • Die Aktionsinformationserzeugungseinheit 2023 kann eine Verfahrensweise wählen, bei der die Aktion A' gemäß einem bekannten Verfahren, wie beispielsweise einem Greedy-Verfahren ausgewählt wird, bei dem eine Aktion A' mit der höchsten Wertfunktion Q(S,A) und den Werten der aktuell ermittelten Aktionen A ausgewählt wird, oder in dem ein ε-Greedy-Verfahren ausgewählt wird, bei dem eine Aktion A' mit einer bestimmten geringen Wahrscheinlichkeit ε zufällig ausgewählt wird und eine Aktion A' mit der höchsten Wertfunktion Q(S,A) in den anderen Fällen ausgewählt wird.
  • Die Aktionsinformationsausgabeeinheit 203 ist eine Einheit, die die Aktionsinformationen A, die von der Lerneinheit 202 ausgegeben werden, auf die Servo-Steuervorrichtung 100 überträgt. Wie zuvor beschrieben führt die Servo-Steuervorrichtung 100 eine Feinkorrektur des vorliegenden Zustands S (d. h., der aktuell eingestellten Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116) auf der Grundlage der Aktionsinformationen durch, um so in den nächsten Zustand S' überzugehen (d. h., die korrigierten Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116).
  • Ferner überträgt die Aktionsinformationserzeugungseinheit 2023 ein Koeffizienteneinstellbenachrichtigungssignal an die Anomalie-Erfassungseinheit 109, um zu melden, dass die jeweiligen Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 eingestellt und auf die Koeffizienten ai und bj, die sich von den Koeffizienten ai und bj zum Zeitpunkt der Erfassung der Anomalie unterscheiden, festgelegt sind.
  • Die Wertfunktionsspeichereinheit 204 ist eine Speichervorrichtung, die die Wertfunktion Q speichert. Die Wertfunktion Q kann als eine Tabelle (im Nachfolgenden als eine Aktionswerttabelle) für jeden Zustand S und für jede Aktion A gespeichert werden. Die Wertfunktion Q, die in der Wertfunktionsspeichereinheit 204 gespeichert ist, wird durch die Wertfunktionsaktualisierungseinheit 2022 aktualisiert. Darüber hinaus kann die Wertfunktion Q, die in der Wertfunktionsspeichereinheit 204 gespeichert wird, mit anderen Maschinenlernvorrichtungen 200 geteilt werden. Wenn die Wertfunktion Q von einer Vielzahl von Maschinenlernvorrichtungen 200 gemeinsam genutzt wird, ist es, da das verstärkende Lernen in den jeweiligen Maschinenlernvorrichtungen 200 verteilt durchgeführt werden kann, möglich, die Effizienz des verstärkenden Lernens zu verbessern.
  • Die Optimierungsaktionsinformationsausgabeeinheit 205 erzeugt die Aktionsinformation A (nachfolgend als „Optimierungsaktionsinformation“ bezeichnet), die die Positionsvorsteuerungs-Verarbeitungseinheit 116 veranlasst, eine Operation zur Maximierung der Wertfunktion Q(S,A) auf der Grundlage der Wertfunktion Q durchzuführen, die durch die Wertfunktionsaktualisierungseinheit 2022, die das Q-Lernen durchführt, aktualisiert wird. Genauer gesagt, erfasst die Optimierungsaktionsinformationsausgabeeinheit 205 die Wertfunktion Q, die in der Wertfunktionsspeichereinheit 204 gespeichert ist. Wie zuvor beschrieben, wird die Wertfunktion Q durch die Wertfunktionsaktualisierungseinheit 2022, die das Q-Lernen durchführt, aktualisiert. Die Optimierungsaktionsinformationsausgabeeinheit 205 erzeugt die Aktionsinformationen auf der Grundlage der Wertfunktion Q und gibt die erzeugten Aktionsinformationen an die Servo-Steuervorrichtung 100 (die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 116) aus. Die Optimierungsaktionsinformationen umfassen Informationen, die die die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116, wie beispielsweise die Aktionsinformationen, die die Aktionsinformationsausgabeeinheit 203 im Q-Lernschritt ausgibt, korrigieren.
  • In der Servo-Steuervorrichtung 100 werden die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 auf der Grundlage der Aktionsinformationen korrigiert. Mit den zuvor beschriebenen Operationen kann die Maschinenlernvorrichtung 200 das Lernen und Optimieren der Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 durchführen und so betrieben werden, dass der Positionsfehlerwert verringert wird. Wie zuvor beschrieben, ist es durch Verwenden der Maschinenlernvorrichtung 200 gemäß der vorliegenden Erfindung möglich, die Einstellung der Kompensationsparameter (Koeffizienten al und bj) der Positionsvorsteuerungs-Verarbeitungseinheit 116 der Servo-Steuervorrichtung 100 zu vereinfachen. Mit der Einstellung der Kompensationsparameter (der Koeffizienten ai und bj) wird die Positionsvorsteuerungsbedingung der Positionsvorsteuerungs-Verarbeitungseinheit 116 eingestellt.
  • Zuvor wurden die Funktionsblöcke, die in der Servo-Steuervorrichtung 100 und der Maschinenlernvorrichtung 200 enthalten sind, beschrieben. Zur Realisierung dieser Funktionsblöcke umfasst sowohl die Servo-Steuervorrichtung 100 als auch die Maschinenlernvorrichtung 200 eine arithmetische Verarbeitungseinheit, wie beispielsweise eine Zentraleinheit (CPU). Die Servo-Steuervorrichtung 100 und die Maschinenlernvorrichtung 200 umfassen jeweils ferner eine Hilfsspeichervorrichtung, wie beispielsweise eine Festplatte (HDD), die verschiedene Steuerprogramme, wie Anwendungssoftware oder ein Betriebssystem (OS) speichert, und eine Hauptspeichervorrichtung, wie beispielsweise einen Arbeitsspeicher (RAM), um Daten zu speichern, die vorübergehend benötigt werden, wenn die arithmetische Verarbeitungsvorrichtung ein Programm ausführt.
  • In sowohl der Servo-Steuervorrichtung 100 als auch der Maschinenlernvorrichtung 200 liest die arithmetische Verarbeitungsvorrichtung eine Anwendung oder ein OS aus der Hilfsspeichervorrichtung aus und legt die gelesene Anwendungssoftware und den OS in der Hauptspeichervorrichtung ab, um die arithmetische Verarbeitung auf der Grundlage der gelesenen Anwendungssoftware oder dem OS durchzuführen. Die arithmetische Verarbeitungsvorrichtung steuert auch unterschiedliche Arten von Hardware, die in jede Vorrichtung vorhanden ist, auf der Grundlage des arithmetischen Ergebnisses. Auf diese Weise werden die Funktionsblöcke der vorliegenden Ausführungsform realisiert. Das heißt, die vorliegende Ausführungsform kann durch die Zusammenarbeit von Hard- und Software realisiert werden.
  • Da die Maschinenlernvorrichtung 200 eine große Menge an Berechnungen im Zusammenhang mit dem maschinellen Lernen verwendet, werden vorzugsweise Grafikverarbeitungseinheiten (GPUs) auf einem PC installiert und ein Verfahren namens GPGPUs (General-Purpose computing on Graphics Processing Units) verwendet. Es kann eine arithmetische Hochgeschwindigkeitsverarbeitung realisiert werden, wenn die GPU zur arithmetischen Verarbeitung im Zusammenhang mit dem maschinellen Lernen verwendet wird. Zur Durchführung einer schnelleren Verarbeitung kann ferner die Maschinenlernvorrichtung 200 einen Computercluster aus einer Vielzahl von Computern, die mit solchen GPUs ausgestattet sind, verwenden und eine parallele Verarbeitung mit der Vielzahl von Computern, die in dem Computercluster enthalten sind, durchführen.
  • Wie zuvor beschrieben, umfasst die Servo-Steuervorrichtung 100 gemäß der vorliegenden Ausführungsform die Anomalie-Erfassungseinheit 109 und den Schalter 105, wobei der Schalter 105 gemäß dem Schaltbenachrichtigungssignal von der Anomalie-Erfassungseinheit 109 abgeschaltet wird, und die Maschinenlernvorrichtung 200 erkennt, dass die Anomalie auf der Grundlage des Kompensationsstoppbenachrichtigungssignals von der Anomalie-Erfassungseinheit 109 erfasst wird. Beim Erkennen, dass die Anomalie erfasst wird, wendet die Maschinenlernvorrichtung 200 die Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 in dem Zustand S auf das lernen als Kompensationsparameter an, mit denen der Servomotor 106 anomal arbeitet. In diesem Fall wird, wie vorstehend beschrieben, das Bearbeitungsprogramm zum Erlernen des Zustands S bei angehaltener Kompensation und bis zum Ende des Bearbeitungsprogramm betrieben, und die Maschinenlernvorrichtung 200 beendet den Lernvorgang für den Zustand S. Danach sucht die Lerneinheit 202 nach neuen Koeffizienten für das nächste Lernen, wählt die nächsten Aktionsinformationen aus, stellt die Koeffizienten auf die Positionsvorsteuerungs-Verarbeitungseinheit 116 ein, und überträgt ein Koeffizienteneinstellbenachrichtigungssignal, das angibt, dass neue Koeffizienten der Positionsvorsteuerungs-Verarbeitungseinheit 116 eingestellt sind, an die Anomalie-Erfassungseinheit 109. Dadurch kann die Maschinenlernvorrichtung 200 die Lernoperation auf der Grundlage der nächsten Aktion beginnen. Wie zuvor beschrieben, kann die Maschinenlernvorrichtung der vorliegenden Ausführungsform beim Maschinenlernen der Kompensationserzeugungseinheit 110 das maschinelle Lernen so fortsetzen, dass selbst bei Auswahl eines unangemessenen Kompensationswertes während des maschinellen Lernens Situationen verhindert werden, in denen Vibrationen an einer Maschine oder an einer Bearbeitungsstelle auftreten und dadurch ein effektives Lernen behindert wird, oder in denen eine Werkzeugmaschine oder dergleichen aufgrund einer Warnung angehalten oder abgeschaltet wird, wodurch das Lernen unterbrochen wird.
  • Im Nachfolgenden wird ein Betrieb der Maschinenlernvorrichtung 200 der vorliegenden Ausführungsform mit Bezug auf 6 beschrieben. Wie in 6 gezeigt, beginnt die Maschinenlernvorrichtung 200 in Schritt S21 einen Lernvorgang. Hier ist ein Lernvorgang eine Reihe von Prozessen zum Auswählen einer Aktion A (die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116) in einem Zustand S, das Einstellen der Aktion A auf die Kompensationserzeugungseinheit 110, das Ausführen des Bearbeitungsprogramms während des Lernens, um einen Satz von Positionsfehlern (Zustandsvariablen im Zustand S') an den zuvor erwähnten Positionen A1 und A3 und/oder den Positionen B1 und B3 der Bearbeitungsform zu erfassen, um dadurch einen Ermittlungsfunktionswert des Positionsfehlers zu berechnen und den Ermittlungsfunktionswert mit dem Ermittlungsfunktionswert des Positionsfehlers im Zustand S zu vergleichen, um eine Belohnung zu berechnen, und das Aktualisieren der Wertfunktion Q, die in der Wertfunktionsspeichereinheit 204 gespeichert ist. In den nachfolgenden Schritten führt die Maschinenlernvorrichtung 200 eine Reihe von Prozessen aus. Während des Lernvorgangs, wenn die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, kann die Maschinenlernvorrichtung 200 die Aktion A (die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116) im Zustand S auf die Belohnung als eine Aktion (Kompensationsparameter), bei der der Servomotor 106 anomal arbeitet, anwenden. In diesem Fall wird, wie zuvor beschrieben, das Bearbeitungsprogramm während des Lernens des Zustands S betrieben, während die Kompensation angehalten ist und bis das Bearbeitungsprogramm beendet ist. Dadurch ist es möglich, dass die Maschinenlernvorrichtung nach der neuen Aktion sucht und eine neue Aktion erzeugt, um so das Maschinenlernen derart fortzusetzen, dass das Lernen nicht unterbrochen wird.
  • In Schritt S22 bestimmt die Maschinenlernvorrichtung 200, ob ein anomaler Betrieb erfasst wird oder nicht. Wird bestimmt, dass ein anomaler Betrieb erfasst wird (Ja), wird das Verfahren mit Schritt S25 fortgesetzt. Wenn kein anomaler Betrieb erfasst wird (Nein), wird das Verfahren mit Schritt S23 fortgesetzt.
  • In Schritt S23 bestimmt die Maschinenlernvorrichtung 200, ob der Lernvorgang beendet ist oder nicht. Ist der Lernvorgang beendet (Ja), fährt das Verfahren mit Schritt S24 fort. Ist der Lernvorgang nicht beendet (Nein), fährt das Verfahren mit Schritt S22 fort.
  • In Schritt S24 sucht die Maschinenlernvorrichtung 200 nach der nächsten Aktion und stellt neue Parameter ein. Insbesondere stellt die Maschinenlernvorrichtung 200 Kompensationsparameter (die Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116) zum Einstellen des Kompensationswertes (die Positionsvorsteuerungsbedingung) der Kompensationserzeugungseinheit 110 ein. Anschließend fährt das Verfahren mit Schritt S28 fort.
  • In Schritt S25 bestimmt die Maschinenlernvorrichtung 200, ob der Lernvorgang beendet ist oder nicht. Wenn der Lernvorgang beendet ist (Ja), fährt das Verfahren mit Schritt S26 fort. Ist der Lernvorgang nicht beendet (Nein), kehrt das Verfahren zu Schritt S25 zurück.
  • In Schritt S26 lernt die Maschinenlernvorrichtung 200 den Kompensationswert der Kompensationserzeugungseinheit 110 zum Zeitpunkt des Auftretens einer Anomalie, sucht nach der neuen Aktion und stellt den Kompensationswert der Kompensationserzeugungseinheit 110 auf einen Kompensationswert ein und legt diesen fest, der sich von dem Kompensationswert zum Zeitpunkt des Auftretens einer Anomalie unterscheidet.
  • In Schritt S27 benachrichtigt die Maschinenlernvorrichtung 200 die Anomalie-Erfassungseinheit 109, dass ein neuer Kompensationswert festgelegt wurde.
  • In Schritt S28 bestimmt die Maschinenlernvorrichtung 200, ob das Maschinenlernen beendet ist oder nicht, und das Verfahren kehrt zu Schritt S21 zurück, wenn bestimmt wird, dass das Maschinenlernen fortgesetzt werden soll (Nein). Soll das Maschinenlernen beendet werden (Ja), endet der Maschinenlernprozess.
  • (Modifikation)
  • In der ersten Ausführungsform umfasst die Kompensationserzeugungseinheit 110 eine Positionsvorsteuerungsbedingungserzeugungseinheit, die einen Kompensationswert für einen Geschwindigkeitsbefehl auf der Grundlage eines Positionsbefehls erzeugt; jedoch ist die vorliegende Erfindung nicht darauf beschränkt. Beispielsweise kann die Kompensationserzeugungseinheit 110 eine Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit, die später beschrieben wird, anstelle der Positionsvorsteuerungsbedingungserzeugungseinheit umfassen. In diesem Fall wird über einen Schalter eine Geschwindigkeitsvorsteuerungsbedingung von der Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit der Ausgabe der Geschwindigkeitsregeleinheit 104 hinzugefügt, die eine Geschwindigkeitsrückkopplungsschleife bildet. Die Kompensationserzeugungseinheit 110 kann einen Kompensationswert für die Quadrantenvorsprünge, die später beschrieben werden, erzeugen. In diesem Fall kann der Kompensationswert der Quadrantenvorsprünge über einen Schalter dem Addierer/Subtrahierer 103, der eine Geschwindigkeitsrückkopplungsschleife bildet, hinzugefügt werden.
  • Wie zuvor beschrieben, kann gemäß der vorliegenden Ausführungsform mit Bezug auf eine Servo-Steuervorrichtung, die wenigstens eine Rückkopplungsschleife und eine Kompensationserzeugungseinheit umfasst, die eine auf die Rückkopplungsschleife anzuwendende Kompensation beim Maschinenlernen der Kompensationserzeugungseinheit erzeugt, während eine Werkzugmaschine, ein Roboter oder eine Industriemaschine betrieben werden, das Maschinenlernen derart fortgesetzt werden, dass selbst bei Berechnung eines unangemessenen Kompensationswertes während des Maschinenlernens Situationen vermieden werden, in denen Vibrationen am Motor oder einer Bearbeitungsstelle auftreten oder durch das effektive Lernen unterbrochen wird, oder in denen eine Werkzeugmaschine oder dergleichen aufgrund einer Warnung angehalten oder abgeschaltet wird, wodurch das Lernen unterbrochen wird.
  • (Zweite Ausführungsform)
  • In der ersten Ausführungsform umfasst die Kompensationserzeugungseinheit 110 die Positionsvorsteuerungsbedingungserzeugungseinheit, die einen Kompensationswert für einen Geschwindigkeitsbefehl auf der Grundlage eines Positionsbefehls erzeugt. In der zweiten Ausführungsform umfasst die Kompensationserzeugungseinheit 10 zusätzlich zu der Positionsvorsteuerungsbedingungserzeugungseinheit, die einen Kompensationswert für einen Geschwindigkeitsbefehl auf der Grundlage eines Positionsbefehls erzeugt, eine Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit, die einen Kompensationswert für einen Drehmomentbefehl auf der Grundlage eines Positionsbefehls erzeugt.
  • 7 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung darstellt. Die Konfiguration der Steuervorrichtung 10A der zweiten Ausführungsform unterscheidet sich von der aktuellen Steuervorrichtung 10 der ersten Ausführungsform, die in 1 gezeigt ist, dahingehend, dass eine Kompensationserzeugungseinheit 110 (nicht dargestellt) eine Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit (nicht dargestellt) umfasst, die einen Doppeldifferenzierer 112 und eine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113, zusätzlich zu der Positionsvorsteuerungsbedingungserzeugungseinheit, die den Differenzierer 115 und die Positionsvorsteuerungs-Verarbeitungseinheit 116 umfasst, umfasst, und dahingehend, dass sie einen Schalter 114 und einen Addierer 111 umfasst. Im Nachfolgenden werden die Komponenten der Steuervorrichtung 10A der zweiten Ausführungsform, die jenen der Steuervorrichtung 10 der ersten Ausführungsform der 1 entsprechen, mit den gleichen Bezugszeichen versehen und es wird auf eine Beschreibung der Komponenten und der Operationen verzichtet.
  • In der zweiten Ausführungsform führt die Maschinenlernvorrichtung 200 ein maschinelles Lernen (im Nachfolgenden als Lernen bezeichnet) an den Koeffizienten einer Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 sowie an den Koeffizienten einer Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 durch. In der zweiten Ausführungsform führt die Maschinenlernvorrichtung 200 das Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 getrennt von dem Lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch, und führt das Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 auf einer inneren Seite (die Innenschleife) als die Positionsvorsteuerungs-Verarbeitungseinheit 116 vor dem Lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch. Insbesondere legt die Maschinenlernvorrichtung 200 die Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 fest und lernt die optimalen Werte der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113. Danach legt die Maschinenlernvorrichtung 200 die Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 auf den optimalen Wert, der durch Lernen erhalten wird, fest und lernt die Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116. Dadurch kann die Maschinenlernvorrichtung 200 das Lernen in Bezug auf die Optimierung der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 unter der Bedingung der Geschwindigkeitsvorsteuerungsbedingung, die durch das Lernen optimiert wird, durchführen und eine Fluktuation des Positionsfehlers unterdrücken. Indem somit das Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 auf einer inneren Seite (Innenschleife) als die Positionsvorsteuerungs-Verarbeitungseinheit 116 vor dem Lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durchgeführt wird, ist es möglich, eine Fluktuation des Positionsfehlers zu unterdrücken und eine hohe Beschleunigung zu realisieren.
  • <Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit>
  • Die Positionssteuereinheit wird an den Doppeldifferenzierer 112 ausgegeben. Der Doppeldifferenzierer 112 differenziert den Positionsbefehl zweimal und multipliziert das Ergebnis mit einer Konstanten α, und die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 führt einen Geschwindigkeitsvorsteuerungsprozess, der durch eine Übertragungsfunktion F(s) dargestellt ist, die in der Gleichung 3 (in der nachstehenden Formel 3 angezeigt) dargestellt ist, an der Ausgabe des Doppeldifferenzierers 112 durch, der das Verarbeitungsergebnis an den Addierer 111 über den Schalter 114 als eine Geschwindigkeitsvorsteuerungsbedingung (die als ein Kompensationswert dient) aus. Wenn der Schalter 114 durch die Anomalie-Erfassungseinheit 109 abgeschaltet wird, wird die Geschwindigkeitsvorsteuerungsbedingung nicht an den Addierer 111 ausgegeben. Die Koeffizienten cl und dj (m ≥ i ≥ 0, n ≥ j ≥ 0; m und n sind natürliche Zahlen) in der Gleichung 3 sind die Koeffizienten der Übertragungsfunktion F(s) der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113. F ( s ) = d 0 + d 1 s + d 2 s 2 + + d n s n c 0 + c 1 s + c 2 s + + c m s m
    Figure DE102019204861A1_0003
  • Der Addierer 111 addiert den Drehmomentbefehl, der von der Geschwindigkeitsregeleinheit 104 ausgegeben wird, und die Geschwindigkeitsvorsteuerungsbedingung, die von der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 eingegeben wird, über den Schalter 114 und gibt das addierte Ergebnis an den Servomotor 106 als einen vorsteuerungsgeregelten Drehmomentbefehl aus, um den Servomotor 106 anzutreiben.
  • Wenn die Maschinenlernvorrichtung 200 das lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 vor dem lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durchführt, überträgt die Anomalie-Erfassungseinheit 109 ein Anomalie-Erfassungssignal, das als ein Schaltsignal zum Ausschalten des Schalters 114 dient (nichtleitender Zustand), wenn der Positionsfehler, der aus dem Subtrahierer 101 ausgegeben wird, gleich groß oder größer als ein Schwellenwert wird. Die Maschinenlernvorrichtung 200 überträgt ein Koeffizienteneinstellbenachrichtigungssignal an die Anomalie-Erfassungseinheit 109, um zu melden, dass neue Koeffizienten, die die Werte der Koeffizienten ci und dj (m ≥ i ≥ 0 m n ≥ j ≥ 0) der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 aufweisen, die sich von jenen zum Zeitpunkt der Erfassung der Anomalie unterscheiden, sowie in der ersten Ausführungsform gesucht und eingestellt werden. Nach dem Empfangen des Koeffizienteneinstellbenachrichtigungssignals erkennt die Anomalie-Erfassungseinheit 109, dass neue Koeffizienten, die sich von den Koeffizienten vom Zeitpunkt des Auftretens einer Anomalie in der Maschinenlernvorrichtung 200 unterscheiden, gesucht und eingestellt werden, um dadurch ein Schaltsignal an den Schalter 114 derart zu übertragen, dass der Schalter 114 eingeschaltet wird (leitender Zustand), wenn das Koeffizienteneinstellbenachrichtigungssignal empfangen wird oder ein neuer Lernvorgang beginnt.
  • Wenn die Anomalie-Erfassungseinheit 109 eine Anomalie erkennt und einen Schalter 114 ausschaltet, da die Geschwindigkeitsvorsteuerungsbedingung nicht an den Addierer 111 ausgegeben wird, wird der Betrieb der Servo-Steuervorrichtung 100 stabil.
  • <Maschinenlernvorrichtung 200>
  • Wie in der ersten Ausführungsform führt die Maschinenlernvorrichtung 200 ein maschinelles Lernen (Lernen) an den Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und den Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch Ausführen eines vorbestimmten Bearbeitungsprogramms (das „Bearbeitungsprogramm während des Lernens“) durch. In der nachfolgenden Beschreibung wird das Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 beschrieben, wobei das Lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116, das in der ersten Ausführungsform beschrieben ist, nach dem Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 durchgeführt wird.
  • Die Maschinenlernvorrichtung 200 lernt einen Wert Q, der als Aktion A das Einstellen der Werte der Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 in Bezug auf einen Zustand S auswählt, wobei der Zustand S ein Servozustand aus Befehlen und Rückkopplungen ist, die die Werte der Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 der Servo-Steuervorrichtung 100 und die Positionsbefehle und die Positionsfehlerinformationen der Servo-Steuervorrichtung 100, die durch Ausführen des Bearbeitungsprogramms während des Lernens erfasst werden, umfasst.
  • Die Maschinenlernvorrichtung 200 beobachtet die Zustandsinformationen S, die den Servozustand, wie beispielsweise Befehle und Rückkopplungen umfassen, die die Positionsbefehle und die Positionsfehlerinformationen der Servo-Steuervorrichtung 100 an den vorher erwähnten Positionen A1 und A3 und/oder den Positionen B1 und B3 der Bearbeitungsform umfassen, indem das Bearbeitungsprogramm während des Lernens auf der Grundlage der Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 ausgeführt wird, um dadurch die Aktion A zu bestimmen. Die Maschinenlernvorrichtung 200 empfängt immer dann eine Belohnung, wenn eine Aktion A ausgeführt wird. Die Maschinenlernvorrichtung 200 sucht durch systematisches Ausprobieren derart nach der optimalen Aktion A, dass die Gesamtbelohnung zukünftig maximiert wird. Dadurch kann die Maschinenlernvorrichtung 200 eine optimale Aktion A (d. h., die optimalen Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113) mit Bezug auf den Zustand S auswählen, der den Servozustand, wie Befehle und Rückkopplungen, umfasst, die den Positionsbefehl und die Positionsfehlerinformationen der Servo-Steuervorrichtung 100 umfassen, die durch Ausführen des Bearbeitungsprogramms während des Lernens auf der Grundlage der Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 erfasst werden. Die Drehrichtung des Servomotors in der X-Achsenrichtung und der Y-Achsenrichtung ändern sich an den Positionen A1 und A3 und an den Positionen B1 und B3 nicht, und somit kann die Maschinenlernvorrichtung 200 die Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 im linearen Betrieb erlernen.
  • Das heißt, die Maschinenlernvorrichtung 200 kann eine Aktion A (d. h., die Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113) auswählen, die den Positionsfehler minimiert, der durch Ausführen des Bearbeitungsprogramms während des Lernens erfasst wird, indem eine Aktion A, die den Wert Q maximiert, unter den Aktionen A ausgewählt wird, die auf die Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungsberechnungseinheit 110 in Bezug auf einen bestimmten Zustand S auf der Grundlage der gelernten Wertfunktionen Q angewendet werden.
  • Da die Prozesse in Bezug auf die entsprechenden Koeffizienten cl und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 in der Zustandsinformationserfassungseinheit 201 (einschließlich der Belohnungsausgabeeinheit 2021, der Wertfunktionsaktualisierungseinheit 2022 und der Aktionsinformationserzeugungseinheit 2023), der Lerneinheit 202, der Aktionsinformationsausgabeeinheit 203, der Wertfunktionsspeichereinheit 204 und der Optimierungsaktionsinformationsausgabeeinheit 205, die in der Maschinenlernvorrichtung 200 enthalten sind, durch Ersetzen der Positionsvorsteuerungs-Verarbeitungseinheit 116 der ersten Ausführungsform mit der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und durch Ersetzen der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 16 mit den Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 beschrieben werden können, wird auf eine ausführliche Beschreibung davon verzichtet.
  • Zudem werden die Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 zu einem Zeitpunkt, zu dem das Q-Lernen anfänglich beginnt, von einem Benutzer im Voraus erzeugt. In der vorliegenden Ausführungsform werden die Anfangswerte der Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113, die von dem Anwender erzeugt werden, durch verstärkendes Lernen auf optimale Werte eingestellt. Der Koeffizient α des Doppeldifferenzierers 112 wird auf einen festen Wert gesetzt, wie beispielsweise α = 1. Die Anfangswerte der Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 sind so eingestellt, dass beispielsweise in der Gleichung 2 c0 = 1, c1 = 0, c2 = 0, ·· und cm = 0, und d0 = 1, d1 = 0, d2 = 0, . . . und dn = 0 gilt. Die Abmessungen m und n der Koeffizienten ci und dj werden im Vorhinein festgelegt. Das heißt, 0 ≤ i ≤ m für ci, und 0 ≤ j ≤ n für dj. Alternativ können die gleichen Werte wie die Anfangswerte der Koeffizienten al und bj der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 als Anfangswerte der Koeffizienten cl und dj verwendet werden. In ähnlicher Weise können die Prozesse, die die Koeffizienten cl und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 in der Servo-Steuervorrichtung 100 betreffen, durch Ersetzen der Koeffizienten al und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 mit den Koeffizienten cl und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 beschrieben werden.
  • Wie zuvor beschrieben, umfasst in der zweiten Ausführungsform die Servo-Steuervorrichtung 100 den Doppeldifferenzierer 112, die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und den Schalter 114, wobei der Schalter 114 gemäß dem Signal von der Anomalie-Erfassungseinheit 109 abgeschaltet wird, und die Maschinenlernvorrichtung 200 erkennt, dass eine Anomalie auf der Grundlage des Kompensationsstoppbenachrichtigungssignals von der Anomalie-Erfassungseinheit 109 erfasst wird. Beim Erkennen, dass eine Anomalie erfasst wird, kann die Maschinenlernvorrichtung 200 die Koeffizienten ci und dj der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 im Zustand S auf das Lernen als Kompensationsparameter anwenden, mit denen der Servomotor 106 anomal arbeitet. In diesem Fall wird, wie zuvor beschrieben, das Bearbeitungsprogramm zum Lernen des Zustands S betrieben, während die Kompensation angehalten wird und bis das Bearbeitungsprogramm beendet ist, und die Maschinenlernvorrichtung 200 beendet den Lernvorgang für den Zustand S. Mit der Einstellung der Kompensationsparameter (den Koeffizienten ci und dj) wird die Geschwindigkeitsvorsteuerungsbedingung der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 eingestellt. Anschließend sucht die Lerneinheit 200 nach neuen Koeffizienten für das nächste Lernen, wählt die nächsten Aktionsinformationen aus, stellt die Koeffizienten auf die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 ein und überträgt ein Koeffizienteneinstellbenachrichtigungssignal an die Anomalie-Erfassungseinheit 109, die angibt, dass neue Koeffizienten der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 eingestellt wurden. Dadurch wird der Lernvorgang auf der Grundlage der nächsten Aktion begonnen. Wie zuvor beschrieben, kann die Maschinenlernvorrichtung der vorliegenden Ausführungsform beim maschinellen Erlernen der Kompensationserzeugungseinheit 110 das maschinelle Lernen fortsetzen, sodass auch auf Auswahl eines unangemessenen Kompensationswertes Situationen verhindert werden, in denen Vibrationen in einem Motor oder einer Bearbeitungsstelle auftreten, wodurch ein effektives Lernen verhindert wird, oder in denen eine Werkzeugmaschine oder dergleichen durch eine Warnung gestoppt oder abgeschaltet wird, wodurch das Lernen unterbrochen wird.
  • Im Nachfolgenden wird der Betrieb der Maschinenlernvorrichtung 200 der zweiten Ausführungsform beschrieben. Es wird auf eine ausführliche Beschreibung der Vorgänge, die sich auf die Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 der Maschinenlernvorrichtung 200 beziehen, verzichtet, das sie durch Ersetzen der Positionsvorsteuerungs-Verarbeitungseinheit 116 mit der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 im Prozessablauf der Maschinenlernvorrichtung 200, der in 6 gezeigt ist, der ersten Ausführungsform sowie durch Ersetzen der Koeffizienten ai und bj der Positionsvorsteuerungs-Verarbeitungseinheit 116 mit den Koeffizienten ci und dj der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 beschrieben werden kann.
  • (Modifikation)
  • In der zweiten Ausführungsform führt die Maschinenlernvorrichtung 200 ein Lernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 durch, und nach der Optimierung die Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 führt sie Lernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch; jedoch ist die zweite Ausführungsform nicht darauf beschränkt. Beispielsweise kann die Maschinenlernvorrichtung 200 die Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 und die Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 gleichzeitig durchführen. Wenn in diesem Fall die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, schaltet die Anomalie-Erfassungseinheit 109 die Schalter 114 und 105 gleichzeitig ein, sodass die Maschinenlernvorrichtung 200 das Lernen der Koeffizienten gleichzeitig durchführen kann. Wenn jedoch die Maschinenlernvorrichtung 200 die Koeffizienten gleichzeitig erlernt, können die zwei Lernvorgänge sich gegenseitig beeinflussen und der verarbeitete Informationsfluss zunehmen.
  • (Dritte Ausführungsform)
  • In der Steuervorrichtung 10der ersten Ausführungsform, wie in 1 gezeigt, schaltet die Anomalie-Erfassungseinheit 109, wenn die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, den Schalter 105 aus, wodurch die Kompensationserzeugungseinheit 110, die den Differenzierer 115 und die Positionsvorsteuerungs-Verarbeitungseinheit 116 aufweist, von der Positions-Rückkopplungsschleife getrennt wird. In ähnlicher Weise schaltet in der Steuervorrichtung 10A der zweiten Ausführungsform, wie in 7 gezeigt, in dem Fall, in dem die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, die Anomalie-Erfassungseinheit 109 den Schalter 114 aus, wodurch der Doppeldifferenzierer 112 und die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 von der Geschwindigkeitsrückkopplungsschleife getrennt werden, während der Schalter 105 abgeschaltet wird, wodurch der Differenzierer 115 und die Positionsvorsteuerungs-Verarbeitungseinheit 116 von der Positionsrückkopplungsschleife getrennt werden.
  • Im Gegensatz dazu wurde in einer Steuervorrichtung der dritten Ausführungsform, wenn die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, nur die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und/oder die Positionsvorsteuerungs-Verarbeitungseinheit 116 in der Kompensationserzeugungseinheit, die einen Abschnitt darstellt, in dem die Maschinenlernvorrichtung 200 lernt, getrennt. 8 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung gemäß der dritten Ausführungsform der vorliegenden Erfindung darstellt. Die in 8 dargestellten Komponenten, die jenen der Steuervorrichtung der 7 entsprechen, werden mit den gleichen Bezugszeichen gekennzeichnet, und es wird auf eine Beschreibung derselben verzichtet.
  • In der vorliegenden Ausführungsform, wie in 8 gezeigt, umfasst eine Servo-Steuervorrichtung 100B einen Schalter 118, der anstelle des Schalters 114 zwischen dem Doppeldifferenzierer 112 und der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 angeordnet ist. Ferner umfasst die Servo-Steuervorrichtung 100B einen Schalter 119, der anstelle des Schalters 105 zwischen dem Differenzierer 115 und der Positionsvorsteuerungs-Verarbeitungseinheit 116 angeordnet ist. Der Schalter 118 schaltet den Doppeldifferenzierer 112 derart, dass er mit der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 oder dem Addierer 111 verbunden ist. Der Schalter 119 schaltet den Differenzierer 115 derart, dass er mit der Positionsvorsteuerungs-Verarbeitungseinheit 116 oder dem Addierer/Subtrahierer 103 verbunden ist.
  • Wird eine Anomalie erfasst, schaltet die Anomalie-Erfassungseinheit 109 den Schalter 118 und/oder den Schalter 119 derart, dass der Doppeldifferenzierer 112 mit dem Addierer 111 verbunden ist und der Differenzierer 115 mit dem Addierer/Subtrahierer 103 verbunden ist. Aufgrund einer solchen Konfiguration wird in der vorliegenden Ausführungsform nur die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und/oder die Positionsvorsteuerungs-Verarbeitungseinheit 116, die einen Abschnitt darstellt, der von der Maschinenlernvorrichtung 200 gelernt wird, getrennt. Wen somit die Anomalie-Erfassungseinheit 109 eine Anomalie erfasst, wird die Ausgabe des Differenzierers 115 der Positionsrückkopplungsschleife derart hinzugefügt, dass eine Kompensation durchgeführt werden kann, und die Ausgabe des Doppeldifferenzierers 112 wird der Geschwindigkeitsrückkopplungsschleife hinzugefügt, sodass eine Kompensation durchgeführt werden kann.
  • Die vorliegende Ausführungsform kann sowohl auf die erste als auf die zweite Ausführungsform angewendet werden, und wenn die vorliegende Ausführungsform auf die erste Ausführungsform angewendet wird, umfasst die Servo-Steuervorrichtung den Schalter 119, der zwischen dem Differenzierer 115 und der Positionsvorsteuerungs-Verarbeitungseinheit 116 angeordnet ist. Wenn die vorliegende Ausführungsform auf einen Fall angewendet wird, in dem die Geschwindigkeitsvorsteuerungsbedingungs-Erzeugungseinheit vorgesehen ist, der eine Modifikation der ersten Ausführungsform ist, umfasst die Servo-Steuervorrichtung den Schalter 119, der zwischen dem Doppeldifferenzierer 112 und der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 vorgesehen ist. Wenn die vorliegende Ausführungsform auf die zweite Ausführungsform angewendet wird, umfasst die Servo-Steuervorrichtung den Schalter 118 und den Schalter 119.
  • (Modifikation)
  • In der vorliegenden Ausführungsform führt die Maschinenlernvorrichtung 200, wie in der zweiten Ausführungsform, wenn die Maschinenlernvorrichtung 200 das Erlernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 getrennt von dem Erlernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durchführt, das Erlernen der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 vor dem Erlernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 durch. Jedoch kann, sowie bei der Modifikation der zweiten Ausführungsform, die Maschinenlernvorrichtung 200 das Erlernen der Koeffizienten der Übertragungsfunktion der Positionsvorsteuerungs-Verarbeitungseinheit 116 und der Koeffizienten der Übertragungsfunktion der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 gleichzeitig durchführen.
  • (Vierte Ausführungsform)
  • In der zuvor beschriebenen Ausführungsform wurde das Verfahren beschrieben, bei dem die Anomalie-Erfassungseinheit 109 eine Anomalie während des Lernvorgangs der Maschinenlernvorrichtung 200 in Bezug auf eine lineare Operation erfasst, bei der die Drehrichtung des Servomotors in der X-Achsenrichtung und der Y-Achsenrichtung nicht verändert wird. Jedoch ist die vorliegende Erfindung nicht auf eine Lernvorgang während einer linearen Operation beschränkt und kann auch auf einen Lernvorgang während einer nichtlinearen Operation angewendet werden. Wie bereits beschrieben, ist beispielsweise bekannt, dass bei einer kreisförmigen Bewegung einer Werkzeugmaschine mit einem motorisch angetriebenen Vorschubsystem und einer Kugelgewindespindel als eine nichtlineare Operation während der Quadrantenumschaltung, bei der eine Bewegungsrichtung einer Achse umgekehrt wird, vorsprungförmige Bahnabweichungen (im Nachfolgenden als „Quadrantenvorsprünge“ bezeichnet) auftreten.
  • In der vierten Ausführungsform wird ein Beispiel beschrieben, bei dem die Maschinenlernvorrichtung 200 das Erlernen eines Kompensationswertes von Quadrantenvorsprüngen durchführt. 9 zeigt ein Blockdiagramm, das ein Konfigurationsbeispiel einer Steuervorrichtung der vierten Ausführungsform der vorliegenden Erfindung darstellt. In der Steuervorrichtung 10C in 9 werden die Komponenten, die jenen der Steuervorrichtung der 7 entsprechen, mit den gleichen Bezugszeichen versehen und es wird auf deren Beschreibung verzichtet. Wie in 9 gezeigt, umfasst eine Servo-Steuervorrichtung 100C eine Umkehrerfassungseinheit 121, eine Kompensationserzeugungseinheit 122, einen Schalter 123, eine Anomalie-Erfassungseinheit 124 und eine Informationseinheit 125. Die Servo-Steuervorrichtung 100C umfasst keine Anomalie-Erfassungseinheit 109, keinen Doppeldifferenzierer 112, keine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113, keinen Schalter 114, keinen Differenzierer 115, keine Positionsvorsteuerungs-Verarbeitungseinheit 116, keinen Schalter 105 und keine Informationseinheit 117, wie in 7 gezeigt.
  • Die numerische Steuerung 400 berechnet einen Positionsbefehl für eine Bearbeitungsform, wie beispielsweise die in 4 gezeigt, bei der die Ecken eines Achtecks abwechselnd mit Bögen ersetzt werden, auf der Grundlage eines Bearbeitungsprogramms während des Erlernens. Der Positionsbefehl wird in den Subtrahierer 101, die Umkehrerfassungseinheit 121 und die Maschinenlernvorrichtung 200 eingegeben. Der Subtrahierer 101 berechnet eine Differenz zwischen dem Positionsbefehl und der erfassten positionszurückgekoppelten Position, umgibt die Differenz als Positionsfehler an die Positionssteuereinheit 102 und die Maschinenlernvorrichtung 200 aus.
  • Die Umkehrerfassungseinheit 121 erfasst einen Umkehrabschnitt von dem Positionsbefehl. Beispielsweise wird eine Drehrichtung eines Motors, der einen Tisch in die Y-Achsenrichtung an die Position B2 des in 4 gezeigten Bogens bewegt, umgekehrt, und die Umkehrerfassungseinheit 121 erfasst die Umkehrung an der Position B2 auf der Grundlage des Positionsbefehls. Die Kompensationserzeugungseinheit 122 gibt einen Kompensationswert über den Schalter 123 auf der Grundlage des Umkehrerfassungssignals an den Addierer/Subtrahierer 103 aus.
  • Die Anomalie-Erfassungseinheit 124 überträgt auf der Grundlage des Drehmomentbefehls, der von der Geschwindigkeitsregeleinheit 104 ausgegeben wird, wenn der Drehmomentbefehl gleich oder größer als ein Schwellenwert ist, ein Schaltsignal derart, dass der Schalter 123 abgeschaltet wird (nichtleitender Zustand), um die Kompensation der Positionszurückführungsschleife anzuhalten. Anschließend überträgt die Anomalie-Erfassungseinheit 124 ein Kompensationsstoppsignal an die Maschinenlernvorrichtung 200, während mit Bezug auf die Operation des Bearbeitungsprogramms während des Erlernens, der Vorgang solange durchgeführt wird, bis das Bearbeitungsprogramm beendet ist, während die Kompensation angehalten ist, wie zuvor beschrieben. Danach überträgt die Maschinenlernvorrichtung 200 ein Kompensationswerteinstellbenachrichtigungssignal, um zu melden, dass der Kompensationswert der Kompensationserzeugungseinheit 122 gesucht und auf einen Kompensationswert eingestellt wird, der sich von dem Kompensationswert zum Zeitpunkt der Erfassung der Anomalie unterscheidet. Nach dem Empfangen des Kompensationswerteinstellbenachrichtigungssignals erkennt die Anomalie-Erfassungseinheit 124, dass der Kompensationswert zum Zeitpunkt des Auftretens einer Anomalie in der Maschinenlernvorrichtung 200 auf einen neuen Kompensationswert eingestellt wurde und überträgt ein Schaltsignal an den Schalter 123, sodass der Schalter 123 eingeschaltet wird (leitender Zustand), wenn ein neuer Lernvorgang beginnt.
  • Wird die Anomalie durch die Anomalie-Erfassungseinheit 124 erfasst, informiert die Informationseinheit 125 den Administrator über eine Anomalie durch Anzeigen von Informationen auf einem Flüssigkristallbildschirm, durch Beleuchten einer LED, oder durch Ausgeben eines Tons über einen Lautsprecher. Die Informationseinheit 125 kann auch eine Kommunikationseinheit sein, die über ein Netzwerk Informationen über eine Anomalie nach außen überträgt.
  • Zur Kompensation der Quadrantenvorsprünge führt die Maschinenlernvorrichtung 200 ein Lernen unter Verwendung des Positionsfehlers durch, der die Ausgabe des Subtrahierers 101 an den Positionen B2 und B4 der Bearbeitungsform in 4 darstellt, und stellt den Kompensationswert der Kompensationserzeugungseinheit 122 ein. Wenn die Anomalie-Erfassungseinheit 124 eine Anomalie erfasst und den Schalter 123 abschaltet, da der Kompensationswert nicht an den Addierer/Subtrahierer 103 ausgegeben wird, arbeitet die Servo-Steuervorrichtung 100C mit der Positionsrückkopplungsschleife und der Geschwindigkeitsrückkopplungsschleife, wodurch ihr Betrieb stabil wird.
  • Wenn die Quadrantenvorsprünge kompensiert werden, kann ein Bearbeitungsprogramm während des Lernens für die achteckige Bearbeitungsform in 3 verwendet werden. In diesem Fall wird beispielsweise die Drehrichtung eines Motors, der einen Tisch in die Y-Achsenrichtung an die in 3 gezeigte Position A2 bewegt, umgekehrt, und die Drehrichtung eines Motors, der den Tisch in die X-Achsenrichtung bewegt, wird an der Position A4 umgekehrt. Die Maschinenlernvorrichtung 200 führt ein Lernen unter Verwendung des Positionsfehlers durch, der die Ausgabe des Subtrahierers 101 an den Positionen A2 und A4 der achteckigen Bearbeitungsform in 3 darstellt und stellt den Kompensationswert der Kompensationserzeugungseinheit 122 ein, um die Quadrantenvorsprünge zu kompensieren.
  • (Fünfte Ausführungsform)
  • In der Steuervorrichtung der ersten und zweiten Ausführungsform, wenn die Anomalie-Erfassungseinheit 109 den Schalter 114 und/oder 105 von Ein auf Aus schaltet, ändern sich während des Schaltens die Positionsvorsteuerungsbedingung und/oder die Geschwindigkeitsvorsteuerungsbedingung (der Kompensationswert), die jeweils auf die Positionsrückkopplungsschleife und die Geschwindigkeitsrückkopplungsschleife angewendet werden, diskontinuierlich. Wenn ferner in der Steuervorrichtung der dritten Ausführungsform die Anomalie-Erfassungseinheit 109 den Schalter 118 und/oder 119 schaltet, ändern sich die Positionsvorsteuerungsbedingung und/oder die Geschwindigkeitsvorsteuerungsbedingung (der Kompensationswert), die auf die Positionsrückkopplungsschleife und die Geschwindigkeitsrückkopplungsschleife angewendet werden, während des Schaltens diskontinuierlich. Wenn ferner in der Steuervorrichtung der vierten Ausführungsform die Anomalie-Erfassungseinheit 124 den Schalter 123 schaltet, ändert sich der Kompensationswert während des Schaltens diskontinuierlich.
  • Der in der ersten bis vierten Ausführungsform erzeugte diskontinuierliche Kompensationswert erzeugt einen diskontinuierlichen Geschwindigkeitsbefehl und/oder einen diskontinuierlichen Drehmomentbefehl. In der vorliegenden Ausführungsform wird ein Tiefpassfilter bereitgestellt, um eine solche Diskontinuität des Kompensationswertes zu verhindern. Im Nachfolgenden wird ein Fall beschrieben, in dem die Konfiguration der vorliegenden Ausführungsform auf die erste bis vierte Ausführungsform angewendet wird.
  • Wenn die Konfiguration der vorliegenden Ausführungsform auf die Steuervorrichtung der ersten und zweiten Ausführungsform angewendet wird, wird ein Tiefpassfilter an der hinteren Stufe der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und/oder der Positionsvorsteuerungs-Verarbeitungseinheit 116 vorgesehen, um eine Diskontinuität des Kompensationswertes zu verhindern. Durch das Senden des Kompensationswertes durch den Tiefpassfilter ist es möglich, die diskontinuierlichen Werte langsam nachzuführen. 10 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 einer Servo-Steuervorrichtung gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt. 11 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe der Positionsvorsteuerungs-Verarbeitungseinheit 116 einer Servo-Steuervorrichtung gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt.
  • Wie in 10 gezeigt, ist ein Schalter 126 anstelle des Schalters 114 mit der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 verbunden. Nach dem Erhalt eines Anomalie-Erfassungssignals von der Anomalie-Erfassungseinheit 109 schaltet der Schalter 126 von einem Zustand, in dem die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 direkt mit dem Addierer 111 verbunden ist, in einen Zustand, in dem die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 über einen Tiefpassfilter 127 mit dem Addierer 111 verbunden ist, hält den Zustand für eine vorbestimmte Zeit aufrecht und schaltet anschließend in einen nicht verbundenen Zustand. Die vorbestimmte Zeitdauer kann auf der Grundlage der Zeitspanne, die eine ausreichende Konvergenz des Kompensationswertes ermöglicht, oder der Zeitkonstante des Tiefpassfilters 127 bestimmt werden.
  • Ferner ist, wie in 11 gezeigt, anstelle des Schalters 105 ein Schalter 128 mit der Positionsvorsteuerungs-Verarbeitungseinheit 116 verbunden. Nach dem Empfangen eines Anomalie-Erfassungssignals von der Anomalie-Erfassungseinheit 109 schaltet der Schalter 128 von einem Zustand, in dem die Positionsvorsteuerungs-Verarbeitungseinheit 116 direkt mit dem Addierer/Subtrahierer 103 verbunden ist, in einen Zustand, in dem Positionsvorsteuerungs-Verarbeitungseinheit 116 über einen Tiefpassfilter 129 mit dem Addierer/Subtrahierer 103 verbunden ist, hält den Zustand für eine vorbestimmte Zeitdauer aufrecht und schaltet dann in einen nicht verbundenen Zustand. Die vorbestimmte Zeitdauer kann auf der Grundlage der Zeitspanne, die eine ausreichende Konvergenz des Kompensationswertes ermöglicht, oder der Zeitkonstante des Tiefpassfilters 129 bestimmt werden. Auf diese Weise schaltet der Schalter, anstatt die Verbindung zwischen der Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 und dem Addierer 111 diskontinuierlich zu schalten, vorübergehend über den Tiefpassfilter 127 in einen verbundenen Zustand, wodurch eine langsame Konvergenz ermöglicht wird. Darüber hinaus schaltet der Schalter, anstatt die Verbindung zwischen der Positionsvorsteuerungs-Verarbeitungseinheit 116 und dem Addierer/Subtrahierer 103 diskontinuierlich zu schalten, über den Tiefpassfilter 129 vorübergehend in einen verbundenen Zustand, wodurch eine langsame Konvergenz ermöglicht wird. 12 zeigt ein Kennliniendiagramm, das eine Änderung des Kompensationswertes durch einen Positionsvorsteuerungsprozess (Position FF) oder einem Geschwindigkeitsvorsteuerungsprozess (Geschwindigkeit FF) in Abhängigkeit von dem Vorhandensein eines Filters darstellt.
  • Wenn die Konfiguration der vorliegenden Ausführungsform auf die Steuervorrichtung der dritten Ausführungsform angewendet wird, ist jeweils an der hinteren Stufe des Doppeldifferenzierers 112 und des Differenzierers 115 ein Tiefpassfilter vorgesehen, um eine Diskontinuität des Kompensationswertes zu verhindern. Durch Senden des Kompensationswertes durch den Tiefpassfilter ist es möglich, langsam an die diskontinuierlichen Werte anzuschließen. 13 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe eines Doppeldifferenzierers einer Servo-Steuervorrichtung, die eine andere Konfiguration aufweist, gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt. 14 zeigt ein Blockdiagramm, das einen Abschnitt einer Konfiguration einer hinteren Stufe eines Differenzierers einer Servo-Steuervorrichtung, der eine andere Konfiguration aufweist, gemäß der fünften Ausführungsform der vorliegenden Erfindung darstellt.
  • Wie in 13 gezeigt, wird anstelle des Schalters 118 ein Schalter 130 mit dem Doppeldifferenzierer 112 verbunden. Nach dem Empfangen eines Anomalie-Erfassungssignals von der Anomalie-Erfassungseinheit 109 schaltet der Schalter 130 von einem Zustand, in dem der Doppeldifferenzierer 112 über die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 mit dem Addierer 111 verbunden ist, in einen Zustand, in dem der Doppeldifferenzierer 112 über den Tiefpassfilter 131 mit dem Addierer 111 verbunden ist, hält den Zustand für eine vorbestimmte Zeitdauer aufrecht und verbindet anschließend den Doppeldifferenzierer 112 direkt mit dem Addierer 111. Die vorbestimmte Zeitdauer kann auf der Grundlage der Zeitspanne, die eine ausreichende Konvergenz des Kompensationswertes ermöglicht, oder der Zeitkonstante des Tiefpassfilters 131 bestimmt werden.
  • Wie in 14 gezeigt, ist anstelle des Schalters 119 ein Schalter 132 mit dem Differenzierer 115 verbunden. Nach dem Empfangen eines Anomalie-Erfassungssignals von der Anomalie-Erfassungseinheit 109 schaltet der Schalter 132 über die Positionsvorsteuerungs-Verarbeitungseinheit 116 von einem Zustand, in dem der Differenzierer 115 mit dem Addierer/Subtrahierer 103 verbunden ist, in einen Zustand, indem der Differenzierer 115 über den Tiefpassfilter 133 mit dem Addierer/Subtrahierer 103 verbunden ist, hält den Zustand für eine vorbestimmte Zeitdauer aufrecht und verbindet anschließend den Differenzierer 115 direkt mit dem Addierer/Subtrahierer 103. Die vorbestimmte Zeitdauer kann auf der Grundlage der Zeitspanne, die eine ausreichende Konvergenz des Kompensationswertes ermöglicht, oder der Zeitkonstante des Tiefpassfilters 133 bestimmt werden. Auf diese Weise schaltet der Schalter, anstatt die Verbindung zwischen dem Doppeldifferenzierer 112 und dem Addierer 111 diskontinuierlich zu schalten, vorübergehend über den Tiefpassfilter 131 in einen verbundenen Zustand, wodurch eine langsame Konvergenz ermöglicht wird. Darüber hinaus schaltet der Schalter, anstatt die Verbindung zwischen dem Differenzierer 115 und dem Addierer/Subtrahierer 103 diskontinuierlich zu schalten, vorübergehend über den Tiefpassfilter 133 in einen verbundenen Zustand, wodurch eine langsame Konvergenz ermöglicht wird. 15 zeigt ein Kennliniendiagramm, das die Änderung des Kompensationswertes durch einen Positionsvorsteuerungsprozess (Position FF) oder einen Geschwindigkeitsvorsteuerungsprozess (Geschwindigkeit FF) in Abhängig von dem Vorhandensein eines Filters darstellt.
  • Wird die Konfiguration der vorliegenden Ausführungsform auf die Steuervorrichtung der vierten Ausführungsform angewendet, ist an der hinteren Stufe der der Kompensationserzeugungseinheit 122, wie in 9 gezeigt, ein Tiefpassfilter vorgesehen, um eine Diskontinuität des Kompensationswertes zu verhindern. Durch Senden des Kompensationswertes durch den Tiefpassfilter ist es möglich, langsam an die diskontinuierlichen Werte anzuschließen. Da die Konfiguration des Tiefpassfilters und des Schalters, der auf den Tiefpassfilter schaltet, gleich sind, wie in der Konfiguration, in der die Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit 113 durch die Kompensationserzeugungseinheit 122 in 10 ersetzt wird, wird auf die Beschreibung verzichtet.
  • (Sechste Ausführungsform)
  • In der Steuervorrichtung der fünften Ausführungsform ist ein Tiefpassfilter vorgesehen, um eine Diskontinuität eines Kompensationswertes zu verhindern; jedoch kann auch ein neues Beschreiben eines Integrators der Geschwindigkeitssteuervorrichtung 104 anstelle des Vorsehens des Tiefpassfilters durchgeführt werden, sodass der Drehmomentbefehlswert, der von der Geschwindigkeitsregeleinheit 104 ausgegeben wird, kontinuierlich wird. In der vorliegenden Ausführungsform kann der in der fünften Ausführungsform beschriebene Tiefpassfilter sowie das erneute beschreiben des Integrators vorgesehen werden. In der nachfolgenden Beschreibung wird die Steuervorrichtung der zweiten Ausführungsform der 4 als Beispiel beschrieben; jedoch kann die Beschreibung auch auf die Servo-Steuervorrichtungen der ersten, dritten und vierten Ausführungsform angewendet werden.
  • 16 zeigt ein Blockdiagramm, das eine Konfiguration einer Geschwindigkeitsregeleinheit 104 der Servo-Steuervorrichtung gemäß einer sechsten Ausführungsform der vorliegenden Erfindung darstellt. Wie in 16 gezeigt, wird ein Anomalie-Erfassungssignal von der Anomalie-Erfassungseinheit 109 an einen Integrator 1041 übertragen. Wie in 16 gezeigt, umfasst die Geschwindigkeitsregeleinheit 104 einen Integrator 1041, in den ein Geschwindigkeitsfehler mit einer hinzugefügten Positionsvorsteuerungsbedingung eingegeben wird, einen Multiplizierer 1042, der einen integrierten Wert, der von dem Integrierer 1041 ausgegebenen wird, mit einem Koeffizienten Ki multipliziert, einen Multiplizierer 1043, in den der Geschwindigkeitsfehler mit der hinzugefügten Positionsvorsteuerungsbedingung eingegeben wird und der den Geschwindigkeitsfehler mit einem Koeffizienten Kv multipliziert, und einen Addierer 1044, der die Ausgabe des Multiplizierer 1042 und die Ausgabe des Multiplizierers 1043 addiert, um das Ergebnis auszugeben.
  • Die Anomalie-Erfassungseinheit 109 überträgt ein Anomalie-Erfassungssignal an den Schalter 105, schaltet den Schalter 105 von Ein auf Aus und überträgt ein Anomalie-Erfassungssignal an den Integrator 1041. Nach dem Erhalt eines Anomalie-Erfassungssignals führt der Integrator 1041 das nachfolgende erneute Beschreiben durch, um eine Diskontinuität des Kompensationswertes aufgrund des Anhaltens der Kompensation der Positionsvorsteuerungsbedingung, aufgrund des Aufschaltens des Schalter 105 zu verhindern, sodass der Drehmomentbefehlswert kontinuierlich wird. Wenn Verr ein Geschwindigkeitsfehler, kp eine proportionale Verstärkung und ki eine integrale Verstärkung sind, wird ein Drehmomentbefehl Tcmd(i) unmittelbar vor dem Anhalten der Positionsvorsteuerung (Position FF) durch die nachfolgende Gleichung 4 ausgedrückt: T c m d ( i ) = n = 0 i ( V e r r ( n ) ) × k i + V e r r ( i ) × k p
    Figure DE102019204861A1_0004
  • Ferner wird ein Drehmomentbefehl Tcmd(i+1) unmittelbar nach dem Anhalten der Positionsvorsteuerung durch die Gleichung 5 wie folgt ausgedrückt: T c m d ( i + 1 ) = n = 0 i + 1 ( V e r r ( n ) ) × k i + V e r r ( i + 1 ) × k p
    Figure DE102019204861A1_0005
  • Da Verr(i+1) unmittelbar nach dem Anhalten der Positionsvorsteuerung stark schwankt, kann es zu einer Diskontinuität zwischen Tcmd(i) und Tcmd(i+1) kommen, wodurch es zu einer Erschütterung kommt. Somit wird, wie in der Gleichung 6 gezeigt, ein Integrationsterm durch den Integrator des Drehmomentbefehls unmittelbar nach dem Anhalten der Positionsvorsteuerung wie folgt umgeschrieben: ( n = 0 i + 1 ( V e r r ( n ) ) ) ( T c m d ( i ) V e r r ( i + 1 ) × k p ) / k i
    Figure DE102019204861A1_0006
  • Anschließend wird der Drehmomentbefehl Tcmd'(i+1) mit dem umgeschriebenen Integrator durch die Gleichung 7 wie folgt ausgedrückt: T c m d ' ( i ) = ( T c m d ( i ) V e r r ( i + 1 ) × k p ) / k i × k i + V e r r ( i + 1 ) × k p = T c m d ( i )
    Figure DE102019204861A1_0007
  • Das heißt, durch das Umschreiben des Integrators 1041, da Tcmd'(i+1 = Tcmd(i) und der Drehmomentbefehl kontinuierlich verändert wird, tritt keine Erschütterung vor und nach dem Anhalten der Positionsvorsteuerung auf. Der umgeschriebene Integrator 1041 führt eine Berechnung durch Addieren von Verr(n) zu (Tcmd(i)-Verr(i+1) x kp)/ki durch. 17 zeigt ein Kennliniendiagramm, das die Änderung des Drehmomentbefehls in Abhängigkeit davon darstellt, ob der Integrator umgeschrieben wurde oder nicht.
  • Während die jeweiligen Ausführungsformen der vorliegenden Erfindung beschrieben wurden, kann die Servo-Regeleinheit der zuvor beschriebenen Servo-Steuervorrichtung und die Komponenten in der Maschinenlernvorrichtung durch Hardware, Software oder einer Kombination davon realisiert werden. Das Servo-Regelverfahren, das durch Zusammenwirken jeder der in der vorstehend beschriebenen Servo-Steuervorrichtung enthaltenen Komponenten durchgeführt wird, kann auch durch Hardware, Software oder einer Kombination davon realisiert werden. Hier bedeutet die Realisierung durch Software die Realisierung durch einen Computer, der ein Programm liest und ausführt.
  • Die Programme können auf verschiedenen Arten von nichtflüchtigen, computerlesbaren Medien gespeichert und einem Computer zur Verfügung gestellt werden. Die nichtflüchtigen, computerlesbaren Medien umfassen verschiedene Arten von physikalischen Speichermedien. Beispiele der nichtflüchtigen computerlesbaren Medien umfassen ein magnetisches Aufzeichnungsmedium (z. B. eine Diskette oder ein Festplattenlaufwerk), ein magnetooptisches Aufzeichnungsmedium (wie beispielsweise eine magnetooptische Diskette), einen CD-ROM (Festwertspeicher), einen CD-R, einen CD-R/W, einen Halbleiterspeicher (wie beispielsweise einen Masken-ROM, einen PROM (programmierbaren Festwertspeicher), einen EPROM (einen löschbaren Festwertspeicher), einen Flash-Speicher oder einen RAM (Direktzugriffsspeicher)).
  • Die zuvor beschriebenen Ausführungsformen sind bevorzugte Ausführungsformen der vorliegenden Erfindung; jedoch ist der Umfang der vorliegenden Erfindung nicht auf die Ausführungsformen alleine beschränkt, und die vorliegende Erfindung kann in verschiedenen Modifikationen verkörpert werden, ohne vom Geist der vorliegenden Erfindung abzuweichen.
  • <Modifikation, bei der die Servo-Steuervorrichtung eine Maschinenlernvorrichtung enthält>
  • In den zuvor beschriebenen Ausführungsformen sind die Maschinenlernvorrichtung 200 und die Servo-Steuervorrichtung 100, 100A, 100B oder 100C derart ausgebildet, dass sie in der Steuervorrichtung vorgesehen sind, und die Maschinenlernvorrichtung 200 und die Servo-Steuervorrichtung 100, 100A, 100B oder 100C sind als getrennte Vorrichtungen ausgebildet; jedoch können einige oder alle Funktionen der Maschinenlernvorrichtung 200 durch die Servo-Steuervorrichtung 100 realisiert werden. In den zuvor beschriebenen Ausführungsformen sind die Servo-Steuervorrichtung 100, 100A, 100B oder 100C und die numerische Steuerung 400 als getrennte Vorrichtungen ausgebildet; jedoch können einige oder alle Funktionen der Servo-Steuervorrichtung 100, 100A, 100B oder 100C durch die numerische Steuerung 400 realisiert werden. Die numerische Steuerung 400 kann die Maschinenlernvorrichtung 200 und die Servo-Steuervorrichtung 100, 100A, 100B oder 100C enthalten, und in diesem Fall bildet die numerische Steuerung 400 eine Steuervorrichtung.
  • <Freiheit in der Systemkonfiguration>
  • 18 zeigt ein Blockdiagramm, das eine Steuervorrichtung gemäß einer weiteren Ausführungsform der vorliegenden Erfindung darstellt. Wie in 18 gezeigt, umfasst eine Steuervorrichtung 100 n Servo-Steuervorrichtungen 100-1 bis 100-n, n Maschinenlernvorrichtungen 200-1 bis 200-n, ein Netzwerk 300 und numerische Steuerung 400-1 bis 400-n.
  • n ist eine freie wählbare natürliche zahl. Jede der n Servo-Steuervorrichtungen 100-1 bis 100-n entspricht einer beliebigen der Servo-Steuervorrichtungen 100 und 100A bis 100C, die in 1, 7, 8 und 9 dargestellt sind. Jede der n Maschinenlernvorrichtungen 200-1 bis 200-n entspricht einer beliebigen der Maschinenlernvorrichtungen 200, die in 1, 7, 8 und 9 dargestellt sind. Die numerische Steuerungen 400-1 bis 400-n entsprechen der numerischen Steuerung 400 und sind jeweils in den Servo-Steuervorrichtungen 100-1 bis 100-n vorgesehen. Die Servo-Steuervorrichtungen 100-1 bis 100-n können jeweils in den numerischen Steuerungen 400-1 bis 400-n enthalten sein.
  • Hier sind die Servo-Steuervorrichtung 100-1 und die Maschinenlernvorrichtung 200-1 in einer Eins-zu-Eins-Beziehung gekoppelt und kommunikativ verbunden. Die Servo-Steuervorrichtung 100-2 bis 100-n und die Maschinenlernvorrichtungen 200-2 bis 200-n sind in ähnlicher Weise wie die Servo-Steuervorrichtung 100-1 und die Maschinenlernvorrichtung 200-1 miteinander verbunden. Obwohl die n Paare der Servo-Steuervorrichtungen 100-1 bis 100-n und der Maschinenlernvorrichtungen 200-1 bis 200-n über das Netzwerk 300 in 18 verbunden sind, können die n Paare der Servo-Steuervorrichtungen 100-1 bis 100-n und der Maschinenlernvorrichtungen 200-1 bis 200-n jeweils direkt über Verbindungsschnittstellen verbunden sein. Eine Vielzahl von n Paaren der Servo-Steuervorrichtungen 100-1 bis 100-n und der Maschinenlernvorrichtungen 200-1 bis 200-n können beispielsweise in derselben Anlage oder in verschiedenen Anlagen vorgesehen sein.
  • Das Netzwerk 300 ist beispielsweise ein lokales Netzwerk (LAN), das in einer Anlage, dem Internet, einem öffentlichen Telefonnetz oder einer Kombination davon vorgesehen ist. Das bestimmte Kommunikationsschema des Netzwerks 300 sowie die Frage, ob das Netzwerk eine Kabelverbindung oder eine drahtlose Verbindung oder dergleichen verwendet, sind nicht auf bestimmte Schemata oder Verbindungen beschränkt.
  • In der in 18 gezeigten Steuervorrichtung sind die Maschinenlernvorrichtungen 200-1 bis 200-n und die Servo-Steuervorrichtungen 100-1 bis 100-n in einer Eins-zu-Eins-Beziehung kommunikativ miteinander verbunden; jedoch kann eine Maschinenlernvorrichtung 200-1 mit mehreren Servo-Steuervorrichtungen 100-1 bis 100-m (m < n oder m = n; m und n sind natürliche Zahlen) über das Netzwerk 300 kommunikativ verbunden werden; und kann ein maschinelles Lernen der Servo-Steuervorrichtungen 100-1 bis 100-m durchführen.
  • Die hierin verwendeten Werte m und n sind Werte, die sich nicht auf m und n in den Gleichungen 1 und 3 beziehen. In diesem Fall kann ein verteiltes Verarbeitungssystem eingesetzt werden, bei dem die jeweiligen Funktionen der Maschinenlernvorrichtung 200-1 gegebenenfalls auf eine Vielzahl von Servern verteilt sind. Die Funktionen der Maschinenlernvorrichtung 200-1 können durch die Verwendung einer virtuellen Serverfunktion oder dergleichen in einer Cloud realisiert werden. Wenn es mehrere Maschinenlernvorrichtungen 200-1 bis 200-n gibt, die jeweils mehreren Servo-Steuervorrichtungen 100-1 bis 100-n mit dem gleichen Typennamen, der gleichen Spezifikation oder der gleichen Serie entsprechen, können die Maschinenlernvorrichtungen 200-1 bis 200-n so konfiguriert werden, dass die Lernergebnisse in den Maschinenlernvorrichtungen 200-1 bis 200-n geteilt werden. Auf diese Weise kann ein weiteres optimales Modell erstellt werden.
  • Bezugszeichenliste
  • 10, 10A bis 10D:
    Steuervorrichtung
    100, 100A bis 100C:
    Servo-Steuervorrichtung
    101:
    Subtrahierer
    102:
    Positionsregeleinheit
    103:
    Addierer/Subtrahierer
    104:
    Geschwindigkeitssteuervorrichtung
    111:
    Addierer
    106:
    Motor
    107:
    Integrator
    108:
    Positionserfassungsprozessor
    109, 124:
    Anomalie-Erfassungseinheit
    112:
    Doppeldifferenzierer
    113:
    Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit
    114, 105, 123:
    Schalter
    115:
    Differenzierer
    116:
    Positionsvorsteuerungs-Verarbeitungseinheit
    117, 125:
    Informationseinheit
    121:
    Umkehrerfassungseinheit
    122:
    Kompensationserzeugungseinheit
    200:
    Maschinenlernvorrichtung
    201:
    Zustandsinformationserfassungseinheit
    202:
    Lerneinheit
    203:
    Aktionsinformationsausgabeeinheit
    204:
    Wertfunktionsspeichereinheit
    205:
    Optimierungsaktionsinformationsausgabeeinheit
    300:
    Netzwerk
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2006215732 [0004]

Claims (13)

  1. Maschinenlernvorrichtung (200) zum Durchführen von maschinellem Lernen im Zusammenhang mit der Optimierung eines Kompensationswertes einer Kompensationserzeugungseinheit in Bezug auf eine Servo-Steuervorrichtung (100, 100A, 100B, 100C) zum Steuern eines Servomotors (106) zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine, die mindestens eine Rückkopplungsschleife, die Kompensationserzeugungseinheit (110, 113, 116, 122) zum Erzeugen eines Kompensationswertes, der auf die Rückkopplungsschleife anzuwenden ist, und eine Anomalie-Erfassungseinheit (109, 124) zum Erfassen eines anormalen Betriebs des Servomotors umfasst, wobei während eines Maschinenlernvorgangs, wenn die Anomalie-Erfassungseinheit eine Anomalie erkennt, die Kompensation der Kompensationserzeugungseinheit gestoppt wird und die Maschinenlernvorrichtung die Optimierung des von der Kompensationserzeugungseinheit erzeugten Kompensationswertes fortsetzt.
  2. Maschinenlernvorrichtung nach Anspruch 1, wobei die Servo-Steuervorrichtung einen Schalter (105, 114, 126, 128, 130, 132) umfasst, der zwischen der Rückkopplungsschleife und dem Inneren der Kompensationserzeugungseinheit oder einer hinteren Stufe der Kompensationserzeugungseinheit vorgesehen ist, und wobei, wenn die Anomalie-Erfassungseinheit einen anormalen Betrieb erkennt, die Anomalie-Erfassungseinheit den Schalter ausschaltet und die Maschinenlernvorrichtung darüber benachrichtigt, dass die Kompensation der Rückkopplungsschleife gestoppt wird, und nach Erhalt der Benachrichtigung, dass die Kompensation der Rückkopplungsschleife gestoppt ist, die Maschinenlernvorrichtung den Kompensationswert auf das Lernen anwendet.
  3. Maschinenlernvorrichtung nach Anspruch 1 oder 2, wobei Verstärkungslernen als maschinelles Lernen durchgeführt wird, und wenn die Benachrichtigung über den Kompensationsstopp von der Anomalie-Erfassungseinheit empfangen wird, eine Belohnung angeboten wird, so dass der Kompensationswert, bei dem ein anormaler Betrieb auftritt, nicht ausgewählt wird.
  4. Maschinenlernvorrichtung nach Anspruch 3, wobei eine Wertfunktion auf der Grundlage der Belohnung aktualisiert wird, und der optimale Kompensationswert oder Einstellinformationen von Kompensationsparametern auf der Grundlage der aktualisierten Wertfunktion erzeugt und an die Kompensationserzeugungseinheit ausgegeben wird/werden.
  5. Maschinenlernvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Anomalie-Erfassungseinheit eine Anomalie erfasst, wenn ein Positionsfehler oder ein Drehmomentbefehl oder beides gleich oder größer als ein vorgegebener Schwellenwert ist.
  6. Maschinenlernvorrichtung nach einem der Ansprüche 1 bis 5, wobei die Servo-Steuervorrichtung ferner eine Informationseinheit (117, 125) umfasst, um über die Erfassung einer Anomalie zu informieren, wenn eine Anomalie von der Anomalie-Erfassungseinheit erfasst wird.
  7. Maschinenlernvorrichtung nach einem der Ansprüche 2 bis 6, wobei die Servo-Steuervorrichtung einen Tiefpassfilter (127, 129, 131, 133) umfasst, der an einer hinteren Stufe des Schalters vorgesehen ist, und den Kompensationswert beim Schalten eines Schalters durch den Tiefpassfilter leitet.
  8. Maschinenlernvorrichtung nach einem der Ansprüche 2 bis 6, wobei der Rückkopplungsschleife eine Geschwindigkeitsregeleinheit (104) mit einem Integrator (1041) zum Integrieren eines Geschwindigkeitsfehlers umfasst, und der Integrator beim Schalten durch den Schalter neu beschrieben wird.
  9. Maschinenlernvorrichtung nach einem der Ansprüche 1 bis 8, wobei die mindestens eine Rückkopplungsschleife eine Positionsrückkopplungsschleife und/oder eine Geschwindigkeitsrückkopplungsschleife umfasst, und die Kompensationserzeugungseinheit eine Positionsvorsteuerungs-Verarbeitungseinheit (116) zum Hinzufügen einer Positionsrückvorsteuerungsbedingung zu der Positionsrückkopplungsschleife und/oder eine Geschwindigkeitsvorsteuerungs-Verarbeitungseinheit (113) zum Hinzufügen eines Geschwindigkeitsvorsteuerungsbedingung zu der Geschwindigkeitsrückkopplungsschleife umfasst.
  10. Maschinenlernvorrichtung nach einem der Ansprüche 1 bis 8, wobei die mindestens eine Rückkopplungsschleife eine Positionsrückkopplungsschleife ist, und die Kompensationserzeugungseinheit eine Kompensation beim Umkehren des Servomotors erzeugt.
  11. Steuervorrichtung, umfassend: die Maschinenlernvorrichtung (200) nach einem der Ansprüche 1 bis 10; und eine Servo-Steuervorrichtung (100, 100A, 100B, 100C) zum Steuern eines Servomotors zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine, die mindestens eine Rückkopplungsschleife, eine Kompensationserzeugungseinheit (110, 113, 116, 122) zum Erzeugen einer Kompensation, die auf die Rückkopplungsschleife anzuwenden ist, und eine Anomalie-Erfassungseinheit (109, 124) zum Erfassen eines anormalen Betriebs des Servomotors umfasst.
  12. Steuervorrichtung nach Anspruch 11, wobei die Maschinenlernvorrichtung in der Servo-Steuervorrichtung enthalten ist.
  13. Maschinenlernverfahren für eine Maschinenlernvorrichtung (200) zum Durchführen von maschinellem Lernen im Zusammenhang mit der Optimierung eines Kompensationswertes, der auf mindestens eine Rückkopplungsschleife in Bezug auf eine Servo-Steuervorrichtung (100, 100A, 100B, 100C) anzuwenden ist, zum Steuern eines Servomotors (106) zum Antreiben einer Achse einer Werkzeugmaschine, eines Roboters oder einer Industriemaschine und zum Erzeugen einer Kompensation, die auf die mindestens eine Rückkopplungsschleife anzuwenden ist, und zum Erfassen eines abnormalen Betriebs des Servomotors, wobei während eines Maschinenlernvorgangs, wenn die Servo-Steuervorrichtung eine Anomalie feststellt, die Kompensation, die auf den mindestens eine Rückkopplungsschleife anzuwenden ist, gestoppt wird, und die Maschinenlernvorrichtung die Optimierung des Kompensationswertes fortsetzt.
DE102019204861.7A 2018-04-13 2019-04-05 Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren Active DE102019204861B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-077558 2018-04-13
JP2018077558A JP6740277B2 (ja) 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法

Publications (2)

Publication Number Publication Date
DE102019204861A1 true DE102019204861A1 (de) 2019-10-17
DE102019204861B4 DE102019204861B4 (de) 2021-09-30

Family

ID=68053035

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019204861.7A Active DE102019204861B4 (de) 2018-04-13 2019-04-05 Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren

Country Status (4)

Country Link
US (1) US10877442B2 (de)
JP (1) JP6740277B2 (de)
CN (1) CN110376965B (de)
DE (1) DE102019204861B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021116393A1 (de) 2021-06-24 2022-12-29 Ifm Electronic Gmbh Computerimplementiertes Verfahren zur Ausführung einer Steuerung mit Anomalie-Erkennung

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110088775B (zh) * 2016-11-04 2023-11-07 渊慧科技有限公司 使用加强学习的环境预测
JP6703021B2 (ja) * 2018-02-20 2020-06-03 ファナック株式会社 サーボ制御装置
US11429869B2 (en) * 2019-11-21 2022-08-30 International Business Machines Corporation Artificially intelligent interaction agent
CN114728411A (zh) * 2019-11-25 2022-07-08 三菱电机株式会社 控制装置和机器人系统
US11316583B2 (en) * 2019-12-09 2022-04-26 Intelligent Fusion Technology, Inc. Predistorter, predistorter controller, and high power amplifier linearization method
US20210178600A1 (en) 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
US11584004B2 (en) * 2019-12-17 2023-02-21 X Development Llc Autonomous object learning by robots triggered by remote operators
JP7326177B2 (ja) * 2020-01-31 2023-08-15 住友重機械工業株式会社 射出成形機の調整装置、及び射出成形機
WO2023012902A1 (ja) 2021-08-03 2023-02-09 ファナック株式会社 サーボモータ制御装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215732A (ja) 2005-02-02 2006-08-17 Fanuc Ltd 数値制御装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852018A (en) * 1987-01-07 1989-07-25 Trustees Of Boston University Massively parellel real-time network architectures for robots capable of self-calibrating their operating parameters through associative learning
JPH08234826A (ja) * 1995-02-22 1996-09-13 Hitachi Ltd 制御装置のシミュレーション装置
JP3552158B2 (ja) * 1999-04-08 2004-08-11 富士通株式会社 記憶装置
US7062411B2 (en) * 2003-06-11 2006-06-13 Scientific Systems Research Limited Method for process control of semiconductor manufacturing equipment
JP4042058B2 (ja) * 2003-11-17 2008-02-06 株式会社デンソー 内燃機関用燃料噴射装置
KR100636220B1 (ko) * 2005-01-22 2006-10-19 삼성전자주식회사 화상 형성 장치에 공급되는 매체 속도 제어 장치 및 방법
JP4647393B2 (ja) * 2005-05-23 2011-03-09 富士重工業株式会社 空燃比センサの異常診断装置
JP4741637B2 (ja) * 2008-06-30 2011-08-03 ファナック株式会社 サーボモータの駆動制御装置及び駆動制御方法
CN102122132A (zh) * 2010-01-11 2011-07-13 北京航空航天大学 一种基于模糊神经网络的用于环境模拟系统的智能控制系统
US8767343B1 (en) * 2012-04-24 2014-07-01 Western Digital Technologies, Inc. Disk drive increasing integrator output range to complete seek operation
JP5886717B2 (ja) * 2012-08-31 2016-03-16 オークマ株式会社 繰返し学習位置制御装置
US9785139B2 (en) * 2013-03-07 2017-10-10 Makino Milling Machine Co., Ltd. Working machine feed axis control method and feed axis control device
JP5650814B1 (ja) * 2013-07-05 2015-01-07 ファナック株式会社 フィードフォワード制御を備えたモータ制御装置
KR101972635B1 (ko) * 2013-11-08 2019-04-25 도시바 미쓰비시덴키 산교시스템 가부시키가이샤 생산 라인의 시뮬레이션 장치
JP5890472B2 (ja) * 2014-06-13 2016-03-22 ファナック株式会社 周期動作サイクルに同期した重畳サイクルを重畳させる機能を有する数値制御装置
JP6193961B2 (ja) 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
JP6544219B2 (ja) * 2015-11-30 2019-07-17 オムロン株式会社 制御装置
JP6333868B2 (ja) * 2016-01-21 2018-05-30 ファナック株式会社 セル制御装置、及び製造セルにおける複数の製造機械の稼働状況を管理する生産システム
JP6342935B2 (ja) * 2016-03-29 2018-06-13 ファナック株式会社 揺動切削を行う工作機械のサーボ制御装置、制御方法及びコンピュータプログラム
JP6140331B1 (ja) 2016-04-08 2017-05-31 ファナック株式会社 主軸または主軸を駆動するモータの故障予知を学習する機械学習装置および機械学習方法、並びに、機械学習装置を備えた故障予知装置および故障予知システム
JP6506219B2 (ja) * 2016-07-21 2019-04-24 ファナック株式会社 モータの電流指令を学習する機械学習器,モータ制御装置および機械学習方法
JP6412075B2 (ja) * 2016-09-08 2018-10-24 ファナック株式会社 サーボモータ制御装置、サーボモータ制御方法、及びサーボモータ制御用プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215732A (ja) 2005-02-02 2006-08-17 Fanuc Ltd 数値制御装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021116393A1 (de) 2021-06-24 2022-12-29 Ifm Electronic Gmbh Computerimplementiertes Verfahren zur Ausführung einer Steuerung mit Anomalie-Erkennung

Also Published As

Publication number Publication date
CN110376965B (zh) 2022-06-14
DE102019204861B4 (de) 2021-09-30
US10877442B2 (en) 2020-12-29
CN110376965A (zh) 2019-10-25
US20190317457A1 (en) 2019-10-17
JP6740277B2 (ja) 2020-08-12
JP2019185529A (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
DE102019204861B4 (de) Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren
DE102018203702B4 (de) Vorrichtung für maschinelles Lernen, Servo-Regelungsvorrichtung, Servo-Regelungssystem und Verfahren für maschinelles Lernen
DE102018205015B4 (de) Einstellvorrichtung und Einstellverfahren
DE102018203956B4 (de) Maschinelle Lernvorrichtung, Servosteuerungsvorrichtung, Servosteuerungssystem und maschinelles Lernverfahren
DE102016010064B4 (de) Numerische Steuerung mit Bearbeitungsbedingungsanpassungsfunktion zum Verringern des Auftretens von Rattern oder Werkzeugverschleiss/-bruch
DE102006045429B4 (de) Adaptive, Modellprädiktive Online-Steuerung in einem Prozesssteuerungssystem
DE102018209951A1 (de) Maschinenlerngerät, servosteuergerät, servosteuersystem und maschinenlernverfahren
DE102018003769B4 (de) Vorrichtung für maschinelles Lernen, Servosteuersystem und Verfahren zum maschinellen Lernen
DE10341764B4 (de) Integrierte Modell-Vorhersagesteuerung und -Optimierung innerhalb eines Prozesssteuerungssystems
DE102018211148A1 (de) Maschinenlernvorrichtung, servomotor- regeleinrichtung, servomotor-regelsystem und maschinenlernverfahren
DE102019204949A1 (de) Maschinelle lernvorrichtung, steuervorrichtung und maschinelles lernverfahren
DE102019200080A1 (de) Vorrichtung für maschinelles Lernen, Servomotor-Steuereinrichtung, Servomotor-Steuersystem und Verfahren für maschinelles Lernen
DE102018205185B4 (de) Steuereinrichtung
DE102018200794A1 (de) Aktionsinformationslernvorrichtung, aktionsinformationsoptimierungssystem und aktionsinformationslernprogramm
DE102018201157B4 (de) Lernmodell-Konstruktionsvorrichtung und Steuerinformations-Optimierungsvorrichtung
DE102020204854A1 (de) Vorrichtung für maschinelles Lernen, numerisches Steuersystem undVerfahren für maschinelles Lernen
DE102019217130A1 (de) Ausgabevorrichtung, steuervorrichtung und verfahren zum ausgeben von bewertungsfunktionen und maschinellen lernergebnissen
DE102019209104A1 (de) Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert
DE102019202701A1 (de) Einstelleinrichtung und Einstellverfahren
DE102019201758A1 (de) Vorrichtung für maschinelles lernen; vorrichtung zurservosteuerung; system zur servosteuerung; undverfahren für maschinelles lernen
DE102018004048A1 (de) Steuerung und Maschinenlernvorrichtung
DE102019216081A1 (de) Ausgabevorrichtung, Steuervorrichtung und Verfahren zum Ausgeben eines Lernparameters
DE112017000153B4 (de) Steuerparameter-Einstellvorrichtung
DE102020203758A1 (de) Maschinenlernvorrichtung, steuervorrichtung und verfahren zummaschinenlernen
DE102020122373A1 (de) Vorrichtung für maschinelles Lernen, Servosteuervorrichtung, Servosteuersystem und Verfahren für maschinelles Lernen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final