DE102016117773B4

DE102016117773B4 - Werkzeugmaschine, die eine optimale Beschleunigung/Verlangsamung erzeugt, Simulationsvorrichtung und Maschinenlernvorrichtung

Info

Publication number: DE102016117773B4
Application number: DE102016117773.3A
Authority: DE
Inventors: Daijirou Koga
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2015-09-28
Filing date: 2016-09-21
Publication date: 2019-08-29
Anticipated expiration: 2036-09-22
Also published as: US10261497B2; US20170090459A1; JP2017068325A; CN106557075B; JP6219897B2; CN106557075A; DE102016117773A1

Abstract

Werkzeugmaschine (1), die zumindest eine Achse auf Basis eines durch ein Programm befohlenen Befehlspfads eines Werkzeugs antreibt, um eine Bearbeitung eines Werkstücks vorzunehmen, wobei die Werkzeugmaschine (1)
einen Betriebsbewertungsabschnitt (3), der einen Betrieb der Werkzeugmaschine (1) bewertet und Bewertungsdaten ausgibt; und
eine Maschinenlernvorrichtung (20), die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes der Achse vornimmt,
umfasst, wobei die Maschinenlernvorrichtung (20)
einen Zustandsbeobachtungsabschnitt (21), der Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine (1) beinhalten, als Zustandsdaten und die von dem Betriebsbewertungsabschnitt (3) ausgegebenen Bewertungsdaten erlangt,
einen Belohnungsbedingungsfestlegeabschnitt (23), der eine Belohnungsbedingung festlegt,
einen Belohnungsberechnungsabschnitt (24), der auf Basis der durch den Zustandsbeobachtungsabschnitt (21) erlangten Zustandsdaten eine Belohnung berechnet,
einen Bewegungsausmaßregulierungslernabschnitt (25), der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und
einen Bewegungsausmaßausgabeabschnitt (27), der das Bewegungsausmaß der Achse auf Basis des Ergebnisses des Maschinenlernens der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt (25) und der Zustandsdaten so bestimmt, dass eine Beschleunigung des Werkzeugs optimal wird, und das bestimmte Bewegungsausmaß ausgibt,
aufweist, und
der Bewegungsausmaßregulierungslernabschnitt (25) so ausgebildet ist, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt (21) nach einem Betrieb der Werkzeugmaschine (1) auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten, und der durch den Belohnungsberechnungsabschnitt (23) berechneten Belohnung vornimmt, wobei
der Belohnungsberechnungsabschnitt (23) eine positive Belohnung berechnet, wenn eine kombinierte Geschwindigkeit der Achse erhöht wird, und eine negative Belohnung berechnet, wenn ein Werkzeug von dem Befehlspfad abweicht, wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit des Werkzeugs groß ist, und wenn es bei der Werkzeugmaschine (1) zu einem Anprall kommt.

Description

Die vorliegende Erfindung betrifft eine Werkzeugmaschine und insbesondere eine Werkzeugmaschine, die bei der Steuerung jeder Achse eine optimale Beschleunigung/Verlangsamung erzeugt, sowie entsprechende Simulationsvorrichtungen und Maschinenlernvorrichtungen.
Bei der herkömmlichen Bearbeitung einer Komponente, einer Form oder dergleichen wird ein Bearbeitungsprogramm erzeugt und eine Werkzeugmaschine auf Basis des erzeugten Bearbeitungsprogramms so gesteuert, dass sie die Bearbeitung vornimmt. Eine Bearbeitungsgeschwindigkeit zur Vornahme der Bearbeitung wird in dem Bearbeitungsprogramm als eine Bewegungsgeschwindigkeit einer Achse befohlen, wobei es sich um eine Maximalgeschwindigkeit der relativen Bewegung (Werkzeugbewegung) zwischen einem Werkzeug und einem Bearbeitungsobjekt handelt. Doch tatsächlich werden zur Zeit des Beginns der Bearbeitung, oder in einem Eckenbereich, einem Krümmungsbereich oder dergleichen Bewegungsdaten an eine Werkzeugmaschine ausgegeben, in denen eine Bewegungsgeschwindigkeit jeder Achse gemäß einer Beschleunigungs/Verlangsamungs-Zeitkonstanten jeder Achse verändert ist. Und obwohl für ein Bearbeitungsobjekt ein zulässiger Fehler und eine Zielbearbeitungszeit bestehen, reguliert ein Betreiber einer Werkzeugmaschine den zulässigen Fehler und die Zielbearbeitungszeit unter Verifikation der Bearbeitungsoberflächenqualität des Bearbeitungsobjekts durch Ändern einer Beschleunigungs/Verlangsamungs-Zeitkonstanten oder Ändern einer in einem Programm befohlenen Geschwindigkeit. Es ist zu beachten, dass in der Beschreibung die Bearbeitungsgenauigkeit, die einen Fehler in der Form eines tatsächlichen Bearbeitungsobjekts in Bezug auf eine Befehlsposition, d.h., den Grad, bis zu dem eine Formveränderung des Bearbeitungsobjekts sanft ist (ein Kratzer oder ein Knick unauffällig ist), angibt, als Bearbeitungsoberflächenqualität bezeichnet wird.
Als verwandte Technik, die mit der Regulierung von Parametern wie einer Beschleunigungs/Verlangsamungs-Zeitkonstanten und einer Geschwindigkeit bei einer solchen Bearbeitung verbunden ist, offenbart die JP 2003-058 218 A ein Verfahren zur Regulierung von Parametern, bei dem mehrere Arten von Parametern, die bei der Bearbeitung reguliert werden können, vorbereitet und als Parametersatz verwendet werden. Ferner offenbart die JP 2006-043 836 A ein Verfahren zur Einstellung von Bearbeitungsbedingungen, bei dem die Erzeugung einer Bearbeitungspfadinformation und die Einstellung von Bearbeitungsbedingungen zur Verringerung einer Bearbeitungszeit unter Berücksichtigung der Bearbeitungsgenauigkeit unter Verwendung eines Bearbeitungsmusters vorgenommen werden.
Im Allgemeinen kann eine Erhöhung der Bearbeitungsoberflächenqualität an einem Eckenbereich oder einem Krümmungsbereich auf eine solche Weise verwirklicht werden, dass eine Beschleunigung/Verlangsamung zur Steuerung eines Werkzeugs bei der Vornahme der Bearbeitung als Ganzes verringert wird, doch wird dadurch eine gesamte Bearbeitungsgeschwindigkeit verringert. Andererseits kann eine Beschleunigung/Verlangsamung so festgelegt werden, dass sie als Ganzes hoch ist, um die Bearbeitungsgeschwindigkeit zu erhöhen. Doch wenn ein Werkzeug durch eine derartige Einstellung an einem Eckenbereich oder in der Nähe eines Krümmungsbereichs rasch verlangsamt und beschleunigt wird, besteht die Wahrscheinlichkeit, dass in der Maschine eine Schwingung auftritt, wodurch die Bearbeitungsoberflächenqualität verschlechtert wird (die Bearbeitungsoberfläche zerkratzt wird).
8A und 8B sind Diagramme, die jeweils ein Beispiel zeigen, bei dem in einem Eckenbereich eines Werkzeugpfads, der durch ein Bearbeitungsprogramm befohlen wird, plötzlich eine Beschleunigung/Verlangsamung auftritt.
Wenn sich die Geschwindigkeit eines Werkzeugs bei verschiedenen Bearbeitungen wie etwa dem in 8A gezeigten Drehen an einer Drehbank und dem in 8B gezeigten Bohren plötzlich verändert, kommt es aufgrund des Einflusses der Änderung zu Schwingungen in der Maschine, die eine Verschlechterung der Bearbeitungsoberflächenqualität in einem Eckenbereich oder einem Krümmungsbereich verursachen. Wenn eine Beschleunigung/Verlangsamung unter Finden eines Ausgleichs zwischen der Verbesserung der Bearbeitungsoberflächenqualität und der Verringerung der Bearbeitungszeit unter Berücksichtigung jedes Elements, das mit der Bewegung einer Achse verbunden ist, vorgenommen wird, um diese Erscheinung zu verhindern, muss der Betreiber viel Mühe aufwänden und kann es sein, dass er dennoch nicht in der Lage ist, die Geschwindigkeit oder die Beschleunigung zu optimieren.
Was diese Probleme betrifft, können die Techniken des Stands der Technik, die in der JP 2003-058 218 A und in der JP 2006-043 836 A offenbart sind, nur Situationen behandeln, die einem vorbereiteten Parametersatz oder einem Bearbeitungsmuster entsprechen, doch können sie nicht flexibel mit einer Vielfalt von Situationen umgehen.
Die DE 10 2016 008 994 A1 zeigt eine Werkzeugmaschine mit einem Betriebsbeurteilungsabschnitt, der Beurteilungsdaten zu einem Betrieb der Werkzeugmaschine ausgibt, und einem Maschineneinlerngerät, das ein Einlernen der Maschine des Bewegungsumfangs einer Achse durchführt.
Die US 2015/0094846 A1 zeigt eine Steuervorrichtung für eine Maschine die eine Optimierung eines technischen Problems ermöglicht.
Die US 2011/0010073 A1 zeigt eine Motorregeleinheit wobei die Regelung über Kalibrierungsdaten verändert werden kann.
KURZDARSTELLUNG DER ERFINDUNG
Angesichts der obigen Umstände hat die vorliegende Erfindung die Aufgabe, eine Werkzeugmaschine bereitzustellen, die bei der Steuerung jeder Achse eine optimale Beschleunigung/Verlangsamung erzeugt, sowie entsprechende Simulationsvorrichtungen und Maschinenlernvorrichtungen.
Diese Aufgabe wird durch eine Werkzeugmaschine mit den Merkmalen von Anspruch 1, eine Simulationsvorrichtung mit den Merkmalen von Anspruch 4 und eine Maschinenlernvorrichtung mit den Merkmalen von Anspruch 5 gelöst. Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Bei der vorliegenden Erfindung wird ein Veränderungsausmaß von einer Position einer Achse einer Werkzeugmaschine zu einer bestimmten Zeit zu einer Position der Achse im nächsten Augenblick erhalten. Bei einem solchen Veränderungsausmaß handelt es sich um Daten, die als ein von einer numerischen Steuereinheit ausgegebener Befehlsimpuls bezeichnet werden. Herkömmlich kann es sein, dass kein optimales Veränderungsausmaß erhalten wird, da ein Techniker eines Werkzeugmaschinenherstellers zur Vornahme einer Regulierung eine Beschleunigungs/Verlangsamungs-Zeitkonstante für jede Achse festlegt. Daher wird ein Bewegungsausmaß einer Achse optimiert, um eine Bewegung eines Werkzeugs mit einer geringeren Beschleunigungsveränderung zu verwirklichen, ohne eine Zeit für jede Bearbeitung stark zu verändern, wodurch eine qualitativ hochwertige Bearbeitung verwirklicht wird.
Die Werkzeugmaschine treibt zumindest eine Achse auf Basis eines durch ein Programm befohlenen Befehlspfads eines Werkzeugs an, um eine Bearbeitung eines Werkstücks vorzunehmen. Die Werkzeugmaschine weist einen Betriebsbewertungsabschnitt, der einen Betrieb der Werkzeugmaschine bewertet und Bewertungsdaten ausgibt; und eine Maschinenlernvorrichtung, die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes der Ache vornimmt, auf. Die Maschinenlernvorrichtung weist einen Zustandsbeobachtungsabschnitt, der Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine beinhalten, als Zustandsdaten und die von dem Betriebsbewertungsabschnitt ausgegebenen Bewertungsdaten erlangt, einen Belohnungsbedingungsfestlegeabschnitt, der eine Belohnungsbedingung festlegt, einen Belohnungsberechnungsabschnitt, der auf Basis der durch den Zustandsbeobachtungsabschnitt erlangten Zustandsdaten eine Belohnung berechnet, einen Bewegungsausmaßregulierungslernabschnitt, der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und einen Bewegungsausmaßausgabeabschnitt, der das Bewegungsausmaß der Achse auf Basis des Ergebnisses des Maschinenlernens der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt und der Zustandsdaten so bestimmt, dass eine Beschleunigung des Werkzeugs optimal wird, und das bestimmte Bewegungsausmaß ausgibt, auf. Der Bewegungsausmaßregulierungslernabschnitt ist so ausgebildet, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt nach einem Betrieb der Werkzeugmaschine auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten und der durch den Belohnungsberechnungsabschnitt berechneten Belohnung vornimmt.
Der Belohnungsberechnungsabschnitt berechnet eine positive Belohnung, wenn eine kombinierte Geschwindigkeit der Achse erhöht wird, und eine negative Belohnung, wenn ein Werkzeug von dem Befehlspfad abweicht, wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit des Werkzeugs groß ist, und wenn es bei der Werkzeugmaschine zu einem Anprall kommt.
Die Werkzeugmaschine kann an zumindest eine andere Werkzeugmaschine angeschlossen sein und einen Austausch oder eine gemeinsame Verwendung des Maschinenlernergebnisses mit der anderen Werkzeugmaschine vornehmen.
Der Bewegungsausmaßregulierungslernabschnitt kann so ausgebildet sein, dass er das Maschinenlernen unter Verwendung des regulierten Bewegungsausmaßes der Achse und einer Bewertungsfunktion, in der die durch den Zustandsbeobachtungsabschnitt erlangten Zustandsdaten durch ein Argument ausgedrückt sind, so vornimmt, dass die Belohnung maximal wird.
Eine Simulationsvorrichtung simuliert eine Werkzeugmaschine, die zumindest eine Achse auf Basis eines durch ein Programm befohlenen Befehlspfads eines Werkzeugs antreibt, um eine Bearbeitung eines Werkstücks vorzunehmen. Die Simulationsvorrichtung weist einen Betriebsbewertungsabschnitt, der einen Simulationsbetrieb der Werkzeugmaschine bewertet und Bewertungsdaten ausgibt; und eine Maschinenlernvorrichtung, die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes der Ache vornimmt, auf. Die Maschinenlernvorrichtung weist einen Zustandsbeobachtungsabschnitt, der simulierte Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine beinhalten, als Zustandsdaten und die von dem Betriebsbewertungsabschnitt ausgegebenen Bewertungsdaten erlangt, einen Belohnungsberechnungsabschnitt, der auf Basis der durch den Zustandsbeobachtungsabschnitt erlangten Zustandsdaten eine Belohnung berechnet, einen Bewegungsausmaßregulierungslernabschnitt, der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und einen Bewegungsausmaßausgabeabschnitt, der das Bewegungsausmaß der Achse auf Basis des Ergebnisses des Maschinenlernens der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt und der Zustandsdaten so bestimmt, dass eine Beschleunigung des Werkzeugs optimal wird, und das bestimmte Bewegungsausmaß ausgibt, auf Der Bewegungsausmaßregulierungslernabschnitt ist so ausgebildet, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt nach einem Simulationsbetrieb der Werkzeugmaschine auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten und der durch den Belohnungsberechnungsabschnitt berechneten Belohnung vornimmt.
Eine Maschinenlernvorrichtung, die ein Maschinenlernen einer Regulierung eines Bewegungsausmaßes von zumindest einer Achse einer Werkzeugmaschine vorgenommen hat, weist einen Lernergebnisspeicherabschnitt, der ein Maschinenlernergebnis einer Bestimmung des Bewegungsausmaßes der Achse speichert; einen Zustandsbeobachtungsabschnitt, der Zustandsdaten erlangt, die zumindest eine Achsenposition der Achse der Werkzeugmaschine beinhalten; und einen Bewegungsausmaßausgabeabschnitt, der das Bewegungsausmaß der Achse auf Basis des in dem Lernergebnisspeicherabschnitt gespeicherten Maschinenlernergebnisses und den Zustandsdaten so bestimmt, dass eine Beschleunigung eines Werkzeugs der Werkzeugmaschine optimal wird, und das bestimmte Bewegungsausmaß ausgibt, auf. Nach Ausführungsformen der vorliegenden Erfindung wird es durch die Aufnahme des Maschinenlernens in die Bestimmung eines optimalen Bewegungsausmaßes jeder Achse möglich, jede Achse mit einer optimalen Beschleunigung/Verlangsamung zu steuern und eine Bearbeitung eines Werkstücks unter Aufrechterhalten der Bearbeitungsoberflächenqualität in einem kürzeren Zeitraum zu verwirklichen.
Figurenliste
Die obigen und andere Aufgaben und Merkmale der vorliegenden Erfindung werden aus der Beschreibung der folgenden Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen offensichtlich werden, wobei

1A und 1B Diagramme zur Beschreibung eines Beispiels sind, bei dem eine Beschleunigung/Verlangsamung jeder Achse bei der Bearbeitung eines Werkstücks durch die Aufnahme einer Maschinenlernvorrichtung in eine Werkzeugmaschine nach der vorliegenden Erfindung optimiert wird;
2 ein Diagramm zur Beschreibung des grundlegenden Konzepts eines bestärkenden Lernalgorithmus ist;
3 ein Bilddiagramm im Hinblick auf das Maschinenlernen der Werkzeugmaschine nach einer Ausführungsform der vorliegenden Erfindung ist;
4 ein Diagramm zur Beschreibung der einzelnen Daten im Hinblick auf jede Achse der Werkzeugmaschine bei der Ausführungsform ist;
5 ein Funktionsblockdiagramm der Werkzeugmaschine nach der Ausführungsform der vorliegenden Erfindung ist;
6 ein Ablaufdiagramm zur Beschreibung des durch die Maschinenlernvorrichtung von 5 vorgenommenen Maschinenlernens ist;
7 ein Funktionsblockdiagramm einer Simulationsvorrichtung nach einer Ausführungsform der vorliegenden Erfindung ist;
8A und 8B Diagramme zur Beschreibung der Verringerung der Bearbeitungsoberflächenqualität bei der Bearbeitung eines Werkstücks sind.

AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Bei der vorliegenden Erfindung wird eine Maschinenlernvorrichtung, die als künstliche Intelligenz wirkt, in eine Werkzeugmaschine, die ein Werkstück bearbeitet, aufgenommen, und wird ein Maschinenlernen bezüglich der Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse der Werkzeugmaschine bei der Bearbeitung des Werkstücks auf Basis eines Bearbeitungsprogramms vorgenommen, wodurch die Beschleunigung/Verlangsamung (eine Veränderung eines Bewegungsausmaßes) jeder Achse der Werkzeugmaschine wie in 1A und 1B gezeigt so reguliert wird, dass sie bei der Bearbeitung des Werkstücks zu jeder Zeit optimal ist. Bei der Regulierung der Beschleunigung/Verlangsamung jeder Achse wird auf eine schnellere Bewegung eines Werkzeugs, das Vermeiden einer Abweichung von dem Werkzeugpfad, und das Vermeiden des Auftretens eines Anpralls abgezielt. Daher wird die Bearbeitung eines Werkstücks unter Aufrechterhalten seiner Bearbeitungsoberflächenqualität in einem kürzeren Zeitraum verwirklicht.
Nachstehend wird eine kurze Beschreibung des Maschinenlernens, das in eine Werkzeugmaschine nach der vorliegenden Erfindung eingebracht werden soll, gegeben werden.
Das Maschinenlernen
Im Allgemeinen ist das Maschinenlernen je nach seinem Ziel oder den Bedingungen in verschiedene Algorithmen wie etwa überwachtes Lernen und nicht überwachtes Lernen klassifiziert. Die vorliegende Erfindung hat die Aufgabe, die Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse einer Werkzeugmaschine bei der Bearbeitung eines Werkstücks auf Basis eines Bearbeitungsprogramms zu erlernen. Angesichts des Umstands, dass es schwer ist, eindeutig anzugeben, welche Art von Handlung (Regulierung eines Bewegungsausmaßes jeder Achse) in Bezug auf einen Bewegungspfad eines Werkzeugs auf Basis eines ausgegebenen Bewegungsausmaßes jeder Achse passend durchgeführt werden soll, wird ein bestärkender Lernalgorithmus eingesetzt, bei dem eine Maschinenlernvorrichtung eine Handlung zur Erreichung eines Ziels nur unter Erhalt einer Belohnung automatisch erlernt.
2 ist ein Diagramm zur Beschreibung des grundlegenden Konzepts eines bestärkenden Lernalgorithmus.
Beim bestärkenden Lernen werden das Lernen eines Agenten und eine Handlung durch die Wechselwirkungen zwischen einem Agenten (Maschinenlernvorrichtung), der als lernendes Subjekt wirkt, und einer Umgebung (Steuerzielsystem), die als Steuerziel wirkt, vorangetrieben.
Genauer erfolgen die folgenden Wechselwirkungen zwischen dem Agenten und der Umgebung:

(1) Der Agent beobachtet einen Umgebungszustand s_t zu einer bestimmten Zeit.
(2) Der Agent wählt auf Basis eines Beobachtungsergebnisses und des früheren Lernens eine Handlung at, deren Vornahme dem Agenten gestattet ist, und nimmt diese vor.
(3) Nach der Vornahme der Handlung at ändert sich der Umgebungszustand s_t zu einem nächsten Zustand s_t+1 .
(4) Der Agent erhält auf Basis der Zustandsänderung als Ergebnis der Handlung a_t eine Belohnung r_t+1 .
(5) Der Agent treibt das Lernen auf Basis des Zustands s_t , der Handlung a_t , der Belohnung r_t+1 , und eines früheren Lernergebnisses voran.

Beim Lernen der obigen Verarbeitung (5) erlangt der Agent die Zuordnung eines beobachteten Zustands s_t , einer Handlung a_t und einer Belohnung r_t+1 als Bezugsinformation zur Bestimmung des Umfangs einer Belohnung, die der Agent in der Zukunft erhalten kann. Wenn zum Beispiel die Anzahl der Zustände, die der Agent zu jeder Zeit aufweisen darf, m beträgt, und die Anzahl der Handlungen, die der Agent ergreifen darf, n beträgt, erhält der Agent durch wiederholtes Vornehmen von Handlungen eine zweidimensionale Anordnung von m x n, worin Belohnungen r_t+1 , die Paaren von Zuständen s_t und Handlungen a_t entsprechen, gespeichert sind.
Unter Verwendung einer Wertfunktion (Bewertungsfunktion), die auf Basis der erhaltenen Zuordnung angibt, bis zu welchem Grad ein gegenwärtiger Zustand oder eine gegenwärtige Handlung von Wert ist, aktualisiert der Agent die Wertfunktion (Bewertungsfunktion), während er wiederholt Handlungen vornimmt, um eine optimale Handlung, die einem Zustand entspricht, zu erlernen.
Eine „Zustandswertfunktion“ ist eine Wertfunktion, die angibt, bis zu welchem Grad ein bestimmter Zustand s_t von Wert ist. Die Zustandswertfunktion wird als Funktion ausgedrückt, die einen Zustand als Argument verwendet und beim Lernen aus wiederholten Handlungen auf Basis einer Belohnung, die in Bezug auf eine Handlung in einem bestimmten Zustand erhalten wird, eines Werts eines zukünftigen Zustands, der sich durch die Handlung geändert hat, oder dergleichen aktualisiert wird. Die Aktualisierungsformel der Zustandswertfunktion ist gemäß einem bestärkenden Lernalgorithmus definiert. Zum Beispiel ist die Zustandswertfunktion beim TD(Temporal-Difference)-Lernen, das einer der bestärkenden Lernalgorithmen ist, durch die folgende Formel (1) definiert. Es ist zu beachten, dass in der folgenden Formel (1) α als Lernkoeffizient bezeichnet wird, γ als Diskontierungsfaktor bezeichnet wird, und der Lernkoeffizient und der Diskontierungsfaktor so definiert sind, dass sie jeweils zwischen 0 < α ≤ 1 und 0 < γ ≤ 1 fallen. $V (s_{t}) \leftarrow V (s_{t}) + α [r_{t + 1} + γ V (s_{t + 1}) - V (s_{t})]$
Zudem ist eine „Handlungswertfunktion“ eine Wertfunktion, die angibt, bis zu welchen Grad eine Handlung at in einem bestimmten Zustand s_t von Wert ist. Die Handlungswertfunktion ist als Funktion ausgedrückt, die einen Zustand und eine Handlung als Argumente benutzt und beim Lernen aus wiederholten Handlungen auf Basis einer Belohnung, die in Bezug auf eine Handlung in einem bestimmten Zustand erhalten wird, eines Handlungswerts eines zukünftigen Zustands, der sich durch die Handlung geändert hat, oder dergleichen aktualisiert wird. Die Aktualisierungsformel der Handlungswertfunktion ist gemäß einem bestärkenden Lernalgorithmus definiert. Zum Beispiel ist die Handlungswertfunktion beim Q-Lernen, das einer der typischen bestärkenden Lernalgorithmen ist, durch die folgende Formel (2) definiert. Es ist zu beachten, dass in der folgenden Formel (2) α als Lernkoeffizient bezeichnet wird, γ als Diskontierungsfaktor bezeichnet wird, und der Lernkoeffizient und der Diskontierungsfaktor so definiert sind, dass sie jeweils zwischen 0 < α ≤ 1 und 0 < γ ≤ 1 fallen. $Q (S_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ \underset{a}{m a x} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
Es ist zu beachten, dass als Verfahren zum Speichern einer Wertfunktion (Bewertungsfunktion) als Lernergebnis neben einem Verfahren, das eine Näherungsfunktion verwendet, und einem Verfahren, das ein Array verwendet, zum Beispiel dann, wenn der Zustand s viele Zustände annimmt, ein Verfahren verfügbar ist, das eine überwachte Lernvorrichtung wie etwa eine SVM (Support Vector Machine) mit einer Mehrfachwertausgabe oder ein neurales Netzwerk verwendet, die mit einem Zustand s_t und einer Handlung at als Eingaben einen Wert (eine Bewertung) ausgeben.
Ferner wird bei der Wahl einer Handlung bei der obigen Verarbeitung (2) unter Verwendung einer Wertfunktion (Bewertungsfunktion), die durch das vergangene Lernen erzeugt wurde, eine Handlung at gewählt, bei der eine Belohnung (r_t+1 + r_t+2 + ...) im Lauf der Zukunft in einem gegenwärtigen Zustand maximal wird (eine Handlung zur Änderung zu einem wertvollsten Zustand, wenn eine Zustandswertfunktion verwendet wird, oder einer wertvollsten Handlung in dem Zustand, wenn eine Handlungswertfunktion verwendet wird). Es ist zu beachten, dass ein Agent während des Lernens bei der Wahl einer Handlung bei der obigen Verarbeitung (2) zum Zweck des Vorantreibens des Lernens eine zufällige Handlung mit einer konstanten Wahrscheinlichkeit wählen kann (ε-Greedy-Verfahren).
Wie oben beschrieben wird das Lernen durch wiederholtes Vornehmen der obigen Verarbeitungen (1) bis (5) vorangetrieben. Das Lernen kann selbst in einer neuen Umgebung nach dem Abschluss des Lernens in einer bestimmten Umgebung durch zusätzliches Lernen so vorangetrieben werden, dass es an die neue Umgebung angepasst wird.
Entsprechend wird das Lernen wie bei der vorliegenden Erfindung auf die Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse zu jeder Zeit bei der Bearbeitung eines Werkstücks auf Basis eines Bearbeitungsprogramms angewendet. Daher wird selbst bei einer Anwendung des Lernens auf die Steuerung einer neuen Werkzeugmaschine ein neues Bearbeitungsprogramm auf der Basis des Lernens der Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse zu jeder Zeit bei der vergangenen Bearbeitung eines Werkstücks zusätzlich als neue Umgebung erlernt, wodurch es möglich wird, das weitere Lernen der Bestimmung des Bewegungsausmaßes zur Regulierung der Beschleunigung/Verlangsamung jeder Achse zu jeder Zeit bei der Bearbeitung des Werkstücks auf Basis des Bearbeitungsprogramms in einem kurzen Zeitraum vorzunehmen.
Zudem setzt das bestärkende Lernen ein System ein, bei dem mehrere Agenten über ein Netzwerk oder dergleichen miteinander verbunden sind, und Informationen über Zustände s, Handlungen a, Belohnungen r oder dergleichen unter den Agenten geteilt werden und auf jedes Lernen angewendet werden, wodurch jeder der Agenten ein verteiltes bestärkendes Lernen unter Berücksichtigung der Umgebungen der anderen Agenten vornimmt, was die Vornahme eines leistungsfähigen Lernens gestattet. Und bei der vorliegenden Erfindung wird den Werkzeugmaschinen dann, wenn mehrere Agenten (Maschinenlernvorrichtungen), die mehrere Umgebungen (Werkzeugmaschinen, die als Steuerziele wirken) steuern, in einem Zustand, in dem sie miteinander über ein Netzwerk oder dergleichen verbunden sind, ein verteiltes Maschinenlernen vornehmen, gestattet, die Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse zu jeder Zeit bei der Bearbeitung eines Werkstücks auf Basis eines Bearbeitungsprogramms leistungsfähig zu erlernen.
Obwohl verschiedene Verfahren wie etwa das Q-Lernen, ein SARSA-Verfahren, das TD-Lernen und ein AC-Verfahren allgemein als bestärkende Lernalgorithmen bekannt sind, ist zu beachten, dass jeder beliebige der obigen bestärkenden Algorithmen auf die vorliegende Erfindung angewendet werden kann. Da jeder der bestärkenden Lernalgorithmen allgemein bekannt ist, wird in der Beschreibung auf ihre ausführliche Beschreibung verzichtet werden.
Nachstehend wird auf Basis einer bestimmten Ausführungsform eine Beschreibung der Werkzeugmaschine der vorliegenden Erfindung, in die eine Maschinenlernvorrichtung eingebracht wurde, gegeben werden.
Ausführungsform
3 ist ein Diagramm, das ein Bild hinsichtlich des Maschinenlernens der Bestimmung eines Bewegungsausmaßes zur Regulierung einer Beschleunigung/Verlangsamung jeder Achse zu jeder Zeit bei einer Werkzeugmaschine, in die eine als künstliche Intelligenz wirkende Maschinenlernvorrichtung nach einer Ausführungsform der vorliegenden Erfindung eingebracht wurde, zeigt. Es ist zu beachten, dass 3 nur Aufbauten zeigt, die für die Beschreibung des Maschinenlernens durch die Werkzeugmaschine nach der Ausführungsform nötig sind.
Bei der Ausführungsform werden eine Fortbewegungsrichtung eines Werkzeugs, ein Abweichungsausmaß von einem Werkzeugpfad, eine gegenwärtige Geschwindigkeit jeder Achse, ein zeitdifferentielles Element der N-ten Ordnung (eine Beschleunigung, ein Rucken, ...) der gegenwärtigen Geschwindigkeit jeder Achse, das Auftreten eines Anpralls, oder dergleichen als Informationen, um die Maschinenlernvorrichtung 20 dazu zu bringen, eine Umgebung (Zustand s_t in dem obigen Abschnitt „(1) Das Maschinenlernen“) zu bestimmen, in die Maschinenlernvorrichtung 20 eingegeben. Jeder dieser Werte enthält Daten, die von jedem Abschnitt der Werkzeugmaschine 1 erlangt wurden, und Daten, die durch einen Betriebsbewertungsabschnitt 3 auf Basis der erlangten Daten berechnet wurden.
4 ist ein Diagramm zur Beschreibung der einzelnen Daten im Zusammenhang mit einer Werkzeugmaschine 1 nach der Ausführungsform.
Bei der Werkzeugmaschine 1 nach der Ausführungsform wird ein Befehlspfad, der durch Analysieren eines Bearbeitungsprogramms erhalten wurde, in einem Speicher (nicht gezeigt) gespeichert. Neben einer Achsenposition (x_t , z_t ) jeder Achse, einer Bewegungsgeschwindigkeit (δx_t-1 , δz_t-1 ) jeder Achse, und einer Beschleunigung (δx_t-1-δx_t-2, δz_t-1 - δz_t-2) jeder Achse zu der Zeit t, die von der Werkzeugmaschine 1 erhalten werden, beinhalten die oben beschriebenen Eingangsdaten Daten, die durch den Betriebsbewertungsabschnitt 3 auf Basis der einzelnen oben beschriebenen Daten berechnet wurden, wie etwa eine Entfernung d, um die jede Achsenposition von dem Befehlspfad abweicht.
Es ist zu beachten, dass 4 ein Beispiel für die einzelnen Eingangsdaten in einem zweidimensionalen X-Z-Koordinatensystem zeigt. Doch wenn die Werkzeugmaschine drei oder mehr Achsen aufweist, kann die Anzahl der Dimensionen der Eingangsdaten passend erhöht werden, um der Anzahl der Achsen zu entsprechen.
Bei der Ausführungsform gibt die Maschinenlernvorrichtung 20 ein Bewegungsausmaß jeder Achse in einem nächsten Augenblick (einem gegenwärtigen Zyklus in dem Steuerzyklus einer Steuervorrichtung) als Ausgangsdaten in Bezug auf eine Umgebung aus (Handlung at in dem obigen Abschnitt „(1) Das Maschinenlernen“). Es ist zu beachten, dass bei der vorliegenden Ausführungsform ein Bewegungsausmaß jeder Achse, das in einem bestimmten Zyklus ausgegeben wird, innerhalb des Zyklus ohne Verzögerung durch einen Servomotor, der die jeweilige Achse antreibt, verbraucht (bewegt) wird. Daher wird das Bewegungsausmaß (Ausgabe in einem Steuerzyklus) nachstehend als Bewegungsgeschwindigkeit eines Werkzeugs behandelt.
Zudem werden der Maschinenlernvorrichtung 20 bei der Ausführungsform ein Anstieg der kombinierten Geschwindigkeit der jeweiligen Achsen (positive Belohnung), eine Bewegung in eine Richtung, die zu der befohlenen Richtung entgegengesetzt ist (negative Belohnung), eine große Veränderung bei einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit eines Werkzeugs (negative Belohnung), ein Überschreiten einer Maximalgeschwindigkeit (negative Belohnung), das Auftreten eines Anpralls (negative Belohnung), oder dergleichen als Belohnung (Belohnung r_t in dem obigen Abschnitt „(1) Das Maschinenlernen“) gegeben. Die Belohnung wird durch den Betriebsbewertungsabschnitt 3 auf Basis des Grad des Erreichens jeder Belohnung gemäß den Eingangsdaten, Ausgangsdaten, oder dergleichen berechnet. Es ist zu beachten, dass ein Betreiber gemäß den Bearbeitungsinhalten eines Bearbeitungsprogramms in der Werkzeugmaschine 1 passend festlegen kann, welche Daten zur Bestimmung der Belohnung verwendet werden. Zum Beispiel kann bei einer Bohrbearbeitung eine unvollständige Bildung eines Lochs als negative Belohnung definiert werden.
Überdies nimmt die Maschinenlernvorrichtung 20 bei der Ausführungsform das Maschinenlernen auf Basis der oben beschriebenen Eingangsdaten, Ausgangsdaten und Belohnungen vor. Bei dem Maschinenlernen wird ein Zustand s_t durch die Kombination von Eingangsdaten zu einer bestimmten Zeit definiert, ist die Ausgabe eines Bewegungsausmaßes, die in Bezug auf den definierten Zustand s_t vorgenommen wird, einer Handlung at gleichwertig, und ist ein Wert, der auf Basis von Eingangsdaten, die als Ergebnis der Ausgabe des Bewegungsausmaßes infolge der Handlung a_t neu erhalten wurden, bewertet und berechnet wurde, einer Belohnung r_t1 gleichwertig. Wie in dem oben beschriebenen Abschnitt „(1) Das Maschinenlernen“ werden der Zustand s_t , die Handlung at, und die Belohnung r_t+1 auf die Aktualisierungsformel einer Wertfunktion (Bewertungsfunktion), die einem Maschinenlernalgorithmus entspricht, angewendet, um das Lernen voranzutreiben.
Nachstehend wird unter Bezugnahme auf das Funktionsblockdiagramm von 5 eine Beschreibung der Funktion der Werkzeugmaschine 1 der Ausführungsform gegeben werden.
5 ist ein Funktionsblockdiagramm der Werkzeugmaschine der Ausführungsform.
Die Werkzeugmaschine 1 der Ausführungsform ist mit Aufbauten und peripheren Einrichtungen (nicht gezeigt), die bei der Werkzeugmaschine als Standard bereitgestellt sind, wie etwa einem Antriebsabschnitt (nicht gezeigt) wie z.B. einem Servomotor, der bei der Bearbeitung eines Werkstücks jede Achse antreibt, und einem Servosteuerabschnitt (nicht gezeigt), der den Servomotor steuert, einem numerischen Steuerabschnitt 2, der den Antriebsabschnitt und die peripheren Einrichtungen steuert, einem Betriebsbewertungsabschnitt 3, der den Betrieb der Werkzeugmaschine auf Basis des Betriebs des Antriebsabschnitts oder der peripheren Einrichtungen und den einzelnen Daten, die von dem numerischen Steuerabschnitt 2 erlangt wurden, bewertet, einem Anpralldetektionsabschnitt 4, der durch einen Anprallsensor oder dergleichen, welcher einen bei der Werkzeugmaschine auftretenden Anprall detektiert, gebildet ist, und einer Maschinenlernvorrichtung 20, die als künstliche Intelligenz, welche das Maschinenlernen vornimmt, wirkt, versehen.
Wenn die Aufbauten der Werkzeugmaschine, die in dem Blockdiagramm von 5 gezeigt sind, mit den in 2 gezeigten Elementen des bestärkenden Lernens verglichen werden, entspricht die Maschinenlernvorrichtung 20 von 5 dem „Agenten“ von 2, und entspricht eine bei der Werkzeugmaschine 1 von 5 bereitgestellte Gesamtheit, die den Antriebsabschnitt, die peripheren Einrichtungen, den numerischen Steuerabschnitt 2 oder dergleichen beinhaltet, der „Umgebung“ von 2. Es ist zu beachten, dass angenommen wird, dass die Werkzeugmaschine 1 mit den Aufbauten allgemeiner Werkzeugmaschinen versehen ist, und auf ausführliche Beschreibungen anderer Aufbauten als jener, die für die Beschreibung des Betriebs des Maschinenlernens bei der vorliegenden Ausführungsform speziell nötig sind, verzichtet werden wird.
Der numerische Steuerabschnitt 2 analysiert ein Bearbeitungsprogramm, das aus einem Speicher (nicht gezeigt) gelesen wurde oder über eine Eingabeeinrichtung (nicht gezeigt) oder dergleichen eingegeben wurde, und steuert jeden Abschnitt der Werkzeugmaschine 1 auf Basis der Steuerdaten, die als Ergebnis der Analyse erhalten wurden. Im Allgemeinen nimmt der numerische Steuerabschnitt 2 eine Steuerung auf Basis eines Analyseergebnisses des Bearbeitungsprogramms vor. Doch bei dieser Ausführungsform wird die Steuerung jeder Achse, die das Werkzeug der Werkzeugmaschine 1 antreibt, gemäß einem von der Maschinenlernvorrichtung 20 ausgegebenen Bewegungsausmaß jeder Achse vorgenommen.
Der Betriebsbewertungsabschnitt 3 bewertet ein mit jedem Steuerzyklus von der Maschinenlernvorrichtung 20 ausgegebenes Bewegungsausmaß jeder Achse der Werkzeugmaschine auf Basis einer von dem numerischen Steuerabschnitt 2 erlangten Position jeder Achse der Werkzeugmaschine 1, eines durch ein Bearbeitungsprogramm, das durch den numerischen Steuerabschnitt 2 analysiert wurde, erhaltenen Befehlspfads eines Werkzeugs, einer durch das Bearbeitungsprogramm befohlenen Vorschubgeschwindigkeit (Maximalgeschwindigkeit), und dergleichen, und meldet der Maschinenlernvorrichtung 20 ein Bewertungsergebnis. Die Bewertung einer Handlung durch den Betriebsbewertungsabschnitt 3 wird verwendet, um eine Belohnung beim Lernen der Maschinenlernvorrichtung 20 zu berechnen.
Beispiele für die Bewertung einer Handlung beinhalten den Winkel zwischen einer Bewegungsrichtung auf Basis eines Bewegungsausmaßes jeder Achse der Werkzeugmaschine 1 und einer Bewegungsrichtung eines durch ein Bearbeitungsprogramm befohlenen Befehlspfads in der Nähe einer gegenwärtigen Position, die durch Positionen der jeweiligen Achsen der Werkzeugmaschine 1 erfasst wird, ein Abweichungsausmaß einer gegenwärtigen Position eines Werkzeugs von einem Befehlspfad, und den Unterschied zwischen einer Bewegungsgeschwindigkeit auf Basis von Bewegungsausmaßen der jeweiligen Achsen und einer durch ein Bearbeitungsprogramm befohlenen Maximalgeschwindigkeit in der Nähe einer gegenwärtigen Position, und eine Größe des absoluten Werts eines Ruckens (einer Größe einer Veränderung einer Beschleunigung). Doch eine Handlung kann auf eine beliebige andere Weise als die oben angeführten bewertet werden, solange eine Bewertung der Qualität der von der Maschinenlernvorrichtung 20 ausgegebenen Handlung ermöglicht wird.
Die Maschinenlernvorrichtung 20, die das Maschinenlernen vornimmt, ist mit einem Zustandsbeobachtungsabschnitt 21, einem Zustandsdatenspeicherabschnitt 22, einem Belohnungsbedingungsfestlegeabschnitt 23, einem Belohnungsberechnungsabschnitt 24, einem Bewegungsausmaßregulierungslernabschnitt 25, einem Lernergebnisspeicherabschnitt 26, und einem Bewegungsausmaßausgabeabschnitt 27 versehen. Die Maschinenlernvorrichtung 20 kann in der Werkzeugmaschine 1 bereitgestellt sein, oder kann in einem Personalcomputer oder dergleichen außerhalb der Werkzeugmaschine 1 bereitgestellt sein.
Der Zustandsbeobachtungsabschnitt 21 beobachtet über den numerischen Steuerabschnitt 2 alle Daten hinsichtlich der Werkzeugmaschine 1 und erlangt die beobachteten Daten in der Maschinenlernvorrichtung 20. Zudem erlangt der Zustandsbeobachtungsabschnitt 21 in der Maschinenlernvorrichtung 20 ein Bewertungsergebnis eines Betriebs durch den Betriebsbewertungsabschnitt 3 als Zustandsdaten. Die Zustandsdaten, die in der Maschinenlernvorrichtung 20 erlangt werden, beinhalten neben einer Achsenposition oder einer Geschwindigkeit jeder Achse und eines zeitdifferentiellen Elements der N-ten Ordnung (einer Beschleunigung, eines Ruckens, ...) einer Geschwindigkeit jeder Achse, die oben beschrieben wurden, die Temperatur, den Strom, die Spannung, den Druck, die Zeit, das Drehmoment, die Kraft, den Stromverbrauch, einen Berechnungswert, der durch Vornehmen der arithmetischen Bearbeitung jeder physikalischen Größe berechnet wurde, oder dergleichen.
Zudem beinhaltet das Bewertungsergebnis des Betriebs durch den Betriebsbewertungsabschnitt 3 den Winkel zwischen einem Befehlswert und einer Bewegungsrichtung eines Werkzeugs, ein Ausmaß der Abweichung von einem Bereich, in dem ein zulässiger Fehler zu einem Werkzeugpfad einer gegenwärtigen Position eines Werkzeugs addiert ist, den Unterschied zwischen einer Bewegungsgeschwindigkeit eines Werkzeugs und einer befohlenen Maximalgeschwindigkeit, eine Größe des absoluten Werts eines Ruckens (eine Größe einer Veränderung einer Beschleunigung), oder dergleichen. Es ist zu beachten, dass eine Größe des absoluten Werts eines Ruckens als Maßstab einer Größe eines Anpralls verwendet wird. Daher sind nicht notwendigerweise sowohl ein Wert eines Anpralls, der durch einen Anpralldetektionsabschnitt 4 detektiert wird, als auch eine Größe des absoluten Werts eines Ruckens, die von dem Betriebsbewertungsabschnitt 3 erlangt wird, erforderlich, sondern kann auch nur eines davon als Zustandsdaten erlangt werden.
Der Zustandsdatenspeicherabschnitt 22 erhält und speichert Zustandsdaten und gibt die gespeicherten Zustandsdaten an den Belohnungsberechnungsabschnitt 24 und den Bewegungsausmaßregulierungslernabschnitt 25 aus. Die in den Zustandsdatenspeicherabschnitt 22 eingegebenen Zustandsdaten können Daten sein, die durch die jüngste Bearbeitungstätigkeit erlangt wurden, oder Daten sein, die durch eine frühere Bearbeitungstätigkeit erlangt wurden. Zudem ist es auch möglich, dass der Zustandsdatenspeicherabschnitt 22 Zustandsdaten, die in einer anderen Werkzeugmaschine 40 oder in einem zentralen Verwaltungssystem 30 gespeichert sind, erhält und speichert, oder ist es möglich, dass der Zustandsdatenspeicherabschnitt 22 Zustandsdaten, die in dem Zustandsdatenspeicherabschnitt 22 gespeichert sind, an eine andere Werkzeugmaschine 40 oder das zentrale Verwaltungssystem 30 ausgibt.
Der Belohnungsbedingungsfestlegeabschnitt 23 legt Bedingungen für die Vergabe von Belohnungen bei dem durch einen Betreiber oder dergleichen festgelegten Maschinenlernen fest. Es werden positive und negative Belohnungen vergeben, die passend festgelegt werden können. Zudem kann eine Eingabe in den Belohnungsbedingungsfestlegeabschnitt 23 über einen Personalcomputer, ein Tablet-Terminal oder dergleichen, der oder das in dem zentralen Verwaltungssystem verwendet wird, vorgenommen werden. Doch durch eine Eingabe über eine nicht gezeigte MDI(manuelle Dateneingabe)-Vorrichtung der Werkzeugmaschine 1 wird es möglich, Bedingungen für die Vergabe von Belohnungen leicht festzulegen.
Der Belohnungsberechnungsabschnitt 24 analysiert Zustandsdaten, die von dem Zustandsbeobachtungsabschnitt 21 oder dem Zustandsdatenspeicherabschnitt 22 eingegeben werden, auf Basis von Bedingungen, die durch den Belohnungsbedingungsfestlegeabschnitt 23 festgelegt wurden, und gibt berechnete Belohnungen an den Bewegungsausmaßregulierungslernabschnitt 25 aus.
Nachstehend wird eine Beschreibung von Beispielen für Belohnungsbedingungen, die durch den Belohnungsbedingungsfestlegeabschnitt 23 bei der Ausführungsform festgelegt werden, gegeben werden.
Belohnung 1: Erhöhung der kombinierten Geschwindigkeit der jeweiligen Achsen
Positive Belohnung und negative Belohnung
Da die Zykluszeit der Bearbeitung zunimmt, wenn eine kombinierte Geschwindigkeit der jeweiligen Achsen eine frühere kombinierte Geschwindigkeit der jeweiligen Achsen überschreitet, wird je nach einem Ausmaß des Geschwindigkeitsanstiegs eine positive Belohnung vergeben.
Da andererseits ein Fehler oder dergleichen in der Werkzeugmaschine 1 auftritt, wenn eine kombinierte Geschwindigkeit der jeweiligen Achsen eine befohlene Maximalgeschwindigkeit überschreitet oder wenn eine Geschwindigkeit jeder Achse eine Maximalgeschwindigkeit für jede Achse, die in der Werkzeugmaschine 1 festgelegt ist, überschreitet, wird je nach einem Ausmaß der Geschwindigkeitsüberschreitung eine negative Belohnung vergeben.
Belohnung 2: Bewegung in eine Richtung, die sich von der befohlenen Richtung unterscheidet
Wenn sich im Hinblick auf einen Winkel, der zwischen einer Bewegungsrichtung eines Werkzeugs auf Basis eines Bewegungsausmaßes jeder Achse der Werkzeugmaschine 1 und einer durch ein Bearbeitungsprogramm befohlenen Bewegungsrichtung in der Nähe einer aus einer Position jeder Achse erfassten gegenwärtigen Position des Werkzeugs gebildet wird, die Bewegungsrichtung des Werkzeugs stark von dem durch das Bearbeitungsprogramm befohlenen Befehlspfad unterscheidet, wird je nach einem Ausmaß des Unterschieds eine negative Belohnung vergeben. Als ein Beispiel für eine negative Belohnung kann dann, wenn ein zwischen einer Bewegungsrichtung eines Werkzeugs und einer Bewegungsrichtung eines Befehlspfads gebildeter Winkel größer als ein vorgeschriebener Winkel (zum Beispiel innerhalb von ±45 Grad) ist, ein Wert, der durch Multiplizieren des Unterschieds mit einem vorgeschriebenen Koeffizienten erhalten wird, als negative Belohnung vergeben werden. Zudem kann dann, wenn der Winkel einfach 180 Grad (in einer zu der Bewegungsrichtung des Befehlspfads entgegengesetzte Richtung) übersteigt, eine negative Belohnung vergeben werden.
Belohnung 3: Große Veränderung in dem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) der Geschwindigkeit des Werkzeugs (negative Belohnung)
Wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist, Beschleunigung, Rucken, oder dergleichen) einer Geschwindigkeit jeder Achse der Werkzeugmaschine 1 einen vorab festgelegten vorgeschriebenen Wert übersteigt, wird je nach dem Ausmaß des Übersteigens durch die Veränderung eine negative Belohnung vergeben.
Belohnung 4: Abweichung von dem Werkzeugpfad
Wenn eine gegenwärtige Position eines Werkzeugs von einem durch ein Bearbeitungsprogramm befohlenen Befehlspfad abweicht, wird je nach dem Grad der Abweichung eine negative Belohnung vergeben. Das heißt, für die Vergabe einer negativen Belohnung kann der Abweichungsgrad auf dem Ausmaß der Entfernung zwischen einer gegenwärtigen Position eines Werkzeugs und einem Befehlspfad beruhen.
Belohnung 5: Auftreten eines Anpralls (negative Belohnung)
Wenn durch den Anpralldetektionsabschnitt 4, der in der Werkzeugmaschine 1 bereitgestellt ist, ein Anprall, der einen vorab festgelegten vorgeschriebenen Wert übersteigt, detektiert wird, wird je nach dem Ausmaß des Übersteigens durch den Anprall eine negative Belohnung vergeben.
Der Bewegungsausmaßregulierungslernabschnitt 25 nimmt auf Basis von Zustandsdaten einschließlich von Eingabedaten und dergleichen, eines Ergebnisses einer von ihm selbst vorgenommenen Regulierung eines Bewegungsausmaßes jeder Achse der Werkzeugmaschine, und einer Belohnung, die durch den Belohnungsberechnungsabschnitt 24 berechnet wurde, ein Maschinenlernen (bestärkendes Lernen) vor.
Hier ist bei dem Maschinenlernen, das durch den Bewegungsausmaßregulierungslernabschnitt 25 vorgenommen wird, ein Zustand s_t durch die Kombination aus Zustandsdaten zu einer bestimmten Zeit t definiert, und ist die Bestimmung eines Bewegungsausmaßes jede Achse gemäß dem definierten Zustand s_t einer Handlung at gleichwertig, wird ein Bewegungsausmaß jeder Achse, das durch den später beschriebenen Bewegungsausmaßausgabeabschnitt 27 bestimmt wird, an den numerischen Steuerabschnitt 2 ausgegeben, und ist ein Wert, der durch den Belohnungsberechnungsabschnitt 24 auf Basis von Daten berechnet wird, die erhalten werden, wenn jede Achse der Werkzeugmaschine 1 auf Basis des durch den numerischen Steuerabschnitt 2 bestimmten Bewegungsausmaßes jeder Achse bewegt wird, einer Belohnung r_t+1 gleichwertig. Eine Wertfunktion, die beim Lernen verwendet wird, wird je nach dem angewendeten Lernalgorithmus bestimmt. Wenn zum Beispiel das Q-Lernen verwendet wird, ist es nur nötig, eine Handlungswertfunktion Q(s_t , a_t ) gemäß der obigen Formel (2) zu aktualisieren, um das Lernen voranzutreiben.
Unter Bezugnahme auf das Ablaufdiagramm von 6 wird eine Beschreibung des Ablaufs des Maschinenlernens, das durch den Bewegungsausmaßregulierungslernabschnitt 25 der Maschinenlernvorrichtung 20 von 2 vorgenommen wird, beschrieben werden. Die Verarbeitung wird nachstehend anhand von jeweiligen Schritten erklärt.
(Schritt SA01): Wenn das Maschinenlernen beginnt, erlangt der Zustandsbeobachtungsabschnitt 21 Daten hinsichtlich eines Bearbeitungszustands der Werkzeugmaschine 1.
(Schritt SA02): Der Bewegungsausmaßregulierungslernabschnitt 25 bestimmt auf Basis der Daten hinsichtlich des Bearbeitungszustands, die durch den Zustandsbeobachtungsabschnitt 21 erlangt wurden, einen gegenwärtigen Zustand s_t .
(Schritt SA03): Der Bewegungsausmaßregulierungslernabschnitt 25 wählt auf Basis eines früheren Lernergebnisses und des in Schritt SA02 bestimmten Zustands eine Handlung at (Bestimmung eines Bewegungsausmaßes jeder Achse).
(Schritt SA04): Die Handlung at, die in Schritt SA03 gewählt wurde, wird vorgenommen.
(Schritt SA05): Der Zustandsbeobachtungsabschnitt 21 erlangt Daten hinsichtlich eines Bearbeitungszustands, die einen Zustand der Werkzeugmaschine 1 zeigen, In diesem Stadium ändert sich der Zustand der Werkzeugmaschine 1 mit einem zeitlichen Übergang von der Zeit t zu der Zeit t+1 als Ergebnis der Handlung s_t , die in Schritt SA04 vorgenommen wurde.
(Schritt SA06): Der Belohnungsberechnungsabschnitt 24 berechnet auf Basis der Daten hinsichtlich des Bewertungsergebnisses, die in Schritt SA05 erlangt wurden, eine Belohnung r_t+1.
(Schritt SA07): Der Bewegungsausmaßregulierungslernabschnitt 25 treibt das Lernen auf Basis des Zustands s_t , der in Schritt SA02 bestimmt wurde, der Handlung a_t , die in Schritt SA03 gewählt wurde, und der Belohnung r_t+1 , die in Schritt SA06 berechnet wurde, voran und kehrt dann zu Schritt SA02 zurück.
Unter erneuter Bezugnahme auf 5 speichert der Lernergebnisspeicherabschnitt 26 ein Lernergebnis des Bewegungsausmaßregulierungslernabschnitts 25. Und wenn von dem Bewegungsausmaßregulierungslernabschnitt 25 ein Lernergebnis erneut verwendet wird, gibt der Lernergebnisspeicherabschnitt 26 das gespeicherte Lernergebnis an den Bewegungsausmaßregulierungslernabschnitt 25 aus. Wie oben beschrieben kann ein Lernergebnis auf eine solche Weise gespeichert werden, dass eine Wertfunktion, die einem zu verwendenden Maschinenlernalgorithmus entspricht, durch eine Näherungsfunktion, ein Array oder eine überwachte Lernvorrichtung wie etwa eine SVM mit einer Mehrfachwertausgabe oder ein neurales Netzwerk oder dergleichen gespeichert wird.
Es ist zu beachten, dass es auch möglich ist, dass der Lernergebnisspeicherabschnitt 26 ein Lernergebnis, das in einer anderen Werkzeugmaschine 40 oder einem zentralen Verwaltungssystem 30 gespeichert ist, erhält und speichert, oder dass der Lernergebnisspeicherabschnitt 26 ein in dem Lernergebnisspeicherabschnitt 26 gespeichertes Lernergebnis an eine andere Werkzeugmaschine 40 oder das zentrale Verwaltungssystem 30 ausgibt.
Der Bewegungsausmaßausgabeabschnitt 27 bestimmt auf Basis eines Lernergebnisses des Bewegungsausmaßregulierungslernabschnitts 25 und der gegenwärtigen Zustandsdaten ein Bewegungsausmaß jeder Achse. Hier entspricht die Bestimmung eines Bewegungsausmaßes jeder Achse der bei dem Maschinenlernen verwendeten „Handlung at“. Als Verfahren zur Bestimmung der Bewegungsausmaße der jeweiligen Achsen können zum Beispiel vorab Kombinationen der Bewegungsausmaße der jeweiligen Achsen in positiven und negativen Richtungen (Handlung 1: (Bewegungsausmaß der X-Achse, Bewegungsausmaß der Z-Achse) = (1, 0), Handlung 2: Bewegungsausmaß der X-Achse, Bewegungsausmaß der Z-Achse) = (2, 0), ..., Handlung n: (Bewegungsausmaß der X-Achse, Bewegungsausmaß der Z-Achse) = (δx_max , δz_max )) als wählbare Handlung vorbereitet werden, und kann eine Handlung, durch die auf Basis eines früheren Lernergebnisses in der Zukunft eine maximale Belohnung erhalten werden wird, gewählt werden. Zudem kann das oben beschriebene ε-Greedy-Verfahren eingesetzt werden und das Lernen durch die Wahl einer zufälligen Handlung mit einer vorgeschriebenen Wahrscheinlichkeit vorangetrieben werden.
Danach gibt der Bewegungsausmaßausgabeabschnitt 27 das bestimmte Bewegungsausmaß jeder Achse an den numerischen Steuerabschnitt 2 aus. Dann treibt der numerische Steuerabschnitt 2 jede Achse der Werkzeugmaschine 1 auf Basis des von dem Bewegungsausmaßausgabeabschnitt 27 ausgegebenen Bewegungsausmaßes jeder Achse an.
Dann bewertet der Betriebsbewertungsabschnitt 3 erneut ein Antriebsergebnis jeder Achse, erlangt die Maschinenlernvorrichtung 20 ein Bewertungsergebnis und einen gegenwärtigen Zustand der Werkzeugmaschine 1, und wird das Lernen unter Verwendung der eingegebenen Zustandsdaten wiederholt vorgenommen. Dadurch wird die Erlangung eines noch besseren Lernergebnisses gestattet.
Wenn als Ergebnis des oben beschriebenen Lernens der Maschinenlernvorrichtung 20 eine optimale Beschleunigung/Verlangsamung an jeder Position auf einem Befehlspfad bestätigt ist, beendet die Maschinenlernvorrichtung 20 das Lernen. Von der Maschinenlernvorrichtung 20, die das Lernen abgeschlossen hat, ausgegebene Daten, die durch Sammeln eines Bewegungsausmaßes (Befehlsimpulse) jeder Achse über eine Runde eines Werkzeugpfads erhalten wurden, sind Bewegungsdaten eines Werkzeugs gleichwertig.
Wenn die Werkzeugmaschine die Bearbeitung unter Verwendung der Lerndaten, für die das Lernen abgeschlossen wurde, tatsächlich vornimmt, kann die Maschinenlernvorrichtung 20 einen wiederholten Betrieb unter Verwendung der Lerndaten, für die das Lernen abgeschlossen wurde, so wie sie sind, vornehmen, anstatt ein neues Lernen vorzunehmen.
Zudem kann die Maschinenlernvorrichtung 20, die das Lernen abgeschlossen hat (oder die Maschinenlernvorrichtung 20, bei der abgeschlossene Lerndaten von anderen Maschinenlernvorrichtungen 20 in den Lernspeicherabschnitt 26 kopiert wurden), an einer anderen Werkzeugmaschine 40 angebracht werden, um einen wiederholenden Betrieb unter Verwendung der Lerndaten, für die das Lernen abgeschlossen wurde, so wie sie sind, vorzunehmen.
Überdies kann die Werkzeugmaschine 1 dann, wenn die Werkzeugmaschine 1 in einem Zustand, in dem die Lernfunktion der Maschinenlernvorrichtung 20, die das Lernen abgeschlossen hat, aktiv belassen wird, mit einer anderen Werkzeugmaschine 40 verbunden wird, um die Bearbeitung eines Werkstücks fortzusetzen, ferner individuelle Unterschiede, zeitliche Veränderungen oder dergleichen, die sich für jede Werkzeugmaschine unterscheiden, erlernen und einen Betrieb vornehmen, während sie einen besseren Bearbeitungspfad für die Werkzeugmaschine sucht.
Es ist zu beachten, dass bei der wie oben beschriebenen Vornahme einer Lerntätigkeit unter Verwendung des numerischen Steuerabschnitts 2 der Werkzeugmaschine der numerische Steuerabschnitt 2 das Lernen auf Basis der virtuellen Bearbeitung eines Werkstücks ohne tatsächliches Betreiben der Werkzeugmaschine 1 vornehmen kann. Zudem kann die Maschinenlernvorrichtung 20 wie in 7 gezeigt in eine Simulationsvorrichtung 5, die mit einem Simulationsabschnitt 6, der den Betrieb der Werkzeugmaschine gesondert simuliert, versehen ist, aufgenommen werden, um eine Lerntätigkeit auf Basis eines Simulationsergebnisses des Simulationsabschnitts 6 vorzunehmen. Auf jeden Fall ist erwünscht, dass ein Werkstück nicht tatsächlich bearbeitet wird, da in dem Anfangsstadium des Lernens wahrscheinlich ein Bewegungsausmaß ausgegeben werden wird, das eine große Abweichung von einem Befehlspfad verursacht.
Ferner kann die Maschinenlernvorrichtung 20 der Werkzeugmaschine 1 das Maschinenlernen einzeln vornehmen. Doch wenn jede von mehreren Werkzeugmaschinen 1 ferner mit einem Abschnitt versehen ist, der zur Kommunikation nach außen verwendet wird, wird es möglich, Daten, die in jedem der Zustandsdatenspeicherabschnitte 22 gespeichert sind, und ein Lernergebnis, das in jedem der Lernergebnisspeicherabschnitte 26 gespeichert ist, zu senden/empfangen und gemeinsam zu verwenden. Dadurch wird ein leistungsfähigeres Maschinenlernen gestattet. Wenn das Lernen zum Beispiel mit einem Bewegungsausmaß, das innerhalb eines vorgeschriebenen Bereichs verändert wird, vorgenommen wird, wird das Lernen unter mehreren Werkzeugmaschinen 1 und 40 auf eine solche Weise vorangetrieben, dass Zustandsdaten und Lerndaten zwischen den Werkzeugmaschinen 1 ausgetauscht werden, während ein Werkstück mit unterschiedlichen Bewegungsausmaßen, die innerhalb eines vorgeschriebenen Bereichs variieren, bearbeitet wird. Dadurch wird ein leistungsfähiges Lernen gestattet.
Um wie oben beschrieben Zustandsdaten und Lerndaten zwischen mehreren Werkzeugmaschinen 1 und 40 auszutauschen, kann eine Kommunikation über einen Host-Computer wie etwa das zentrale Verwaltungssystem 30 vorgenommen werden, können die Werkzeugmaschinen 1 und 40 direkt miteinander kommunizieren, oder kann eine Cloud verwendet werden. Doch zur Handhabung großer Datenmengen ein vorzugsweise ein Kommunikationsabschnitt mit einer höheren Kommunikationsgeschwindigkeit bereitgestellt.
Im Vorhergehenden wurde eine Ausführungsform der vorliegenden Erfindung beschrieben. Die vorliegende Erfindung ist jedoch nicht nur auf das Beispiel der obigen Ausführungsform beschränkt, sondern kann durch passende Abwandlungen in verschiedenen Formen ausgeführt werden.

Claims

Werkzeugmaschine (1), die zumindest eine Achse auf Basis eines durch ein Programm befohlenen Befehlspfads eines Werkzeugs antreibt, um eine Bearbeitung eines Werkstücks vorzunehmen, wobei die Werkzeugmaschine (1) einen Betriebsbewertungsabschnitt (3), der einen Betrieb der Werkzeugmaschine (1) bewertet und Bewertungsdaten ausgibt; und eine Maschinenlernvorrichtung (20), die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes der Achse vornimmt, umfasst, wobei die Maschinenlernvorrichtung (20) einen Zustandsbeobachtungsabschnitt (21), der Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine (1) beinhalten, als Zustandsdaten und die von dem Betriebsbewertungsabschnitt (3) ausgegebenen Bewertungsdaten erlangt, einen Belohnungsbedingungsfestlegeabschnitt (23), der eine Belohnungsbedingung festlegt, einen Belohnungsberechnungsabschnitt (24), der auf Basis der durch den Zustandsbeobachtungsabschnitt (21) erlangten Zustandsdaten eine Belohnung berechnet, einen Bewegungsausmaßregulierungslernabschnitt (25), der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und einen Bewegungsausmaßausgabeabschnitt (27), der das Bewegungsausmaß der Achse auf Basis des Ergebnisses des Maschinenlernens der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt (25) und der Zustandsdaten so bestimmt, dass eine Beschleunigung des Werkzeugs optimal wird, und das bestimmte Bewegungsausmaß ausgibt, aufweist, und der Bewegungsausmaßregulierungslernabschnitt (25) so ausgebildet ist, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt (21) nach einem Betrieb der Werkzeugmaschine (1) auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten, und der durch den Belohnungsberechnungsabschnitt (23) berechneten Belohnung vornimmt, wobei der Belohnungsberechnungsabschnitt (23) eine positive Belohnung berechnet, wenn eine kombinierte Geschwindigkeit der Achse erhöht wird, und eine negative Belohnung berechnet, wenn ein Werkzeug von dem Befehlspfad abweicht, wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit des Werkzeugs groß ist, und wenn es bei der Werkzeugmaschine (1) zu einem Anprall kommt.
Werkzeugmaschine (1) nach Anspruch 1, wobei die Werkzeugmaschine (1) an zumindest eine andere Werkzeugmaschine (40) angeschlossen ist und einen Austausch oder eine gemeinsame Verwendung des Maschinenlernergebnisses mit der anderen Werkzeugmaschine (40) vornimmt.
Werkzeugmaschine (1) nach Anspruch 1, wobei der Bewegungsausmaßregulierungslernabschnitt (25) so ausgebildet ist, dass er das Maschinenlernen unter Verwendung des regulierten Bewegungsausmaßes der Achse und einer Bewertungsfunktion, in der die durch den Zustandsbeobachtungsabschnitt (21) erlangten Zustandsdaten durch ein Argument ausgedrückt sind, so vornimmt, dass die Belohnung maximal wird.
Simulationsvorrichtung (5) zum Simulieren einer Werkzeugmaschine (1), die zumindest eine Achse auf Basis eines durch ein Programm befohlenen Befehlspfads eines Werkzeugs antreibt, um eine Bearbeitung eines Werkstücks vorzunehmen, wobei die Simulationsvorrichtung (5) einen Betriebsbewertungsabschnitt (3), der einen Simulationsbetrieb der Werkzeugmaschine (1) bewertet und Bewertungsdaten ausgibt; und eine Maschinenlernvorrichtung (20), die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes der Achse vornimmt, umfasst, wobei die Maschinenlernvorrichtung (20) einen Zustandsbeobachtungsabschnitt (21), der simulierte Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine (1) beinhalten, als Zustandsdaten und die von dem Betriebsbewertungsabschnitt (3) ausgegebenen Bewertungsdaten erlangt, einen Belohnungsberechnungsabschnitt (24), der auf Basis der durch den Zustandsbeobachtungsabschnitt (21) erlangten Zustandsdaten eine Belohnung berechnet, einen Bewegungsausmaßregulierungslernabschnitt (25), der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und einen Bewegungsausmaßausgabeabschnitt (27), der das Bewegungsausmaß der Achse auf Basis des Ergebnisses des Maschinenlernens der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt (25) und der Zustandsdaten so bestimmt, dass eine Beschleunigung des Werkzeugs optimal wird, und das bestimmte Bewegungsausmaß ausgibt, aufweist, und der Bewegungsausmaßregulierungslernabschnitt (25) so ausgebildet ist, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt (21) nach einem Simulationsbetrieb der Werkzeugmaschine (1) auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten, und der durch den Belohnungsberechnungsabschnitt (24) berechneten Belohnung vornimmt, wobei der Belohnungsberechnungsabschnitt (23) eine positive Belohnung berechnet, wenn eine kombinierte Geschwindigkeit der Achse erhöht wird, und eine negative Belohnung berechnet, wenn ein Werkzeug von dem Befehlspfad abweicht, wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit des Werkzeugs groß ist, und wenn es bei der Werkzeugmaschine (1) zu einem Anprall kommt.
Maschinenlernvorrichtung (5), die ein Maschinenlernen einer Bestimmung eines Bewegungsausmaßes von zumindest einer Achse einer Werkzeugmaschine (1) vornimmt, wobei die Maschinenlernvorrichtung (20) einen Zustandsbeobachtungsabschnitt (21), der Daten, die zumindest eine Achsenposition der Achse der Werkzeugmaschine (1) beinhalten, als Zustandsdaten erlangt; einen Belohnungsbedingungsfestlegeabschnitt (23), der eine Belohnungsbedingung festlegt, einen Belohnungsberechnungsabschnitt (24), der auf Basis der durch den Zustandsbeobachtungsabschnitt (21) erlangten Zustandsdaten eine Belohnung berechnet, einen Bewegungsausmaßregulierungslernabschnitt (25), der das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse vornimmt, und einen Bewegungsausmaßausgabeabschnitt (27), der das Bewegungsausmaß der Achse auf Basis des Maschinenlernergebnisses der Bestimmung des Bewegungsausmaßes der Achse durch den Bewegungsausmaßregulierungslernabschnitt (25) und den Zustandsdaten so bestimmt, dass eine Beschleunigung eines Werkzeugs, das durch die Achse bewegt wird, optimal wird, und das bestimmte Bewegungsausmaß ausgibt, aufweist, und der Bewegungsausmaßregulierungslernabschnitt (25) so ausgebildet ist, dass er das Maschinenlernen der Bestimmung des Bewegungsausmaßes der Achse auf Basis des bestimmten Bewegungsausmaßes der Achse, der durch den Zustandsbeobachtungsabschnitt (21) nach einem Betrieb der Werkzeugmaschine (1) auf Basis des ausgegebenen Bewegungsausmaßes der Achse erlangten Zustandsdaten, und der durch den Belohnungsberechnungsabschnitt (24) berechneten Belohnung vornimmt, wobei der Belohnungsberechnungsabschnitt (23) eine positive Belohnung berechnet, wenn eine kombinierte Geschwindigkeit der Achse erhöht wird, und eine negative Belohnung berechnet, wenn ein Werkzeug von dem Befehlspfad abweicht, wenn eine Veränderung in einem zeitdifferentiellen Element der N-ten Ordnung (wobei N eine beliebige natürliche Zahl ist) einer Geschwindigkeit des Werkzeugs groß ist, und wenn es bei der Werkzeugmaschine (1) zu einem Anprall kommt.