DE112021001677T5

DE112021001677T5 - Maschinenlernvorrichtung, Numerik-Steuersystem, Einstellvorrichtung, Numeriksteuervorrichtung und Maschinenlernverfahren

Info

Publication number: DE112021001677T5
Application number: DE112021001677.6T
Authority: DE
Inventors: Yoshiyuki Suzuki
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-03-17
Filing date: 2021-03-10
Publication date: 2023-01-05
Also published as: JPWO2021187268A1; WO2021187268A1; CN115280252A; JP7436632B2; US20230083761A1

Abstract

Gemäß der vorliegenden Erfindung wird ein Bearbeitungsprogramm optimiert, ohne Zeit und Mühe des Bedieners zu vergrößern. Diese Maschinenlernvorrichtung dient dem Durchführen von Maschinenlernen in Bezug auf eine Numeriksteuervorrichtung, die eine Werkzeugmaschine veranlasst, entsprechend einem Bearbeitungsprogramm zu arbeiten, und ist versehen mit: einer Zustandsinformations-Erfassungseinheit, die die Werkzeugmaschine veranlasst, Schneidarbeit durch Ausführen des Bearbeitungsprogramms durchzuführen, wobei ein Schneidbetrag und eine Schneidrate für zumindest eine Runde der Schneidarbeit eingestellt werden, und Zustandsinformation erfasst, welche den Schneidbetrag und die Schneidrate für eine Runde der Schneidarbeit beinhaltet; eine Aktionsinformations-Ausgabeeinheit, die Aktionsinformation ausgibt, die Justierinformation für den Schneidbetrag und die Schneidrate für eine Runde von Schneidarbeit, die in der Zustandsinformation enthalten ist, ausgibt; eine Belohnungs-Recheneinheit, die Bestimmungsinformation erfasst, die Information über die Stärke von an einem Werkzeug angelegtem Druck zumindest während der Schneidarbeit, die Form der Wellenform des an das Werkzeug angelegten Drucks und die Zeit, die es erforderte, die Arbeit durchzuführen, ist, und einen Belohnungswert beim Verstärkungslernen abhängig von vorbestimmten Bedingungen auf Basis der erfassten Bestimmungsinformation ausgibt; und eine Wertefunktions-Aktualisierungseinheit, die eine Wertefunktion auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation aktualisiert.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Maschinenlernvorrichtung, ein Numerik-Steuersystem, eine Einstellvorrichtung, eine Numerik-Steuervorrichtung und ein Maschinenlernverfahren.
HINTERGRUND
Ein einmaliger Schneidbetrag und eine Schneidrate in einem festen Zyklus, wie etwa Zentrier-, Gewindebohr-, Senklochbohr- und Drehzyklen werden empirisch bestimmt, auf Basis von Hauptfaktoren, die Materialien und Formen eines Werkstücks und eines Werkzeugs beinhalten, beispielsweise durch einen Bediener, durch wiederholtes Durchführen von Textbearbeitung. In dieser Hinsicht ist eine solche Technologie bekannt, in welcher ein durch eine Cluster-Analyse erzeugter Cluster, auf Basis von Zustands-Variablen, die Bearbeitungsbedingungsdaten, Schneid-Bedingungsdaten, Bearbeitungsergebnisdaten und Werkzeugdaten beinhalten, als ein Lernmodell verwendet wird, wird ein angemessenes Werkzeug auf Basis von neu eingegebenen Bearbeitungsbedingungen, Schneidbedingungen und Bearbeitungs-Ergebnissen bestimmt, und wird ein Maximalwert einer Schneidrate innerhalb eines Bereichs bestimmt, der günstige Ergebnisse erlaubt, die in einem Cluster des vorbestimmten Werkzeugs, das zu warten ist, spezifiziert sind. Beispielsweise siehe Patentdokument 1.
Patentdokument 1: Japanische ungeprüfte Patentoffenlegungsschrift JP 2019-188558 A.
OFFENBARUNG DER ERFINDUNG
Durch die Erfindung zu lösende Probleme
Beispielsweise treten an einem Ort von Mehrprodukt-Variabel-Massenfertigung solche Situationen häufig auf, dass (1) ein gewisses Bearbeitungsprogramm in einer anderen Maschine wiederverwendet wird, (2) ein anderes Bearbeitungsprogramm, in welchem die Form des gewissen Bearbeitungsprogramms etwas modifiziert wird, erzeugt wird, um Bearbeitung durchzuführen, und (3) ein gewisses Bearbeitungsprogramm für ein Werkstück wiederverwendet wird, dessen Material verändert wird, um Bearbeitung durchzuführen.
In einer solchen Situation hat ein Bediener nicht ausreichend Zeit, jedes der Bearbeitungsprogramme zu optimieren, basierend auf seiner oder ihrer Erfahrung. Daher kann es Fälle geben, bei denen eine Bearbeitung ohne volle Optimierung eines Bearbeitungsprogramms und einer Schneidbedingung durchzuführen ist. In diesem Fall kann beispielsweise, um Bearbeitung sicher durchzuführen, unabhängig davon, welche Änderungen vorgenommen worden sind, eine Schneidrate oft exzessiv reduziert werden. Es ist somit vorstellbar, dass es Fälle geben kann, bei denen eine Zykluszeit entsprechend verringert wird, was die Produktions-Effizienz opfert.
Um ein solches Problem zu behandeln, ist, was verlangt wird, ein Bearbeitungsprogramm zu optimieren, ohne die Arbeitslast des Bedieners zu vergrößern.
MITTEL ZUM LÖSEN DER PROBLEME

(1) Eine Maschinenlernvorrichtung gemäß einem Aspekt der vorliegenden Offenbarung ist eine Maschinenlernvorrichtung, die konfiguriert ist, Maschinenlernen in Bezug auf eine Numerik-Steuervorrichtung durchzuführen, die konfiguriert ist, eine Werkzeugmaschine zu veranlassen, basierend auf einem Bearbeitungsprogramm zu arbeiten, wobei die Maschinenlernvorrichtung umfasst: eine Zustandsinformations-Erfassungseinheit, die konfiguriert ist, während die Numerik-Steuervorrichtung das Bearbeitungsprogramm ausführt, das mit zumindest einem eines Schneidbetrags für einmalige Bearbeitung und einer Schneidrate eingestellt ist, und die Werkzeugmaschine veranlasst, die Schneidarbeit durchzuführen, Zustandsinformation zu erfassen, welche den Schneidbetrag für die einmalige Verwendung und die Schneidrate beinhaltet; eine Aktionsinformations-Ausgabeeinheit, die konfiguriert ist, Aktionsinformation auszugeben, die Justier-Information für den einmaligen Schneidbetrag und die Schneidrate, die in der Zustands-Information enthalten ist, beinhaltet; eine Belohnungs-Recheneinheit 221, die konfiguriert ist, Bestimmungsinformation zu erfassen, welche eine Information hinsichtlich zumindest einer Größe von Druck, der auf ein Werkzeug während der Schneidarbeit ausgeübt wird, einer Form einer Wellenform des auf das Werkzeug ausgeübten Drucks und einer Zeitperiode, die es für die Schneidarbeit benötigt, ist, und basierend auf der Bestimmungsinformation, die erfasst worden ist, einen Belohnungswert auszugeben, der bei dem Verstärkungslernen abhängig von einer vorbestimmten Bedingung verwendet wird, und eine Wertefunktions-Aktualisierungseinheit, die konfiguriert ist, eine Wertefunktion auf Basis des Belohnungswerts, der Zustandsinformation, und der Aktionsinformation zu aktualisieren.
(2) Eine Einstellvorrichtung gemäß einem Aspekt der vorliegenden Offenbarung ist konfiguriert, eine Aktion auf Basis eines Schwellenwerts auszuwählen, der vorab eingestellt wird, aus Aktionen, die aus der in (1) beschriebenen Maschinenlernvorrichtung erfasst werden, und die Aktion einzustellen, die ausgewählt wird, in das Bearbeitungsprogramm.
(3) Ein Numerik-Steuersystem gemäß einem Aspekt der vorliegenden Offenbarung beinhaltet die Maschinenlernvorrichtung, die in (1) beschrieben ist, die in (2) beschriebene Einstellvorrichtung und eine Numerik-Steuervorrichtung, die konfiguriert ist, das Bearbeitungsprogramm, welches durch die Einstellvorrichtung eingestellt ist, auszuführen.
(3) Eine Numerik-Steuervorrichtung gemäß einem Aspekt der vorliegenden Offenbarung beinhaltet die in (1) beschriebene Maschinenlernvorrichtung und die in (2) beschrieben Einstellvorrichtung und ist konfiguriert, das durch die Einstellvorrichtung eingestellte Bearbeitungsprogramm auszuführen.
(4) Ein Numerik-Steuerverfahren gemäß einem Aspekt der vorliegenden Offenbarung ist ein Maschinenlernverfahren für eine Maschinenlernvorrichtung, die konfiguriert ist, Maschinenlernen in Bezug auf eine Numerik-Steuervorrichtung durchzuführen, die konfiguriert ist, eine Werkzeugmaschine zu veranlassen, basierend auf einem Bearbeitungsprogramm zu arbeiten, wobei das Maschinenlernverfahren umfasst: Erfassen, während die Numerik-Steuervorrichtung das Bearbeitungsprogramm ausführt, das zumindest mit einem einmaligen Schneidbetrag und einer Schneidrate eingestellt ist, und die Werkzeugmaschine veranlasst, die Schneidarbeit durchzuführen, von Zustandsinformation, die den einmaligen Schneidbetrag und die Schneidrate enthält; Ausgeben von Aktions-Information, die Justieren von Information für den einmaligen Schneidbetrag und die Schneidrate, die in der Zustandsinformation enthalten sind, beinhalten; Erfassen von Bestimmungsinformation, welche Information hinsichtlich einer Größe von auf ein Werkzeug während der Schneidarbeit ausgeübten Druck, einer Form einer Wellenform des auf das Werkzeug ausgeübten Drucks und eine Zeitperiode, die es für die Schneidarbeit benötigt, und basierend auf der Bestimmungsinformation, die erfasst worden ist, Ausgeben eines beim Verstärkungslernen verwendeten Belohnungswerts abhängig von einer vorbestimmten Bedingung; und Aktualisieren einer Wertefunktion auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation.

Effekte der Erfindung
Gemäß den Aspekten ist es möglich, ein Bearbeitungsprogramm ohne Erhöhen der Arbeitsbelastung des Bedieners zu optimieren.
Figurenliste

1 ist ein Funktions-Blockdiagramm, das ein Funktionskonfigurations-Beispiel eines Numerik-Steuersystems gemäß einer ersten Ausführungsform illustriert;
2 ist ein Funktions-Blockdiagramm, das ein Funktionskonfigurations-Beispiel einer Maschinenlernvorrichtung illustriert;
3 ist ein Flussdiagramm, das den Betrieb der Maschinenlernvorrichtung bei Durchführung von Q-Lernen gemäß der ersten Ausführungsform illustriert;
4 ist ein Flussdiagramm, das detaillierte Verarbeitungsinhalte von Belohnungs-Rechenverarbeitung, die im Schritt S16 von in 3 illustriert ist, illustriert;
5 ist ein Flussdiagramm, das den Betrieb illustriert, wenn optimale Aktionsinformation durch eine Optimalaktionsinformations-Ausgabeeinheit erzeugt wird;
6 ist ein Funktions-Blockdiagramm, das ein Funktionskonfigurations-Beispiel eines Numerik-Steuersystems gemäß einer zweiten Ausführungsform illustriert;
7 ist ein Funktions-Blockdiagramm, das ein Funktionskonfigurations-Beispiel einer Maschinenlernvorrichtung illustriert;
8 ist ein Flussdiagramm, was den Betrieb der Maschinenlernvorrichtung bei Durchführung von Q-Lernen gemäß der zweiten Ausführungsform illustriert;
9 ist eine Ansicht, die ein Beispiel einer Konfiguration eines Numerik-Steuersystems illustriert; und
10 ist eine Ansicht, die ein Beispiel einer Konfiguration eines Numerik-Steuersystems illustriert.

BEVORZUGTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
Eine erste Ausführungsform der vorliegenden Offenbarung wird nunmehr hierin unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. Es wird hier ein Fall exemplifiziert, bei dem als ein Bearbeitungsprogramm ein fester Zyklus, wie etwa Zentrieren oder Gewindebohren enthalten ist, und Lernen pro Bearbeitungsprogramm, das heißt pro Bearbeitung eines Werkstücks durchgeführt wird.
Dadurch ist es möglich, einen einmaligen Schneidbetrag und eine Schneidrate zu identifizieren, welche für den festen Zyklus eingestellt werden, als eine Aktion für das Bearbeitungsprogramm.
<Erste Ausführungsform>
1 ist ein Funktionsblockdiagramm, das ein Funktionskonfigurations-Beispiel eines Numerik-Steuersystems gemäß der ersten Ausführungsform illustriert.
Wie in 1 illustriert, beinhaltet ein Numerik-Steuersystem 1 eine Werkzeugmaschine 10 und eine Maschinenlernvorrichtung 20.
Die Werkzeugmaschine 10 und die Maschinenlernvorrichtung 20 können direkt über ein (nicht gezeigtes) Kopplungs-Interface miteinander gekoppelt werden. Weiterhin können die Werkzeugmaschine 10 und die Maschinenlernvorrichtung 20 miteinander über ein (nicht gezeigtes) Netzwerk, wie etwa ein Lokalbereichsnetzwerk (LAN) oder das Internet gekoppelt werden. In diesem Fall beinhalten die Werkzeugmaschine 10 und die Maschinenlernvorrichtung 20 beide eine Kommunikationseinheit (nicht gezeigt) zum Durchführen von Kommunikation über die Kopplung.
Es ist anzumerken, wie später beschrieben wird, dass eine Numerik-Steuervorrichtung 101 in der Werkzeugmaschine 10 beinhaltet ist, aber eine von der Werkzeugmaschine 10 getrennte Vorrichtung sein kann. Weiterhin kann die Numerik-Steuervorrichtung 101 die Maschinenlernvorrichtung 20 beinhalten.
Die Werkzeugmaschine 10 ist eine Werkzeugmaschine, die allgemein Fachleuten bekannt ist und beinhaltet die Numerik-Steuervorrichtung 101. Die Werkzeugmaschine 10 arbeitet auf Basis eines Betriebsbefehls aus der Numerik-Steuervorrichtung 101.
Die Numerik-Steuervorrichtung 101 ist eine Numerik-Steuervorrichtung, die allgemein Fachleuten bekannt ist und beinhaltet eine Einstellvorrichtung 111. Die Numerik-Steuervorrichtung 101 ist konfiguriert, einen Betriebsbefehl auf Basis eines aus einer (nicht gezeigten) externen Vorrichtung erfassten Bearbeitungsprogramms, wie etwa Vorrichtungen für computer aided Design (CAD)/computer aided manufacturing (CAM) zu erzeugen und den erzeugten Betriebsbefehl an die Werkzeugmaschine 10 zu senden. Dadurch steuert die Numerik-Steuervorrichtung 101 den Betrieb der Werkzeugmaschine 10. Während der Betrieb der Werkzeugmaschine 10 gesteuert wird, kann die Numerik-Steuervorrichtung 101 dann Drehzahlen, Motorstromwerte und Drehmoment von Motoren, wie etwa einem Spindelmotor für eine (nicht gezeigte) Spindel und einen Servomotor für eine (nicht gezeigte) Vorschubwelle erfassen, die in der Werkzeugmaschine 10 beinhaltet sind, in einem vorbestimmten Zeitintervall wie etwa einer Abtastzeit, die vorab eingestellt wird, aus der Werkzeugmaschine 10.
Weiterhin kann die Numerik-Steuervorrichtung 101 aus der Werkzeugmaschine 10 Temperaturen, wie etwa Motor-Temperaturen, eine Maschinen-Temperatur und eine UmgebungsTemperatur, welche durch Sensoren wie etwa Temperatursensoren (nicht gezeigt) gemessen werden, die in der Werkzeugmaschine 10 beinhaltet sind, erfassen. Weiterhin kann die Numerik-Steuervorrichtung 101 aus der Werkzeugmaschine 10 Druck in einer Axialrichtung und einer Rotationsrichtung erfassen, die auf ein Werkzeug angelegt werden, das an der (nicht gezeigten) Spindel angelegt wird und durch Sensoren wie etwa (nicht gezeigte) Drucksensoren, die in der Werkzeugmaschine 10 enthalten sind, gemessen wird. Weiterhin kann die Numerik-Steuervorrichtung 101 eine Zeitperiode, die die Schneidarbeit erfordert, erfassen, welche durch einen (nicht gezeigten) Zykluszähler gemessen wird, der in der Werkzeugmaschine 10 beinhaltet ist, wenn die Werkzeugmaschine 10 vorbestimmte Schneidarbeit durchgeführt hat.
Es ist anzumerken, da ein Bearbeitungsprogramm nur einen festen Zyklus beinhaltet, in der vorliegenden Ausführungsform, wie oben beschrieben, eine Zeitperiode, die es für Schneidarbeit benötigt, gleich einer Zykluszeit ist.
Weiterhin kann die Numerik-Steuervorrichtung 101 an die später beschriebene Maschinenlernvorrichtung 20 beispielsweise das Material des an der Spindel (nicht gezeigt) der Werkzeugmaschine 10 angebrachten Werkzeugs, die Form des Werkzeugs, den Durchmesser des Werkzeugs, die Länge des Werkzeugs, die verbleibende Lebensdauer des Werkzeugs, das Material des zu bearbeitenden Werkstücks und die Katalog-Schneidbedingungen für das Werkzeug ausgeben. Weiterhin kann die Numerik-Steuervorrichtung 101 an die später beschriebene Maschinenlernvorrichtung 20 beispielsweise die Drehzahl der Spindel, die Motorstromwerte, die Maschinentemperatur, die Umgebungstemperatur, die Druckgröße, die an das Werkzeug angelegt wird (Axialrichtung und Rotationsrichtung), die Form der Wellenform des an das Werkzeug angelegten Drucks (Axialrichtung und Rotationsrichtung), die Drehmomentgröße, die an die Vorschubwelle angelegt wird, die Form der Wellenform des an die Vorschubwelle angelegten Drehmoments, die Drehmomentgröße, die an die Spindel angelegt wird, die Form der Wellenform des Drehmoments, das an die Spindel angelegt wird, und die Zeitperiode, die die Schneidarbeit erfordert, die aus der Werkzeugmaschine 10 erfasst werden, ausgeben.
Es ist anzumerken, dass die Numerik-Steuervorrichtung 101 beispielsweise in einer (nicht gezeigten) Speichereinheit, wie etwa einem Festplattenlaufwerk (HDD), das in der Numerik-Steuervorrichtung 101 beinhaltet ist, eine (nicht gezeigte) Werkzeugverwaltungs-Tabelle zum Verwalten aller an der (nicht gezeigten) Spindel angebrachten Werkzeuge der Werkzeugmaschine 10 speichern kann. Die Numerik-Steuervorrichtung 101 kann dann auf Basis einer Werkzeugnummer, die im Bearbeitungsprogramm eingestellt ist, beispielsweise das Material des Werkzeugs, die Form des Werkzeugs, den Durchmesser des Werkzeugs, die Länge des Werkzeugs und die verbleibende Lebensdauer des Werkzeugs aus der Werkzeugverwaltungstabelle (nicht gezeigt) erfassen. Es ist hierbei anzumerken, dass beispielsweise die verbleibende Lebensdauer des Werkzeugs aus der Service-Lebensdauer des Werkzeugs erfasst werden kann, die aus einer Korrespondenztabelle verfügbar ist, die in einem Katalog beschrieben wird, und aus der Bearbeitungszeit pro Werkstück. Die verbleibende Lebensdauer des Werkzeugs in der Werkzeugverwaltungs-Tabelle (nicht gezeigt) kann dann mit dem erfassten Wert aktualisiert werden.
Weiterhin kann die Numerik-Steuervorrichtung 101 beispielsweise das Material des zu bearbeitenden Werkstücks und die Katalog-Schneidbedingungen für das Werkzeug durch Eingabe, Betätigungen eines Bedieners über eine Eingabevorrichtung (nicht gezeigt), wie etwa einer Tastatur oder einem Touch-Panel, die in der Numerik-Steuervorrichtung 101 enthalten sind, erfassen.
Weiterhin repräsentiert die Form der Wellenform in dem an das Werkzeug angelegten Druck Zeitreihendaten, die zu dem an das Werkzeug angelegten Druck gehören. Weiterhin repräsentiert die Form der Wellenform des an die Vorschubwelle angelegten Drehmoments Zeitreihendaten, die zu dem an die Vorschubwelle angelegten Drehmoment gehören. Weiterhin repräsentiert die Form der Wellenform des an die Spindel angelegten Drehmoments Zeitreihendaten, die zu dem an die Spindel angelegten Drehmoment gehören.
Die Numerik-Steuervorrichtung 101 ist konfiguriert, eine Aktion auf Basis eines Schwellenwerts auszuwählen, der vorab aus Aktionen eingestellt wird, die aus der später beschriebenen Maschinenlernvorrichtung 20 erfasst werden, und die ausgewählte Aktion in dem Bearbeitungsprogramm einzustellen.
Spezifisch vergleicht die Einstellvorrichtung 111 beispielsweise die verbleibende Werkzeug-Lebensdauer des in der Werkzeugmaschine 10 verwendet werdenden Werkzeugs mit einem Schwellenwert, der vorab eingestellt wird (zum Beispiel 10%), wählt eine Aktion, welche die Bearbeitungszeit priorisiert, wenn die verbleibende Lebensdauer des Werkzeugs größer als der Schwellenwert ist, aus und wählt eine Aktion, welche die Lebensdauer des Werkzeugs priorisiert, wenn die verbleibende Lebensdauer des Werkzeugs gleich oder unter dem Schwellenwert ist, aus. Die Einstellvorrichtung 111 stellt die ausgewählte Aktion im Bearbeitungsprogramm ein.
Es ist anzumerken, dass es möglich ist, die Einstellvorrichtung 111 mit einem Computer, wie etwa der Numerik-Steuervorrichtung 101, zu konfigurieren, die mit einer Arithmetik-Verarbeitungsvorrichtung, wie etwa einer Zentraleinheit (CPU) ausgerüstet ist. Weiterhin kann die Einstellvorrichtung 111 eine von der Numerik-Steuervorrichtung 101 getrennte Vorrichtung sein.
<Maschinenlernvorrichtung 20>
Die Maschinenlernvorrichtung 20 ist eine Vorrichtung, die konfiguriert ist, während die Numerik-Steuervorrichtung 101 das Bearbeitungsprogramm ausführt, um die Werkzeugmaschine 10 zu veranlassen, zu arbeiten, Verstärkungslernen eines einmaligen Schneidbetrags und einer Schneidrate pro Werkstück durchzuführen.
Vor dem Beschreiben von in der Maschinenlernvorrichtung 20 enthaltenen Funktionsblöcken wird nunmehr der Basis-Mechanismus von Q-Lernen, der als das Verstärkungslernen exemplifiziert wird, hierin zuerst beschrieben. Jedoch ist das Verstärkungslernen nicht auf das Q-Lernen beschränkt. Ein Agent (entsprechend der Maschinenlernvorrichtung 20 in der vorliegenden Ausführungsform) beobachtet den Zustand der Umgebung (entsprechend der Werkzeugmaschine 10 und der Numerik-Steuervorrichtung 101 in der vorliegenden Ausführungsform) und wählt eine gewisse Aktion aus. Die Umgebung ändert sich basierend auf der ausgewählten Aktion. Mit sich ändernder Umgebung wird eine gewisse Belohnung bereitgestellt, was dem Agenten gestattet, Lernen auf Basis der bereitgestellten Belohnung durchzuführen, um eine bessere Aktion auszuwählen.
Im Gegensatz zum supervidierten Lernen, das eine perfekte und korrekte Antwort angibt, repräsentiert eine in dem Verstärkungslernen verwendete Belohnung in vielen Fällen einen fragmentarischen Wert auf Basis einer partiellen Änderung in einer Umgebung. Daher führt der Agent Lernen durch, um die Gesamtsumme von in der Zukunft zu erfassenden Belohnungen zu maximieren.
Wie oben beschrieben, indem das Lernen von Aktionen durch Verstärkungslernen durchgeführt wird, wird ein Verfahren des Lernens einer angemessenen Aktion auf Basis von Interaktionen von Aktionen mit einer Umwelt erlernt, das heißt ein Verfahren des Erlernens, wie in der Zukunft zu erlangende Belohnungen zu maximieren sind. Dies bedeutet, dass es möglich ist, Aktionen zu erfassen, die Effekte in der Zukunft lassen, das heißt in der vorliegenden Ausführungsform z.B. ein fester Zyklus eines Bearbeitungsprogramms wird vor Ort einer Mehrprodukt-Variabel-Massenproduktion optimiert, ohne die Arbeitsbelastung des Bedieners zu vergrößern.
Es ist hierbei anzumerken, dass es möglich ist, ein gewünschtes Lernverfahren als Verstärkungslernen zu verwenden. Jedoch wird in der untenstehenden Beschreibung ein Beispielsfall beschrieben, bei dem das Q-Lernen, das ein Verfahren des Lernens einer Wertefunktion Q(s, a) repräsentiert, das eine Aktion in einem Zustand s einer gewissen Umwelt auswählt, verwendet wird.
Das Q-Lernen zielt darauf ab, in einem gewissen Zustand s eine Aktion a auszuwählen, gemäß welcher der Wert der Wertefunktion Q(s, a) am höchsten wird, als eine Optimums-Aktion aus Aktionen a, die möglich sind, ergriffen zu werden.
Jedoch ist für eine Kombination eines Zustands s und einer Aktion a ein korrekter Wert der Wertefunktion Q(s, a) zu einem Zeitpunkt überhaupt nicht bekannt, wenn das Q-Lernen zum ersten Mal gestartet wird. Dann wählt der Agent eine Aktion a aus, die in einem gewissen Zustand s variiert, um eine bessere Aktion auszuwählen, basierend auf einer der Aktion a zu dieser Zeit bereitgestellten Belohnung, um die korrekte Wertefunktion Q(s, a) zu lernen.
Weiterhin, da der Zweck ist, eine Gesamtsumme von in der Zukunft zu erfassenden Belohnungen zu maximieren, wird darauf abgezielt, schließlich eine Gleichung Q(s, a) = E [Σ (γ^t) r_t] zu erfüllen. Wobei E [] einen Erwartungswert repräsentiert, t Zeit repräsentiert, y einen Rabattraten genannten Parameter, der später beschrieben wird, repräsentiert, r_t eine Belohnung zur Zeit t repräsentiert und Σ einen Gesamtwert zur Zeit t repräsentiert. Der Erwartungswert in dieser Gleichung ist ein Erwartungswert, wenn sich ein Zustand gemäß einer optimalen Aktion ändert. Jedoch, da die unbekannt ist, welche eine Optimalaktion im Verlauf des Q-Lernens ist, werden verschiedene Aktionen durchgeführt, um nach einer optimalen Aktion zu suchen, während das Verstärkungslernen durchgeführt wird. Es ist möglich, einen Aktualisierungsausdruck für die Wertefunktion Q(s, a) wie oben beschrieben mit unten beschriebenem Ausdruck 1 zu repräsentieren, beispielsweise. $Q (s_{t + 1}, a_{t + 1}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{α} Q (s_{t + 1}, a) - (s_{t}, a_{t}))$
Im oben beschriebenen Ausdruck 1 repräsentiert s_t den Zustand einer Umgebung zur Zeit t, repräsentiert a_t eine Aktion zur Zeit t. Mit der Aktion a_t ändert sich der Zustand zu s_t+1. Eine Belohnung, die zu erfassen ist, wenn sich der Zustand ändert, wird durch r_t+1 repräsentiert. Weiterhin repräsentiert das mit max ergänzte Element eines, welches durch Multiplizieren eines Q-Werts mit y erhalten wird, wenn eine Aktion a ausgewählt wird, gemäß welcher der Q-Wert am höchsten wird, was zu der Zeit in dem Zustand s_t+1 bekannt ist. Es ist hierbei anzumerken, dass y einen Parameter repräsentiert, der 0 < γ ≤ 1 erfüllt, und als eine Rabattrate benannt wird. Weiter repräsentiert α einen Lern-Koeffizienten, der innerhalb eines Bereichs von 0 < α ≤ 1 fällt.
Der oben beschriebene Ausdruck 1 repräsentiert ein Verfahren zum Aktualisieren einer Wertefunktion Q(s_t, a_t) für die Aktion a_t im Zustand s_t, auf Basis der Belohnung r_t+1, die als ein Ergebnis des Versuchs a_t rückgegeben wird. Der Aktualisierungsausdruck gibt an, dass, wenn ein Wert max_a Q(s_t+1, a) gemäß der besten Aktion im nächsten Zustand s_t+1 aufgrund dieser Aktion a_t größer als die Wertefunktion Q(s_t, a_t) gemäß der Aktion a_t im Zustand s_t ist, Q(s_t, a_t) gesteigert wird, während, wenn der Wert max_a Q(s_t+1, a) kleiner als die Wertefunktion Q(s_t, a_t) ist, Q(s_t, a_t) gesenkt wird. Das heißt, dass der Wert einer gewissen Aktion in einem gewissen Zustand dazu gebracht wird, sich dem Wert der besten Aktion in dem nachfolgenden Zustand abhängig davon zu nähern. Jedoch ändert sich diese Differenz abhängig von dem Idealzuständen für die Rabattrate γ und die Belohnung r_t+1; jedoch wird es grundlegend einen Mechanismus, in welchem die Qualität für beste Aktionen in einem gewissen Zustand sich zur Qualität der Aktion in einem dazu führenden vorherigen Zustand propagiert.
Es ist hierbei anzumerken, dass es beim Q-Lernen ein Verfahren des Durchführens von Lernen durch Erzeugen einer Tabelle von Q(s, a) für alle Paare (s, a) von Zustand und Aktion gibt. Jedoch, da es übermäßige Zustände in der Anzahl gibt, wenn alle Werte von Q(s, a) erfasst werden, die zu Paaren von Zustand und Aktion gehören, kann es mehr Zeit erfordern, dass das Q-Lernen benötigt, zu konvergieren.
Dann kann es eine Technologie nutzen, die tiefes Q-Netzwerk (DQN, Deep Q-Network) genannt wird, die allgemein bekannt ist. Spezifisch kann die Wertefunktion Q konstruiert werden unter Verwendung eines angemessenen neuronalen Netzwerks, können Parameter für das neuronale Netzwerk justiert werden und kann die Wertefunktion Q mit dem angemessenen neuronalen Netzwerk approximiert werden, um einen Wert der Wertefunktion Q(s, a) zu berechnen. Durch Einsetzen des DQN ist es möglich, die Zeit, welche das Q-Lernen erfordert, um zu konvergieren, abzukürzen. Es ist anzumerken, dass für das DQN beispielsweise das unten beschriebene Nicht-Patentdokument eine detaillierte Beschreibung bereitgestellt hat.
<Nicht-Patentdokument>
„Human-level ontrol through deep reinforcement learning“, geschrieben von Volodymyr Mnih [online], abgerufen am 17. Januar 2017, Internet <URL:

http://files.davidqiu.com/research/nature14236.pdf>.

Das oben beschriebene Q-Lernen wird durch die Maschinenlernvorrichtung 20 durchgeführt. Spezifisch verwendet die Maschinenlernvorrichtung 20 als einen Zustand s Information, die zum Werkzeug und dem Werkstück gehört, das in der Werkzeugmaschine 10 eingestellt ist, einen einmaligen Schneidbetrag und eine Schneidrate, die für einen festen Zyklus eingestellt sind, und aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfasste Messwerte, und führt Lernen eines Werts Q aus, der als eine Aktion a für den Zustand s Einstellung und Änderungen beim einmaligen Schneidbetrag und der Schneidrate auswählt, die für den zu dem Zustand s gehörigen festen Zyklus eingestellt werden. Beispielsweise werden das Material des Werkzeugs, die Form des Werkzeugs, der Durchmesser des Werkzeugs, die Länge des Werkzeugs, die verbleibende Lebensdauer des Werkzeugs, das Material des zu bearbeitenden Werkstücks und die Katalog-Schneidbedingungen für das Werkzeug hierin als die zu dem Werkzeug und dem Werkstück gehörende Information exemplifiziert. Weiterhin werden beispielsweise die Drehzahl der Spindel, die Motorstromwerte, die Maschinentemperatur und die Umgebungstemperatur als die aus der Werkzeugmaschine 10 erfassten Messwerte exemplifiziert.
Die Maschinenlernvorrichtung 20 beobachtet Zustandsinformation (Zustandsdaten) s, welche die zu dem Werkzeug gehörende Information und das in der Werkzeugmaschine 10 eingestellte Werkstück, den einmaligen Schneidbetrag und die Schneidrate, die für den festen Zyklus eingestellt sind und die aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfassten Messwerte beinhalten, um eine Aktion a zu bestimmen. Jedes Mal, wenn die Aktion a durchgeführt wird, empfängt die Maschinenlernvorrichtung 20 eine Belohnung. Die Maschinenlernvorrichtung 20 sucht in einer „trail-and-error“-Weise nach einer optimalen Aktion a, um die Gesamtsumme von in der Zukunft zu erfassenden Belohnungen zu maximieren. Dadurch ermöglicht es die Maschinenlernvorrichtung 20, eine optimale Aktion a (das heißt „einmaliger Schneidbetrag“ und „Schneidrate“) in Bezug auf einen Zustand s auszuwählen, der Information enthält, die zu dem Werkzeug und dem in der Werkzeugmaschine 10 eingestellten Werkstück gehören, einem einmaligen Schneidbetrag und einer Schneidrate, die für einen festen Zyklus eingestellt sind und aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfassten Messwerten.
2 ist ein Funktionsblockdiagramm, das ein Funktionskonfigurations-Beispiel der Maschinenlernvorrichtung 20 illustriert. Um das oben beschriebene Verstärkungslernen durchzuführen, beinhaltet die Maschinenlernvorrichtung 20, wie in 2 illustriert, eine Zustandsinformations-Erfassungseinheit 201, eine Lerneinheit 202, eine Aktionsinformations-Ausgabeeinheit 203, eine Wertefunktions-Speichereinheit 204, eine Optimalaktionsinformations-Ausgabeeinheit 205 und eine Steuereinheit 206. Die Lerneinheit 202 beinhaltet eine Belohnungs-Recheneinheit 221, eine Wertefunktions-Aktualisierungseinheit 222, und eine Aktionsinformations-Erzeugungseinheit 223. Die Steuereinheit 206 ist konfiguriert, den Betrieb der Zustandsinformations-Erfassungseinheit 201, der Lerneinheit 202, der Aktionsinformations-Ausgabeeinheit 203 und der Optimalaktionsinformations-Ausgabeeinheit 205 zu steuern.
Die Zustandsinformations-Erfassungseinheit 201 ist konfiguriert, als einen Zustand der Werkzeugmaschine 10 Zustandsdaten s zu erfassen, die Information enthalten, die zu einem Werkzeug und einem in der Werkzeugmaschine 10 eingestellten Werkstück gehören, einem einmaligen Schneidbetrag und einer Schneidrate, die für einen festen Zyklus eingestellt sind, und aus der Werkzeugmaschine 10 durch Ausführen eines Bearbeitungsprogramms aus der Numerik-Steuervorrichtung 101 erfassten Messwert. Die Zustandsdaten s entsprechen einem Umgebungszustand s für das Q-Lernen.
Die Zustandsinformations-Erfassungseinheit 201 gibt die erfassten Zustandsdaten s an die Lerneinheit 202 aus.
Es ist anzumerken, dass die Zustandsinformations-Erfassungseinheit 201 die erfassten Zustandsdaten s in einer (nicht gezeigten) Speichereinheit, die in der Maschinenlernvorrichtung 20 enthalten ist, speichern können. In diesem Fall kann die später beschriebene Lerneinheit 202 die Zustandsdaten s aus der (nicht gezeigten) Speichereinheit der Maschinenlernvorrichtung 20 auslesen.
Weiterhin erfasst des Weiteren die Zustandsinformations-Erfassungseinheit 201 Bestimmungsinformation, welche verwendet wird, um eine Belohnung zum Durchführen des Q-Lernens zu berechnen. Spezifisch werden die Größe von an das Werkzeug angelegten Druck (Axialrichtung und Rotationsrichtung), die Form einer Wellenform des an das Werkzeug angelegten Drucks (Axialrichtung und Rotationsrichtung), die Größe von an die Vorschubwelle angelegtem Drehmoment, die Form einer Wellenform des an die Vorschubwelle angelegten Drehmoments, die Größe von an die Spindel angelegtem Drehmoment, die Form einer Wellenform des an die Spindel angelegten Drehmoments und die Zeitperiode, die es für die Schneidarbeit braucht, wenn das Bearbeitungsprogramm ausgeführt wird, die aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfasst werden, was zur Zustandsinformation s gehört, als die Bestimmungsinformation angesehen, die verwendet wird, um eine Belohnung zum Durchführen des Q-Lernens zu berechnen.
Die Lerneinheit 202 ist ein Teil, der das Lernen der Wertefunktion Q(s, a) durchführt, wenn eine gewisse Aktion a unter gewissen Zustandsdaten (Umgebungszustand) s ausgewählt wird. Spezifisch beinhaltet die Lerneinheit 202 die Belohnungs-Recheneinheit 221, die Wertefunktions-Aktualisierungseinheit 222 und die Aktionsinformations-Erzeugungseinheit 223.
Es ist anzumerken, dass die Lerneinheit 202 konfiguriert ist, zu bestimmen, ob das Lernen fortgesetzt werden sollte. Es ist möglich, zu bestimmen, ob das Lernen fortgesetzt werden sollte, basierend beispielsweise darauf, ob eine Versuchszählung nach Starten des Maschinenlernens die maximale Versuchszählung erreicht hat oder ob eine verstrichene Zeitperiode nach Starten des Maschinenlernens eine vorbestimmte Zeitperiode überschritten hat (oder gleich oder größer ist als). ?
Die Belohnungs-Recheneinheit 221 ist konfiguriert, eine Belohnung zu berechnen, wenn eine Aktion a in einem gewissen Zustand s auf Basis der Bestimmungsinformation ausgewählt wird. Eine Belohnung kann auf Basis einer Vielzahl von Evaluierungselementen berechnet werden, die in der Bestimmungs-Information enthalten sind. In der vorliegenden Ausführungsform wird eine Belohnung auf Basis von beispielsweise Elementen von (1) Druckgröße (Drehmoment), das an das Werkzeug, Vorschubwelle und Spindel angelegt wird, (2) Form von Wellenformn von an das Werkzeug, die Vorschubwelle und die Spindel angelegtem Druck (Drehmoment), und (3) Zeitperiode, die für die Schneidarbeit benötigt, berechnet.
Dann wird, wie eine Belohnung für das Element von (1) Druckgröße (Drehmoment), welcher an das Werkzeug, die Vorschubwelle und die Spindel angelegt wird, das Element von (2) Form von Wellenformen von an das Werkzeug, die Vorschubwelle und die Spindel angelegtem Druck (Drehmoment) und das Element von (3) Zeitperiode, die sie für die Schneidarbeit benötigt, nunmehr unten beschrieben.
Für eine Belohnung für das Element von (1) Größe von Druck (Drehmoment), der auf das Werkzeug, die Vorschubwelle und die Spindel aufgebracht wird.
Die Werte der Größe von Druck (Drehmoment), der auf das Werkzeug, die Vorschubwelle und die Spindel in einem Zustand s und einem Zustand s' aufgebracht wird, wenn der Zustand s zum Zustand s' aufgrund einer Aktion a übergegangen ist, werden jeweils als Werte P_t(s), P_f(s) und P_m(s) und Werte P_t(s'), P_f(s') und P_m(s') repräsentiert.
Die Belohnungs-Recheneinheit 221 berechnet eine Belohnung auf Basis der Größe des auf das Werkzeug, die Vorschubwelle und die Spindel aufgebrachten Drucks (Drehmoment), wie unten beschrieben.
Wenn der Wert P_t(s) (s') < dem Wert P_t(s), der Wert P_s(s) < dem Wert P_f(s) und der Wert P_m(s') < dem Wert P_m(s), wird eine Belohnung r_p auf einen Positivwert eingestellt.
Wenn zumindest einer der Werte P_t(s), P_f(s') und P_m(s') im Zustand s' größer als ein entsprechender der Werte P_t(s), P_f(s) und P_m(s) im Zustand s sind, wird die Belohnung r_p auf einen Negativwert eingestellt.
Es ist anzumerken, dass der negative Wert und der positive Wert Konstantwerte sein können, die vorher eingestellt werden, zum Beispiel ein erster negativer Wert und ein erster positiver Wert).
Für eine Belohnung für das Element von (2) Formen von Wellenformen von auf das Werkzeug, die Vorschubwelle und die Spindel aufgebrachten Druck (Drehmoment).
Die Formen von Wellenformen von auf das Werkzeug, die Vorschubwelle und die Spindel im Zustand s' aufgebrachten Druck (Drehmoment), wenn der Zustand s vom Zustand s' aufgrund der Aktion a übergegangen ist, werden jeweils als WF_t(s'), WF_f(s') und WF_m(s') repräsentiert.
Die Belohnungs-Recheneinheit 221 berechnet eine Belohnung auf Basis der Form und der Wellenformen des an das Werkzeug, die Zufuhrwelle und die Spindel, wie unten beschrieben, angelegten Drucks (Drehmoment).
Wenn zumindest eines von WF_t(s'), WF_f(s') und WF_m(s'), die jeweils die Form der Wellenformen des an das Werkzeug, die Vorschubwelle und die Spindel angelegten Druck (Drehmoment) repräsentieren, und die Spindel ähnlich ist zu einer Wellenform, die ein Vorzeichen angibt, das das Werkzeug kaputt gehen wird oder eine Wellenform, die einen stärkeren Abfall bei der Lebensdauer des Werkzeugs angibt, wird eine Belohnung r_w auf einen negativen Wert eingestellt.
Wenn WF_t(s'), WF_f(s') und WF_m(s'), die jeweils die Formen der Wellenformen des an das Werkzeug, die Vorschubwelle und die Spindel angelegten Drucks (Drehmoment) unähnlich zu der Wellenform sind, die ein Vorzeichen angibt, das das Werkzeug kaputt gehen wird, und der Wellenform, die einen stärkeren Abfall bei der Lebensdauer des Werkzeugs angibt, wird die Belohnung r_w auf einen positiven Wert eingestellt.
Es ist anzumerken, dass zu der ein Vorzeichen, dass das Werkzeug kaputt gehen wird, angebenden Wellenform und der einen stärkeren Abfall bei der Lebensdauer des Werkzeugs angebenden Wellenform angebenden Daten vorab für jedes Werkzeug erfasst werden können und in der (nicht gezeigten) Speichereinheit der Maschinenlernvorrichtung 20 gespeichert werden.
Weiterhin können der Negativwert und der Positivwert beispielsweise Konstantwerte sein, die vorab eingestellt werden (zum Beispiel ein zweiter negativer Wert und ein zweiter positiver Wert).
Für eine Belohnung für (3) Periode von Zeit die es erfordert für die Schneidarbeit.
Die Werte der Perioden der Zeit, welche die Schneidarbeit im Zustand s und dem Zustand s' benötigt, wenn der Zustand s zum Zustand s' aufgrund der Aktion a übergegangen ist, werden jeweils als ein Wert T(s) und ein Wert von T(s') repräsentiert.
Die Belohnungs-Recheneinheit 221 berechnet eine Belohnung auf Basis der Zeitperioden die es für die Schneidarbeit erfordert, wie unten beschrieben.
Wenn der Wert T(s') > dem Wert von T(s), wird eine Belohnung r_c als auf einen negativen Wert eingestellt.
Wenn der Wert T(s') = dem Wert von T(s), wird die Belohnung r_c auf Null eingestellt.
Wenn der Wert T(s') < dem Wert von T(s), wird die Belohnung r_c auf einen positiven Wert eingestellt.
Es ist anzumerken, dass der negative Wert und der positive Wert beispielsweise konstante Werte sein können, die vorab eingestellt werden (zum Beispiel ein dritter negativer Wert und ein dritter positiver Wert).
Die Belohnungs-Recheneinheit 221 kann die Gleichung 2 verwenden, um getrennt Gewichtungs-Addition an den Belohnungen r_p, r_w und r_c durchzuführen, die alle für jedes der oben beschriebenen Elemente berechnet sind, pro Maschinenlernen, das eine Zeitperiode priorisiert, die für die Bearbeitung erforderlich ist, und einer Maschinen-Bearbeitung, die die Lebenszeit des Werkzeugs priorisiert, um entsprechende Belohnungen r zu berechnen, als Belohnungen in dem Maschinenlernen, welche eine Zeitperiode priorisiert, die für die Bearbeitung benötigt wird, und dem Maschinenlernen, welches die Lebensdauer des Werkzeugs priorisiert. $r = a_{w} \cdot r_{p} + b_{w} \cdot r_{w} + c_{w} \cdot r_{c}$
Es ist anzumerken, dass die Koeffizienten a_w, b_w und c_w Gewichtungs-Koeffizienten repräsentieren.
Weiterhin kann die Belohnungs-Recheneinheit 221 beim Berechnen einer Belohnung r (nachfolgend auch als eine „Belohnung r_cycle“ bezeichnet), die während des Maschinenlernens, das eine Zeitperiode priorisiert, die für die Bearbeitung notwendig ist, zu verwenden ist, beispielsweise einen Wert des Koeffizienten c_w in Gleichung 2 auf einen größeren Wert einstellen, und Absolutwerte des dritten negativen Werts und des dritten positiven Werts auf größere Werte im Vergleich mit jenen, die während des Maschinenlernens zu verwenden sind, welches die Lebensdauer des Werkzeugs priorisiert.
Weiterhin kann die Belohnungs-Recheneinheit 221 beim Berechnen einer Belohnung r (nachfolgend auch als eine „Belohnung r_tool“ bezeichnet), die während des Maschinenlernens zu verwenden ist, welches die Lebensdauer des Werks priorisiert, beispielsweise einen Wert des Koeffizienten b_w in Gleichung 2 auf einen größeren Wert und Absolutwerte des zweiten negativen Werts und des zweiten positiven Werts auf größere Werte im Vergleich zu jenen, die während des Maschinenlernen zu verwenden sind, welches eine Zeitperiode, die für die Bearbeitung benötigt wird, priorisiert, einstellen.
Das Maschinenlernen, welches eine Zeitperiode, die zur Bearbeitung benötigt wird, priorisiert, wird nachfolgend auch als „Maschinenlernen im Bearbeitungszeit-Prioritätsmodus“ bezeichnet, wenn nicht anders ausgesagt. Weiterhin wird das Maschinenlernen, was die Lebensdauer des Werkzeugs priorisiert, nachfolgend auch als „Maschinenlernen im Werkzeug-Lebensdauer-Prioritätsmodus“ bezeichnet, wenn nicht anders ausgesagt.
Die Wertefunktions-Aktualisierungseinheit 222 ist konfiguriert, im Falle des Maschinenlernens im Maschinenlernzeit-Prioritätsmodus, das Q-Lernen im Bearbeitungszeit-Prioritätsmodus auf Basis des Zustands s, der Aktion a, des Zustands s', wenn die Aktion a auf den Zustand s angewendet wird, und des Werts der Belohnung r_cycle, berechnet wie oben beschrieben, durchzuführen, um die Wertefunktion Q_cycle zu aktualisieren, welche die Wertefunktions-Speichereinheit 204 speichert. Die Wertefunktions-Aktualisierungseinheit 222 ist weiter konfiguriert, im Falle des Maschinenlernens im Werkzeuglebensdauer-Prioritätsmodus auf Basis des Zustands s, der Akustik-Emission a, des Zustands s', wenn die Aktion a auf den Zustand s angewendet wird, und des Werts der Belohnung r_tool, berechnet wie oben beschrieben, durchzuführen, um die Wertefunktion Q_tool zu aktualisieren, welche die Wertefunktions-Speichereinheit 204 speichert.
Zum Aktualisieren der Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und der Wertefunktion Q_tool in dem Werkzeuglebensdauer-Prioritätsmodus kann Online-Lernen, Stapel-Lernen (batch learning) oder Mini-Stapel-Lernen durchgeführt werden.
Das Online-Lernen bezieht sich auf ein Lernverfahren, in welchem eine gewisse Aktion a auf den aktuellen Zustand s angewendet wird, um unmittelbar die Wertefunktion Q zu aktualisieren, jedes Mal, wenn der Zustand s zu einem neuen Zustand s' übergegangen ist. Weiterhin bezieht sich das Stapel-Lernen auf ein Lernverfahren, in welchem eine gewisse Aktion a auf den aktuellen Zustand s angewendet wird und dem Zustand s gestattet wird, wiederholt zu einem neuen Zustand s' überzugehen, um für das Lernen verwendete Daten zu sammeln, alle Teile gesamter Daten, die für das Lernen verwendet werden, zu verwenden und die Wertefunktion Q zu aktualisieren. Weiterhin dient das Mini-Stapel-Lernen als intermediäres Lernen zwischen dem Online-Lernen und dem Stapel-Lernen und bezieht sich auf ein Lernverfahren, bei welchem jedes Mal, wenn zum Lernen verwendete Daten bis zu einem gewissen Niveau kumuliert werden, die Wertefunktion Q aktualisiert wird.
Die Aktionsinformations-Erzeugungseinheit 223 ist konfiguriert, um für den aktuellen Zustand s eine Aktion a im Verlaufe des Q-Lernens auszuwählen. Die Aktionsinformations-Erzeugungseinheit 223 erzeugt Aktionsinformation a, um Betrieb des Modifizierens eines Schneidbetrags einmalig und einer Schneidrate zu verursachen, die für einen festen Zyklus (entsprechend einer Aktion a beim Q-Lernen) eingestellt sind, was im Verlauf des Q-Lernens gemäß dem Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus durchzuführen ist, und gibt die erzeugte Aktions-Information a an die Aktionsinformations-Ausgabeeinheit 203 aus.
Spezifischer kann die Aktionsinformations-Erzeugungseinheit 223 in inkrementeller Weise einen einmaligen Schneidbetrag und eine Schneidrate erhöhen oder senken, die in einer Aktion a enthalten sind, für einen einmaligen Schneidbetrag und eine Schneidrate, die für einen festen Zyklus eingestellt sind, und die in einem Zustand s enthalten sind, pro jedem des Bearbeitungszeit-Prioritätsmodus und des Werkzeuglebensdauer-Prioritätsmodus.
In der vorliegenden Ausführungsform wird beispielsweise ein Fall, bei dem das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus und das Maschinenlernen im Werkzeuglebensdauer-Prioritätsmodus abwechselnd durchgeführt werden, beschrieben. Es ist anzumerken, dass, um zu verhindern, dass das Maschinenlernen in dem Fall zu jeglichem Modus beeinflusst wird, ein üblicherweise bekanntes Verfahren wie etwa ein Greedy-Algorithmus und ε-Greedy-Algorithmus, wie später beschrieben wird, zufällig verwendet werden kann, um das Maschinenlernen durchzuführen. Weiterhin, wie später beschrieben wird, kann das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus und das Maschinenlernen im Werkzeuglebensdauer-Prioritätsmodus getrennt durchgeführt werden.
Die Aktionsinformations-Erzeugungseinheit 223 kann das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus verwenden, um in einer Aktion a einen einmaligen Schneidbetrag und eine Schneidrate für ein Bearbeitungsprogramm zu justieren, und wenn es einen Übergang zu einem Zustand s' gibt, kann einen einmaligen Schneidbetrag und eine Schneidrate für das Bearbeitungsprogramm für eine Aktion a' in Bezug auf den Zustand s' gemäß dem Zustand von Kräften (Drehmoment), die an das Werkzeug, die Vorschubwelle und die Spindel angelegt werden (ob sie sinken), den Zustand der Formen von Wellenformen der an das Werkzeug angelegten Kräfte (Drehmomente) die Vorschubwelle und die Spindel (ob Ähnlichkeit besteht) und den Zustand einer Bearbeitungszeit (ob sie steigt oder sinkt oder konstant bleibt) auswählen.
Beispielsweise, für das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus, wenn ein einmaliger Schneidbetrag und/oder eine Schneidrate ansteigt/ansteigen, die Belohnung r_cycle somit ansteigt, alle an das Werkzeug, die Vorschubwelle und die Spindel angelegten Kräfte (Drehmoment) sinken, gibt es eine Unähnlichkeit in allen Formen von Wellenformen der an das Werkzeug, die Vorschubwelle und die Spindel angelegten Kräfte (Drehmoment), und sinkt die für die Bearbeitung erforderliche Zeitperiode, kann beispielsweise eine solche Maßnahme, die als eine Aktion a' in Bezug auf den Zustand s' einer Aktion a', welcher der für die Bearbeitung erforderlichen Zeitperiode gestattet, so verkürzt zu werden, wie eine, in welcher der einmalige Schneidbetrag und/oder die Schneidrate in inkrementeller Weise erhöht werden oder wird, ergriffen werden.
Ansonsten kann für das Maschinenlernen in dem Bearbeitungszeit-Prioritätsmodus, wenn ein einmaliger Schneidbetrag und/oder eine Schneidrate ansteigt/ansteigen und die Belohnung r_cycle somit sinkt, eine solche Maßnahme ergriffen werden, die als ein Aktion a' in Bezug auf einen Zustand s' beispielsweise eine Aktion a' auswählt, die der für die Bearbeitung erforderliche Zeitperiode gestattet, so verkürzt zu werden wie eine, in welcher ein einmaliger Schneidbetrag und/oder eine Schneidrate zur vorherigen rückgeführt werden oder wird.
Weiterhin gibt es für das Maschinenlernen im Werkzeuglebensdauer-Prioritätsmodus, wenn ein einmaliger Schneidbetrag und/oder eine Schneidrate sinkt/sinken, die Belohnung r_tool somit ansteigt, alle an das Werkzeug, die Vorschubwelle und die Spindel angelegten Kräfte (Drehmoment) sinken, eine Unähnlichkeit in allen Formen von Wellenformn der an das Werkzeug, die Vorschubwelle und die Spindel angelegten Kräfte (Drehmoment), und steigt oder sinkt die Zeitperiode, oder bleibt konstant, die für die Bearbeitung erforderlich ist, so dass eine Maßnahme ergriffen werden kann, die als eine Aktion a' in Bezug auf einen Zustand s' beispielsweise eine Aktion a' auswählt, die ein Sinken bei der Lebensdauer des Werkzeugs unterdrückt, wie etwa eine, in welcher der einmalige Schneidbetrag und/oder die Schneidrate in inkrementeller Weise gesenkt werden oder wird.
Ansonsten, für das Maschinenlernen in dem Werkzeuglebensdauer-Prioritätsmodus, wenn ein einmaliger Schneidbetrag und/oder eine Schneidrate sinkt/sinken, die Belohnung r_tool somit sinkt, kann eine solche Maßnahme ergriffen werden, die als eine Aktion a' in Bezug auf einen Zustand s' beispielsweise eine Aktion a' auswählt, die ein Sinken bei der Lebensdauer des Werkzeugs so unterdrückt, wie eine, in welcher der Schneidbetrag und/oder die Schneidrate zur vorigen rückgeführt werden oder wird.
Weiterhin kann die Aktionsinformations-Erzeugungseinheit 223 sich so konfigurieren, dass sie einen Plan annimmt, der die Aktion a' auswählt, durch ein bekanntes Verfahren wie etwa ein Greedy-Verfahren des Auswählens der Aktion a' mit der höchsten Qualität Q(s, a) von den Qualitäten existierender abgeschätzter Aktionen a, oder ein ε-Greedy-Verfahren des zufälligen Auswählens der Aktion a' mit einer kleinen Wahrscheinlichkeit ε und Auswählen der Aktion a' mit der höchsten Qualität Q(s,a) außer dieser.
Die Aktionsinformations-Ausgabeeinheit 203 ist konfiguriert, Aktionsinformation a, die aus der Lerneinheit 202 ausgegeben ist, an die Numerik-Steuervorrichtung 101 auszugeben. Die Aktionsinformations-Ausgabeeinheit 203 kann als Aktionsinformation beispielsweise aktualisierte Werte eines einmaligen Schneidbetrags und einer Schneidrate an die Numerik-Steuervorrichtung 101 ausgeben. Dadurch aktualisiert die Numerik-Steuervorrichtung 101 den einmaligen Schneidbetrag und die Schneidrate, welche für den festen Zyklus eingestellt sind, auf Basis der empfangenen aktualisierten Werte des einmaligen Schneidbetrags und der Schneidrate. Die Numerik-Steuervorrichtung 101 erzeugt dann einen Betriebsbefehl auf Basis des aktualisierten einmaligen Schneidbetrags und der aktualisierten Schneidrate, die für den festen Zyklus eingestellt sind, und veranlasst die Werkzeugmaschine 10, die Schneidarbeit auf Basis des erzeugten Betriebsbefehls durchzuführen.
Es ist anzumerken, dass die Aktionsinformations-Ausgabeeinheit 203 als Aktionsinformation ein Bearbeitungsprogramm, das auf Basis der aktualisierten Werte des einmaligen Schneidbetrags und der Schneidrate aktualisiert wird, an die Numerik-Steuervorrichtung 101 ausgeben kann.
Die Wertefunktions-Speichereinheit 204 ist eine Speichervorrichtung, die konfiguriert ist, die Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und die Wertefunktion Q_tool in dem Werkzeuglebensdauer-Prioritätsmodus zu speichern. Die Wertefunktionen Q_cycle, Q_tool können beispielsweise alle als eine Tabelle (nachfolgend als eine „Aktionswerte-Tabelle“ bezeichnet) pro Zustand s oder Aktion a gespeichert werden. Die Wertefunktionen Q_cycle, Q_tool, die in der Wertefunktions-Speichereinheit 204 gespeichert sind, werden durch die Wertefunktions-Aktualisierungseinheit 222 aktualisiert.
Die Optimalaktionsinformations-Ausgabeeinheit 205 ist konfiguriert, auf Basis der Wertefunktion Q_cycle oder der Wertefunktion Q_tool, die aktualisiert wird, wenn die Wertefunktions-Aktualisierungseinheit 222 das Q-Lernen durchführt, Aktionsinformation a (nachfolgend auch als „optimale Aktionsinformation“ bezeichnet), welche die Numerik-Steuervorrichtung 101 veranlasst, einen Betrieb durchzuführen, gemäß welchem ein Wert der Wertefunktion maximal wird, zu erzeugen.
Spezifischer erfasst die Optimalaktionsinformations-Ausgabeeinheit 205 die Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und die Wertefunktion Q_tool in dem Werkzeuglebensdauer-Prioritätsmodus, welche die Wertefunktions-Speichereinheit 204 speichert. Die Wertefunktionen Q_cycle, Q_tool sind jene, die aktualisiert werden, wenn die Wertefunktions-Aktualisierungseinheit 222 das Q-Lernen durchführt, wie oben beschrieben. Die Optimalaktionsinformations-Ausgabeeinheit 205 erzeugt dann Aktionsinformation auf Basis der erfassten Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und Aktionsinformation auf Basis der erfassten Wertefunktion Q_tool im Bearbeitungszeit-Prioritätsmodus und gibt die erzeugten Teile von Aktionsinformation an die Numerik-Steuervorrichtung 101 aus. Die optimale Aktionsinformation beinhaltet, ähnlich zu der Aktionsinformation, welche die Aktionsinformations-Ausgabeeinheit 203 im Verlaufe des Q-Lernens ausgibt, Information, die für aktualisierte Werte eines einmaligen Schneidbetrags und einer Schneidrate indikativ sind.
Die in der Maschinenlernvorrichtung 20 enthaltenen Funktionsblöcke sind oben beschrieben worden.
Um die Funktionsblöcke zu erhalten, beinhaltet die Maschinenlernvorrichtung 20 eine Arithmetik-Verarbeitungsvorrichtung, wie etwa eine Zentraleinheit (CPU). Die Maschinenlernvorrichtung 20 beinhaltet weiter eine HilfsSpeichervorrichtung, wie etwa ein Festplattenlaufwerk (HDD), welches Programme für verschiedene Typen von Steuerung speichert, einschließlich Applikations-Software und ein Betriebssystem (BS), und eine Hauptspeicher-Vorrichtung, wie etwa einen Wahlfreizugriffsspeicher (RAM), der Daten speichert, welche die Arithmetik-Verarbeitungsvorrichtung zeitweilig benötigt, um die Programme Automatikfahrtauszuführen.
In der Maschinenlernvorrichtung 20 liest dann die arithmetische Verarbeitungsvorrichtung die Anwendungs-Software und das BS aus der Hilfsspeichervorrichtung aus, entwickelt die gelesene Applikations-Software und das gelesene BS in die Hauptspeicher-Vorrichtung und führt arithmetische Verarbeitung auf Basis der Anwendungs-Software und des BS durch. Basierend auf einem Ergebnis der arithmetischen Verarbeitung werden weiter verschiedene Typen von in der Maschinenlernvorrichtung 20 enthaltener Hardware gesteuert. Daher werden die Funktionsblöcke gemäß der vorliegenden Ausführungsform erzielt. Das heißt, dass es möglich ist, die vorliegende Ausführungsform zu erzielen, wenn die Hardware und die Software miteinander kooperieren.
Da erwartet wird, dass die Maschinenlernvorrichtung 20 einen größeren Betrag an Arithmetik-Verarbeitung zusammen mit dem Maschinenlernen durchführt, kann beispielsweise die Graphik-Verarbeitungseinheit (GPU) an einem persönlichen Computer montiert sein und kann eine Technologie, die „general-purpose computing on graphics processing units“ (GPGPU) genannt wird, verwendet werden, um die GPU bei Arithmetik-Verarbeitung mit dem Maschinenlernen einzusetzen, da dies gestattet, prompte Verarbeitung zu erzielen. Weiterhin, um promptere Verarbeitung durchzuführen, kann eine Vielzahl von Computern, die alle mit einer solchen GPU versehen sind, wie oben beschrieben, verwendet werden, um ein Computer-Cluster aufzubauen, um der Vielzahl von in dem Computer-Cluster enthaltenen Computer zu gestatten, Parallel-Verarbeitung durchzuführen.
Als Nächstes wird der Betrieb der Maschinenlernvorrichtung 20, wenn sie Q-Lernen durchführt, gemäß der vorliegenden Ausführungsform hierin unter Bezugnahme auf das Flussdiagramm in 3 beschrieben.
3 ist ein Flussdiagramm, welches den Betrieb der Maschinenlernvorrichtung 20 bei Durchführung des Q-Lernens gemäß der ersten Ausführungsform illustriert.
In Schritt S11 weist die Steuereinheit 206 die Zustandsinformations-Erfassungseinheit 201 an, Zustandsinformation zu erfassen, welche für einen Versuchszähler, der auf Anfangseinstellung, das heißt „1“ eingestellt ist, indikativ ist.
In Schritt S12 erfasst die Zustandsinformations-Erfassungseinheit 201 Anfangszustandsdaten aus der Numerik-Steuervorrichtung 101. Die erfassten Zustandsdaten werden an die Aktionsinformations-Erzeugungseinheit 223 ausgegeben. Wie oben beschrieben, sind die Zustandsdaten (Zustandsinformation) Information entsprechend einem Zustand s beim Q-Lernen und beinhaltet am Zeitpunkt in Schritt S12 einen einmaligen Schneidbetrag, eine Schneidrate, das Material des Werkzeugs, die Form des Werkzeugs, der Durchmesser des Werkzeugs, die Länge des Werkzeugs, die verbleibende Lebensdauer des Werkzeugs, das Material des zu bearbeitenden Werkstücks, die Katalog-Schneidbedingungen für das Werkzeug, die Drehzahl der Spindel, Motorstromwerte, eine Maschinentemperatur und eine Umgebungstemperatur. Es ist anzumerken, dass der Bediener vorab Zustandsdaten zu einem Zeitpunkt des Startens des Q-Lernens zum ersten Mal erzeugt.
Im Schritt S13 erzeugt die Aktionsinformations-Erzeugungseinheit 223 durch das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus Teile von neuer Aktionsinformation a im Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus und gibt die erzeugten Teile neuer Aktionsinformation a in den Bearbeitungszeit-Prioritätsmodus und den Werkzeuglebensdauer-Prioritätsmodus an die Numerik-Steuervorrichtung 101 über die Aktionsinformations-Ausgabeeinheit 203 aus. Die Numerik-Steuervorrichtung 101 führt basierend auf der Aktionsinformation a, welches durch die Einstellvorrichtung 111 aus den empfangenen Teilen von Aktionsinformation a in dem Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus ausgewählt wird, ein Bearbeitungsprogramm aus, in welchem ein einmaliger Schneidbetrag und eine Schneidrate, die für einen festen Zyklus eingestellt werden, aktualisiert werden. Die Numerik-Steuervorrichtung 101 erzeugt einen Betriebsbefehl auf Basis des aktualisierten Bearbeitungsprogramms und veranlasst die Werkzeugmaschine 10, Schneidarbeit auf Basis des erzeugten Betriebsbefehls durchzuführen.
Im Schritt S14 erfasst die Zustandsinformations-Erfassungseinheit 201 Zustandsdaten entsprechend einem neuen Zustand s' aus der Numerik-Steuervorrichtung 101. Es ist hier anzumerken, dass die neuen Zustandsdaten einen einmaligen Schneidbetrag, eine Schneidrate, das Material eines Werkzeugs, die Form des Werkzeugs, den Durchmesser des Werkzeugs, die Länge des Werkzeugs, die verbleibende Lebensdauer des Werkzeugs, das Material des zu bearbeitenden Werkstücks, die Katalog-Schneidbedingungen für das Werkzeug, die Drehzahl der Spindel, Motorstromwerte, eine Maschinentemperatur und eine Umgebungstemperatur beinhaltet. Die Zustandsinformations-Erfassungseinheit 201 gibt die erfassten Zustandsdaten an die Lerneinheit 202 aus.
Im Schritt S15 erfasst die Zustandsinformations-Erfassungseinheit 201 Bestimmungsinformation über den neuen Zustand s'. Es ist hier anzumerken, dass die Bestimmungsinformation die Größe von an das Werkzeug angelegtem Druck, (Axialrichtung und Rotationsrichtung), die Form der Wellenform des an das Werkzeug angelegten Drucks (Axialrichtung und Rotationsrichtung), die Größe von an die Vorschubwelle angelegten Drehmoments, die Form der Wellenform des an die Vorschubwelle angelegten Drehmoments, die Größe des an die Spindel angelegten Drehmoments, die Form einer Wellenform des an die Spindel angelegten Drehmoments und die Zeitperiode, die es für die Schneidarbeit benötigt, wenn das aktualisierte Bearbeitungsprogramm ausgeführt wird, die aus der Werkzeugmaschine 10 erfasst werden, wenn das aktualisierte Bearbeitungsprogramm im Schritt S13 ausgeführt wird, beinhaltet. Die erfasste Bestimmungsinformation wird an die Lerneinheit 202 ausgegeben.
In Schritt S16 führt die Belohnungs-Recheneinheit 221 Belohnungs-Rechenverarbeitung auf Basis der erfassten Bestimmungsinformation aus und berechnet eine Belohnung r_cycle im Bearbeitungszeit-Prioritätsmodus bzw. eine Belohnung r_tool im Werkzeuglebensdauer-Prioritätsmodus. Es ist anzumerken, dass ein detaillierter Ablauf der Belohnungs-Rechenverarbeitung später beschrieben wird.
Im Schritt S17 aktualisiert die Wertefunktions-Aktualisierungseinheit 222 die Wertefunktion Q_cycle und die Wertefunktion Q_tool, welche die Wertefunktions-Speichereinheit 204 speichert, basierend auf der berechneten Belohnung r_cycle und der berechneten Belohnung r_tool.
Im Schritt S18 bestimmt die Steuereinheit 206, ob eine Versuchszählung nach Starten des Maschinenlernens die maximale Versuchszählung erreicht hat. Die maximale Versuchszählung sollte vorher eingestellt werden. Wenn die maximale Versuchszählung noch nicht erreicht worden ist, wird die Versuchszählung im Schritt S19 heraufgezählt. Dann kehrt die Verarbeitung zu Schritt S13 zurück. Die Verarbeitung ab Schritten S13 bis S19 wird wiederholt durchgeführt, bis die maximale Versuchszählung erreicht worden ist.
Es ist anzumerken, dass, obwohl im Ablauf in 3 die Verarbeitung endet, wenn die Versuchszählung die maximale Versuchszählung erreicht, die Verarbeitung enden kann, wenn eine solche Bedingung, die zu einer Zeitperiode gehört, die es für die Verarbeitung ab Schritt S13 bis S19 benötigt, erfüllt ist, dass eine kumulative Zeitperiode nach Starten des Maschinenlernens eine maximal verstrichene Zeitperiode, die vorab eingestellt ist, übersteigt (oder gleich oder größer als ist).
Weiterhin, obwohl Schritt S17 Online-Aktualisierung exemplifiziert hat, kann das Aktualisierungs-Verfahren durch Stapel-Aktualisierung oder Mini-Stapel-Aktualisierung statt einer Online-Aktualisierung ersetzt werden.
4 ist ein Flussdiagramm, das detaillierte Verarbeitungsinhalte der im Schritt S16 in 3 illustrierten Belohnungs-Rechenverarbeitung illustriert.
Im Schritt S61 bestimmt die Belohnungs-Recheneinheit 221, ob alle Werte P_t(s'), P_f(s') und P_m(s') der an das Werkzeug angelegten Druckgröße (Drehmoment), der Vorschubwelle und der Spindel, die in der zum Zustand s gehörenden Bestimmungsinformation enthalten sind, jeweils kleiner, das heißt schwächer sind als die Werte P_t(s'), P_f(s') und P_m(s') der Druckgröße (Drehmoment), das an das Werkzeug, die Vorschubwelle und die Spindel angelegt wird, die in der zu dem Zustand s gehörenden Bestimmungsinformation enthalten sind. Wenn alle Werte P_t(s'), P_f(s') und P_m(s') der Größe des Drucks (Drehmoment), der an das Werkzeug, die Vorschubwelle und die Spindel angelegt wird, die zum Zustand s' gehören, jeweils schwächer sind als jene, die zum Zustand s gehören, schreitet die vorliegende Verarbeitung zu Schritt S62 fort. Weiterhin, wenn zumindest einer der Werte P_t(s'), P_f(s') und P_m(s') der an das Werkzeug, die Zufuhrwelle und die Spindel angelegten Druckgröße (Drehmoment), die zum Zustand s' gehören, stärker als die entsprechende jener sind, die zum Zustand s gehören, schreitet die vorliegende Verarbeitung zu S63 fort.
Im Schritt S62 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_p auf einen negativen Wert ein.
In Schritt S63 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_p auf einen positiven Wert ein.
Im Schritt S64 bestimmt die Belohnungs-Recheneinheit 221, ob alle Formen WF_t(s'), WF_f(s') und WF_m(s') der Wellenformen des an das Werkzeug, die Vorschubwelle und die Spindel angelegten Drucks (Drehmoment), die in der zu dem Zustand s' gehörenden Bestimmungsinformation enthalten sind, alle gleich den Wellenformen sind, die ein Vorzeichen angibt, dass das Werkzeug kaputt gehen wird, oder die Wellenform, die ein weiteres Sinken bei der Lebensdauer des Werkzeugs angibt. Wenn es Unähnlichkeit in allen Formen WF_t(s'), WF_f(s') und WF_m(s') der Wellenformen des an das Werkzeug, die Vorschubwelle und die Spindel angelegten Drucks (Drehmoment) gibt, die zum Zustand s' gehören, schreitet die vorliegende Verarbeitung zu Schritt S66 fort. Weiterhin, wenn es eine Ähnlichkeit bei zumindest einer der Formen WF_t(s'), WF_f(s') und WF_m(s') der Wellenformen des an das Werkzeug, die Vorschubwelle und die Spindel angelegten Drucks (Drehmoment) gibt, die zum Zustand s' gehören, schreitet die Verarbeitung zu Schritt S65 fort.
Im Schritt S65 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_w auf einen negativen Wert ein.
Im Schritt S66 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_w auf einen positiven Wert ein.
Im Schritt S67 bestimmt die Belohnungs-Recheneinheit 221, ob der Wert T(s') der Zeitperiode, welche es für die Schneidarbeit benötigt, die in der zu dem Zustand s' gehörenden Bestimmungsinformation enthalten ist, gestiegen oder gesunken ist, im Vergleich zum Wert T(s) der Zeitperiode, die es für die Schneidarbeit erfordert, die in der zum Zustand s gehörenden Bestimmungsinformation enthalten ist, oder konstant bleibt. In einem Fall, bei dem der Wert T(s') der Zeitperiode, die es für die Schneidarbeit braucht, welche zum Zustand s' gehört, über die, die zum Zustand s gehört, gestiegen ist, schreitet die Verarbeitung zu Schritt S68 fort. Weiterhin, in einem Fall, bei dem der Wert T(s') der Zeitperiode, welche es für die Schneidarbeit braucht, die zum Zustand s' gehört, unter die, die zum Zustand s gehört, gesunken ist, schreitet die Verarbeitung zu Schritt S70 fort. Weiterhin, in einem Fall, bei dem der Wert T(s') der Zeitperiode, welche es für die Schneidarbeit braucht, die zum Zustand s' gehört, konstant bleibt, schreitet die Verarbeitung zu Schritt S69 fort.
Im Schritt S68 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_c auf einen negativen Wert ein.
Im Schritt S69 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_c auf Null ein.
Im Schritt S70 stellt die Belohnungs-Recheneinheit 221 die Belohnung r_c auf einen positiven Wert ein.
Im Schritt S71 verwendet die Belohnungs-Recheneinheit 221 die berechneten Belohnungen r_p, r_w und r_c und Gleichung 2, und berechnet eine Belohnung r_cycle im Bearbeitungszeit-Prioritätsmodus bzw. eine Belohnung r_tool im Werkzeuglebensdauer-Prioritätsmodus. Der Ablauf der Belohnungs-Rechenverarbeitung endet. Dann schreitet die vorliegende Verarbeitung zu S17 fort.
Mit dem oben beschriebenen Betrieb unter Bezugnahme auf 3 und 4 ist es möglich, in der vorliegenden Ausführungsform die Wertefunktionen Q_cycle, Q_tool, die verwendet werden, um einen festen Zyklus für ein Bearbeitungsprogramm vor Ort einer Mehrproduktvariablenmengen-Produktion zu optimieren, beispielsweise ohne Steigern der Bediener-Arbeitsbelastung, zu erzeugen.
Als Nächstes wird nunmehr hierin der Betrieb bei Erzeugen von optimaler Aktionsinformation durch die Optimalaktionsinformations-Ausgabeeinheit 205 unter Bezugnahme auf das Flussdiagramm in 5 beschrieben.
Im Schritt S21 erfasst die Optimalaktionsinformations-Ausgabeeinheit 205 die Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und die Wertefunktion Q_tool im Werkzeuglebensdauer-Prioritätsmodus, welche die Wertefunktions-Speichereinheit 204 speichert.
Im Schritt S22 erzeugt die Optimalaktionsinformations-Ausgabeeinheit 205 Teile von optimaler Aktionsinformation für den Bearbeitungszeit-Prioritätsmodus bzw. den Werkzeuglebensdauer-Prioritätsmodus, basierend auf der erfassten Wertefunktion Q_cycle und der erfassten Wertefunktion Q_tool und gibt die erzeugten Teile von optimaler Aktionsinformation für den Bearbeitungszeit-Prioritätsmodus und den Werkzeuglebensdauer-Prioritätsmodus an die Numerik-Steuervorrichtung 101 aus.
Wie oben beschrieben, führt die Numerik-Steuervorrichtung 101 ein Bearbeitungsprogramm, in welchem ein einmaliger Schneidbetrag und eine Schneidrate, die für einen festen Zyklus eingestellt sind, gemäß einer Aktion im Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus aktualisiert werden, welche durch die Einstellvorrichtung 111 ausgewählt werden, was es ermöglicht, das Bearbeitungsprogramm vor Ort beispielsweise einer Mehrprodukt-Variabel-Massenproduktion zu optimieren, ohne die Bearbeitungsbelastung des Bedieners zu steigern. Dadurch ermöglicht es die Numerik-Steuervorrichtung 101, Bearbeitung durch Priorisieren einer Zeitperiode, die für die Bearbeitung erforderlich ist (das heißt Zykluszeit) durchzuführen oder Bearbeitung durch Priorisieren der Lebensdauer des Werkzeugs durchzuführen.
Weiterhin ermöglicht es die Numerik-Steuervorrichtung 101, Zeit und Mühen zu reduzieren, die benötigt werden, um ein Bearbeitungsprogramm zu erzeugen, da der Bediener nicht Argumente für einen einmaligen Schneidbetrag und eine Schneidrate einstellen muss.
Die erste Ausführungsform ist oben beschrieben worden.
<Zweite Ausführungsform>
Als Nächstes wird hier eine zweite Ausführungsform beschrieben. In der zweiten Ausführungsform beinhaltet eine Maschinenlernvorrichtung 20A zusätzlich zu den Funktionen gemäß der ersten Ausführungsform eine Funktion des, für ein Bearbeitungsprogramm, das eine Vielzahl von (z.B. Anzahl n von) festen Zyklen enthält, wie etwa zwei oder mehr feste Zyklen, das Stoppen des Bearbeitungsprogramms jedes Mal, wenn jeder der festen Zyklen (zum Beispiel ein i-ter fester Zyklus) ausgeführt wird, Berechnen eines Zustands s(i), einer Aktion a(i), Bestimmungsinformation (i), einer Belohnung r(i) und einer Aktion a'(i) in Bezug auf einen Zustand s'(i), der zum i-ten festen Zyklus gehört, und Aktualisieren eines einmaligen Schneidbetrags und einer Schneidrate für den i-ten festen Zyklus. Es ist anzumerken, dass n eine Ganzzahl von 2 oder mehr repräsentiert und i eine Ganzzahl im Bereich von 1 bis n repräsentiert.
Dadurch ist es möglich, den einmaligen Schneidbetrag und die Schneidrate zu identifizieren, welche für den i-ten festen Zyklus eingestellt sind, als eine Aktion für den i-ten festen Zyklus. Der i-te feste Zyklus wird nachfolgend auch als ein „fester Zyklus (i)“ (1 ≤ i ≤ n) bezeichnet werden.
Nunmehr wird die zweite Ausführungsform unten beschrieben.
6 ist ein Funktionsblockdiagramm, das ein Funktionskonfigurations-Beispiel eines Numerik-Steuersystems gemäß der zweiten Ausführungsform illustriert. Es ist anzumerken, dass für jene Elemente mit Funktionen ähnlich zu jenen der Elemente des Numerik-Steuersystems 1 in 1 identische Bezugszeichen angeheftet sind und detaillierte Beschreibungen weggelassen werden.
Wie in 6 illustriert, beinhaltet das Numerik-Steuersystem 1 gemäß der zweiten Ausführungsform eine Werkzeugmaschine 10 und die Maschinenlernvorrichtung 20A.
Die Werkzeugmaschine 10 ist ähnlich zu dem Fall gemäß der ersten Ausführungsform eine Werkzeugmaschine, die Fachleuten bekannt ist und beinhaltet eine Numerik-Steuervorrichtung 101a. Die Werkzeugmaschine 10 arbeitet auf Basis eines Betriebsbefehls aus der Numerik-Steuervorrichtung 101a.
Die Numerik-Steuervorrichtung 101 ist ähnlich zum Fall gemäß der ersten Ausführungsform eine Numeriksteuervorrichtung, die Fachleuten bekannt ist, und ist konfiguriert, einen Betriebsbefehl auf Basis eines Bearbeitungsprogramms zu erzeugen, das aus einer externen Vorrichtung (nicht gezeigt) erfasst wird, wie etwa Vorrichtungen für Computer Aided Design (CAD)/computer aided manufacturing (CAM), und den erzeugten Betriebsbefehl an die Werkzeugmaschine 10 zu senden. Dadurch steuert die Numerik-Steuervorrichtung 101a den Betrieb der Werkzeugmaschine 10.
Es ist anzumerken, dass die Numerik-Steuervorrichtung 101a gemäß der zweiten Ausführungsform bei Ausführen eines Bearbeitungsprogramms beispielsweise das Bearbeitungsprogramm jedes Mal stoppen kann, wenn jeder der Anzahl n von fester Zyklen (i), wie etwa Zentrieren und Gewindeschneiden, die im Bearbeitungsprogramm enthalten sind, abgeschlossen ist, und Information ausgibt, die zu einem Werkzeug und einem Werkstück gehört, die in der Werkzeugmaschine 10 für einen festen Zyklus eingestellt ist, einen einmaligen Schneidbetrag und eine Schneidrate, die für den festen Zyklus eingestellt sind (i), und Messwerte, die aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfasst werden, an die Maschinenlernvorrichtung 20A.
Es ist anzumerken, dass die Einstellvorrichtung 111 Funktionen äquivalent zu jenen der Einstellvorrichtung 111 gemäß der ersten Ausführungsform aufweist.
<Maschinenlernvorrichtung 20A>
Die Maschinenlernvorrichtung 20A ist eine Vorrichtung, die konfiguriert ist, während die Numerik-Steuervorrichtung 101a das Bearbeitungsprogramm ausführt, um die Werkzeugmaschine 10 zu veranlassen, zu arbeiten, Verstärkungslernen eines einmaligen Schneidbetrags und einer Schneidrate pro jedes einer Anzahl n von festen Zyklen, die im Bearbeitungsprogramm enthalten sind, durchzuführen.
7 ist ein Funktionsblockdiagramm, das ein Funktionskonfigurations-Beispiel der Maschinenlernvorrichtung 20A illustriert.
Wie in 7 illustriert, beinhaltet die Maschinenlernvorrichtung 20A eine Zustandsinformations-Erfassungseinheit 201a, eine Lerneinheit 202a, eine Aktionsinformations-Ausgabeeinheit 203a, eine Wertefunktions-Speichereinheit 204a, eine Optimalaktionsinformations-Ausgabeeinheit 205a und eine Steuereinheit 206. Die Lerneinheit 202a beinhaltet eine Belohnungs-Recheneinheit 221a, eine Wertefunktions-Aktualisierungseinheit 222a, und eine Aktionsinformations-Erzeugungseinheit 223a.
Es ist anzumerken, dass die Steuereinheit 206 Funktionen äquivalent zu jenen der Steuereinheit 206 der ersten Ausführungsform aufweist.
Die Zustandsinformations-Erfassungseinheit 201a ist konfiguriert, jedes Mal, wenn jede der Anzahl n von festen Zyklen, die im Bearbeitungsprogramm enthalten ist, ausgeführt wird, als einen Zustand der Werkzeugmaschine 10 Zustandsdaten s, die Information beinhalten, die zum Werkzeug und dem Werkstück gehören, die in der Werkzeugmaschine 10 eingestellt sind, einen einmaligen Schneidbetrag und eine Schneidrate, die für den festen Zyklus (i) (1 ≤ i ≤ n) eingestellt sind, und Messwerte, die aus der Werkzeugmaschine 10 durch Ausführen des Bearbeitungsprogramms erfasst werden, aus der Numerik-Steuervorrichtung 101 zu erfassen.
Die Zustandsinformations-Erfassungseinheit 201a gibt die Zustandsdaten s(i), welche pro festem Zyklus (i) erfasst sind, an die Lerneinheit 202a aus.
Es ist anzumerken, dass die Zustandsinformations-Erfassungseinheit 201a die pro festem Zyklus (i) erfassten Zustandsdaten s(i) in einer (nicht gezeigten) Speichereinheit speichern kann, die in der Maschinenlernvorrichtung 20A enthalten ist. In diesem Fall kann die später beschriebene Lerneinheit 202a die Zustandsdaten s(i) pro festem Zyklus (i) aus der (nicht gezeigten) Speichereinheit der Maschinenlernvorrichtung 20A auslesen.
Weiter erfasst die Zustandsinformations-Erfassungseinheit 201a pro festem Zyklus (i) Bestimmungsinformation, die verwendet wird, um eine Belohnung zum Durchführen des Q-Lernens zu berechnen. Spezifisch werden die Größe von auf das Werkzeug aufgebrachtem Druck (Axialrichtung und Rotationsrichtung), die Form einer Wellenform des an das Werkzeug angelegten Drucks (Axialrichtung und Rotationsrichtung), die Drehmomentgröße, die auf die Vorschubwelle angelegt wird, die von der Wellenform des an die Vorschubwelle angelegten Drehmoments, die Größe des Drehmoments, das an die Spindel angelegt wird, die Form einer Wellenform des an die Spindel angelegten Drehmoments und die Zeitperiode, die es für die Schneidarbeit benötigt, wenn der feste Zyklus (i) ausgeführt wird, die aus der Werkzeugmaschine 10 durch Ausführen des in dem zur Zustandsinformation s(i) gehörigen Bearbeitungsprogramms enthaltenen festen Zyklus (i) erfasst werden, als Bestimmungsinformation angesehen, die zum Berechnen einer Belohnung zum Durchführen des Q-Lernens verwendet wird.
Die Lerneinheit 202a ist ein Teil, der Lernen einer Wertefunktion Q(s(i), a(i)) durchführt, wenn eine gewisse Aktion a(i) in gewissen Zustandsdaten (Umgebungszustand) s(i) im festen Zyklus (i) ausgewählt wird. Spezifisch beinhaltet die Lerneinheit 202a die Belohnungs-Recheneinheit 221a, die Wertefunktions-Aktualisierungseinheit 222a und die Aktionsinformations-Erzeugungseinheit 223a.
Es ist anzumerken, dass die Lerneinheit 202a konfiguriert ist, zu bestimmen, ob das Lernen fortgesetzt werden sollte, ähnlich zur Lerneinheit 202 gemäß der ersten Ausführungsform. Es ist möglich, zu bestimmen, ob das Lernen fortgesetzt werden sollte, basierend beispielsweise darauf, ob eine Versuchszählung für ein Bearbeitungsprogramm nach Starten des Maschinenlernens die maximale Versuchszählung erreicht hat oder ob eine verstrichene Zeitperiode nach Starten des Maschinenlernens überschritten worden ist (oder gleich oder größer ist als) eine vorbestimmte Zeitperiode.
Die Einlasskopf 221a ist konfiguriert, eine Belohnung zu berechnen, wenn eine Aktion a(i) in einem gewissen Zustand s(i) im festen Zyklus (i) ausgewählt wird, basierend auf der zu dem festen Zyklus (i) gehörigen Bestimmungsinformation. Es ist anzumerken, dass eine für den festen Zyklus (i) zu berechnende Belohnung ähnlich zu dem Fall der ersten Ausführungsform berechnet wird, basierend auf den Elementen von (1) Druckgröße (Drehmoment), der an das Werkzeug, die Vorschubwelle und die Spindel angelegt wird, (2) Formen von Wellenformen von an das Werkzeug, die Vorschubwelle und die Spindel angelegtem Druck (Drehmoment) und (3) Zeitperiode, die für die Schneidarbeit benötigt wird. Das heißt, dass beispielsweise Belohnungen r_p(i), r_w(i) und r_c(i) für Elemente im festen Zyklus (i) jeweils berechnet werden, ähnlich zu den Belohnungen r_p, r_w und r_c gemäß der ersten Ausführungsform.
Die Belohnungs-Recheneinheit 221a kann dann ähnlich zur Belohnungs-Recheneinheit 221 gemäß der ersten Ausführungsform eine Belohnung r_cycle(i) in dem Bearbeitungszeit-Prioritätsmodus und eine Belohnung r_tool(i) im Werkzeuglebensdauer-Prioritätsmodus für den festen Zyklus (i) unter Verwendung der Belohnungen r_p(i), r_w(i) und r_c(i) für die Elemente und Gleichung 2 berechnen.
Die Wertefunktions-Aktualisierungseinheit 222a ist konfiguriert, ähnlich zur Wertefunktions-Aktualisierungseinheit 222 gemäß der ersten Ausführungsform in einem Fall des Maschinenlernens im Bearbeitungszeit-Prioritätsmodus das Q-Lernen auf Basis, im festen Zyklus (i) eines Zustands s(i), einer Aktion a(i), eines Zustands s(i), wenn die Aktion a(i) auf dem Zustand s(i) angewendet wird, und dem Wert einer Belohnung r_cycle(i), berechnet wie oben beschrieben, um eine Wertefunktion Q_cycle__i für den festen Zyklus(i) zu aktualisieren, durchzuführen, welche die Wertefunktions-Speichereinheit 204a speichert. Die Wertefunktions-Aktualisierungseinheit 222a ist weiter konfiguriert, im Falle des Maschinenlernens im Werkzeuglebensdauer-Prioritätsmodus das Q-Lernen auf Basis von, im festen Zyklus (i), den Zustand s(i), der Aktion a(i), dem Zustand s'(i), wenn die Aktion a(i) auf dem Zustand s(i) angewendet wird, und der Werte-Belohnung r_tool(i), berechnet wie oben beschrieben, durchzuführen, um eine Wertefunktion Q_tool__i, welche die Wertefunktions-Speichereinheit 204a speichert, zu aktualisieren.
Die Aktionsinformations-Erzeugungseinheit 223a ist konfiguriert, ähnlich zur Aktionsinformations-Erzeugungseinheit 223 gemäß der ersten Ausführungsform für den aktuellen Zustand s(i) im festen Zyklus (i) eine Aktion a(i) im Verlaufe des Q-Lernens auszuwählen. Die Aktionsinformations-Erzeugungseinheit 223a erzeugt Aktionsinformation a, die zum i-ten festen Zyklus gehört, um den Betrieb des Modifizierens eines einmaligen Schneidbetrags und einer Schneidrate für den i-ten festen Zyklus (entsprechend der Aktion a) beim Q-Lernen) zu veranlassen, durchgeführt zu werden, im Verlauf des Q-Lernens gemäß dem Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus und gibt die erzeugte Aktionsinformation a, die zum i-ten festen Zyklus gehört, an die Aktionsinformations-Ausgabeeinheit 203a aus.
Die Aktionsinformations-Ausgabeeinheit 203a ist konfiguriert, ähnlich zu der Aktionsinformations-Ausgabeeinheit 203 gemäß der ersten Ausführungsform Aktionsinformation a(i) pro fixem Zyklus (i), die aus der Lerneinheit 202a ausgegeben wird, an die Numerik-Steuervorrichtung 101a auszugeben. Die Aktionsinformations-Ausgabeeinheit 203a kann als Aktionsinformation pro festem Zyklus (i) beispielsweise aktualisierte Werte eines einmaligen Startbetrags ? und einer Schneidrate an die Numerik-Steuervorrichtung 101a ausgeben. Dadurch aktualisiert die Numerik-Steuervorrichtung 101a die Anzahl n von festen Zyklen (i), die jeweils im Bearbeitungsprogramm enthalten sind, basierend auf den empfangenen aktualisierten Werten des einmaligen Schneidbetrags und der Schneidrate. Die Numerik-Steuervorrichtung 101a erzeugt dann einen Betriebsbefehl auf Basis des Bearbeitungsprogramms, welches die aktualisierten festen Zyklen (i) beinhaltet und veranlasst die Werkzeugmaschine 10, Schneidarbeit auf Basis des erzeugten Betriebsbefehls durchzuführen.
Es ist anzumerken, dass die Aktionsinformations-Ausgabeeinheit 203a als Aktionsinformation pro festem Zyklus (i) an Bearbeitungsprogramm, an welchem der feste Zyklus (i) basierend auf den aktualisierten Werten eines einmaligen Schneidbetrags und einer Schneidrate aktualisiert wird, an die Numerik-Steuervorrichtung 101a ausgeben kann.
Die Wertefunktions-Speichereinheit 204a ist eine Speichervorrichtung, die konfiguriert ist, die Wertefunktion Q_cycle__i im Bearbeitungszeit-Prioritätsmodus und die Wertefunktion Q_tool__i in dem Werkzeuglebensdauer-Prioritätsmodus pro dem festen Zyklus (i) zu speichern. Es ist anzumerken, dass die Beziehung zwischen einer Aggregation der Wertefunktion Q_{cycle i} (1 ≤ i ≤ n) und der Wertefunktion Q_cycle und eine Beziehung zwischen einer Aggregation der Wertefunktionen Q_tool__i (1 ≤ i ≤ n) und der Wertefunktion Q_tool durch Gleichung 3 repräsentiert werden. $\begin{array}{l} Q_{c y c l e} = \underset{i}{\cup} Q_{c y c l e_i} \\ Q_{t o o l} = \underset{i}{\cup} Q_{t o o l_i} \end{array}$
Die Wertefunktionen Q_{cycle _i}, Q_tool__i pro festem Zyklus (i), die in der Wertefunktions-Speichereinheit 204a gespeichert sind, werden durch die Wertefunktions-Aktualisierungseinheit 222 aktualisiert.
Die Optimalaktionsinformations-Ausgabeeinheit 205a ist konfiguriert, um ähnlich zur Optimalaktionsinformations-Ausgabeeinheit 205 gemäß der ersten Ausführungsform, basierend auf der Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus oder der Wertefunktion Q_tool in dem Werkzeuglebensdauer-Prioritätsmodus, die aktualisiert werden, während die Wertefunktions-Aktualisierungseinheit 222a das Q-Lernen durchführt, Aktionsinformation (OptimalAktionsinformation) a zu erzeugen, die zum festen Zyklus (i) gehört, welches die Numerik-Steuervorrichtung 101a veranlasst, Betrieb durchzuführen, gemäß welchem ein Wert einer Wertefunktion maximal wird.
Spezifischer erfasst die Optimalaktionsinformations-Ausgabeeinheit 205a die Wertefunktion Q_cycle in dem Bearbeitungszeit-Prioritätsmodus und die Wertefunktion Q_tool in dem Werkzeuglebensdauer-Prioritätsmodus, welche die Wertefunktions-Speichereinheit 204 speichert. Die Optimalaktionsinformations-Ausgabeeinheit 205a erzeugt dann Aktionsinformation, die zum festen Zyklus (i) gehört, auf Basis der erfassten Wertefunktion Q_cycle im Bearbeitungszeit-Prioritätsmodus und von Aktionsinformation, die zum festen Zyklus (i) gehört, basierend auf der erfassten Wertefunktion Q_tool im Bearbeitungszeit-Prioritätsmodus, und gibt jeden der erzeugten Teile von Aktionsinformation, die zu den festen Zyklen (i) gehören, an die Numerik-Steuervorrichtung 101a aus. Die Optimalaktionsinformation beinhaltet, ähnlich zur Aktionsinformation, welche die Aktionsinformations-Ausgabeeinheit 203a im Verlaufe des Q-Lernens ausgibt, Information, die für aktualisierte Werte eines einmaligen Schneidbetrags und einer Schneidrate indikativ ist.
Die in der Maschinenlernvorrichtung 20A enthaltenen Funktionsblöcke sind oben beschrieben worden.
Als Nächstes wird der Betrieb der Maschinenlernvorrichtung 20A beim Durchführen des Q-Lernens gemäß der vorliegenden Ausführungsform nunmehr unter Bezugnahme auf das Flussdiagramm in 8 beschrieben.
8 ist ein Flussdiagramm, welches den Betrieb der Maschinenlernvorrichtung 20A illustriert, wenn das Q-Lernen durchgeführt wird, gemäß der zweiten Ausführungsform. Es ist anzumerken, dass im Flussdiagramm in 8 Teile der Verarbeitung ähnlich den in 3 illustrierten Schritten durch identische Schrittnummern gekennzeichnet sind und deren detaillierte Beschreibung weggelassen wird.
In Schritt S11a weist die Steuereinheit 206 die Zustandsinformations-Erfassungseinheit 201a an, Zustandsinformation zu erfassen, die für eine Versuchszählung j indikativ ist, die auf die Anfangseinstellung eines Bearbeitungsprogramms eingestellt ist, das heißt „1“.
Im Schritt Sllb initialisiert die Steuereinheit 206 i auf „1“.
Im Schritt S12a erfasst die Zustandsinformations-Erfassungseinheit 201a Zustandsdaten s(i), die zu einem festen Zyklus (i) gehren, aus der Numerik-Steuervorrichtung 101a. Die erfassten Zustandsdaten s(i) werden an die Aktionsinformations-Erzeugungseinheit 223a ausgegeben. Wie oben beschrieben, sind die Zustandsdaten (Zustandsinformation) s(i) Information, die einen Zustand s(i) im festen Zyklus (i) beim Q-Lernen entsprechen und beinhaltet zum Zeitpunkt im Schritt S12a einen einmaligen Schneidbetrag, eine Schneidrate, das Material eines Werkzeugs, die Form des Werkzeugs, den Durchmesser des Werkzeugs, die Länge des Werkzeugs, die verbleibende Lebensdauer des Werkzeugs, das Material eines zu bearbeitenden Werkstücks, die Katalog-Schneidbedingungen für das Werkzeug, die Drehzahl der Spindel, Motorstromwerte, eine Maschinentemperatur und einer Umgebungstemperatur. Es ist anzumerken, dass der Bediener vorab Zustandsdaten zu einem Zeitpunkt des Startens des Q-Lernens zum ersten Mal erzeugt.
Im Schritt S13a erzeugt die Aktionsinformations-Erzeugungseinheit 223a über das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus Teile von neuer Aktionsinformation a(i), die zum festen Zyklus (i) in dem Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus gehören und gibt die erzeugten Teile von neuer Aktionsinformation a(i) im Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus an die Numerik-Steuervorrichtung 101a über die Aktionsinformations-Ausgabeeinheit 203a aus. Die Numerik-Steuervorrichtung 101a führt auf Basis von Aktionsinformation a(i), welche durch die Einstellvorrichtung 111 aus den empfangenen Teilen von Aktionsinformation a(i) ausgewählt ist, im Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus ein Bearbeitungsprogramm aus, in welchem ein einmaliger Schneidbetrag und eine Schneidrate, die im festen Zyklus (i) eingestellt sind, aktualisiert werden. Die Numerik-Steuervorrichtung 101a erzeugt dann einen Betriebsbefehl auf Basis des aktualisierten festen Zyklus (i) und veranlasst die Werkzeugmaschine 10, Schneidarbeit auf Basis des erzeugten Betriebsbefehls durchzuführen. Die Numerik-Steuervorrichtung 101a stoppt dann das Bearbeitungsprogramm, nachdem der feste Zyklus (i) abgeschlossen ist.
Im Schritt S14 führt die Zustandsinformations-Erfassungseinheit 201a eine Verarbeitung ähnlich zu derjenigen in Schritt S14 gemäß der ersten Ausführungsform durch und erfasst neue Zustandsdaten s'(i), die zum festen Zyklus (i) gehören, welche aus der Numerik-Steuervorrichtung 101a erfasst werden.
Im Schritt S15 führt die Zustandsinformations-Erfassungseinheit 201a eine Verarbeitung ähnlich zu derjenigen im Schritt S15 gemäß der ersten Ausführungsform durch und erfasst Bestimmungsinformation zu dem neuen Zustand s'(i) im festen Zyklus (i). Die erfasste Bestimmungsinformation wird an die Lerneinheit 202a ausgegeben.
Im Schritt S16 führt die Belohnungs-Recheneinheit 221a eine Verarbeitung ähnlich zu derjenigen im Schritt S16 gemäß der ersten Ausführungsform durch, führt die Belohnungs-Rechenverarbeitung in 4 basierend auf der erfassten Bestimmungsinformation durch und berechnet eine Belohnung r_cycle(i) für den festen Zyklus (i) im Bearbeitungszeit-Prioritätsmodus bzw. eine Belohnung r_tool(i) für den festen Zyklus (i) im Werkzeuglebensdauer-Prioritätsmodus durch.
Im Schritt S17 führt die Wertefunktions-Aktualisierungseinheit 222a eine Verarbeitung ähnlich zu derjenigen im Schritt S17 gemäß der ersten Ausführungsform durch und aktualisiert die Wertefunktion Q_cycle__i in dem Bearbeitungszeit-Prioritätsmodus bzw. die Wertefunktion Q_{tool i} in dem Werkzeuglebensdauer-Prioritätsmodus, für den festen Zyklus (i), welchen die Wertefunktions-Speichereinheit 204a speichert, basierend auf der berechneten Belohnung r_cycle(i) und der berechneten Belohnung r_tool (i) für den festen Zyklus (i) .
In Schritt S17a bestimmt die Steuereinheit 206, ob i kleiner als n ist. Wenn i kleiner als n ist, schreitet die vorliegende Verarbeitung zu Schritt S17b fort. Wenn andererseits i gleich oder größer als n ist, schreitet die vorliegende Verarbeitung zu Schritt S18 fort.
Im Schritt S17b erhöht die Steuereinheit 206 i um „1“. Die Verarbeitung kehrt zu Schritt S12a zurück.
Im Schritt S18 führt die Steuereinheit 206 Verarbeitung ähnlich zu derjenigen in Schritt S18 gemäß der ersten Ausführungsform durch und bestimmt, ob der Versuchszähler j, der zum Bearbeitungsprogramm nach Starten des Maschinenlernens gehört, der maximale Versuchszähler erreicht hat. Wenn der maximale Versuchszähler noch nicht erreicht worden ist, wird der Versuchszähler j um „1“ in Schritt S19 heraufgezählt. Dann kehrt die Verarbeitung zu Schritt Sllb zurück. Die Verarbeitung ab Schritt Sllb bis S19 wird wiederholt durchgeführt, bis der maximale Versuchszähler erreicht worden ist.
Es ist anzumerken, dass, obwohl im Ablauf in 8 die Verarbeitung endet, wenn der Versuchszähler j, der zum Bearbeitungsprogramm gehört, die maximale Versuchszählung erreicht, die Verarbeitung enden kann, wenn eine solche Bedingung, die zu einer Zeitperiode gehört, die es für die Verarbeitung ab Schritten Sllb bis S19 erfordert, erfüllt ist, dass eine kumulative Zeitperiode nach Starten des Maschinenlernens eine maximal verstrichene Zeitperiode, die vorab eingestellt wird, übersteigt (oder gleich oder größer als ist).
Weiterhin, obwohl Schritt S17 Online-Aktualisierung beispielhaft dargestellt hat, kann das Aktualisierungsverfahren durch Stapel-Aktualisieren oder Mini-Stapel-Aktualisieren statt des Online-Aktualisierens ersetzt werden.
Mit dem oben unter Bezugnahme auf 8 beschriebenen Betrieb ist es möglich, in der vorliegenden Ausführungsform die Wertefunktionen Q_cycle, Q_tool zu erzeugen, die verwendet werden, um beispielsweise einen festen Zyklus für ein Bearbeitungsprogramm vor Ort einer Mehrprodukt-Variabel-Quantitätsproduktion zu optimieren, ohne die Arbeitslast des Bedieners zu erhöhen.
Es ist anzumerken, dass, da der Betrieb beim Erzeugen einer optimalen Aktionsinformation durch die Optimalaktionsinformations-Ausgabeeinheit 205a ähnlich demjenigen ist, der im Flussdiagramm von 5 illustriert ist, ausschließlich, wie optimale Aktionsinformationen pro einem festen Zyklus (i) zu erzeugen ist, wird seine Beschreibung weggelassen.
Wie oben beschrieben, führt die Numerik-Steuervorrichtung 101a ein Bearbeitungsprogramm aus, in welchem ein einmaliger Schneidbetrag und eine Schneidrate, die für einen festen Zyklus (i) eingestellt sind, gemäß einer Aktion in dem Bearbeitungszeit-Prioritätsmodus oder dem Werkzeuglebensdauer-Prioritätsmodus pro festem Zyklus (i) aktualisiert werden, welcher durch die Einstellvorrichtung 111 ausgewählt wird, was es beispielsweise ermöglicht, das Bearbeitungsprogramm am Ort einer Multiprodukt-Variabel-Mengenproduktion zu optimieren, ohne die Arbeitslast des Bedieners zu erhöhen. Dadurch ermöglicht es die Numerik-Steuervorrichtung 101, Bearbeitung durch Priorisieren einer Zeitperiode, welche für die Bildaufbereitung erforderlich ist (das heißt Zykluszeit) durchzuführen oder die Bearbeitung durch Priorisieren der Lebensdauer eines Werkzeugs durchzuführen.
Weiterhin ermöglicht es die Numerik-Steuervorrichtung 101a, Zeit und Mühen zu reduzieren, die erforderlich sind, ein Bearbeitungsprogramm zu erzeugen, da der Bediener nicht Argumente für einen einmaligen Schneidbetrag und eine Schneidrate einstellen muss.
Die zweite Ausführungsform ist oben beschrieben worden.
Obwohl die erste Ausführungsform und die zweite Ausführungsform oben beschrieben worden sind, sind die Numerik-Steuervorrichtung 101, 101a und die Maschinenlernvorrichtungen 20, 20A nicht auf jene gemäß den oben beschriebenen Ausführungsformen beschränkt, sondern beinhalten Modifikationen und Verbesserungen, die innerhalb des Schutzumfangs der vorliegenden Erfindung fallen, solange wie es möglich ist, die Aufgabe der vorliegenden Erfindung zu lösen.
<Modifikationsbeispiel 1>
In der ersten Ausführungsform und der zweiten Ausführungsform, die oben beschrieben sind, führen die Maschinenlernvorrichtungen 20, 20A abwechselnd das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus und dem Werkzeuglebensdauer-Prioritätsmodus durch. Jedoch ist die vorliegende Erfindung nicht auf die Ausführungsformen beschränkt. Beispielsweise können die Maschinenlernvorrichtungen 20, 20A getrennt das Maschinenlernen im Bearbeitungszeit-Prioritätsmodus und das Maschinenlernen im Werkzeuglebensdauer-Prioritätsmodus durchführen.
<Modifikationsbeispiel 2>
Weiterhin wählt beispielsweise in der ersten Ausführungsform und der zweiten Ausführungsform, die oben beschrieben sind, die Einstellvorrichtung 111 eine Aktion im Bearbeitungszeit-Prioritätsmodus oder eine Aktion im Werkzeuglebensdauer-Prioritätsmodus aus, basierend auf einem Vergleich der verbleibenden Werkzeug-Lebensdauer eines Werkzeugs, das in der Werkzeugmaschine 10 Verwendung findet, mit einem Schwellenwert, der vorab eingestellt wird. Jedoch ist die vorliegende Erfindung nicht auf die Ausführungsformen beschränkt.
Beispielsweise, wenn die verbleibende Werkzeuglebensdauer eines Werkzeugs 5% beträgt, die Anzahl verbleibender Teile, die zu bearbeiten sind, drei beträgt, und eine Sinkrate der Lebensdauer des Werkzeugs pro einem Zyklus der Bearbeitung 0,1% beträgt, ist die verbleibende Lebensdauer des Werkzeugs, nachdem die drei zu bearbeitenden verbleibenden Teile, das heißt Werkstücke, prozessiert sind, nicht 0%, sondern 4,7%. In diesem Fall kann die Einstellvorrichtung 111 eine Aktion in dem Bearbeitungszeit-Prioritätsmodus auswählen, wenn die verbleibende Lebensdauer des Werkzeugs nicht 0% erreicht, nachdem die verbleibenden, zu bearbeitenden Teile, das heißt Werkstücke, prozessiert sind, selbst wenn die verbleibende Lebensdauer des Werkzeugs gleich oder kleiner als ein Schwellenwert ist.
Dadurch, selbst wenn die verbleibende Lebensdauer eines Werkzeugs kürzer ist, aber die verbleibende Lebensdauer des Werkzeugs für die Bearbeitung verbleibender, zu bearbeitender Teile ausreicht, ist es möglich, das Bearbeiten fortzusetzen, ohne die für die Bearbeitung erforderliche Zeitperiode (Zykluszeit) zu reduzieren.
<Modifikationsbeispiel 3>
Weiterhin, obwohl beispielsweise in der ersten Ausführungsform und in der zweiten Ausführungsform, die oben beschrieben sind, die Maschinenlernvorrichtungen 20, 20A als Vorrichtungen exemplifiziert worden sind, die von den Numerik-Steuervorrichtungen 101, 101a getrennt sind, können die optischen Elemente 100, 101a einige oder alle der Funktionen der Maschinenlernvorrichtungen 20, 20A enthalten.
Ansonsten kann beispielsweise ein Server einige oder alle der Zustandsinformations-Erfassungseinheit 201, der Lerneinheit 202, der Aktionsinformations-Ausgabeeinheit 203, der Wertefunktions-Speichereinheit 204, der Optimalaktionsinformations-Ausgabeeinheit 205 und der Steuereinheit 206 der Maschinenlernvorrichtung 20 oder einige oder alle der Zustandsinformations-Erfassungseinheit 201a, der Lerneinheit 202a, der Aktionsinformations-Ausgabeeinheit 203a, der Wertefunktions-Speichereinheit 204a, der Optimalaktionsinformations-Ausgabeeinheit 205a und der Steuereinheit 206 der Maschinenlernvorrichtung 20A beinhalten. Weiterhin kann beispielsweise eine virtuelle Server-Funktion, die in einer Cloud verfügbar ist, eingesetzt werden, um die Funktionen der Maschinenlernvorrichtungen 20, 20A zu erzielen.
Weiterhin können die Maschinenlernvorrichtungen 20, 20A alle ein distributiertes Verarbeitungssystem sein, in welchem die Funktionen jeder der Maschinenlernvorrichtungen 20, 20A angemessen zwischen einer Vielzahl von Servern verteilt sind.
<Modifikationsbeispiel 4>
Weiterhin sind beispielsweise in der oben beschriebenen ersten Ausführungsform und der zweiten Ausführungsform die Werkzeugmaschine 10 und einzelne der Maschinenlernvorrichtungen 20, 20A kommunizierbar miteinander im Numerik-Steuersystem 1 gekoppelt gewesen. Jedoch ist die vorliegende Erfindung nicht auf die Ausführungsformen beschränkt. Beispielsweise, wie in 9 illustriert, kann das Numerik-Steuersystem 1 die Anzahl m von Werkzeugmaschinen 10, 10A(1) bis 10A(m) und die Anzahl m von Maschinenlernvorrichtungen 20B(1) bis 20B(m) (m ist eine Ganzzahl von 2 oder mehr) beinhalten. In diesem Fall kann die Maschinenlernvorrichtung 20B(j) kommunizierbar mit der Werkzeugmaschine 10A(j) über ein Netzwerk 50 in Eins-zu-Eins-Weise gekoppelt sein, um Maschinenlernen in Bezug auf die Werkzeugmaschine 10A(j) (j ist eine Ganzzahl im Bereich von 1 bis m) durchzuführen.
Es ist anzumerken, dass die Wertefunktionen Q_cycle, Q_tool (Q_{cycle_i} und Q_{tool i}) die in der Wertefunktions-Speichereinheit 204 (204a) der Maschinenlernvorrichtung 20B(j) gespeichert sind, mit einer anderen Maschinenlernvorrichtung geteilt werden kann, wie etwa der Maschinenlernvorrichtung 20B(k) (k ist eine Ganzzahl im Bereich von 1 bis m, k t j). Indem den Wertefunktionen Q_cycle, Q_tool (Q_{cycle_i}, Qt_ool__i) gestattet wird, zwischen den Maschinenlernvorrichtungen 20B(1) bis 20B(m) geteilt zu werden, ist es möglich, ein Verstärkungslernen in distributierter Weise zwischen den Maschinenlernvorrichtungen 20B durchzuführen, was die Effizienz des Verstärkungslernens verbessert.
Es ist anzumerken, dass die Werkzeugmaschinen 10A(1) bis 10A(m) alle der Werkzeugmaschine 10 in 1 oder 6 entsprechen. Weiterhin entsprechen die Maschinenlernvorrichtung 20B(1) bis 20B(m) alle der Maschinenlernvorrichtung 20 in 1 oder der Maschinenlernvorrichtung 20A in 6.
Weiterhin kann, wie in 10 illustriert, ein Server 60 als die Maschinenlernvorrichtung 20 (20A) arbeiten und kann kommunizierbar mit der Anzahl m von Werkzeugmaschinen 10A(1) bis 10A(m) über das Netzwerk 50 gekoppelt sein, um Maschinenlernen in Bezug auf jede der Werkzeugmaschinen 10A(1) bis 10A(m) durchzuführen.
Es ist anzumerken, dass es möglich ist, die in den Numerik-Steuervorrichtungen 101, 101a und den Maschinenlernvorrichtungen 20, 20A in der ersten Ausführungsform bzw. der zweiten Ausführungsform enthaltenen Funktionen durch Hardware, Software oder eine Kombination davon zu erzielen. Hier bedeutet die Erzielung durch Software eine Erzielung, wenn ein Computer ein Programm einliest und ausführt.
Es ist möglich, die in den Numerik-Steuervorrichtungen 101, 101a und den Maschinenlernvorrichtungen 20, 20A enthaltenen Komponenten durch Hardware, einschließlich elektrischer Schaltungen und anderer Schaltungen, Software oder eine Kombination davon zu erzielen. Wenn durch Software erzielt, werden die Software konfigurierenden Programme in einen Computer installiert. Weiterhin können die Programme in einem entnehmbaren Medium aufgezeichnet und an einen Anwender vertrieben werden oder können heruntergeladen werden in und distributiert werden an einen Computer eines Anwenders über ein Netzwerk. Weiterhin, wenn durch Hardware konfiguriert, ist es möglich, einige oder alle der Funktionen der Komponenten, die in den oben beschriebenen Vorrichtungen enthalten sind, mit beispielsweise integrierten Schaltungen (ICs) wie etwa anwendungsspezifischen integrierten Schaltungen (ASICs), Gatter-Arrays, feldprogrammierbaren Gatter-Arrays (FPGAs) und komplexen programmierbaren Logikvorrichtungen (CPLDs) zu konfigurieren.
Es ist möglich, ein nicht-transitorisches computerlesbares Medium zu verwenden, das im Typ variiert, um die Programme zu speichern, und die Programme einem Computer bereitzustellen. Beispiele des nicht-transitorischen computerlesbaren Mediums beinhalten anfassbare Speichermedien, die im Typ variieren. Beispiele des nicht-transitorischen computerlesbaren Mediums beinhalten Magnetaufzeichnungsmedien (zum Beispiel flexible Discs, Elektromagnetbänder und Festplattenlaufwerke), magnet-optische Aufzeichnungsmedien (zum Beispiel magnet-optische Disks), Compact Disk Nurlesespeicher (CD-ROMs), Compact Discs, „Recordables“ (CD-Rs), wiederbeschreibbare Compact Discs (CD-R/Ws) und Halbleiterspeicher (zum Beispiel Masken-ROMs, programmierbare ROMs (PROMs), löschbare PROMs (EPROMs), Flash-ROMs und Wahlfreizugriffsspeicher (RAMs)). Weiterhin können die Programme dem Computer über ein transitorisches computerlesbares Medium, das im Typ variiert, zugeführt werden. Beispiele des transitorischen computerlesbaren Mediums beinhalten elektrische Signale, optische Signale und elektromagnetische Wellen. Ein transitorisches computerlesbares Medium ist in der Lage, die Programme dem Computer über verdrahtete Kommunikationskanäle, wie etwa elektrische Leitungen und Lichtleiter oder Drahtloskommunikationskanäle zuzuführen.
Es ist anzumerken, dass Schritte zum Beschreiben von auf einem Aufzeichnungsmedium aufgezeichneten Programmen nicht nur Prozesse enthalten, die sequentiell in chronologischer Reihenfolge ausgeführt werden, sondern auch Prozesse, die nicht notwendigerweise in einer chronologischen Reihenfolge ausgeführt werden, sondern parallel oder getrennt ausgeführt werden können.
Mit anderen Worten ist es möglich, dass die Maschinenlernvorrichtung, die Einstellvorrichtung, das Numerik-Steuersystem, die Numerik-Steuervorrichtung und das Maschinenlernverfahren gemäß der vorliegenden Offenbarung verschiedenen Typen von Ausführungsformen annehmen, die unten beschriebene Konfigurationen aufweisen.
(1) Die Maschinenlernvorrichtung 20 gemäß der vorliegenden Offenbarung ist eine Maschinenlernvorrichtung, die konfiguriert ist, Maschinenlernen in Bezug auf die Numerik-Steuervorrichtung 101 durchzuführen, die konfiguriert ist, die Werkzeugmaschine 10 zu veranlassen, auf Basis eines Bearbeitungsprogramms zu arbeiten. Die Maschinenlernvorrichtung 20 beinhaltet: die Zustandsinformations-Erfassungseinheit 201, die konfiguriert ist, während die Numerik-Steuervorrichtung 101 das Bearbeitungsprogramm ausführt, das eingestellt ist mit zumindest einem einmaligen Schneidbetrag und einer Schneidrate, und das die Werkzeugmaschine 10 veranlasst, die Schneidarbeit auszuführen, Zustandsinformation einschließlich des einmaligen Schneidbetrags und der Schneidrate zu erfassen; die Aktionsinformations-Ausgabeeinheit 203, die konfiguriert ist, Aktionsinformation auszugeben, die Justierinformation für den einmaligen Schneidbetrag und die Schneidrate beinhaltet, die in der Zustandsinformation enthalten sind; die Belohnungs-Recheneinheit 221, die konfiguriert ist, Bestimmungsinformation zu erfassen, welche Information hinsichtlich zumindest der Größe von an ein Werkzeug während der Schneidarbeit angelegtem Druck, der Form einer Wellenform des an das Werkzeug angelegten Drucks und einer Zeitperiode, die es für die Schneidarbeit braucht, ist, und basierend auf der Bestimmungsinformation, die erfasst worden ist, einen Belohnungswert auszugeben, der beim Verstärkungslernen verwendet wird, abhängig von einer vorbestimmten Bedingung; und die Wertefunktions-Aktualisierungseinheit 222, die konfiguriert ist, die Wertefunktion Q auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation zu aktualisieren.
Mit der Maschinenlernvorrichtung 20 ist es möglich, ein Bearbeitungsprogramm ohne Vergrößern der Arbeitsbelastung des Bedieners zu optimieren.
(2) In der in (1) beschriebenen Maschinenlernvorrichtung 20 kann die vorbestimmte Bedingung entweder eine Bedingung zum Priorisieren von Bearbeitungszeit oder eine Bedingung zum Priorisieren von Lebensdauer des Werkzeugs sein und kann die Belohnungs-Recheneinheit 221 eine Belohnung r_cycle unter der Bedingung für das Priorisieren der Bearbeitungszeit ausgeben und eine Belohnung r_tool unter der Bedingung für das Priorisieren der Lebensdauer des Werkzeugs ausgeben, und kann die Wertefunktions-Aktualisierungseinheit 222 die Wertefunktion Q_cycle auf Basis der Belohnung r_cycle, der Zustandsinformation und der Aktionsinformation unter der Bedingung zum Priorisieren von Bearbeitungszeit aktualisieren und kann die Wertefunktion von Q_tool auf Basis der Belohnung r_tool, der Zustandsinformation und der Aktionsinformation unter der Bedingung zum Priorisieren der Lebensdauer des Werkzeugs aktualisieren.
Dadurch ist es möglich, die Wertefunktionen Q_cycle, Q_tool, die zum Optimieren eines festen Zyklus für ein Bearbeitungsprogramm verwendet werden, zu optimieren, ohne die Arbeitsbelastung eines Bedieners zu erhöhen.
(3) In den Maschinenlernvorrichtungen 20, 20A, die in (2) beschrieben sind, kann das Maschinenlernen jedes Mal durchgeführt werden, wenn das Bearbeitungsprogramm ausgeführt wird, oder jedes Mal, wenn jeder einer Vielzahl von in dem Bearbeitungsprogramm enthaltenen festen Zyklen ausgeführt wird.
Dadurch ist es möglich, ein Bearbeitungsprogramm pro Bearbeitung eines Werkstücks oder pro festem Zyklus zu optimieren.
(4) In den in (2) oder (3) beschriebenen Maschinenlernvorrichtungen 20, 20A, können weiter die Optimalaktionsinformations-Ausgabeeinheiten 205, 205a, die alle konfiguriert sind, Aktionsinformation, gemäß welcher ein Wert der Wertefunktion Q_cycle, die aktualisiert wird basierend auf der Belohnung r_cycle, maximal wird, und Aktionsinformation, gemäß welcher ein Wert der Wertefunktion Q_tool, die basierend auf der Belohnung r_tool aktualisiert wird, maximal wird, auszugeben, enthalten sein.
Dadurch ermöglichen es die Maschinenlernvorrichtungen 20, 20A, ein Bearbeitungsprogramm gemäß dem Zustand eines Werkzeugs zu optimieren.
(5) In der in (1) beschriebenen Maschinenlernvorrichtung 20 kann die Belohnungs-Recheneinheit 221 die Belohnungen r_cycle, r_tool auf positive Werte einstellen, wenn die Zeitperiode, die es für die Schneidarbeit benötigt, die in der Bestimmungsinformation enthalten ist, kürzer als eine Zeitperiode wird, die es für die vorherige Schneidarbeit benötigt, und die Belohnungen r_cycle, r_tool auf negative Werte einstellen, wenn die Zeitperiode, die es für die Schneidarbeit benötigt, länger wird als die Zeitperiode, die es für die vorherige Schneidarbeit benötigt.
Dadurch ermöglicht es die Maschinenlernvorrichtung 20, ein Bearbeitungsprogramm entsprechend einer Zeitperiode, die es für die Schneidarbeit benötigt, zu optimieren.
(6) In der in (1) beschriebenen Maschinenlernvorrichtung 20 kann die Belohnungs-Recheneinheit 221 die Belohnungen r_cycle, r_tool auf positive Werte einstellen, wenn die Form der Wellenform des an das Werkzeug angelegten Drucks, welche in der Bestimmungsinformation enthalten ist, unähnlich ist zumindest zur Form einer Wellenform, die ein Vorzeichen angibt, dass das Werkzeug kaputt gehen wird, und der Form einer Wellenform, die einen scharfen Abfall bei der Lebensdauer des Werkzeugs angibt, und die Belohnungen r_cycle, r_tool auf negative Werte einstellen, wenn die Form der Wellenform des an das Werkzeug angelegten Druck ähnlich zumindest zur Form der Wellenform ist, die das Vorzeichen angibt, dass das Werkzeug kaputt gehen wird, oder der Form der Wellenform, die einen scharfen Abfall bei der Lebensdauer des Werkzeugs angibt.
Dadurch ermöglicht es die Maschinenlernvorrichtung 20, ein Bearbeitungsprogramm zu optimieren, während die Sicherheit der Bearbeitung berücksichtigt wird.
(7) In den in einem von (1) bis (6) beschriebenen Maschinenlernvorrichtungen 20, 20A kann ein maximaler Versuchszähler für das Maschinenlernen vorgesehen sein, um das Maschinenlernen durchzuführen.
Dadurch ermöglichen es die Maschinenlernvorrichtungen 20, 20A, solch ein Ereignis zu vermeiden, bei dem das Maschinenlernen für eine längere Zeitperiode durchgeführt wird.
(8) Die Einstellvorrichtung 111 gemäß der vorliegenden Offenbarung ist konfiguriert, eine Aktion auf Basis eines Schwellenwerts auszuwählen, der vorab aus Aktionen eingestellt wird, die aus der in einem von (1) bis (7) beschriebenen Maschinenlernvorrichtung erfasst wird, und die Aktion , die ausgewählt wird, in das Bearbeitungsprogramm einzustellen.
Mit der Einstellvorrichtung 111 ist es möglich, Effekte ähnlich zu jenen gemäß (1) bis (7) zu erzielen.
(9) Das Numerik-Steuersystem 1 gemäß der vorliegenden Offenbarung beinhaltet eine der in einem von (1) bis (7) beschriebenen Maschinenlernvorrichtungen 20, 20A, die in (8) beschriebene Einstellvorrichtung 111 und eine der Numerik-Steuervorrichtungen 101, 101a, die konfiguriert sind, das durch die Einstellvorrichtung 111 eingestellte Bearbeitungsprogramm auszuführen.
Mit dem Numerik-Steuersystem 1 ist es möglich, Effekte ähnlich zu jenen gemäß (1) bis (7) zu erzielen.
(10) Die Numerik-Steuervorrichtungen 101, 101a gemäß der vorliegenden Offenbarung beinhalten alle eine der Maschinenlernvorrichtungen 20, 20A, die in einem von (1) bis (7) beschrieben sind, und die Einstellvorrichtung 111, die in (8) beschrieben ist, und sind alle konfiguriert, das durch die Einstellvorrichtung 111 eingestellte Bearbeitungsprogramm auszuführen.
Mit den Numerik-Steuervorrichtungen 101, 101a ist es möglich, Effekte ähnlich zu jenen gemäß (1) bis (7) zu erzielen.
(11) Das Numeriksteuerverfahren gemäß der vorliegenden Offenbarung ist ein Maschinenlernverfahren für jede der Maschinenlernvorrichtungen 20, 20A, die konfiguriert sind, Maschinenlernen in Bezug auf eine der Numerik-Steuervorrichtungen 101, 101a durchzuführen, die alle konfiguriert sind, die Werkzeugmaschine 10 zu veranlassen, auf Basis eines Bearbeitungsprogramms zu arbeiten. Das Numerik-Steuerverfahren beinhaltet: Erfassen, während die Numerik-Steuervorrichtungen 101, 101a alle das Bearbeitungsprogramm ausführen, das mit zumindest einem einmaligen Schneidbetrag und einer Schneidrate eingestellt ist, und veranlasst die Werkzeugmaschine 10, die Schneidarbeit durchzuführen, von Zustandsinformation einschließlich des einmaligen Schneidbetrags und der Schneidrate; Ausgeben von Aktionsinformation einschließlich Justier-Information für den einmaligen Schneidbetrag und die Schneidrate, die in der Zustandsinformation enthalten sind; Erfassen von Bestimmungsinformation, die Information hinsichtlich der Größe von an das Werkzeug während der Schneidarbeit angelegten Drucks, der Form einer Wellenform des an das Werkzeug angelegten Drucks und der Zeitperiode, die es für die Schneidarbeit benötigt, und, basierend auf der Bestimmungsinformation, die erfasst worden ist, Ausgeben eines Belohnungswerts, der bei dem Verstärkungslernen verwendet wird, abhängig von einer vorbestimmten Bedingung; und Aktualisieren der Wertefunktion Q auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation.
Mit dem Numerik-Steuerverfahren ist es möglich, Effekte ähnlich zu jenen gemäß (1) zu erzielen.
Bezugszeichenliste

1: Numerik-Steuersystem
10: Werkzeugmaschine
101, 101a: Numerik-Steuervorrichtung
111: Einstellvorrichtung
20, 20A: Maschinenlernvorrichtung
201, 201a: Erfassungseinheit
202, 202a: Lerneinheit
221, 221a: Belohnungs-Recheneinheit
222, 222a: Wertefunktions-Aktualisierungseinheit
223, 223a: Aktionsinformations-Erzeugungseinheit
203, 203a: Aktionsinformations-Ausgabeeinheit
204, 204a: Wertefunktions-Speichereinheit
205, 205a: Optimalaktionsinformations-Ausgabeeinheit
206: Steuereinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2019188558 [0003]

Claims

Maschinenlernvorrichtung, die konfiguriert ist, Maschinenlernen in Bezug auf eine Numerik-Steuervorrichtung durchzuführen, die konfiguriert ist, eine Werkzeugmaschine zu veranlassen, auf Basis eines Bearbeitungsprogramms zu arbeiten, wobei die Maschinenlernvorrichtung umfasst: eine Zustandsinformations-Erfassungseinheit, die konfiguriert ist, während die Numerik-Steuervorrichtung das Bearbeitungsprogramm ausführt, das eingestellt ist mit zumindest einem einmaligen Schneidbetrag und einer Schneidrate, und das die Werkzeugmaschine veranlasst, die Schneidarbeit auszuführen, Zustandsinformation einschließlich des einmaligen Schneidbetrags und der Schneidrate zu erfassen; eine Aktionsinformations-Ausgabeeinheit, die konfiguriert ist, Aktionsinformation auszugeben, die Justierinformation für den einmaligen Schneidbetrag und die Schneidrate beinhaltet, die in der Zustandsinformation enthalten sind; eine Belohnungs-Recheneinheit, die konfiguriert ist, Bestimmungsinformation zu erfassen, welche Information hinsichtlich zumindest der Größe von an ein Werkzeug während der Schneidarbeit angelegtem Druck, der Form einer Wellenform des an das Werkzeug angelegten Drucks und einer Zeitperiode, die es für die Schneidarbeit braucht, ist, und basierend auf der Bestimmungsinformation, die erfasst worden ist, einen Belohnungswert auszugeben, der bei Verstärkungslernen verwendet wird, abhängig von einer vorbestimmten Bedingung; und eine Wertefunktions-Aktualisierungseinheit, die konfiguriert ist, eine Wertefunktion auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation zu aktualisieren.
Maschinenlernvorrichtung gemäß Anspruch 1, wobei die vorbestimmte Bedingung entweder eine Bedingung zum Priorisieren von Bearbeitungszeit oder eine Bedingung zum Priorisieren von Lebensdauer des Werkzeugs ist, die Belohnungs-Recheneinheit einen ersten Belohnungswert unter der Bedingung für das Priorisieren der Bearbeitungszeit ausgibt und einen zweiten Belohnungswert unter der Bedingung für das Priorisieren der Lebensdauer des Werkzeugs ausgibt, und die Wertefunktions-Aktualisierungseinheit eine erste Wertefunktion auf Basis des ersten Belohnungswerts, der Zustandsinformation und der Aktionsinformation unter der Bedingung zum Priorisieren von Bearbeitungszeit aktualisiert, und eine zweite Wertefunktion auf Basis des zweiten Belohnungswerts, der Zustandsinformation und der Aktionsinformation unter der Bedingung zum Priorisieren der Lebensdauer des Werkzeugs aktualisieren.
Maschinenlernvorrichtung gemäß Anspruch 2, wobei das Maschinenlernen jedes Mal durchgeführt wird, wenn das Bearbeitungsprogramm ausgeführt wird, oder jedes Mal, wenn jeder einer Vielzahl von in dem Bearbeitungsprogramm enthaltenen festen Zyklen ausgeführt wird.
Maschinenlernvorrichtungen gemäß Anspruch 2 oder 3, weiter umfassend eine Optimalaktionsinformations-Ausgabeeinheit, die konfiguriert ist, erste Aktionsinformation, gemäß welcher ein Wert der ersten Wertefunktion, die aktualisiert wird basierend auf dem ersten Belohnungswert, maximal wird, und zweite Aktionsinformation, gemäß welcher ein Wert der zweiten Wertefunktion, die basierend auf dem zweiten Belohnungswert aktualisiert wird, maximal wird, auszugeben.
Maschinenlernvorrichtung gemäß Anspruch 1. wobei die Belohnungs-Recheneinheit den Belohnungswert auf einen positiven Wert einstellt, wenn die Zeitperiode, die es für die Schneidarbeit benötigt, die in der Bestimmungsinformation enthalten ist, kürzer als eine Zeitperiode wird, die es für vorherige Schneidarbeit benötigt, und den Belohnungswert auf einen negativen Wert einstellt, wenn die Zeitperiode, die es für die Schneidarbeit benötigt, länger wird als die Zeitperiode, die es für die vorherige Schneidarbeit benötigt.
Maschinenlernvorrichtung gemäß Anspruch 1, wobei die Belohnungs-Recheneinheit den Belohnungswert auf einen positiven Wert einstellt, wenn die Form der Wellenform des an das Werkzeug angelegten Drucks, wobei die Form in der Bestimmungsinformation enthalten ist, unähnlich ist zumindest zu einer Form einer Wellenform, die ein Vorzeichen angibt, dass das Werkzeug kaputt gehen wird, und einer Form einer Wellenform, wobei die Form einen scharfen Abfall bei der Lebensdauer des Werkzeugs angibt, und den Belohnungswert auf einen negativen Wert einstellt, wenn die Form der Wellenform des an das Werkzeug angelegten Druck ähnlich zumindest zur Form der Wellenform ist, wobei die Form das Vorzeichen angibt, dass das Werkzeug kaputt gehen wird, oder der Form der Wellenform, wobei die Form einen scharfen Abfall bei der Lebensdauer des Werkzeugs angibt.
Maschinenlernvorrichtungen gemäß einem der Ansprüche 1 bis 6, wobei ein maximaler Versuchszähler für das Maschinenlernen eingestellt ist, um das Maschinenlernen durchzuführen.
Einstellvorrichtung, die konfiguriert ist, eine Aktion auf Basis eines Schwellenwerts auszuwählen, der vorab aus Aktionen eingestellt wird, die aus der Maschinenlernvorrichtung gemäß einem der Ansprüche 1 bis 7 erfasst wird, und die Aktion, die ausgewählt wird, in das Bearbeitungsprogramm einzustellen.
Numerik-Steuersystem, umfassend die Maschinenlernvorrichtung gemäß einem der Ansprüche 1 bis 7, und die Einstellvorrichtung gemäß Anspruch 8, und eine Numerik-Steuervorrichtung, die konfiguriert ist, das durch die Einstellvorrichtung eingestellte Bearbeitungsprogramm auszuführen.
Numerik-Steuervorrichtung, umfassend: der Maschinenlernvorrichtung gemäß einem der Ansprüche 1 bis 7; und die Einstellvorrichtung gemäß Anspruch 8, wobei die Numerik-Steuervorrichtung konfiguriert ist, das durch die Einstellvorrichtung eingestellte Bearbeitungsprogramm auszuführen.
Maschinenlernverfahren für eine Maschinenlernvorrichtung, die konfiguriert ist, Maschinenlernen in Bezug auf eine Numerik-Steuervorrichtung durchzuführen, die konfiguriert ist, eine Werkzeugmaschine zu veranlassen, auf Basis eines Bearbeitungsprogramms zu arbeiten, wobei das Maschinenlernverfahren umfasst: Erfassen, während die Numerik-Steuervorrichtung das Bearbeitungsprogramm ausführt, das mit zumindest einem einmaligen Schneidbetrag und einer Schneidrate eingestellt ist, und die Werkzeugmaschine veranlasst, die Schneidarbeit durchzuführen, von Zustandsinformation einschließlich des einmaligen Schneidbetrags und der Schneidrate; Ausgeben von Aktionsinformation einschließlich Justier-Information für den einmaligen Schneidbetrag und die Schneidrate, die in der Zustandsinformation enthalten sind; Erfassen von Bestimmungsinformation, die Information hinsichtlich der Größe von an das Werkzeug während der Schneidarbeit angelegten Drucks, der Form einer Wellenform des an das Werkzeug angelegten Drucks und der Zeitperiode, die es für die Schneidarbeit benötigt, und, basierend auf der Bestimmungsinformation, die erfasst worden ist, Ausgeben eines Belohnungswerts, der bei dem Verstärkungslernen verwendet wird, abhängig von einer vorbestimmten Bedingung; und Aktualisieren einer Wertefunktion auf Basis des Belohnungswerts, der Zustandsinformation und der Aktionsinformation.