DE102018200794A1 - Aktionsinformationslernvorrichtung, aktionsinformationsoptimierungssystem und aktionsinformationslernprogramm - Google Patents

Aktionsinformationslernvorrichtung, aktionsinformationsoptimierungssystem und aktionsinformationslernprogramm Download PDF

Info

Publication number
DE102018200794A1
DE102018200794A1 DE102018200794.2A DE102018200794A DE102018200794A1 DE 102018200794 A1 DE102018200794 A1 DE 102018200794A1 DE 102018200794 A DE102018200794 A DE 102018200794A DE 102018200794 A1 DE102018200794 A1 DE 102018200794A1
Authority
DE
Germany
Prior art keywords
information
action information
value
action
machine tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102018200794.2A
Other languages
English (en)
Other versions
DE102018200794B4 (de
Inventor
Zheng TONG
Takuma Nishimura
Yuuzou INAGUCHI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of DE102018200794A1 publication Critical patent/DE102018200794A1/de
Application granted granted Critical
Publication of DE102018200794B4 publication Critical patent/DE102018200794B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41835Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by programme execution
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication
    • G05B19/41855Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication by local area network [LAN], network structure
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41875Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by quality surveillance of production
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33038Real time online learning, training, dynamic network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35215Generate optimal nc program variant as function of cost, time, surface, energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Manufacturing & Machinery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Numerical Control (AREA)
  • Automatic Control Of Machine Tools (AREA)

Abstract

Um Verstärkungslernen durchzuführen, welches das Auswählen von Aktionsinformation zum Verkürzen einer Zykluszeit ermöglicht, während auch das Auftreten von Überhitzen vermieden wird. Eine Aktionsinformations-Lernvorrichtung 300 beinhaltet: einen Zustandsinformations-Erfassungsmittel 310 zum Erfassen von Zustandsinformation einschließlich eines Betriebsmusters einer Spindel und eine Kombination von Parametern, die sich auf die Bearbeitung einer Werkzeugmaschine 100 beziehen; ein Aktionsinformations-Ausgabemittel 320 zum Ausgeben von Aktionsinformation einschließlich Justierinformation für das Betriebsmuster und die Kombination von Parametern, die in der Zustandsinformation enthalten sind; ein VergütungsRechenmittel 333 zum Erfassen von Bewertungsinformation, die Information für die Temperatur der Werkzeugmaschine 100 ist, und einer Bearbeitungszeit, welche sich auf die Bearbeitung der Werkzeugmaschine 100 bezieht, und Berechnen eines Wertes einer Vergütung für ein Verstärkungslernen, basierend auf der so erfassten Bewertungsinformation; und ein Wertefunktions-Aktualisierungsabschnitt 332 zum Aktualisieren einer Wertefunktion durch Durchführen einer Verstärkungslernens, basierend auf dem Wert der Vergütung, der Zustandsinformation und der Aktionsinformation.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Aktionsinformations-Lernvorrichtung und ein Aktionsinformations-Lernprogramm, die ein Lernen an Aktionsinformation zum Steuern einer Werkzeugmaschine etc. durchführen, wie auch auf ein Aktionsinformations-Optimierungssystem zum Optimieren von Aktionsinformation.
  • Stand der Technik
  • Um die Produktivität von Werkzeugmaschinen zu verbessern, ist es notwendig, die Zykluszeit zu reduzieren, welche die Bearbeitungszeit zur Bearbeitung eines Werkstücks ist. Als Verfahren zur Reduktion bei der Zykluszeit ist beispielsweise erwogen worden, die Schneidezufuhrrate der Werkzeugmaschine anzuheben und die Zeitkonstante der Beschleunigung/Verlangsamung der Spindel oder der Zufuhrwelle, mit der die Werkzeugmaschine ausgerüstet ist, zu senken.
  • Jedoch, wenn die Schneidezufuhrrate erhöht wird oder die Zeitkonstante der Beschleunigung/Verlangsamung der Spindel oder Zufuhrwelle gesenkt wird, steigt die Last auf der Antriebsvorrichtung jeder Welle, die aus einem Motor und einem Verstärker besteht. Als Ergebnis davon kann die Antriebsvorrichtung Wärme und Überhitzung erzeugen und Beschädigung der Antriebsvorrichtung und/oder eine Fehlfunktion verursachen.
  • Um solche Situationen zu verhindern, konfiguriert die übliche Technologie, einen Alarm- und Stoppbetrieb der Antriebseinheit anzukündigen, falls die Temperatur der Antriebsvorrichtung aufgrund von Wärmeerzeugung bis unmittelbar vor Überhitzung ansteigt. Es ist dadurch möglich, zu verhindern, dass die Antriebsvorrichtung beschädigt wird oder dergleichen, dadurch, dass die Antriebsvorrichtung überhitzt. Jedoch entsteht ein Problem damit, dass die Bearbeitung aufgrund dessen unterbrochen wird, dass es nicht möglich ist, neu zu starten, während der Lauf der Antriebsvorrichtung zeitweilig gestoppt ist, bis die Antriebsvorrichtung gekühlt wird und die Temperatur fällt.
  • Dieses Problem berücksichtigend, veranlasst die in Patentdokument 1 offenbarte Technologie die Betriebsgeschwindigkeit der Antriebseinheit, zu sinken, ohne die Antriebseinheit zu veranlassen, unmittelbar anzuhalten, im Fall, dass die Temperatur der Antriebsvorrichtung bis zu einer vorbestimmten Temperatur ansteigt, aufgrund von Wärmeerzeugung. Falls auf diese Weise konfiguriert, ist es möglich, die Antriebseinheit zu fahren und die Bearbeitung fortzusetzen, während ein weiterer Anstieg bei der Temperatur der Antriebsvorrichtung verhindert wird.
  • Patentdokument 1:
    Ungeprüfte japanische Patentanmeldung Nr. 2003-5836
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Wie oben erwähnt, unter Verwendung der in Patentdokument 1 offenbarten Technologie, selbst in dem Fall, dass es die Möglichkeit gibt, dass die Antriebsvorrichtung aufgrund eines Bearbeitungsprozesses entsprechend einem eingestellten Bearbeitungsprogramm überhitzt, ist es möglich, die Bearbeitung fortzusetzen, indem dieses Bearbeitungsprogramm justiert wird.
  • Jedoch, bei der in Patentdokument 1 offenbarten Technologie, in dem Fall, dass es eine Möglichkeit gibt, dass die Antriebsvorrichtung aufgrund eines Bearbeitungsprozesses entsprechend dem eingestellten Bearbeitungsprogramm überhitzt, wird die Zykluszeit zum Bearbeiten eines Werkstücks aufgrund des Abfalls der Bearbeitungsgeschwindigkeit der Antriebseinheit länger. Mit anderen Worten gibt es bei der in Patentdokument 1 offenbarten Technologie das Problem, dass die Produktivität der Werkzeugmaschine abnimmt.
  • Daher hat die vorliegende Erfindung als Aufgabe die Bereitstellung einer Aktionsinformations-Lernvorrichtung und eines Aktionsinformations-Lernprogramms zum Durchführen der Verstärkung des Lernens zu Zustandsinformation einschließlich Kombination von Betriebsmustern der Spindel, von Parametern etc., die sich auf den vorab für die Werkzeugmaschine eingestellten Bearbeitungsprozess beziehen, beispielsweise Information, die ein Bearbeitungsprogramm, Parameter etc., die später beschrieben werden, beinhaltet), die die Auswahl von Aktionsinformation einschließlich Justierinformation dieser Statusinformation ermöglicht, so dass diese Bearbeitungszykluszeit am kürzesten wird, während auch das Auftreten einer Überhitzung vermieden wird (beispielsweise Information einschließlich der Justierung dieses Bearbeitungsprogramms und Justierung von Parametern während der Ausführung dieses Bearbeitungsprogramms, was später beschrieben wird); wie auch ein Aktionsinformations-Optimierungssystem zum Auswählen solcher Aktionsinformation.
  • Eine Aktionsinformations-Lernvorrichtung (beispielsweise die später beschriebene Aktionsinformations-Lernvorrichtung 300) gemäß einem ersten Aspekt der vorliegenden Erfindung beinhaltet: ein Zustandsinformations-Erfassungsmittel (zum Beispiel die später beschriebene Zustandsinformations-Erfassungseinheit 310) zum Erfassen von Zustandsinformation, beinhaltend ein Betriebsmuster einer Spindel und eine Kombination von Parametern (beispielsweise die später beschriebenen Bearbeitungsprogramme und Kombination von Parametern), die sich auf die Bearbeitung einer Werkzeugmaschine beziehen (beispielsweise der später beschriebenen Werkzeugmaschine 100); ein Aktionsinformations-Ausgabemittel (zum Beispiel die später beschriebene Aktionsinformations-Ausgabeeinheit 320) zum Ausgeben von Aktionsinformation, die Justierinformation für das Betriebsmuster und die Kombination von Parametern, die in der Zustandsinformation enthalten sind, beinhaltet; ein Vergütungsrechenmittel (beispielsweise der später beschriebene Vergütungsrechenabschnitt 333) zum Erfassen von Bewertungsinformation, die Information für die Temperatur der Werkzeugmaschine ist und eine Bearbeitungszeit, die sich auf die Bearbeitung der Werkzeugmaschine bezieht, und Berechnen eines Wertes einer Vergütung zum Verstärkungslernen, basierend auf der so erfassten Bewegungsinformation; und ein Wertfunktions-Aktualisierungsmittel (beispielsweise der später beschriebene Wertfunktions-Aktualisierungsabschnitt 332) zum Aktualisieren einer Wertefunktion zum Durchführen des Verstärkungslernens, basierend auf dem Wert der Vergütung, der Zustandsinformation und der Aktionsinformation.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung kann die wie im ersten Aspekt beschriebene Aktionsinformations-Lernvorrichtung so konfiguriert sein, dass die Zustandsinformation ein Betriebsmuster für eine oder beide der Schneidezuführrate und einer Haltezeit beinhaltet, die eine Spindelbereitschaft eine bezeichnete Zeit lang verursacht, als das Betriebsmuster der Spindel, und die Justierinformation Information zum Durchführen der Justierung des Betriebsmusters, das durch die Zustandsinformation enthalten ist, beinhaltet.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung kann die wie im ersten oder zweiten Aspekt beschriebene Aktionsinformations-Lernvorrichtung so konfiguriert sein, das die Zustandsinformation Parameter für einen oder beide einer Zeitkonstante von Beschleunigung/Verlangsamung und einer Schneidezuführraten-Überschreibung als die Parameter enthält und die Justierinformation Information zum Durchführen der Justierung für die in der Zustandsinformation enthaltenen Parameter beinhaltet.
  • Gemäß einem vierten Aspekt der vorliegenden Erfindung kann die wie in einem der ersten bis dritten Aspekte beschriebene Aktionsinformations-Lernvorrichtung so konfiguriert sein, dass das Vergütungsrechenmittel: den Wert der Vergütung als einen Negativwert in einem Fall, bei dem die Temperatur der Werkzeugmaschine zumindest auf einer vorbestimmten Temperatur ist, einstellt, den Wert der Vergütung als einen Positivwert in einem Fall, bei dem die Temperatur der Werkzeugmaschine niedriger ist als eine vorbestimmte Temperatur und eine Bearbeitungszeit der Werkzeugmaschine kürzer als eine frühere Bearbeitungszeit ist, einstellt, und den Wert der Vergütung als einen Negativwert in einem Fall einstellt, bei dem die Temperatur der Werkzeugmaschine kleiner als eine vorbestimmte Temperatur ist und eine Bearbeitungszeit der Werkzeugmaschine länger als eine frühere Bearbeitungszeit ist.
  • Gemäß einem fünften Aspekt der vorliegenden Erfindung kann die wie in einem der ersten bis vierten Aspekte beschriebene Aktionsinformations-Lernvorrichtung so konfiguriert sein, dass die Wertefunktion mit einer anderen Aktionsinformations-Lernvorrichtung geteilt wird und das Wertefunktions-Aktualisierungsmittel die Wertefunktion, die geteilt wurde, aktualisiert.
  • Ein Aktionsinformations-Optimierungssystem (zum Beispiel das später beschriebene Aktionsinformations-Optimierungssystem 1) gemäß einem sechsten Aspekt der vorliegenden Erfindung beinhaltet: die wie in einem der ersten bis fünften Aspekte beschriebene Aktionsinformations-Lernvorrichtung; und eine Aktionsinformations-Optimierungsvorrichtung (zum Beispiel die später beschriebene Aktionsinformations-Optimierungsvorrichtung 400), in welcher die Aktionsinformations-Optimierungsvorrichtung optimierte Aktionsinformation erzeugt, welche Aktionsinformation zum Maximieren einer Qualität der Bearbeitung durch die Werkzeugmaschine ist, basierend auf einer durch das Wertefunktions-Aktualisierungsmittel aktualisierten Wertefunktion, und die optimierte Aktionsinformation, die so erzeugt wird, ausgibt, um zu veranlassen, dass die Bearbeitung in der Werkzeugmaschine durchgeführt wird.
  • Ein Aktionsinformations-Lernprogramm gemäß einem siebten Aspekt der vorliegenden Erfindung veranlasst einen Computer, als eine Aktionsinformations-Lernvorrichtung zu fungieren, wobei die Aktionsinformations-Lernvorrichtung umfasst: ein Zustandsinformations-Erfassungsmittel zum Erfassen von Zustandsinformation, beinhaltend ein Betriebsmuster einer Spindel und eine Kombination von Parametern, die sich auf die Bearbeitung einer Werkzeugmaschine beziehen; ein Aktionsinformations-Ausgabemittel zum Ausgeben von Aktionsinformation, die Justierinformation für das Betriebsmuster und die Kombination von Parametern, die in der Zustandsinformation enthalten sind, beinhaltet; ein Vergütungsrechenmittel zum Erfassen von Bewertungsinformation, die Information für die Temperatur der Werkzeugmaschine ist und eine Bearbeitungszeit, die sich auf die Bearbeitung der Werkzeugmaschine bezieht, und Berechnen eines Wertes einer Vergütung zum Verstärkungslernen, basierend auf der so erfassten Bewegungsinformation; und ein Wertfunktions-Aktualisierungsmittel zum Aktualisieren einer Wertefunktion zum Durchführen des Verstärkungslernens, basierend auf dem Wert der Vergütung, der Zustandsinformation und der Aktionsinformation.
  • Gemäß der vorliegenden Erfindung ist es möglich, ein Verstärkungslernen durchzuführen, was das Auswählen von Aktionsinformation ermöglicht, die Justierinformation von Zustandsinformation beinhaltet, die ein Betriebsmuster einer Spindel, Kombination von Parametern etc. beinhaltet, die sich auf einen vorab für eine Werkzeugmaschine eingestellten Bearbeitungsprozess beziehen, um eine Zykluszeit zu verkürzen, während auch das Auftreten von Überhitzung vermieden wird. Zusätzlich ist es gemäß der vorliegenden Erfindung möglich, eine solche Aktionsinformation auszuwählen.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das eine Basiskonfiguration einer Gesamtausführungsform der vorliegenden Erfindung zeigt;
    • 2 ist ein Blockdiagramm, das Funktionsblöcke zeigt, die jede Vorrichtung besitzt, die in der Ausführungsform der vorliegenden Erfindung enthalten ist;
    • 3 ist ein Flussdiagramm, das Grundoperationen während des Verstärkungslernens in der Ausführungsform der vorliegenden Erfindung zeigt; und
    • 4 ist ein Flussdiagramm, das Basisoperationen während der Auswahl einer optimierten Aktionsinformation in der Ausführungsform der vorliegenden Erfindung zeigt.
  • DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
  • Als Nächstes wird eine Ausführungsform der vorliegenden Erfindung im Detail unter Bezugnahme auf die Zeichnungen erläutert. Zuerst wird die Konfiguration eines Aktionsinformations-Optimierungssystems 1 gemäß der vorliegenden Ausführungsform erläutert. Das Aktionsinformations-Optimierungssystem 1 beinhaltet eine Anzahl n von Werkzeugmaschinen 100, eine Anzahl n von Numeriksteuervorrichtungen 200, eine Anzahl m von Aktionsinformations-Lernvorrichtungen 300, eine Aktionsinformations-Optimierungsvorrichtung 400 und ein Netzwerk 500, wie in 1 gezeigt. Es sollte angemerkt werden, dass n und m beliebige natürliche Zahlen sind.
  • Hier werden die Numeriksteuervorrichtung 200 und die Werkzeugmaschine 100 in Eins-zu-Eins-Gruppen etabliert und sind so verbunden, dass sie kommunizieren können. Die Numeriksteuervorrichtung 200 und die Werkzeugmaschine 100 können über eine Verbindungsschnittstelle verbunden sein und können über ein Netzwerk wie etwa ein LAN (Lokalbereichsnetzwerk) verbunden sein. Eine Vielzahl von Gruppen dieser Gruppe der Numeriksteuervorrichtung 200 und der Werkzeugmaschine 100 können beispielsweise in derselben Fabrik installiert sein oder können in jeweils unterschiedlichen Fabriken installiert sein.
  • Zusätzlich sind die Numeriksteuervorrichtung 200, die Aktionsinformations-Lernvorrichtung 300 und die Aktionsinformations-Optimierungsvorrichtung 400 jeweils direkt über eine Verbindungsschnittstelle verbunden oder jeweils über das Netzwerk 500 verbunden, um in der Lage zu sein, miteinander Kommunikation durchzuführen. Es sollte angemerkt werden, dass das Netzwerk 500 beispielsweise ein LAN, das innerhalb einer Fabrik aufgebaut ist, das Internet, ein öffentliches Telefonnetzwerk oder eine Kombination von diesen ist. Das spezifische Komunikationssystem des Netzwerks 500, das eine verdrahtete Verbindung oder eine Funkverbindung ist, ist nicht besonders beschränkt.
  • Als nächstes werden die Funktionen dieser in dem Aktionsinformations-Optimierungssystem 1 enthaltenen Vorrichtungen unter Bezugnahme auf 2 erläutert. Hier ist 2 ein Blockdiagramm, welches die in jeder Vorrichtung enthaltenen Funktionsblöcke repräsentiert. Es sollte angemerkt werden, dass, das die entsprechenden Numeriksteuervorrichtungen 200 äquivalente Funktionen aufweisen, nur eine in 2 illustriert ist. Ähnlich, da jede der Werkzeugmaschinen 100 und jede der Aktionsinformations-Lernvorrichtungen 300 auch jeweils äquivalente Funktionen aufweisen, ist nur eine von ihnen in 2 illustriert. Zusätzlich wird das zwischen jeder Vorrichtung vorhandene Netzwerk 500 aus der Illustration weggelassen.
  • Die Werkzeugmaschine 100 ist eine Werkzeugmaschine, die beispielsweise Schneidarbeit durchführt, Betriebsbefehlen folgend, die basierend auf dem Bearbeitungsprogramm, das in der Numeriksteuervorrichtung 200 eingestellt ist, und den Einstellwerten der von Parametern (beispielsweise eine Zeitkonstante von Beschleunigung/Verlangsamung, Schneidzuführraten-Überschreibwert etc.), welche in der Numeriksteuervorrichtung 200 eingestellt sind, erzeugt werden. Die Werkzeugmaschine 100 beinhaltet einen Spindelmotor 110, eine Temperaturmesseinheit 120 und einen Zykluszähler 130.
  • Der Spindelmotor 110 ist ein Spindelmotor zum Durchführen von Schneidarbeit. Ein Schneidwerkzeug (aus der Illustration weggelassen) für die Schneidarbeit wird am Spindelmotor 110 installiert und die Schneidarbeit wird durch die Spindel (aus der Illustration weggelassen), die durch den Spindelmotor 110 rotiert, und einen Zuführschaft (aus der Illustration weggelassen), der diese Spindel zuführt, durchgeführt.
  • Die Temperaturmesseinheit 120 ist ein Temperatursensor, welcher die Temperatur des Spindelmotors 110 misst. Die durch die Temperaturmesseinheit 120 gemessene Temperatur wird an die Numeriksteuervorrichtung 200 als Temperaturinformation ausgegeben (ein Wert, der die Spindeltemperatur angibt, oder ein Wert, der den Anstiegsbetrag bei der Spindeltemperatur angibt). Es sollte angemerkt werden, dass die Temperaturmesseinheit 120 in den Spindelmotor 110 eingebaut sein kann und in der Nähe des Spindelmotors 110 installiert sein kann.
  • In dem Fall, dass die Werkzeugmaschine 100 eine vorbestimmte Schneidarbeit durchführt, ist der Zykluszähler 130 ein Zähler zum Zählen der Zykluszeit, welche die für diese Schneidarbeit benötigte Bearbeitungszeit ist. Die durch den Zykluszähler 130 gezählte Zykluszeit wird an die Numeriksteuervorrichtung 200 ausgegeben.
  • Die Numeriksteuervorrichtung 200 ist eine Vorrichtung, die veranlasst, dass eine vorbestimmte Schneidarbeit durch die Werkzeugmaschine 100 durchgeführt wird, durch Steuern der Werkzeugmaschine 100. Zusätzlich sendet die Numeriksteuervorrichtung 200 Zustandsinformation (auch als „Status“ bezeichnet) an die Aktionsinformations-Lernvorrichtung 300. Weiter empfängt die Numeriksteuervorrichtung 200 die Aktionsinformation (auch als „Aktion“ bezeichnet) aus der Aktionsinformations-Lernvorrichtung 300. Es wird eine Erläuterung für die Details der entsprechenden Information zusammen mit den Erläuterungen von Funktionsblöcken der Aktionsinformations-Lernvorrichtung 300 gegeben.
  • Die Numeriksteuervorrichtung 200 beinhaltet eine Motorsteuereinheit 210, eine Parameter-Einstelleinheit 220 und eine Programmkorrektureinheit 230.
  • Die Motorsteuereinheit 210 erzeugt einen Betriebsbefehl, basierend auf dem Bearbeitungsprogramm und Einstellwerten von Parametern (beispielsweise Zeitkonstante von Beschleunigung/Verlangsamung, Schneidzuführraten-Überschreibwert) und steuert den Antrieb des Spindelmotors 110 etc. der Werkzeugmaschine 100 durch Senden des erzeugten Betriebsbefehls an die Werkzeugmaschine 100. Die Schneidarbeit wird durch die Werkzeugmaschine 100 realisiert. Hierin werden Bedingungen der Schneidarbeit (Drehzahl der Spindel, Schneidzuführrate, Schneidzeit, und Haltezeit, die eine Bereitschaft eine bezeichnete Zeit lang in dem vorhandenen Zustand verursacht, etc.) im Bearbeitungsprogramm definiert.
  • Eine Parametereinstelleinheit 220 ist ein Teil, der sich auf den Bearbeitungsprozess gemäß diesem Bearbeitungsprogramm der Werkzeugmaschine 100 beziehende Parameter einstellt. Parameter der Werkzeugmaschine 100 sind beispielsweise die Zeitkonstante der Beschleunigung/Verlangsamung und sich auf Überschreiben beziehende Parameter. Die Einstellwerte solcher Parameter werden basierend auf der aus der Aktionsinformations-Lernvorrichtung 300 ausgegebenen Aktionsinformation und der aus der Aktionsinformations-Optimierungsvorrichtung 400 ausgegebenen optimierten Aktionsinformation justiert.
  • Die Programmkorrektureinheit 230 korrigiert direkt das Bearbeitungsprogramm. Spezifischer korrigiert die Programmkorrektureinheit 230 direkt den Programmcode, wie etwa die Schneidzuführrate, Haltezeit, etc., die in dieses Bearbeitungsprogramm geschrieben sind, basierend auf der aus der Aktionsinformations-Lernvorrichtung 300 ausgegebenen Aktionsinformation und der aus der Aktionsinformations-Optimierungsvorrichtung 400 ausgegebenen optimierten Aktionsinformation.
  • Obwohl die Funktionsblöcke der Werkzeugmaschine 100 und der Numeriksteuervorrichtung 200 oben erläutert worden sind, sind die vorstehend genannten Funktionsblöcke Teile, die sich insbesondere auf die Operationen der vorliegenden Ausführungsform beziehen. Die Werkzeugmaschine 100 und die Numeriksteuervorrichtung 200 beinhalten gemeinsame Funktionsblöcke zusätzlich zu den vorerwähnten Funktionsblöcken. Beispielsweise sind ein Servomotor, um das Werkstück zu veranlassen, sich zu bewegen, eine Steuereinheit zum Steuern des Servomotors, ein Positions-Geschwindigkeits-Detektor zum Durchführen von Positions-/Geschwindigkeits-Rückkopplungssteuerung, ein Motorantriebsverstärker, der den Betriebsbefehl verstärkt, ein Steuerpaneel zum Empfangen von Manipulationen des Anwenders etc., als Funktionsblöcke enthalten. Jedoch, da diese gemeinsamen Funktionsblöcke Fachleuten bekannt sind, werden detaillierte Erläuterungen und Illustrationen weggelassen.
  • Die Aktionsinformations-Lernvorrichtung 300 ist eine Vorrichtung, die Verstärkungslernen durchführt. Vor einer Erläuterung der entsprechenden Funktionsblöcke, die in der Aktionsinformations-Lernvorrichtung 300 enthalten sind, wird die grundlegende Arbeit des Verstärkungslernens zuerst erläutert. Ein Agent (entsprechend der Aktionsinformations-Lernvorrichtung 300 der vorliegenden Ausführungsform) überwacht den Zustand der Umgebung, wählt eine gewisse Aktion aus und die Umgebung ändert sich basierend auf dieser Aktion. In Übereinstimmung mit der Änderung bei der Umgebung wird eine Art von Vergütung gegeben und der Agent lernt die Auswahl einer besseren Aktion (Entscheidungstreffen). Überwachtes Lernen übt eine vollständig korrekte Lösung an; während die Vergütung beim Verstärkungslernen oft ein fragmentarischer Wert ist, basierend auf einer partiellen Änderung bei der Umgebung. Aus diesem Grund lernt der Agent, eine Aktion so auszuwählen, welche die Summe der Vergütung über die Zukunft maximiert.
  • Durch Lernen von Aktionen mit Verstärkungslernen auf diese Weise wird ein Verfahren zum Erlernen der angemessenen Aktion erlernt, basierend auf der durch die Aktion auf die Umgebung ausgeübten Interaktion, das heißt Lernen zum Maximieren der in der Zukunft erhaltenen Vergütung. In der vorliegenden Ausführungsform repräsentiert dies den Fall, in der Lage zu sein, eine Aktion so zu erfassen, die einen Effekt in der Zukunft hat, wie Auswählen der Aktionsinformation zum Verkürzen der Zykluszeit, während beispielsweise auch das Auftreten von Überhitzen vermieden wird.
  • Hier, obwohl es möglich ist, jegliches Lernverfahren als Verstärkungsverfahren zu verwenden, wird in der nachfolgenden Erläuterung eine Erläuterung mit einem Beispiel eines Falls gegeben, der Q-Lernen verwendet, was ein Verfahren des Lernens einer Qualität Q(s,a) des Auswählens einer Aktion a in einem gewissen Zustand s der Umgebung ist. Das Q-Lernen hat den Zweck, eine Aktion a auszuwählen, welche die höchste Qualität Q(s,a) aufweist, aus den verfügbaren Aktionen a als die optimale Aktion, wenn ein gewisser Zustand s.
  • Jedoch, im Moment des anfänglichen Startens von Q-Lernen ist der korrekte Wert der Qualität Q(s,a) vollständig unbekannte Kombinationen ? eines Zustands a und von Aktionen a. Daher wählt der Agent verschiedene Aktionen a unter einem gewissen Zustand s aus und erlernt die korrekte Qualität Q(s,a) durch Treffen der Auswahl einer bessern Aktion, basierend auf der gewährten Vergütung relativ zu der Aktion a zu dieser Zeit.
  • Zusätzlich, da es gewünscht ist, die Summe von Vergütungen, die in der Zukunft erhalten werden, zu maximieren, zielt sie auf das Konfigurieren, um schließlich Qualität Q(s,a) = E [Σ (yt) rt] wird. Hierin repräsentiert [] der Erwartungswert, ist t die Zeit, ist γ ein Parameter, der die später beschriebene Discountrate genannt wird, ist rt die Vergütung zur Zeit t und ist Σ die Summe gemäß der Zeit t. Der erwartete Wert in dieser Formel ist der erwartete Wert im Falle, dass sich der Zustand anhand der optimalen Aktion ändert. Jedoch, da es unklar ist, was die optimale Aktion ist, im Verlaufe des Q-Lernens, wird ein Verstärkungslernen vorgenommen, während des Suchens, durch Durchführen verschiedener Aktionen. Ein Aktualisierungsverfahren einer solchen Qualität Q(s,a) kann beispielsweise durch die nachfolgende Formel (1) repräsentiert sein. Q ( s t + 1 , a t + 1 ) Q ( s t , a t ) + α ( r t + 1 + γ max a   Q ( s t + 1 , a ) Q ( s t , a t ) )
    Figure DE102018200794A1_0001
  • In der obigen Formel (1) repräsentiert st den Zustand der Umgebung zur Zeit t und repräsentiert at die Aktion zur Zeit t. Der Zustand ändert sich gemäß Aktion at zu st+1. rt+1 repräsentiert die durch diese Änderung beim Zustand ermittelte Vergütung. Zusätzlich wird ein Ausdruck mit max zu einem Wert, zu dem durch Multiplizieren von γ mit dem Q-Wert des Auswählens der Aktion gelangt wird, den höchsten zu dieser Zeit bekannten Q-Wert unter dem Zustand st+1 aufzuweisen. Hier ist γ ein Parameter von 0 < γ ≤ 1 und wird Discountrate genannt. Zusätzlich ist α eine Lernrate und im Bereich von 0 < α ≤ 1 definiert.
  • Die vorstehend erweiterte Formel (1) drückt ein Verfahren des Aktualisierens der Qualität Q(st,at) einer Aktion at im Zustand st aus, basierend auf der rückgeführten Vergütung rt+1, als ein Ergebnis eines Versuchslaufs at. Dieser Aktualisierungstyp zeigt die Angelegenheit von Q(st,at) ansteigen, falls der Wert maxa Q(st+1,a) der besten Aktion im nachfolgenden Zustand st+1 aus der Aktion größer ist als die Q(st,at) der Aktion im Zustand st und zeigt, dass der Q(st,at) abnimmt, falls umgekehrt kleiner. Mit anderen Worten wird die Qualität Q einer gewissen Aktion in einem gewissen Zustand dazu gebracht, sich dem Wert der besten Aktion im nachfolgenden Zustand davon abhängig anzunähern. Jedoch ändert sich diese Differenz abhängig von den Idealzuständen für die Discountrate γ und die Vergütung rt+1; jedoch wird dies im Prinzip ein Mechanismus, in welchem die Qualität für die beste Aktion in einem gewissen Zustand sich auf die Qualität der Aktion zu einem früheren Zustand, der dazu führt, ausbreitet.
  • Hierin gibt es beim Q-Lernen ein Verfahren des Durchführens des Lernens durch Erzeugen einer Tabelle von Q(s,a) für alle Zustandsaktionspaare (s,a). Jedoch gibt es Fälle, wo die Anzahl der Zustände zu groß ist, um die Werte von Q(s,a) für alle zu ermitteln, und das Q-Lernen konvergiert, erfordert aber viel Zeit.
  • Daher kann konfiguriert werden, die DQN (tiefes Q-Netzwerk) genannte Technologie zu verwenden. Spezifischer, durch Aufbauen einer Wertefunktion Q unter Verwendung eines angemessenen neuralen Netzwerkes und Justieren von Parametern des neuralen Netzwerkes, kann so konfiguriert sein, dass der Wert der Q(s,a) durch Annähern der Wertefunktion Q durch das angemessene neurale Netzwerk zu berechnen ist. Unter Verwendung von DQN wird es möglich, die Zeit zu verkürzen, die erforderlich ist für das Q-Lernen, zu konvergieren. Es sollte angemerkt werden, dass es eine detaillierte Beschreibung von DQN im nachfolgenden Nicht-Patentdokument 1 gibt.
  • <Nicht-Patentdokument>
  • „Human-level control through deep reinforcement learnig,“ Volodymyr Mnih1 (online), (recherchiert am 17. Januar 2017)), Internet <URL:
    • http://files.davidqiu.com/research/natur14236.pdf>
  • Die Aktionsinformations-Lernvorrichtung 300 führt das oben erläuterte Q-Lernen durch. Spezifischer erlernt die Aktionsinformations-Lernvorrichtung 300 die Qualität Q, die durch Einstellen der Kombination von Inhalten des in der Werkzeugmaschine 100 eingestellten Bearbeitungsprogramms und der Parameter zum Zeitpunkt der Ausführung dieses Bearbeitungsprogramms ausgewählt wird, etc. als einen Zustand s, und stellt die Korrektur dieses Bearbeitungsprogramms und Justierung von Parametern, die sich auf diesen Zustand s beziehen, als Aktion a ein.
  • Die Aktionsinformations-Lernvorrichtung 300 überwacht den Zustand s wie etwa das Bearbeitungsprogramm, von Parametern etc., die in der Werkzeugmaschine 100 eingestellt sind und bestimmt die Aktion a. Die Aktionsinformations-Lernvorrichtung 300 wird zu einer Vergütung rückgeführt, jedes Mal, wenn eine Aktion a durchgeführt wird. Die Aktionsinformations-Lernvorrichtung 300 sucht nach der optimalen Aktion a in einer „trial and error“-Weise, so dass die Summe von Vergütungen in der Zukunft maximal wird. Durch Konfigurieren auf diese Weise ermöglicht es die Aktionsinformations-Lernvorrichtung 300, die optimale Aktion a relativ zu einem Zustand s auszuwählen, der Inhalte des Bearbeitungsprogramms, eine Kombination von Parametern während der Ausführung dieses Bearbeitungsprogramms etc. ist, der in der Werkzeugmaschine eingestellt ist.
  • Mit anderen Worten, basierend auf der durch die Aktionsinformations-Lernvorrichtung 300 erlernten Wertefunktion q, durch Auswählen der Aktion a so, dass der Wert von Q maximal wird, aus den Aktionen a, welche auf die Kombination von Bearbeitungsprogramm und Parametern angewendet werden, die sich auf einen gewissen Zustand s beziehen, wird es möglich, eine Aktion a so auszuwählen, dass diese Bearbeitungszykluszeit am kürzesten wird, während auch das Auftreten von Überhitzen vermieden wird.
  • Um das obige Verstärkungslernen durchzuführen, beinhaltet die Aktionsinformations-Lernvorrichtung 300 eine Zustandsinformations-Erfassungseinheit 310, eine Aktionsinformations-Ausgabeeinheit 320, eine Lerneinheit 330 und eine Wertefunktions-Speichereinheit 340.
  • Die Zustandsinformations-Erfassungseinheit 310 ist ein Teil, der Zustandsinformation s, welches die Inhalte eines Bearbeitungsprogramms, Kombination von Parametern während der Ausführung dieses Bearbeitungsprogramms etc. ist, aus der Numeriksteuervorrichtung 200 (und/oder der Werkzeugmaschine 100) erfasst. Diese Zustandsinformation s entspricht dem Umgebungszustand s beim Q-Lernen.
  • Spezifischer sind die Kombination von Inhalten des Bearbeitungsprogramms zum Steuern der Werkzeugmaschine 100 und Parameter während der Ausführung dieses Bearbeitungsprogramms, Spindeltemperatur der Werkzeugmaschine 100 vor dem Ausführen des Bearbeitungsprozesses anhand dieses Bearbeitungsprogramms, etc., und eine Zykluszeit im Falle der Ausführung des Bearbeitungsprozesses gemäß diesem Bearbeitungsprogramm etc. in der Zustandsinformation s der vorliegenden Ausführungsform enthalten. Die Zustandsinformations-Erfassungseinheit 310 gibt die erfasste Zustandsinformation s an die Lerneinheit 330 aus.
  • Zusätzlich erfasst die Zustandsinformations-Erfassungseinheit 310 auch Bewertungsinformation zum Berechnen der Vergütung zum Durchführen des Q-Lernens. Spezifischer, für das sich auf die Zustandsinformation s beziehende Bearbeitungsprogramm und Kombination von Parameter während der Ausführung dieses Bearbeitungsprogramms werden die Spindeltemperatur der Werkzeugmaschine 100 nach Ausführung und die Zykluszeit im Falle der Ausführung dieses Bearbeitungsprozesses als die Bewertungsinformation zum Berechnen der Vergütung zum Durchführen von Q-Lernen definiert.
  • Die Aktionsinformations-Ausgabeeinheit 320 ist ein Teil, der die Aktionsinformation a, die aus der Lerneinheit 330 eingegeben wird, an die Numeriksteuervorrichtung 200 sendet. Wie oben erwähnt, geht die Numeriksteuervorrichtung 200 zum nächsten Zustand s (das heißt Zustand, der das korrigierte Bearbeitungsprogramm, korrigierte Parameter, Spindeltemperatur der Werkzeugmaschine 100, Zykluszeit im Falle der Ausführung eines Bearbeitungsprozesses gemäß diesem korrigierten Bearbeitungsprogramm und korrigierte Parameter beinhaltet), durch Korrigieren des aktuellen Zustands s, das heißt des Bearbeitungsprogramms und aktueller eingestellter Parameter, basierend auf dieser Aktionsinformation, über.
  • Die Lerneinheit 330 ist ein Teil, welcher die Qualität Q(s,a) im Falle der Auswahl einer gewissen Aktion a in einem gewissen Umgebungszustand s erlernt. Spezifischer beinhaltet die Lerneinheit 330 einen Vergütungs-Rechenabschnitt 331, einen Wertefunktions-Aktualisierungsabschnitt 332 und einen Aktionsinformations-Erzeugungsabschnitt 333.
  • Der Vergütungs-Rechenabschnitt 331 ist ein Teil, der die Vergütung für einen Fall berechnet, der eine Aktion a in einem gewissen Zustand s, basierend auf der Bewertungsinformation, auswählt. Hier soll in der vorliegenden Ausführungsform der Wert der Vergütung ein Negativwert im Fall sein, dass die Werkzeugmaschine 100 basierend auf dem sich auf die Zustandsinformation s' beziehenden korrigierten Bearbeitungsprogramm arbeitet, welche anhand der Aktionsinformation a und der korrigierten Parameterwerte während der Ausführung dieses korrigierten Bearbeitungsprogramms überhitzend, korrigiert wird
  • Zusätzlich soll der Wert der Vergütung ein Negativwert in dem Fall sein, dass die Zykluszeit der Werkzeugmaschine 100 basierend auf dem korrigierten Bearbeitungsprogramm arbeitet, das sich auf die Zustandsinformation s' bezieht, die anhand der Aktionsinformation a korrigiert ist und die korrigierten Parameterwerte während der Ausführung dieses korrigierten Bearbeitungsprogramms, die länger als die Zykluszeit der Werkzeugmaschine 100 werden, die basierend auf dem Bearbeitungsprogramm vor der Korrektur arbeitet, das sich auf die Zustandsinformation s bezieht, bevor es gemäß der Aktionsinformation a korrigiert wird, und die Parameterwerte vor der Korrektur während der Ausführung dieses Bearbeitungsprogramms vor der Korrektur.
  • Andererseits soll der Wert der Vergütung ein positiver Wert in dem Fall sein, bei dem die Werkzeugmaschine 100 basierend auf dem korrigierten Bearbeitungsprogramm arbeitet, das sich auf die Zustandsinformation s' bezieht, die entsprechend der Aktionsinformation a korrigiert ist, und den korrigierten Parameterwerten während der Ausführung dieses korrigierten Bearbeitungsprogramms nicht überhitzend, und die Zykluszeit t kürzer wird als die Zykluszeit der Werkzeugmaschine 100, die basierend auf dem Bearbeitungsprogramm betrieben wird, vor der Korrektur, die sich auf die Zustandsinformation s bezieht, bevor sie korrigiert wird anhand der Aktionsinformation a und den Parameterwerten vor der Korrektur während der Ausführung dieses Bearbeitungsprogramms vor der Korrektur.
  • Zusätzlich, weil so konfiguriert wird, dass dem Wert der Vergütung beispielsweise Gewichtung gegeben wird, da eine Überhitzung ein Zustand ist, der nicht bevorzugt wird, ist es zu bevorzugen, die Größe des Negativwerts in dem Fall der Überhitzung groß zu machen im Vergleich zum Negativwert im Falle, in dem die Zykluszeit länger wird. Zusätzlich kann konfiguriert sein, den Negativwert anhand einer Proportion größer zu machen, wenn der Negativwert in einem Fall, bei dem die Zykluszeit im Zustand s' nach Ausführung der Aktion a länger wird als die Zykluszeit in dem vorherigen Zustand s. Mit anderen Worten ist es gut, so zu konfigurieren, dass der Negativwert größer wird anhand des Ausmaßes, in welchem die Zykluszeit sich verlängerte. Umgekehrt kann so konfiguriert sein, dass der Positivwert anhand einer Proportion vergrößert wird, wenn der Positivwert in dem Fall, zu dem die Zykluszeit im Zustand s' nach Ausführung von Aktion a kürzer wird als die Zykluszeit im vorherigen Zustand s. Mit anderen Worten ist es gut, so zu konfigurieren, dass der Positivwert größer wird anhand des Ausmaßes, in welchem die Zykluszeit verkürzt ist.
  • Der Wertefunktions-Aktualisierungsabschnitt 332 aktualisiert die durch den Wertefunktions-Speicherabschnitt 340 gespeicherte Wertfunktion Q durch Durchführen von Q-Lernen, basierend auf dem Zustand s, der Aktion a, dem Zustand s' im Fall des Anwendens von Aktion a auf den Zustand s und dem Wert der Vergütung, der in der oben erwähnten Weise berechnet wird. Die Aktualisierung der Wertefunktion Q kann durch Online-Lernen durchgeführt werden, kann durch Stapellernen durchgeführt werden oder kann durch Ministapellernen durchgeführt werden. Online-Lernen ist ein Lernverfahren des Durchführens der Aktualisierung der Wertefunktion Q momentan, wenn der Zustand s zu einem neuen Zustand s' übergeht, durch Anwenden einer gewissen Aktion a auf den aktuellen Zustand s. Zusätzlich ist Stapelladen ein Lernverfahren des Sammelns von Daten zum Erlernen durch Wiederholen des Anwendens einer gewissen Aktion a auf den aktuellen Zustand s und Übergehen des Zustands s in einen neuen Zustand s' und dann Durchführen der Wertefunktion Q unter Verwendung aller der gesammelten Daten zum Lernen. Weiterhin ist Ministapellernen ein Lernverfahren zwischen Online-Lernen und Stapellernen des Durchführens der Aktualisierung der Wertefunktion Q, jedes Mal, wenn sich eine gewisse Datenmenge zum Lernen akkumuliert.
  • Der Aktionsinformations-Erzeugungsabschnitt 333 erzeugt Aktionsinformation a, um verschiedene Operationen (entsprechend einer Aktion a beim Q-Lernen) in der Werkzeugmaschine 100 über den Verlauf des Q-Lernens durchzuführen und gibt die erzeugte Aktionsinformation a an die Aktionsinformations-Ausgabeeinheit 320 aus.
  • Spezifischer wählt der Aktionsinformations-Erzeugungsabschnitt 333 die Aktion a für den Verlauf des Q-Lernens in Bezug auf den aktuellen Zustand s. Korrekturinformation der Schneidezuführrate, Haltezeit etc., welche durch das sich auf den aktuellen Zustand s beziehende Bearbeitungsprogramm geschrieben sind, und Einstellwerte von Parametern (beispielsweise Zeitkonstante von Beschleunigung/Verlangsamung, Schneidzuführraten-Überschreibwert etc.), die sich auf den aktuellen Zustand s beziehen, sind in der Aktionsinformation a der vorliegenden Ausführungsform enthalten.
  • Beispielsweise im Falle des Anwendens von Korrekturinformation der Schneidezuführrate, Haltezeit etc. und Einstellen von Parameterwerten (beispielsweise Zeitkonstante von Beschleunigung/Verlangsamung, Schneidzuführraten-Überschreibwert etc.), die in der Aktion a in Bezug auf das Bearbeitungsprogramm enthalten sind, und im Zustand s enthaltene Parameter, dann Übergehen zum Zustand s' und eine Plusvergütung (Vergütung von positivem Wert) rückgebend, kann der Aktionsinformations-Erzeugungsabschnitt 333 so konfigurieren, dass ein Plan verwendet wird, der als die nächste Aktion a' eine Aktion a' so auswählt, dass sich der Zeitzyklus weiter verkürzt, wie etwa beispielsweise inkrementelles Ansteigen der Schneidezuführrate oder inkrementelles Senken der Zeitkonstante.
  • Zusätzlich kann umgekehrt so konfiguriert sein, dass ein Plan verwendet wird, der als die nächste Aktion a' eine Aktion a' auswählt, wie etwa dass die Last weiter abnimmt, wie etwa inkrementell Senken der Schneidezuführrate oder inkrementell Steigern der Zeitkonstante beispielsweise im Falle einer Minusvergütung (Vergütung eines Negativwerts), die zurückgegeben wird.
  • Zusätzlich kann der Aktionsinformations-Erzeugungsabschnitt 333 so konfigurieren, dass ein Plan verwendet wird, der die Aktion a' durch ein wohlbekanntes Verfahren wie etwa ein Gierverfahren des Auswählens der Aktion a' mit der höchsten Qualität Q(s,a) aus den Qualitäten existierender Aktionen a, die abgeschätzt sind, auswählt oder ein e-Gierverfahren des beliebigen Auswählens der Aktion a' mit einer kleinen Wahrscheinlichkeit s und Auswählen der Aktion a' mit der höchsten Qualität Q(s,a) außer dieser.
  • Die Wertefunktions-Speichereinheit 340 ist eine Speichervorrichtung, welche die Wertefunktionen Q speichert. Die Wertefunktionen Q, die in der Wertefunktions-Speichereinheit 340 gespeichert sind, werden durch den Wertefunktions-Aktualisierungsabschnitt 332 aktualisiert. Zusätzlich kann so konfiguriert sein, dass die in der Wertefunktions-Speichereinheit 340 gespeicherten Wertefunktionen Q mit einer anderen Aktionsinformations-Lernvorrichtung 300 geteilt sind. Falls so konfiguriert, dass die Wertefunktionen Q mit einer Mehrzahl von Aktionsinformations-Lernvorrichtungen 300 geteilt werden, da es möglich wird, ein Verstärkungslernen durch Verteilen der entsprechenden Aktionsinformations-Lernvorrichtungen 300 durchzuführen, wird es möglich, die Effizienz des Verstärkungslernens zu verbessern.
  • Die Aktionsinformations-Optimierungsvorrichtung 400 ist eine Vorrichtung, die Aktionsinformation a (nachfolgend als „optimierte Aktionsinformation“ bezeichnet) erzeugt, um eine Operation zu verursachen, für welche die Qualität Q(s,a) ein Maximum erreicht, durchzuführen in der Werkzeugmaschine 100, basierend auf der durch den Wertefunktions-Aktualisierungsabschnitt 332, der Q-Lernen durchführt, aktualisierten Wertefunktionen Q.
  • Die Aktionsinformations-Optimierungsvorrichtung 400 beinhaltet eine optimierte Aktionsinformations-Ausgabeeinheit 410. Die optimierte Aktionsinformations-Ausgabeeinheit 410 erfasst die in der Wertefunktions-Speichereinheit 340 gespeicherte Wertefunktion Q. Diese Wertefunktion Q ist eine Funktion, welche durch den Wertefunktions-Aktualisierungsabschnitt 332, der Q-Lernen wie oben erwähnt durchführt, aktualisiert wird. Dann erzeugt die optimierte Aktionsinformations-Ausgabeeinheit 410 optimierte Aktionsinformation, basierend auf der Wertefunktion Q und gibt die so erzeugte optimierte Aktionsinformation an die Numeriksteuervorrichtung 200 aus. Bei dieser optimierten Aktionsinformation sind das korrigierte Bearbeitungsprogramm und korrigierte Parameterwerte während der Ausführung dieses korrigierten Bearbeitungsprogramms beinhaltet, ähnlich zu der durch die Aktionsinformations-Ausgabeeinheit 320 im Verlaufe des Q-Lernens ausgegebener Aktionsinformation.
  • Dadurch, dass die Numeriksteuervorrichtung 200 das Bearbeitungsprogramm und aktuell eingestellte Parameter basierend auf diese optimierten Aktionsinformation korrigiert und einen Betriebsbefehl erzeugt, kann die Werkzeugmaschine 100 so arbeiten, dass diese Bearbeitungszykluszeit am kürzesten wird, während auch das Auftreten von Überhitzung vermieden wird.
  • Die in der Numeriksteuervorrichtung 200, der Aktionsinformations-Lernvorrichtung 300 und der Aktionsinformations-Optimierungsvorrichtung 400 enthaltenen Funktionsblöcke sind oben erläutert worden.
  • Um diese Funktionsblöcke zu realisieren, beinhaltet jede der Numeriksteuervorrichtung 200, der Aktionsinformations-Lernvorrichtung 300 und der Aktionsinformations-Optimierungsvorrichtung 400 eine Arithmetik-Verarbeitungseinheit wie etwa eine CPU (Zentraleinheit). Zusätzlich enthält auch jede der Numeriksteuervorrichtung 200, Aktionsinformations-Lernvorrichtung 300 und Aktionsinformations-Optimierungsvorrichtung 400 eine Hilfsspeichervorrichtung, wie etwa eine HDD (Festplattenlaufwerk), die verschiedene Steuerprogramme wie etwa Applikations-Software und das BS (Betriebssystem) speichert und eine Hauptspeichervorrichtung wie etwa RAM (Wahlfreizugriffsspeicher) zum Speichern von Daten, die zeitweilig bei der Ausführung von Programmen durch die Arithmetik-Verarbeitungseinheit erforderlich werden.
  • Dann liest in jeder der Numeriksteuervorrichtung 200, der Aktionsinformations-Lernvorrichtung 300 und der Aktionsinformations-Optimierungsvorrichtung 400 die Arithmetik-Verarbeitungseinheit die Applikations-Software und/oder das BS aus der Hilfsspeichervorrichtung aus und führt eine Arithmetik-Verarbeitung basierend auf dieser Applikations-Software und/oder BS aus, während die gelesene Applikations-Software und/oder das BS in die Hauptspeichervorrichtung expandiert wird. Zusätzlich, basierend auf diesen Rechenergebnissen, werden die verschiedenen Hardware-Elemente, über die die jeweiligen Vorrichtungen verfügen, gesteuert. Die Funktionsblöcke der vorliegenden Ausführungsform werden dadurch realisiert. Mit anderen Worten kann die vorliegende Ausführungsform durch Hardware und Software, die kooperieren, realisiert werden.
  • Als ein spezifisches Beispiel kann die Numeriksteuervorrichtung 200 durch Kombinieren von Applikations-Software zum Realisieren der vorliegenden Ausführungsform mit einer gemeinsamen numerischen Steuervorrichtung realisiert werden. Zusätzlich kann die Aktionsinformations-Lernvorrichtung 300 und/oder Aktionsinformations-Optimierungsvorrichtung 400 durch Kombinieren von Applikation-Software zum Realisieren der vorliegenden Ausführungsform mit einem üblichen persönlichen Computer realisiert werden.
  • Jedoch, da die Rechenmenge, die mit dem Lernen einhergeht, für die Aktionsinformations-Lernvorrichtung 300 ansteigt, ist es gut, dies so zu machen, dass eine Hochgeschwindigkeits-Verarbeitung möglich ist, wenn GPUs (Graphik-Verarbeitungseinheiten) in einem Persönlichen Computer installiert werden und die GPUs in der, mit dem Maschinenlernen einhergehenden Arithmetik-Verarbeitung verwendet werden, gemäß einer Technik, die GPGPU (General-Purpose computing on Graphics Processing Units, Universalberechnung auf Graphik-Verarbeitungseinheiten) genannt wird. Weiterhin, um eine Verarbeitung höherer Geschwindigkeit durchzuführen, kann konfiguriert werden, einen Computer-Cluster aufzubauen, der eine Vielzahl von mit solchen GPUs ausgerüsteten Computern verwendet und eine Parallelverarbeitung mit der Mehrzahl von Computern, die in diesem Computer-Cluster enthalten sind, durchführt.
  • Als Nächstes wird eine Erklärung für den Betrieb der Aktionsinformations-Lernvorrichtung 300 während des Q-Lernens in der vorliegenden Ausführungsform unter Bezugnahme auf das Flussdiagramm von 3 gegeben.
  • Zuerst erfasst in Schritt S11 der Zustandsinformations-Erfassungseinheit 310 Zustandsinformation aus der Numeriksteuervorrichtung 200. Die erfasste Zustandsinformation wird an den Wertefunktions-Aktualisierungsabschnitt 332 und/oder den Aktionsinformations-Erzeugungsabschnitt 333 ausgegeben. Wie oben erwähnt, ist diese Zustandsinformation Information, die einem Zustand s beim Q-Lernen entspricht, und die Inhalte des Bearbeitungsprogramms und Einstellwerte von Parametern, Spindeltemperatur der Werkzeugmaschine 100 und Zykluszeit im Falle der Bearbeitungsverarbeitung, basierend auf diesem Bearbeitungsprogramm und Parametern im Moment von Schritt S11 sind darin enthalten. Es sollte angemerkt werden, dass das Bearbeitungsprogramm und die Einstellwerte von Parametern im Moment des Startens von Q-Lernen anfangs so konfiguriert sind, dass sie durch einen Anwender vorab erzeugt werden. Mit anderen Worten werden in der vorliegenden Ausführungsform das Bearbeitungsprogramm und Anfangseinstellwerte von Parametern, die durch den Anwender erzeugt werden, mittels einem Verstärkungslernen auf optimal justiert.
  • Im Schritt S12 erzeugt der Aktionsinformations-Erzeugungsabschnitt 333 neue Aktionsinformation und gibt die neue Aktionsinformation, die so erzeugt wurde, an die Numeriksteuervorrichtung 200 über die Aktionsinformations-Ausgabeeinheit 320 aus. Die Numeriksteuervorrichtung 200, welche die Aktionsinformation empfangen hat, treibt die Werkzeugmaschine 100 an, eine Schneidarbeit entsprechend dem Zustand s' durchzuführen, der durch Korrigieren des sich auf den aktuellen Zustand s beziehenden Bearbeitungsprogramms und von Parametern gemacht wird, basierend auf der empfangenen Aktionsinformation. Wie oben erwähnt, entspricht diese Aktionsinformation der Aktion a beim Q-Lernen. Hier ist der Punkt der Aktionsinformation, welche die korrigierten Werte eines Bearbeitungsprogramms enthält, welches die Schneidzuführrate, Haltezeit etc. und die Einstellwerte von die Zeitkonstante von Beschleunigung/Verlangsamung enthaltenen Parametern beinhaltet, wie oben erwähnt.
  • Im Schritt S13 erfasst der Zustandsinformations-Erfassungsabschnitt 310 Bewertungsinformation für den neuen Zustand s'. Hier sind das Bearbeitungsprogramm und sich auf den Zustand s' beziehende Parameter, Temperaturinformation der Spindel und Zykluszeit, die erforderlich ist, um den sich auf den Zustand s' beziehenden Bearbeitungsprozess durchzuführen, im neuen Zustand s' enthalten. Zusätzlich beinhaltet die Bewertungsinformation Temperaturinformation, die sich durch Durchführen des auf den Zustand s' beziehenden Bearbeitungsprozesses änderte, und die Zykluszeit, die erforderlich ist, um den sich auf den Zustand s' beziehenden Bearbeitungsprozess durchzuführen. Die effiziente Bewertungsinformation wird an den Wertefunktions-Aktualisierungsabschnitt 332 ausgegeben.
  • Der Wertefunktions-Aktualisierungsabschnitt 332 berechnet die Vergütung, basierend auf der eingegebenen Bewertungsinformation. Aus diesem Grund bewertet im Schritt S14 der Wertefunktions-Aktualisierungsabschnitt 332, ob die Antriebseinheit der Werkzeugmaschine 100 überhitzt oder nicht, durch Ausführen des Bearbeitungsprogramms und von sich auf den Zustand s' beziehenden Parametern, basierend auf der Temperaturinformation, die in der Bewertungsinformation enthalten ist.
  • Hier wird bei Überhitzung (JA im Schritt S14) in Schritt S15 die Vergütung auf einen ersten Wert eingestellt. Hier soll der erste Wert ein Negativwert sein. Falls andererseits keine Überhitzung stattfindet (NEIN im Schritt S14), rückt die Verarbeitung zu Schritt S16 vor.
  • Im Schritt S16 wird bewertet, ob die Zykluszeit kürzer wurde oder nicht, basierend auf der in der Bewertungsinformation enthaltenen Zykluszeit. Eine solche Bewertung kann durch Vergleichen der Zykluszeit, die benötigt wird, um den sich auf den Zustand s' beziehenden Bearbeitungsprozess, der in der Bewertungsinformation von Zustand s' enthalten ist, durchzuführen, mit der Zykluszeit, die benötigt wird, um den sich auf den Zustand s, der in der Bewertungsinformation von Zustand s enthalten ist, welches der Zustand vor dem Zustand s' ist, beziehenden Bearbeitungsprozess durchzuführen, durchgeführt werden.
  • Hier, falls die Zykluszeit kürzer wird (JA im Schritt S16), wird die Vergütung auf einen zweiten Wert in Schritt S17 eingestellt. Hier soll der zweite Wert ein Positivwert sein. Falls andererseits die Zykluszeit nicht kürzer wird (NEIN im Schritt S16), wird die Vergütung auf einen dritten Wert in Schritt S18 eingestellt. Hier soll der dritte Wert ein Negativwert sein. Es sollte angemerkt werden, dass so konfiguriert sein kann, dass die Gewichtung für den ersten Wert, zweiten Wert und dritten Wert, wie oben erwähnt, durchgeführt wird.
  • Wenn einer der Schritte S15, S17 und S18 endet, aktualisiert der Wertefunktions-Aktualisierungsabschnitt 332 die Wertefunktion Q, die in der Wertefunktions-Speichereinheit 340 gespeichert ist, basierend auf dem Vergütungswert, der in einem dieser Schritte berechnet wurde. Dann, wieder zu Schritt S11 zurückkehrend, konvergiert die Wertefunktion Q zu einem angemessenen Wert, durch Wiederholen der oben erwähnten Verarbeitung. Es ist anzumerken, dass so konfiguriert sein kann, dass der Prozess in dem Fall beendet wird, dass die vorgenannte Verarbeitung eine vorbestimmte Anzahl von Malen wiederholt wird oder eine vorbestimmte Zeit lang wiederholt wird. Es sollte angemerkt werden, dass, obwohl Schritt S15 Online-Aktualisierung exemplifiziert, er durch Stapelaktualisierung oder Ministapel-Aktualisierung statt Online-Aktualisierung substituiert werden kann.
  • Gemäß den oben unter Bezugnahme auf 3 erläuterten Operationen übt die vorliegende Ausführungsform einen Effekt darin aus, in der Lage zu sein, eine Wertefunktion Q zum Erzeugen von Aktionsinformation zum Verkürzen der Zykluszeit zu erzeugen, während auch das Auftreten von Überhitzen vermieden wird.
  • Als Nächstes wird eine Erläuterung gegeben für Operationen während der Erzeugung von optimierter Aktionsinformation durch die Aktionsinformations-Optimierungsvorrichtung 400, unter Bezugnahme auf das Flussdiagramm von 4. Zuerst erfasst im Schritt S21 die optimiert Aktionsinformations-Ausgabeeinheit 410 der Aktionsinformations-Optimierungsvorrichtung 400 die durch die Wertefunktions-Speichereinheit 340 gespeicherte Wertefunktion Q. Diese Wertefunktion Q ist eine Funktion, welche durch den Wertefunktions-Aktualisierungsabschnitt 332, der das Q-Lernen durchführt, wie oben erwähnt, aktualisiert ist.
  • Im Schritt S22 erzeugt der optimierte Aktionsinformations-Ausgabeeinheit 410 optimierte Aktionsinformation, basierend auf dieser Wertefunktion Q und gibt die so erzeugte optimierte Aktionsinformation an die Numeriksteuervorrichtung 200 aus.
  • Dadurch, dass die Numeriksteuervorrichtung 200 das Bearbeitungsprogramm und aktuell eingestellte Parameter korrigiert, basierend auf dieser optimierten Aktionsinformation, und einen Betriebsbefehl erzeugt, übt die Werkzeugmaschine 100 einen Effekt darin aus, in der Lage zu sein, so zu arbeiten, dass diese Bearbeitungszykluszeit am kürzesten wird, während das Auftreten von Überhitzen auch vermieden wird.
  • Zusätzlich übt gemäß den durch Bezugnahme auf 4 erläuterten Operationen die vorliegende Ausführungsform einen Effekt darin aus, es zu ermöglichen, die Werkzeugmaschine 100 durch Verkürzen der Zykluszeit zu steuern, während auch das Auftreten des Überhitzens vermieden wird, mittels des Erzeugens von optimierter Aktionsinformation, basierend auf der Wertefunktion Q, Korrigieren des Bearbeitungsprogramms und von Parametern, die aktuell eingestellt sind, basierend auf dieser optimierte Aktionsinformation und Erzeugen eines Betriebsbefehls.
  • Dieser Effekt der vorliegenden Ausführungsform wird detaillierter erläutert. Als Voraussetzung ist es möglich, die Zykluszeit zu kürzen, durch Justieren des Bearbeitungsprogramms, um die Schneidezuführrate zu erhöhen. Andererseits ist es möglich, die Wärmeerzeugung der Spindel zu senken, durch Absenken der Schneidezuführrate. Zusätzlich ist es möglich, die Zykluszeit durch Justieren des Bearbeitungsprogramms, um die Haltezeit zu verkürzen, abzukürzen. Andererseits ist es möglich, die Wärmeerzeugung der Spindel durch Verlängern der Haltezeit zu unterdrücken. Weiterhin ist es möglich, die Zykluszeit durch Justieren der Einstellwerte von Parametern zu kürzen, um die Zeitkonstante von Beschleunigung/Verlangsamung zu verkürzen. Andererseits ist es möglich, die Wärmeerzeugung der Spindel durch Verlängern der Zeitkonstante von Beschleunigung/Verlangsamung zu unterdrücken.
  • Die Reduktion bei der Zykluszeit und Wärmeerzeugung der Spindel ist oft in einer Abwägungsbeziehung auf diese Weise. Aus diesem Grund ist es schwierig, die Zykluszeit zu verkürzen, während das Auftreten von Überhitzen durch angemessenes Justieren des Bearbeitungsprogramms und von Einstellwerten von Parametern vermieden wird. Daher wird bei der üblichen Technologie im Falle des Auftretens von Überhitzen die Antriebseinheit in einer provisorischen Weise gestoppt oder wird die Geschwindigkeit der Antriebseinheit dazu gebracht, zu sinken.
  • Im Gegensatz dazu kann die vorliegende Ausführungsform die Zykluszeit verkürzen, während auch das Auftreten von Überhitzung vermieden wird, durch Durchführen eines Verstärkungslernens, während das Bearbeitungsprogramm und Einstellwerte von Parametern wie oben erwähnt justiert werden. Mit anderen Worten übt die vorliegende Ausführungsform im Vergleich zur üblichen Technologie einen vorteilhaften Effekt aus.
  • Es sollte angemerkt werden, dass jede der entsprechenden Vorrichtungen, die in dem oben erwähnten Aktionsinformations-Lernsystem enthalten ist, durch Hardware, Software oder eine Kombination dieser realisiert werden kann. Zusätzlich kann das durch die Kooperation jeder der entsprechenden Vorrichtungen, die in dem oben erwähnten Aktionsinformations-Lernsystem enthalten sind, durchgeführte Aktionsinformations-Lernverfahren auch durch Hardware, Software oder eine Kombination dieser realisiert werden. Hier, durch Softwarerealisiert werdend, gibt die Angelegenheit an, dass es durch einen Programm auslesenden und ausführenden Computer realisiert wird.
  • Die Programme können unter Verwendung verschiedener Typen nicht-transitorischer computerlesbarer Medien gespeichert werden und einem Computer zugeführt werden. Die nicht-transitorischen computerlesbaren Medien beinhalten anfassbare Speichermedien. Beispiele der nicht-transitorischen computerlesbaren Medien beinhalten Magnetmedien (beispielsweise flexible Disks, Magnet-Tape, Festplattenlaufwerk, magneto-optische Aufzeichnungsmedien (beispielsweise magneto-optische Disks), CD-ROM (Nurlesespeicher), CD-R, CD-R/W und einen Halbleiterspeicher (beispielsweise Masken-ROM, PROM (Programmierbares ROM), EPROM (löschbares PROM), Flash-ROM, RAM (Wahlfreizugriffsspeicher)). Zusätzlich können die Programme einem Computer mittels verschiedener Typen transitorischer computerlesbarer Medien zugeführt werden. Beispiele von transitorischen computerlesbaren Medien beinhalten elektrische Signale, optische Signale und elektromagnetische Wellen. Die transitorischen computerlesbaren Medien können Programme einem Computer über verdrahtete Kommunikationspfade wie etwa elektrische Kabel, und optische Faser, oder einem Funkkommunikationspfad zugeführt werden.
  • Zusätzlich ist die vorgenannte Ausführungsform eine bevorzugten Ausführungsform der vorliegenden Erfindung; jedoch soll sie den Schutzumfang der vorliegenden Erfindung nicht nur auf die oben erwähnte Ausführungsform beschränken und eine Implementation ist in Modi möglich, die durch Durchführen verschiedener Modifikationen in einem Schutzumfang erzielt werden, der nicht vom Geist der vorliegenden Erfindung abweicht.
  • Die vorstehend erwähnte Ausführungsform gibt ein Beispiel einer Werkzeugmaschine, die Schneidarbeit als die Werkzeugmaschine 100 durchführt; ist jedoch nicht darauf beschränkt. Beispielsweise kann eine Werkzeugmaschine, die eine andere Bearbeitung, wie etwa Schleifen, Polieren, Walzen und Schmieden durchführt, als die Werkzeugmaschine 100 etabliert werden.
  • Die vorstehende Ausführungsform nimmt an, dass die Aktionsinformations-Lernvorrichtung 300 und die Aktionsinformations-Optimierungsvorrichtung 400 durch Vorrichtungen realisiert werden, die von der Werkzeugmaschine 100 und der Numeriksteuervorrichtung 200 getrennt sind; jedoch kann sie so konfiguriert sein, dass sie ein Teil oder die Gesamtheit der Funktionen der Aktionsinformations-Lernvorrichtung 300 und/oder Aktionsinformations-Optimierungsvorrichtung 400 durch die Werkzeugmaschine 100 und/oder die Numeriksteuervorrichtung 200 realisiert. Zusätzlich kann so konfiguriert sein, dass sowohl die Funktionen der Aktionsinformations-Lernvorrichtung 300 als auch der Aktionsinformations-Optimierungsvorrichtung 400 durch eine einzelne Vorrichtung realisiert werden.
  • Bezugszeichenliste
  • 100
    Werkzeugmaschine
    110
    Spindelmotor
    110
    Spindelmotor
    120
    Temperaturmesseinheit
    130
    Zykluszähler
    200
    Numeriksteuervorrichtung
    210
    Motorsteuereinheit
    220
    Parametereinstelleinheit
    300
    Aktionsinformations-Lernvorrichtung
    310
    Zustandsinformations-Erfassungseinheit
    320
    Aktionsinformations-Ausgabeeinheit
    330
    Lerneinheit
    331
    Vergütungs-Rechenabschnitt
    332
    Wertefunktions-Aktualisierungsabschnitt
    333
    Aktionsinformations-Erzeugungsabschnitt
    340
    Wertefunktions-Speichereinheit
    400
    Aktionsinformations-Optimierungsvorrichtung
    500
    Netzwerk
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2003005836 [0006]

Claims (7)

  1. Aktionsinformations-Lernvorrichtung (300), umfassend: ein Zustandsinformations-Erfassungsmittel (310) zum Erfassen von Zustandsinformation, beinhaltend ein Betriebsmuster einer Spindel und eine Kombination von Parametern, die sich auf die Bearbeitung einer Werkzeugmaschine beziehen (100); ein Aktionsinformations-Ausgabemittel (320) zum Ausgeben von Aktionsinformation, die Justierinformation für das Betriebsmuster und die Kombination von Parametern, die in der Zustandsinformation enthalten sind, beinhaltet; ein Vergütungsrechenmittel (333) zum Erfassen von Bewertungsinformation, die Information für die Temperatur der Werkzeugmaschine (100) ist und eine Bearbeitungszeit, die sich auf die Bearbeitung der Werkzeugmaschine (100) bezieht, und Berechnen eines Wertes einer Vergütung zum Verstärkungslernen, basierend auf der so erfassten Bewegungsinformation; und ein Wertfunktions-Aktualisierungsmittel (332) zum Aktualisieren einer Wertefunktion zum Durchführen des Verstärkungslernens, basierend auf dem Wert der Vergütung, der Zustandsinformation und der Aktionsinformation.
  2. Aktionsinformations-Lernvorrichtung (300) gemäß Anspruch 1, wobei die Zustandsinformation ein Betriebsmuster für eine oder beide einer Schneidezuführrate und einer Haltezeit beinhaltet, die eine Spindelbereitschaft eine bezeichnete Zeit lang verursacht, als das Betriebsmuster der Spindel, und Wobei die Justierinformation Information zum Durchführen der Justierung des Betriebsmusters, das durch die Zustandsinformation enthalten ist, beinhaltet.
  3. Aktionsinformations-Lernvorrichtung gemäß Anspruch 1 oder 2, wobei die Zustandsinformation Parameter für einen oder beide einer Zeitkonstante von Beschleunigung/Verlangsamung und einer Schneidezuführraten-Überschreibung als die Parameter enthält; und wobei die Justierinformation Information zum Durchführen der Justierung für die in der Zustandsinformation enthaltenen Parameter beinhaltet.
  4. Aktionsinformations-Lernvorrichtung (300) gemäß einem der Ansprüche 1 bis 3, wobei das Vergütungsrechenmittel (333) : den Wert der Vergütung als einen Negativwert in einem Fall, bei dem die Temperatur der Werkzeugmaschine (100) zumindest auf einer vorbestimmten Temperatur ist, einstellt, und den Wert der Vergütung als einen Positivwert in einem Fall, bei dem die Temperatur der Werkzeugmaschine (100) niedriger ist als eine vorbestimmte Temperatur und eine Bearbeitungszeit der Werkzeugmaschine kürzer als eine frühere Bearbeitungszeit ist, einstellt, und den Wert der Vergütung als einen Negativwert in einem Fall einstellt, bei dem die Temperatur der Werkzeugmaschine (100) niedriger als eine vorbestimmte Temperatur ist und eine Bearbeitungszeit der Werkzeugmaschine (100) länger als eine frühere Bearbeitungszeit ist.
  5. Aktionsinformations-Lernvorrichtung (300) gemäß einem der Ansprüche 1 bis 4, wobei die Wertefunktion mit einer anderen Aktionsinformations-Lernvorrichtung geteilt wird und das Wertefunktions-Aktualisierungsmittel die Wertefunktion, die geteilt wurde, aktualisiert.
  6. Aktionsinformations-Optimierungssystem, umfassend: die Aktionsinformations-Lernvorrichtung (300) gemäß einem der Ansprüche 1 bis 5,; und eine Aktionsinformations-Optimierungsvorrichtung, wobei die Aktionsinformations-Optimierungsvorrichtung optimierte Aktionsinformation erzeugt, welche Aktionsinformation zum Maximieren einer Qualität der Bearbeitung durch die Werkzeugmaschine (100) ist, basierend auf einer durch das Wertefunktions-Aktualisierungsmittel (332) aktualisierten Wertefunktion, und die optimierte Aktionsinformation, die so erzeugt wird, ausgibt, um zu veranlassen, dass die Bearbeitung in der Werkzeugmaschine (100) durchgeführt wird.
  7. Aktionsinformations-Lernprogramm zum Veranlassen eines Computers, als eine Aktionsinformations-Lernvorrichtung (300) zu fungieren, wobei die Aktionsinformations-Lernvorrichtung (300) umfasst: ein Zustandsinformations-Erfassungsmittel (310) zum Erfassen von Zustandsinformation, beinhaltend ein Betriebsmuster einer Spindel und eine Kombination von Parametern, die sich auf die Bearbeitung einer Werkzeugmaschine (100) beziehen; ein Aktionsinformations-Ausgabemittel (320) zum Ausgeben von Aktionsinformation, die Justierinformation für das Betriebsmuster und die Kombination von Parametern, die in der Zustandsinformation enthalten sind, beinhaltet; ein Vergütungsrechenmittel (333) zum Erfassen von Bewertungsinformation, die Information für die Temperatur der Werkzeugmaschine (100) ist und eine Bearbeitungszeit, die sich auf die Bearbeitung der Werkzeugmaschine (100) bezieht, und Berechnen eines Wertes einer Vergütung zum Verstärkungslernen, basierend auf der so erfassten Bewegungsinformation; und ein Wertfunktions-Aktualisierungsmittel (332) zum Aktualisieren einer Wertefunktion zum Durchführen des Verstärkungslernens, basierend auf dem Wert der Vergütung, der Zustandsinformation und der Aktionsinformation.
DE102018200794.2A 2017-01-26 2018-01-18 Aktionsinformations-lernvorrichtung, aktionsinformations-optimierungssystem und aktionsinformations-lernprogramm Active DE102018200794B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017011910A JP6453919B2 (ja) 2017-01-26 2017-01-26 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP2017-011910 2017-01-26

Publications (2)

Publication Number Publication Date
DE102018200794A1 true DE102018200794A1 (de) 2018-07-26
DE102018200794B4 DE102018200794B4 (de) 2024-06-06

Family

ID=62813121

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018200794.2A Active DE102018200794B4 (de) 2017-01-26 2018-01-18 Aktionsinformations-lernvorrichtung, aktionsinformations-optimierungssystem und aktionsinformations-lernprogramm

Country Status (4)

Country Link
US (1) US10509397B2 (de)
JP (1) JP6453919B2 (de)
CN (1) CN108363356B (de)
DE (1) DE102018200794B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018201157B4 (de) * 2017-02-03 2021-07-15 Fanuc Corporation Lernmodell-Konstruktionsvorrichtung und Steuerinformations-Optimierungsvorrichtung

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042145B2 (en) * 2018-06-13 2021-06-22 Hitachi, Ltd. Automatic health indicator learning using reinforcement learning for predictive maintenance
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
JP6856591B2 (ja) * 2018-09-11 2021-04-07 ファナック株式会社 制御装置、cnc装置及び制御装置の制御方法
WO2020110250A1 (ja) * 2018-11-29 2020-06-04 三菱電機株式会社 無線通信装置、無線通信システムおよび無線通信プログラム
JP7302226B2 (ja) 2019-03-27 2023-07-04 株式会社ジェイテクト 研削盤の支援装置及び支援方法
JP7010877B2 (ja) 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
EP4055613A4 (de) * 2019-11-06 2023-11-22 Hexagon Technology Center GmbH Systeme und verfahren für virtuelle umgebung für verstärkungslernung in der herstellung
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
JP7436702B2 (ja) 2020-10-13 2024-02-22 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法
JP2022070134A (ja) * 2020-10-26 2022-05-12 株式会社神戸製鋼所 機械学習方法、機械学習装置、機械学習プログラム、通信方法、及び樹脂処理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005836A (ja) 2001-06-22 2003-01-08 Yamazaki Mazak Corp 自己保護機能付き駆動装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6063013A (ja) * 1984-07-31 1985-04-11 松下電器産業株式会社 電気湯沸し器
JPH0991025A (ja) * 1995-09-26 1997-04-04 Fanuc Ltd 動作デューティを考慮したロボットの最短時間制御方法
JP3902710B2 (ja) 1999-03-24 2007-04-11 株式会社牧野フライス製作所 数値制御による工作機械の制御方法及び装置
WO2005024809A2 (en) 2003-09-04 2005-03-17 Matsushita Electric Industrial Co., Ltd. Optical pick-up aberration correcting mirror, aberration correcting method and optical pick-up
DE10348608B4 (de) * 2003-10-20 2016-05-19 Siemens Aktiengesellschaft Überwachungssystem und Verfahren für eine Spindel
JP4525477B2 (ja) * 2005-02-23 2010-08-18 ソニー株式会社 学習制御装置および学習制御方法、並びに、プログラム
JP2006309519A (ja) * 2005-04-28 2006-11-09 Institute Of National Colleges Of Technology Japan 強化学習システム、及び強化学習プログラム
JP5145549B2 (ja) 2006-08-10 2013-02-20 国立大学法人富山大学 腫瘍マーカー
WO2012000650A1 (en) * 2010-06-28 2012-01-05 Precitec Kg A method for classifying a multitude of images recorded by a camera observing a processing area and laser material processing head using the same
DE102010030691A1 (de) 2010-06-30 2012-01-05 Trumpf Werkzeugmaschinen Gmbh + Co. Kg Dialogsystem und Verfahren zur Untersuchung eines Bearbeitungsprozesses
US9360849B2 (en) * 2010-10-27 2016-06-07 Makino Milling Machine Co., Ltd. Numerical control method
US8855804B2 (en) * 2010-11-16 2014-10-07 Mks Instruments, Inc. Controlling a discrete-type manufacturing process with a multivariate model
JP5750657B2 (ja) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
JP5199440B1 (ja) * 2011-11-04 2013-05-15 ファナック株式会社 放電加工機の加工条件調整装置
US9008840B1 (en) * 2013-04-19 2015-04-14 Brain Corporation Apparatus and methods for reinforcement-guided supervised learning
EP2839932A1 (de) 2013-08-19 2015-02-25 HILTI Aktiengesellschaft Erholungsdrehzahl für Diamantkernbohrgeräte nach Temperaturabschaltung (Motorüberhitzung)
JP6234187B2 (ja) * 2013-11-27 2017-11-22 三菱電機株式会社 数値制御装置
US20150370227A1 (en) * 2014-06-19 2015-12-24 Hany F. Bassily Controlling a Target System
US10465931B2 (en) * 2015-01-30 2019-11-05 Schneider Electric It Corporation Automated control and parallel learning HVAC apparatuses, methods and systems
JP6063013B1 (ja) * 2015-08-27 2017-01-18 ファナック株式会社 びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005836A (ja) 2001-06-22 2003-01-08 Yamazaki Mazak Corp 自己保護機能付き駆動装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018201157B4 (de) * 2017-02-03 2021-07-15 Fanuc Corporation Lernmodell-Konstruktionsvorrichtung und Steuerinformations-Optimierungsvorrichtung

Also Published As

Publication number Publication date
JP6453919B2 (ja) 2019-01-16
JP2018120453A (ja) 2018-08-02
CN108363356B (zh) 2019-07-09
DE102018200794B4 (de) 2024-06-06
US10509397B2 (en) 2019-12-17
CN108363356A (zh) 2018-08-03
US20180210431A1 (en) 2018-07-26

Similar Documents

Publication Publication Date Title
DE102018200794B4 (de) Aktionsinformations-lernvorrichtung, aktionsinformations-optimierungssystem und aktionsinformations-lernprogramm
DE102018204740B4 (de) Aktionsinformationslernvorrichtung, Robotersteuersystem und Aktionsinformationslernverfahren
DE102018203702B4 (de) Vorrichtung für maschinelles Lernen, Servo-Regelungsvorrichtung, Servo-Regelungssystem und Verfahren für maschinelles Lernen
DE102018201157B4 (de) Lernmodell-Konstruktionsvorrichtung und Steuerinformations-Optimierungsvorrichtung
DE102018202654B4 (de) Vorrichtung für maschinelles Lernen, Servoregeleinrichtung, Servoregelsystem und Verfahren für maschinelles Lernen
DE102018205015B4 (de) Einstellvorrichtung und Einstellverfahren
DE102018211682A1 (de) Maschinelle lernvorrichtung, numerische steuervorrichtung, numerisches steuersystem und maschinelles lernverfahren
DE102018003769B4 (de) Vorrichtung für maschinelles Lernen, Servosteuersystem und Verfahren zum maschinellen Lernen
DE102018209951A1 (de) Maschinenlerngerät, servosteuergerät, servosteuersystem und maschinenlernverfahren
DE102016009106A1 (de) Mit Steuerung ausgerüstete Bearbeitungsvorrichtung mit Bearbeitungszeit- Messfunktion und Messfunktion auf der Maschine
DE102018203956B4 (de) Maschinelle Lernvorrichtung, Servosteuerungsvorrichtung, Servosteuerungssystem und maschinelles Lernverfahren
DE102017010799A1 (de) Maschinenlernvorrichtung und Robotersystem zum Lernen einer Bearbeitungsreihenfolge eines Laserbearbeitungsroboters und Maschinenlernverfahren dafür
DE102017002996A1 (de) Maschinenlernvorrichtung, die ein lernen unter verwendung eines simulationsergebnisses durchführt, maschinensystem, herstellungssystem und maschinenlernverfahren
DE102020204854A1 (de) Vorrichtung für maschinelles Lernen, numerisches Steuersystem undVerfahren für maschinelles Lernen
DE102018211148A1 (de) Maschinenlernvorrichtung, servomotor- regeleinrichtung, servomotor-regelsystem und maschinenlernverfahren
DE102019200080A1 (de) Vorrichtung für maschinelles Lernen, Servomotor-Steuereinrichtung, Servomotor-Steuersystem und Verfahren für maschinelles Lernen
DE102018004048B4 (de) Steuerung und Maschinenlernvorrichtung
DE102019204861A1 (de) Maschinenlernvorrichtung; steuervorrichtung und maschinelles lernverfahren
DE102018214276A1 (de) Vorrichtung für maschinelles Lernen, Steuersystem, Steuervorrichtung und Verfahren für maschinelles Lernen
DE102019204949A1 (de) Maschinelle lernvorrichtung, steuervorrichtung und maschinelles lernverfahren
DE102019217130A1 (de) Ausgabevorrichtung, steuervorrichtung und verfahren zum ausgeben von bewertungsfunktionen und maschinellen lernergebnissen
DE102019202701A1 (de) Einstelleinrichtung und Einstellverfahren
DE102019209104A1 (de) Ausgabevorrichtung, Steuervorrichtung und Ausgabeverfahren für einen Bewertungsfunktionswert
DE102019216081A1 (de) Ausgabevorrichtung, Steuervorrichtung und Verfahren zum Ausgeben eines Lernparameters
DE112021000842T5 (de) Maschinelle Lernvorrichtung, Computervorrichtung, Steuersystem und maschinelles Lernverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division