DE102018001571A1

DE102018001571A1 - Laserverarbeitungsgerät und Vorrichtung zum maschinellen Lernen

Info

Publication number: DE102018001571A1
Application number: DE102018001571.9A
Authority: DE
Inventors: Masanobu HATADA
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-03-07
Filing date: 2018-02-28
Publication date: 2018-09-13
Anticipated expiration: 2038-03-01
Also published as: US10796226B2; JP2018144078A; CN108568596B; CN108568596A; DE102018001571B4; US20180260712A1; JP6490124B2

Abstract

Ein Laserverarbeitungsgerät, das ein Werkstück unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf ausgegeben wird, verarbeitet, umfasst eine Ausgabedetektionseinheit zum Detektieren einer Ausgabe des Laserlichts während eines vorbestimmten Zeitraums; eine Schwankungsberechnungseinheit zum Berechnen einer Schwankung in der Ausgabe des Laserlichts, die durch die Ausgabedetektionseinheit detektiert wird; und eine Winkelbefehlseinheit zum Befehlen eines Winkels, um den der Laserverarbeitungskopf im Verhältnis zur Normalen des Werkstücks zu neigen ist, basierend auf der Schwankung, die durch die Schwankungsberechnungseinheit berechnet wird.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft ein Laserverarbeitungsgerät und eine Vorrichtung zum maschinellen Lernen.
Beschreibung der verwandten Technik
Wenn Werkstücke unter Verwendung von Laserlicht verarbeitet werden, wird das Laserlicht bevorzugt senkrecht zu den Bearbeitungsflächen der Werkstücke auf die Werkstücke angewendet. Dies ist der Fall, weil das senkrechte Anwenden von Laserlicht auf die Bearbeitungsfläche den Bestrahlungsbereich der Bearbeitungsfläche reduziert, wodurch sich die Leistungsdichte erhöht.
Wenn das Laserlicht jedoch senkrecht auf die Bearbeitungsfläche angewendet wird, kann das Laserlicht von der Bearbeitungsfläche reflektiert werden, und das reflektierte Licht kann zum Laseroszillator zurückkehren. Insbesondere wenn die Bearbeitungsfläche des Werkstücks ein hohes Reflexionsvermögen aufweist, kann das reflektierte Licht direkt in den Laseroszillator eingegeben werden. Folglich wird der Oszillationszustand des Laseroszillators unstabil, und die Ausgabe des Laserlichts wird ebenfalls unstabil, wodurch eine Verschlechterung des Verarbeitungszustands des Werkstücks verursacht wird.
Daher ist eine Technik bekannt, bei der ein Laserverarbeitungskopf im Verhältnis zur Normalen zu einer Bearbeitungsfläche eines Werkstücks geneigt ist (siehe beispielsweise die japanischen ungeprüften Patentveröffentlichungen (Kokai) Nr. 2010-260095 und 2005-131645 ).
KURZDARSTELLUNG DER ERFINDUNG
Um einen Laserverarbeitungskopf zu neigen wird im Allgemeinen, während Laserlicht ausgegeben wird, der Laserverarbeitungskopf mit Bezug auf einen Istwert des Laserlichts allmählich geneigt. Dieses Verfahren ist jedoch mühselig und langwierig.
Alternativ kann ein qualifizierter Bediener den Laserverarbeitungskopf basierend auf seiner eigenen Erfahrung oder dergleichen neigen. In diesem Fall wird jedoch ein qualifizierter Bediener benötigt, und es dauert lange, derartige Bediener auszubilden.
Daher ist es erwünscht, ein Laserverarbeitungsgerät und eine Vorrichtung zum maschinellen Lernen bereitzustellen, die einen geeigneten Winkel bestimmen können, um den der Laserverarbeitungskopf zu neigen ist, ohne Mühe und Zeit eines Bedieners in Anspruch zu nehmen.
Ein erster Aspekt der vorliegenden Offenbarung stellt ein Laserverarbeitungsgerät zum Verarbeiten eines Werkstücks unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf ausgegeben wird, bereit. Das Laserverarbeitungsgerät umfasst eine Ausgabedetektionseinheit zum Detektieren einer Ausgabe des Laserlichts während eines vorbestimmten Zeitraums; eine Schwankungsberechnungseinheit zum Berechnen einer Schwankung in der Ausgabe des Laserlichts, die durch die Ausgabedetektionseinheit detektiert wird; und eine Winkelbefehlseinheit, um einen Winkel, um den der Laserverarbeitungskopf im Verhältnis zur Normalen des Werkstücks geneigt wird, basierend auf der Schwankung, die durch die Schwankungsberechnungseinheit berechnet wird, zu befehlen.
Gemäß dem ersten Aspekt kann der Winkel des Laserverarbeitungskopfes geeignet bestimmt werden, ohne Mühe oder Zeit eines Bedieners in Anspruch zu nehmen.
Die obigen Aufgaben, Merkmale und Vorteile und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung von bevorzugten Ausführungsformen zusammen mit den beiliegenden Zeichnungen besser hervorgehen.
Figurenliste
Es zeigen:

1 ein Blockdiagramm eines Laserverarbeitungsgeräts gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
2 ein Ablaufschema, das den Betrieb des in 1 abgebildeten Laserverarbeitungsgeräts zeigt;
3A ein erstes Diagramm, das den Winkel eines Verarbeitungskopfes und die Beziehung zwischen der Zeit und einer Ausgabe von Laserlicht zeigt;
3B ein zweites Diagramm, das den Winkel eines Verarbeitungskopfes und die Beziehung zwischen der Zeit und einer Ausgabe von Laserlicht zeigt;
4 ein Blockdiagramm eines Laserverarbeitungsgeräts gemäß einer zweiten Ausführungsform;
5 ein Blockdiagramm einer Vorrichtung zum maschinellen Lernen;
6 ein Ablaufschema, das den Betrieb der Vorrichtung zum maschinellen Lernen zeigt;
7 ein schematisches Diagramm eines Neuronenmodells;
8 ein schematisches Diagramm eines neuronalen Netzwerks; und
9 ein schematisches Diagramm eines Laserverarbeitungssystems.

AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Nachstehend werden Ausführungsformen der vorliegenden Erfindung mit Bezug auf die beiliegenden Zeichnungen beschrieben. In den Zeichnungen geben die gleichen Bezugszeichen die gleichen Bauteile an. Zum besseren Verständnis wurden die Maßstäbe der Zeichnungen geeignet geändert.
1 ist ein Blockdiagramm eines Laserverarbeitungsgeräts gemäß einer ersten Ausführungsform. Wie in 1 abgebildet umfasst das Laserverarbeitungsgerät 1 hauptsächlich einen Roboter 10, z.B. einen Vertikal-Knickarmroboter, einen Laseroszillator 11 und eine Steuervorrichtung 20 zum Steuern des Roboters 10 und des Laseroszillators 11. Der Laseroszillator 11 umfasst eine Ausgabedetektionseinheit 13, beispielsweise einen Laserenergiesensor 13, um die Ausgabe von Laserlicht zu detektieren.
Ein Laserverarbeitungskopf 12 ist an einem distalen Ende eines Arms des Roboters 10 angebracht. Die Werkstücke B1 und B2 sind in einem Betriebsbereich des Roboters 10 angeordnet. Laserlicht, das von dem Laseroszillator 11 emittiert wird, wird über den Laserverarbeitungskopf 12 in Richtung auf die Werkstücke B1 und B2 ausgegeben. Durch die Anwendung des Laserlichts werden die Werkstücke B1 und B2 auf spezifische Art und Weise, beispielsweise durch Schweißen, Schneiden, Oberflächenbearbeitung oder dergleichen, verarbeitet. Es sei zu beachten, dass sich die Eigenschaften jedes der Werkstücke B1 und B2, einschließlich der Abmessungen, der Eigenschaften eines Materials und der Oberflächenrauheit jedes der Werkstücke B1 und B2 nicht ändern. Das Laserlicht kann auf ein einziges Werkstück angewendet werden, um das Werkstück auf spezifische Art und Weise zu verarbeiten.
Wie in Fig. 3B, die noch beschrieben wird, abgebildet, bewegt der Roboter 10 den Laserverarbeitungskopf 12, so dass der Laserverarbeitungskopf 12 einen gewünschten Winkel A im Verhältnis zu einer Normalen O aufweist, die sich von den Bearbeitungsflächen der Werkstücke B1 und B2 aus erstreckt. Der Winkel A des Laserverarbeitungskopfes 12 ist der gleiche wie der Winkel, der zwischen der optischen Achse des Laserlichts, das von dem Laserverarbeitungskopf 12 ausgegeben wird, und der Normalen O entsteht. Somit bezieht sich der Winkel A des Laserverarbeitungskopfes 12 auf den Einfallswinkel des Laserlichts.
Die Steuervorrichtung 20 ist ein digitaler Computer, der eine CPU und eine Speichereinheit, wie etwa einen Speicher, umfasst. Die Steuervorrichtung 20 umfasst eine Schwankungsberechnungseinheit 21, welche die Schwankung in der Ausgabe von Laserlicht, das durch den Laserenergiesensor 13 während eines vorbestimmten Zeitraums detektiert wird, berechnet, wie es noch beschrieben wird. Ferner umfasst die Steuervorrichtung 20 eine Winkelbefehlseinheit 23, die einen Winkel, um den der Laserverarbeitungskopf 12 im Verhältnis zu der Normalen O der Werkstücke B1 und B2 geneigt wird, basierend auf der Schwankung, die durch die Schwankungsberechnungseinheit 21 berechnet wird, befiehlt. Die CPU der Steuervorrichtung 20 dient als Schwankungsberechnungseinheit 21 und Winkelbefehlseinheit 23 usw.
2 ist ein Ablaufschema, das den Betrieb des in 1 abgebildeten Laserverarbeitungsgeräts zeigt. Der Betrieb des Laserverarbeitungsgeräts 1 gemäß der ersten Ausführungsform wird nachstehend mit Bezug auf 1 und 2 beschrieben. Zu diesem Zeitpunkt sind die Werkstücke B1 und B2 nicht unbedingt unter dem Laserverarbeitungskopf 12 angeordnet.
Zuerst wird in Schritt S11 der Neigungswinkel des Laserverarbeitungskopfes 12 im Verhältnis zur Normalen O auf einen anfänglichen Winkel, beispielsweise 0 Grad, eingestellt. Der Roboter 10 wird betätigt, um den Laserverarbeitungskopf 12 in dem anfänglichen Winkel anzuordnen.
Dann erfasst in Schritt S12 der Laserenergiesensor 13, während Laserlicht ausgegeben wird, die Ausgabe des Laserlichts. Wenn die Ausgabe des Laserlichts während eines vorbestimmten Zeitraums erfasst wird, wie in Schritt S13 dargestellt, berechnet die Schwankungsberechnungseinheit 21 die Schwankung aus der Ausgabe des Laserlichts in Schritt S14.
Der Laserverarbeitungskopf 12 ist in 3A und 3B links abgebildet. In 3A befindet sich der Laserverarbeitungskopf 12 derart, dass der Einfallswinkel von Laserlicht 0 Grad beträgt. In 3B befindet sich der Laserverarbeitungskopf 12 derart, dass der Laserverarbeitungskopf 12 im Verhältnis zu der Normalen O um einen Winkel A geneigt ist. Ein derartiger Positionierungsvorgang wird durch den Roboter 10 ausgeführt, kann jedoch unter Verwendung eines anderen Winkeländerungsmechanismus anstelle des Roboters 10 ausgeführt werden, um den Winkel A zu ändern.
Die Beziehung zwischen der Zeit und der Ausgabe von Laserlicht ist in 3A und 3B rechts abgebildet. Bei dieser Beziehung stellt die waagerechte Achse die Zeit, beispielsweise eine vorbestimmte Zeit, dar, und die senkrechte Achse stellt die Ausgabe von Laserlicht dar. Ferner stellt die durchgezogene Linie parallel zur waagerechten Achse den Ausgabebefehlswert des Laserlichts dar, und die gekrümmte Linie stellt den tatsächlichen Laserlichtausgabewert dar, der durch den Laserenergiesensor 13 erfasst wird.
Wie in 3A abgebildet, wenn der Laserverarbeitungskopf 12 zu den Werkstücken B1 und B2 senkrecht ist, variiert die tatsächliche Laserlichtausgabekurve relativ stark. Wenn andererseits, wie in 3B abgebildet, der Laserverarbeitungskopf 12 im Verhältnis zu der Normalen O um den Winkel A geneigt ist, variiert die tatsächliche Laserlichtausgabekurve relativ wenig.
Bei der vorliegenden Anmeldung bezieht sich der Ausdruck „eine Schwankung des Laserlichts“ auf Variationen der tatsächlichen Laserlichtausgabekurve. Wenn der Laserverarbeitungskopf 12 zu den Werkstücken B1 und B2 senkrecht ist, wie in 3A gezeigt, schwankt die tatsächliche Laserlichtausgabekurve entsprechend relativ stark. Wenn andererseits der Laserverarbeitungskopf 12 im Verhältnis zu der Normalen O um den Winkel A geneigt ist, wie in 3B abgebildet, schwankt die tatsächliche Laserlichtausgabekurve relativ wenig. Wenn die Schwankungen gering sind, stabilisiert sich das Laserlicht, und daher können die Werkstücke B1 und B2 günstig verarbeitet werden.
Genauer gesagt kann sich der Ausdruck „eine Schwankung des Laserlichts“ auf eine Abweichung zwischen dem Höchstwert und dem Mindestwert der tatsächlichen Laserlichtausgabekurve beziehen. Alternativ kann „eine Schwankung des Laserlichts“ ein Divisionswert sein, der durch Dividieren eines trapezförmig integrierten Wertes der tatsächlichen Laserlichtausgabekurve durch die Zeit berechnet wird. Ferner kann „eine Schwankung des Laserlichts“ der Höchstwert der Neigung der tatsächlichen Laserlichtausgabekurve sein. In Schritt S14 von 2 wird mindestens ein Element von der zuvor erwähnten Abweichung, dem Divisionswert und dem maximalen Neigungswert als Schwankung berechnet.
In Schritt S15 wird die Schwankung mit einem vorbestimmten Schwellenwert verglichen. Als vorbestimmter Schwellenwert werden je nach Art der Schwankungen verschiedene Werte, beispielsweise die Abweichung, der Divisionswert oder der maximale Neigungswert, vorbereitet. Wenn die Schwankung gleich oder kleiner als der vorbestimmte Schwellenwert ist, wird bestimmt, dass das Laserlicht stabil ausgegeben wird, und daher erteilt die Winkelbefehlseinheit 23 offiziell den Winkelbefehlswert, der in Schritt S11 (Schritt S16) eingestellt wurde.
Wenn die Schwankung dagegen nicht gleich oder kleiner als der vorbestimmte Schwellenwert in Schritt S15 ist, kehrt der Vorgang zu Schritt S11 zurück, und der Neigungswinkel des Laserverarbeitungskopfes 12 wird um einen spezifischen winzigen Betrag erhöht. Der in Schritt S11 bis S15 dargestellte Vorgang wird wiederholt, bis die Schwankung gleich oder kleiner als der vorbestimmte Schwellenwert ist.
Wie zuvor beschrieben kann bei der ersten Ausführungsform ein geeigneter Winkel des Laserverarbeitungskopfes 12, bei dem die Schwankung gleich oder kleiner als der vorbestimmte Schwellenwert ist, mühelos berechnet werden. Somit kann Laserlicht stabil ausgegeben werden, und die Werkstücke können günstig verarbeitet werden. Da dieser Vorgang ferner automatisch ausgeführt werden kann, sind nicht nur Mühe oder Zeit eines Bedieners sondern auch der geschulte Bediener als solcher unnötig.
4 ist ein Blockdiagramm eines Laserverarbeitungsgeräts gemäß einer zweiten Ausführungsform. In 4 ist eine Einheit 15 zum Detektieren eines Verarbeitungszustands, beispielsweise eine Kamera, angeordnet, um einen Verarbeitungszustand der Werkstücke B1 und B2 zu detektieren. Ferner umfasst die Steuervorrichtung 20 eine Einheit 22 zum Bestimmen eines Verarbeitungszustands, die den Verarbeitungszustand der Werkstücke B1 und B2 basierend auf einem Bild, das durch die Einheit 15 zum Detektieren eines Verarbeitungszustands erfasst wird, detektiert. Ferner umfasst die Steuervorrichtung 20 eine Vorrichtung zum maschinellen Lernen 30, um den Vorgang des Verarbeitens der Werkstücke B1 und B2 unter Verwendung von Laserlicht, das von dem Laserverarbeitungskopf 12 ausgegeben wird, zu erlernen. Die Vorrichtung zum maschinellen Lernen 30 kann kommunikationsmäßig mit dem Äußeren der Steuervorrichtung 20 verbunden sein.
Die Vorrichtung zum maschinellen Lernen 30 umfasst eine Zustandsbeobachtungseinheit 31 zum Beobachten von Zustandsvariablen, die mindestens ein Element von der Schwankung in der Ausgabe von Laserlicht und dem Verarbeitungszustand der Werkstücke B1 und B2, die unter Verwendung des Laserlichts verarbeitet werden, und einem Winkelbefehlswert für den Laserverarbeitungskopf 12 umfassen. Die Zustandsbeobachtungseinheit 31 kann eine Speichereinheit sein, beispielsweise ein Speicher, der die Zustandsvariablen mit der Beobachtungszeit der Reihe nach speichern kann.
Ferner umfasst die Vorrichtung zum maschinellen Lernen 30 eine Lerneinheit 35, die mindestens ein Element von der Schwankung und dem Verarbeitungszustand, der durch die Zustandsbeobachtungseinheit 31 beobachtet wird, und dem Winkelbefehlswert für den Laserverarbeitungskopf 12, der durch die Zustandsbeobachtungseinheit 31 beobachtet wird, im Verhältnis zueinander erlernt.
Die Lerneinheit 35 kann diverse Algorithmen zum maschinellen Lernen verwenden, wozu das betreute Lernen, das unbetreute Lernen, das halbbetreute Lernen, das Verstärkungslernen, die Transduktion, das Multifunktionslernen und dergleichen gehören. In der folgenden Beschreibung führt die Lerneinheit 35 das Verstärkungslernen unter Verwendung von Q-Lernen aus.
Mit Bezug auf 5, die ein Blockdiagramm der Vorrichtung zum maschinellen Lernen ist, entspricht die Vorrichtung zum maschinellen Lernen 30 einem Agenten zum Verstärkungslernen. Die Schwankungsberechnungseinheit 21, die Einheit 22 zum Bestimmen eines Verarbeitungszustands und die Winkelbefehlseinheit 23 detektieren den Zustand der Umgebung.
Die Lerneinheit 35, die das Verstärkungslernen ausführt, umfasst eine Belohnungsberechnungseinheit 32, die basierend auf mindestens einem Element von der Schwankung und dem Verarbeitungszustand, der durch die Zustandsbeobachtungseinheit 31 beobachtet wird, eine Belohnung berechnet. Ferner umfasst die Lerneinheit 35 eine Funktionsaktualisierungseinheit 33 (künstliche Intelligenz) zum Aktualisieren einer Funktion, beispielsweise einer Aktionswertfunktion (Aktionswerttabelle), die den Winkelbefehlswert für den Laserverarbeitungskopf 12 aus den aktuellen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit 32 berechnet wird, bestimmt. Selbstverständlich kann die Funktionsaktualisierungseinheit 33 eine andere Funktion aktualisieren.
Die Vorrichtung zum maschinellen Lernen 30 umfasst ferner eine Entscheidungsfindungseinheit 34, die über einen optimalen Wert des Winkelbefehlswertes für den Laserverarbeitungskopf 12 aus den aktuellen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit 32 berechnet wird, entscheidet. Die Entscheidungsfindungseinheit 34 erlernt eine Auswahl (Entscheidungsfindung) einer besseren Aktion. Die Entscheidungsfindungseinheit 34 kann in der Steuervorrichtung 20 statt in der Vorrichtung zum maschinellen Lernen 30 enthalten sein.
6 ist ein Ablaufschema des Betriebs der Vorrichtung zum maschinellen Lernen. Der Betrieb der Vorrichtung zum maschinellen Lernen 30 wird mit Bezug auf 1 bis 6 beschrieben. Der Vorgang aus 6 wird in gewissen Steuerzyklen ausgeführt, während das Laserverarbeitungsgerät 1 einen Verarbeitungsvorgang an den Werkstücken B1 und B2 ausführt.
Zuerst wählt in Schritt S21 aus 6 die Winkelbefehlseinheit 23 der Steuervorrichtung 20 einen Winkelbefehlswert für den Laserverarbeitungskopf aus und erteilt diesen. Der Winkelbefehlswert für den Laserverarbeitungskopf wird aus einem spezifischen Bereich zufällig ausgewählt. Alternativ wird beispielsweise ein Mindestwert des Winkelbefehlswertes für den Laserverarbeitungskopf in dem spezifischen Bereich zuerst ausgewählt und ein leicht erhöhter Wert kann in dem nächsten Zyklus ausgewählt werden.
Dann berechnet in Schritt S22 die Schwankungsberechnungseinheit 21 die Schwankung des Laserlichts. Die Schwankung wird wie zuvor beschrieben durch Ausführen der Schritte S12 bis S14 aus 2 berechnet.
In Schritt S23 aus 6 wird die Schwankung mit einem vorbestimmten Schwellenwert verglichen, wie zuvor beschrieben. Wenn die Schwankung gleich oder kleiner als der Schwellenwert ist, erhöht sich die Belohnung in Schritt S24. Wenn die Schwankung nicht gleich oder kleiner als der Schwellenwert ist, nimmt die Belohnung ab ober bleibt in Schritt S25 unverändert.
Dann erzielt die Einheit 22 zum Bestimmen eines Verarbeitungszustands in Schritt S26 Bilddaten des Verarbeitungszustands, der durch die Einheit 15 zum Detektieren eines Verarbeitungszustands erfasst wird. Der Verarbeitungszustand, der durch die Einheit 15 zum Detektieren eines Verarbeitungszustands erfasst wird, ist eine physikalische Größe von mindestens einem Element von dem Aussehen einer Schweißraupe, der Höhe der überschüssigen Füllung der Raupe, der Breite der Raupe und dem Ausmaß an Spritzern, die beispielsweise durch Verarbeiten der Bilddaten erzielt wird. Das Ausmaß an Spritzern kann aus den Spritzresten erzielt werden, die sich während des Schweißens an den Werkstücken ablagern.
Alternativ kann als Einheit 15 zum Detektieren eines Verarbeitungszustands ein Eindringmessinstrument oder ein Schalltrichter verwendet werden. In diesem Fall kann der zuvor beschriebene Verarbeitungszustand einen Eindringbetrag, der von dem Eindringmessinstrument erzielt wird, oder eine bogenförmige akustische Wellenform, die von dem Schalltrichter erzielt wird, umfassen. Ferner kann ein Thermosensor als Einheit 15 zum Detektieren eines Verarbeitungszustands verwendet werden. In diesem Fall umfasst der Verarbeitungszustand die Temperatur der Werkstücke B1 und B2 und/oder die Temperatur des Laserverarbeitungskopfes 12.
In Schritt S26 bestimmt die Einheit 22 zum Bestimmen eines Verarbeitungszustands, ob der erzielte Verarbeitungszustand günstig ist oder nicht. Beispielsweise wird der Verarbeitungszustand mit einem Schwellenwert verglichen, der in Abhängigkeit von jedem Verarbeitungszustand vorbestimmt ist. Alternativ kann der Bediener bestimmen, ob der Verarbeitungszustand günstig ist oder nicht, indem er des Detektionsergebnis der Einheit 15 zum Detektieren eines Verarbeitungszustands verwendet. Wenn der Verarbeitungszustand günstig ist, nimmt die Belohnung in Schritt S27 zu. Wenn der Verarbeitungszustand nicht günstig ist, nimmt die Belohnung ab oder bleibt in Schritt S28 unverändert.
Die Belohnungsberechnungseinheit 32 berechnet die Zunahme oder Abnahme der Belohnung. Die Zunahme- oder Abnahmebeträge der Belohnung können gestaffelt eingestellt werden. Einer der Bestimmungsschritte der Schritte S23 und S26 und des damit verbundenen Belohnungsschritts kann entfallen.
Anschließend aktualisiert die Funktionsaktualisierungseinheit 33 in Schritt S29 die Aktionswertfunktion. Das Q-Lernen, das durch die Lerneinheit 35 ausgeführt wird, ist ein Verfahren zum Lernen eines Wertes (des Wertes einer Aktion) Q(s, a) zum Auswählen einer Aktion „a“ in einem gewissen Umgebungszustand „s“. Folglich wird eine Aktion „a“, die den höchsten Q(s, a) aufweist, in einem gewissen Zustand „a“ ausgewählt. Beim Q-Lernen werden diverse Aktionen „a“ in einem gewissen Zustand „s“ ausgeführt, und der richtige Q(s, a) wird unter Verwendung von Belohnungen, die zu diesem Zeitpunkt bereitgestellt werden, durch Ausprobieren erlernt. Die folgende Gleichung (1) stellt eine Aktualisierungsgleichung für die Aktionswertfunktion Q(s, a) dar. $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
wobei, s_t und a_t jeweils die Umgebung und die Aktion zu einem Zeitpunkt t darstellen. Durch Ausführen der Aktion a_t ändert sich die Umgebung auf s_t+1, und die Belohnung r_t+1 wird durch die Änderung der Umgebung berechnet. Ein Term mit „max“ stellt das Produkt eines Q-Wertes, wenn eine Aktion „a“, die den höchsten Q-Wert aufweist (der zu diesem Zeitpunkt bekannt war), in der Umgebung s_t+1 ausgewählt wird, und y dar. „γ“ ist ein Ermäßigungsfaktor in dem Bereich von 0 < γ ≤ 1 (gewöhnlich 0,9 bis 0,99), und „α“ ist eine Lernquote in dem Bereich von 0 < α ≤1 (gewöhnlich etwa 0,1).
Diese Aktualisierungsgleichung gibt an, dass im Vergleich zu einem Bewertungswert Q(s_t, a_t) einer Aktion „a“ in einem Zustand „s“, falls ein Bewertungswert Q(s_t+1, max a_t+1) einer optimalen Aktion in dem nächsten Umgebungszustand, der von der Aktion „a“ abgeleitet wird, höher ist, Q(s_t, a_t) zunimmt. Andernfalls nimmt Q(s_t, a_t) ab. Kurz gesagt wird der Wert einer Aktion in einem gewissen Zustand einem optimalen Aktionswert im nächsten Zustand genähert. Mit anderen Worten aktualisiert die Lerneinheit 35 einen optimalen Wert des Winkelbefehlswertes für den Laserverarbeitungskopf.
Wie zuvor beschrieben aktualisiert die Funktionsaktualisierungseinheit 33 in Schritt S29 die Aktionswertfunktion unter Verwendung der Gleichung (1). Anschließend kehrt der Vorgang zu Schritt S21 zurück, ein anderer Winkelbefehlswert für den Laserverarbeitungskopf wird ausgewählt, und die Aktionswertfunktion wird ebenso aktualisiert. Es sei zu beachten, dass eine Aktionswerttabelle anstelle der Aktionswertfunktion aktualisiert werden kann.
Beim Verstärkungslernen entscheidet die Lerneinheit 35 als Agent über eine Aktion basierend auf dem Zustand einer Umgebung. In diesem Fall bedeutet die Aktion, dass die Entscheidungsfindungseinheit 34 einen neuen Wert als Winkelbefehlswert für den Laserverarbeitungskopf auswählt, um eine Aktion gemäß dem neuen Wert auszuführen. Der neue Befehlswert ändert die in 5 gezeigte Umgebung, beispielsweise die Schwankung in der Ausgabe von Laserlicht und den Verarbeitungszustand der Werkstücke B1 und B2, die unter Verwendung des Laserlichts verarbeitet werden. Gemäß der Änderung der Umgebung wird der Vorrichtung zum maschinellen Lernen 30 die Belohnung bereitgestellt, wie zuvor beschrieben, und die Entscheidungsfindungseinheit 34 der Vorrichtung zum maschinellen Lernen 30 erlernt die Auswahl einer besseren Aktion (Entscheidungsfindung), um beispielsweise eine höhere Belohnung zu erzielen.
Somit erhöht die häufige Wiederholung des Vorgangs aus 6 die Zuverlässigkeit der Aktionswertfunktion. Daher kann beispielsweise durch Auswählen des Winkelbefehlswertes für den Laserverarbeitungskopf 12 basierend auf der zuverlässigen Aktionswertfunktion, um den Q-Wert zu erhöhen, ein besser geeigneter Winkelbefehlswert für den Laserverarbeitungskopf 12 bestimmt werden.
Daher ist es möglich, den Inhalt, der durch die Funktionsaktualisierungseinheit 33 der Vorrichtung zum maschinellen Lernen 30 der vorliegenden Erfindung aktualisiert wird, automatisch als Winkelbefehlswert für den Laserverarbeitungskopf zu verwenden. Durch die Einführung der maschinellen Lerneinheit 30 in die Steuervorrichtung 20 dient das Einhalten von Lernergebnissen der Vorrichtung zum maschinellen Lernen, die den Winkelbefehlswert für den Laserverarbeitungskopf 12 automatisch anpassen kann, dazu, die Mühe und Zeit eines Bedieners zu sparen. Da der Winkel des Laserverarbeitungskopfes 12 optimal bestimmt werden kann, stabilisiert sich das Laserlicht, wodurch sich der Verarbeitungszustand der Werkstücke B1 und B2 verbessert. Daraufhin verbessert sich die Produktionseffizienz.
Eine Funktion, die unter Verwendung eines neuronalen Netzwerks genähert wird, das noch beschrieben wird, kann als Aktionswertfunktion verwendet werden. In diesem Fall können die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit 31 beobachtet werden, in einer mehrschichtigen Struktur berechnet werden, um die Aktionswertfunktion in Echtzeit zu aktualisieren. Dies stellt ein besser geeignetes Lernergebnis bereit. Das Verfahren weist einen erheblichen Vorteil gegenüber Daten auf, die große Datenmengen für „s“ und „a“ aufweisen, wie etwa Bilddaten.
Die Vorrichtung zum maschinellen Lernen 30 und dergleichen, die in 5 abgebildet ist, wird noch einmal ausführlich beschrieben, obwohl sich die Beschreibung teilweise überschneidet. Die Vorrichtung zum maschinellen Lernen 30 verfügt über die Funktion des Wissenslernens sowie über die Funktionen des Entnehmens nützlicher Regeln, Wissensdarstellungen, Kriterien und dergleichen aus einer Datengruppe, die in die Vorrichtung eingegeben wird, durch Analyse und des Ausgebens von Bestimmungsergebnissen. Dazu gibt es diverse Verfahren, die in etwa in „betreutes Lernen“, „unbetreutes Lernen“ und „Verstärkungslernen“ unterteilt sind. Wenn diese Verfahren umgesetzt werden, wird des Weiteren ein so genanntes „tiefgehendes Lern-“ Verfahren zum Lernen der Entnahme der eigentlichen Merkmale verwendet.
Beim „betreuten Lernen“ wird der Lernvorrichtung eine große Menge von Datenpaaren aus einer Eingabe und einem Ergebnis (Etikett) bereitgestellt. Die Vorrichtung zum maschinellen Lernen erlernt Merkmale aus dem Datensatz und erzielt heuristisch ein Modell, um ein Ergebnis vorherzusagen, aus einer Eingabe, d.h. der Beziehung dazwischen. Bei dieser Ausführungsform kann das „betreute Lernen“ zum Schätzen des Winkelbefehlswertes für den Laserverarbeitungskopf aus der Schwankung in der Ausgabe des Laserlichts und dem Verarbeitungszustand der Werkstücke B1 und B2, die unter Verwendung des Laserlichts verarbeitet werden, geschätzt werden. Das „betreute Lernen“ kann unter Verwendung ein Element Algorithmus, wie etwa ein Element neuronalen Netzwerks, das noch beschrieben wird, umgesetzt werden.
Beim „unbetreuten Lernen“ wird der Vorrichtung zum maschinellen Lernen nur eine große Menge von Eingangsdaten bereitgestellt. Die Vorrichtung zum maschinellen Lernen erlernt die Verteilung der Eingabedaten und wendet Kompression, Klassifizierung, Ausrichtung und dergleichen auf die Eingabedaten an, ohne dass ihre entsprechenden Ausgabedaten als Betreuer bereitgestellt würden. Die Merkmale des Datensatzes können basierend auf ihrer Ähnlichkeit gruppiert werden und dergleichen. Mit der Verwendung dieses Ergebnisses wird, während ein gewisses Kriterium bereitgestellt wird, eine Ausgabe zugeteilt, um das Kriterium zu optimieren, und dies ermöglicht eine Vorhersage der Ausgabe. Es gibt auch ein Verfahren, das als „halbbetreutes Lernen“ bezeichnet wird, als dazwischenliegende Problemstellung zwischen dem „betreuten Lernen“ und dem „unbetreuten Lernen“, bei dem ein Teil der Daten Paares aus einer Eingabe und einer Ausgabe umfasst, während der andere nur Eingaben umfasst. Bei dieser Ausführungsform werden Daten, die erzielt werden können, ohne das Laserverarbeitungsgerät tatsächlich zu betätigen, beim unbetreuten Lernen verwendet, um die Lerneffizienz zu verbessern.
Beim „Verstärkungslernen“ werden die Probleme wie folgt gestellt.

- Die Steuervorrichtung 20 beobachtet den Umgebungszustand und entscheidet über eine Aktion.
- Die Umgebung variiert gemäß einer gewissen Regel, und die Aktion selber verändert manchmal die Umgebung.
- Ein Belohnungssignal kehrt jedes Mal zurück, wenn die Aktion ausgeführt wird.
- Es ist die Summe der Belohnungen (Ermäßigungen) in der Zukunft, die zu maximieren ist.
- Das Lernen beginnt in einem Zustand, in dem ein Ergebnis, das durch eine Aktion bewirkt wird, unbekannt oder nicht bekannt genug ist. Das Ergebnis wird erst als Daten erzielt, nachdem das Laserverarbeitungsgerät tatsächlich betätigt wurde. Mit anderen Worten ist es notwendig, durch Ausprobieren nach einer optimalen Aktion zu suchen.
- Das Lernen kann an einem guten Startpunkt beginnen, indem ein vorhergehendes Lernen (unter Verwendung eines Verfahrens des zuvor beschriebenen betreuten Lernens oder des umgekehrten Verstärkungslernens) ausgeführt wird, um die Aktion eines Menschen in einem anfänglichen Zustand nachzuahmen.

Das „Verstärkungslernen“ ist ein Verfahren zum Lernen optimaler Aktionen basierend auf den Interaktionen zwischen einer Aktion und einer Umgebung durch das Lernen von Aktionen, sowie durch das Bestimmen und Klassifizieren, mit anderen Worten ein Lernverfahren, um eine Belohnung zu maximieren, die in der Zukunft erzielt wird. Bei dieser Ausführungsform bedeutet dies, dass die Aktionen, die eine Wirkung auf die Zukunft haben, erzielt werden können. Die folgende Beschreibung nimmt das Q-Lernen als Beispiel ist jedoch nicht darauf eingeschränkt.
Das Q-Lernen ist ein Verfahren zum Lernen eines Wertes Q(s, a) zum Auswählen einer Aktion „a“ in einem gewissen Umgebungszustand „s“. Mit anderen Worten wird in einem gewissen Zustand „s“ eine Aktion „a“, die den höchsten Wert von Q(s, a) aufweist, als optimale Aktion ausgewählt. Bezüglich einer Kombination eines Zustands „s“ und einer Aktion „a“ ist jedoch ein richtiger Wert von Q(s, a) anfänglich gar nicht bekannt. Somit wählt der Agent (ein Subjekt einer Aktion) diverse Aktionen „a“ in einem gewissen Zustand „s“, und ihm wird für jede Aktion „a“ eine Belohnung bereitgestellt. Daher lernt der Agent, eine bessere Aktion, d.h. einen richtigen Wert von Q(s, a), auszuwählen.
Das Ziel besteht darin, die Belohnung, die in der Zukunft zu erzielen ist, zu maximieren, d.h. Q(s, a) = E [Σγ^tr_t] als Ergebnis der Aktionen zu erzielen (es wird ein erwarteter Wert genommen, wenn sich ein Zustand gemäß den optimalen Aktionen ändert. Die optimalen Aktionen waren natürlich nicht bekannt, und daher müssen sie beim Lernen ausfindig gemacht werden.). Beispielsweise wird eine Aktualisierungsgleichung für einen derartigen Wert Q(s, a) wie folgt dargestellt (wie die obige Gleichung (1)): $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
wobei s_t den Umgebungszustand zu einem Zeitpunkt t darstellt und a_t die Aktion zu dem Zeitpunkt t darstellt. Durch Ausführen der Aktion a_t ändert sich der Zustand auf s_t+1. „r_t+1“ stellt die Belohnung dar, die durch die Zustandsänderung bereitgestellt wird. Ein Term mit „max“ stellt das Produkt eines Q-Wertes, wenn eine Aktion „a“, die den höchsten Q-Wert aufweist, der zu diesem Zeitpunkt bekannt war, in dem Zustand s_t+1 ausgewählt wird, und γ dar. „γ“ ist ein Parameter von 0 < γ ≤ 1, der als Ermäßigungsfaktor bezeichnet wird. „α“ ist eine Lernquote in dem Bereich von 0 < α ≤ 1.
Diese Gleichung gibt ein Verfahren zum Aktualisieren eines Bewertungswertes Q (s_t, a_t) einer Aktion a_t in einem Zustand s_t basierend auf einer Belohnung r_t+1, die als Ergebnis des Versuchs a_t zurückgekommen ist, an. Diese Aktualisierungsgleichung bedeutet, dass im Vergleich mit einem Bewertungswert Q(s_t, a_t) einer Aktion „a“ in einem Zustand „s“, falls ein Bewertungswert Q(s_t+1, max a_t+1) einer optimalen Aktion „max a“ in dem nächsten Zustand, der aus einer Belohnung r_t+1 zuzüglich der Aktion „a“ abgeleitet wird, höher ist, Q(s_t, a_t) zunimmt. Andernfalls nimmt Q(s_t, a_t) ab. Mit anderen Worten wird der Wert einer Aktion in einem gewissen Zustand einem optimalen Aktionswert im nächsten Zustand genähert, der aus der Belohnung, die sofort als Ergebnis der Aktion zurückkehrt, und der Aktion selber abgeleitet wird.
Es gibt zwei Verfahren zum Darstellen von Q(s, a) in einem Computer, d.h. ein Verfahren, bei dem die Q-Werte aller Zustands-Aktions-Paare (s, a) in einer Tabelle (Aktionswerttabelle) festgehalten werden, und ein Verfahren, bei dem eine Funktion zum Nähern von Q(s, a) vorbereitet wird. Bei dem letztgenannten Verfahren kann die zuvor beschriebene Aktualisierungsgleichung durch Anpassen des Parameters für die Näherungsfunktion unter Verwendung eines stochastischen Gradientenabstiegsverfahrens oder dergleichen umgesetzt werden. Als Näherungsfunktion kann ein neuronales Netzwerk verwendet werden, wie es noch beschrieben wird.
Als Näherungsalgorithmus für eine Wertfunktion beim betreuten Lernen, unbetreuten Lernen und Verstärkungslernen kann ein neuronales Netzwerk verwendet werden. Das neuronale Netzwerk besteht beispielsweise aus einer arithmetischen Einheit, einem Speicher und dergleichen, die ein Neuronenmodell nachahmen, wie in 7. 7 gezeigt, ist ein schematisches Diagramm eines Neuronenmodells.
Wie in 7 gezeigt erzeugt ein Neuron eine Ausgabe y als Reaktion auf eine Mehrzahl von Eingaben x (beispielsweise den Eingaben x₁ bis x₃). Jede der Eingaben x₁ bis x₃ wird mit einer Gewichtung w (w₁ bis w₃) multipliziert, die der Eingabe x entspricht. Somit erzeugt das Neuron die Ausgabe y, die durch die folgende Gleichung dargestellt wird. Es sei zu beachten, dass alle von der Eingabe x, der Ausgabe y und der Gewichtung w Vektoren sind. $y = f_{k} (\sum_{i = 1}^{n} x_{i} w_{i} - θ)$
wobei θ ein systematischer Fehler und f_k eine Aktivierungsfunktion ist.
Nun wird ein dreischichtiges neuronales Netzwerk, das Gewichtungen von drei Schichten aufweist und aus einer Kombination der zuvor beschriebenen Neuronen besteht, mit Bezug auf 8 beschrieben. 8 ist ein schematisches Diagramm eines neuronalen Netzwerks, das Gewichtungen von drei Schichten D1 bis D3 aufweist.
Wie in 8 gezeigt wird eine Mehrzahl von Eingaben x (beispielsweise den Eingaben x1 bis x3) von der linken Seite des neuronalen Netzwerks eingegeben, und ein Ergebnis y (beispielsweise die Ergebnisse y1 bis y3) wird von der rechten Seite desselben ausgegeben.
Genauer gesagt werden die Eingaben x1 bis x3 in jedes der drei Neuronen N11 bis N13 eingegeben, wobei sie entsprechend gewichtet sind. Die Gewichtungen, die auf die Eingaben angewendet werden, sind insgesamt durch w1 angegeben.
Die Neuronen N11 bis N13 geben jeweils die Vektoren z11 bis z13 aus. Die Vektoren z11 bis z13 sind insgesamt durch einen Merkmalsvektor z1 angegeben, der als Vektor angesehen wird, der einen Merkmalsbetrag aus dem Eingangsvektor entnimmt. Der Merkmalsvektor z1 ist ein Merkmalsvektor zwischen dem Gewicht w1 und einem Gewicht w2.
Die Vektoren z11 bis z13 werden in jedes der beiden Neuronen N21 und N22 eingegeben, wobei sie entsprechend gewichtet werden. Die Gewichtungen, die auf die Merkmalsvektoren angewendet werden, sind insgesamt durch w2 angegeben.
Die Neuronen N21 und N22 geben jeweils die Vektoren z21 und z22 aus. Die Vektoren z21 und z22 sind insgesamt durch einen Merkmalsvektor z2 angegeben. Der Merkmalsvektor z2 ist ein Merkmalsvektor zwischen der Gewichtung w2 und einer Gewichtung w3.
Die Merkmalsvektoren z21 und z22 werden in jedes der drei Neuronen N31 bis N33 eingegeben, wobei sie entsprechend gewichtet sind. Die Gewichtungen, die auf die Merkmalsvektoren angewendet werden, sind insgesamt durch w3 angegeben.
Schließlich geben die Neuronen N31 bis N33 jeweils die Ergebnisse y1 bis y3 aus.
Das neuronale Netzwerk verfügt über einen Lernmodus und einen Wertvorhersagemodus. Im Lernmodus wird die Gewichtung w unter Verwendung eines Lerndatensatzes erlernt. Im Wertvorhersagemodus wird die Aktion des Laserverarbeitungsgeräts durch die Verwendung des Parameters bestimmt (der Begriff „Vorhersage“ wird aus praktischen Gründen verwendet, es können jedoch diverse Aufgaben ausgeführt werden, wozu Detektion, Klassifizierung, Folgerung und dergleichen gehören).
Im Wertvorhersagemodus können Daten, die durch einen tatsächlichen Betrieb des Laserverarbeitungsgeräts erzielt wurden, sofort erlernt werden und sich in der nächsten Aktion wiederspiegeln (Online-Lernen). Alternativ kann das Lernen insgesamt unter Verwendung einer Datengruppe, die im Voraus erhoben wird, ausgeführt werden, und ein Detektionsmodus kann anschließend unter Verwendung des Parameters ausgeführt werden (Stapellernen). Bei einer dazwischenliegenden Möglichkeit kann der Lernmodus jedes Mal ausgeführt wird, wenn sich eine gewisse Datenmenge angesammelt hat.
Die Gewichtungen w1 bis w3 können unter Verwendung eines Fehlerrückführungsalgorithmus (Rückführungsalgorithmus) erlernt werden. Eine Information über einen Fehler tritt von rechts ein und verbreitet sich nach links. Der Fehlerrückführungsalgorithmus ist ein Verfahren, bei dem jede Gewichtung im Verhältnis zu jedem Neuron angepasst (erlernt) wird, um den Unterschied zwischen einer Ausgabe y und der tatsächlichen Ausgabe y (Betreuer) als Reaktion auf eine Eingabe x zu minimieren.
Ein derartiges neuronales Netzwerk kann mehr als drei Schichten (so genanntes tiefgehendes Lernen) aufweisen. Eine arithmetische Einheit, die eine Merkmalsentnahme aus Eingaben in Phasen und eine Regression der Ergebnisse ausführt, kann nur aus Betreuerdaten automatisch erfasst werden.
Um das zuvor beschriebene Q-Lernen auszuführen, wie in 5 gezeigt, umfasst die Vorrichtung zum maschinellen Lernen 30 gemäß dieser Ausführungsform entsprechend die Zustandsbeobachtungseinheit 31, die Lerneinheit 35 und die Entscheidungsfindungseinheit 34. Das Verfahren zum maschinellen Lernen, das auf diese Ausführungsform anwendbar ist, ist jedoch nicht auf das Q-Lernen eingeschränkt. Beispielsweise für den Fall, das betreutes Lernen verwendet wird, entspricht die Wertfunktion dem Lernmodell und die Belohnung entspricht dem Fehler.
9 ist ein schematisches Diagramm eines Laserverarbeitungssystems. Wie in 9 gezeigt umfasst ein Laserverarbeitungssystem 5 eine Mehrzahl von Laserverarbeitungsgeräten 1 und 1a bis In. Die Laserverarbeitungsgeräte 1 und 1a bis 1n umfassen jeweils eine Vorrichtung zum maschinellen Lernen 30 und 30a bis 30n. Die Vorrichtungen zum maschinellen Lernen 30 und 30a bis 30n umfassen jeweils die Zustandsbeobachtungseinheiten 31 und 31a bis 31n und die Funktionsaktualisierungseinheiten 33 und 33a bis 33n, ähnlich wie zuvor beschrieben. Wie aus 9 ersichtlich, sind die Laserverarbeitungsgeräte 1 und 1a bis 1n über eine Kommunikationseinheit 40 miteinander verbunden. Die Kommunikationseinheit 40 ist ein drahtgebundenes oder drahtloses Netzwerk.
Durch wiederholtes Ausführen des maschinellen Lernens werden diverse physikalische Größen und Lernergebnisse, beispielsweise der Winkel des Laserverarbeitungskopfes 12, in der Zustandsbeobachtungseinheit 31 des Laserverarbeitungsgeräts 1 oder dergleichen gespeichert. Die zuvor beschriebene Funktion wird in der Funktionsaktualisierungseinheit 33 gespeichert.
Selbst wenn die Vorrichtung zum maschinellen Lernen 30a des Laserverarbeitungsgeräts 1a beispielsweise kein maschinelles Lernen ausführt, kann somit der Inhalt, der in der Zustandsbeobachtungseinheit 31 und der Funktionsaktualisierungseinheit 33 des Laserverarbeitungsgeräts 1 gespeichert ist, in die Zustandsbeobachtungseinheit 31a und die Funktionsaktualisierungseinheit 33a des anderen Laserverarbeitungsgeräts 1a über die Kommunikationseinheit 40 übernommen werden. Daher kann die Vorrichtung zum maschinellen Lernen 30a des Laserverarbeitungsgerät 1a zuverlässig Lernergebnisse und dergleichen verwenden, ohne das maschinelle Lernen tatsächlich auszuführen. Das Gleiche gilt für die anderen Laserverarbeitungsgeräte 1n und dergleichen.
Ferner ist in 9 ein Host-Computer 50, z.B. ein Server, der eine Datenspeichereinheit 51 aufweist, mit der Kommunikationseinheit 40 drahtgebunden oder drahtlos verbunden. Es sei zu beachten, dass der Host-Computer 50 beispielsweise mit dem einzigen Laserverarbeitungsgerät 1 direkt verbunden sein kann.
Die physikalischen Größen, die Lernergebnisse und dergleichen, die in der Zustandsbeobachtungseinheit 31 des Laserverarbeitungsgerät 1 gespeichert sind, und die Funktion, die in der Funktionsaktualisierungseinheit 33 gespeichert ist, können über die Kommunikationseinheit 40 in der Datenspeichereinheit 51 des Host-Computers 50 gespeichert sein. In diesem Fall greift das andere Laserverarbeitungsgerät 1a auf die Datenspeichereinheit 51 des Host-Computers 50 zu, um die zuvor beschriebenen Lernergebnisse und die Funktion jeweils in die Zustandsbeobachtungseinheit 31a und die Funktionsaktualisierungseinheit 33a zu übernehmen. Mit anderen Worten, selbst wenn das einzige Laserverarbeitungsgerät 1 zeitweilig von dem Netzwerk getrennt ist, kann das andere Laserverarbeitungsgerät 1a die zuvor beschriebenen Lernergebnisse und die Funktion erzielen.
Aspekte der Offenbarung
Ein erster Aspekt stellt ein Laserverarbeitungsgerät (1) zum Verarbeiten eines Werkstücks unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf (12) ausgegeben wird, bereit. Das Laserverarbeitungsgerät umfasst eine Ausgabedetektionseinheit (13) zum Detektieren einer Ausgabe des Laserlichts während eines vorbestimmten Zeitraums; eine Schwankungsberechnungseinheit (21) zum Berechnen einer Schwankung in der Ausgabe des Laserlichts, die durch die Ausgabedetektionseinheit detektiert wird; und eine Winkelbefehlseinheit (23) zum Befehlen eines Winkels, um den der Laserverarbeitungskopf im Verhältnis zur Normalen des Werkstücks zu neigen ist, basierend auf der Schwankung, die durch die Schwankungsberechnungseinheit berechnet wird.
Gemäß einem zweiten Aspekt umfasst das Laserverarbeitungsgerät gemäß dem ersten Aspekt ferner eine Vorrichtung zum maschinellen Lernen (30), um einen Vorgang des Verarbeitens des Werkstücks unter Verwendung des Laserlichts, das von dem Laserverarbeitungskopf ausgegeben wird, zu erlernen. Die Vorrichtung zum maschinellen Lernen umfasst eine Zustandsbeobachtungseinheit (31) zum Beobachten von Zustandsvariablen, welche die Schwankung in der Ausgabe des Laserlichts, ein Verarbeitungszustand des Werkstücks, das unter Verwendung des Laserlichts verarbeitet wird, und ein Winkelbefehlswert für den Laserverarbeitungskopf umfassen; und eine Lerneinheit (35) zum Lernen mindestens eines aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet wird, und dem Winkelbefehlswert für den Laserverarbeitungskopf, der durch die Zustandsbeobachtungseinheit beobachtet werden, im Verhältnis zueinander.
Gemäß einem dritten Aspekt umfasst die Lerneinheit bei dem zweiten Aspekt eine Belohnungsberechnungseinheit (32) zum Berechnen einer Belohnung basierend auf mindestens einem aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden; und eine Funktionsaktualisierungseinheit (33) zum Aktualisieren einer Funktion, um den Winkelbefehlswert für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit berechnet wird, zu aktualisieren.
Gemäß einem vierten Aspekt umfasst das Laserverarbeitungsgerät gemäß dem zweiten oder dritten Aspekt ferner eine Entscheidungsfindungseinheit (34) zum Bestimmen eines optimalen Wertes des Winkelbefehlswertes für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf einem Lernergebnis der Lerneinheit.
Gemäß einem fünften Aspekt berechnet die Lerneinheit bei einem von den zweiten bis vierten Aspekten die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit beobachtet werden, in einer mehrschichtigen Struktur und aktualisiert die Funktion in Echtzeit.
Gemäß einem sechsten Aspekt wird bei einem von den zweiten bis fünften Aspekten die Funktion der Funktionsaktualisierungseinheit unter Verwendung einer Funktion, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung zum maschinellen Lernen aktualisiert wird, aktualisiert.
Gemäß einem siebten Aspekt umfasst eine Vorrichtung zum maschinellen Lernen (30) zum Erlernen eines Vorgangs des Verarbeitens eines Werkstücks unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf ausgegeben wird, eine Zustandsbeobachtungseinheit (31) zum Beobachten von Zustandsvariablen, die mindestens eines aus einer Schwankung in einer Ausgabe des Laserlichts in einem vorbestimmten Zeitraum und einem Verarbeitungszustand des Werkstücks, das unter Verwendung des Laserlichts verarbeitet wird, und einem Winkelbefehlswert für den Laserverarbeitungskopf des Laserlichts umfassen; und eine Lerneinheit (35) zum Lernen mindestens eines aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden, und dem Winkelbefehlswert für den Laserverarbeitungskopf, der durch die Zustandsbeobachtungseinheit beobachtet wird, im Verhältnis zueinander.
Gemäß einem achten Aspekt umfasst die Lerneinheit bei dem siebten Aspekt eine Belohnungsberechnungseinheit (32) zum Berechnen einer Belohnung basierend auf mindestens einem aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden; und eine Funktionsaktualisierungseinheit (33) zum Aktualisieren einer Funktion, um den Winkelbefehlswert für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit berechnet wird, zu aktualisieren.
Gemäß einem neunten Aspekt umfasst die Vorrichtung zum maschinellen Lernen gemäß dem siebten oder achten Aspekt ferner eine Entscheidungsfindungseinheit (34) zum Bestimmen eines optimalen Wertes des Winkelbefehlswertes für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf einem Lernergebnis der Lerneinheit.
Gemäß einem zehnten Aspekt berechnet die Lerneinheit bei einem von den siebten bis neunten Aspekten die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit beobachtet werden, in einer mehrschichtigen Struktur und aktualisiert die Funktion in Echtzeit.
Gemäß einem elften Aspekt wird bei einem von den siebten bis zehnten Aspekten die Funktion der Funktionsaktualisierungseinheit unter Verwendung einer Funktion aktualisiert, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung zum maschinellen Lernen aktualisiert wird.
Ein zwölfter Aspekt stellt ein Laserverarbeitungsgerät (1) bereit, das die Vorrichtung zum maschinellen Lernen gemäß einem der siebten bis elften Aspekte umfasst.
Vorteilhafte Wirkungen der Aspekte
Gemäß dem ersten Aspekt kann ein geeigneter Winkel des Laserverarbeitungskopfes ohne Weiteres bestimmt werden, ohne Mühe oder Zeit eines Bedieners in Anspruch zu nehmen. Daher kann Laserlicht stabil ausgegeben werden, und das Werkstück kann günstig verarbeitet werden.
Gemäß den zweiten bis vierten Aspekten und den siebten bis neunten Aspekten kann ein geeigneter Winkel für den Laserverarbeitungskopf unter Verwendung der Vorrichtung zum maschinellen Lernen optimal bestimmt werden, ohne Mühe oder Zeit des Bedieners in Anspruch zu nehmen.
Gemäß den fünften und zehnten Aspekten kann ein geeignetes Lernergebnis erzielt werden.
Gemäß den sechsten und elften Aspekten, da ein Lernergebnis, das durch ein gewisse Vorrichtung zum maschinellen Lernen erzielt wird, in eine andere Vorrichtung zum maschinellen Lernen übernommen werden kann, kann ein Lernergebnis und dergleichen, das eine hohe Zuverlässigkeit aufweist, geteilt werden.
Gemäß einem zwölften Aspekt muss ein Bediener durch Einhalten eines Lernergebnisses der Vorrichtung zum maschinellen Lernen keinen geeigneten Winkel für den Laserverarbeitungskopf bestimmen. Daher ist es möglich, den Aufwand und die Arbeitsstunden zu reduzieren, um den optimalen Winkel zu bestimmen.
Die vorliegende Erfindung wurde unter Verwendung von typischen Ausführungsformen beschrieben, es ist für den Fachmann jedoch offensichtlich, dass die zuvor beschriebenen Änderungen und diverse andere Änderungen, Auslassungen und Hinzufügungen vorgenommen werden können, ohne den Umfang der vorliegenden Erfindung zu verlassen. Beispielsweise kann ein tatsächlicher Wert des Winkels A des Laserverarbeitungskopfes 12 ferner in die Zustandsbeobachtungseinheit 31 eingegeben werden, um einen Winkelbefehlswert auszugeben, wie zuvor beschrieben.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2010260095 [0004]
JP 2005131645 [0004]

Claims

Laserverarbeitungsgerät (1) zum Verarbeiten eines Werkstücks unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf (12) ausgegeben wird, umfassend: eine Ausgabedetektionseinheit (13) zum Detektieren einer Ausgabe des Laserlichts während eines vorbestimmten Zeitraums; eine Schwankungsberechnungseinheit (21) zum Berechnen einer Schwankung in der Ausgabe des Laserlichts, die durch die Ausgabedetektionseinheit detektiert wird; und eine Winkelbefehlseinheit (23) für Befehlen eines Winkels, um den der Laserverarbeitungskopf im Verhältnis zur Normalen des Werkstücks zu neigen ist, basierend auf der Schwankung, die durch die Schwankungsberechnungseinheit berechnet wird.
Laserverarbeitungsgerät nach Anspruch 1, ferner umfassend: eine Vorrichtung zum maschinellen Lernen (30), um einen Vorgang des Verarbeitens des Werkstücks unter Verwendung des Laserlichts, das von dem Laserverarbeitungskopf ausgegeben wird, zu erlernen, wobei die Vorrichtung zum maschinellen Lernen umfasst: eine Zustandsbeobachtungseinheit (31) zum Beobachten von Zustandsvariablen, welche die Schwankung in der Ausgabe des Laserlichts, ein Verarbeitungszustand des Werkstücks, das unter Verwendung des Laserlichts verarbeitet wird, und ein Winkelbefehlswert für den Laserverarbeitungskopf umfassen; und eine Lerneinheit (35) zum Erlernen mindestens eines aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden, und dem Winkelbefehlswert für den Laserverarbeitungskopf, der durch die Zustandsbeobachtungseinheit beobachtet wird, im Verhältnis zueinander.
Laserverarbeitungsgerät nach Anspruch 2, wobei die Lerneinheit umfasst: eine Belohnungsberechnungseinheit (32) zum Berechnen einer Belohnung basierend auf mindestens einem aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden; und eine Funktionsaktualisierungseinheit (33) zum Aktualisieren einer Funktion, um den Winkelbefehlswert für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit berechnet wird, zu bestimmen.
Laserverarbeitungsgerät nach Anspruch 2 oder 3, ferner umfassend eine Entscheidungsfindungseinheit (34) zum Bestimmen eines optimalen Wertes des Winkelbefehlswertes für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf einem Lernergebnis der Lerneinheit.
Laserverarbeitungsgerät nach einem der Ansprüche 2 bis 4, wobei die Lerneinheit die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit beobachtet werden, in einer mehrschichtigen Struktur berechnet und die Funktion in Echtzeit aktualisiert.
Laserverarbeitungsgerät nach einem der Ansprüche 2 bis 5, wobei die Funktion der Funktionsaktualisierungseinheit unter Verwendung einer Funktion aktualisiert wird, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung zum maschinellen Lernen aktualisiert wird.
Vorrichtung zum maschinellen Lernen (30), um einen Vorgang des Verarbeitens eines Werkstücks unter Verwendung von Laserlicht, das von einem Laserverarbeitungskopf (12) ausgegeben wird, zu erlernen, umfassend: eine Zustandsbeobachtungseinheit (31) zum Beobachten von Zustandsvariablen, die mindestens eines aus einer Schwankung in einer Ausgabe des Laserlichts in einem vorbestimmten Zeitraum und einem Verarbeitungszustand des Werkstücks, das unter Verwendung des Laserlichts verarbeitet wird, und einem Winkelbefehlswert für den Laserverarbeitungskopf des Laserlichts umfassen; und eine Lerneinheit (35) zum Lernen mindestens eines aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden, und dem Winkelbefehlswert für den Laserverarbeitungskopf, der durch die Zustandsbeobachtungseinheit beobachtet wird, im Verhältnis zueinander.
Vorrichtung zum maschinellen Lernen nach Anspruch 7, wobei die Lerneinheit umfasst: eine Belohnungsberechnungseinheit (32) zum Berechnen einer Belohnung basierend auf mindestens einem aus der Schwankung und dem Verarbeitungszustand, die durch die Zustandsbeobachtungseinheit beobachtet werden; und eine Funktionsaktualisierungseinheit (33) zum Aktualisieren einer Funktion, um den Winkelbefehlswert für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf der Belohnung, die durch die Belohnungsberechnungseinheit berechnet wird, zu bestimmen.
Vorrichtung zum maschinellen Lernen nach Anspruch 7 oder 8, ferner umfassend eine Entscheidungsfindungseinheit (34) zum Bestimmen eines optimalen Wertes des Winkelbefehlswertes für den Laserverarbeitungskopf aus den momentanen Zustandsvariablen basierend auf einem Lernergebnis der Lerneinheit.
Vorrichtung zum maschinellen Lernen nach einem der Ansprüche 7 bis 9, wobei die Lerneinheit die Zustandsvariablen, die durch die Zustandsbeobachtungseinheit beobachtet werden, in einer mehrschichtigen Struktur berechnet und die Funktion in Echtzeit aktualisiert.
Vorrichtung zum maschinellen Lernen nach einem der Ansprüche 7 bis 10, wobei die Funktion der Funktionsaktualisierungseinheit unter Verwendung einer Funktion aktualisiert wird, die durch eine Funktionsaktualisierungseinheit einer anderen Vorrichtung zum maschinellen Lernen aktualisiert wird.
Laserverarbeitungsgerät (1), umfassend die Vorrichtung zum maschinellen Lernen nach einem der Ansprüche 7 bis 11.