-
HINTERGRUND DER ERFINDUNG
-
1. Gebiet der Erfindung
-
Die Erfindung betrifft eine maschinelle Lernvorrichtung, eine Blechpaketherstellungsvorrichtung, ein Blechpaketherstellungssystem und ein maschinelles Lernverfahren zum Erlernen des Stapelns von Paketblechen.
-
2. Stand der Technik
-
Herkömmlicherweise wird ein Blechpaket (laminierter Kern; Eisenkern/Transformatorkern für insbesondere Elektromotoren) hergestellt durch aufeinanderfolgendes Stapeln einer Vielzahl von Paketlagen (Paketblechen), z. B. unter Verwendung einer Blechpaketherstellungsvorrichtung, wie einem Roboter. Paketbleche werden mit dem Roboter gestapelt, z. B. durch Ergreifen der Paketbleche mit der (Roboter-)Hand mittels einer Lern-Bedientafel und Abspeicherung des Bewegungsweges oder dergleichen in einer Robotersteuereinheit oder durch Veranlassung einer Robotersteuereinheit zur Ausführung eines vorgegebenen Programms zum Ergreifen, Bewegen und Stapeln der Paketbleche.
-
Der Stand der Technik kennt unterschiedliche Vorschläge für Blechpaketherstellungsvorrichtungen und -verfahren zur präzisen Herstellung von Blechpaketen (z. B.
japanische Patentveröffentlichungen 2015-061353 und
2010-166664 ).
-
Wie oben beschrieben, wird ein Blechpaket hergestellt durch z. B. Ergreifen von Paketblechen mit dem Handbereich (des Roboters) unter Verwendung einer Lern-Hängebedienungstafel und Abspeicherung des Bewegungsweges oder dergleichen in einer Robotersteuereinheit oder durch eine Robotersteuereinheit zur Ausführung eines vorgegebenen Programmes. Da ein so hergestelltes Blechpaket bestimmte Abweichungen (Stapelfehler) aufweist, wird beispielsweise eine Aufspannvorrichtung eingesetzt für die Herstellung von Blechpaketen mit höherer Genauigkeit.
-
Allerdings erfordert dies eine Mehrzahl von Form-Aufspannvorrichtungen, da für jeden Typ des herzustellenden Blechpaketes eine andere Aufspannvorrichtung eingesetzt wird und der Einsatz der gleichen Form-Aufspannvorrichtung über einen längeren Zeitraum ergibt feinste Änderungen in den Abmessungen und in der Form und dies wiederum beeinflusst die Form der hergestellten Blechpakete.
-
Es ist ein Ziel der vorliegenden Erfindung eine maschinelle Lernvorrichtung, eine Blechpaketherstellungsvorrichtung, ein Blechpaketherstellungssystem und ein maschinelles Lernverfahren für die wiederholte Herstellung von Blechpaketen hoher Qualität unter Berücksichtigung der oben erwähnten Probleme des Standes der Technik bereitzustellen.
-
KURZBESCHREIBUNG DER ERFINDUNG
-
Gemäß einer ersten Ausführung der Erfindung wird eine maschinelle Lernvorrichtung bereitgestellt, welche den Betrieb einer Blechpaketherstellungsvorrichtung erlernt zum Stapeln einer Vielzahl von Paketblechen zur Herstellung eines Blechpaketes, wobei die maschinelle Lernvorrichtung eine Zustandsüberwachungseinheit enthält zum Überwachen von Zuständen der Paketbleche und der Blechpaketherstellungsvorrichtung; und eine Lerneinheit, welche eine Stellgröße zum Stapeln der Paketbleche auf Basis der mit der Zustandsüberwachungseinheit überwachten Zustandsvariablen aktualisiert. Die Zustandsüberwachungseinheit überwacht vorzugsweise eine Zustandsvariable (Zustandsgröße), welche zumindest eine der folgenden Größen repräsentiert: Formdaten der Paketbleche, Betriebsdaten der Blechpaketherstellungsvorrichtung und Zeitdaten bezüglich des Stapelns der Paketbleche durch die Blechpaketherstellungsvorrichtung, und wobei die Lerneinheit vorzugsweise eingerichtet ist zum Aktualisieren der Stellgröße zum Stapeln der Paketbleche auf Basis der Zustandsvariablen, welche zumindest eine der folgenden Größen repräsentiert: Formdaten der Paketbleche, Betriebsdaten bezüglich der Blechpaketherstellungsvorrichtung und Zeitdaten bezüglich des Stapelns der Paketbleche, wie durch die Zustandsüberwachungseinheit überwacht.
-
Die Blechpaketherstellungsvorrichtung kann einen Roboter aufweisen einschließlich eines Robotersichtsystems an einer Hand an einer Stelle mit einem weiten Überblick über einen Arbeitsbereich, und die Zustandsüberwachungseinheit kann die Formdaten bezüglich der Paketbleche von dem Robotersichtsystem erhalten. Die Blechpaketherstellungsvorrichtung kann weiterhin eine Robotersteuereinheit enthalten, welche einen Befehl abgibt bezüglich Verschiebung und/oder Winkel der Hand zur Steuerung des Roboterbetriebs, und die Zustandsüberwachungseinheit kann von der Robotersteuereinheit die Betriebsdaten der Blechpaketherstellungsvorrichtung und die Zeitdaten bezüglich der Stapelung der Paketbleche erhalten.
-
Die Zustandsüberwachungseinheit kann einen Geschwindigkeits-Stellfaktor und einen Positions-Stellfaktor für die Hand und Zeitdaten bezüglich der Stapelung der Paketbleche von der Robotersteuereinheit erhalten. Die maschinelle Lernvorrichtung kann weiterhin eine Entscheidungseinheit aufweisen, welche einen Betrieb der Blechpaketherstellungsvorrichtung unter Bezugnahme auf die Stellgröße bestimmt, wie durch die Lerneinheit erlernt.
-
Die Lerneinheit kann eine Nutzenberechnungseinheit aufweisen, welche einen Nutzen berechnet auf Basis des Ausgangs der Zustandsüberwachungseinheit; und eine Wertefunktionsaktualisierungseinheit, welche eine Wertfunktion zum Bestimmen eines Wertes bezüglich des Betriebs zum Stapeln der Paketbleche zur Herstellung des Blechpaketes festlegt entsprechend dem Nutzen, wie durch die Zustandsüberwachungseinheit und die Nutzenberechnungseinheit ausgegeben.
-
Die Lerneinheit kann eine Fehlerberechnungseinheit aufweisen, welche auf Basis des Ausgangs der Zustandsüberwachungseinheit und eingegebener Lerndaten einen Fehler berechnet; und eine Fehlermodellaktualisierungseinheit, welche ein Fehlermodell aktualisiert zur Bestimmung eines Fehlers bezüglich des Betriebs beim Stapeln der Paketbleche zur Herstellung des Blechpaketes auf Basis von Ausgängen der Zustandsüberwachungseinheit und der Fehlerberechnungseinheit. Die maschinelle Lernvorrichtung hat vorzugsweise ein neuronales Netzwerk.
-
Gemäß einer zweiten Variante der Erfindung wird eine Blechpaketherstellungsvorrichtung bereitgestellt, welche Paketbleche mit einer vorgegebenen Form einzeln oder in Gruppen von zumindest zwei Paketblechen stapelt zur Herstellung eines Blechpaketes, wobei die Blechpaketherstellungsvorrichtung das Blechpaket herstellt durch Detektion von Abmessungen der Paketbleche unter Verwendung eines Robotersichtsystems, das an der Hand angebracht ist, welche die Paketbleche ergreift. Die Blechpaketherstellungsvorrichtung kann weiterhin eine maschinelle Lernvorrichtung aufweisen.
-
Gemäß einer dritten Variante der Erfindung wird ein Blechpaketherstellungssystem bereitgestellt mit einer Mehrzahl von Blechpaketherstellungsvorrichtungen, welche Paketbleche mit einer vorgegebenen Form einzeln oder in Gruppen von zumindest zweien zur Herstellung eines Blechpaketes stapeln, wobei eine Blechpaketherstellungsvorrichtung das Blechpaket herstellt unter Detektion von Abmessungen der Paketbleche mit Einsatz eines Robotersichtsystems, welches an einer Hand angebracht ist, die die Paketbleche ergreift. Die Blechpaketherstellungsvorrichtung kann weiterhin eine maschinelle Lernvorrichtung aufweisen, wobei eine maschinelle Lernvorrichtung in jeder der Blechpaketherstellungsvorrichtungen vorgesehen ist und die mehreren maschinellen Lernvorrichtungen in den jeweiligen Blechpaketherstellungsvorrichtungen eingerichtet sind, über Kommunikationsmittel Daten gemeinsam zu halten und/oder miteinander auszutauschen. Die maschinelle Lernvorrichtung kann in einem Cloudserver lokalisiert sein.
-
Gemäß einer vierten Variante der Erfindung wird ein maschinelles Lernverfahren bereitgestellt zum Erlernen des Betriebs einer Blechpaketherstellungsvorrichtung zum Stapeln einer Mehrzahl von Paketblechen zur Herstellung eines Blechpaketes, wobei das Verfahren beinhaltet: Beobachten von Zuständen der Paketbleche und der Blechpaketherstellungsvorrichtung und Aktualisieren einer Stellgröße zum Stapeln der Paketbleche auf Basis einer durch die Beobachtung gewonnenen Zustandsvariablen. Die Beobachtung (Überwachung) der Zustände der Paketbleche und der Blechpaketherstellungsvorrichtung kann die Beobachtung einer Zustandsvariablen beinhalten, welche Formdaten der Paketbleche und/oder Betriebsdaten der Blechpaketherstellungsvorrichtung und/oder Zeitdaten bezüglich des Stapelns der Paketbleche durch die Blechpaketherstellungsvorrichtung enthält sowie die Aktualisierung der Stellgröße zum Stapeln der Paketbleche auf Basis der überwachten Zustandsvariablen, welche zumindest eine der nachfolgenden Größen repräsentiert: Formdaten der Paketbleche, Betriebsdaten der Blechpaketherstellungsvorrichtung und Zeitdaten bezüglich des Stapelns der Paketbleche.
-
KURZBESCHREIBUNG DER FIGUREN
-
Die Erfindung wird noch deutlicher aus der nachfolgenden Beschreibung in Verbindung mit den Figuren:
-
1 ist ein schematisches Blockdiagramm zur Erläuterung eines Ausführungsbeispiels einer Blechpaketherstellungsvorrichtung gemäß der Erfindung;
-
2 zeigt exemplarisch eine Paketblechform, gewonnen durch ein Robotersichtsystem in der Blechpaketherstellungsvorrichtung entsprechend 1;
-
3 zeigt schematisch ein Neuronenmodell;
-
4 zeigt schematisch ein drei-schichtiges neuronales Netzwerk, gebildet durch Kombination von Neuronen entsprechend 3;
-
5 ist ein Flussdiagramm zur beispielhaften Erläuterung einer maschinellen Lernvorrichtung in der Blechpaketherstellungsvorrichtung entsprechend 1;
-
6 ist ein schematisches Blockdiagramm eines anderen Ausführungsbeispiels einer Blechpaketherstellungsvorrichtung gemäß der Erfindung;
-
7 zeigt schematisch ein Blockdiagramm eines Ausführungsbeispiels einer Blechpaketherstellungsvorrichtung;
-
8 erläutert mit einem Beispiel die Herstellung eines Blechpaketes mittels der in 7 gezeigten Blechpaketherstellungsvorrichtung; und
-
9 zeigt ein weiteres Beispiel der Herstellung eines Blechpaketes durch eine Blechpaketherstellungsvorrichtung entsprechend 7.
-
BESCHREIBUNG VON EINZELHEITEN
-
Vor der Beschreibung von Einzelheiten von Beispielen für eine maschinelle Lernvorrichtung, eine Blechpaketherstellungsvorrichtung, ein Blechpaketherstellungssystem und ein maschinelles Lernverfahren gemäß der Erfindung sollen ein Beispiel für eine Blechpaketherstellungsvorrichtung und die damit verbundenen Probleme mit Bezug auf die 7 bis 9 erläutert werden. 7 ist ein Blockdiagramm zur schematischen Erläuterung eines Beispiels einer Blechpaketherstellungsvorrichtung und 8 zeigt beispielhaft die Herstellung eines Blechpaketes mittels der Blechpaketherstellungsvorrichtung nach 7. In 7 bedeutet das Bezugszeichen 100 eine Blechpaketherstellungsvorrichtung; 101 einen Roboter (Arbeitsroboter); 111 eine Hand des Roboters 101; 112 eine Robotersteuereinheit zur Steuerung des Roboters 101; und 103 ein Blechpaket.
-
Gemäß 7 wird bei diesem Ausführungsbeispiel ein Blechpaket 103 beispielsweise hergestellt durch Stapeln einer Vielzahl von Paketblechen 131-1, 131.2, ..., 131-k, siehe auch 8, unter Verwendung der Hand 111 des Roboters 101, gesteuert durch den Ausgang der Robotersteuereinheit 112. Der Roboter 101 wird beispielsweise verwirklicht durch einen mehrgelenkigen Roboter mit sechs Achsen und die jeweiligen Antriebswellen des Roboters 101 und die Hand 111 werden durch die Robotersteuereinheit 112 gesteuert.
-
Der Roboter 101 greift und stapelt beispielsweise die Paketbleche 131 (131-1, 131-2, ..., 131-k) an vorgegebenen Abschnitten zur Herstellung des Blechpaketes 103. Paketbleche 131 werden mittels des Roboters 101 gestapelt; beispielsweise durch Ergreifen der Paketbleche 131 mit der Hand 111 unter Verwendung einer Lern-Bedienungstafel (nicht dargestellt) und Speicherung des Bewegungsweges oder dergleichen in der Robotersteuereinheit 112 oder durch Veranlassen der Robotersteuereinheit 112 zur Ausführung eines vorgegebenen Programmes zum Ergreifen, Bewegen und Stapeln der Paketbleche 131.
-
Da bei dem obigen Verfahren zum Herstellen eines Blechpaketes 103 aber die Positionen der Vielzahl von Paketblechen 131-1, 131-2, ..., 131-k, welche zu stapeln sind, schwanken, hat das hergestellte Blechpaket 103 Fehlerbereiche, z. B. X + ΔX und Y + ΔY, wie 8 zeigt.
-
9 zeigt ein anderes Beispiel für die Herstellung eines Blechpaketes mit der Blechpaketherstellungsvorrichtung gemäß 7 unter Verwendung eines Montagegestells 130. Bei Herstellung des Blechpaketes mit diesem Verfahren sind nach Stapelung der Paketbleche 131-1, 131-2, ..., 131-k in dem Montagegestell 130 die Positionsabweichungen im gestapelten Zustand relativ klein, wie 9 zeigt. Allerdings muss hierfür eine Vielzahl von Montagegestellen 130 bereitgestellt werden, weil unterschiedliche Montagegestelle 130 für verschiedene Typen von Blechpaketen 103 erforderlich sind. Der Einsatz desselben Montagegestells 102 für die Herstellung über einen längeren Zeitraum verursacht feinste Änderungen in den Abmessungen und der Form und dies wiederum beeinflusst die Gestalt des hergestellten Blechpaketes 103.
-
Werden also Blechpakete 103 mit der Blechpaketherstellungsvorrichtung 100 entsprechend 7 hergestellt, ist es schwierig, qualitativ hochwertige Blechpakete 103 ohne ein Montagegestell zu erzeugen. Auch unter Verwendung eines Montagegestells 130 können schwerlich über einen längeren Zeitraum Blechpakete 103 gleicher Qualität hergestellt werden, abgesehen von den Nachteilen hinsichtlich der Bereitstellung eines besonderen Montagegestells 130 für jeden Typ von Blechpaket 103.
-
Ausführungsbeispiele einer maschinellen Lernvorrichtung, einer Blechpaketherstellungsvorrichtung, eines Blechpaketherstellungssystems und eines maschinellen Lernverfahrens gemäß der Erfindung werden nunmehr mit Einzelheiten unter Bezugnahme auf die begleitenden Figuren näher beschrieben. In den Figuren tragen einander entsprechende oder funktionsähnliche Komponenten die gleichen Bezugszeichen. Zur Erleichterung des Verständnisses sind in den Figuren unterschiedliche Maßstäbe verwendet.
-
1 zeigt mit einem Blockdiagramm schematisch ein Ausführungsbeispiel einer Blechpaketherstellungsvorrichtung gemäß der Erfindung und 2 ist eine Ansicht eines Beispiels für die Form eines Paketbleches, die mit einem Robotersichtsystem in der Blechpaketherstellungsvorrichtung entsprechend 1 abbildbar ist. Eine Blechpaketherstellungsvorrichtung 10 gemäß diesem Ausführungsbeispiel hat einen Roboter 1 mit einer Hand 11, eine maschinelle Lernvorrichtung 2, eine Robotersteuereinheit 12 und ein Robotersichtsystem 13, vgl. 1. Der Roboter 1 ist beispielsweise 3 ein mehrgelenkiger Roboter mit sechs Achsen und die jeweiligen Antriebswellen des Roboters 1 und der Hand 11 werden durch die Robotersteuereinheit 12 gesteuert.
-
Der Roboter 1 ergreift und stapelt Paketbleche 31, entweder eines nach dem anderen oder in Gruppen von zumindest zweien, zur Herstellung eines Blechpaketes 3. 1 zeigt die Hand 11 mit zwei Fingern zum Ergreifen der Paketbleche 31, jedoch kann mit der Hand 11 auch z. B. eine Saugvorrichtung eingesetzt werden, welche die Paketbleche 31 durch Ansaugen mittels Unterdruck abzieht. Die Hand 11 hat ein Robotersichtsystem 13, welches die Form der Paketbleche 31 erkennt, d. h. es detektiert die X- und Y-Abmessungen der Paketbleche 31 und dergleichen, wie 2 zeigt.
-
Der Anbringungsbereich des Robotersichtsystems 13 ist in 1 beispielhaft an der Hand 11, jedoch liegt insoweit keine Einschränkung vor als das Sichtsystem einen breiten Überblick über den Arbeitsraum gibt. Die Anzahl der Robotersichtsysteme 13 ist nicht auf ein einziges beschränkt und es kann ein Robotersichtsystem 13 an mehrere Orte verbringbar sein oder es können mehrere Robotersichtsysteme 13 angebracht werden.
-
Die Robotersteuereinheit 12 gibt einen Befehl bezüglich einer Verschiebung oder eines Winkels der Hand 11 zur Steuerung des Roboters 1. Die Zustandsüberwachungseinheit 21 empfängt zumindest eine der folgenden Größen: Formdaten bezüglich der Paketbleche 31 vom Robotersichtsystem 13, Betriebsdaten der Blechpaketherstellungsvorrichtung 10 (Roboter 1) und Zeitdaten bezüglich der Stapelung der Paketbleche 31 von der Robotersteuereinheit 12. Mit anderen Worten: die Zustandsüberwachungseinheit 21 gewinnt entsprechend Ausgaben aus der Robotersteuereinheit 12 den Geschwindigkeits-Stellfaktor und den Positions-Stellfaktor der Hand 11 sowie Daten bezüglich der Zeitfolge der Stapelung der Paketbleche 31.
-
Die maschinelle Lernvorrichtung 2 wird eingesetzt zum Erlernen des Betriebs der Blechpaketherstellungsvorrichtung 10 und enthält eine Zustandsüberwachungseinheit 21, welche die Zustände der Paketbleche 31 und der Blechpaketherstellungsvorrichtung 10 überwacht, eine Lerneinheit 22, welche eine Stellgröße zum Stapeln der Paketbleche 31 auf Basis der Zustandsvariablen, wie mit der Zustandsüberwachungseinheit 21 ermittelt, aktualisiert, und eine Entscheidungseinheit 25, welche den Betrieb der Blechpaketherstellungsvorrichtung 10 bestimmt unter Rückgriff auf die mit der Lerneinheit 22 erlernte Stellgröße.
-
Die Lerneinheit 22 aktualisiert die Stellgröße für das Stapeln der Paketbleche 31 auf Basis der Zustandsvariablen (Zustandsgröße), welche zumindest eine der folgenden Größen repräsentiert: Formdaten bezüglich der Paketbleche 31, Betriebsdaten bezüglich der Blechpaketherstellungsvorrichtung 10 und Zeitdaten bezüglich des Stapelns der Paketbleche 31, wie mit der Zustandsüberwachungseinheit 21 ermittelt. Mit anderen Worten: die Lerneinheit 22 hat eine Nutzenberechnungseinheit 23, welche auf Basis des Ausganges der Zustandsüberwachungseinheit 21 einen Nutzen berechnet, und eine Wertfunktionsaktualisierungseinheit 24, welche eine Wertfunktion aktualisiert zum Bestimmen eines Betriebswertes zum Stapeln der Paketbleche 31 zur Herstellung des Blechpaketes 3 entsprechend dem Nutzen auf Basis der Ausgänge der Zustandsüberwachungseinheit 21 und der Nutzenberechnungseinheit 23. Die Entscheidungseinheit 25 bestimmt den Betrieb der Paketblechherstellungsvorrichtung 10 (Roboter 1) unter Rückgriff auf die mit der Lerneinheit 22 erlernte Stellgröße und gibt diese an die Robotersteuereinheit 12. Somit steuert die Robotersteuereinheit 12 die Hand 11 (Roboter 1) auf Basis des Geschwindigkeits-Stellfaktors (aktualisierter Wert) und des Positions-Stellfaktors (aktualisierter Wert) entsprechend der aktualisierten Wertefunktion zum Stapeln der Paketbleche 31 zur Herstellung eines Blechpaketes 3.
-
Nachfolgend wird eine maschinelle Lernvorrichtung näher beschrieben. Die maschinelle Lernvorrichtung hat eine Funktion zum Extrahieren von beispielsweise einer nützlichen Regel, einer Wissensrepräsentation und eines Bestimmungskriteriums auf Basis der Analyse von in die Vorrichtung eingegebenen Datensätzen, und zum Ausgeben der Bestimmungsergebnisse und des erlernten Wissens (maschinelles Lernen). Es gibt eine Reihe von maschinellen Lerntechniken, welche grob unterteilt werden in z. B. ”überwachtes Lernen”, ”nicht überwachtes Lernen” und ”verstärktes Lernen”. Bei der Implementierung dieser Techniken wird eine weitere Technik eingesetzt, die als ”Tiefenlernen” (”deep learning”) bezeichnet wird, bei welcher die Extraktion von Merkmalsgrößen erlernt wird.
-
Die in 1 dargestellte maschinelle Lernvorrichtung 2 verwendet das sogenannte ”Verstärkungslernen” und eine maschinelle Lernvorrichtung 4 (die im Zusammenhang mit 6 näher beschrieben wird) verwendet das sogenannte ”überwachte Lernen”. Diese Arten von maschinellem Lernen (der maschinellen Lernvorrichtungen 2 bzw. 4) können einen Mehrzweckrechner oder -prozessor verwenden, jedoch ermöglicht der Einsatz sogenannter GPGPU (Mehrzweckrechner mit graphischen Prozessoreinheiten) oder der Einsatz von PC-Kombinationen (”cluster”) eine höhere Rechengeschwindigkeit.
-
Beim überwachten Lernen wird zunächst eine große Anzahl von Lerndatensätzen, d. h. Daten mit bestimmten Eingaben und Ergebnissen (sogenannte ”labels”), in die maschinelle Lernvorrichtung 2 eingegeben, welche anhand dieser Datensätze beobachtete Merkmale erlernt und induktiv ein Modell ableitet (sogenanntes Fehlermodell) zur Abschätzung von Ergebnissen aus Eingaben (d. h. Beziehungen).
-
Überwachtes Lernen kann mit Algorithmen implementiert werden, wie mit einem neuronalen Netzwerk (weiter unten näher beschrieben).
-
Beim nicht überwachten Lernen werden nur Eingangsdaten in großen Mengen in eine Lernvorrichtung eingegeben, welche die Verteilung der Eingangsdaten erlernt für beispielsweise eine Kompression, Klassifizierung und Formung der Eingangsdaten, ohne entsprechende Lernausgangsdaten. Dies ermöglicht beispielsweise eine Gruppenbildung entsprechend in diesen Datensätzen gesehenen ähnlichen Merkmalsgruppen. Die so gewonnenen Ergebnisse können verwendet werden zur Definition bestimmter Kriterien und zur Zuordnung von entsprechend diesen Kriterien optimierten Ausgaben zur Vorhersage.
-
Zur Verfügung steht auch das sogenannte intermediäre Lernen als Mittelding zwischen nicht überwachtem Lernen und überwachtem Lernen, auch als halbüberwachtes Lernen bezeichnet, zur Definition bestimmter Kriterien und zur Zuordnung von Ausgängen in optimierter Weise entsprechend den Kriterien; und dies wird beispielsweise dann bevorzugt eingesetzt, wenn nur einige Daten als Eingangsdatensätze und Ausgangsdatensätze zur Verfügung stehen und die verbleibenden Daten nur Eingangsdaten sind. Bei diesem Ausführungsbeispiel kann das Erlernen wirksam durchgeführt werden durch Einsatz von Daten (z. B. Bilddaten oder Simulationsdaten), welche gewonnen werden können ohne tatsächliche Bewegung des Roboters im Wege des nicht überwachten Lernens.
-
Nachfolgend wird das sogenannte Verstärkungslernen näher beschrieben. Die Grundstruktur des Verstärkungslernens ist folgende:
- • der Roboter überwacht den Umgebungszustand zur Bestimmung seiner Aktion;
- • die Umgebung kann sich ändern entsprechend bestimmten Regeln und der Roboter kann die Umgebung durch seine eigene Aktion ändern;
- • bei jeder Aktion wird ein Nutzensignal rückgemeldet;
- • die Summe der Nutzen in der Zukunft wird maximiert;
- • das Lernen beginnt in einem Zustand, in welchem das Ergebnis einer Aktion völlig unbekannt ist oder nur unvollständig bekannt ist. Mit anderen Worten: der Roboter kann das Ergebnis der Aktion nur gewinnen, nachdem die Aktion tatsächlich durchgeführt ist. Dies bedeutet, dass eine optimale Aktion vorzugsweise durch ”Versuch und Irrtum” gesucht wird; und
- • das Lernen kann an einem guten Startpunkt begonnen werden, ausgehend von einem Zustand, in welchem im Voraus ein Lernvorgang durch Imitation menschlichen Verhaltens ausgeführt wird (einer Technik wie dem oben erwähnten überwachten Lernen oder einem sogenannten inversen Verstärkungslernen).
-
Beim Verstärkungslernen wird, zusätzlich zur Bestimmung und Klassifikation, eine Aktion erlernt zur Gewinnung eines Verfahrens zum Erlernen einer passenden Aktion unter Berücksichtigung von Auswirkungen der Aktion auf die Umgebung, d. h. es erfolgt ein Lernen zur Maximierung des Nutzens in der Zukunft. Die nachfolgende Beschreibung bezieht sich beispielhaft auf das sogenannte Q-Lernen, jedoch ist die Erfindung nicht darauf beschränkt.
-
Beim Q-Lernen wird der Wert Q(s, a) einer Auswahl einer Aktion erlernt in einem gegebenen Umgebungszustand s. Mit anderen Worten: eine Aktion a mit dem höchsten Wert Q(s, a) in einem bestimmten Zustand s wird vorzugsweise als optimale Aktion ausgewählt. Zunächst aber ist der korrekte Wert Q(s, a) für ein Paar aus einem Zustand s und einer Aktion a völlig unbekannt. Der Agent (das Subjekt der Aktion) wählt verschiedene Aktionen a in einem gegebenen Zustand s und für die Aktionen a werden Nutzen angegeben. Mit dieser Operation erlernt der Agent die Auswahl einer besseren Aktion, d. h. einen korrekten Wert Q(s, a).
-
Zur Maximierung der Summe der Nutzen, welche im Ergebnis der Aktionen in der Zukunft gewonnen werden, muss schließlich Q(s, a) = E[Σ(γ
t)r
t] erfüllt sein, wobei E[] der erwartete Wert ist, t die Zeit ist, γ ein Parameter ist, welcher als Abschlagsrate (unten näher erläutert) bezeichnet wird, r
t der Nutzen zum Zeitpunkt t ist, und Σ die Summe zum Zeitpunkt t ist. Der erwartete Wert in diesem Ausdruck ergibt sich entsprechend einer Änderung im Zustand, welcher auf eine optimale Aktion folgt, und ist ein unbekannter Wert, welcher durch die Suche erlernt wird. Eine Aktualisierungsgleichung für einen derartigen Wert Q(s, a) ergibt sich beispielsweise wie folgt:
wobei s
t der Umgebungszustand zum Zeitpunkt t ist und a
t die Aktion zum Zeitpunkt t ist. Bei der Aktion a
t ändert sich der Zustand in den Zustand s
t+1. r
t+1 ist der Nutzen, welcher sich bei einer Zustandsänderung ergibt. Der Term, dem ”max” hinzugefügt ist, ist das Produkt aus dem Q-Wert, multipliziert mit γ, wenn eine Aktion ausgewählt wird mit dem höchsten Q-Wert im Zustand s
t +1. γ ist ein Parameter, der als Abschlagsrate bezeichnet wird und die Ungleichung 0 < γ ≤ 1 erfüllt. α ist ein Lernfaktor, welcher die Ungleichung 0 < α ≤ 1 erfüllt.
-
Der obige Ausdruck (1) repräsentiert ein Verfahren zum Aktualisieren des Evaluationswertes Q(st, at) der Aktion at im Zustand st auf Basis des Nutzens rt+1, der sich im Ergebnis des Versuches at ergibt. Insbesondere gilt: ist die Summe des Nutzens rt+1 und der Evaluationswert Q(st+1, max at+1) der besten Aktion max a im Zustand im Anschluss an den Zustand s bei der Aktion a größer als der Evaluationswert Q(st, at), dann wird Q(st, at) angehoben, während andernfalls Q(st, at) abgesenkt wird. Mit anderen Worten: der Wert einer bestimmten Aktion in einem bestimmten Zustand wird angenähert an den Nutzen im unmittelbaren Anschluss an ein Ergebnis und den Wert der besten Aktion im anschließenden Zustand bei der genannten Aktion.
-
Zur Darstellung von Q(s, a) mit einem Rechner ist z. B. ein Verfahren bekannt zum Halten der numerischen Werte aller Zustand/Aktion-Paare (s, a) in Tabellenform und auch ein Verfahren mit Bereitstellung einer Funktion, welche den Wert Q(s, a) annähert. Beim letztgenannten Verfahren kann der oben genannte Ausdruck (1) implementiert werden durch Einstellung des Parameters einer Approximationsfunktion unter Einsatz einer bekannten Technik, wie dem stochastischen Verfahren des steilsten Abstiegs. Ein neuronales Netzwerk (weiter unten näher beschrieben) kann für die Approximationsfunktion eingesetzt werden.
-
Neuronale Netzwerke können auch als Fehlermodelle für das überwachte Lernen und das nicht überwachte Lernen eingesetzt werden oder für Approximationsalgorithmen für Wertefunktionen beim verstärkten Lernen. 3 ist eine schematische Darstellung eines Modells für ein Neuron und 4 ist eine schematische Darstellung eines drei-schichtigen neuronalen Netzwerkes, gebildet durch Kombination von Neuronen gemäß 3. Insbesondere wird das neuronale Netzwerk beispielsweise implementiert durch eine Rechenvorrichtung, welche ein Modell eines Neurons imitiert entsprechend 3, sowie einen Speicher.
-
Entsprechend
3 geben die Neuronen einen Ausgang (Ergebnis) y für eine Mehrzahl von Eingängen x aus (
3 zeigt Eingänge x1 bis x3 als Beispiel). Jeder Eingang X (x1, x2, x3) wird mit einer Wichtung w (w1, w2, w3) multipliziert entsprechend dem Eingang x. Mit dieser Operation ergeben sich die neuronalen Ausgangsergebnisse durch:
wobei θ das Bias und f
k die Aktivierungsfunktion sind. Der Eingang x, das Ergebnis y und die Wichtungen w sind Vektoren.
-
Das durch Kombination von Neuronen gemäß 3 gebildete drei-schichtige neuronale Netzwerk wird nunmehr mit Blick auf 4 näher beschrieben. Eine Mehrzahl von Eingängen x (Eingänge x1 bis x3 werden hier als Beispiel genommen) werden von links in das neuronale Netzwerk eingegeben und Ergebnisse y (hier beispielhaft die Ergebnisse y1 bis y3) werden rechts aus dem neuronalen Netzwerk gemäß 4 ausgegeben. Die Eingänge x1, x2 und x3 werden mit Wichtungen (Wichtungsfaktoren) entsprechend jedem von drei Neuronen N11 bis N13 multipliziert und sodann in weitere Neuronen eingegeben. Die Wichtungen, die für die Multiplikation der Eingänge eingesetzt werden, werden hier kollektiv mit W1 bezeichnet.
-
Die Neuronen N11 bis N13 geben z11 bis z13 aus. Entsprechend 4 sind z11 bis z13 kollektiv als Merkmalsvektor Z1 bezeichnet und sie können gewonnen werden durch Extraktion der Merkmalsgrößen der Eingangsvektoren. Die Merkmalsvektoren Z1 sind definiert zwischen den Wichtungen W1 und W2. z11 bis z13 werden mit Wichtungen multipliziert entsprechend dem jeweiligen Neuron der beiden Neuronen N21 bzw. N22 und dies wird dann in die weiteren Neuronen eingegeben. Die bei der Multiplikation dieser Merkmalsvektoren eingesetzten Wichtungen sind hier kollektiv mit W2 bezeichnet.
-
Die Neuronen N21 und N22 geben z21 bzw. z22 aus. Entsprechend 4 sind z21 und z22 kollektiv als Merkmalsvektor Z2 bezeichnet. Die Merkmalsvektoren Z2 sind definiert zwischen den Wichtungen W2 und W3. z21 und z22 werden mit einer Wichtung multipliziert entsprechend jedem der drei Neuronen N31 bis N33 und das Ergebnis wird in die weiteren Neuronen eingegeben. Die für die Multiplikation dieser Merkmalsvektoren eingesetzten Wichtungen werden hier kollektiv mit W3 bezeichnet.
-
Schließlich geben die Neuronen N31 bis N33 Ergebnisse y1 bis y3 aus. Der Betrieb des neuronalen Netzwerkes enthält einen Lernmodus und einen Wertvorhersagemodus. Beispielsweise wird die Wichtung W erlernt unter Verwendung eines Lerndatensatzes im Lernmodus und eine Roboteraktion wird im Vorhersagemodus unter Verwendung des entsprechenden Parameters bestimmt. Vorstehend wurde die ”Vorhersage” der Einfachheit halber als Beispiel genommen, jedoch können verschiedene Aufgaben, wie eine Detektion, Klassifikation und eine Schlussfolgerung erreicht werden.
-
Bei einem tatsächlichen Betrieb des Roboters im Vorhersagemodus gewonnene Daten können unmittelbar dem Lernen zugrunde gelegt werden und in der nachfolgenden Aktion (sogenanntes ”Online”-Lernen) verwendet werden, oder es kann eine Gruppe von im Voraus gesammelten Daten eingesetzt werden für die Ausführung eines kollektiven Lernens und anschließend kann der Detektionsmodus ausgeführt werden unter Verwendung der gleichen Parameter (sogenanntes ”Batch”-Lernen). Ein weiterer, intermediärer Ansatz kann vorsehen, den Lernmodus jedes Mal dann einzuschieben, wenn eine bestimmte Datenmenge akkumuliert ist.
-
Die Wichtungen W1 bis W3 können durch das Verfahren der sogenannten Backpropagation (Rückwärtspropagierung) erlernt werden. Information bezüglich der Fehler geht rechts in das System und wandert nach links. Die Fehler-Backpropagation wird eingesetzt zum Einstellen (Lernen) der jeweiligen Wichtung zur Reduzierung der Differenz zwischen dem wahren Ausgang y (sogenannter ”Lerner”) und dem Ausgang y bei Eingabe von x.
-
Ein solches neuronales Netzwerk kann mehr als drei Schichten aufweisen (sogenanntes Tiefenlernen). Es ist möglich, nur aus Lerner-Daten automatisch eine Recheneinrichtung abzuleiten, welche schrittweise aus der Eingabe Merkmale extrahiert und ein Ergebnis liefert. Insoweit hat die maschinelle Lernvorrichtung 2 gemäß diesem Ausführungsbeispiel eine Zustandsüberwachungseinheit 21, eine Lerneinheit 22, und eine Entscheidungseinheit 25 zur Ausführung des oben erläuterten Q-Lernens, vgl. 1. Das für die vorliegende Erfindung einsetzbare maschinelle Lernverfahren ist aber nicht auf das Q-Lernen eingeschränkt. Mit anderen Worten: verschiedene Techniken, wie das ”überwachte Lernen”, das ”nicht überwachte Lernen”, das ”halbüberwachte Lernen”, und das ”Verstärkungslernen” sind hier einsetzbar.
-
Ein beispielhafter Ablauf in der maschinellen Lernvorrichtung 2 der Blechpaketherstellungsvorrichtung gemäß diesem Ausführungsbeispiel wird nunmehr näher beschrieben. 5 zeigt mit einem Flussdiagramm den Betrieb einer maschinellen Lernvorrichtung in der Blechpaketherstellungsvorrichtung gemäß 1. Entsprechend 5 werden bei Start des maschinellen Lernens Paketbleche 31 auf Basis der Aktionswerttabelle gestapelt (Schritt ST1). Mit anderen Worten: die Robotersteuereinheit 12 gibt einen Befehl aus bezüglich z. B. der Verschiebung oder des Winkels (Stellgröße) der Hand 11 entsprechend dem Geschwindigkeits-Stellfaktor und dem Positions-Stellfaktor in Übereinstimmung mit der Aktionswerttabelle (Wertefunktion), um so den Roboter 1 zu veranlassen, die Stapelung der Paketbleche 31 durchzuführen.
-
Die Zustandsüberwachungseinheit 21 gewinnt beispielsweise aus der Robotersteuereinheit 12 Einzelheiten bezüglich der Informationen betreffend den Geschwindigkeits-Stellfaktor, den Positions-Stellfaktor und die Stapelzeit sowie Dimensionsmesswerte auf Basis von Ausgängen des Robotersichtsystems 13 (Schritt ST2). Die Zustandsüberwachungseinheit 21 prüft sodann, ob die Dimensionen der Paketbleche 31 in einem Toleranzbereich liegen (Schritt ST3) und ob die Stapelzeit kürzer ist als im vorangegangenen Versuch (Schritt ST4). Mit anderen Worten: wird in Schritt ST3 festgestellt, dass die Dimensionen der Paketbleche 31 außerhalb des Toleranzbereiches liegen (NEIN in Schritt ST3), geht das Verfahren zu Schritt ST7, in welchem ein negativer Nutzen angesetzt wird; andernfalls (JA in Schritt ST3) geht das Verfahren zum obigen Schritt ST4, in welchem geprüft wird, ob die Stapelzeit für die Paketbleche 31 kürzer ist als im vorangegangenen Versuch.
-
Mit anderen Worten: wird in Schritt ST4 festgestellt, dass die Stapelzeit kürzer ist als im vorangegangenen Versuch (JA in Schritt ST4), geht das Verfahren zu Schritt ST5, in welchem ein positiver Nutzen vergeben wird; während andernfalls (NEIN in Schritt ST4), das Verfahren zu Schritt ST6 geht, in welchem ”kein Nutzen” (null Nutzen) vergeben wird. In Schritt ST8 erfolgt eine Nutzenberechnung auf Basis von ”positiver Nutzen”, ”kein Nutzen” bzw. ”negativer Nutzen” in den Schritten ST5 bis ST7 zur Aktualisierung der Aktionswerttabelle (Schritt ST9) und das Verfahren geht dann zurück zu Schritt ST1, in welchem der gleiche Ablauf wiederholt wird. Auf diese Weise können Blechpakete hoher Qualität über eine lange Zeitspanne kontinuierlich hergestellt werden.
-
Dabei ist die Anzahl der mit der Hand 11 zu stapelnden Paketbleche 31 nicht auf eins beschränkt. Mit anderen Worten: mit einer Operation der Hand 11 können Paketbleche 31 mit einer vorgegebenen Form eines nach dem anderen oder in Gruppen von zumindest zwei Paketblechen zur Herstellung eines Blechpaketes gestapelt werden. Die Hand 11 zum Stapeln der Paketbleche 31 ist nicht auf ein System zum Greifen von einem Paketblech oder mehreren Paketblechen 31 mit zwei Fingern entsprechend 1 beschränkt, wie oben bereits ausgeführt ist.
-
Die Zustandsvariablen, welche durch die Zustandsüberwachungseinheit gewonnen (überwacht) werden, sind nicht auf den Geschwindigkeits-Stellfaktor, den Positions-Stellfaktor, die Stapelzeit und die Dimensionsmesswerte, wie oben beschrieben, beschränkt, sondern können auch verschiedene andere Daten beinhalten. Dimensionsmesswerte bezüglich der Paketbleche 31 können beispielsweise gewonnen werden aus mit dem Robotersichtsystem 13 aufgenommenen Bilddaten, wobei für diesen Zweck auch verschiedene andere bekannte Prozesse eingesetzt werden können. Die Werte bezüglich ”positiver Nutzen”, ”kein Nutzen” und ”negativer Nutzen” entsprechen den Schritten ST5 bis ST7 und können bestimmt werden durch Auswahl passender Werte entsprechend einer Vielzahl von Bedingungen (z. B. des Toleranzwertes, der Form, des Materials und der Präzision der Paketbleche).
-
6 ist ein Blockdiagramm zur schematischen Darstellung eines weiteren Ausführungsbeispiels einer Blechpaketherstellungsvorrichtung gemäß der Erfindung, wobei das sogenannte überwachte Lernen eingesetzt wird. Wie sich aus einem Vergleich der 6 mit der 1 ergibt, verwendet die Blechpaketherstellungsvorrichtung 10' gemäß 6 das überwachte Lernen mittels Lerndaten (ergebnisbehaftete Daten), während die Blechpaketherstellungsvorrichtung 10 gemäß 1 das Q-Lernen (Verstärkungslernen) einsetzt.
-
Die maschinelle Lernvorrichtung 4 in der Blechpaketherstellungsvorrichtung 10', welche das überwachte Lernen einsetzt, hat eine Zustandsüberwachungseinheit 41, eine Lerneinheit 42 und eine Entscheidungseinheit 45, vgl. 6. Die Lerneinheit 42 hat eine Fehlerberechnungseinheit 43 und eine Fehlermodellaktualisierungseinheit 44. Auch bei der Blechpaketherstellungsvorrichtung 10 gemäß diesem Ausführungsbeispiel erlernt die maschinelle Lernvorrichtung 4 eine Stellgröße und gibt diese aus, wie die Verschiebung oder den Winkel der Hand 11 auf Basis des Geschwindigkeits-Stellfaktors und/oder des Positions-Stellfaktors entsprechend der Aktionswerttabelle (Wertefunktion).
-
Mit anderen Worten: in der Blechpaketherstellungsvorrichtung 10' mit Einsatz des überwachten Lernens gemäß 6 entsprechen die Fehlerberechnungseinheit 43 und die Fehlermodellaktualisierungseinheit 44 der Nutzenberechnungseinheit 23 bzw. der Wertfunktionaktualisierungseinheit 24 in der Blechpaketherstellungsvorrichtung 10 gemäß 1, welche das Q-Lernen (Verstärkungslernen) einsetzt. Ansonsten entsprechen die Konfigurationen, wie die des Roboters 1, der Robotersteuereinheit 12 und des Robotersichtsystems 13 denjenigen gemäß 1 und insoweit kann auf eine nochmalige Beschreibung verzichtet werden. Die Entscheidungseinheit 45 entspricht derjenigen gemäß 1 und auch insoweit wird die Beschreibung nicht wiederholt. Auch beim Ausführungsbeispiel gemäß 6 muss das Robotersichtsystem 13 nicht an der Hand 11 angebracht sein, sondern kann an jeglicher Stelle angebracht sein, die einen weiten Überblick über einen Bearbeitungsbereich bietet. Die Anzahl der Robotersichtsysteme 13 ist nicht auf ein einziges beschränkt und ein einziges Robotersichtsystem 13 kann (bewegbar) an mehreren Orten positionierbar sein oder es können mehrere Robotersichtsysteme 13 eingesetzt werden.
-
Die Fehlerberechnungseinheit 43 erhält Lerndaten und Ausgangssignale der Zustandsüberwachungseinheit 41 und berechnet den Fehler (die Abweichung) zwischen den Ergebnisdaten und den Ausgaben des Fehlermodells der Lerneinheit 42. Wenn beispielsweise die Form der Paketbleche 31 (Blechpaket 3) und die Prozesse des Roboters 1 die gleichen sind, können als Lerndaten an einem vorgegebenen Tag diejenigen Ergebnisdaten der Fehlerberechnungseinheit 43 zur Verfügung gestellt werden, welche bis zu dem Tag vor dem bestimmten Tag, an welchem der Roboter 1 die Aufgabe ausführt, gewonnen worden sind.
-
Andererseits können auch über einen Speicher oder eine Verbindung der Fehlerberechnungseinheit 43 Daten zur Verfügung gestellt werden, welche beispielsweise durch eine Simulation außerhalb der Blechpaketherstellungsvorrichtung 10' gewonnen werden oder Ergebnisdaten, welche durch eine andere Blechpaketherstellungsvorrichtung gewonnen worden sind. Die Ergebnisdaten (Lerndaten) können beispielsweise auch in einem nicht-flüchtigen Speicher, wie einem Flash-Speicher in der Lerneinheit 42 gespeichert und dort direkt eingesetzt werden.
-
Die obige Beschreibung kann direkt herangezogen werden für ein Blechpaketherstellungssystem mit einer Mehrzahl von Blechpaketherstellungsvorrichtungen 10 (10'). In diesem Fall wird die maschinelle Lernvorrichtung 2 (4) in jeder der Blechpaketherstellungsvorrichtungen 10 (10') angeordnet und die mehreren maschinellen Lernvorrichtungen 2 (4) können über ein Kommunikationsmedium Daten austauschen oder miteinander teilen. Auch können die maschinellen Lernvorrichtungen 2 (4) (genauer: die Funktionen der maschinellen Lernvorrichtungen) in einem Cloud-Server vorgesehen sein.
-
Eine maschinelle Lernvorrichtung, eine Blechpaketherstellungsvorrichtung, ein Blechpaketherstellungssystem und ein maschinelles Lernverfahren gemäß der Erfindung ermöglichen jeweils einen fortlaufenden Herstellungsprozess für qualitativ hochwertige Blechpakete.
-
Alle obigen Beispiele und alle obigen Bedingungen sollen nur der Anleitung des Lesers zum Verständnis der Erfindung und des Beitrages des Erfinders zum Fortschritt des Standes der Technik dienen und sollen nicht als Einschränkungen auf die speziellen Ausführungsbeispiele und Bedingungen dienen und auch die Anordnung der Beispiele in der Beschreibung soll keine Hervorhebung von einzelnen Merkmalen bedeuten. Zwar wurden einige Ausführungsbeispiele im Einzelnen näher beschrieben, jedoch versteht sich, dass verschiedene Abwandlungen, Austauschungen und Ergänzungen möglich sind, ohne den Bereich der Erfindung zu verlassen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- JP 2015-061353 [0003]
- JP 2010-166664 [0003]