DE102019000749B4

DE102019000749B4 - Steuervorrichtung und maschinelle Lernvorrichtung

Info

Publication number: DE102019000749B4
Application number: DE102019000749.2A
Authority: DE
Inventors: Hideki Otsuki; Hiroshi Abe
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-02-09
Filing date: 2019-02-01
Publication date: 2024-04-18
Anticipated expiration: 2039-02-02
Also published as: US11059180B2; US20190314996A1; CN110125955A; CN110125955B; DE102019000749A1; JP2019136818A; JP6703020B2

Abstract

Steuervorrichtung (1) zum Instruieren einer Anordnung von Komponenten an einer Komponentendarbietungsstelle, wobei die Anordnung durch einen Dienstroboter (2) ausgeführt wird und die Steuervorrichtung (1) aufweist:eine maschinelle Lernvorrichtung (100), welche eine Komponentenanordnung an der Komponentendarbietungsstelle durch den Dienstroboter (2) erlernt, wobeidie maschinelle Lernvorrichtung (100) enthält:eine Zustandsüberwachungseinheit (106), welche Komponentenanordnungsdaten (S1) überwacht, die eine Anordnung der Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten (S2), die Informationen bezüglich der Komponenten repräsentieren, und Statusdaten (S3) bezüglich eines Operators, die Statusinformationen bezüglich eines Operators repräsentieren, der ein Produkt mit den Komponenten zusammenbaut, als Zustandsvariablen (S), welche einen momentanen Zustand eines Umfeldes repräsentieren,eine Bestimmungsdaten-Gewinnungseinheit (108), welche Produktqualität-Bestimmungsdaten (D1) gewinnt zum Bestimmen der Qualität des Produktes, welches auf Basis der Anordnung der Komponenten zusammengebaut wird, und Taktzeit-Bestimmungsdaten (D2) zum Bestimmen der Taktzeit für den Zusammenbau des Produktes als Bestimmungsdaten (D), welche ein Eignungsprüfungsergebnis für einen Zusammenbau des Produktes durch den Operator repräsentieren, undeine Lerneinheit (110), welche einen Lernvorgang ausführt auf Basis der Zustandsvariablen (S) und der Bestimmungsdaten (D) derart, dass Informationen der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen des Operators bezüglich einer Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft werden.

Description

Die Erfindung betrifft eine Steuervorrichtung und eine maschinelle Lernvorrichtung und insbesondere eine Steuervorrichtung und eine maschinelle Lernvorrichtung für einen Dienstroboter (Zulieferroboter).
Ein Dienstroboter fördert Komponenten, die erforderlich sind für den Zusammenbau einer Vorrichtung, beispielsweise aus einem Komponentenlager oder dergleichen, und liefert die Komponenten kollektiv in die Nähe einer Bedienungsperson oder eines Montageroboters, die bzw. der einen Zusammenbau ausführt, wobei die Zulieferung dem Zusammenbau eines Produktes vorangeht und der Zusammenbau vereinfacht wird. Ein Dienstroboter liefert jede Komponente in einer vorgegebenen Anordnung, welche im Voraus einprogrammiert wird.
Die JP 2001 - 047 327 A beschreibt beispielsweise einen Komponenten-Zulieferroboter, welcher Komponenten in vorgegebene Positionen fördert, wobei die Komponenten eingesetzt werden zum Zusammenbau einer Automobilkarosserie. Dies ist Stand der Technik bezüglich eines Dienstroboters.
Ein Produktzusammenbau wird durch eine Bedienungsperson oder einen Montageroboter in einer Fabrik ausgeführt, jedoch erfolgt der Zusammenbau in einer Produktionslinie nicht immer durch eine bestimmte Bedienungsperson oder einen bestimmten Montageroboter. Zu beachten ist, dass eine optimale Komponentenanordnung an einer Komponentendarbietungsstelle sich ändert, wenn eine Bedienungsperson oder ein Montageroboter ausgetauscht werden. Auch dann, wenn eine Bedienungsperson nicht ausgetauscht wird, kann die Leistung einer Bedienungsperson aufgrund von Ermüdungserscheinungen aufgrund längerer Arbeitszeiten variieren (und damit eine Komponentenanordnung, die optimal ist).
Die Druckschriften DE 10 2017 001 290 A1 , DE 10 2017 000 063 A1 , DE 10 2016 011 528 A1 , DE 10 2016 009 030 A1 , EP 2 286 963 A1 , JP H08 - 132 367 A offenbaren weiteren relevanten Stand der Technik.
Aufgabe der vorliegenden Erfindung ist die Bereitstellung einer Steuervorrichtung und einer maschinellen Lernvorrichtung, die in der Lage sind, eine optimale Anordnung von Komponenten an einer Komponentendarbietungsstelle (Komponentenpräsentationsstelle) für einen Produktzusammenbau zu bestimmen.
Eine Lösung dieser Aufgabe besteht in einer Steuervorrichtung mit den Merkmalen des Patentanspruchs 1: Eine Steuervorrichtung zum Instruieren der Anordnung von Komponenten an einer Komponentendarbietungsstelle, wobei die Anordnung durch einen Dienstroboter erfolgt, eine maschinelle Lernvorrichtung aufweisend, welche eine Komponentenanordnung an der Komponentendarbietungsstelle durch den Dienstroboter erlernt. Die maschinelle Lernvorrichtung weist auf: eine Zustandsüberwachungseinheit, welche Komponentenanordnungsdaten überwacht, die die Anordnung von Komponenten an einer Komponentendarbietungsstelle darstellen, sowie Komponentendaten, die Informationen bezüglich der Komponenten darstellen, und Statusdaten bezüglich der Bedienungsperson, welche Statusinformationen der Bedienungsperson darstellen, welche ein Produkt aus den Komponenten zusammenbaut, wobei die vorstehend genannten drei Arten von Daten Zustandsvariablen sind, welche einen momentanen Zustand des Umfeldes darstellen; eine Bestimmungsdaten-Gewinnungseinheit, welche Produktqualität-Bestimmungsdaten gewinnt zum Bestimmen der Qualität des Produktes, welches entsprechend der Anordnung der Komponenten zusammengebaut wird, und Taktzeit-Bestimmungsdaten zum Bestimmen der Taktzeiten für den Zusammenbau des Produktes, wobei die genannten beiden Arten von Daten Bestimmungsdaten sind und ein geeignetes Ergebnis repräsentieren bezüglich des Zusammenbaus des Produktes durch die Bedienungsperson; und eine Lerneinheit, welche einen Lernvorgang ausführt auf Basis der Zustandsvariablen und der Bestimmungsdaten derart, dass Informationen bezüglich der Komponenten für den Zusammenbau des Produktes und Statusinformationen bezüglich der Bedienungsperson mit Bezug auf die Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft werden.
Eine weitere Lösung der Aufgabe besteht in einer Steuervorrichtung mit den Merkmalen des Patentanspruchs 4: Eine Steuervorrichtung zum Instruieren der Anordnung von Komponenten an einer Komponentendarbietungsstelle, welche durch einen Dienstroboter ausgeführt wird, eine maschinelle Lernvorrichtung aufweisend, welche eine Komponentenanordnung an der Komponentendarbietungsstelle durch den Dienstroboter erlernt hat. Die maschinelle Lernvorrichtung enthält: eine Zustandsüberwachungseinheit, welche Komponentenanordnungsdaten überwacht, die die Anordnung der Komponenten an der Komponentendarbietungsstelle darstellen, sowie Komponentendaten, die Informationen bezüglich der Komponenten darstellen, und Statusdaten bezüglich der Bedienungsperson, die Statusinformationen der das Produkt mit den Komponenten zusammenbauenden Bedienungsperson darstellen, wobei die vorstehend genannten Daten Zustandsvariablen sind, welche einen momentanen Zustand des Umfeldes repräsentieren; eine Lerneinheit, die einen Lernvorgang ausgeführt hat, derart, dass Informationen bezüglich der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen bezüglich der Bedienungsperson mit Bezug auf die Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft sind; und eine Entscheidungseinheit, welche eine Anordnung der Komponenten an der Komponentendarbietungsstelle bestimmt auf Basis der Zustandsvariablen gemäß Überwachung durch die Zustandsüberwachungseinheit und eines mit der Lerneinheit gewonnenen Lernergebnisses.
Eine weitere Lösung der Aufgabe besteht in einer maschinellen Lernvorrichtung mit den Merkmalen des Patentanspruchs 6: Eine maschinelle Lernvorrichtung, welche die Anordnung von Komponenten an einer Komponentendarbietungsstelle durch einen Dienstroboter erlernt, folgendes aufweisend: eine Zustandsüberwachungseinheit, welche Komponentenanordnungsdaten überwacht, die eine Anordnung von Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten, welche Informationen bezüglich der Komponenten repräsentieren, und Statusdaten bezüglich der Bedienungsperson, welche Statusinformationen der Bedienungsperson repräsentieren, die ein Produkt mit den Komponenten zusammenbaut, wobei die genannten Arten von Daten Zustandsvariablen sind, welche einen momentanen Zustand des Umfeldes repräsentieren; eine Bestimmungsdaten-Gewinnungseinheit, welche Produktqualität-Bestimmungsdaten gewinnt zum Bestimmen der Qualität des zusammenzubauenden Produktes entsprechend der Anordnung der Komponenten und Taktzeit-Bestimmungsdaten zum Bestimmen der Taktzeiten für den Zusammenbau des Produktes als Bestimmungsdaten, die ein geeignetes Bestimmungsergebnis bezüglich des Zusammenbaus des Produktes durch die Bedienungsperson repräsentieren; und eine Lerneinheit, welche einen Lernvorgang ausführt auf Basis der Zustandsvariablen und der Bestimmungsdaten derart, dass Informationen bezüglich der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen bezüglich der Bedienungsperson verknüpft werden für die Anordnung der Komponenten an der Komponentendarbietungsstelle.
Eine weitere Lösung der Aufgabe besteht in einer maschinellen Lernvorrichtung mit den Merkmalen des Patentanspruchs 7: Eine maschinelle Lernvorrichtung, welche eine Anordnung von Komponenten an einer Komponentendarbietungsstelle durch einen Dienstroboter erlernt hat, folgendes aufweisend: eine Zustandsüberwachungseinheit, welche Komponentenanordnungsdaten überwacht, die eine Anordnung der Komponenten an einer Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten, die Informationen bezüglich der Komponenten repräsentieren, und Statusdaten bezüglich der Bedienungsperson, welche Statusinformationen für die ein Produkt mit den Komponenten zusammenbauende Bedienungsperson repräsentieren, als Zustandsvariablen, welche einen laufenden Zustand des Umfeldes repräsentieren; eine Lerneinheit, welche einen Lernvorgang ausgeführt hat derart, dass Informationen bezüglich der für den Zusammenbau des Produktes eingesetzten Komponenten und Statusinformationen bezüglich der Bedienungsperson verknüpft werden für die Anordnung der Komponenten an der Komponentendarbietungsstelle; und eine Entscheidungseinheit, welche eine Anordnung der Komponenten an der Komponentendarbietungsstelle bestimmt auf Basis der durch die Zustandsüberwachungseinheit überwachten Zustandsvariablen und eines von der Lerneinheit gewonnenen Lernergebnisses.
Mit der Erfindung werden Komponenten für die Montage in einer passenden Anordnung bereitgestellt (dargeboten) entsprechend den Eigenheiten von Bedienungspersonen unter Berücksichtigung einer möglichst kurzen Taktzeit bei der Montage und einer geringen Belastung der Bedienungsperson.
Obige sowie weitere Ziele und Merkmale der Erfindung werden noch deutlicher mit Hilfe der nachfolgend mit Blick auf die Figuren beschriebenen Ausführungsbeispiele.

1 zeigt eine Hardware-Konfiguration zur schematischen Erläuterung einer Steuervorrichtung gemäß einem ersten Ausführungsbeispiel;
2 zeigt schematisch mit einem funktionalen Blockdiagramm die Steuervorrichtung gemäß dem ersten Ausführungsbeispiel;
3 zeigt ein Beispiel für Komponentenanordungsdaten S1;
4 ist ein funktionales Blockdiagramm zur schematischen Erläuterung einer Variante der Steuervorrichtung;
5 erläutert mit einem Flussdiagramm eine Variante des Verfahrens des maschinellen Lernens;
6A zeigt ein Neuron;
6B zeigt ein neuronales Netzwerk; und
7 ist ein funktionales Blockdiagramm zur schematischen Erläuterung einer Variante eines Systems, in das die Steuervorrichtung integriert ist.

Ausführungsbeispiele der Erfindung werden nachfolgend mit Bezug auf die Figuren näher beschrieben.
1 zeigt eine apparative Konfiguration zur schematischen Erläuterung der wesentlichen Teile einer Steuervorrichtung gemäß einem ersten Ausführungsbeispiel. Die Steuervorrichtung 1 kann montiert sein für die Steuerung eines Dienstroboters (Zulieferroboter) als Beispiel. Auch kann die Steuervorrichtung 1 in Form eines Personalcomputers neben einer Steuervorrichtung zum Steuern eines Dienstroboters 2 angeordnet sein oder als ein Zellenrechner, ein Hauptrechner, ein sogenannter Edge-Server, und ein sogenannter Cloud-Server, welche über ein verdrahtetes oder drahtloses Netzwerk beispielsweise angeschlossen sind. Das vorliegende Ausführungsbeispiel zeigt den Fall, dass die Steuervorrichtung 1 als Steuervorrichtung zum Steuern des Dienstroboters 2 installiert ist.
Eine CPU 11 in der Steuervorrichtung 1 gemäß diesem Ausführungsbeispiel ist ein Prozessor zur Gesamtsteuerung der Steuervorrichtung 1. Die CPU 11 liest ein in einem ROM 12 abgespeichertes Systemprogramm über einen Bus 20 aus und steuert die gesamte Steuervorrichtung 1 entsprechend dem Systemprogramm. Ein RAM 13 speichert zeitweise Rechendaten und Anzeigedaten und verschiedene Arten von Daten, die von einer Bedienungsperson über eine Eingabeeinheit, die nicht dargestellt ist, eingegeben werden.
Ein nicht-flüchtiger Speicher 14 wird durch eine Batterie, die nicht dargestellt ist, gestützt und somit dient der nicht-flüchtige Speicher 14 als ein Speicher, dessen Speicherzustand beibehalten bleibt, auch wenn die Steuervorrichtung 1 abgeschaltet ist. Der nicht-flüchtige Speicher 14 speichert Programme und Daten, welche von außen eingelesen werden, und verschiedene Arten von Daten, welche von den einzelnen Einheiten der Steuervorrichtung 1, dem Dienstroboter 2, einem Sensor 3 und einer Eingabeeinrichtung 4 gewonnen werden (Position des Dienstroboters, Komponentenanordnung an der Komponentendarbietungsstelle, Bewegung einer Bedienungsperson, Qualitätsinformationen bezüglich eines Produktes und Status der Bedienungsperson als Beispiele). Die im nicht-flüchtigen Speicher 14 abgelegten Programme und die verschiedenen Typen von dort gespeicherten Daten können in den RAM 13 bei Ausführung der Programme überführt werden. Verschiedene Arten von Systemprogrammen, wie bekannte Analyseprogramme (einschließlich eines Systemprogramms zum Steuern des Datenaustausches mit einer weiter unten näher beschriebenen maschinellen Lernvorrichtung 100), sind vorab in den ROM 12 eingeschrieben.
Der Dienstroboter 2 ist über eine Schnittstelle 17 mit der Steuervorrichtung 1 verbunden und arbeitet auf Basis von Befehlen, die von der Steuervorrichtung 1 ausgegeben werden. Die Steuervorrichtung 1 gewinnt die Daten für den Betrieb des Dienstroboters 2 über die Schnittstelle 17.
Die Steuervorrichtung 1 gewinnt Detektionswerte des Sensors 3 über eine Schnittstelle 18. Mehrere Sensoren 3 sind je nach Anordnung mit der Steuervorrichtung 1 verbunden. Beispiele für einen Sensor 3 sind eine Bildaufnahmevorrichtung zum Abbilden einer Darbietungsstelle für Komponenten und einer Bewegung einer Bedienungsperson als Beispiele.
Eine Schnittstelle 19 empfängt eine Eingabe von einer Eingabevorrichtung 4, wie einer Tastatur oder einer Einrichtung mit Zeiger, und überträgt die eingegebenen Daten an die CPU 11. Qualitätsinformationen bezüglich eines durch eine Bedienungsperson montierten Produktes und bezüglich des Status der Bedienungsperson werden beispielsweise über die Eingabevorrichtung 4 eingegeben.
Eine Schnittstelle 21 verbindet die Steuervorrichtung 1 mit einer maschinellen Lernvorrichtung 100. Die maschinelle Lernvorrichtung 100 enthält einen Prozessor 101, welcher die Lernvorrichtung 100 als Ganzes steuert, ein ROM 102 zum Speichern von Systemprogrammen und dergleichen, ein RAM 103 für die zeitweise Speicherung bei Prozessen für das maschinelle Lernen, und einen nicht-flüchtigen Speicher 104, zum Abspeichern von Lernmodellen und dergleichen. Die maschinelle Lernvorrichtung 100 ist in der Lage, verschiedene Informationen zu überwachen (beispielsweise die Position des Dienstroboters, eine Komponentenanordnung an der Komponentendarbietungsstelle, die Bewegung einer Bedienungsperson, Qualitätsinformationen bezüglich eines Produktes und den Status der Bedienungsperson), welche durch die Steuervorrichtung 1 über die Schnittstelle 21 gewonnen werden können. Die Steuervorrichtung 1 steuert den Betrieb des Dienstroboters 2 entsprechend einer Komponentenanordnung an der Komponentendarbietungsstelle gemäß Ausgabe durch die maschinelle Lernvorrichtung 100.
2 ist ein funktionales Blockdiagramm zur schematischen Erläuterung der Steuervorrichtung 1 und der maschinellen Lernvorrichtung 100 gemäß dem ersten Ausführungsbeispiel. Die in 2 gezeigten Funktionsblöcke werden verwirklicht, wenn die CPU 11 in der Steuervorrichtung 1 und der Prozessor 101 der maschinellen Lernvorrichtung 100 gemäß 1 die jeweiligen Systemprogramme ausführen und den Betrieb jeder Einheit der Steuervorrichtung 1 und der maschinellen Lernvorrichtung 100 steuern.
Die Steuervorrichtung 1 gemäß diesem Ausführungsbeispiel enthält eine Steuereinheit 34, welche den Dienstroboter 2 auf Basis einer Komponentenanordnung an der Komponentendarbietungsstelle steuert, die von der maschinellen Lernvorrichtung 100 ausgegeben wird. Die Steuereinheit 34 steuert den Betrieb des Dienstroboters 2 entsprechend einem Komponentenanordnungsbefehl für den Dienstroboter 2 gemäß Instruktion durch ein Programm oder dergleichen. Wird eine Komponentenanordnung an der Komponentendarbietungsstelle von der maschinellen Lernvorrichtung 100 ausgegeben, steuert die Steuereinheit 34 den Dienstroboter 2 so, dass die Komponentenanordnung an der Komponentendarbietungsstelle gemäß Instruktion durch ein Programm oder dergleichen ausgetauscht wird durch die Komponentenanordnung an der Komponentendarbietungsstelle gemäß Ausgabe durch die maschinelle Lernvorrichtung 100.
Die maschinelle Lernvorrichtung 100 in der Steuervorrichtung 1 enthält Software (einen Lernalgorithmus als Beispiel) und Hardware (den Prozessor 101 als Beispiel), durch welche die maschinelle Lernvorrichtung 100 eine Komponentenanordnung an der Komponentendarbietungsstelle entsprechend Informationen bezüglich Komponenten, die für die Montage eines Produktes verwendet werden, und Statusinformationen bezüglich einer Bedienungsperson mit sogenanntem maschinellen Lernen erlernt. Was die maschinelle Lernvorrichtung 100 in der Steuervorrichtung 1 erlernt, entspricht einer Modellstruktur, die eine Korrelation von Informationen bezüglich für die Montage eines Produktes verwendeter Komponenten und Statusinformationen bezüglich einer Bedienungsperson darstellt, mit Bezug auf eine Komponentenanordnung an der Komponentendarbietungsstelle.
Gemäß dem Funktionsblock nach 2 hat die maschinelle Lernvorrichtung 100 in der Steuervorrichtung 1 eine Zustandsüberwachungseinheit 106, eine Bestimmungsdaten-Gewinnungseinheit 108 und eine Lerneinheit 110. Die Zustandsüberwachungseinheit 106 überwacht Komponentenanordnungsdaten S1, die eine Komponentenanordnung an der Komponentendarbietungsstelle repräsentieren, Komponentendaten S2, die Informationen bezüglich für die Montage eines Produktes verwendeter Komponenten repräsentieren, und Statusdaten S3 bezüglich der Bedienungsperson, die Statusinformationen für eine Bedienungsperson repräsentieren, wobei die in diesem Satz genannten Daten Zustandsvariablen S sind, die einen momentanen Zustand des Umfeldes repräsentieren. Die Bestimmungsdaten-Gewinnungseinheit 108 gewinnt Bestimmungsdaten D einschließlich Produktqualität-Bestimmungsdaten D1 zum Bestimmen der Qualität eines Produktes, welches durch eine Bedienungsperson auf Basis einer bestimmten Komponentenanordnung an einer Komponentendarbietungsstelle montiert wird, und Taktzeit-Bestimmungsdaten D2 zum Bestimmen einer Taktzeit für die Montagearbeit durch die Bedienungsperson. Die Lerneinheit 110 führt einen Lernprozess aus auf Basis der Zustandsvariablen S und der Bestimmungsdaten D derart, dass Informationen bezüglich für die Montage des Produktes verwendeter Komponenten und Statusinformationen bezüglich der Bedienungsperson mit Bezug auf eine Komponentenanordnung an der Komponentendarbietungsstelle verknüpft werden.
Mit den Zustandsvariablen S, die durch die Zustandsüberwachungseinheit 106 überwacht werden, können die Komponentenanordnungsdaten S1 gewonnen werden als eine Komponentenanordnung an der Komponentendarbietungsstelle. Die Komponentenanordnung an der Komponentendarbietungsstelle kann wiederum gewonnen werden mittels eines Komponentenzulieferbefehls, welcher beispielsweise für den Dienstroboter 2 ausgegeben wird. Andererseits kann die Komponentenanordnung an der Komponentendarbietungsstelle auch gewonnen werden durch Analyse eines Bildes der Komponentendarbietungsstelle, welches mit dem Sensor 3 gewonnen wird.
Die Komponentenanordnungsdaten S1 können definiert sein als eine Reihe von Positionen von Komponenten an der Komponentendarbietungsstelle als Beispiel. 3 zeigt ein Beispiel für Komponentenanordnungsdaten S1. Bei dem Beispiel gemäß 3 ist eine Komponentendarbietungsstelle unterteilt in mehrere Teilbereiche, in den jeweiligen Teilbereichen anzuordnende Komponenten sind entsprechend eingestellt und die Teilflächen werden definiert als zwei-dimensionale Reihendaten, um so eine Komponentenanordnung an einer Komponentendarbietungsstelle in Daten zu konvertieren. Jede Komponente wird mit einer Identifikationsnummer versehen, so dass die einzelnen Komponenten eindeutig identifizierbar sind. Eine große Komponente, die sich über mehrere Teilbereiche erstreckt, kann mit dem Zusatz einer Seriennummer hinter der Identifikationsnummer gekennzeichnet werden, wie hier die Komponenten B-1 und B-2.
Als Komponentenanordnungsdaten S1 kann eine Komponentenanordnung an einer Komponentendarbietungsstelle direkt verwendet werden bzw. die von der maschinellen Lernvorrichtung 100 im letzten Lernzyklus bezüglich Informationen über Komponenten, die für die Montage eines Produktes verwendet wurden, und Statusinformationen bezüglich einer Bedienungsperson im letzten Zyklus ermittelte Komponentenanordnung entsprechend einem Lernergebnis der Lerneinheit 110. Wird ein solches Verfahren eingesetzt, kann die maschinelle Lernvorrichtung 100 eine Komponentenanordnung an einer Komponentendarbietungsstelle für jeden Lernzyklus in dem RAM 103 zeitweise abspeichern und die Zustandsüberwachungseinheit 106 kann eine Komponentenanordnung an einer Komponentendarbietungsstelle des letzten Lernzyklus aus dem RAM 103 als Komponentenanordnungsdaten S1 eines laufenden Lernzyklus gewinnen.
Unter den durch die Zustandsüberwachungseinheit 106 überwachten Zustandsvariablen S können die Komponentendaten S2 gewonnen werden als Reihendaten einschließlich der Form, der Abmessungen, des Gewichtes und einer Einsatzreihenfolge beim Zusammenbau jeder der Komponenten, die an der Komponentendarbietungsstelle anzuordnen sind. Diese Inhalte der Reihendaten werden aus einem Programm gewonnen, welches eingesetzt wird zum Steuern des Dienstroboters 2 oder sie werden über die Eingabeeinrichtung 4 eingegeben. Jede der Komponenten, die für den Zusammenbau eines Produktes eingesetzt werden, wird mit einer Identifikationsnummer versehen, durch welche die Komponente eindeutig identifizierbar ist.
Unter den mit der Zustandsüberwachungseinheit 106 überwachten Zustandsvariablen S können die Statusdaten S3 bezüglich der Bedienungsperson gewonnen werden als Statusinformationen der Bedienungsperson. Die Statusinformationen einer Bedienungsperson können Einzelinformationen enthalten wie das Alter der Bedienungsperson, die dominierende Hand der Bedienungsperson, die Größe der Bedienungsperson, die beruflichen Erfahrungen der Bedienungsperson und das Geschlecht der Bedienungsperson. Diese Informationen können aneinandergereiht werden. Auch kann ein Ermüdungspegel der Bedienungsperson gegebenenfalls als Teil der Statusinformationen verwendet werden (wobei der Pegel gemessen werden kann durch Anbringung eines für die Bedienungsperson wirksamen Sensors oder auch aufgrund der Zeit, die seit Beginn der Arbeit vergangen ist). Für jede dieser Teilinformationen kann ein numerischer Wert in einem vorgegebenen Bereich vergeben werden und der numerische Wert kann die Eingabedaten bilden. Die Größe der Bedienungsperson kann beispielsweise so quantifiziert werden, dass der Wert 1 für eine Größe von 140 cm oder größer, aber kleiner als 160 cm vergeben wird, der Wert 2 für eine Größe von 160 cm oder größer, aber kleiner als 170 cm, und der Wert 3 für eine Größe von 170 cm oder größer, als Beispiele.
Die Bestimmungsdaten-Gewinnungseinheit 108 kann als Produktqualität-Bestimmungsdaten D1 ein Bestimmungsergebnis bezüglich der Qualität eines Produktes verwenden, welches durch eine Bedienungsperson zusammengebaut ist mit einer bestimmten Komponentenanordnung an einer Komponentendarbietungsstelle. Die Produktqualität-Bestimmungsdaten D1, wie sie von der Bestimmungsdaten-Gewinnungseinheit 108 eingesetzt werden, können entsprechend einem willkürlich eingesetzten Kriterium ermittelt werden, wie der Beurteilung, ob ein Produkt, welches durch die Bedienungsperson entsprechend einer bestimmten Komponentenanordnung an einer Komponentendarbietungsstelle zusammengebaut ist, ein fehlerfreies (geeignetes) oder ein fehlerhaftes (ungeeignetes) Produkt ist. Beispiele für das Kriterium sind fehlende Passgenauigkeit einer Komponente, eine falsche Einpassung einer Komponente, eine fehlende Verschraubung oder der Verlust einer Komponente.
Die Bestimmungsdaten-Gewinnungseinheit 108 kann als Taktzeit-Bestimmungsdaten D2 das Ergebnis der Bestimmung einer Taktzeit für die Montage durch eine Bedienungsperson auf Basis einer bestimmten Komponentenanordnung an der Komponentendarbietungsstelle verwenden. Die Taktzeit-Bestimmungsdaten D2, wie sie von der Bestimmungsdaten-Gewinnungseinheit 108 eingesetzt werden, können das Ergebnis einer Ermittlung auf Basis eines willkürlich eingesetzten Kriteriums sein, beispielsweise ob die Zeit, die für den tatsächlichen Zusammenbau eines Produktes durch eine Bedienungsperson auf Basis einer bestimmten Komponentenanordnung an der Komponentendarbietungsstelle kürzer (geeignet) oder länger (ungeeignet) ist als ein vorgegebener Schwellenwert, welcher im Voraus eingestellt ist.
Obwohl die Bestimmungsdaten-Gewinnungseinheit 108 eine wesentliche Einheit ist in der Lernstufe durch die Lerneinheit 110, ist gleichwohl die Bestimmungsdaten-Gewinnungseinheit 108 keine notwendige Einheit nach Abschluss des Lernvorganges durch die Lerneinheit 110, wobei Informationen bezüglich Komponenten, die für die Montage des Produktes eingesetzt sind, und Statusinformationen bezüglich der Bedienungsperson mit einer Komponentenanordnung an der Komponentendarbietungsstelle verknüpft werden. Wird die maschinelle Lernvorrichtung 100, in der der Lernvorgang abgeschlossen ist, zu einem Abnehmer transportiert, kann beispielsweise die maschinelle Lernvorrichtung 100 in einem Zustand mit abgebauter Bestimmungsdaten-Gewinnungseinheit 108 transportiert werden.
Die simultan in die Lerneinheit 110 eingegebenen Zustandsvariablen S basieren auf Daten des letzten Lernzyklus, in dem die Bestimmungsdaten D gewonnen wurden, wobei die Lerneinheit 110 die Lernzyklen berücksichtigt. Somit erfolgt mit zunehmendem Lernfortschritt der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 wiederholt im gegebenen Umfeld die Gewinnung der Komponentendaten S2 und der Statusdaten S3 bezüglich der Bedienungsperson, das Zuliefern der Komponenten mit dem Dienstroboter 2 auf Basis der Komponentenanordnungsdaten S1 entsprechend den jeweils gewonnenen Daten und die Gewinnung der Bestimmungsdaten D.
Die Lerneinheit 110 erlernt eine Komponentenanordnung an einer Komponentendarbietungsstelle entsprechend Informationen bezüglich der Komponenten, die für den Zusammenbau eines Produktes eingesetzt werden und Statusinformationen bezüglich einer Bedienungsperson auf Basis eines willkürlich eingesetzten Lern-Algorithmus, was allgemein als maschinelles Lernen bezeichnet wird. Die Lerneinheit 110 ist eingerichtet, wiederholt den Lernvorgang auszuführen auf Basis von Datensätzen, die in den Zustandsvariablen S und den Bestimmungsdaten D enthalten sind, wie oben näher beschrieben ist. Bei der Wiederholung der Lernzyklen bezüglich einer Komponentenanordnung an der Komponentendarbietungsstelle in Abhängigkeit von Informationen bezüglich für den Zusammenbau verwendeter Komponenten und Statusinformationen bezüglich einer Bedienungsperson, werden die Zustandsvariablen S von den Komponenteninformationen und den Statusinformationen des letzten Lernzyklus gewonnen sowie von einer Komponentenanordnung an der Komponentendarbietungsstelle, welche gemäß obiger Beschreibung im letzten Lernzyklus bestimmt wurde, und die Bestimmungsdaten D werden herangezogen als geeignetes Bestimmungsergebnis bezüglich der Qualität eines Produktes, welches durch die Bedienungsperson auf Basis der bestimmten Komponentenanordnung an der Komponentendarbietungsstelle zusammengebaut ist.
Durch Wiederholungen derartiger Lernzyklen, wird die Lerneinheit 110 in die Lage versetzt, eine Korrelation zu finden von Informationen der für den Zusammenbau eines Produktes verwendeten Komponenten und Statusinformationen der Bedienungsperson bezüglich einer Komponentenanordnung an der Komponentendarbietungsstelle. Zwar ist die Korrelation von Informationen über die für den Zusammenbau verwendeten Komponenten und Statusinformationen über die Bedienungsperson bezüglich einer Komponentenanordnung an der Komponentendarbietungsstelle beim Start des Lernalgorithmus im Wesentlichen unbekannt, jedoch erkennt die Lerneinheit 110 allmählich mit fortschreitendem Lernvorgang eine solche Korrelation und interpretiert sie. Wird die Korrelation von Informationen über die für den Zusammenbau eines Produktes verwendeten Komponenten und Statusinformationen über die Bedienungsperson in Bezug auf eine Komponentenanordnung an der Komponentendarbietungsstelle so interpretiert, dass ein gewisser stabiler Pegel erreicht ist, dann kann das von der Lerneinheit 110 wiederholt ausgegebene Lernergebnis ein hinreichendes Niveau erreicht haben für eine Auswahl (das heißt, eine Entscheidung) bezüglich einer Aktion zur Bestimmung einer Komponentenanordnung an einer Komponentendarbietungsstelle unter Berücksichtigung der momentanen Zustände (das heißt Informationen bezüglich der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen bezüglich der Bedienungsperson). Mit anderen Worten: die Lerneinheit 110 ist in der Lage, allmählich mit Fortschreiten des Lernalgorithmus zu einer optimalen Lösung zu kommen, wobei die Korrelation die Informationen über für den Zusammenbau eines Produktes verwendete Komponenten und Statusinformationen über eine Bedienungsperson in Bezug auf eine Komponentenanordnung an einer Komponentendarbietungsstelle betrifft, also eine Entscheidung zu treffen zur Einstellung einer Komponentenanordnung an einer Komponentendarbietungsstelle unter Berücksichtigung von Informationen bezüglich der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen bezüglich der Bedienungsperson.
Die Entscheidungseinheit 122 bestimmt eine Komponentenanordnung an der Komponentendarbietungsstelle auf Basis eines Ergebnisses, welches gewonnen wird durch den Lernprozess der Lerneinheit 110, und gibt die so ermittelte Komponentenanordnung an der Komponentendarbietungsstelle an die Steuereinheit 34. Werden Informationen über die für den Zusammenbau des Produktes eingesetzten Komponenten und Statusinformationen über eine Bedienungsperson in einem Zustand in die maschinelle Lernvorrichtung 100 eingegeben, in dem der Lernvorgang durch die Lerneinheit 110 abgeschlossen ist, gibt die Entscheidungseinheit 122 eine Komponentenanordnung an der Komponentendarbietungsstelle aus. Die Entscheidungseinheit 122 bestimmt eine passende Komponentenanordnung an der Komponentendarbietungsstelle auf Basis der Zustandsvariablen S und des Ergebnisses des durch die Lerneinheit 110 ausgeführten Lernprozesses.
In der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 erlernt die Lerneinheit 110 eine Komponentenanordnung an einer Komponentendarbietungsstelle unter Berücksichtigung von Informationen über die beim Zusammenbau eines Produktes verwendeten Komponenten und Statusinformationen über eine Bedienungsperson entsprechend einem maschinellen Lernalgorithmus unter Einsatz der Zustandsvariablen S gemäß Überwachung durch die Zustandsüberwachungseinheit 110 und der Bestimmungsdaten D, wie durch die Bestimmungsdaten-Gewinnungseinheit 108 gewonnen, wie oben näher beschrieben ist. Die Zustandsvariablen S sind die Komponentenanordnungsdaten S1, die Komponentendaten S2 und die Statusdaten S3 über die Bedienungsperson, und die Bestimmungsdaten D können eindeutig gewonnen werden durch Analyse von Informationen, die durch die Steuervorrichtung 1 von dem Dienstroboter 2 gewonnen werden. Somit ist mit Hilfe der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 es möglich, automatisch und genau eine Komponentenanordnung an einer Komponentendarbietungsstelle auszuführen entsprechend Informationen über die für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen über die Bedienungsperson unter Einsatz des Lernergebnisses der Lerneinheit 110.
Kann eine Komponentenanordnung an einer Komponentendarbietungsstelle automatisch bestimmt werden, dann kann eine Wertung einer Komponentenanordnung an einer Komponentendarbietungsstelle sehr schnell erfolgen durch Rückgriff auf Informationen bezüglich der für den Zusammenbau eines Produktes verwendeten Komponenten (die Komponentendaten S2) und Statusinformationen über eine Bedienungsperson (die Statusdaten S3). Somit kann eine Komponentenanordnung an einer Komponentendarbietungsstelle effektiv bestimmt werden.
In Abwandlung der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 gemäß dem obigen Ausführungsbeispiel kann die Bestimmungsdaten-Gewinnungseinheit 108 weiterhin Bewegungsbestimmungsdaten D3 bezüglich der Bedienungsperson gewinnen, welche eine Bewegung der Bedienungsperson darstellen, sowie Produktqualität-Bestimmungsdaten D1 und Taktzeit-Bestimmungsdaten D2 als Bestimmungsdaten D. Die Bewegungsbestimmungsdaten D3 für die Bedienungsperson können ermittelt werden entsprechend einem willkürlich gesetzten Kriterium, zum Beispiel ob eine Bedienungsperson eine unnatürliche Position (ungeeignet) einnimmt, wenn er/sie eine Komponente aufnimmt, basierend auf einer Bewegung (beispielsweise mit einem Sensor 3 als Bildaufnahmevorrichtung detektiert) der Bedienungsperson, die gewonnen wird, während diese ein Produkt zusammenbaut. Dabei werden vorzugsweise auch Daten bezüglich der aufgenommenen Komponente gemäß dieser Bewegung als Bestimmungsdaten gewonnen.
Mit dieser Abwandlung ist die maschinelle Lernvorrichtung 100 in der Lage, die Lerneinheit 110 zu veranlassen, eine Vermeidung einer Komponentenanordnung zu erlernen, welche eine Bedienungsperson dazu bringt, eine unnatürliche Stellung einzunehmen; wozu einer derartigen Komponentenanordnung eine geringe Gewichtung zuerkannt wird unter Verwendung der Bewegungsbestimmungsdaten D3 der Bedienungsperson. Erkennt die maschinelle Lernvorrichtung 100, dass eine Bedienungsperson eine unnatürliche Stellung einnimmt beim Aufnehmen einer bestimmten Komponente, schlägt die maschinelle Lernvorrichtung 100 eine Komponentenanordnung vor, bei welcher eine Position für diese Komponente beispielsweise im nachfolgenden Lernzyklus geändert wird. Somit versucht die maschinelle Lernvorrichtung 100 vorzugsweise eine Ortsänderung bezüglich der Komponentenanordnung, wodurch ein Fortschritt im Lernprozess erwartet werden kann.
In der maschinellen Lernvorrichtung 100 mit der oben beschriebenen Konfiguration ist der durch die Lerneinheit 110 ausgeführte Lernalgorithmus nicht auf bestimmte bekannte Lernalgorithmen beschränkt, jedoch können für das maschinelle Lernen derartige Algorithmen eingesetzt werden. 4 erläutert Merkmale der Steuervorrichtung 1 gemäß 2, wobei die Konfiguration die Lerneinheit 110 enthält, welche ein sogenanntes bestärkendes Lernen als ein Beispiel für den Lernalgorithmus ausführt. Das bestärkende Lernen ist ein Verfahren, bei dem ein Zyklus mit einer vorgegebenen Aktion (das heißt, einem Ausgang) im momentanen Zustand des Umfeldes ausgeführt wird, indem ein Lernobjekt gegeben ist, unter Beobachtung des laufenden Zustandes (das heißt eines Einganges), wobei der Aktion eine gewisse Belohnung zugeteilt wird und der Zyklus gemäß dem Verfahren nach „Versuch und Irrtum“ wiederholt wird, um Maßnahmen zu erlernen, durch die die Gesamtbelohnung maximiert wird als optimale Lösung (hier eine Komponentenanordnung an einem Komponentendarbietungsplatz in der maschinellen Lernvorrichtung).
Bei der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 gemäß 4 hat die Lerneinheit 110 eine Belohnungsberechnungseinheit 112 und eine Wertefunktion-Aktualisierungseinheit 114. Die Belohnungsberechnungseinheit 112 gewinnt eine Belohnung R bezüglich eines geeignetes Bestimmungsergebnisses (entsprechend den Bestimmungsdaten D im einem Zyklus nachfolgenden Lernzyklus, in dem die Zustandsvariablen S gewonnen wird) bei dem Zusammenbau eines Produktes durch eine Bedienungsperson mit Bestimmung einer Komponentenanordnung an einer Komponentendarbietungsstelle auf Basis der Zustandsvariablen S und die Komponenten werden durch den Dienstroboter 2 entsprechend der ermittelten Komponentenanordnung an der Komponentendarbietungsstelle positioniert. Die Wertefunktion-Aktualisierungseinheit 114 aktualisiert eine Funktion Q, die einen Wert einer Komponentenanordnung an der Komponentendarbietungsstelle repräsentiert unter Verwendung der Belohnung R. Die Lerneinheit 110 erlernt eine Komponentenanordnung an der Komponentendarbietungsstelle in Abhängigkeit von Informationen über die beim Zusammenbau eines Produktes verwendeten Komponenten und Statusinformationen bezüglich einer Bedienungsperson durch wiederholte Aktualisierung der Funktion Q mittels der Wertefunktion-Aktualisierungseinheit 114.
Nunmehr wird ein Beispiel für einen Algorithmus für das bestärkende Lernen zur Ausführung durch die Lerneinheit 110 näher beschrieben. Der Algorithmus ist bekannt als sogenanntes Q-Lernen und es handelt sich um ein Verfahren zum Erlernen der Funktion Q(s,a), die den Wert einer Aktion darstellt, wenn eine Aktion a in einem Zustand s ausgewählt wird, wobei der Zustand s einer Aktion Subjekt ist und die Aktion a auswählbar ist und beide Größen unabhängige Variable sind. Eine Auswahl der Aktion a, bei welcher die Wertefunktion Q im Zustand s den höchsten Wert erreicht, ergibt die optimale Lösung. Das Q-Lernen wird in einem Zustand gestartet, in dem die Korrelation zwischen dem Zustand s und der Aktion a unbekannt ist und das Verfahren gemäß „Versuch und Irrtum“ wird mit Auswahl verschiedener Aktionen a in einem beliebigen Zustand s wiederholt. Damit wird die Wertefunktion Q wiederholt aktualisiert, um sich der optimalen Lösung anzunähern. Hier wird eine Konfiguration eingesetzt, bei welcher dann, wenn ein Umfeld (das heißt: ein Zustand s) nach Auswahl der Aktion a im Zustand s geändert wird, die Belohnung r (das heißt: die Wichtung der Aktion a) entsprechend der Änderung gewonnen werden kann, und der Lernvorgang wird so fortgeführt, dass die Aktion a ausgewählt wird, bei der eine größere Belohnung r gewonnen werden kann. Damit kann die Wertefunktion Q an die optimale Lösung in relativ kurzer Zeit herangeführt werden.
Eine Aktualisierungsformel für die Wertefunktion Q kann allgemein ausgedrückt werden mit der nachfolgenden Gleichung 1. In Gleichung 1 bedeuten st und at einen Zustand bzw. eine Aktion zur Zeit t und der Zustand wird in Abhängigkeit von der Aktion at in den Zustand s_t+1 geändert. r_t+1 bezeichnet eine Belohnung, die gewonnen wird, wenn der Zustand geändert wird von st in s_t+1. Der Term maxQ bezeichnet den Wert von Q, der gewonnen wird für eine Aktion a, in welcher das Maximum von Q zur Zeit t+1 erreicht ist (es wird vorausgesetzt, dass der Maximalwert von Q zur Zeit t+1 gegeben ist). α bzw. γ bezeichnen einen Lernkoeffizienten bzw. eine sogenannte Diskontierungsrate und diese werden willkürlich eingestellt gemäß 0<α≤1 bzw. 0<γ≤1. $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{t + 1} + γ max_{α} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
Führt die Lerneinheit 110 das Q-Lernen aus, entsprechen die Zustandsvariable S gemäß Überwachung durch die Zustandsüberwachungseinheit 106 und die Bestimmungsdaten D gemäß Gewinnung durch die Bestimmungsdaten-Gewinnungseinheit 108 dem Zustand s in der Aktualisierungsformel, die Bestimmung einer Komponentenanordnung an der Komponentendarbietungsstelle in Abhängigkeit von einem laufenden Zustand (das heißt: Informationen bezüglich für den Zusammenbau eines Produktes verwendeter Komponenten und Statusinformationen bezüglich einer Bedienungsperson) entsprechen der Aktion a in der Aktualisierungsformel und die Belohnung R, die durch die Belohnungsberechnungseinheit 112 gewonnen wird, entspricht der Belohnung r in der Aktualisierungsformel. Somit aktualisiert die Wertefunktion-Aktualisierungseinheit 114 wiederholt die Funktion Q, die einen Wert für eine Komponentenanordnung an der Komponentendarbietungsstelle entsprechend dem laufenden Zustand des Q-Lernens unter Einsatz der Belohnung R darstellt.
Wenn nach Prüfung einer Komponentenanordnung an einer Komponentendarbietungsstelle auf Eignung hinsichtlich des Zusammenbaus eines Produktes durch eine Bedienungsperson die „Eignung“ festgestellt wird (wenn also die Qualität des durch die Bedienungsperson hergestellten Produktes gut ist und die Taktzeit für den Zusammenbau kürzer ist als ein vorgegebener Schwellenwert oder beispielsweise kürzer ist als die Taktzeit im letzten Lernzyklus), kann die Belohnung R, die mit der Belohnungsberechnungseinheit 112 gewonnen wird, auf einen positiven Wert (plus) eingestellt werden. Wenn hingegen nach Prüfung einer Komponentenanordnung an einer Komponentendarbietungsstelle auf Eignung bezüglich des Zusammenbaus eines Produktes durch eine Bedienungsperson „mangelnde Eignung“ festgestellt wird (wie zum Beispiel dann, wenn die Qualität des durch die Bedienungsperson zusammengebauten Produktes mangelhaft ist oder wenn die Taktzeit für den Zusammenbau durch die Bedienungsperson länger ist als ein vorgegebener Schwellenwert oder länger als die Taktzeit im vorangegangenen Zyklus), wird der durch die Belohnungsberechnungseinheit 112 gewonnene Wert der Belohnung R auf einen negativen Wert (minus) eingestellt. Die Absolutwerte der positiven und negativen Belohnungen R können einander entsprechen oder verschieden sein. Als Kriterien für die Prüfung können Kombinationen mehrerer Werte in den Bestimmungsdaten D herangezogen werden.
Für die Prüfung der Eignung einer Komponentenanordnung an einer Komponentendarbietungsstelle für den Zusammenbau eines Produktes durch eine Bedienungsperson kommen nicht nur die zwei Möglichkeiten „geeignet“ und „ungeeignet“ in Betracht, sondern auch verschiedene Abstufungen. Wenn beispielsweise ein Schwellenwert bezüglich der Taktzeit für den Zusammenbau durch die Bedienungsperson bei T_max liegt, kann eine Belohnung R=5 zugeteilt werden, wenn die Taktzeit T des Zusammenbaus durch eine Bedienungsperson bei 0≤T<T_max/5, während eine Belohnung R=3 zugeteilt wird, wenn die Taktzeit T bei T_max/5≤T<T_max/2, während eine Belohnung R=1 zugeteilt wird, wenn die Taktzeit T bei T_max/2<T<T_max. während schließlich eine Belohnung R=-3 (negative Belohnung) zugeteilt wird, wenn die Taktzeit T größer ist als der Schwellenwert, also T_max≤T.
Auch kann eine Konfiguration eingesetzt werden, bei der ein Schwellenwert für die Prüfung anfänglich relativ groß eingestellt wird und mit fortschreitendem Lernvorgang der Schwellenwert dann reduziert wird.
Die Wertefunktion-Aktualisierungseinheit 114 kann eine Aktionswerttabelle aufweisen, in der die Zustandsvariablen S, die Bestimmungsdaten D und die Belohnungen R mit Aktionswerten verknüpft sind (beispielsweise numerischen Werten), welche der Funktion Q entsprechen. In diesem Falle entspricht eine Aktion zum Aktualisieren der Funktion Q mittels der Wertefunktion-Aktualisierungseinheit 114 einer Aktion zum Aktualisieren der Aktionswerttabelle durch die Wertefunktion-Aktualisierungseinheit 114. Da die Korrelation zwischen einem momentanen Zustand des Umfeldes und einer Komponentenanordnung an der Komponentendarbietungsstelle bei Start des Q-Lernens unbekannt ist, werden verschiedene Zustandsvariablen S, Bestimmungsdaten D und Belohnungen R in Verknüpfung mit Werten der Aktionswerte (Funktionen Q) vorbereitet auf Basis eines statistischen (zufälligen) Ansatzes und in der Aktionswerttabelle vorgegeben. Die Belohnungsberechnungseinheit 112 ist eingerichtet, die Belohnung R zu berechnen entsprechend den Bestimmungsdaten D, sobald die Belohnungsberechnungseinheit 112 die Bestimmungsdaten D erfasst, und der berechnete Wert für R wird in die Aktionswerttabelle eingetragen.
Das Q-Lernen schreitet fort unter Verwendung der Belohnung R gemäß dem Ergebnis der Eignungsprüfung bei Betätigung des Dienstroboters 2, wobei der Lernvorgang geleitet wird durch Auswahl einer Aktion, mit der eine höhere Belohnung R erreicht werden kann, und ein Aktionswert (Funktion Q) für eine laufende Aktion wird entsprechend dem Zustand des Umfeldes neu geschrieben (also die Zustandsvariable S und die Bestimmungsdaten D), wobei die Änderung als Ergebnis der Ausführung der ausgewählten Aktion in dem momentanen Zustand durchgeführt wird. Damit wird die Aktionswerttabelle aktualisiert. Durch Wiederholung dieser Aktualisierung wird der Aktionswert (Funktion Q) in der Aktionswerttabelle neu geschrieben, und zwar als größerer Wert, wenn die Aktion eine größere Eignung aufweist (im vorliegenden Fall also eine Aktion zur Bestimmung einer Komponentenanordnung an einer Komponentendarbietungsstelle zur Vermeidung des Auftretens eines Problems beim Zusammenbau eines Produktes durch eine Bedienungsperson). Damit schält sich allmählich eine Korrelation heraus zwischen einem laufenden Zustand eines zunächst unbekannten Umfeldes (Informationen bezüglich Komponenten für den Zusammenbau eines Produktes und Statusinformationen bezüglich einer Bedienungsperson) und einer zugehörigen Aktion (Komponentenanordnung an einer Komponentendarbietungsstelle). Mit anderen Worten: eine Beziehung von Informationen bezüglich Komponenten für den Zusammenbau eines Produktes und Statusinformationen über eine Bedienungsperson mit Bezug auf eine Komponentenanordnung an eine Komponentendarbietungsstelle wird allmählich durch Aktualisierung der Aktionswerttabelle einer optimalen Lösung angenähert.
Ein Verlauf des vorstehend beschriebenen Q-Lernens durch die Lerneinheit 110 (also eine Variante für das maschinelle Lernen) wird nachfolgend mit Blick auf 5 näher beschrieben. Zunächst wählt in Schritt SA01 die Wertefunktion-Aktualisierungseinheit 114 eine Komponentenanordnung an einer Komponentendarbietungsstelle als Aktion beliebig aus, welche im momentanen Zustand gemäß der Zustandsvariablen S, wie durch die Zustandsüberwachungseinheit 106 ermittelt, ausgeführt wird unter Rückgriff auf die zu diesem Zeitpunkt gegebene Aktionswerttabelle. Dann übernimmt die Wertefunktion-Aktualisierungseinheit 114 die Zustandsvariable S im momentanen Zustand gemäß der Ermittlung durch die Zustandsüberwachungseinheit 106 in Schritt SA02 und übernimmt die Bestimmungsdaten D im momentanen Zustand entsprechend dem Ergebnis der Bestimmungsdaten-Gewinnungseinheit 108 in Schritt SA03. Anschließend prüft die Wertefunktion-Aktualisierungseinheit 114 in Schritt SA04, ob die Komponentenanordnung an der Komponentendarbietungsstelle geeignet ist oder nicht entsprechend den Bestimmungsdaten D. Ist die Komponentenanordnung an der Komponentendarbietungsstelle geeignet, wird ein durch die Belohnungsberechnungseinheit 112 berechneter positiver Belohnungswert R in die Aktualisierungsformel der Funktion Q in Schritt SA05 eingesetzt und sodann wird die Aktionswerttabelle unter Verwendung der Zustandsvariablen S, der Bestimmungsdaten D, der Belohnung R und des Wertes für den Aktionswert aktualisiert (Funktion Q nach Aktualisierung) und dies erfolgt in Schritt SA06. Wird in Schritt SA04 ermittelt, dass die Komponentenanordnung an der Komponentendarbietungsstelle nicht geeignet ist, wird ein mit der Belohnungsberechnungseinheit 112 gewonnener negativer Wert für die Belohnung R zur Aktualisierung der Gleichung für die Funktion Q in Schritt SA07 eingesetzt und sodann wird die Aktionswerttabelle unter Verwendung der Zustandsvariablen S, der Bestimmungsdaten D, der Belohnung R und des Aktionswertes in die Funktion Q aktualisiert (Funktion Q nach Aktualisierung) und dies erfolgt in Schritt SA06. Die Lerneinheit 110 aktualisiert die Aktionswerttabelle wiederholt durch Wiederholung der Schritte SA01 bis SA07, um so den Lernvorgang für eine Komponentenanordnung an der Komponentendarbietungsstelle voranzubringen. Die Verarbeitung zur Gewinnung der Belohnung R und die Verarbeitung zur Aktualisierung der Wertefunktion gemäß den Schritten SA04 bis SA07 werden für alle Daten in den Bestimmungsdaten D ausgeführt.
Für das oben beschriebene verstärkende Lernen kann beispielsweise ein neuronales Netz eingesetzt werden. 6A zeigt schematisch ein Modell für ein Neuron. 6B zeigt schematisch ein Modell für ein drei-schichtiges neuronales Netzwerk aus Neuronen gemäß 6A. Das neuronale Netzwerk kann gebildet sein aus arithmetischen Recheneinheiten, Speichereinheiten oder dergleichen, die das Modell eines Neurons imitieren.
Das in 6A gezeigte Neuron gibt ein Ergebnis y in Bezug auf mehrere Eingaben x (Eingabe x₁ bis Eingabe x₃ als Beispiel) aus. Die Eingaben x₁ bis x₃ werden jeweils mit Wichtungen w multipliziert (w₁ bis w₃), welche den Eingaben zugeordnet sind. Dementsprechend gibt das Neuron die Ausgabe y gemäß der nachfolgenden Gleichung 2 aus. In Gleichung 2 sind alle Eingaben x, Ausgaben y und Wichtungen w Vektoren. θ bezeichnet eine sogenannte Bias und f_k bezeichnet eine Aktivierungsfunktion. $y = f_{k} (\sum_{i = 1}^{n} x_{i} w_{i} - θ)$
Bei dem drei-schichtigen neuronalen Netzwerk gemäß 6B erfolgt die Eingabe einer Mehrzahl von Eingaben x (Eingaben x1 bis x3 als Beispiel) von der linken Seite und Ergebnisse Y (Ergebnis y1 bis y3 als Beispiel) werden auf der rechten Seite ausgegeben. Beim Beispiel gemäß 6B werden die Eingaben x1, x2, x3 jeweils mit entsprechenden Wichtungen (zusammen mit w1 bezeichnet) multipliziert und jede der Eingaben x1, x2, x3 wird in die drei Neuronen N11, N12, N13 eingegeben.
In 6B ist der Ausgang jedes der Neuronen N11, N12, N13 kollektiv mit z1 bezeichnet. z1 kann verstanden werden als ein Merkmalsvektor, der gewonnen wird durch Extraktion von Merkmalsgrößen eines Eingabevektors. Beim Beispiel gemäß 6B werden die Merkmalsvektoren z1 jeweils mit entsprechenden Wichtungen multipliziert (gemeinsam mit w2 bezeichnet) und jeder der Merkmalsvektoren z1 wird in zwei Neuronen N21, N22 eingegeben. Der Merkmalsvektor z1 repräsentiert ein Merkmal zwischen der Wichtung w1 und der Wichtung w2.
In 6B ist der Ausgang jedes der Neuronen N21, N22 gemeinsam mit z2 bezeichnet. z2 kann verstanden werden als ein Merkmalsvektor, der gewonnen wird durch Extraktion einer Merkmalsgröße aus dem Merkmalsvektor z1. Beim Beispiel gemäß 6B werden die Merkmalsvektoren z2 jeweils mit entsprechenden Wichtungen multipliziert (zusammen mit w3 bezeichnet) und jeder der Merkmalsvektoren z2 wird in die drei Neuronen N31, N32, N33 eingegeben. Der Merkmalsvektor z2 repräsentiert ein Merkmal zwischen der Wichtung w2 und der Wichtung w3. Schließlich geben die Neuronen N31 bis N33 jeweils Ergebnisse y1 bis y3 aus.
Bei den hier eingesetzten Verfahren des sogenannten vertieften Lernens kann auch ein neuronales Netzwerk mit drei oder mehr Schichten eingesetzt werden.
In der maschinellen Lernvorrichtung 100 in der Steuervorrichtung 1 führt die Lerneinheit 110 Rechnungen in der mehrschichten Struktur gemäß dem oben beschriebenen neuronalen Netzwerk aus unter Verwendung der Zustandsvariablen S und der Aktion a als Eingaben x in das neuronale Netzwerk entsprechend der Wertefunktion beim Q-Lernen mit einem Ausgabewert (Ergebnis y) für die Aktion im jeweiligen Zustand. Die Betriebsarten des neuronalen Netzes enthalten einen Lernmodus und einen Werte-Vorhersagemodus. Beispielsweise kann eine Wichtung w erlernt werden durch Einsatz eines Lerndatensatzes im Lernmodus und die Wertebestimmung für eine Aktion kann ausgeführt werden durch Verwendung der erlernten Wichtung w im Wertevorhersagemodus. Dabei können die bekannten Detektionen, Klassifikationen, Inferenzen und dergleichen im Wertevorhersagemodus eingesetzt werden.
Die oben beschriebene Konfiguration der Steuervorrichtung 1 entspricht einem maschinellen Lernverfahren (Software), welches durch den Prozessor 101 ausgeführt wird. Dieses maschinelle Lernverfahren erlernt eine Komponentenanordnung an einer Komponentendarbietungsstelle. Das maschinelle Lernverfahren enthält: einen Schritt der Beobachtung der Komponentenanordnungsdaten S1, der Komponentendaten S2 und der Statusdaten S3 bezüglich der Bedienungsperson als Zustandsvariable S, welche einen momentanen Zustand des Umfeldes repräsentieren, in dem der Dienstroboter 2 arbeitet; einen Schritt der Gewinnung der Bestimmungsdaten D, welche ein Eignungsbestimmungsergebnis repräsentieren bezüglich des Zusammenbaus eines Produktes durch eine Bedienungsperson entsprechend der bestimmten Komponentenanordnung an der Komponentendarbietungsstelle; und einen Schritt zum Erlernen der Komponentendaten S2, der Statusdaten S3 bezüglich der Bedienungsperson und der Komponentenanordnung an der Komponentendarbietungsstelle unter Verknüpfung der Komponentendaten S2 und der Statusdaten S3 bezüglich der Bedienungsperson mit der Komponentenanordnung an der Komponentendarbietungsstelle unter Verwendung der Zustandsvariablen S und der Bestimmungsdaten D. Die Schritte dieses Verfahrens werden durch eine CPU eines Rechners ausgeführt.
7 erläutert ein System 170 gemäß einem dritten Ausführungsbeispiel mit der Steuervorrichtung 1. Das System 170 enthält zumindest eine Steuervorrichtung 1, welche Teil eines Rechners ist, wie eines Zellenrechners, eines Hauptrechners, eines Cloud-Servers, sowie eine Mehrzahl von Dienstrobotern 2, welche Gegenstände steuern, und ein verdrahtetes/drahtloses Netzwerk 172, welches die Steuervorrichtung 1 und die Dienstroboter 2 miteinander verbindet.
In dem System 170 mit obigem Aufbau ist die Steuervorrichtung 1 mit der maschinellen Lernvorrichtung 100 in der Lage, automatisch und genau eine Komponentenanordnung an einer Komponentendarbietungsstelle zu gewinnen in Abhängigkeit von Informationen bezüglich Komponenten, die eingesetzt werden zum Zusammenbau eines Produktes, und Statusinformationen bezüglich einer Bedienungsperson unter Verwendung von Lernergebnissen der Lerneinheit 110, und zwar für jeden der Dienstroboter 2. Das System 170 kann so konfiguriert sein, dass die maschinelle Lernvorrichtung 100 der Steuervorrichtung 1 eine Komponentenanordnung an einer Komponentendarbietungsstelle für alle Dienstroboter 2 erlernt auf Basis der Zustandsvariablen S und der Bestimmungsdaten D, welche für jeden der Dienstroboter 2 gewonnen werden, wobei die Lernergebnisse im Betrieb für alle Dienstroboter 2 gemeinsam verwendet werden können. Mit dem System 170 kann die Geschwindigkeit und Zuverlässigkeit beim Erlernen einer Komponentenanordnung an einer Komponentendarbietungsstelle verbessert werden unter Einsatz von mehreren verschiedenen Datensätzen (einschließlich der Zustandsvariablen S und der Bestimmungsdaten D) als Eingänge.
Ausführungsbeispiele der Erfindung wurden oben näher beschrieben, jedoch ist die Erfindung ausführbar in verschiedenen Varianten mit Abwandlungen, ohne auf die beschriebenen Beispiele beschränkt zu sein.
Beispielsweise sind der Lernalgorithmus und der Rechenalgorithmus, wie sie durch die maschinelle Lernvorrichtung 100 ausgeführt werden, und der Steueralgorithmus, wie er durch die Steuervorrichtung 1 ausgeführt wird, nicht auf die obigen Algorithmen beschränkt; vielmehr können andere Algorithmen eingesetzt werden.
Die obigen Ausführungsbeispiele betreffen eine Steuervorrichtung 1 und eine maschinelle Lernvorrichtung 100 mit unterschiedlichen CPU, jedoch kann die maschinelle Lernvorrichtung 100 auch durch eine CPU 11 verwirklicht werden, die in der Steuervorrichtung 1 enthalten ist und ein Systemprogramm, welches in dem ROM 12 abgespeichert ist.
Weiterhin basiert die obige Beschreibung auf Beispielen, bei denen eine Bedienungsperson Komponenten, die an einer Komponentendarbietungsstelle angeordnet sind, zu einem Produkt zusammenbaut, jedoch kann gemäß der Erfindung das Produkt auch durch einen Montageroboter zusammengebaut werden. Der Oberbegriff für Bedienungsperson und Montageroboter ist hier: Operator. Bei Einsatz eines Montageroboters werden Merkmale des Roboters für den Status des Operators eingesetzt. Wird ein Montageroboter als Operator eingesetzt, werden Daten D2 bezüglich des Leistungsverbrauchs als Bestimmungsdaten verwendet, welche durch die Bestimmungsdaten-Gewinnungseinheit 108 gewonnen werden, wobei die maschinelle Lernvorrichtung 100 eine Komponentenanordnung erlernt, bei welcher der Leistungsverbrauch reduziert wird.

Claims

Steuervorrichtung (1) zum Instruieren einer Anordnung von Komponenten an einer Komponentendarbietungsstelle, wobei die Anordnung durch einen Dienstroboter (2) ausgeführt wird und die Steuervorrichtung (1) aufweist: eine maschinelle Lernvorrichtung (100), welche eine Komponentenanordnung an der Komponentendarbietungsstelle durch den Dienstroboter (2) erlernt, wobei die maschinelle Lernvorrichtung (100) enthält: eine Zustandsüberwachungseinheit (106), welche Komponentenanordnungsdaten (S1) überwacht, die eine Anordnung der Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten (S2), die Informationen bezüglich der Komponenten repräsentieren, und Statusdaten (S3) bezüglich eines Operators, die Statusinformationen bezüglich eines Operators repräsentieren, der ein Produkt mit den Komponenten zusammenbaut, als Zustandsvariablen (S), welche einen momentanen Zustand eines Umfeldes repräsentieren, eine Bestimmungsdaten-Gewinnungseinheit (108), welche Produktqualität-Bestimmungsdaten (D1) gewinnt zum Bestimmen der Qualität des Produktes, welches auf Basis der Anordnung der Komponenten zusammengebaut wird, und Taktzeit-Bestimmungsdaten (D2) zum Bestimmen der Taktzeit für den Zusammenbau des Produktes als Bestimmungsdaten (D), welche ein Eignungsprüfungsergebnis für einen Zusammenbau des Produktes durch den Operator repräsentieren, und eine Lerneinheit (110), welche einen Lernvorgang ausführt auf Basis der Zustandsvariablen (S) und der Bestimmungsdaten (D) derart, dass Informationen der für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen des Operators bezüglich einer Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft werden.
Steuervorrichtung (1) gemäß Anspruch 1, wobei die Lerneinheit (110) enthält: eine Belohnungsberechnungseinheit (112), welche in Abhängigkeit von dem Eignungsprüfungsergebnis Belohnungen (R) gewinnt, und eine Wertefunktion-Aktualisierungseinheit (114), welche unter Verwendung der Belohnung (R) eine Funktion (Q) aktualisiert, welche einen Wert einer Anordnung der Komponenten an der Komponentendarbietungsstelle in Abhängigkeit von Informationen über die Komponenten, die für den Zusammenbau des Produktes verwendet werden, und Informationen bezüglich des Status des Operators repräsentiert, und wobei die Belohnungsberechnungseinheit (112) eine höhere Belohnung (R) zuteilt, wenn die Qualität des Produktes steigt und die Taktzeit kürzer wird.
Steuervorrichtung (1) gemäß Anspruch 1 oder 2, wobei die Lerneinheit (110) die Zustandsvariablen (S) und die Bestimmungsdaten (D) mit einer mehrschichtigen Struktur berechnet.
Steuervorrichtung (1), welche eine Anordnung von Komponenten an einer Komponentendarbietungsstelle instruiert, wobei die Anordnung durch einen Dienstroboter (2) erfolgt und die Steuervorrichtung (1) aufweist: eine maschinelle Lernvorrichtung (100), welche eine Komponentenanordnung an einer Komponentendarbietungsstelle durch einen Dienstroboter (2) erlernt hat, wobei die maschinelle Lernvorrichtung (100) enthält: eine Zustandsüberwachungseinheit (106), welche Komponentenanordnungsdaten (S1) überwacht, die eine Anordnung der Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten (S2), welche Informationen bezüglich der Komponenten repräsentieren, und Statusdaten (S3) bezüglich eines Operators, die Statusinformationen bezüglich eines Operators repräsentieren, der ein Produkt mit den Komponenten zusammenbaut, als Zustandsvariablen (S), welche einen momentanen Zustand eines Umfeldes repräsentieren, eine Lerneinheit (110), welche einen Lernvorgang ausgeführt hat, derart, dass Informationen über die für den Zusammenbau des Produktes verwendete Komponenten und Statusinformationen über den Operator in Bezug auf eine Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft sind, und eine Entscheidungseinheit (122), welche eine Anordnung der Komponenten an der Komponentendarbietungsstelle auf Basis der von der Zustandsüberwachungseinheit überwachten Zustandsvariablen (S) und eines mit der Lerneinheit (110) gewonnenen Lernergebnisses festlegt.
Steuervorrichtung (1) gemäß einem der Ansprüche 1 bis 4, wobei die maschinelle Lernvorrichtung (100) in einem Cloud-Server vorliegt.
Maschinelle Lernvorrichtung (100), welche eine Anordnung von Komponenten an einer Komponentendarbietungsstelle erlernt, wobei die Anordnung durch einen Dienstroboter (2) erfolgt und die maschinelle Lernvorrichtung (100) aufweist: eine Zustandsüberwachungseinheit (106), welche Komponentenanordnungsdaten (S1) überwacht, die eine Anordnung der Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten (S2), welche Informationen bezüglich der Komponenten repräsentieren, und Statusdaten (S3) bezüglich eines Operators, die Statusinformationen bezüglich eines Operators repräsentieren, der ein Produkt mit den Komponenten zusammenbaut, als Zustandsvariablen (S), welche einen momentanen Zustand eines Umfeldes repräsentieren, eine Bestimmungsdaten-Gewinnungseinheit (108), welche Produktqualität-Bestimmungsdaten (D1) gewinnt zum Bestimmen der Qualität des Produktes, welches auf Basis einer Anordnung der Komponenten zusammengebaut wird, und Taktzeit-Bestimmungsdaten (D2) zum Bestimmen der Taktzeit für den Zusammenbau des Produktes als Bestimmungsdaten (D), welche ein Eignungsprüfungsergebnis für einen Zusammenbau des Produktes durch den Operator repräsentieren; und eine Lerneinheit (110), welche einen Lernvorgang ausführt auf Basis der Zustandsvariablen (S) und der Bestimmungsdaten (D) derart, dass Informationen über die für den Zusammenbau des Produktes verwendeten Komponenten und Statusinformationen des Operators bezüglich einer Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft werden.
Maschinelle Lernvorrichtung (100), welche eine Anordnung von Komponenten an einer Komponentendarbietungsstelle erlernt hat, wobei die Anordnung durch einen Dienstroboter (2) ausgeführt wird und die maschinelle Lernvorrichtung (100) aufweist: eine Zustandsüberwachungseinheit (106), welche Komponentenanordnungsdaten (S1) überwacht, die eine Anordnung der Komponenten an der Komponentendarbietungsstelle repräsentieren, sowie Komponentendaten (S2), die Informationen bezüglich der Komponenten repräsentieren, und Statusdaten (S3) bezüglich eines Operators, die Statusinformationen bezüglich eines Operators repräsentieren, der ein Produkt mit den Komponenten zusammenbaut, als Zustandsvariablen (S), welche einen momentanen Zustand eines Umfeldes repräsentieren; eine Lerneinheit (110), welche einen Lernvorgang ausgeführt hat, derart, dass Informationen über die für den Zusammenbau des Produktes verwendete Komponenten und Statusinformationen über den Operator in Bezug auf eine Anordnung der Komponenten an der Komponentendarbietungsstelle verknüpft sind; und eine Entscheidungseinheit (122), welche eine Anordnung der Komponenten an der Komponentendarbietungsstelle auf Basis der von der Zustandsüberwachungseinheit überwachten Zustandsvariablen (S) und eines mit der Lerneinheit (110) gewonnenen Lernergebnisses festlegt.