DE102016015873B3

DE102016015873B3 - Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs

Info

Publication number: DE102016015873B3
Application number: DE102016015873.5A
Authority: DE
Inventors: Takashi Yamazaki; Takumi OYAMA; Shun SUYAMA; Hidetoshi Kumiya; Hiroshi Nakagawa; Daisuke Okanohara; Ryosuke OKUTA; Eiichi Matsumoto; Kazutaka Nakayama; Keigo KAWAAI
Original assignee: Fanuc Corp; Preferred Networks Inc
Current assignee: Fanuc Corp; Preferred Networks Inc
Priority date: 2015-07-31
Filing date: 2016-07-26
Publication date: 2020-10-29
Anticipated expiration: 2036-07-27
Also published as: JP2024069414A; CN113199483A; JP2017064910A; CN106393102B; JP7100426B2; JP2017030135A; JP6522488B2; JP2022145915A; CN106393102A; JP7491971B2; JP2020168719A

Abstract

Vorrichtung für maschinelles Lernen, die einen Arbeitsvorgang eines Roboters (14) zum Aufnehmen, durch eine Handeinheit (13), eines Objekts (12) erlernt, wobei die Vorrichtung umfasst:eine Lerneinheit (32), die konfiguriert ist, um Informationen für das Objekt (12) und einen Kennzeichner für einen Aufnahmevorgang des Roboters durch die Handeinheit (13) aus einer Aufzeichnungseinheit (40) zu erlangen,wobei die Lerneinheit (32) umfasst:eine Fehlerberechnungseinheit (33), die konfiguriert ist, um einen Fehler auf der Grundlage des Kennzeichners und einer Ausgabe aus einem Lernmodell zu berechnen, wobei die Ausgabe durch Eingeben der Informationen für das Objekt in das Lernmodell erzeugt wurde; undeine Lernmodellaktualisierungseinheit (34), die konfiguriert ist, um das Lernmodell gemäß dem Fehler zu aktualisieren, wobeidie Informationen Bilddaten für das Objekt umfassen undder Kennzeichner, der in der Aufzeichnungseinheit gespeichert ist, Informationen bezüglich eines Ergebnisses des Aufnahmevorgangs des Roboters durch die Handeinheit umfasst.

Description

Die vorliegende Erfindung betrifft eine Vorrichtung für maschinelles Lernen, ein Robotersystem und ein maschinelles Lernverfahren zum Lernen eines Arbeitsvorgangs zum Aufnehmen von Werkstücken, die in willkürlicher Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind.
Ein herkömmlich bekanntes Robotersystem greift und transportiert als Schüttgut in einer korbförmigen Kiste eingefüllte Werkstücke durch Verwendung der Handeinheit eines Roboters, wie z.B. in den Japanischen Patenten JP 5 642 738 B2 und JP 5 670 397 B2 offenbart. Ein solches Robotersystem ruft die Positionsinformation von mehreren Werkstücken ab, indem eine über einer korbförmigen Kiste befindliche dreidimensionale Messvorrichtung verwendet wird, und nimmt die Werkstücke basierend auf der abgerufenen Positionsinformation unter Verwendung der Handeinheit eines Roboters nacheinander auf.
Leider kann das oben erwähnte herkömmliche Robotersystem vorzugsweise z.B. das Voreinstellen, wie ein aufzunehmendes Werkstück aus Abstandsbildern von mehreren durch eine dreidimensionale Messvorrichtung vermessenen Werkstücken extrahiert werden soll, und der Position, an der sich ein aufzunehmendes Werkstück befindet, mit sich bringen. Es kann ferner bevorzugt sein, vorab zu programmieren, wie die Handeinheit eines Roboters betrieben werden soll, wenn ein Werkstück aufgenommen wird. Als ein spezifisches Beispiel kann vorzugsweise ein Mensch dem Roboter unter Verwendung eines Programmierhandgeräts lehren, einen Aufnahmevorgang eines Werkstücks auszuführen.
Wenn die Einstellung für das Extrahieren eines aufzunehmenden Werkstücks aus Abstandsbildern von mehreren Werkstücken unsachgemäß ist oder ein Betriebsprogramm für einen Roboter nicht sachgemäß erstellt wird, verringert sich die Erfolgsquote des Aufnehmens und Transportierens eines Werkstücks durch den Roboter. Um die Erfolgsquote zu verbessern, können die Werkstückerkennungseinstellung und das Betriebsprogramm für einen Roboter vorzugsweise weiterentwickelt werden, während durch einen Menschen durch Ausprobieren nach einem optimalen Betrieb des Roboters gesucht wird.
EP 1 862 270 B1 offenbart eine Vorrichtung und ein Verfahren zum Aufnehmen eines Werkstücks. Von einem Bildaufnahmemittel wird ein Bild mehrerer gestapelter Werkstücke aufgenommen. Der gestapelte Zustand nach einem Greifvorgang eines Roboter-Greifarms wird beurteilt, und wenn festgestellt wird, dass ein durchgeführter Greifvorgang den gestapelten Zustand hinsichtlich eines als nächstes zu greifenden Werkstücks nicht verändert hat, wird kein neues Bild aufgenommen, sondern auf den zuvor ermittelten gestapelten Zustand zurückgegriffen.
Aus US 2015/0039129 A1 ist ein Robotersystem bekannt, das einen Roboter mit einem Endeffektor umfasst. Ferner umfasst das Robotersystem eine Bestimmungseinheit, die bestimmt, ob sich unter zugänglichen Werkstücken in einem Behälter, die von dem Endeffektor gehalten werden sollen, ein Werkstück befindet, das von dem Endeffektor gehalten werden kann. Ist dies nicht der Fall, wird ein Bewegungsmoment eines Antriebs des Endeffektors verringert und ein Umschichten der Werkstücke in dem Behälter bei reduziertem Bewegungsmoment mittels des Endeffektors durchgeführt.
Ferner offenbart US 2014/0114888 A1 eine Maschinenlernvorrichtung, die ein Manipulationsmodell unter Verwendung eines Bildes eines ersten und eines zweiten Objekts erstellt. Ein Koordinatensystem wird derart gewählt, dass sich das erste Objekt im Ursprung befindet. Wird das erste Objekt durch das zweite Objekt manipuliert, wird eine Zustandsänderung des ersten Objekts berücksichtigt, wenn sich zugleich ein Zustand des zweiten Objekts ändert.
Aus US 2012/0158180 A1 ist zudem eine Greifvorrichtung mit einem Roboterarm und einer Kamera bekannt. Anhand von Bilddaten wird ein dreidimensionales Modell zu greifender Objekte erstellt, das nach einem Greifvorgang aktualisiert wird.
JP 2014-206795 A offenbart ein Maschinenlernverfahren, das sich auf ein verstärkendes Lernen stützt. Dabei wird anhand einer vorherigen und einer aktuellen Zustandsinformation, einer vorherigen und einer aktuellen Aktionsinformation und einer aktuellen Belohnungsinformation ein Lernmodell aktualisiert. Dabei wird ein Aktualisierungsumfang eines Modellparameters für eine Maßfunktion berechnet, die durch ein lineares Modell genähert wird.
Des Weiteren offenbart JP 2013-052490 A eine Vorrichtung zum Aufnehmen eines Werkstücks aus mehreren Werkstücken, die eine Eigenschaftsbestimmungseinheit aufweist. Diese schätzt anhand von Sensordaten, welches Werkstück einfach zu greifen ist. Anstatt ein schwer zu greifendes Werkstück aufzunehmen, wird ggf. wenigstens ein Greifparameter angepasst.
Unter Berücksichtigung der oben beschriebenen Situation ist es eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung für maschinelles Lernen, ein Lernmodell, ein Robotersystem, ein Verfahren zum Aufnehmen eines Objekts durch eine Handeinheit und ein Verfahren für maschinelles Lernen bereitzustellen, die ein Erlernen eines optimalen Arbeitsvorgangs eines Roboters beim Aufnehmen von Werkstücken durch eine Handeinheit ohne menschliches Eingreifen ermöglichen.
Diese Aufgabe wird erfindungsgemäß gelöst durch eine Vorrichtung für maschinelles Lernen mit den Merkmalen des Anspruchs 1, ein Lernmodell mit den Merkmalen des Anspruchs 4, ein Robotersystem mit den Merkmalen des Anspruchs 5, eine Vorrichtung für maschinelles Lernen mit den Merkmalen des Anspruchs 11, ein Robotersystem mit den Merkmalen des Anspruchs 15, ein Verfahren zum Aufnehmen eines Objekts durch eine Handeinheit mit den Merkmalen des Anspruchs 17 und ein Verfahren für maschinelles Lernen mit den Merkmalen des Anspruchs 18. Weiterbildungen sind den Unteransprüchen zu entnehmen.
Gemäß einem ersten Aspekt wird eine Vorrichtung für maschinelles Lernen bereitgestellt, die einen Arbeitsvorgang eines Roboters zum Aufnehmen, durch eine Handeinheit, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, wobei die Vorrichtung umfasst: eine Zustandsvariablen-Beobachtungseinheit, die eine Zustandsvariable beobachtet, die einen Zustand des Roboters darstellt und die von einer dreidimensionalen Messvorrichtung, die eine dreidimensionale Abbildung für jedes Werkstück abruft, ausgegebene Daten umfasst; eine Arbeitsergebnis-Abrufeinheit, die ein Ergebnis eines Aufnahmevorgangs des Roboters zum Aufnehmen des Werkstücks durch die Handeinheit abruft; und eine Lerneinheit, die, im Zusammenhang mit der Zustandsvariablen des Roboters und dem Ergebnis des Aufnahmevorgangs, wenn die Ausgabe von der Zustandsvariablen-Beobachtungseinheit und die Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit empfangen wird, eine Stellgröße lernt, die Befehlsdaten umfasst, um dem Roboter anzuweisen, den Aufnahmevorgang des Werkstücks auszuführen. Die Vorrichtung für maschinelles Lernen kann ferner eine Entscheidungseinheit umfassen, die über die Befehlsdaten zum Anweisen des Roboters durch Bezug auf die durch die Lerneinheit gelernte Stellgröße entscheidet.
Gemäß einem zweiten Aspekt wird eine Vorrichtung für maschinelles Lernen bereitgestellt, die einen Arbeitsvorgang eines Roboters zum Aufnehmen, durch eine Handeinheit, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, wobei die Vorrichtung umfasst: eine Zustandsvariablen-Beobachtungseinheit, die eine Zustandsvariable beobachtet, die einen Zustand des Roboters darstellt und die von einer dreidimensionalen Messvorrichtung, die eine dreidimensionale Abbildung für jedes Werkstück misst, ausgegebene Daten umfasst; eine Arbeitsvorgangsergebnis-Abrufeinheit, die ein Ergebnis eines Aufnahmevorgangs des Roboters zum Aufnehmen des Werkstücks durch die Handeinheit abruft; und eine Lerneinheit, die, im Zusammenhang mit der Zustandsvariablen des Roboters und dem Ergebnis des Aufnahmevorgangs, wenn die Ausgabe von der Zustandsvariablen-Beobachtungseinheit und die Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit empfangen wird, eine Stellgröße lernt, die einen Messparameter der dreidimensionalen Messvorrichtung umfasst. Die Vorrichtung für maschinelles Lernen kann ferner eine Entscheidungseinheit umfassen, die über den Messparameter der dreidimensionalen Messvorrichtung durch Bezug auf die durch die Lerneinheit gelernte Stellgröße entscheidet.
Die Zustandsvariablen-Beobachtungseinheit kann ferner eine Zustandsvariable des Roboters beobachten, die Ausgabedaten von einer Koordinaten-Berechnungseinheit umfasst, die eine dreidimensionale Position für jedes Werkstück basierend auf der Ausgabe der dreidimensionalen Messvorrichtung berechnet. Die Koordinaten-Berechnungseinheit kann ferner eine Orientierung für jedes Werkstück berechnen und gibt Daten der dreidimensionalen Position und der für jedes Werkstück berechneten Orientierung aus. Die Arbeitsvorgangsergebnis-Abrufeinheit kann die von der dreidimensionalen Messvorrichtung ausgegebenen Daten nutzen. Die Vorrichtung für maschinelles Lernen kann ferner eine Vorverarbeitungseinheit umfassen, die die von der dreidimensionalen Messvorrichtung ausgegebenen Daten verarbeitet, bevor die Daten in die Zustandsvariablen-Beobachtungseinheit eingegeben werden, wobei die Zustandsvariablen-Beobachtungseinheit von der Vorverarbeitungseinheit ausgegebene Daten als eine Zustandsvariable des Roboters empfangen kann. Die Vorverarbeitungseinheit kann jedes Werkstück in Richtung und Höhe in den von der dreidimensionalen Messvorrichtung ausgegebenen Daten vereinheitlichen. Die Arbeitsvorgangsergebnis-Abrufeinheit kann mindestens eine der Informationen abrufen, die eines von einem Erfolg und einem Misserfolg beim Aufnehmen des Werkstücks, einem Zustand der Beschädigung des Werkstücks und einem Erreichungsstand beim Weiterleiten des aufgenommenen Werkstücks zu einem Folgeprozess anzeigt.
Die Lerneinheit kann eine Belohnungs-Berechnungseinheit umfassen, die basierend auf der Ausgabe der Arbeitsvorgangsergebnis-Abrufeinheit eine Belohnung berechnet; und eine Wertefunktion-Aktualisierungseinheit umfassen, die eine Wertefunktion umfasst, die einen Wert des Aufnahmevorgangs des Werkstücks beschreibt und die Wertefunktion entsprechend der Belohnung aktualisiert. Die Lerneinheit kann ein Lernmodell zum Lernen des Aufnahmevorgangs des Werkstücks umfassen und die Lerneinheit kann ferner eine Fehlerberechnungseinheit umfassen, die basierend auf der Ausgabe der Arbeitsvorgangsergebnis-Abrufeinheit und der Ausgabe des Lernmodells einen Fehler berechnet; und eine Lernmodell-Aktualisierungseinheit umfassen, die das Lernmodell entsprechend dem Fehler aktualisiert. Die Vorrichtung für maschinelles Lernen kann ein neurales Netzwerk umfassen.
Gemäß einem dritten Aspekt wird ein Robotersystem bereitgestellt, das eine Vorrichtung für maschinelles Lernen umfasst, die einen Arbeitsvorgang eines Roboters zum Aufnehmen, durch eine Handeinheit, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, wobei die Vorrichtung umfasst: eine Zustandsvariablen-Beobachtungseinheit, die eine Zustandsvariable beobachtet, die einen Zustand des Roboters darstellt und die von einer dreidimensionalen Messvorrichtung, die eine dreidimensionale Abbildung für jedes Werkstück abruft, ausgegebene Daten umfasst; eine Arbeitsergebnis-Abrufeinheit, die ein Ergebnis eines Aufnahme-Arbeitsvorgangs des Roboters zum Aufnehmen des Werkstücks durch die Handeinheit abruft; und eine Lerneinheit, die, im Zusammenhang mit der Zustandsvariablen des Roboters und dem Ergebnis des Aufnahmevorgangs, wenn die Ausgabe von der Zustandsvariablen-Beobachtungseinheit und die Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit empfangen wird, eine Stellgröße lernt, die Befehlsdaten umfasst, um dem Roboter anzuweisen, den Aufnahmevorgang des Werkstücks auszuführen, wobei das System ferner den Roboter, die dreidimensionale Messvorrichtung und eine Steuerung, die selbstständig den Roboter und die dreidimensionale Messvorrichtung steuert, umfasst.
Gemäß einem vierten Aspekt wird ein Robotersystem bereitgestellt, das eine Vorrichtung für maschinelles Lernen umfasst, die einen Arbeitsvorgang eines Roboters zum Aufnehmen, durch eine Handeinheit, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, wobei die Vorrichtung umfasst: eine Zustandsvariablen-Beobachtungseinheit, die eine Zustandsvariable beobachtet, die einen Zustand des Roboters darstellt und von einer dreidimensionalen Messvorrichtung, die eine dreidimensionale Abbildung für jedes Werkstück abmisst, ausgegebene Daten umfasst; eine Arbeitsvorgangsergebnis-Abrufeinheit, die ein Ergebnis eines Aufnahme-Arbeitsvorgangs des Roboters zum Aufnehmen des Werkstücks durch die Handeinheit abruft; und eine Lerneinheit, die, im Zusammenhang mit der Zustandsvariablen des Roboters und dem Ergebnis des Aufnahmevorgangs, wenn die Ausgabe von der Zustandsvariablen-Beobachtungseinheit und die Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit empfangen wird, eine Stellgröße lernt, die einen Messparameter der dreidimensionalen Messvorrichtung umfasst, wobei das System ferner den Roboter, die dreidimensionale Messvorrichtung und eine Steuerung, die selbstständig den Roboter und die dreidimensionale Messvorrichtung steuert, umfasst.
Das Robotersystem kann mehrere Roboter umfassen, die Vorrichtung für maschinelles Lernen wird für jeden Roboter bereitgestellt, und die mehreren Vorrichtungen für maschinelles Lernen, die für die mehreren Roboter bereitgestellt werden, sind dazu eingerichtet, über ein Kommunikationsmedium Daten gemeinsam zu nutzen oder miteinander auszutauschen. Die Vorrichtung für maschinelles Lernen kann sich auf einem Cloud-Server befinden.
Gemäß einem fünften Aspekt wird ein maschinelles Lernverfahren zum Lernen eines Arbeitsvorgangs eines Roboters zum Aufnehmen, durch eine Handeinheit, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, bereitgestellt, wobei das Verfahren umfasst: Beobachten einer Zustandsvariablen, die einen Zustand des Roboters darstellt und die von einer dreidimensionalen Messvorrichtung, die eine dreidimensionale Position für jedes Werkstück misst, ausgegebene Daten umfasst; Abrufen eines Ergebnisses des Aufnahmevorgangs des Roboters zum Aufnehmen des Werkstücks durch die Handeinheit; und Lernen, im Zusammenhang mit der beobachteten Zustandsvariablen des Roboters und dem abgerufenen Ergebnis des Aufnahmevorgangs des Roboters, wenn die Zustandsvariable und das Ergebnis des Aufnahmevorgangs des Roboters empfangen wird, einer Stellgröße, die Befehlsdaten zum Anweisen des Roboters, den Aufnahmevorgang des Werkstücks auszuführen, umfasst.
Die vorliegende Erfindung wird mit Bezug auf die beigefügten Zeichnungen deutlicher verstanden werden, wobei

1 ein Blockdiagramm ist, das die konzeptionelle Ausgestaltung eines Robotersystems in einer Ausführungsform der vorliegenden Erfindung darstellt;
2 ein Schaubild ist, das schematisch ein Modell für ein Neuron darstellt;
3 ein Schaubild ist, das schematisch ein dreischichtiges neurales Netzwerk darstellt, das durch Zusammenfassen von wie als 2 dargestellten Neuronen gebildet wird;
4 ein Ablaufdiagramm ist, das einen beispielhaften Arbeitsablauf der als 1 dargestellten Vorrichtung für maschinelles Lernen darstellt;
5 ein Blockdiagramm ist, das die konzeptionelle Ausgestaltung eines Robotersystems in einer weiteren Ausführungsform der vorliegenden Erfindung darstellt;
6 Ansichten darstellt, um eine beispielhafte Verarbeitung einer Vorverarbeitungseinheit in dem als 5 dargestellten Robotersystem zu erklären; und
7 ein Blockdiagramm ist, das eine Modifikation des als 1 dargestellten Robotersystems darstellt.

Nachfolgend werden eine Vorrichtung für maschinelles Lernen, ein Robotersystem und ein maschinelles Lernverfahren gemäß der vorliegenden Erfindung ausführlich mit Bezug auf die beigefügten Zeichnungen beschrieben. Es versteht sich jedoch, dass die vorliegende Erfindung weder auf die Zeichnungen noch die folgenden Ausführungsformen beschränkt werden soll. In den Zeichnungen bezeichnen gleiche Bezugszeichen die gleichen Teile. Des Weiteren bezeichnen gleiche Bezugszeichen Komponenten, die die gleichen Funktionen aufweisen. Zum leichteren Verständnis werden in diesen Zeichnungen zweckmäßigerweise unterschiedliche Maßstäbe verwendet.
Die 1 ist ein Blockdiagramm, das die konzeptionelle Ausgestaltung eines Robotersystems in einer Ausführungsform der vorliegenden Erfindung darstellt. Ein Robotersystem 10 in dieser Ausführungsform umfasst einen Roboter 14, eine dreidimensionale Messvorrichtung 15, eine Steuerung 16, eine Koordinaten-Berechnungseinheit 19 und eine Vorrichtung für maschinelles Lernen 20. Der Roboter 14 ist mit einer Handeinheit 13 ausgerüstet, die lose in einer korbförmigen Kiste 11 eingefüllte Werkstücke 12 greift. Die dreidimensionale Messvorrichtung 15 misst eine dreidimensionale Abbildung der Oberflächen des Werkstücks 12. Die Steuerung 16 steuert selbstständig den Roboter 14 und die dreidimensionale Messvorrichtung 15.
Die Vorrichtung für maschinelles Lernen 20 umfasst eine Zustandsvariablen(Zustandsgrößen)-Beobachtungseinheit 21, eine Arbeitsvorgangsergebnis-Abrufeinheit 26, eine Lerneinheit 22 und eine Entscheidungseinheit 25. Die Vorrichtung für maschinelles Lernen 20 lernt Stellgrößen, wie Befehlsdaten zum Anweisen des Roboters 14, einen Aufnahmevorgang des Werkstücks 12 auszuführen, oder Messparameter der dreidimensionalen Messvorrichtung 15, und gibt sie aus, wie später beschrieben wird.
Der Roboter 14 wird z.B. als sechsachsiger Mehrgelenkroboter verwirklicht. Die jeweiligen Antriebswellen des Roboters 14 und die Handeinheit 13 werden durch die Steuerung 16 gesteuert. Der Roboter 14 wird dazu verwendet, die Werkstücke 12 nacheinander aus der an einer vorbestimmten Position abgestellten Kiste 11 aufzunehmen, um sie der Reihe nach zu einer vorgesehenen Position, wie einer Fördereinrichtung oder einen Arbeitstisch (nicht dargestellt) zu bewegen.
Beim Aufnehmen der lose aufgeschütteten Werkstücke 12 aus der Kiste 12 kann die Handeinheit 13 oder können die Werkstücke 12 mit der Wand der Kiste 11 kollidieren oder mit ihr in Kontakt kommen. In anderen Fällen kann die Handeinheit 13 oder ein Werkstück 12 an einem anderen Werkstück 12 hängen bleiben. In einem solchen Fall kann die Funktion des Erkennens einer auf die Handeinheit 13 wirkenden Kraft vorzugsweise dazu verwendet werden, das Auferlegen einer zu hohen Belastung auf den Roboter sofort zu vermeiden. Aus diesem Grund wird ein sechsachsiger Kraftsensor 17 zwischen die Handeinheit 13 und die Spitze der Armeinheit des Roboters 14 geschaltet. Das Robotersystem 10 in dieser Ausführungsform umfasst ebenfalls die Funktion, basierend auf dem Stromwert eines Motors (nicht dargestellt), der die Antriebswelle von jeder Gelenkeinheit des Roboters 14 antreibt, die auf die Handeinheit 13 wirkenden Kraft zu schätzen.
Da der Kraftsensor 17 eine auf die Handeinheit 13 wirkende Kraft erkennen kann, kann ebenfalls bestimmt werden, ob die Handeinheit 13 tatsächlich das Werkstück 12 greift. Mit anderen Worten, wenn die Handeinheit 13 das Werkstück 12 greift, dann wirkt das Gewicht des Werkstücks 12 auf die Handeinheit 13 und es kann somit bestimmt werden, dass die Handeinheit 13 das Werkstück 12 greift, wenn der durch den Kraftsensor 17 erkannte Wert nach dem Aufnehmen des Werkstücks 12 größer als ein vorbestimmter Grenzwert ist. Es kann ebenfalls bestimmt werden, z.B. basierend auf Daten, die durch eine für die dreidimensionale Messvorrichtung 15 verwendete Kamera aufgenommen werden, oder der Ausgabe eines an der Handeinheit 13 befestigten photoelektrischen Sensors (nicht dargestellt) oder dergleichen, ob die Handeinheit 13 das Werkstück 12 greift. Diese Bestimmung kann basierend auf Daten ausgeführt werden, die durch einen Druckmesser für eine Ansaughand abgerufen werden (wird später noch beschrieben).
Die Handeinheit 13 kann verschiedene Formen annehmen, sofern sie das Werkstück 12 halten kann. Beispielsweise kann die Handeinheit 13 eine Form annehmen, in der sie das Werkstück 12 durch Öffnen und Schließen zweier Greiferteile greift, oder sie kann einen Elektromagneten oder einen Unterdruckgenerator umfassen, der eine Ansaugkraft erzeugt, um auf das Werkstück 12 einzuwirken. Mit anderen Worten, obwohl die Handeinheit 13 das Werkstück mit seinen zwei Greiferteilen in 1 greift, ist die Handeinheit 13 selbstverständlich nicht darauf beschränkt.
Die dreidimensionale Messvorrichtung 15 ist durch eine Trägereinheit 18 an einer vorbestimmten Position oberhalb mehrerer Werkstücke 12 positioniert, um die mehreren Werkstücke 12 zu messen. Beispiele der dreidimensionalen Messvorrichtung 15 können einen dreidimensionalen Vision-Sensor umfassen, der dreidimensionale Positionsinformationen durch Verarbeiten von Bilddaten des durch zwei Kameras (nicht dargestellt) aufgenommenen Werkstücks 12 abruft. Insbesondere wird eine dreidimensionale Abbildung (die Oberflächenpositionen von mehreren lose aufgeschütteten Werkstücken 12) gemessen, indem z.B. das Triangulationsverfahren, das optische Schneidverfahren, das Laufzeitverfahren, das Depth-from-Defocus-Verfahren oder Kombinationen davon verwendet werden.
Die Koordinaten-Berechnungseinheit 19 berechnet (misst) die Oberflächenpositionen von mehreren lose aufgeschütteten Werkstücken 12 unter Verwendung der durch die dreidimensionale Messvorrichtung 15 abgerufenen dreidimensionalen Abbildung als Eingabe. Mit anderen Worten, dreidimensionale Positionsdaten (x, y, z) oder dreidimensionale Positionsdaten (x, y, z) und Orientierungsdaten (w, p, r) können für jedes Werkstück 12 durch Verwendung der Ausgabe der dreidimensionalen Messvorrichtung 15 abgerufen werden. Obwohl die Zustandsvariablen-Beobachtungseinheit 21 sowohl die dreidimensionale Abbildung von der dreidimensionalen Messvorrichtung 15 als auch die Positionsdaten (Orientierungsdaten) von der Koordinaten-Berechnungseinheit 19 empfängt und die Zustandsvariable (Zustandsgröße) beobachtet, die einen Zustand des Roboters 14 darstellt, kann sie ebenfalls, z.B., nur die dreidimensionale Abbildung von der dreidimensionalen Messvorrichtung 15 empfangen und die Zustandsvariable des Roboters 14 beobachten. Eine Vorverarbeitungseinheit 50 kann hinzugefügt werden und dazu verwendet werden, die dreidimensionale Abbildung von der dreidimensionalen Messvorrichtung 15 zu verarbeiten (vorverarbeiten), bevor die dreidimensionale Abbildung in die Zustandsvariablen-Beobachtungseinheit 21 eingegeben wird, und dann die verarbeitete dreidimensionale Abbildung in die Zustandsvariablen-Beobachtungseinheit 21 einzugeben, wie später mit Bezug auf die 5 beschrieben wird.
Die relative Position zwischen dem Roboter 14 und der dreidimensionalen Messvorrichtung 15 wird vorab durch eine Kalibration bestimmt. Die dreidimensionale Messvorrichtung 15 gemäß der vorliegenden Erfindung kann ein Laser-Entfernungsmesser anstatt eines dreidimensionalen Vision-Sensors sein. Mit anderen Worten, der Abstand von der Position der dreidimensionalen Messvorrichtung 15 zur Oberfläche eines jeden Werkstücks 12 kann durch Laserabtastung gemessen werden, oder es können verschiedene Sensoren, wie eine monokulare Kamera oder ein Berührungssensor verwendet werden, um dreidimensionale Positionen und Orientierungsdaten (x, y, z, w, p, r) von mehreren lose aufgeschütteten Werkstücken 12 abzurufen.
Mit anderen Worten, gemäß der vorliegenden Erfindung ist eine dreidimensionale Messvorrichtung 15, die eine beliebige Art von geeignetem dreidimensionalem Messverfahren verwendet, anwendbar, solange wie, z.B., Daten (x, y, z, w, p, r) für jedes Werkstück 12 abgerufen werden können. Außerdem ist die Art und Weise, in der eine dreidimensionale Messvorrichtung 15 angeordnet wird, nicht besonders eingeschränkt, und die dreidimensionale Messvorrichtung 15 kann an einem Fußboden, einer Wand oder dergleichen befestigt werden oder kann an der Armeinheit des Roboters 14 oder dergleichen angebracht werden.
Die dreidimensionale Messvorrichtung 15 ruft in Erwiderung eines Befehls von der Steuerung 16 eine dreidimensionale Abbildung von mehreren in der Kiste 11 lose aufgeschütteten Werkstücken 12 ab. Die Koordinaten-Berechnungseinheit 19 ruft (berechnet) basierend auf der dreidimensionalen Abbildung Daten der dreidimensionalen Positionen der mehreren Werkstücke 12 ab und gibt die Daten an die Steuerung 16 und die Zustandsvariablen-Beobachtungseinheit 21 und die Arbeitsvorgangsergebnis-Abrufeinheit 26 der Vorrichtung für maschinelles Lernen 20 aus (wie später beschrieben). Insbesondere schätzt beispielsweise die Koordinaten-Berechnungseinheit 19 basierend auf durch Erfassen der mehreren Werkstücke 12 erzeugten Bilddaten die Grenzlinie zwischen einem Werkstück 12 und einem weiteren Werkstück 12 oder zwischen den Werkstücken 12 und der Kiste 11, um dreidimensionale Positionsdaten für jedes Werkstück 12 abzurufen.
Die dreidimensionalen Positionsdaten für jedes Werkstück 12 betreffen z.B. Daten, die durch Schätzen der Position, in der jedes der mehreren lose aufgeschütteten Werkstücke 12 positioniert ist oder gehalten werden kann, aus den Positionen von mehreren Punkten auf den Oberflächen der Werkstücke 12 abgerufen werden können. Die dreidimensionalen Positionsdaten für jedes Werkstück 12 können selbstverständlich Daten der Orientierungen der Werkstücke 12 umfassen.
Das Abrufen von dreidimensionalen Positions- und Orientierungsdaten für jedes Werkstück 12 durch die Koordinaten-Berechnungseinheit 19 umfasst die Nutzung der maschinellen Lerntechnik. Objekterkennung, Winkelschätzung oder dergleichen aus einem eingegebenen Bild, ein Laser-Entfernungsmesser oder dergleichen, das Verwenden einer Technik, wie überwachtes Lernen (wird später beschrieben), können ebenfalls angewendet werden.
Wenn dreidimensionale Daten für jedes Werkstück 12 von der dreidimensionalen Messvorrichtung 15 über die Koordinaten-Berechnungseinheit 19 in die Steuerung 16 eingegeben werden, dann steuert die Steuerung 16 einen Arbeitsvorgang der Handeinheit 13 zum Aufnehmen eines Werkstücks 12 aus der Kiste 11. Zu diesem Zeitpunkt werden die Motoren (nicht dargestellt) für die Achsen der Handeinheit 13 und des Roboters 14 basierend auf Befehlswerten (Stellgrößen) angetrieben, die einer optimalen Position, Orientierung und Aufnahmerichtung der Handeinheit 13 entsprechen und durch die Vorrichtung für maschinelles Lernen 20 abgerufen werden (wird später beschrieben).
Die Vorrichtung für maschinelles Lernen 20 kann ebenfalls Variablen für die Bildaufnahmebedingungen einer Kamera lernen, die für die dreidimensionale Messvorrichtung 15 (Messparameter der dreidimensionalen Messvorrichtung 15: z.B. die Belichtungszeit, die bei der Bildaufnahme mittels eines Belichtungsmessers eingestellt wird, und die Beleuchtung eines Beleuchtungssystems, die ein aufzunehmendes Objekt beleuchtet) verwendet wird, und die dreidimensionale Messvorrichtung 15 basierend auf den gelernten Messparametern und Stellgrößen über die Steuerung 16 steuern. Die Variablen für die Positions- und Orientierungs-Schätzbedingungen, die zum Schätzen der Position und der Orientierung, an der sich das Werkstück 12 befindet oder gehalten werden kann, aus den Positionen der mehreren durch die dreidimensionale Messvorrichtung 15 gemessenen Werkstücken 12 verwendet werden, können in den von der oben erwähnten dreidimensionalen Messvorrichtung 15 ausgegebenen Daten enthalten sein.
Des Weiteren können die von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten z.B. durch die Vorverarbeitungseinheit 50 (wird später ausführlich mit Bezug auf 5 beschrieben) vorverarbeitet werden, und die verarbeiteten Daten (Bilddaten) können der Zustandsvariablen-Beobachtungseinheit 21 zugeführt werden, wie zuvor beschrieben. Die Arbeitsvorgangsergebnis-Abrufeinheit 26 kann beispielsweise ein Ergebnis des Aufnehmens des Werkstücks 12 durch die Handeinheit 13 des Roboters 14 aus von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten (von der koordinaten-Berechnungseinheit 19 ausgegebenen Daten) abrufen, und kann selbstverständlich aber auch den Erreichungsstand beim Weiterleiten des aufgegriffenen Werkstücks 12 zu einem Folgeprozess abrufen, sowie über andere Mittel (z.B. eine Kamera oder einen Sensor, die im Folgeprozess eingerichtet sind) ein Arbeitsvorgangsergebnis abrufen, das anzeigt, ob das aufgegriffene Werkstück Änderungen, wie Zerbrechen, erlitten hat. In der vorangehenden Beschreibung dienen die Zustandsvariablen-Beobachtungseinheit 21 und die Arbeitsvorgangsergebnis-Abrufeinheit 26 als Funktionsblöcke und können auch so gesehen werden, dass sie die beiden Funktionen durch einen einzelnen Block erfüllen.
Die als 1 dargestellte Vorrichtung für maschinelles Lernen 20 wird nachfolgend ausführlich beschrieben. Die Vorrichtung für maschinelles Lernen 20 hat die Funktion zum Extrahieren, z.B. einer nützlichen Regel, einer Wissensrepräsentation und eines Bestimmungskriteriums basierend auf einer Analyse eines in die Vorrichtung eingegebenen Datensatzes, Ausgeben der Bestimmungsergebnisse und Lernens des Wissens (maschinelles Lernen). Es ist eine Vielzahl von Lerntechniken verfügbar, die grob in z.B. „überwachtes Lernen“, „unüberwachtes Lernen“ und „bestärkendes Lernen“ klassifiziert werden. Um diese Techniken umzusetzen, ist eine weitere, als „Deep Learning“ bezeichnete Technik verfügbar, bei der das Extrahieren von Merkmalsbeträgen selbst gelernt wird. Obwohl diese Arten des maschinellen Lernens (Vorrichtung für maschinelles Lernen 20) einen Allzweck-Computer oder -Prozessor verwenden können, ermöglicht die Verwendung von z.B. GPGPU (General-Purpose computing on Graphics Processing Units) oder großformatigen PC-Clustern eine höhere Verarbeitungsgeschwindigkeit.
Zunächst wird beim überwachten Lernen eine große Anzahl von Datensätzen von bestimmten Eingaben und Ergebnissen (Labels) in die Vorrichtung für maschinelles Lernen 20 eingegeben, die in diesen Datensätzen beobachtete Merkmale lernt und induktiv ein Modell zum Schätzen des Ergebnisses aus der Eingabe, d.h. ihrer Beziehung, erlernt. Das überwachte Lernen ist auf diese Ausführungsform anwendbar für die Verwendung in z.B. einem Abschnitt, in dem eine Werkstückposition aus einer Sensoreingabe geschätzt wird, oder einem Abschnitt, in dem eine Erfolgswahrscheinlichkeit des Abrufens eines Werkstückkandidatens geschätzt wird. Überwachtes Lernen kann durch Verwendung eines Algorithmus, wie eines neuralen Netzwerks (wird später beschrieben), verwirklicht werden.
Beim unüberwachten Lernen werden nur Eingabedaten in großer Menge in eine Lernvorrichtung eingegeben, die die Verteilung der Eingabedaten lernt und wiederum ein Lernen mit einer Vorrichtung ausführt, die z.B. die Eingabedaten komprimiert, klassifiziert und die eingegeben Daten formt, ohne dass entsprechende Lehrer-Ausgabedaten in die Lernvorrichtung eingegeben werden. Dies ermöglicht, z.B. das Zusammenfassen von in diesen Datensätzen gesehenen Merkmalen in ähnliche Merkmale. Das erzielte Ergebnis kann dazu verwendet werden, bestimmte Kriterien zu definieren und Ausgaben in optimierter Weise entsprechend den Kriterien zuzuordnen und somit eine Ausgabe vorherzusagen.
Eine zwischen dem unüberwachten Lernen und überwachten Lernen liegende Problemlösung, die als teilüberwachtes Lernen bezeichnet wird, ist ebenfalls verfügbar. Dies trifft zu, wenn beispielsweise nur einige Daten als Datensätze von Eingaben und Ausgaben dienen und die übrigen Daten nur Eingaben umfassen. In dieser Ausführungsform kann das Lernen effektiv ausgeführt werden, indem Daten (z.B. Bilddaten oder Simulationsdaten) auch ohne aktuelle Bewegung des Roboters auf unüberwachtes Lernen angewendet werden können.
Bestärkendes Lernen wird nachfolgend beschrieben. Die Problemlösung des bestärkenden Lernens wird wie folgt berücksichtigt:

Der Roboter beobachtet den Umweltzustand, um über seine Aktion zu entscheiden;
Die Umwelt kann sich entsprechend einer bestimmten Regel ändern, und ein Mensch kann die Umwelt durch seine/ihre eigene Aktion ändern;

Ein Belohnungssignal wird jedes Mal zurückgesendet, wenn eine Aktion erfolgt;
Die Summe von (diskontierten) Belohnungen in der Zukunft ist zu maximieren;
Das Lernen startet in einem Zustand, in dem ein durch die Aktion herbeizuführendes Ergebnis völlig unbekannt oder nur unvollständig bekannt ist. Mit anderen Worten, der Roboter kann das Ergebnis einer Aktion als Daten erst dann abrufen, nachdem sie tatsächlich ergriffen ist. Dies bedeutet, dass eine optimale Aktion vorzugsweise durch Ausprobieren gesucht wird; und
Das Lernen kann an einem guten Startpunkt gestartet werden, indem aus dem Zustand gestartet wird, in dem das Lernen vorab ausgeführt wurde, um menschliche Verhaltensweisen zu imitieren (eine Technik wie das oben erwähnte überwachte Lernen oder inverse bestärkende Lernen).
Beim bestärkenden Lernen wird, zusätzlich zur Bestimmung und Klassifizierung, eine Aktion gelernt, um ein Verfahren zu erhalten, um eine geeignete Aktion unter Berücksichtigung von durch die Aktion auf die Umwelt ausgeübten Interaktionen zu lernen, d.h., zu lernen, die in der Zukunft zu erzielende Belohnung zu maximieren. In dieser Ausführungsform bedeutet dies, zum Beispiel, eine Aktion mit Einfluss auf die Zukunft zu erreichen, wie das Auseinanderbrechen einer Anhäufung von Werkstücken 12, um das Aufnehmen von Werkstücken 12 in der Zukunft zu erleichtern. Obwohl diese Beschreibung von einem Beispiel des Q-Lernens gefolgt wird, ist die vorliegende Erfindung nicht darauf beschränkt.
Beim Q-Lernen wird ein Wert Q(s, a) der Auswahl einer Aktion a in einem bestimmten Umweltzustand s gelernt. Mit anderen Worten, eine Aktion mit dem höchsten Wert Q(s, a) in dem bestimmten Zustand s kann vorzugsweise als eine optimale Aktion gewählt werden. Zunächst ist jedoch ein korrekter Wert Q(s, a) völlig unbekannt für ein Paar aus einem Zustand s und einer Aktion a. Der Agent (der Gegenstand einer Aktion) wählt verschiedene Aktionen a in dem bestimmten Zustand s aus und es werden Belohnungen für die Aktionen a angeboten. Mit diesem Arbeitsvorgang lernt der Agent, eine bessere Aktion, d.h. einen korrekten Wert Q(s, a) auszuwählen.
Um die Summe von in der Zukunft zu erzielenden Belohnungen als ein Ergebnis der Aktionen zu maximieren, muss letztendlich Q(s, a) = E[Σ(γ^t)r_t] erfüllt werden, wobei E[] der erwartete Wert ist, t die Zeit ist, γ ein Parameter ist, der als Diskontierungsrate (wird später beschrieben) bezeichnet wird, r_t die Belohnung zur Zeit t ist und Σ die Summe zur Zeit t ist. Der erwartete Wert in diesem Ausdruck wird in Erwiderung auf eine einer optimalen Aktion folgenden Änderung des Zustands aufgenommen und ist ein unbekannter Wert, der durch eine Suche gelernt wird. Ein aktualisierter Ausdruck eines solchen Werts Q(s, a) wird z.B. gegeben durch: $Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α (r_{r + 1} + γ max_{a} Q (s_{t + 1}, a) - Q (s_{t}, a_{t}))$
wobei s_t der Umweltzustand zur Zeit t ist und a_t die Aktion zur Zeit t ist. Bei der Aktion a_t ändert sich der Zustand auf s_t+1. r_t+1 ist die bei einer Änderung des Zustands empfangene Belohnung. Der an max angehängte Ausdruck ist das Produkt des Q-Werts multipliziert mit γ, wenn eine Aktion mit dem höchsten bekannten Q-Wert im Zustand s_t+1 gewählt wird. γ ist ein Parameter, der als Diskontierungsrate bezeichnet wird, der 0 < y ≤ 1 erfüllt. α ist ein Lernfaktor der 0 < α ≤ 1 erfüllt.
Der Ausdruck (1) repräsentiert ein Verfahren zum Aktualisieren, basierend auf der als ein Ergebnis des Versuchs a_t zurückgesendeten Belohnung r_t+1, des Bewertungswerts Q(s_t, a_t) der Aktion a_t im Zustand s_t. Wenn insbesondere die Summe der Belohnung r_t+1 und des Bewertungswerts Q(s_t+1, max a_t+1) der besten Aktion max a im Zustand nach dem Zustand s nach der Aktion a größer als der Bewertungswert Q(s_t, a_t) der Aktion a im Zustand s ist, dann wird Q(s_t, a_t) erhöht; ansonsten wird Q(s_t, a_t) reduziert. Mit anderen Worten, der Wert einer bestimmten Aktion in einem bestimmten Zustand wird nahe an die unmittelbar als ein Ergebnis zurückgesendete Belohnung und dem Wert der besten Aktion in dem nach der bestimmten Aktion folgenden Zustand gebracht.
Verfahren zum Darstellen von Q(s, a) auf dem Computer umfassen ein Verfahren zum Festhalten der numerischen Werte aller Zustands-/Aktions-Paare (s, a) in der Form einer Tabelle und ein Verfahren zum Bereitstellen einer Funktion, die Q(s, a) annähert. Mit dem letzteren Verfahren kann der oben erwähnte Ausdruck (1) umgesetzt werden, indem der Parameter einer Näherungsfunktion mittels einer Technik wie dem stochastischen Gradientenverfahren angepasst wird. Ein neurales Netzwerk (wird später beschrieben) kann als die Näherungsfunktion verwendet werden.
Neurale Netzwerke können auch als Lernmodelle für überwachtes Lernen und unüberwachtes Lernen oder als Näherungsalgorithmen für Wertefunktionen im bestärkenden Lernen verwendet werden. Die 2 ist ein Schaubild, das schematisch ein Modell für ein Neuron darstellt, und 3 ist ein Schaubild, das schematisch ein dreischichtiges neurales Netzwerk darstellt, das durch Zusammenfassen von Neuronen, wie als 2 dargestellt, gebildet wird. Insbesondere wird das neurale Netzwerk durch z.B. eine Arithmetik-Vorrichtung und einen Speicher realisiert, die ein Modell für ein Neuron, wie z.B. als 2 dargestellt, imitieren.
Wie als 2 dargestellt dienen die Neuronen dazu, eine Ausgabe (Ergebnis) y für mehrere Eingaben x auszugeben (2 stellt Eingaben x1 bis x3 als ein Beispiel dar). Jede Eingabe x (x1, x2, x3) wird mit einem Gewicht w (w1, w2, w3) multipliziert, das der Eingabe x entspricht. Mit diesem Vorgang geben die Neuronen Ergebnisse y aus, die angegeben werden durch: $y = f_{k} (\sum_{i - 1}^{n} x_{i} w_{i} - θ)$
wobei θ die systematische Messabweichung ist und f_k die Aktivierungsfunktion ist. Es wird angemerkt, dass die Eingabe x, das Ergebnis y und das Gewicht w jeweils Vektoren sind.
Ein dreischichtiges neurales Netzwerk, das durch Zusammenfassen von wie als 2 dargestellten Neuronen gebildet wird, wird nachfolgend mit Bezug auf 3 beschrieben. Mehrere Eingaben x (Eingaben x1 bis x3 werden hierin als Beispiel genommen) werden von der linken Seite des neuralen Netzwerks eingegeben, und die Ergebnisse y (Ergebnisse y1 bis y3 werden hierin als ein Beispiel genommen) werden von der rechten Seite dieses Netzwerks ausgegeben, wie als 3 dargestellt. Insbesondere werden die Eingaben x1, x2 und x3 mit einem Gewicht multipliziert, das jedem von drei Neuronen N11 bis N13 entspricht, und werden dann in die Neuronen eingegeben. Die zum Multiplizieren dieser Eingaben verwendeten Gewichte werden gemeinsam hierin als W1 bezeichnet.
Die Neuronen N11 bis N13 geben jeweils entsprechend z11 bis z13 aus. Mit Bezug auf die 3 werden z11 bis z13 gemeinsam als Merkmalsvektoren Z1 bezeichnet und können als Vektoren betrachtet werden, die durch Extrahieren der Merkmalsbeträge von Eingabevektoren erhalten werden. Die Merkmalsvektoren Z1 werden zwischen den Gewichten W und W2 definiert. Z11 bis Z13 werden mit einem Gewicht multipliziert, das jedem der zwei Neuronen N21 und N22 entspricht und werden dann in die Neuronen eingegeben. Die zum Multiplizieren dieser Merkmalsvektoren verwendeten Gewichte werden hierin gemeinsam als W2 bezeichnet.
Die Neuronen N21 und N22 geben jeweils entsprechend z21 und z22 aus. Mit Bezug auf 3 werden z21 und z22 gemeinsam als Merkmalsvektoren z2 bezeichnet. Die Merkmalsvektoren Z2 werden zwischen den Gewichten W2 und W3 definiert. z21 und z22 werden mit einem Gewicht multipliziert, das jedem von drei Neutronen N31 bis N33 entspricht, und eingegeben. Die zum Multiplizieren dieser Merkmalsvektoren verwendeten Gewichte werden hierin gemeinsam als W3 bezeichnet.
Schließlich geben die Neuronen N31 bis N33 jeweils entsprechend Ergebnisse y1 bis y3 aus. Der Arbeitsvorgang des neuralen Netzwerks umfasst einen Lernmodus und einen Wert-Vorhersagemodus. Beispielsweise wird das Gewicht W unter Verwendung eines Lerndatensatzes im Lernmodus gelernt und eine Roboteraktion wird in dem Vorhersagemodus unter Verwendung des Parameters bestimmt. Obwohl der Einfachheit halber obenstehend auf „Vorhersage“ Bezug genommen wurde, ist selbstverständlich eine Vielfalt von Aufgaben, wie z.B. Erkennung, Klassifikation und Schlussfolgerung möglich.
Daten, die abgerufen werden, indem der Roboter tatsächlich im Vorhersagemodus betrieben wird, können unmittelbar gelernt und können in der nachfolgenden Aktion widergespiegelt werden (Online-Lernen), oder eine Gruppe von im Voraus gesammelten Daten kann verwendet werden, um ein kollektives Lernen auszuführen und nachfolgend den Erkennungsmodus unter Verwendung derselben Parameter auszuführen (Batch-Lernen). Als weiterer Zwischenansatz kann der Lernmodus jedes Mal zwischengeschaltet werden, wenn sich eine bestimmte Datenmenge angesammelt hat.
Die Gewichte W1 bis W3 können durch das Fehlerrückführungsverfahren gelernt werden. Die Information von Fehlern tritt rechts ein und fließt nach links. Das Fehlerrückführungsverfahren wird verwendet, um jedes Gewicht anzupassen (lernen), um die Differenz zwischen der wahren Ausgabe y (Lehrer) und der Ausgabe y, wenn die Eingabe x eingegeben wird, zu reduzieren.
Ein solches neurales Netzwerk kann mehr als drei Schichten aufweisen (als Deep-Learning bezeichnet). Es ist möglich, automatisch nur von Lehrerdaten eine arithmetische Vorrichtung zu erfassen, die Merkmale der Eingabe schrittweise extrahiert und ein Ergebnis zurücksendet.
Die Vorrichtung für maschinelles Lernen 20 gemäß dieser Ausführungsform umfasst, z.B. eine Zustandsvariablen-Beobachtungseinheit 21, eine Arbeitsvorgangsergebnis-Abrufeinheit 26, eine Lerneinheit 22 und eine Entscheidungseinheit 25, wie als 1 dargestellt, um das oben beschriebene Q-Lernen auszuführen. Das auf die vorliegende Erfindung angewendete Verfahren für maschinelles Lernen ist jedoch nicht auf das Q-Lernen beschränkt, wie zuvor erwähnt. Mit anderen Worten, verschiedene Techniken, wie „überwachtes Lernen“, „unüberwachtes Lernen“, „teilüberwachtes Lernen“ und „bestärkendes Lernen“, die durch die Vorrichtung für maschinelles Lernen verwendet werden können, sind anwendbar. Obwohl diese Arten des maschinellen Lernens (Vorrichtung für maschinelles Lernen 20) einen Allzweck-Computer oder -Prozessor verwenden können, ermöglicht die Verwendung von z.B. GPGPU (General-Purpose computing on Graphics Processing Units) oder großformatigen PC-Clustern eine höhere Verarbeitungsgeschwindigkeit.
Mit anderen Worten, gemäß dieser Ausführungsform umfasst eine Vorrichtung für maschinelles Lernen, die einen Arbeitsvorgang eines Roboters 14 zum Aufnehmen, durch eine Handeinheit 13, eines beliebigen von mehreren Werkstücken 12, die in einer willkürlicher Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, eine Zustandsvariablen-Beobachtungseinheit 21, ein Arbeitsvorgangsergebnis-Abrufeinheit 26 und eine Lerneinheit 22. Die Zustandsvariablen-Beobachtungseinheit 21 beobachtet die Zustandsvariable des Roboters 14, die die Datenausgabe von einer dreidimensionalen Messvorrichtung 15 umfasst, die eine dreidimensionale Position (x, y, z) oder eine dreidimensionale Position und Orientierung (x, y, z, w, p, r) für jedes Werkstück 12 misst. Die Arbeitsvorgangsergebnis-Abrufeinheit 26 ruft ein Ergebnis eines Aufnahmevorgangs des Roboters 14 zum Aufnehmen des Werkstücks 12 durch die Handeinheit 13 ab. Die Lerneinheit 22 lernt, im Zusammenhang mit der Zustandsvariablen des Roboters 14 und dem Ergebnis der Aufnahmevorgangs, wenn eine Ausgabe von der Zustandsvariablen-Beobachtungseinheit 21 und eine Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit 26 empfangen wird, Stellgrößen, die Befehlsdaten umfassen, um den Roboters 14 anzuweisen, einen Aufnahmevorgang des Werkstücks 12 auszuführen.
Beispiele der durch die Zustandsvariablen-Beobachtungseinheit 21 beobachteten Zustandsvariablen können Zustandsvariablen zum Einstellen der Position, Orientierung und Aufnahmerichtung der Handeinheit 13 beim Aufnehmen eines Werkstücks 12 aus der Kiste 11 umfassen. Beispiele der zu lernenden Stellgrößen können Befehlswerte für, z.B., das Drehmoment, die Geschwindigkeit und die Drehposition sein, die von der Steuerung 16 beim Aufnehmen des Werkstücks 12 aus der Kiste 11 zu den jeweiligen Antriebswellen des Roboters 14 und der Handeinheit 13 gesendet werden.
Beim Aufnehmen eines von mehreren lose aufgeschütteten Werkstücken lernt die Lerneinheit 22 die oben erwähnten Zustandsvariablen im Zusammenhang mit dem Ergebnis des Aufnahmevorgangs des Werkstücks 12 (der Ausgabe der Arbeitsvorgangsergebnis-Abrufeinheit 26). Mit anderen Worten, die Steuerung 16 bestimmt willkürlich von der dreidimensionalen Messvorrichtung 15 (Koordinaten-Berechnungseinheit 19) ausgegebene Daten und Befehlsdaten für die Handeinheit 13, oder bestimmt sie nicht willkürlich basierend auf einer vorbestimmten Regel, und führt einen Aufnahmevorgang des Werkstücks 12 durch die Handeinheit 13 aus. Beispiele der vorgenannten vorbestimmten Regel können das Aufnehmen von mehreren lose aufgeschütteten Werkstücken 12 in absteigender Reihenfolge der Höhe (Z) umfassen. Die von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten und die Befehlsdaten für die Handeinheit 13 entsprechen somit einer Aktion es Aufnehmens eines Werkstücks. Da Erfolg und Misserfolg des Aufnehmens des Werkstücks 12 auftreten, bewertet die Lerneinheit 22 Zustandsvariablen, die von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten und Befehlsdaten für die Hand 13 umfassen, jedes Mal wenn ein solcher Erfolg oder Misserfolg auftritt.
Die Lerneinheit 22 speichert von der dreidimensionalen Messvorrichtung ausgegebene Daten und Befehlsdaten für die Handeinheit 13 beim Aufnehmen des Werkstücks 12 und eine Bewertung für das Ergebnis des Aufnahmevorgangs des Werkstücks in Zuordnung zueinander. Beispiele für einen Misserfolg können hierin den Fall umfassen, in dem die Handeinheit 13 das Werkstück 12 nicht greifen kann oder das Werkstück 12 mit der Wand der Kiste 11 kollidiert oder in Kontakt kommt, selbst dann, wenn die Handeinheit 13 das Werkstück 12 greifen kann. Ein solcher Erfolg oder Misserfolg des Aufnehmens des Werkstücks 12 wird basierend auf dem durch den Kraftsensor 17 erkannten Wert oder auf durch die dreidimensionale Messvorrichtung aufgenommene Daten bestimmt. Die Vorrichtung für maschinelles Lernen 20 kann das Lernen ebenfalls ausführen, indem z.B. ein Teil der von der Steuerung 16 ausgegebenen Befehlsdaten für die Handeinheit 13 verwendet wird.
Die Lerneinheit 22 in dieser Ausführungsform umfasst vorzugsweise eine Belohnungs-Berechnungseinheit 23 und eine Wertefunktions-Aktualisierungseinheit 24. Zum Beispiel berechnet die Belohnungs-Berechnungseinheit 23 eine Belohnung, wie z.B. eine Punktzahl, basierend auf dem Erfolg oder Misserfolg des Aufnehmens des Werkstücks 12 in Bezug auf die oben erwähnten Zustandsvariablen. Die Belohnung wird für einen Erfolg des Aufnehmens des Werkstücks 12 hoch und für einen Misserfolg des Aufnehmens des Werkstücks 12 niedrig festgelegt. Eine Belohnung kann basierend darauf berechnet werden, wie oft das Aufnehmen des Werkstücks 12 in einer vorbestimmten Zeit zu einem Erfolg führt. Eine solche Belohnung kann des Weiteren entsprechend einer jeden Stufe des Aufnehmens des Werkstücks 12, wie Erfolg beim Greifen durch die Handeinheit 13, Erfolg des Transports durch die Handeinheit 13 oder Erfolg des Ablegens des Werkstücks 12 berechnet werden.
Die Wertefunktion-Aktualisierungseinheit 24 umfasst eine Wertefunktion, die den Wert eines Aufnahmevorgangs des Werkstücks 12 beschreibt und die Wertefunktion entsprechend der oben erwähnten Belohnung aktualisiert. Die Wertefunktion wird unter Verwendung eines Aktualisierungsausdrucks Q(s, a) aktualisiert, wie oben beschrieben. Bei dieser Aktualisierung wird vorzugsweise eine Aktionswerttabelle erzeugt. Die Aktionswerttabelle bedeutet hierin einen Eintrag von zugehörigen Informationen zwischen von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten und Befehlsdaten für die Handeinheit 13 beim Aufnehmen des Werkstücks 12, und einer entsprechend dem Aufnahmeergebnis des Werkstücks 12 bei dem Aufnahmevorgang aktualisierten Wertefunktion (d.h. einen Bewertungswert).
Eine unter Verwendung des oben beschriebenen neuralen Netzwerks angenäherte Funktion kann ebenfalls als eine solche Aktionswerttabelle verwendet werden, und dies ist insbesondere effektiv, wenn der Zustand s Unmengen von Informationen mit sich bringt, wie z.B. in Bilddaten. Die oben erwähnte Wertefunktion ist nicht auf eine bestimmte Art beschränkt. Beispiele für die Wertefunktion können eine Wertefunktion zum Bewerten von Erfolg oder Misserfolg beim Greifen des Werkstücks 12 durch die Handeinheit 13 und diejenige zum Bewerten der Zeit (Taktzeit), die von der Handeinheit 13 gebraucht wird, um das Werkstück 12 zu greifen und zu transportieren, umfassen.
Als die oben erwähnte Wertefunktion kann eine Wertefunktion zum Bewerten einer störenden Behinderung zwischen der Kiste 11 und der Handeinheit 13 oder den Werkstücken 12 beim Aufnehmen verwendet werden. Um eine Belohnung zu berechnen, die zum Aktualisieren der Wertefunktion verwendet wird, beobachtet die Zustandsvariablen-Beobachtungseinheit 21 vorzugsweise eine auf die Handeinheit 13 wirkende Kraft, wie z.B. einen durch den Kraftsensor 17 erkannten Wert. Wenn der durch den Kraftsensor 17 erkannte Änderungsbetrag der Kraft größer als ein vorbestimmter Grenzwert ist, kann geschätzt werden, dass die vorgenannte Behinderung aufgetreten ist. Daher ist die in diesem Fall erhaltene Belohnung vorzugsweise so eingestellt, dass sie z.B. einen negativen Wert annimmt, sodass der durch die Wertefunktion definierte Wert niedrig ist.
Gemäß dieser Ausführungsform können die Messparameter der dreidimensionalen Messvorrichtung 15 auch als Stellgrößen gelernt werden. Mit anderen Worten, gemäß dieser Ausführungsform umfasst eine Vorrichtung zum maschinellen Lernen, die einen Arbeitsvorgang eines Roboters 14 zum Aufnehmen, durch eine Handeinheit 13, eines beliebigen von mehreren Werkstücken 12, die in einer willkürlicher Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernt, eine Zustandsvariablen-Beobachtungseinheit 21, eine Arbeitsvorgangsergebnis-Abrufeinheit 26 und eine Lerneinheit 22. Die Zustandsvariablen-Beobachtungseinheit 21 beobachtet die Zustandsvariable des Roboters 14, die von der dreidimensionalen Messvorrichtung 15, die eine dreidimensionale Position (x, y, z) oder eine dreidimensionale Position und Orientierung (x, y, z, w, p, r) für jedes Werkstück 12 misst, ausgegebene Daten umfasst. Die Arbeitsvorgangsergebnis-Abrufeinheit 26 ruft ein Ergebnis eines Aufnahmevorgangs des Roboters 14 zum Aufnehmen des Werkstücks 12 durch die Handeinheit 13 ab. Die Lerneinheit 22 lernt, im Zusammenhang mit der Zustandsvariablen des Roboters 14 und dem Ergebnis des Aufnahmevorgangs, wenn die Ausgabe von der Zustandsvariablen-Beobachtungseinheit 21 und die Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit 26 empfangen wird, Stellgrößen, die Messparameter der dreidimensionalen Messvorrichtung 15 umfassen.
Das Robotersystem 10 in dieser Ausführungsform kann ferner eine automatische Handaustauschvorrichtung (nicht dargestellt) umfassen, die die an dem Roboter 14 befestigte Handeinheit 13 mit einer eine andere Form aufweisenden Handeinheit 13 austauscht. In diesem Fall kann die Wertefunktion-Aktualisierungseinheit 24 vorzugsweise die oben erwähnte Wertefunktion für jede formspezifische Handeinheit 13 umfassen und die Wertefunktion für die ausgetauschte Handeinheit 13 entsprechend der Belohnung aktualisieren. Dies ermöglicht, einen optimalen Arbeitsvorgang der Handeinheit 13 für jede handspezifische Handeinheit zu lernen und wiederum der automatischen Handaustauschvorrichtung zu erlauben, eine Handeinheit 13 auszuwählen, die eine höhere Wertefunktion aufweist.
Die Entscheidungseinheit 25 wählt vorzugsweise von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten und Befehlsdaten für die Handeinheit 13, die dem höchsten Bewertungswert entsprechen, indem in der wie oben beschrieben erzeugten Aktionswerttabelle nachgelesen wird. Die Entscheidungseinheit 25 gibt dann optimale Daten für die ausgewählte Handeinheit 13 und die dreidimensionale Messvorrichtung 15 an die Steuerung 16 aus.
Die Steuerung 16 nutzt von der Lerneinheit 22 ausgegebene optimale Daten für die Handeinheit 13 und die dreidimensionale Messvorrichtung 15, um die dreidimensionale Messvorrichtung 15 und den Roboter 14 selbstständig zu steuern, um das Werkstück 12 aufzunehmen. Beispielsweise betreibt die Steuerung 16 die jeweiligen Antriebswellen der Handeinheit 13 und des Roboters 14 basierend auf den Zustandsvariablen, um jeweils eine durch die Vorrichtung für maschinelles Lernen 20 abgerufene optimale Position, Orientierung und Aufnahmerichtung der Handeinheit 13 einzustellen.
Das Robotersystem 10 in der oben beschriebenen Ausführungsform umfasst eine Vorrichtung für maschinelles Lernen 20 für einen Roboter 14, wie als 1 dargestellt. In der vorliegenden Erfindung ist jedoch die Anzahl von Robotern 14 und Vorrichtungen für maschinelles Lernen 20 nicht auf eins beschränkt. Das Robotersystem 10 kann zum Beispiel mehrere Roboter 14 derart umfassen, dass mindestens eine Vorrichtung für maschinelles Lernen 20 in Übereinstimmung mit jedem Roboter 14 angeordnet ist. Das Robotersystem 10 nutzt vorzugsweise durch die Vorrichtung für maschinelles Lernen 20 der jeweiligen Roboter 14 abgerufene optimale Zustandsvariablen für die dreidimensionale Messvorrichtung 15 und die Handeinheit 13 gemeinsam oder tauscht sie untereinander über ein Kommunikationsmedium, wie ein Netzwerk, aus. Selbst wenn die Arbeitsrate eines bestimmten Roboters 14 niedriger als diejenige eines anderen Roboters 14 ist, kann ein durch die Vorrichtung für maschinelles Lernen 20 des anderen Roboters 14 abgerufenes optimales Arbeitsergebnis für den Arbeitsvorgang des bestimmten Roboters 14 verwendet werden. Die für das Lernen gebrauchte Zeit kann sogar verkürzt werden, indem Lernmodelle zwischen mehreren Robotern gemeinsam genutzt werden, oder Stellgrößen, die Messparameter der dreidimensionalen Messvorrichtung 14 und die Zustandsvariable und das Aufnahmevorgangsergebnis von jedem Roboter 14 umfassen, gemeinsam genutzt werden.
Die Vorrichtung für maschinelles Lernen 20 kann sich innerhalb oder außerhalb des Roboters 14 befinden. Alternativ kann sich die Vorrichtung für maschinelles Lernen 20 innerhalb der Steuerung 16 oder auf einem Cloud-Server (nicht dargestellt) befinden.
Wenn das Robotersystem 10 mehrere Roboter 14 umfasst, kann ein Roboter 14 ein Werkstück 12 mit einer Handeinheit 13 des Roboters 14 aufnehmen, während ein weiterer Roboter 14 ein durch eine Handeinheit 13 des letzteren Roboters 14 gegriffenes Werkstück 12 transportiert. Die Wertefunktion-Aktualisierungseinheit 24 kann ferner die Wertefunktion aktualisieren, indem die Zeit verwendet wird, während der solche Roboter 14, die die Werkstücke 12 aufnehmen, von einem zu einem anderen umgeschaltet werden. Die Vorrichtung für maschinelles Lernen 20 kann sogar Zustandsvariablen für mehrere Handmodelle umfassen, eine Aufnahmesimulation basierend auf den mehreren Handmodellen während des Aufnahmevorgangs ausführen und die Zustandsvariablen für die mehreren Handmodelle im Zusammenhang mit dem Ergebnis des Aufnahmevorgangs des Werkstücks 12 entsprechend dem Ergebnis der Aufnahmesimulation lernen.
In der oben erwähnten Vorrichtung für maschinelles Lernen 20 werden von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten nach dem Abrufen von Daten einer dreidimensionalen Abbildung für jedes Werkstück 12 von der dreidimensionalen Messvorrichtung 15 an die Zustandsvariablen-Beobachtungseinheit 21 gesendet. Da derartige gesendete Daten nicht immer anomale Daten umfassen, kann die Vorrichtung für maschinelles Lernen 20 die Funktion des Filterns von anomalen Daten aufweisen, d.h. die Funktion zu wählen, ob die Daten von der dreidimensionalen Messvorrichtung 15 in die Zustandsvariablen-Beobachtungseinheit 21 eingegeben werden soll. Mit dieser Anordnung kann die Lerneinheit 22 der Vorrichtung für maschinelles Lernen einen optimalen Arbeitsvorgang der Handeinheit 13 durch die dreidimensionale Messvorrichtung 15 und den Roboter 14 effektiv lernen.
In der oben erwähnten Vorrichtung für maschinelles Lernen 20 empfängt die Steuerung 16 von der Lerneinheit 22 ausgegebene Daten. Da auch die von der Lerneinheit 22 ausgegebenen Daten nicht immer anomale Daten umfassen, kann eine Funktion des Filterns von anomalen Daten bereitgestellt werden, d.h., die Funktion des Wählens, ob die Daten von der Lerneinheit 22 an die Steuerung 16 ausgegeben werden sollen. Mit dieser Anordnung kann die Steuerung 16 dem Roboter 14 ermöglichen, einen optimalen Arbeitsvorgang der Handeinheit 13 sicherer auszuführen.
Die oben erwähnten anomalen Daten können entsprechend der folgenden Verfahrensweise erkannt werden: es wird eine Wahrscheinlichkeitsverteilung für Eingabedaten geschätzt, die Wahrscheinlichkeitsverteilung wird verwendet, um die Wahrscheinlichkeit des Auftretens für eine neue Eingabe abzuleiten, und anomale Daten, die beträchtlich von einem typischen Verhalten abweichen, werden als gefunden angesehen, wenn die Wahrscheinlichkeit des Auftretens unterhalb einen vorbestimmten Grenzwert fällt.
Ein beispielhafter Arbeitsvorgang der Vorrichtung für maschinelles Lernen 20 des Roboters 10 in dieser Ausführungsform wird nachfolgend beschrieben. Die 4 ist eine Ablaufdiagramm, das einen beispielhaften Arbeitsvorgang der als 1 dargestellten Vorrichtung für maschinelles Lernen darstellt. Wenn, wie als 4 dargestellt, in der als 1 dargestellten Vorrichtung für maschinelles Lernen 20 eine Lernvorgang gestartet wird, dann wird eine dreidimensionale Messung durch die dreidimensionale Messvorrichtung 15 ausgeführt und das Messergebnis wird ausgegeben (Schritt S11 in 4). Mit anderen Worten, im Schritt S11 wird beispielsweise eine dreidimensionale Abbildung (von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten) für jedes Werkstück 12, das in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt ist, abgerufen und an die Zustandsvariablen-Beobachtungseinheit 21 ausgegeben, und die Koordinaten-Berechnungseinheit 19 empfängt die dreidimensionale Abbildung für jedes Werkstück 12 und berechnet eine dreidimensionale Position (x, y, z) für jedes Werkstück 12 und gibt sie an die Zustandsvariablen-Beobachtungseinheit 21, die Arbeitsvorgangsergebnis-Abrufeinheit 26 und die Steuerung 16 aus. Die Koordinaten-Berechnungseinheit 19 kann basierend auf der Ausgabe der dreidimensionalen Messvorrichtung 15 eine Orientierung (w, p, r) berechnen und ausgeben.
Die Ausgabe (dreidimensionale Abbildung) der dreidimensionalen Messvorrichtung 15 kann in die Zustandsvariablen-Beobachtungseinheit 21 über eine Vorverarbeitungseinheit 50 eingegeben werden, die die Ausgabe (dreidimensionale Abbildung) verarbeitet, bevor sie in die Zustandsvariablen-Beobachtungseinheit 21 eingegeben wird, wie später mit Bezug auf 5 beschrieben wird. Nur die Ausgabe der dreidimensionalen Messvorrichtung 15 kann in die Zustandsvariablen-Beobachtungseinheit 21 eingegeben werden und kann auch in die Zustandsvariablen-Beobachtungseinheit 21 über die Vorverarbeitungseinheit 50 eingegeben werden, wie später mit Bezug auf 7 beschrieben wird. Auf diese Weise können Ausführung und Ausgabe der dreidimensionalen Messung in Schritt S11 verschiedene Formen umfassen.
Insbesondere beobachtet im Falle von 1 die Zustandsvariablen-Beobachtungseinheit 21 eine dreidimensionale Abbildung für jedes Werkstück 12 von der dreidimensionalen Messvorrichtung 15 und eine Zustandsvariable (von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten), wie die dreidimensionale Position (x, y, z) und Orientierung (w, p, r) für jedes Werkstück 12 von der Koordinaten-Berechnungseinheit 19. Die Arbeitsvorgangsergebnis-Abrufeinheit 26 ruft ein Ergebnis eines Aufnahmevorgangs des Roboters 14 zum Aufnehmen des Werkstücks 12 durch die Handeinheit 13 basierend auf den von der dreidimensionalen Messvorrichtung 15 ausgegeben Daten (den von der Koordinaten-Berechnungseinheit 19 ausgegebenen Daten) ab. Die Arbeitsvorgangsergebnis-Abrufeinheit 26 kann nicht nur die Daten von der dreidimensionalen Messvorrichtung abrufen, sondern auch das Ergebnis des Aufnahmevorgangs, wie den Erreichungsstand beim Weiterleiten des aufgenommenen Werkstücks 12 zu einem Folgeprozess und einem Bruch des aufgenommenen Werkstücks 12.
Die Vorrichtung für maschinelles Lernen 20 entscheidet beispielsweise über einen optimalen Arbeitsvorgang basierend auf den von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten (Schritt S12 in 4), und die Steuerung 16 gibt Befehlsdaten (Stellgrößen) für die Handeinheit 13 (Roboter 14) aus und führt einen Aufnahmevorgang des Werkstücks 12 aus (Schritt S13 in 4). Das Werkstückaufnahmeergebnis wird durch die oben erwähnte Arbeitsvorgangsergebnis-Abrufeinheit 26 abgerufen (Schritt S14 in 4).
Es wird dann basierend auf der Ausgabe von der Arbeitsvorgangsergebnis-Abrufeinheit 26 bestimmt, ob das Aufnehmen des Werkstücks 12 zu einem Erfolg oder Misserfolg (Schritt S15 in 4) geführt hat. Wenn das Aufnehmen des Werkstücks 12 zu einem Erfolg geführt hat, wird eine positive Belohnung festgelegt (Schritt S16). Wenn das Aufnehmen des Werkstücks 12 zu einem Misserfolg geführt hat, wird eine negative Belohnung festgelegt (Schritt S17 in 4). Die Aktionswerttabelle (Wertefunktion) wird dann aktualisiert (Schritt S18 in 4).
Es kann bestimmt werden, z.B. basierend auf den nach dem Aufnahmevorgang des Werkstücks 12 von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten, ob das Aufnehmen des Werkstücks 12 zu einem Erfolg oder Misserfolg geführt hat. Die Bestimmung, ob das Aufnehmen des Werkstücks 12 zu einem Erfolg oder Misserfolg geführt hat, ist nicht auf die Bewertung, ob das Aufnehmen des Werkstücks 12 zu einem Erfolg oder Misserfolg geführt hat, beschränkt und kann eine Bewertung z.B. des Erreichungsstands beim Weiterleiten des aufgenommenen Werkstücks 12 zu einem Folgeprozess, dem Auftreten oder Nichtauftreten einer Änderung des Zustands, wie einem Bruch des aufgenommenen Werkstücks 12, oder der Zeit (Taktzeit) oder Energie (Strommenge), die zum Greifen und Transportieren des Werkstücks 12 gebraucht wird, umfassen.
Ein Belohnungswert wird durch die Belohnungs-Berechnungseinheit 23 basierend auf der Bestimmung, ob die Aufnahme des Werkstücks 12 zu einem Erfolg oder Misserfolg geführt hat, berechnet, und die Aktionswerttabelle wird durch die Wertefunktion-Aktualisierungseinheit 24 aktualisiert. Mit anderen Worten, wenn das Aufnehmen des Werkstücks 12 zu einem Erfolg geführt hat, legt die Lerneinheit 22 in dem oben erwähnten Aktualisierungsausdruck eine positive Belohnung eines Werts Q(s, a) (Schritt S16) fest; ansonsten legt die Lerneinheit 22 eine negative Belohnung in dem oben erwähnten Aktualisierungsausdruck fest (Schritt S17). Die Lerneinheit 22 aktualisiert die oben erwähnte Aktionswerttabelle jedes Mal, wenn das Werkstück 12 aufgenommen wird (Schritt S18). Die Lerneinheit 22 (lernt) führt das Aktualisieren der Aktionswerttabelle fort, indem die oben erwähnten Schritte S11 bis S18 wiederholt werden.
In der vorangehenden Beschreibung sind in die Zustandsvariablen-Beobachtungseinheit 21 eingegebene Daten nicht auf von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten beschränkt sondern können Daten, wie z.B. die Ausgabe von anderen Sensoren, umfassen und es kann sogar ein Teil der Befehlsdaten von der Steuerung 16 verwendet werden. Somit bewirkt die Steuerung 16, dass der Roboter 14 einen Aufnahmevorgang des Werkstücks 12 ausführt, wobei von der Lernvorrichtung 20 ausgegebene Befehlsdaten (Stellgrößen) verwendet werden. Das Lernen durch die Lernvorrichtung 20 ist nicht auf den Aufnahmevorgang des Werkstücks 12 beschränkt und es können beispielsweise Messparameter der dreidimensionalen Messvorrichtung 15 gelernt werden, wie zuvor beschrieben.
Wie obenstehend beschrieben kann das die Vorrichtung für maschinelles Lernen 20 umfassende Robotersystem 10 in dieser Ausführungsform einen Arbeitsvorgang des Roboters 14 zum Aufnehmen, durch die Handeinheit 13, eines beliebigen von mehreren Werkstücken, die in einer willkürlichen Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, lernen. Somit kann das Robotersystem 10 die Auswahl eines optimalen Arbeitsvorgangs des Roboters 14 zum Aufnehmen der lose aufgeschütteten Werkstücke 12 ohne menschliches Eingreifen lernen.
Die 5 ist ein Blockdiagramm, das die konzeptionelle Ausgestaltung eines Robotersystems in einer weiteren Ausführungsform der vorliegenden Erfindung zeigt, und stellt ein Robotersystem dar, das überwachtes Lernen verwendet. Wie aus einem zuvor beschriebenen Vergleich von 5 mit 1 offensichtlich ist, wird ein als 5 dargestelltes Robotersystem 10', das überwachtes Lernen verwendet, dadurch bereitgestellt, dass eine ergebnis(label)tragende Datenaufzeichnungseinheit 40 zu dem als 1 dargestellten Robotersystem 10, das Q-Lernen (bestärkendes Lernen) verwendet, hinzugefügt wird. Das als 5 dargestellte Robotersystem 10' umfasst ferner eine Vorverarbeitungseinheit 50, die von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten vorverarbeitet. Die Vorverarbeitungseinheit 50 kann selbstverständlich für das als 2 dargestellte Robotersystem 10 bereitgestellt werden.
Eine Vorrichtung für maschinelles Lernen 30 in dem Robotersystem 10', das überwachtes Lernen verwendet, umfasst eine Zustandsvariablen-Beobachtungseinheit 31, eine Arbeitsvorgangsergebnis-Abrufeinheit 36, eine Lerneinheit 32 und eine Entscheidungseinheit 35, wie als 5 dargestellt. Die Lerneinheit 32 umfasst eine Fehlerberechnungseinheit 33 und eine Lernmodell-Aktualisierungseinheit 34. Auch in dem Robotersystem 10' gemäß dieser Ausführungsform lernt die Vorrichtung für maschinelles Lernen 30 Stellgrößen, wie Befehlsdaten zum Anweisen eines Roboters 14, einen Aufnahmevorgang eines Werksstücks 12 auszuführen, oder Messparameter der dreidimensionalen Messvorrichtung 15, und gibt sie aus.
Mit anderen Worten, in dem als 5 dargestellten Robotersystem 10', das überwachtes Lernen verwendet, entsprechen die Fehlerberechnungseinheit 33 und die Lernmodell-Aktualisierungseinheit 34 der Belohnungs-Berechnungseinheit 23 beziehungsweise der Wertefunktions-Aktualisierungseinheit 24 in dem als 1 dargestellten Robotersystem 10, das Q-Lernen verwendet. Andere Ausgestaltungen, wie diejenigen der dreidimensionalen Messvorrichtung 15, einer Steuerung 16 und dem Roboter 14 sind dieselben wie die in der zuvor beschriebenen 1, und eine Beschreibung derselben wird nicht gegeben.
Die Fehlerberechnungseinheit 33 berechnet den Fehler zwischen dem von der Arbeitsvorgangsergebnis-Beobachtungseinheit 36 ausgegeben Ergebnis (Label) und der Ausgabe eines in der Lerneinheit installierten Lernmodells. Die ergebnis(label)tragende Datenaufzeichnungseinheit 40 kann beispielsweise ergebnis(label)tragende Daten enthalten, die am Tag vor einem vorbestimmten Tag, an dem der Roboter 14 eine Aufgabe ausführt, wenn die Formen der Werkstücke 12 und die Prozesse durch den Roboter 14 unverändert bleiben, abgerufen werden, und die in der ergebnis(label)tragenden Datenaufzeichnungseinheit 40 enthaltenen ergebnis(label)tragenden Daten der Fehlerberechnungseinheit 33 an dem vorbestimmten Tag bereitstellen. Alternativ können z.B. durch eine außerhalb des Robotersystems 10' ausgeführte Simulation abgerufene Daten oder durch ein weiteres Robotersystem abgerufene ergebnis(label)tragende Daten der Fehlerberechnungseinheit 33 des Robotersystems 10' über eine Speicherkarte oder eine Kommunikationslinie bereitgestellt werden. Die ergebnis(label)tragende Datenaufzeichnungseinheit 40 kann sogar in einem nichtflüchtigen Speicher, wie einem Flash-Speicher, realisiert werden und in die Lerneinheit 32 eingebaut werden, sodass die in der ergebnis(label)tragenden Datenaufzeichnungseinheit 40 enthaltenen ergebnis(label)tragenden Daten direkt in der Lerneinheit 32 verwendet werden können.
6 stellt Ansichten zum Erklären einer beispielhaften Verarbeitung einer Vorverarbeitungseinheit in dem als 5 dargestellten Robotersystem dar. 6 stellt in (a) ein Beispiel von Daten der dreidimensionalen Positionen (Orientierungen) mehrerer lose in eine Kiste 11 geschüttete Werkstücke 12, d.h. von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten, und in (b) bis (d) beispielhafte Bilddaten nach dem Vorverarbeiten der in (a) von 6 dargestellten Werkstücke 121 bis 123 dar.
Zylindrische Metallteile werden als die Werkstücke 12 (121 bis 123) angenommen, und ein Saugnapf, der beispielsweise die länglichen mittleren Abschnitte der zylindrischen Werkstücke 12 mittels eines Unterdrucks anzieht, anstatt sie mit den zwei Greiferteilen zu greifen, wird als die Hand (13) angenommen. Solange wie beispielsweise die Positionen der länglichen mittleren Abschnitte der Werkstücke 12 bestimmt werden, kann das Werkstück 12 aufgenommen werden, indem der Saugnapf (13) an diese Positionen bewegt wird und das Werkstück 12 durch Ansaugen angezogen wird. Die in (a) bis (d) von 6 verwendeten numerischen Werte stellen die X-, Y- und Z-Richtungen in Einheiten von [mm] dar. Es wird angemerkt, dass die Z-Richtung der Richtung der Höhe (Tiefe) von Bilddaten entspricht, die durch Erfassen der Kiste 11, in der mehrere lose aufgeschüttete Werkstücke 12 untergebracht sind, mittels der über der Kiste 11 befindlichen dreidimensionalen Messvorrichtung 15 (die z.B. zwei Kameras umfasst) erhalten werden.
Wie aus einem Vergleich von (b) bis (d) von 6 mit (a) von 6 offensichtlich ist, werden als beispielhaftes Verarbeiten durch die Vorverarbeitungseinheit 50 in dem als 5 dargestellten Robotersystem 10' die Werkstücke 12 von Interesse (z.B. die drei Werkstücke 121 bis 123) basierend auf von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten (dreidimensionales Bild) gedreht und verarbeitet, um deren Mittenhöhen auf „0“ einzustellen.
Mit anderen Worten, die von der dreidimensionalen Messvorrichtung 15 ausgegebenen Daten umfassen z.B. Informationen, die die dreidimensionale Position (x, y, z) und Orientierung (w, p, r) des länglichen mittleren Abschnitts eines jeden Werkstücks 12 anzeigen. In diesem Fall werden die drei Werkstücke 121, 122 und 123 von Interesse um -r gedreht und um z subtrahiert, um alle ihre Zustände zu vereinheitlichen, wie als (b), (c) und (d) von 6 dargestellt. Durch eine solche Vorverarbeitung kann die Belastung der Vorrichtung für maschinelles Lernen 30 reduziert werden.
Das als (a) von 6 dargestellte dreidimensionale Bild entspricht nicht den Daten selbst, die von der dreidimensionalen Messvorrichtung 15 ausgegeben werden, sondern z.B. denjenigen, die durch Verringern des Grenzwerts für die Auswahl aus einem Bild erhalten werden, das durch ein herkömmlich realisiertes Programm abgerufen wird, das die Reihenfolge des Aufnehmens der Werkstücke 12 definiert. Diese Verarbeitung selbst kann auch durch die Vorverarbeitungseinheit 50 ausgeführt werden. Eine solche Verarbeitung kann selbstverständlich abhängig von einer Vielzahl von Bedingungen, die z.B. die Formen der Werkstücke 12 und den Typ der Hand 13 umfassen, unterschiedlich variieren.
Auf diese Weise gibt die Vorverarbeitungseinheit 50 in die Zustandsvariablen-Beobachtungseinheit 31 von der dreidimensionalen Messvorrichtung 15 ausgegebene Daten (ein dreidimensionale Abbildung für jedes Werkstück 12) ein, die verarbeitet werden, bevor sie in die Zustandsvariablen-Beobachtungseinheit 31 eingegeben werden. Wenn mit Bezug wiederum auf 5 beispielsweise gilt, dass y die Ausgabe des als 3 dargestellten neuralen Netzwerks als ein Lernmodell ist, dann bestimmt die Fehlerberechnungseinheit 33, die ein von der Arbeitsvorgangsergebnis-Abrufeinheit 36 ausgegebenes Ergebnis (Label) empfängt, dass ein Fehler -log(y) vorhanden ist, wenn der aktuelle Aufnahmevorgang des Werkstücks zu einem Erfolg geführt hat und dass ein Fehler -log(1-y) vorhanden ist, wenn dieser Arbeitsvorgang zu einem Misserfolg geführt hat, und führt eine Verarbeitung aus, die darauf abzielt, den Fehler zu minimieren. Als eine Eingabe in das als 3 dargestellte neurale Netzwerk werden beispielsweise Bilddaten der Werkstücke 121 bis 123 von Interesse nach der Vorverarbeitung, wie als (b) bis (d) von 6 dargestellt, und Daten der dreidimensionalen Position und Orientierung (x, y, z, w, p, r) für jedes der Werkstücke 121 bis 123 bereitgestellt.
7 ist ein Blockdiagramm, das eine Modifikation des als 1 dargestellten Robotersystems darstellt. Wie aus einem Vergleich von 7 mit 1 offensichtlich ist, wird bei der Modifikation des als 7 dargestellten Robotersystems 10 auf die Koordinaten-Berechnungseinheit 19 verzichtet, und die Zustandsvariablen-Beobachtungseinheit 21 beobachtet die Zustandsvariable des Roboters 14 bei Empfangen von nur einer dreidimensionalen Abbildung von der dreidimensionalen Messvorrichtung 15. Es ist jedoch anzumerken, dass die Steuerung 16 natürlich mit einer Ausgestaltung ausgestattet sein kann, die der Koordinaten-Berechnungseinheit 19 entspricht. Die als 7 dargestellte Ausgestaltung kann ebenfalls z.B. auf das Robotersystem 10' angewendet werden, das das zuvor mit Bezug auf 5 beschriebene überwachte Lernen verwendet. Mit anderen Worten, in dem als 5 dargestellten Robotersystem 10' kann auf die Vorverarbeitungseinheit 50 verzichtet werden, und die Zustandsvariablen-Beobachtungseinheit 31 kann die Zustandsvariable des Roboters 14 bei Empfang von nur einer dreidimensionalen Abbildung von der dreidimensionalen Messvorrichtung 15 beobachten. Auf diese Weise können verschiedene Änderungen und Modifikationen an den oben beschriebenen Ausführungsformen gemacht werden.
Wie obenstehend ausführlich beschrieben wurde, ist es gemäß dieser Ausführungsform möglich, eine Vorrichtung für maschinelles Lernen, ein Robotersystem und ein maschinelles Lernverfahren bereitzustellen, die einen optimalen Arbeitsvorgang eines Roboters beim Aufnehmen von Werkstücken, die in einer willkürlicher Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind, ohne menschliches Eingreifen lernt. Die Vorrichtungen für maschinelles Lernen 20 und 30 in der vorliegenden Erfindung sind nicht auf diejenigen beschränkt, die bestärkendes Lernen (z.B. Q-Lernen) oder überwachtes Lernen verwenden, und es sind verschiedene maschinelle Lernalgorithmen anwendbar.
Die Vorrichtung für maschinelles Lernen, das Robotersystem und das maschinelle Lernverfahren gemäß der vorliegenden Erfindung haben eine vorteilhafte Wirkung des Lernens, ohne menschlichen Eingriff, eines optimalen Arbeitsvorgangs eines Roboters beim Aufnehmen von Werkstücken, die in einer willkürlicher Weise, die einen lose aufgeschütteten Zustand umfasst, abgelegt sind.
Obwohl eine oder mehrere Ausführungsformen der vorliegenden Erfindung ausführlich beschrieben wurden, sollte verstanden werden, dass verschiedene Änderungen, Ergänzungen und Abänderungen hierzu gemacht werden können, ohne vom Grundgedanken und Umfang der Erfindung abzuweichen, wie er durch die Ansprüche festgelegt ist.

Claims

Vorrichtung für maschinelles Lernen, die einen Arbeitsvorgang eines Roboters (14) zum Aufnehmen, durch eine Handeinheit (13), eines Objekts (12) erlernt, wobei die Vorrichtung umfasst: eine Lerneinheit (32), die konfiguriert ist, um Informationen für das Objekt (12) und einen Kennzeichner für einen Aufnahmevorgang des Roboters durch die Handeinheit (13) aus einer Aufzeichnungseinheit (40) zu erlangen, wobei die Lerneinheit (32) umfasst: eine Fehlerberechnungseinheit (33), die konfiguriert ist, um einen Fehler auf der Grundlage des Kennzeichners und einer Ausgabe aus einem Lernmodell zu berechnen, wobei die Ausgabe durch Eingeben der Informationen für das Objekt in das Lernmodell erzeugt wurde; und eine Lernmodellaktualisierungseinheit (34), die konfiguriert ist, um das Lernmodell gemäß dem Fehler zu aktualisieren, wobei die Informationen Bilddaten für das Objekt umfassen und der Kennzeichner, der in der Aufzeichnungseinheit gespeichert ist, Informationen bezüglich eines Ergebnisses des Aufnahmevorgangs des Roboters durch die Handeinheit umfasst.
Vorrichtung für maschinelles Lernen gemäß Anspruch 1, weiterhin umfassend: ein neuronales Netz, das als das Lernmodell verwendet wird.
Vorrichtung für maschinelles Lernen gemäß Anspruch 1 oder 2, wobei die Informationen ferner Positionsinformationen für das Objektumfassen.
Lernmodell, das durch die Vorrichtung für maschinelles Lernen gemäß zumindest einem der Ansprüche 1 bis 3 aktualisiert wird.
Robotersystem zum Aufnehmen eines Objekts, wobei das Robotersystem umfasst: einen Roboter, der eine Handeinheit zum Aufnehmen des Objekts umfasst; eine Messvorrichtung (15), die konfiguriert ist, um Informationen für das Objekt zu messen; eine Steuereinrichtung (16), die konfiguriert ist, um den Roboter zu steuern; eine Zustandsvariablenbeobachtungseinheit (31), die konfiguriert ist, um die Informationen für das Objekt zu erlangen; und eine Entscheidungseinheit (35), die konfiguriert ist, um Befehlsdaten zum Anweisen des Roboters zum Durchführen eines Aufnahmevorgangs des Objekts durch Bezugnahme auf eine Ausgabe aus einem Lernmodell gemäß Anspruch 4, das auf der Grundlage der Informationen für das Objekt erzeugt wurde, zu entscheiden, wobei die Steuereinrichtung weiterhin konfiguriert ist, um den Roboter auf der Grundlage der Befehlsdaten aus der Entscheidungseinheit zu steuern.
Robotersystem gemäß Anspruch 5, wobei die Informationen Bilddaten für das Objekt umfasst.
Robotersystem gemäß Anspruch 6, wobei die Informationen ferner Positionsinformationen für das Objektumfasst.
Robotersystem gemäß zumindest einem der Ansprüche 5 bis 7, wobei die Befehlsdaten Informationen in Relation zu zumindest einer aus einer Position, Ausrichtung oder Aufnahmerichtung der Handeinheit umfassen.
Robotersystem gemäß zumindest einem der Ansprüche 5 bis 8, weiterhin umfassend: eine Vorverarbeitungseinheit (50), die konfiguriert ist, um die Informationen für das Objekt zu verarbeiten, die durch die Messvorrichtung gemessen wurden, wobei die Zustandsvariablenbeobachtungseinheit konfiguriert ist, um Daten zu erlangen, die aus der Vorverarbeitungseinheit (50) als die Informationen für das Objekt ausgegeben wurden.
Robotersystem gemäß zumindest einem der Ansprüche 5 bis 9, wobei das Lernmodell sich in einem Cloud-Server befindet.
Vorrichtung für maschinelles Lernen, die einen Arbeitsvorgang eines Roboters (14) zum Aufnehmen, durch eine Handeinheit (13), eines Objekts (12) erlernt, wobei die Vorrichtung umfasst: eine Zustandsvariablenbeobachtungseinheit (21), die konfiguriert ist, um Informationen für das Objekt zu erlangen; eine Lerneinheit (22), die eine Wertfunktion umfasst, die einen Wert eines Aufnahmevorgangs des Roboters (14) beschreibt; eine Entscheidungseinheit (25), die konfiguriert ist, um Befehlsdaten zum Anweisen des Roboters (14) zum Durchführen des Aufnahmevorgangs des Objekts (12) auf der Grundlage der Wertfunktion und der Informationen für das Objekt zu entscheiden; und eine Arbeitsvorgangsergebniserlangungseinheit (26), die konfiguriert ist, um ein Ergebnis des Aufnahmevorgangs des Roboters (14) zum Aufnehmen des Objekts (12) durch die Handeinheit (13) zu erlangen, wobei die Lerneinheit (22) umfasst: eine Belohnungsberechnungseinheit (23), die konfiguriert ist, um eine Belohnung auf der Grundlage einer Ausgabe der Arbeitsvorgangsergebniserlangungseinheit (26) zu berechnen; und eine Wertfunktionsaktualisierungseinheit (24), die konfiguriert ist, um die Wertfunktion gemäß der Belohnung zu aktualisieren, wobei die Informationen Bilddaten für das Objekt umfassen und die Befehlsdaten Informationen in Relation zu zumindest einer aus einer Position, Ausrichtung oder Aufnahmerichtung der Handeinheit umfassen.
Vorrichtung für maschinelles Lernen gemäß Anspruch 11, weiterhin umfassend: ein neuronales Netz, das als die Wertfunktion verwendet wird.
Vorrichtung für maschinelles Lernen gemäß Anspruch 11 oder 12, wobei die Informationen ferner Positionsinformationen für das Objekt umfasst.
Vorrichtung für maschinelles Lernen gemäß zumindest einem der Ansprüche 11 bis 13, wobei die Informationen für das Objekt weiterhin Informationen in Relation zu zumindest einer aus einer Position, Ausrichtung oder Aufnahmerichtung der Handeinheit (13) umfassen.
Robotersystem, das die Vorrichtung für maschinelles Lernen gemäß zumindest einem der Ansprüche 11 bis 14 umfasst, wobei das Robotersystem weiterhin umfasst: den Roboter, der die Handeinheit umfasst; eine Messvorrichtung (15), die konfiguriert ist, um die Informationen für das Objekt zu messen; und eine Steuereinrichtung (16), die konfiguriert ist, um den Roboter auf der Grundlage der Befehlsdaten aus der Entscheidungseinheit zu steuern.
Robotersystem gemäß Anspruch 15, wobei die Vorrichtung für maschinelles Lernen sich auf einem Cloud-Server befindet.
Verfahren zum Aufnehmen eines Objekts durch eine Handeinheit (13) eines Roboters (14), wobei das Verfahren umfasst: Messen von Informationen für das Objekt; Erlangen der Informationen für das Objekt; Entscheiden von Befehlsdaten zum Anweisen des Roboters zum Durchführen eines Aufnahmevorgangs des Objekts durch Bezugnahme auf eine Ausgabe aus einem Lernmodell gemäß Anspruch 4, das auf der Grundlage der Informationen für das Objekt erzeugt wurde; und Steuern des Roboters auf der Grundlage der Befehlsdaten.
Verfahren für maschinelles Lernen zum Erlernen eines Arbeitsvorgangs eines Roboters (14) zum Aufnehmen eines Objekts durch eine Handeinheit (13), wobei das Verfahren umfasst: Erlangen von Informationen für das Objekt; Entscheiden von Befehlsdaten zum Anweisen des Roboters (14) zum Durchführen eines Aufnahmevorgangs des Objekts (12) auf der Grundlage einer Wertfunktion und der Informationen für das Objekt, wobei die Wertfunktion einen Wert des Aufnahmevorgangs des Roboters (14) beschreibt; Erlangen eines Ergebnisses des Aufnahmevorgangs des Roboters (14) zum Aufnehmen des Objekts (12) durch die Handeinheit (13); und Aktualisieren der Wertfunktion; wobei das Aktualisieren der Wertfunktion umfasst: Berechnen einer Belohnung auf der Grundlage des Ergebnisses des Aufnahmevorgangs des Roboters (14) zum Aufnehmen des Objekts (12) durch die Handeinheit (13); und Aktualisieren der Wertfunktion gemäß der Belohnung, wobei. die Informationen Bilddaten für das Objekt umfassen und die Befehlsdaten Informationen in Relation zu zumindest einer aus einer Position, Ausrichtung oder Aufnahmerichtung der Handeinheit umfassen