DE102022208089A1

DE102022208089A1 - Vorrichtung und Verfahren zum Steuern eines Roboters

Info

Publication number: DE102022208089A1
Application number: DE102022208089.0A
Authority: DE
Inventors: Dotan Di Castro; Chana Ross; Yakov Miron; Yuval GOLDFRACHT
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2024-02-08
Also published as: KR20240019042A; JP7369890B1; CN117506886A; JP2024022545A; US20240045434A1

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung beschrieben, das das Erfassen eines Referenzzustands einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand, das Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe und das Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente umfasst.

Description

Stand der Technik
Die vorliegende Offenbarung bezieht sich auf Vorrichtungen und Verfahren zum Steuern eines Roboters.
In den letzten Jahren hat es einen wachsenden Bedarf an einer Automatisierung auf Baustellen gegeben, die aus verschiedenen Gründen unter Arbeitskräftemangel leiden. Erstens kann die Automatisierung die Produktivität erhöhen, die in den letzten Jahrzehnten ziemlich stagniert hat, und die steigenden Kosten senken. Zweitens kann sie die Sicherheit der Arbeiter verbessern, indem sie ermöglicht, dass Maschinen die risikoreichen Aufgaben erledigen und deshalb die Arbeiter der Gefahr aus dem Weg gehen. Drittens kann sie es unterstützen, die erforderliche manuelle Arbeit von den Arbeitern zu verringern, und es folglich unterstützen, den Arbeitskräftemangel zu beseitigen.
Baustellen sind jedoch von Natur aus unvorhersehbare und unstrukturierte Umgebungen, in denen mehrere Maschinen gleichzeitig an verschiedenen anspruchsvollen Aufgaben arbeiten. Zusätzlich sind Bauprojekte außerdem äußerst vielfältig, da jedes Projekt auf einen spezifischen architektonischen Entwurf, Spezifikationen usw. zugeschnitten ist. Aus diesen Gründen ist die Automatisierung auf Baustellen eine schwierige Aufgabe.
Die Datensammlung für das Training, die das Rückgrat der derzeitigen Verfahren des maschinellen Lernens für das autonome Fahren ist, erweist sich in der unstrukturierten Umgebung einer Baustelle, in der Sicherheit, Zeit und Kosten die hauptsächlichen praktischen Erwägungen sind, als äußerst anspruchsvoll. Dieses Problem kann teilweise unter Verwendung von Simulatoren gelöst werden. Diese haben jedoch ihre Nachteile. Zusätzlich erweist sich die unvorhersehbare Natur der Bauumgebung, in der häufig extreme und gefährliche Szenarien auftreten, als schwierig zu modellieren und unter Verwendung von Standardverfahren für autonome Fahrzeuge zu erlernen.
Deshalb sind Ansätze zum Trainieren einer Steuerstrategie für eine Robotervorrichtung in unstrukturierten Umgebungen wie einer Baustelle wünschenswert.
Offenbarung der Erfindung
Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung bereitgestellt, das das Erfassen eines Referenzzustands einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand, das Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe und das Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente umfasst.
Das oben beschriebene Verfahren ermöglicht das Trainieren einer Steuerstrategie (oder eines Agenten) einer Robotervorrichtung, so dass die Steuerstrategie robust gegenüber Fehlern in der Haltungsschätzung ist und folglich gute Ergebnisse in einer schwierigen (unstrukturierten) Umgebung, wie z. B. einer Baustelle, erreichen kann. Es ist ersichtlich, dass die erzeugten Beobachtungen Trainingshaltungen entsprechen, wobei sich jede Trainingshaltung um den jeweiligen Fehler von der richtigen Haltung unterscheidet.
Eine oder mehrere (für die Referenzbeobachtung erzeugte, z. B. aus Expertenwissen, wie z. B. einer Demonstration, kommende) Referenzhandlungen können z. B. als eine Zielausgabe für die erzeugten Beobachtungen, d. h., die Beobachtungen, die in dem Sinn falsch sind, dass sie falschen Haltungsschätzungen entsprechen, als die auszuführenden Handlungen verwendet werden, so dass die Robotervorrichtung trainiert wird, die „richtigen“ Handlungen auszuführen, selbst wenn sie Fehler bei ihrer Haltungsschätzung macht. Die Zielausgabe eines Trainingsdatenelements (d. h., die Kennzeichnung der Grundwahrheit) kann außerdem durch einen Experten, z. B. von einem Expertenmodell, das als ein „Lehrer“ wirkt, erzeugt werden.
Die Beobachtung (z. B. eine Höhenkarte) wird z. B. erzeugt, so dass die Robotervorrichtung, falls ihre geschätzte Haltung ihre wahre Haltung in einem Zustand der Umgebung war, wie er durch die erzeugte Beobachtung gezeigt wird, eine Position und Orientierung bezüglich des Zustands der Umgebung, der durch die erzeugte Beobachtung (z. B. relativ zu den Sandhaufen auf einer Baustelle) als ihre Position und Orientierung (gemäß ihrer Referenzhaltung) bezüglich des Referenzzustands der Umgebung gezeigt wird, aufweisen würde.
Im Folgenden werden verschiedene Ausführungsformen beschrieben.
Die Ausführungsform 1 ist ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung, wie sie oben beschrieben worden ist.
Die Ausführungsform 2 ist das Verfahren der Ausführungsform 1, wobei jeder von wenigstens einigen der Fehler der Fehler zwischen einem Haltungsschätzergebnis, das durch eine Haltungsschätzungsfunktion der Robotervorrichtung bereitgestellt wird, die in Reaktion auf Sensormessdaten bereitgestellt wird, und einer Referenzhaltung ist, wobei die Sensormessdaten die Sensormessdaten sind, die die Robotervorrichtung erhalten würde, wenn sie sich in der durch jeweiliges Rauschen gestörten Referenzhaltung befindet.
Folglich kann erreicht werden, dass die Haltungen, die für das Training verwendet werden, die Haltungen sind, die den Haltungsschätzungen entsprechen, die die Robotervorrichtung in der praktischen Anwendung entwickeln kann.
Die Ausführungsform 3 ist das Verfahren der Ausführungsform 2, wobei die Sensormessdaten die Messdaten einer Trägheitsmesseinheit der Robotervorrichtung und die Bilddaten von einer Kamera enthalten, die die Umgebung beobachtet, und wobei die Haltungsschätzungsfunktion eine Sensorfusion ausführt, um das Haltungsschätzergebnis zu bestimmen.
Die Fehler (und folglich die (Trainings-) Haltungen) können dann durch das Stören der Messungen der Trägheitsmesseinheit und das Nehmen der sich aus der Sensorfusion ergebenden geschätzten Haltungen als die Trainingshaltungen erzeugt werden. Dies stellt realistische Trainingshaltungen bereit, weil insbesondere die Messungen der Trägheitsmesseinheit in der praktischen Anwendung fehlerhaft sein können.
Die Ausführungsform 4 ist ein Verfahren nach einer der Ausführungsformen 1 bis 3, das das Ausführen einer Haltungsschätzung (z. B. aus den Trainings-Sensormessdaten), die eine Unsicherheit des Haltungsschätzergebnisses ausgibt, und das Erzeugen wenigstens einiger der Fehler durch das Abtasten aus einer Verteilung der Fehler gemäß der Unsicherheit des Haltungsschätzergebnisses um das Haltungsschätzergebnis umfasst.
Das Haltungsschätzergebnis kann z. B. die Ausgabe eines (erweiterten) Kalman-Filters (EKF) sein. Die Erweiterungen werden dann z. B. aus der Verteilung des EKF-Restes (z. B. einer Gauß-Verteilung, die durch die Haltungsschätzung als ein Mittelwert und die EKF-Kovarianzmatrixschätzung als eine Kovarianz gegeben ist) erzeugt. Die Haltungsschätzung ist z. B. diejenige, die durch die Robotervorrichtung implementiert wird. Folglich werden Trainingsdatenelemente erzeugt, denen im Betrieb der Robotervorrichtung realistisch begegnet wird.
Die Ausführungsform 5 ist das Verfahren nach einer der Ausführungsformen 1 bis 4, wobei die Robotervorrichtung ein Baufahrzeug und die Umgebung eine Baustelle ist.
Insbesondere auf Baustellen ist die Haltungsschätzung infolge des unebenen Bodens und, weil die Umgebung sehr verrauscht ist, schwierig, wobei die Sensoren folglich verrauschte Messungen bereitstellen, was zu verrauschten Haltungsschätzungen führt, wobei folglich ein Training einer Steuerstrategie, die gegenüber Haltungsschätzfehlern robust ist, in einer derartigen Umgebung von besonderem Vorteil ist.
Die Ausführungsform 6 ist ein Verfahren zum Steuern einer Robotervorrichtung, das das Trainieren einer Steuerstrategie gemäß einer der Ausführungsformen 1 bis 5, das Beobachten der Umgebung, um eine Beobachtung zu erzeugen, das Bestimmen einer oder mehrerer Handlungen aus der Beobachtung mittels der trainierten Steuerstrategie, das Schätzen einer Haltung der Robotervorrichtung durch die Robotervorrichtung und das Ausführen der einen oder mehreren Handlungen unter Berücksichtigung der geschätzten Haltung innerhalb der beobachteten Umgebung umfasst.
Die Ausführungsform 7 ist ein Controller, der konfiguriert ist, ein Verfahren nach einer der Ausführungsformen 1 bis 6 auszuführen.
Die Ausführungsform 8 ist ein Computerprogramm, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren gemäß einer der Ausführungsformen 1 bis 6 auszuführen.
Die Ausführungsform 9 ist ein computerlesbares Medium, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren gemäß einer der Ausführungsformen 1 bis 6 auszuführen.
In den Zeichnungen beziehen sich ähnliche Bezugszeichen überall in den verschiedenen Ansichten im Allgemeinen auf die gleichen Teile. Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu, wobei stattdessen im Allgemeinen die Veranschaulichung der Prinzipien der Erfindung betont wird. In der folgenden Beschreibung werden verschiedene Aspekte bezüglich der folgenden Zeichnungen beschrieben; es zeigen:

1 ein Steuerungsszenario in einer Bauumgebung gemäß einer Ausführungsform;
2A die vollständigen Zustandsinformationen eines Agenten;
2B eine Beobachtung, die aus dem wahren (richtigen) Zustand nach 2A abgeleitet worden ist;
2C ausgewählte Handlungen für die Beobachtung nach 2B;
3 eine Erweiterung der Strategieeingaben für einen Trainingsdatensatz; und
4 das Training eines Agenten gemäß verschiedenen Ausführungsformen.

Die folgende ausführliche Beschreibung bezieht sich auf die beigefügten Zeichnungen, die zur Veranschaulichung spezifische Einzelheiten und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeübt werden kann. Es können andere Aspekte verwendet werden, wobei strukturelle, logische und elektrische Änderungen vorgenommen werden können, ohne vom Schutzumfang der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung sind nicht notwendigerweise wechselseitig ausschließend, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
Im Folgenden werden verschiedene Beispiele ausführlicher beschrieben.
1 zeigt ein Steuerungsszenario in einer Bauumgebung 101.
Ein Roboter 100 befindet sich in dieser Umgebung 101. Der Roboter 100 weist eine Startposition 102 auf und sollte z. B. die Sandhaufen 103 räumen. Die Umgebung 101 kann außerdem die Hindernisse 104 enthalten, die durch den Roboter 100 vermieden werden sollten. Sie können z. B. nicht durch den Roboter 100 passiert werden (z. B. Mauern, Bäume oder Felsen) oder sollten vermieden werden, weil der Roboter sie beschädigen oder verletzen (z. B. Arbeiter) würde.
Der Roboter 100 weist einen Controller 105 auf (der sich außerdem entfernt vom Roboter 100 befinden kann, d. h., der Roboter 100 kann durch eine Fernsteuerung gesteuert sein). Es ist ersichtlich, dass der Controller 105 einen Agenten implementiert, der den Roboter 100 steuert. Die Begriffe „Controller“ und „Agent“ werden im Folgenden synonym verwendet. Im beispielhaften Szenario nach 1 ist es das Ziel, dass der Controller 105 den Roboter 100 steuert, um in der Umgebung 101 zu navigieren, um die Sandhaufen 103 zu räumen, d. h., eine Planieraufgabe auszuführen. In diesem Beispiel ist der Roboter 100 eine autonome Planierraupe, er kann aber außerdem ein Roboter mit Beinen oder Ketten oder einer anderen Art von Antriebssystem (wie z. B. ein Tiefsee- oder Marsrover) sein.
Der Controller (oder Agent) 105 steuert den Roboter 100 aus den Beobachtungen, d. h., er empfängt eine Beobachtung (z. B. eine Höhenkarte, die eine Kamera 105 beobachtet), wählt eine oder mehrere Handlungen für die Beobachtung aus und steuert den Roboter 100, um die eine oder die mehreren Handlungen auszuführen (sich z. B. um eine bestimmte Strecke in eine bestimmte Richtung zu bewegen).
Im Folgenden werden Ansätze zur autonomen Wegplanung für Baustellenfahrzeuge (im Allgemeinen Roboter in unstrukturierten Umgebungen) beschrieben. Als ein Beispiel wird, wie in 1 veranschaulicht ist, eine autonome Planieraufgabe, die durch eine Planierraupe 100 unter einer Lokalisierungsunsicherheit ausgeführt wird, betrachtet, wobei die geschätzte Haltung des Fahrzeugs (der Planierraupe) fehlerhaft ist. Diese Aufgabe stellt mehrere Herausforderungen dar, die allen Maschinenwerkzeugen auf jeder Baustelle gemeinsam sind. Deshalb kann die behandelte Aufgabe als ein repräsentatives Beispiel auf dem Gebiet betrachtet werden. Die Hauptherausforderungen enthalten die Datensammlung, die für alle Maschinenwerkzeuge eine zentrale Schwierigkeit ist. Zweitens ist die partielle Beobachtbarkeit der Umgebung äußerst herausfordernd, da große Abschnitte der Umgebung aufgrund der Sensorpositionierung verborgen sind. Drittens beeinflusst das sensorische Rauschen, das in eine Lokalisierungsunsicherheit übersetzt wird, die Weise, in der der Agent 105 die Beobachtungen der Umgebung 101 verwendet, und verursacht folglich einer signifikante Leistungsverschlechterung im Entscheidungsfindungsprozess.
Um die Schwierigkeit der Datensammlung zu überwinden, können gemäß verschiedenen Ausführungsformen Domänenanpassungstechniken verwendet werden, um die Lücke zwischen Simulation und Realität zu überbrücken, wenn der Agent 105 in einer simulierten Umgebung trainiert wird. Die Simulation kann so erweitert werden, dass sie den Daten der realen Welt so ähnlich wie möglich ist. Gemäß verschiedenen Ausführungsformen wird eine (Steuer-) Strategie für einen Agenten 105 rein in der Simulation erlernt (d. h., wird ein Agent trainiert) und sowohl in der Simulation als auch in einer skalierten Prototypumgebung getestet.
Zusätzlich wird gemäß verschiedenen Ausführungsformen die Lokalisierungsunsicherheit unter Verwendung eines Trainingsregimes behandelt, bei dem die Unsicherheit (z. B. aufgrund des sensorischen Rauschens) während des Trainings der Strategie des Agenten berücksichtigt wird. Dies ermöglich, dass der Agent 105 im Vergleich zum Erlernen einer Strategie in einer sauberen, rauschfreien Umgebung eine robuste Strategie mit verbesserter Leistung unter der Unsicherheit während der Folgerung erlernt.
Spezifisch enthält der Trainingsdatensatz, der verwendet wird, um den Agenten 105 zu trainieren, viele Variationen, einschließlich skalierter, gedrehter und verschobener Versionen von (Referenz-) Beobachtungen, und verbessert folglich die Fähigkeit des Agenten, einem realistischeren Szenario gerecht zu werden, in dem die Beobachtung aufgrund von Lokalisierungsfehlern unsicher ist.
Die Steuerung der Planierraupe 100 kann als teilbeobachtbarer Markov-Entscheidungsprozess (POMDP) modelliert werden, der aus einem Tupel $(S, O, A, P, R)$
besteht: der Zustand $s \in S$
enthält alle erforderlichen Informationen, um eine optimale Strategie zu erlernen. Der Agent 105 ist jedoch oft nur mit teilweisen oder verrauschten Informationen hinsichtlich der Umgebung 101 versehen, die als die Beobachtung $o \in O$
bezeichnet werden. Im Gegensatz zu den Zuständen fehlt den Beobachtungen typischerweise die für die Optimalität ausreichende Statistik. In jedem Zustand
ergreift der Agent 105 eine Maßnahme (d. h., er steuert den Roboter 100 gemäß einer ausgewählten Handlung) a ∈ A. Dann geht das System (die Planierraupe 100 und die Umgebung 101) basierend auf dem Übergangskern P(s'|s,a) in den nächsten Zustand S' über. Schließlich wird dem Agenten eine Belohnung r(s,a) bereitgestellt. Es ist das Ziel eines Agenten, eine Verhaltensstrategie π zu erlernen, die die kumulative Belohnung maximiert, wobei die Strategie die Beobachtungen (oder die geschätzten Zustände) auf die Handlungen abbildet.
Gemäß verschiedenen Ausführungsformen wird die Aufgabe der autonomen Klassifizierung als ein POMDP/R (d. h., ein POMDP ohne den Belohnungsterm) formalisiert, d. h., es wird ein 4-Tupel definiert, das aus Zuständen, Beobachtungen, Handlungen und dem Übergangskern besteht.
Der Zustand umfasst alle Informationen, die erforderlich sind, um die optimale Strategie zu erhalten, und bestimmt das Ergebnis jeder Handlung. Im vorliegenden Beispiel enthält der Zustand die genaue Haltung des Agenten (d. h., der Planierraupe) 100.
2A veranschaulicht die vollständigen Zustandsinformationen des Agenten 200 gemäß einer Ausführungsform, die eine genaue Kenntnis (ohne Fehler) seiner Haltung und eine Kenntnis über die Umgebung 202 einschließlich des Ortes der Sandhaufen 201 enthält.
2B veranschaulicht eine Beobachtung, die aus dem wahren (richtigen) Zustand nach 2A ohne Fehler abgeleitet worden ist, wobei die Beobachtung einen Abschnitt der Zustandsinformationen (hier einen Abschnitt 204 der Umgebung 202) enthält.
Im Kontext der Fehler können zwei Aspekte von Handlungen betrachtet werden: (i - Steuerketten-Auswahl), wobei die Strategie einen Wegpunkt ausgibt, den die Planierraupe 100 erreichen soll. Hier werden Haltungsschätzfehler als eine suboptimale Projektion vom Zustand zur Beobachtung dargestellt. (ii - Regelkreis), wobei die Fehler bei der Haltungsschätzung zu dem Controller auf niedriger Ebene der Planierraupe zur Trajektorienausführung rückgekoppelt werden. Hier breiten sich die Fehler durch das System aus, was zu einer Abweichung von dem Sollweg führt.
2C zeigt ausgewählte Handlungen als Punkte 205 (die einen Weg definieren, der durch die Planierraupe 200 zu nehmen ist, um den obersten Sandhaufen 201 zu räumen).
Die Zustandsübergänge sind durch die Dynamik der Planierraupe und die physikalischen Eigenschaften des Bodens und der Umgebung bestimmt.
Gemäß verschiedenen Ausführungsformen werden Trainingsbeobachtungen (d. h., Trainingseingaben) erzeugt, die Fehler umfassen, die die Unsicherheit der Zustandsbestimmung widerspiegeln, die durch das Messrauschen verursacht wird, das die Sensordaten (in diesem Beispiel einen Sensor zum Messen der Haltung der Planierraupe) beeinflusst. Im vorliegenden Beispiel wird die ungenaue Zustandsschätzung (hauptsächlich Haltungsschätzung) in eine fehlerhafte Begrenzungsrechteck-Ansicht um den aktuellen Ort der Planierraupe 100 übersetzt.
Zum Trainieren (und Testen) gemäß verschiedenen Ausführungsformen wird dieses Verhalten in der Simulation durch das Anwenden einer Erweiterung (z. B. Drehung und Translation) auf die wahre und genaue Beobachtung nachgeahmt, d. h., es wird eine Beobachtung in Übereinstimmung mit einer (leicht) gedrehten und/oder verschobenen Haltung erzeugt.
3 veranschaulicht die Erweiterung der Strategieeingabe für einen Trainingsdatensatz.
Eine erste graphische Darstellung 301 veranschaulicht ein Referenz-Trainingsdatenelement, in dem die Planierraupe eine Referenzhaltung (d. h., eine Haltung, die in diesem Beispiel als die wahre Haltung für die Trainingsdaten angenommen wird) der Planierraupe 300 in der Umgebung 306 aufweist. Von dieser Haltung weist die Planierraupe eine bestimmte Beobachtung (die als eine Referenzbeobachtung bezeichnet wird) der Umgebung auf. Der Referenzbeobachtungsfall entspricht deshalb dem für das Trainingsdatenelement angenommenen wahren Zustand der Umgebung (die hier spezifisch den Ort der Sandhaufen 307 enthält). Das Referenzdatenelement enthält ReferenzTrainingsetiketten, d. h., eine Spezifikation einer oder mehrerer (Referenz-) Handlungen (hier zwei Handlungen, dargestellt durch die Punkte 308, in der Form von Wegpunkten, die einen Weg definieren, um einen der Sandhaufen 307 zu räumen, wobei die Planierraupe zuerst zu dem weiter entfernten Punkt und dann rückwärts zu dem näheren Wegpunkt fahren sollte).
Die weiteren graphischen Darstellungen 302, 303, 304, 305 repräsentieren jeweils ein Trainingsdatenelement, das einer erweiterten Version der Referenzbeobachtung entspricht. Jedes Trainingsdatenelement entspricht einer gestörten Haltung (d. h., einer Spezifikation einer Haltung, die sich von der wahren Haltung der graphischen Darstellung 301 unterscheidet) und folglich einer gestörten Beobachtung (z. B. Höhenkarte), die bezüglich der Referenzbeobachtung gestört ist.
Jedes Trainingsdatenelement enthält als die Trainingsetiketten die Referenztrainingsetiketten, d. h., spezifiziert als die Grundwahrheit Handlungen, die dem wahren Zustand entsprechen, so dass die Planierraupe trainiert wird, eine geeignete Handlung auszuführen, selbst wenn ihre Haltungsschätzung fehlerhaft ist.
4 veranschaulicht das Training des Agenten 105 gemäß verschiedenen Ausführungsformen.
In diesem Beispiel wird ein Wahrnehmungsblock 406 verwendet, um Haltungsschätzungen zu erzeugen, wie sie in der Planierraupe 100 enthalten sind.
Spezifisch umfasst der Agent 105 eine Trägheitsmesseinheit 401, die Geschwindigkeits- und Winkelgeschwindigkeitsinkremente $(q_{t}^{e}, q_{v}^{e})$
mit hoher Frequenz bereitstellt.
Eine Schnittstelle 402 zur Kamera 105 (die irgendwo auf der Baustelle angebracht ist) stellt unterstützende Positions- und Lagemessungen (d. h., Orientierungsmessungen) $(p_{m}^{e}, Ψ_{m}^{e})$
mit tiefer Frequenz bereit, d. h., sie stellt unterstützende Informationen bereit. Die unterstützenden Informationen können außerdem durch eine weitere Vorrichtung wie einen GNSS-Empfänger (Empfänger eines Globalen Navigationssatellitensystems) bereitgestellt werden.
Ein Trägheitsnavigationssystem (INS) 403 verwendet die Trägheitssensormesswerte (von der IMU 401) und die Anfangsbedingungen (IC) 404, um die Position, die Geschwindigkeit und die Orientierung der Planierraupe zu berechnen. Gemäß einer Ausführungsform wird ein Sensorfusionsansatz unter Verwendung eines erweiterten Kalman-Filters (EKF) 405 verwendet, um eine Sensorfusion zwischen den Messungen der IMU 401 und den Messungen der Kamera (die über die Kameraschnittstelle 402 durch die Planierraupe empfangen werden) auszuführen.
Das Trägheitsintegrationssystem 403 verwendet deshalb sowohl die IC 404 als auch die Messungen von der IMU 401, um Positions- und Lageschätzungen mit hoher Frequenz (p̃_INS, Ψ̃_INS) zu erzeugen, wobei, sobald eine unterstützende Messung über die Kameraschnittstelle 402 verfügbar ist, das EKF 405 aktiviert wird, um korrigierte Haltungs-, Verzerrungs- und Driftschätzungen bereitzustellen. Diese Schätzungen werden zur Trägheitskompensation zu dem Trägheitsintegrationssystem 403 rückgekoppelt. Die Ausgabe des Wahrnehmungsblocks 406, der diese Komponenten umfasst, ist eine Schätzung der Haltung mit hoher Frequenz.
Wenn der Wahrnehmungsblock eine Haltung für einen Trainingszustand (d. h., einen wahren Zustand eines Referenz-Trainingsdatenelements, wie in der ersten graphischen Darstellung 301 nach 3 veranschaulicht ist) geschätzt hat, wird ein entsprechendes Trainingsdatenelement (wie durch eine der zweiten bis fünften graphischen Darstellungen 302 bis 305 nach 3 dargestellt ist) erzeugt. Dies wird durch das Einspeisen der geschätzten Haltung von dem Wahrnehmungsblock 406 in einen Simulator, um eine Beobachtung 407 von dem wahren Zustand 408 und der geschätzten Haltung durch das Stören der dem wahren Zustand entsprechenden richtigen Beobachtung gemäß der geschätzten Haltung wiederzugeben, d. h., das Erzeugen einer Beobachtung (Höhenkarte), die durch die Kamera 105 beobachtet würde, falls die geschätzte Haltung der Planierraupe ihre wahre Haltung wäre, ausgeführt. Die Trainingsetiketten in dem erzeugten Trainingsdatenelement werden erzeugt, indem die erzeugte Beobachtung einem Expertenmodell gegeben wird.
Sobald die Beobachtung 407 verfügbar ist, wird sie in die Strategie eingespeist, die die Handlungen 409 (d. h., die Wegpunktentscheidungen) bereitstellt. Dann wird ein Verlust bezüglich der Trainingsmarken berechnet.
Der Simulator kann dann die bereitgestellten Handlungen ausführen, den nächsten wahren Zustand berechnen (oder die Simulation z. B. durch ein Rücksetzen nach einigen Iterationen oder durch das Setzen auf ein weiteres Trainingsszenario in einer weiteren Weise auf einen weiteren wahren Zustand setzen) und den obigen Prozess wiederholen (d. h., mehrere Iterationen ausführen), um weitere Verluste (d. h., weitere Komponenten eines Gesamttrainingsverlustes) zu berechnen. Der Agent kann dann trainiert werden, um den Gesamttrainingsverlust, z. B. die Summe der Stapel der Verluste von mehreren Iterationen, zu verringern.
Es sollte angegeben werden, dass aus einer einzigen durch den Wahrnehmungsblock 406 bereitgestellten Haltungsschätzung mehrere Trainingsdatenelemente erzeugt werden können, indem die Unsicherheit der Haltung (aus der EKF-Kovarianzmatrixschätzung) berücksichtigt wird, d. h., ${{\tilde{x}}_{k}}_{k = 0}^{K - 1} \sim N (\tilde{x}, \sum)$
Hier ist K die Anzahl der Beobachtungen, die aus der Verteilung über die geschätzte Haltung X̃ wiedergegeben werden, während N(·,·) die Normalverteilung ist. Im obigen Beispiel entspricht X̃ (p̃_INS,Ψ̃_INs), d. h., der Haltung und der Orientierung.
Bei einer Sensorfusionsfilterung, wie sie durch den Wahrnehmungsblock 401 implementiert wird, können deshalb viele verrauschte (gestörte) Beobachtungen (d. h., Erweiterungen der wahren Beobachtungen) erzeugt werden. Dies kann insbesondere durch (i) das Hinzufügen von synthetischem Rauschen zu den Trägheitssensoren der Trägheitsmesseinheit (IMU) 401 und zu den unterstützenden Sensormessungen (hier den über die Schnittstelle 402 empfangenen Bilddaten), (ii) das Anwenden des Trägheitsnavigationssystems 403 (INS) und des EKF 405 und (iii) das Wiedergeben der verrauschten Beobachtungen aus der durch das Filter 405 erzeugten Verteilung ausgeführt werden. In dieser Weise werden Unsicherheiten in die Trainingspipeline eingeführt. Dies verbessert das Training, indem es zu einem Trainingsdatensatz führt, der nun eine viel breitere Verteilung über potentielle Zustände enthält. Dies wiederum ermöglicht es dem Agenten 105, eine Strategie zu erlernen, die gegenüber Lokalisierungsunsicherheiten robuster ist.
In der Praxis wird das Einfügen von sensorischem Rauschen in die Messungen in kleine Störungen von der jeweiligen wahren Beobachtung übersetzt.
Wenn die Planierraupe ihre Haltung in globalen Koordinaten (d. h., Koordinaten der Höhenkarte) schätzt und bei der Haltungsschätzung einen Fehler (aufgrund der Fehler in den Sensormessungen) macht, kann dies deshalb als eine entsprechende Verschiebung oder Drehung der Höhenkarte gesehen werden, wie in 3 veranschaulicht ist (weil vom Standpunkt der Planierraupe die Umgebung verschoben und/oder gedreht ist, weil sie ihre Haltung innerhalb der Umgebung falsch schätzt und deshalb annimmt, dass die Umgebung verschoben und/oder gedreht ist, während sie selbst diejenige ist, die verschoben und/oder gedreht ist).
Zusammenfassend wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, das in 5 veranschaulicht ist.
5 zeigt einen Ablaufplan 500, der ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung veranschaulicht.
In 501 werden ein Referenzzustand einer Umgebung der Robotervorrichtung und eine Referenzbeobachtung der Umgebung für den Referenzzustand (d. h., die den Referenzzustand widerspiegelt) erfasst.
In 502 werden eine oder mehrere Referenzhandlungen für den Zustand bestimmt.
In 503 wird für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung eine Beobachtung erzeugt, die bezüglich der Referenzbeobachtung gemäß dem Fehler der Haltungsschätzung gestört ist, und wird ein Trainingsdatenelement erzeugt, das die erzeugte Beobachtung als eine Trainingseingabe und die eine oder mehrere Referenzhandlungen als eine Zielausgabe umfasst.
In 504 wird die Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente trainiert.
Gemäß verschiedenen Ausführungsformen wird mit anderen Worten ein Agent mit einem erweiterten Datensatz trainiert (oder neu trainiert). Spezifisch werden dem Agenten zusätzliche Trainingsdatenelemente (aus einer Verteilung von Trainingsdatenelementen) präsentiert, denen er z. B. bislang im Training nicht begegnet ist. Die zusätzlichen Trainingsdatenelemente verbessern die Skalierungs- und Drehungsinvarianz der durch den Agenten implementierten Steuerstrategie. Wie oben beschrieben worden ist, wird z. B. der Ort des Agenten (der Planierraupe) bezüglich der Sandhaufen gestört, um ihm zu ermöglichen, zu lernen, bessere Entscheidungen bei der Folgerung zu treffen.
Wie oben erklärt worden ist, können die Trainingsdatenelemente (d. h., die Trainingsbeobachtungen, d. h., die Trainingseingaben, die sie enthalten) für verschiedene Haltungen von dem „wahren“ Zustand (der der richtigen Beobachtung entspricht, für die die Handlungsetiketten gegeben sind) wiedergegeben werden. Das Bereitstellen mehrerer Beobachtungen für denselben („wahren“) Zustand, die von vielen Haltungen abgeleitet sind, dem Agenten verbessert die Robustheit des Agenten gegenüber Skalierung und Drehung.
Der Ansatz nach 5 kann verwendet werden, um einen Agenten zu trainieren, um ein Steuersignal zum Steuern eines technischen Systems zu berechnen, bei dem eine Haltung berücksichtigt wird, wie z. B. eine computergesteuerte Maschine, wie ein Roboter, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönlicher Assistent oder ein Zugangssteuersystem. Gemäß verschiedenen Ausführungsformen kann eine Strategie zum Steuern des technischen Systems erlernt und dann das technische System entsprechend betrieben werden.
Verschiedene Ausführungsformen können Bilddaten (d. h., digitale Bilder) von verschiedenen visuellen Sensoren (Kameras), wie z. B. Video, Radar, LiDAR, Ultraschall, Thermographie, Bewegung, Sonar usw., z. B. zum Erhalten der Beobachtungen empfangen und verwenden.
Gemäß einer Ausführungsform ist das Verfahren computerimplementiert.
Obwohl hier spezifische Ausführungsformen veranschaulicht und beschrieben worden sind, erkennen Durchschnittsfachleute auf dem Gebiet, dass verschiedene alternative und/oder äquivalente Implementierungen für die gezeigten und beschriebenen spezifischen Ausführungsformen ersetzt werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen. Diese Anmeldung ist vorgesehen, alle Anpassungen oder Variationen der hier erörterten spezifischen Ausführungsformen abzudecken. Deshalb ist vorgesehen, dass diese Erfindung nur durch die Ansprüche und deren Äquivalente eingeschränkt wird.

Claims

Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung, das Folgendes umfasst: Erfassen eines Referenzzustandes einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand; Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe; und Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente.
Verfahren nach Anspruch 1, wobei jeder von wenigstens einigen der Fehler der Fehler zwischen einem Haltungsschätzergebnis, das durch eine in Reaktion auf Sensormessdaten bereitgestellte Haltungsschätzfunktion der Robotervorrichtung bereitgestellt wird, und einer Referenzhaltung ist, wobei die Sensormessdaten die Sensormessdaten sind, die die Robotervorrichtung erhalten würde, wenn sie sich in der durch jeweiliges Rauschen gestörten Referenzhaltung befindet.
Verfahren nach Anspruch 2, wobei die Sensormessdaten Messdaten einer Trägheitsmesseinheit der Robotervorrichtung und Bilddaten von einer Kamera, die die Umgebung beobachtet, enthalten, und wobei die Haltungsschätzfunktion eine Sensorfusion ausführt, um das Haltungsschätzergebnis zu bestimmen.
Verfahren nach einem der Ansprüche 1 bis 3, das das Ausführen einer Haltungsschätzung, die eine Unsicherheit des Haltungsschätzergebnisses ausgibt, und das Erzeugen wenigstens einiger der Fehler durch das Abtasten aus einer Verteilung der Fehler gemäß der Unsicherheit des Haltungsschätzergebnisses um das Haltungsschätzergebnis umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Robotervorrichtung ein Baufahrzeug ist und die Umgebung eine Baustelle ist.
Verfahren zum Steuern einer Robotervorrichtung, das umfasst: Trainieren einer Steuerstrategie nach einem der Ansprüche 1 bis 5; Beobachten der Umgebung, um eine Beobachtung zu erzeugen; Bestimmen einer oder mehrerer Handlungen aus der Beobachtung mittels der trainierten Steuerstrategie; Schätzen einer Haltung der Robotervorrichtung durch die Robotervorrichtung; und Ausführen der einen oder mehreren Handlungen unter Berücksichtigung der geschätzten Haltung innerhalb der beobachteten Umgebung.
Controller, der konfiguriert ist, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
Computerprogramm, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
Computerlesbares Medium, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.