DE102022208089A1 - Vorrichtung und Verfahren zum Steuern eines Roboters - Google Patents

Vorrichtung und Verfahren zum Steuern eines Roboters Download PDF

Info

Publication number
DE102022208089A1
DE102022208089A1 DE102022208089.0A DE102022208089A DE102022208089A1 DE 102022208089 A1 DE102022208089 A1 DE 102022208089A1 DE 102022208089 A DE102022208089 A DE 102022208089A DE 102022208089 A1 DE102022208089 A1 DE 102022208089A1
Authority
DE
Germany
Prior art keywords
training
observation
posture
environment
posture estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022208089.0A
Other languages
English (en)
Inventor
Dotan Di Castro
Chana Ross
Yakov Miron
Yuval GOLDFRACHT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102022208089.0A priority Critical patent/DE102022208089A1/de
Priority to US18/362,311 priority patent/US20240045434A1/en
Priority to CN202310969071.1A priority patent/CN117506886A/zh
Priority to KR1020230100901A priority patent/KR20240019042A/ko
Priority to JP2023126350A priority patent/JP7369890B1/ja
Publication of DE102022208089A1 publication Critical patent/DE102022208089A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/20Control system inputs
    • G05D1/24Arrangements for determining position or orientation
    • G05D1/246Arrangements for determining position or orientation using environment maps, e.g. simultaneous localisation and mapping [SLAM]
    • G05D1/2469Arrangements for determining position or orientation using environment maps, e.g. simultaneous localisation and mapping [SLAM] using a topologic or simplified map
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/027Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means comprising intertial navigation means, e.g. azimuth detector
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/20Control system inputs
    • G05D1/24Arrangements for determining position or orientation
    • G05D1/247Arrangements for determining position or orientation using signals provided by artificial sources external to the vehicle, e.g. navigation beacons
    • G05D1/249Arrangements for determining position or orientation using signals provided by artificial sources external to the vehicle, e.g. navigation beacons from positioning sensors located off-board the vehicle, e.g. from cameras
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/648Performing a task within a working area or space, e.g. cleaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2101/00Details of software or hardware architectures used for the control of position
    • G05D2101/10Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques
    • G05D2101/15Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques using machine learning, e.g. neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2105/00Specific applications of the controlled vehicles
    • G05D2105/05Specific applications of the controlled vehicles for soil shifting, building, civil engineering or mining, e.g. excavators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2107/00Specific environments of the controlled vehicles
    • G05D2107/90Building sites; Civil engineering
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2109/00Types of controlled vehicles
    • G05D2109/10Land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung beschrieben, das das Erfassen eines Referenzzustands einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand, das Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe und das Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente umfasst.

Description

  • Stand der Technik
  • Die vorliegende Offenbarung bezieht sich auf Vorrichtungen und Verfahren zum Steuern eines Roboters.
  • In den letzten Jahren hat es einen wachsenden Bedarf an einer Automatisierung auf Baustellen gegeben, die aus verschiedenen Gründen unter Arbeitskräftemangel leiden. Erstens kann die Automatisierung die Produktivität erhöhen, die in den letzten Jahrzehnten ziemlich stagniert hat, und die steigenden Kosten senken. Zweitens kann sie die Sicherheit der Arbeiter verbessern, indem sie ermöglicht, dass Maschinen die risikoreichen Aufgaben erledigen und deshalb die Arbeiter der Gefahr aus dem Weg gehen. Drittens kann sie es unterstützen, die erforderliche manuelle Arbeit von den Arbeitern zu verringern, und es folglich unterstützen, den Arbeitskräftemangel zu beseitigen.
  • Baustellen sind jedoch von Natur aus unvorhersehbare und unstrukturierte Umgebungen, in denen mehrere Maschinen gleichzeitig an verschiedenen anspruchsvollen Aufgaben arbeiten. Zusätzlich sind Bauprojekte außerdem äußerst vielfältig, da jedes Projekt auf einen spezifischen architektonischen Entwurf, Spezifikationen usw. zugeschnitten ist. Aus diesen Gründen ist die Automatisierung auf Baustellen eine schwierige Aufgabe.
  • Die Datensammlung für das Training, die das Rückgrat der derzeitigen Verfahren des maschinellen Lernens für das autonome Fahren ist, erweist sich in der unstrukturierten Umgebung einer Baustelle, in der Sicherheit, Zeit und Kosten die hauptsächlichen praktischen Erwägungen sind, als äußerst anspruchsvoll. Dieses Problem kann teilweise unter Verwendung von Simulatoren gelöst werden. Diese haben jedoch ihre Nachteile. Zusätzlich erweist sich die unvorhersehbare Natur der Bauumgebung, in der häufig extreme und gefährliche Szenarien auftreten, als schwierig zu modellieren und unter Verwendung von Standardverfahren für autonome Fahrzeuge zu erlernen.
  • Deshalb sind Ansätze zum Trainieren einer Steuerstrategie für eine Robotervorrichtung in unstrukturierten Umgebungen wie einer Baustelle wünschenswert.
  • Offenbarung der Erfindung
  • Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung bereitgestellt, das das Erfassen eines Referenzzustands einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand, das Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe und das Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente umfasst.
  • Das oben beschriebene Verfahren ermöglicht das Trainieren einer Steuerstrategie (oder eines Agenten) einer Robotervorrichtung, so dass die Steuerstrategie robust gegenüber Fehlern in der Haltungsschätzung ist und folglich gute Ergebnisse in einer schwierigen (unstrukturierten) Umgebung, wie z. B. einer Baustelle, erreichen kann. Es ist ersichtlich, dass die erzeugten Beobachtungen Trainingshaltungen entsprechen, wobei sich jede Trainingshaltung um den jeweiligen Fehler von der richtigen Haltung unterscheidet.
  • Eine oder mehrere (für die Referenzbeobachtung erzeugte, z. B. aus Expertenwissen, wie z. B. einer Demonstration, kommende) Referenzhandlungen können z. B. als eine Zielausgabe für die erzeugten Beobachtungen, d. h., die Beobachtungen, die in dem Sinn falsch sind, dass sie falschen Haltungsschätzungen entsprechen, als die auszuführenden Handlungen verwendet werden, so dass die Robotervorrichtung trainiert wird, die „richtigen“ Handlungen auszuführen, selbst wenn sie Fehler bei ihrer Haltungsschätzung macht. Die Zielausgabe eines Trainingsdatenelements (d. h., die Kennzeichnung der Grundwahrheit) kann außerdem durch einen Experten, z. B. von einem Expertenmodell, das als ein „Lehrer“ wirkt, erzeugt werden.
  • Die Beobachtung (z. B. eine Höhenkarte) wird z. B. erzeugt, so dass die Robotervorrichtung, falls ihre geschätzte Haltung ihre wahre Haltung in einem Zustand der Umgebung war, wie er durch die erzeugte Beobachtung gezeigt wird, eine Position und Orientierung bezüglich des Zustands der Umgebung, der durch die erzeugte Beobachtung (z. B. relativ zu den Sandhaufen auf einer Baustelle) als ihre Position und Orientierung (gemäß ihrer Referenzhaltung) bezüglich des Referenzzustands der Umgebung gezeigt wird, aufweisen würde.
  • Im Folgenden werden verschiedene Ausführungsformen beschrieben.
  • Die Ausführungsform 1 ist ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung, wie sie oben beschrieben worden ist.
  • Die Ausführungsform 2 ist das Verfahren der Ausführungsform 1, wobei jeder von wenigstens einigen der Fehler der Fehler zwischen einem Haltungsschätzergebnis, das durch eine Haltungsschätzungsfunktion der Robotervorrichtung bereitgestellt wird, die in Reaktion auf Sensormessdaten bereitgestellt wird, und einer Referenzhaltung ist, wobei die Sensormessdaten die Sensormessdaten sind, die die Robotervorrichtung erhalten würde, wenn sie sich in der durch jeweiliges Rauschen gestörten Referenzhaltung befindet.
  • Folglich kann erreicht werden, dass die Haltungen, die für das Training verwendet werden, die Haltungen sind, die den Haltungsschätzungen entsprechen, die die Robotervorrichtung in der praktischen Anwendung entwickeln kann.
  • Die Ausführungsform 3 ist das Verfahren der Ausführungsform 2, wobei die Sensormessdaten die Messdaten einer Trägheitsmesseinheit der Robotervorrichtung und die Bilddaten von einer Kamera enthalten, die die Umgebung beobachtet, und wobei die Haltungsschätzungsfunktion eine Sensorfusion ausführt, um das Haltungsschätzergebnis zu bestimmen.
  • Die Fehler (und folglich die (Trainings-) Haltungen) können dann durch das Stören der Messungen der Trägheitsmesseinheit und das Nehmen der sich aus der Sensorfusion ergebenden geschätzten Haltungen als die Trainingshaltungen erzeugt werden. Dies stellt realistische Trainingshaltungen bereit, weil insbesondere die Messungen der Trägheitsmesseinheit in der praktischen Anwendung fehlerhaft sein können.
  • Die Ausführungsform 4 ist ein Verfahren nach einer der Ausführungsformen 1 bis 3, das das Ausführen einer Haltungsschätzung (z. B. aus den Trainings-Sensormessdaten), die eine Unsicherheit des Haltungsschätzergebnisses ausgibt, und das Erzeugen wenigstens einiger der Fehler durch das Abtasten aus einer Verteilung der Fehler gemäß der Unsicherheit des Haltungsschätzergebnisses um das Haltungsschätzergebnis umfasst.
  • Das Haltungsschätzergebnis kann z. B. die Ausgabe eines (erweiterten) Kalman-Filters (EKF) sein. Die Erweiterungen werden dann z. B. aus der Verteilung des EKF-Restes (z. B. einer Gauß-Verteilung, die durch die Haltungsschätzung als ein Mittelwert und die EKF-Kovarianzmatrixschätzung als eine Kovarianz gegeben ist) erzeugt. Die Haltungsschätzung ist z. B. diejenige, die durch die Robotervorrichtung implementiert wird. Folglich werden Trainingsdatenelemente erzeugt, denen im Betrieb der Robotervorrichtung realistisch begegnet wird.
  • Die Ausführungsform 5 ist das Verfahren nach einer der Ausführungsformen 1 bis 4, wobei die Robotervorrichtung ein Baufahrzeug und die Umgebung eine Baustelle ist.
  • Insbesondere auf Baustellen ist die Haltungsschätzung infolge des unebenen Bodens und, weil die Umgebung sehr verrauscht ist, schwierig, wobei die Sensoren folglich verrauschte Messungen bereitstellen, was zu verrauschten Haltungsschätzungen führt, wobei folglich ein Training einer Steuerstrategie, die gegenüber Haltungsschätzfehlern robust ist, in einer derartigen Umgebung von besonderem Vorteil ist.
  • Die Ausführungsform 6 ist ein Verfahren zum Steuern einer Robotervorrichtung, das das Trainieren einer Steuerstrategie gemäß einer der Ausführungsformen 1 bis 5, das Beobachten der Umgebung, um eine Beobachtung zu erzeugen, das Bestimmen einer oder mehrerer Handlungen aus der Beobachtung mittels der trainierten Steuerstrategie, das Schätzen einer Haltung der Robotervorrichtung durch die Robotervorrichtung und das Ausführen der einen oder mehreren Handlungen unter Berücksichtigung der geschätzten Haltung innerhalb der beobachteten Umgebung umfasst.
  • Die Ausführungsform 7 ist ein Controller, der konfiguriert ist, ein Verfahren nach einer der Ausführungsformen 1 bis 6 auszuführen.
  • Die Ausführungsform 8 ist ein Computerprogramm, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren gemäß einer der Ausführungsformen 1 bis 6 auszuführen.
  • Die Ausführungsform 9 ist ein computerlesbares Medium, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren gemäß einer der Ausführungsformen 1 bis 6 auszuführen.
  • In den Zeichnungen beziehen sich ähnliche Bezugszeichen überall in den verschiedenen Ansichten im Allgemeinen auf die gleichen Teile. Die Zeichnungen sind nicht notwendigerweise maßstabsgetreu, wobei stattdessen im Allgemeinen die Veranschaulichung der Prinzipien der Erfindung betont wird. In der folgenden Beschreibung werden verschiedene Aspekte bezüglich der folgenden Zeichnungen beschrieben; es zeigen:
    • 1 ein Steuerungsszenario in einer Bauumgebung gemäß einer Ausführungsform;
    • 2A die vollständigen Zustandsinformationen eines Agenten;
    • 2B eine Beobachtung, die aus dem wahren (richtigen) Zustand nach 2A abgeleitet worden ist;
    • 2C ausgewählte Handlungen für die Beobachtung nach 2B;
    • 3 eine Erweiterung der Strategieeingaben für einen Trainingsdatensatz; und
    • 4 das Training eines Agenten gemäß verschiedenen Ausführungsformen.
  • Die folgende ausführliche Beschreibung bezieht sich auf die beigefügten Zeichnungen, die zur Veranschaulichung spezifische Einzelheiten und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeübt werden kann. Es können andere Aspekte verwendet werden, wobei strukturelle, logische und elektrische Änderungen vorgenommen werden können, ohne vom Schutzumfang der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung sind nicht notwendigerweise wechselseitig ausschließend, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.
  • Im Folgenden werden verschiedene Beispiele ausführlicher beschrieben.
  • 1 zeigt ein Steuerungsszenario in einer Bauumgebung 101.
  • Ein Roboter 100 befindet sich in dieser Umgebung 101. Der Roboter 100 weist eine Startposition 102 auf und sollte z. B. die Sandhaufen 103 räumen. Die Umgebung 101 kann außerdem die Hindernisse 104 enthalten, die durch den Roboter 100 vermieden werden sollten. Sie können z. B. nicht durch den Roboter 100 passiert werden (z. B. Mauern, Bäume oder Felsen) oder sollten vermieden werden, weil der Roboter sie beschädigen oder verletzen (z. B. Arbeiter) würde.
  • Der Roboter 100 weist einen Controller 105 auf (der sich außerdem entfernt vom Roboter 100 befinden kann, d. h., der Roboter 100 kann durch eine Fernsteuerung gesteuert sein). Es ist ersichtlich, dass der Controller 105 einen Agenten implementiert, der den Roboter 100 steuert. Die Begriffe „Controller“ und „Agent“ werden im Folgenden synonym verwendet. Im beispielhaften Szenario nach 1 ist es das Ziel, dass der Controller 105 den Roboter 100 steuert, um in der Umgebung 101 zu navigieren, um die Sandhaufen 103 zu räumen, d. h., eine Planieraufgabe auszuführen. In diesem Beispiel ist der Roboter 100 eine autonome Planierraupe, er kann aber außerdem ein Roboter mit Beinen oder Ketten oder einer anderen Art von Antriebssystem (wie z. B. ein Tiefsee- oder Marsrover) sein.
  • Der Controller (oder Agent) 105 steuert den Roboter 100 aus den Beobachtungen, d. h., er empfängt eine Beobachtung (z. B. eine Höhenkarte, die eine Kamera 105 beobachtet), wählt eine oder mehrere Handlungen für die Beobachtung aus und steuert den Roboter 100, um die eine oder die mehreren Handlungen auszuführen (sich z. B. um eine bestimmte Strecke in eine bestimmte Richtung zu bewegen).
  • Im Folgenden werden Ansätze zur autonomen Wegplanung für Baustellenfahrzeuge (im Allgemeinen Roboter in unstrukturierten Umgebungen) beschrieben. Als ein Beispiel wird, wie in 1 veranschaulicht ist, eine autonome Planieraufgabe, die durch eine Planierraupe 100 unter einer Lokalisierungsunsicherheit ausgeführt wird, betrachtet, wobei die geschätzte Haltung des Fahrzeugs (der Planierraupe) fehlerhaft ist. Diese Aufgabe stellt mehrere Herausforderungen dar, die allen Maschinenwerkzeugen auf jeder Baustelle gemeinsam sind. Deshalb kann die behandelte Aufgabe als ein repräsentatives Beispiel auf dem Gebiet betrachtet werden. Die Hauptherausforderungen enthalten die Datensammlung, die für alle Maschinenwerkzeuge eine zentrale Schwierigkeit ist. Zweitens ist die partielle Beobachtbarkeit der Umgebung äußerst herausfordernd, da große Abschnitte der Umgebung aufgrund der Sensorpositionierung verborgen sind. Drittens beeinflusst das sensorische Rauschen, das in eine Lokalisierungsunsicherheit übersetzt wird, die Weise, in der der Agent 105 die Beobachtungen der Umgebung 101 verwendet, und verursacht folglich einer signifikante Leistungsverschlechterung im Entscheidungsfindungsprozess.
  • Um die Schwierigkeit der Datensammlung zu überwinden, können gemäß verschiedenen Ausführungsformen Domänenanpassungstechniken verwendet werden, um die Lücke zwischen Simulation und Realität zu überbrücken, wenn der Agent 105 in einer simulierten Umgebung trainiert wird. Die Simulation kann so erweitert werden, dass sie den Daten der realen Welt so ähnlich wie möglich ist. Gemäß verschiedenen Ausführungsformen wird eine (Steuer-) Strategie für einen Agenten 105 rein in der Simulation erlernt (d. h., wird ein Agent trainiert) und sowohl in der Simulation als auch in einer skalierten Prototypumgebung getestet.
  • Zusätzlich wird gemäß verschiedenen Ausführungsformen die Lokalisierungsunsicherheit unter Verwendung eines Trainingsregimes behandelt, bei dem die Unsicherheit (z. B. aufgrund des sensorischen Rauschens) während des Trainings der Strategie des Agenten berücksichtigt wird. Dies ermöglich, dass der Agent 105 im Vergleich zum Erlernen einer Strategie in einer sauberen, rauschfreien Umgebung eine robuste Strategie mit verbesserter Leistung unter der Unsicherheit während der Folgerung erlernt.
  • Spezifisch enthält der Trainingsdatensatz, der verwendet wird, um den Agenten 105 zu trainieren, viele Variationen, einschließlich skalierter, gedrehter und verschobener Versionen von (Referenz-) Beobachtungen, und verbessert folglich die Fähigkeit des Agenten, einem realistischeren Szenario gerecht zu werden, in dem die Beobachtung aufgrund von Lokalisierungsfehlern unsicher ist.
  • Die Steuerung der Planierraupe 100 kann als teilbeobachtbarer Markov-Entscheidungsprozess (POMDP) modelliert werden, der aus einem Tupel ( S , O , A , P , R )
    Figure DE102022208089A1_0001
    besteht: der Zustand s S
    Figure DE102022208089A1_0002
    enthält alle erforderlichen Informationen, um eine optimale Strategie zu erlernen. Der Agent 105 ist jedoch oft nur mit teilweisen oder verrauschten Informationen hinsichtlich der Umgebung 101 versehen, die als die Beobachtung o O
    Figure DE102022208089A1_0003
    bezeichnet werden. Im Gegensatz zu den Zuständen fehlt den Beobachtungen typischerweise die für die Optimalität ausreichende Statistik. In jedem Zustand
    Figure DE102022208089A1_0004
    ergreift der Agent 105 eine Maßnahme (d. h., er steuert den Roboter 100 gemäß einer ausgewählten Handlung) a ∈ A. Dann geht das System (die Planierraupe 100 und die Umgebung 101) basierend auf dem Übergangskern P(s'|s,a) in den nächsten Zustand S' über. Schließlich wird dem Agenten eine Belohnung r(s,a) bereitgestellt. Es ist das Ziel eines Agenten, eine Verhaltensstrategie π zu erlernen, die die kumulative Belohnung maximiert, wobei die Strategie die Beobachtungen (oder die geschätzten Zustände) auf die Handlungen abbildet.
  • Gemäß verschiedenen Ausführungsformen wird die Aufgabe der autonomen Klassifizierung als ein POMDP/R (d. h., ein POMDP ohne den Belohnungsterm) formalisiert, d. h., es wird ein 4-Tupel definiert, das aus Zuständen, Beobachtungen, Handlungen und dem Übergangskern besteht.
  • Der Zustand umfasst alle Informationen, die erforderlich sind, um die optimale Strategie zu erhalten, und bestimmt das Ergebnis jeder Handlung. Im vorliegenden Beispiel enthält der Zustand die genaue Haltung des Agenten (d. h., der Planierraupe) 100.
  • 2A veranschaulicht die vollständigen Zustandsinformationen des Agenten 200 gemäß einer Ausführungsform, die eine genaue Kenntnis (ohne Fehler) seiner Haltung und eine Kenntnis über die Umgebung 202 einschließlich des Ortes der Sandhaufen 201 enthält.
  • 2B veranschaulicht eine Beobachtung, die aus dem wahren (richtigen) Zustand nach 2A ohne Fehler abgeleitet worden ist, wobei die Beobachtung einen Abschnitt der Zustandsinformationen (hier einen Abschnitt 204 der Umgebung 202) enthält.
  • Im Kontext der Fehler können zwei Aspekte von Handlungen betrachtet werden: (i - Steuerketten-Auswahl), wobei die Strategie einen Wegpunkt ausgibt, den die Planierraupe 100 erreichen soll. Hier werden Haltungsschätzfehler als eine suboptimale Projektion vom Zustand zur Beobachtung dargestellt. (ii - Regelkreis), wobei die Fehler bei der Haltungsschätzung zu dem Controller auf niedriger Ebene der Planierraupe zur Trajektorienausführung rückgekoppelt werden. Hier breiten sich die Fehler durch das System aus, was zu einer Abweichung von dem Sollweg führt.
  • 2C zeigt ausgewählte Handlungen als Punkte 205 (die einen Weg definieren, der durch die Planierraupe 200 zu nehmen ist, um den obersten Sandhaufen 201 zu räumen).
  • Die Zustandsübergänge sind durch die Dynamik der Planierraupe und die physikalischen Eigenschaften des Bodens und der Umgebung bestimmt.
  • Gemäß verschiedenen Ausführungsformen werden Trainingsbeobachtungen (d. h., Trainingseingaben) erzeugt, die Fehler umfassen, die die Unsicherheit der Zustandsbestimmung widerspiegeln, die durch das Messrauschen verursacht wird, das die Sensordaten (in diesem Beispiel einen Sensor zum Messen der Haltung der Planierraupe) beeinflusst. Im vorliegenden Beispiel wird die ungenaue Zustandsschätzung (hauptsächlich Haltungsschätzung) in eine fehlerhafte Begrenzungsrechteck-Ansicht um den aktuellen Ort der Planierraupe 100 übersetzt.
  • Zum Trainieren (und Testen) gemäß verschiedenen Ausführungsformen wird dieses Verhalten in der Simulation durch das Anwenden einer Erweiterung (z. B. Drehung und Translation) auf die wahre und genaue Beobachtung nachgeahmt, d. h., es wird eine Beobachtung in Übereinstimmung mit einer (leicht) gedrehten und/oder verschobenen Haltung erzeugt.
  • 3 veranschaulicht die Erweiterung der Strategieeingabe für einen Trainingsdatensatz.
  • Eine erste graphische Darstellung 301 veranschaulicht ein Referenz-Trainingsdatenelement, in dem die Planierraupe eine Referenzhaltung (d. h., eine Haltung, die in diesem Beispiel als die wahre Haltung für die Trainingsdaten angenommen wird) der Planierraupe 300 in der Umgebung 306 aufweist. Von dieser Haltung weist die Planierraupe eine bestimmte Beobachtung (die als eine Referenzbeobachtung bezeichnet wird) der Umgebung auf. Der Referenzbeobachtungsfall entspricht deshalb dem für das Trainingsdatenelement angenommenen wahren Zustand der Umgebung (die hier spezifisch den Ort der Sandhaufen 307 enthält). Das Referenzdatenelement enthält ReferenzTrainingsetiketten, d. h., eine Spezifikation einer oder mehrerer (Referenz-) Handlungen (hier zwei Handlungen, dargestellt durch die Punkte 308, in der Form von Wegpunkten, die einen Weg definieren, um einen der Sandhaufen 307 zu räumen, wobei die Planierraupe zuerst zu dem weiter entfernten Punkt und dann rückwärts zu dem näheren Wegpunkt fahren sollte).
  • Die weiteren graphischen Darstellungen 302, 303, 304, 305 repräsentieren jeweils ein Trainingsdatenelement, das einer erweiterten Version der Referenzbeobachtung entspricht. Jedes Trainingsdatenelement entspricht einer gestörten Haltung (d. h., einer Spezifikation einer Haltung, die sich von der wahren Haltung der graphischen Darstellung 301 unterscheidet) und folglich einer gestörten Beobachtung (z. B. Höhenkarte), die bezüglich der Referenzbeobachtung gestört ist.
  • Jedes Trainingsdatenelement enthält als die Trainingsetiketten die Referenztrainingsetiketten, d. h., spezifiziert als die Grundwahrheit Handlungen, die dem wahren Zustand entsprechen, so dass die Planierraupe trainiert wird, eine geeignete Handlung auszuführen, selbst wenn ihre Haltungsschätzung fehlerhaft ist.
  • 4 veranschaulicht das Training des Agenten 105 gemäß verschiedenen Ausführungsformen.
  • In diesem Beispiel wird ein Wahrnehmungsblock 406 verwendet, um Haltungsschätzungen zu erzeugen, wie sie in der Planierraupe 100 enthalten sind.
  • Spezifisch umfasst der Agent 105 eine Trägheitsmesseinheit 401, die Geschwindigkeits- und Winkelgeschwindigkeitsinkremente ( q t e , q v e )
    Figure DE102022208089A1_0005
    mit hoher Frequenz bereitstellt.
  • Eine Schnittstelle 402 zur Kamera 105 (die irgendwo auf der Baustelle angebracht ist) stellt unterstützende Positions- und Lagemessungen (d. h., Orientierungsmessungen) ( p m e , Ψ m e )
    Figure DE102022208089A1_0006
    mit tiefer Frequenz bereit, d. h., sie stellt unterstützende Informationen bereit. Die unterstützenden Informationen können außerdem durch eine weitere Vorrichtung wie einen GNSS-Empfänger (Empfänger eines Globalen Navigationssatellitensystems) bereitgestellt werden.
  • Ein Trägheitsnavigationssystem (INS) 403 verwendet die Trägheitssensormesswerte (von der IMU 401) und die Anfangsbedingungen (IC) 404, um die Position, die Geschwindigkeit und die Orientierung der Planierraupe zu berechnen. Gemäß einer Ausführungsform wird ein Sensorfusionsansatz unter Verwendung eines erweiterten Kalman-Filters (EKF) 405 verwendet, um eine Sensorfusion zwischen den Messungen der IMU 401 und den Messungen der Kamera (die über die Kameraschnittstelle 402 durch die Planierraupe empfangen werden) auszuführen.
  • Das Trägheitsintegrationssystem 403 verwendet deshalb sowohl die IC 404 als auch die Messungen von der IMU 401, um Positions- und Lageschätzungen mit hoher Frequenz (p̃INS, Ψ̃INS) zu erzeugen, wobei, sobald eine unterstützende Messung über die Kameraschnittstelle 402 verfügbar ist, das EKF 405 aktiviert wird, um korrigierte Haltungs-, Verzerrungs- und Driftschätzungen bereitzustellen. Diese Schätzungen werden zur Trägheitskompensation zu dem Trägheitsintegrationssystem 403 rückgekoppelt. Die Ausgabe des Wahrnehmungsblocks 406, der diese Komponenten umfasst, ist eine Schätzung der Haltung mit hoher Frequenz.
  • Wenn der Wahrnehmungsblock eine Haltung für einen Trainingszustand (d. h., einen wahren Zustand eines Referenz-Trainingsdatenelements, wie in der ersten graphischen Darstellung 301 nach 3 veranschaulicht ist) geschätzt hat, wird ein entsprechendes Trainingsdatenelement (wie durch eine der zweiten bis fünften graphischen Darstellungen 302 bis 305 nach 3 dargestellt ist) erzeugt. Dies wird durch das Einspeisen der geschätzten Haltung von dem Wahrnehmungsblock 406 in einen Simulator, um eine Beobachtung 407 von dem wahren Zustand 408 und der geschätzten Haltung durch das Stören der dem wahren Zustand entsprechenden richtigen Beobachtung gemäß der geschätzten Haltung wiederzugeben, d. h., das Erzeugen einer Beobachtung (Höhenkarte), die durch die Kamera 105 beobachtet würde, falls die geschätzte Haltung der Planierraupe ihre wahre Haltung wäre, ausgeführt. Die Trainingsetiketten in dem erzeugten Trainingsdatenelement werden erzeugt, indem die erzeugte Beobachtung einem Expertenmodell gegeben wird.
  • Sobald die Beobachtung 407 verfügbar ist, wird sie in die Strategie eingespeist, die die Handlungen 409 (d. h., die Wegpunktentscheidungen) bereitstellt. Dann wird ein Verlust bezüglich der Trainingsmarken berechnet.
  • Der Simulator kann dann die bereitgestellten Handlungen ausführen, den nächsten wahren Zustand berechnen (oder die Simulation z. B. durch ein Rücksetzen nach einigen Iterationen oder durch das Setzen auf ein weiteres Trainingsszenario in einer weiteren Weise auf einen weiteren wahren Zustand setzen) und den obigen Prozess wiederholen (d. h., mehrere Iterationen ausführen), um weitere Verluste (d. h., weitere Komponenten eines Gesamttrainingsverlustes) zu berechnen. Der Agent kann dann trainiert werden, um den Gesamttrainingsverlust, z. B. die Summe der Stapel der Verluste von mehreren Iterationen, zu verringern.
  • Es sollte angegeben werden, dass aus einer einzigen durch den Wahrnehmungsblock 406 bereitgestellten Haltungsschätzung mehrere Trainingsdatenelemente erzeugt werden können, indem die Unsicherheit der Haltung (aus der EKF-Kovarianzmatrixschätzung) berücksichtigt wird, d. h., { x ˜ k } k = 0 K 1 N ( x ˜ , )
    Figure DE102022208089A1_0007
  • Hier ist K die Anzahl der Beobachtungen, die aus der Verteilung über die geschätzte Haltung X̃ wiedergegeben werden, während N(·,·) die Normalverteilung ist. Im obigen Beispiel entspricht X̃ (p̃INS,Ψ̃INs), d. h., der Haltung und der Orientierung.
  • Bei einer Sensorfusionsfilterung, wie sie durch den Wahrnehmungsblock 401 implementiert wird, können deshalb viele verrauschte (gestörte) Beobachtungen (d. h., Erweiterungen der wahren Beobachtungen) erzeugt werden. Dies kann insbesondere durch (i) das Hinzufügen von synthetischem Rauschen zu den Trägheitssensoren der Trägheitsmesseinheit (IMU) 401 und zu den unterstützenden Sensormessungen (hier den über die Schnittstelle 402 empfangenen Bilddaten), (ii) das Anwenden des Trägheitsnavigationssystems 403 (INS) und des EKF 405 und (iii) das Wiedergeben der verrauschten Beobachtungen aus der durch das Filter 405 erzeugten Verteilung ausgeführt werden. In dieser Weise werden Unsicherheiten in die Trainingspipeline eingeführt. Dies verbessert das Training, indem es zu einem Trainingsdatensatz führt, der nun eine viel breitere Verteilung über potentielle Zustände enthält. Dies wiederum ermöglicht es dem Agenten 105, eine Strategie zu erlernen, die gegenüber Lokalisierungsunsicherheiten robuster ist.
  • In der Praxis wird das Einfügen von sensorischem Rauschen in die Messungen in kleine Störungen von der jeweiligen wahren Beobachtung übersetzt.
  • Wenn die Planierraupe ihre Haltung in globalen Koordinaten (d. h., Koordinaten der Höhenkarte) schätzt und bei der Haltungsschätzung einen Fehler (aufgrund der Fehler in den Sensormessungen) macht, kann dies deshalb als eine entsprechende Verschiebung oder Drehung der Höhenkarte gesehen werden, wie in 3 veranschaulicht ist (weil vom Standpunkt der Planierraupe die Umgebung verschoben und/oder gedreht ist, weil sie ihre Haltung innerhalb der Umgebung falsch schätzt und deshalb annimmt, dass die Umgebung verschoben und/oder gedreht ist, während sie selbst diejenige ist, die verschoben und/oder gedreht ist).
  • Zusammenfassend wird gemäß verschiedenen Ausführungsformen ein Verfahren bereitgestellt, das in 5 veranschaulicht ist.
  • 5 zeigt einen Ablaufplan 500, der ein Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung veranschaulicht.
  • In 501 werden ein Referenzzustand einer Umgebung der Robotervorrichtung und eine Referenzbeobachtung der Umgebung für den Referenzzustand (d. h., die den Referenzzustand widerspiegelt) erfasst.
  • In 502 werden eine oder mehrere Referenzhandlungen für den Zustand bestimmt.
  • In 503 wird für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung eine Beobachtung erzeugt, die bezüglich der Referenzbeobachtung gemäß dem Fehler der Haltungsschätzung gestört ist, und wird ein Trainingsdatenelement erzeugt, das die erzeugte Beobachtung als eine Trainingseingabe und die eine oder mehrere Referenzhandlungen als eine Zielausgabe umfasst.
  • In 504 wird die Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente trainiert.
  • Gemäß verschiedenen Ausführungsformen wird mit anderen Worten ein Agent mit einem erweiterten Datensatz trainiert (oder neu trainiert). Spezifisch werden dem Agenten zusätzliche Trainingsdatenelemente (aus einer Verteilung von Trainingsdatenelementen) präsentiert, denen er z. B. bislang im Training nicht begegnet ist. Die zusätzlichen Trainingsdatenelemente verbessern die Skalierungs- und Drehungsinvarianz der durch den Agenten implementierten Steuerstrategie. Wie oben beschrieben worden ist, wird z. B. der Ort des Agenten (der Planierraupe) bezüglich der Sandhaufen gestört, um ihm zu ermöglichen, zu lernen, bessere Entscheidungen bei der Folgerung zu treffen.
  • Wie oben erklärt worden ist, können die Trainingsdatenelemente (d. h., die Trainingsbeobachtungen, d. h., die Trainingseingaben, die sie enthalten) für verschiedene Haltungen von dem „wahren“ Zustand (der der richtigen Beobachtung entspricht, für die die Handlungsetiketten gegeben sind) wiedergegeben werden. Das Bereitstellen mehrerer Beobachtungen für denselben („wahren“) Zustand, die von vielen Haltungen abgeleitet sind, dem Agenten verbessert die Robustheit des Agenten gegenüber Skalierung und Drehung.
  • Der Ansatz nach 5 kann verwendet werden, um einen Agenten zu trainieren, um ein Steuersignal zum Steuern eines technischen Systems zu berechnen, bei dem eine Haltung berücksichtigt wird, wie z. B. eine computergesteuerte Maschine, wie ein Roboter, ein Fahrzeug, ein Haushaltsgerät, ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönlicher Assistent oder ein Zugangssteuersystem. Gemäß verschiedenen Ausführungsformen kann eine Strategie zum Steuern des technischen Systems erlernt und dann das technische System entsprechend betrieben werden.
  • Verschiedene Ausführungsformen können Bilddaten (d. h., digitale Bilder) von verschiedenen visuellen Sensoren (Kameras), wie z. B. Video, Radar, LiDAR, Ultraschall, Thermographie, Bewegung, Sonar usw., z. B. zum Erhalten der Beobachtungen empfangen und verwenden.
  • Gemäß einer Ausführungsform ist das Verfahren computerimplementiert.
  • Obwohl hier spezifische Ausführungsformen veranschaulicht und beschrieben worden sind, erkennen Durchschnittsfachleute auf dem Gebiet, dass verschiedene alternative und/oder äquivalente Implementierungen für die gezeigten und beschriebenen spezifischen Ausführungsformen ersetzt werden können, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen. Diese Anmeldung ist vorgesehen, alle Anpassungen oder Variationen der hier erörterten spezifischen Ausführungsformen abzudecken. Deshalb ist vorgesehen, dass diese Erfindung nur durch die Ansprüche und deren Äquivalente eingeschränkt wird.

Claims (9)

  1. Verfahren zum Trainieren einer Steuerstrategie für eine Robotervorrichtung, das Folgendes umfasst: Erfassen eines Referenzzustandes einer Umgebung der Robotervorrichtung und einer Referenzbeobachtung der Umgebung für den Referenzzustand; Erzeugen für jeden von mehreren Fehlern einer Schätzung einer Haltung der Robotervorrichtung einer Beobachtung, die bezüglich der Referenzbeobachtung gestört ist, gemäß dem Fehler der Haltungsschätzung und eines Trainingsdatenelements, das die erzeugte Beobachtung umfasst, als eine Trainingseingabe; und Trainieren der Steuerstrategie unter Verwendung der erzeugten Trainingsdatenelemente.
  2. Verfahren nach Anspruch 1, wobei jeder von wenigstens einigen der Fehler der Fehler zwischen einem Haltungsschätzergebnis, das durch eine in Reaktion auf Sensormessdaten bereitgestellte Haltungsschätzfunktion der Robotervorrichtung bereitgestellt wird, und einer Referenzhaltung ist, wobei die Sensormessdaten die Sensormessdaten sind, die die Robotervorrichtung erhalten würde, wenn sie sich in der durch jeweiliges Rauschen gestörten Referenzhaltung befindet.
  3. Verfahren nach Anspruch 2, wobei die Sensormessdaten Messdaten einer Trägheitsmesseinheit der Robotervorrichtung und Bilddaten von einer Kamera, die die Umgebung beobachtet, enthalten, und wobei die Haltungsschätzfunktion eine Sensorfusion ausführt, um das Haltungsschätzergebnis zu bestimmen.
  4. Verfahren nach einem der Ansprüche 1 bis 3, das das Ausführen einer Haltungsschätzung, die eine Unsicherheit des Haltungsschätzergebnisses ausgibt, und das Erzeugen wenigstens einiger der Fehler durch das Abtasten aus einer Verteilung der Fehler gemäß der Unsicherheit des Haltungsschätzergebnisses um das Haltungsschätzergebnis umfasst.
  5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Robotervorrichtung ein Baufahrzeug ist und die Umgebung eine Baustelle ist.
  6. Verfahren zum Steuern einer Robotervorrichtung, das umfasst: Trainieren einer Steuerstrategie nach einem der Ansprüche 1 bis 5; Beobachten der Umgebung, um eine Beobachtung zu erzeugen; Bestimmen einer oder mehrerer Handlungen aus der Beobachtung mittels der trainierten Steuerstrategie; Schätzen einer Haltung der Robotervorrichtung durch die Robotervorrichtung; und Ausführen der einen oder mehreren Handlungen unter Berücksichtigung der geschätzten Haltung innerhalb der beobachteten Umgebung.
  7. Controller, der konfiguriert ist, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
  8. Computerprogramm, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
  9. Computerlesbares Medium, das Anweisungen umfasst, die, wenn sie durch einen Computer ausgeführt werden, den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
DE102022208089.0A 2022-08-03 2022-08-03 Vorrichtung und Verfahren zum Steuern eines Roboters Pending DE102022208089A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE102022208089.0A DE102022208089A1 (de) 2022-08-03 2022-08-03 Vorrichtung und Verfahren zum Steuern eines Roboters
US18/362,311 US20240045434A1 (en) 2022-08-03 2023-07-31 Device and Method for Controlling a Robot
CN202310969071.1A CN117506886A (zh) 2022-08-03 2023-08-02 用于控制机器人的装置及方法
KR1020230100901A KR20240019042A (ko) 2022-08-03 2023-08-02 로봇 제어 장치 및 방법
JP2023126350A JP7369890B1 (ja) 2022-08-03 2023-08-02 ロボットを制御する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022208089.0A DE102022208089A1 (de) 2022-08-03 2022-08-03 Vorrichtung und Verfahren zum Steuern eines Roboters

Publications (1)

Publication Number Publication Date
DE102022208089A1 true DE102022208089A1 (de) 2024-02-08

Family

ID=88418609

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022208089.0A Pending DE102022208089A1 (de) 2022-08-03 2022-08-03 Vorrichtung und Verfahren zum Steuern eines Roboters

Country Status (5)

Country Link
US (1) US20240045434A1 (de)
JP (1) JP7369890B1 (de)
KR (1) KR20240019042A (de)
CN (1) CN117506886A (de)
DE (1) DE102022208089A1 (de)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019131385A1 (de) 2018-11-21 2020-05-28 Ford Global Technologies, Llc Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE102019200435A1 (de) 2019-01-16 2020-07-16 Robert Bosch Gmbh Verfahren zur Bereitstellung eines kinematischen Modells für kinematische Arbeitssysteme
DE102019209616A1 (de) 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer vorgegebenen Aufgabe mithilfe wenigstens eines Roboters
DE102021103272A1 (de) 2020-02-14 2021-08-19 Nvidia Corporation Robotersteuerung unter Verwendung von Deep Learning
DE112017008089B4 (de) 2017-11-17 2021-11-25 Mitsubishi Electric Corporation Vorrichtung zur Überwachung eines dreidimensionalen Raumes, Verfahren zur Überwachung eines dreidimensionalen Raumes und Programm zur Überwachung eines dreidimensionalen Raumes
DE102020134344A1 (de) 2020-06-26 2021-12-30 Intel Corporation Affordanzbewusstes freiformobjekt-manipulationsplanen mit mehrfacher auflösung
DE102020212658A1 (de) 2020-10-07 2022-04-07 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020214177A1 (de) 2020-11-11 2022-05-12 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen
DE112020004135T5 (de) 2019-08-28 2022-06-02 Daily Color Inc. Robotersteuerungsvorrichtung
DE102020103854B4 (de) 2020-02-14 2022-06-15 Franka Emika Gmbh Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5168134B2 (ja) 2008-12-26 2013-03-21 富士通株式会社 環境地図生成プログラム、環境地図生成方法及び移動ロボット
CN108369420B (zh) 2015-11-02 2021-11-05 星船科技私人有限公司 用于自主定位的设备和方法
CN111890351A (zh) 2020-06-12 2020-11-06 深圳先进技术研究院 机器人及其控制方法、计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017008089B4 (de) 2017-11-17 2021-11-25 Mitsubishi Electric Corporation Vorrichtung zur Überwachung eines dreidimensionalen Raumes, Verfahren zur Überwachung eines dreidimensionalen Raumes und Programm zur Überwachung eines dreidimensionalen Raumes
DE102019131385A1 (de) 2018-11-21 2020-05-28 Ford Global Technologies, Llc Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE102019200435A1 (de) 2019-01-16 2020-07-16 Robert Bosch Gmbh Verfahren zur Bereitstellung eines kinematischen Modells für kinematische Arbeitssysteme
DE102019209616A1 (de) 2019-07-01 2021-01-07 Kuka Deutschland Gmbh Durchführen einer vorgegebenen Aufgabe mithilfe wenigstens eines Roboters
DE112020004135T5 (de) 2019-08-28 2022-06-02 Daily Color Inc. Robotersteuerungsvorrichtung
DE102021103272A1 (de) 2020-02-14 2021-08-19 Nvidia Corporation Robotersteuerung unter Verwendung von Deep Learning
DE102020103854B4 (de) 2020-02-14 2022-06-15 Franka Emika Gmbh Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung
DE102020134344A1 (de) 2020-06-26 2021-12-30 Intel Corporation Affordanzbewusstes freiformobjekt-manipulationsplanen mit mehrfacher auflösung
DE102020212658A1 (de) 2020-10-07 2022-04-07 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung
DE102020214177A1 (de) 2020-11-11 2022-05-12 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren einer Steuerungsstrategie mittels bestärkendem Lernen

Also Published As

Publication number Publication date
KR20240019042A (ko) 2024-02-14
JP7369890B1 (ja) 2023-10-26
CN117506886A (zh) 2024-02-06
JP2024022545A (ja) 2024-02-16
US20240045434A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
DE112020003136T5 (de) Verfahren zum Erzeugen eines Spurwechsel-Entscheidungsmodells, Verfahren und Vorrichtung zur Spurwechsel-Entscheidung eines unbemannten Fahrzeugs
DE112018006161B4 (de) System und Verfahren zum Steuern eines Fahrzeugs
DE112012003467B4 (de) Fahrspurspeichervorrichtung
DE102015214338A1 (de) Bestimmung einer Anordnungsinformation für ein Fahrzeug
DE202008014481U1 (de) Tragbares Roboterkontrollgerät zum Kontrollieren einer Bewegung eines Roboters
DE102019109624A1 (de) Roboterbewegungseinlernvorrichtung, Robotersystem und Robotersteuerung
EP3757795A1 (de) Verfahren und vorrichtung zur optimalen aufteilung von testfällen auf unterschiedliche testplattformen
WO2019192905A1 (de) Verfahren zur kalibrierung eines positionssensors in einem fahrzeug, computerprogramm, speichermittel, steuergerät und kalibrierstrecke
EP3610224B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zur schätzung einer pose eines kraftfahrzeugs
EP0635773B1 (de) Verfahren zur Erstellung einer Umgebungskarte und zur Bestimmung einer Eigenposition in der Umgebung durch eine selbstbewegliche Einheit
DE112011105210T5 (de) Ortskurvenkorrekturverfahren, Ortskurvenkorrekturvorrichtung und mobiles Objektgerät
DE102018222862A1 (de) Verfahren und System zur Lokalisierung einer Akustikquelle relativ zu einem Fahrzeug
DE102018128535A1 (de) Trainieren eines künstlichen neuronalen Netzwerks mit durch Sensoren eines Fahrzeugs erfassten Daten
DE102021204797A1 (de) Vorrichtung und Verfahren zum Erlernen einer Richtlinie für Geländefahrzeuge für Baustellen
DE102022208089A1 (de) Vorrichtung und Verfahren zum Steuern eines Roboters
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
DE102021103153A1 (de) System und verfahren zur ende-zu-ende-vorhersage der spurerkennungsunsicherheit
DE102021104425A1 (de) Verfahren zum Ermitteln mindestens eines Systemzustands mittels eines Kalman-Filters
DE102021111114A1 (de) Fahrspurunbestimmtheitsmodellierung und -verfolgung in einem Fahrzeug
DE102019214008A1 (de) Verfahren und Vorrichtung zur Lokalisierung eines mobilen Agenten in einer Umgebung mit dynamischen Objekten
DE102022207286B3 (de) Vorrichtung und computer-implementiertes Verfahren zur Bereitstellung eines trainierten Maschinenlern-Agenten, ausgelegt zur Steuerung einer Einrichtung, Vorrichtung und Verfahren zum Steuern einer Einrichtung und Fahrzeug
WO2020260134A1 (de) Verfahren zur lokalisierung eines fahrzeugs
Freitas et al. Imitation learning for aerobatic maneuvering in fixed-wing aircraft
DE102019208498A1 (de) Verfahren zum Optimieren eines Umfeldmodells
EP3620998A1 (de) Verfahren zum sicheren trainieren eines dynamischen modells

Legal Events

Date Code Title Description
R083 Amendment of/additions to inventor(s)
R163 Identified publications notified
R012 Request for examination validly filed