DE102020200897A1

DE102020200897A1 - Verfahren zur Erzeugung gelabelter Trainingsdaten

Info

Publication number: DE102020200897A1
Application number: DE102020200897.3A
Authority: DE
Inventors: Markus Birk; Gabriela Jager
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2020-01-27
Filing date: 2020-01-27
Publication date: 2021-09-23

Abstract

Die Erfindung betrifft ein Verfahren zum Erzeugen von Trainingsdaten für ein selbstlernendes System eines Fahrzeugs, das mindestens einen bildgebenden Sensor aufweist; wobei ein Objekt (101) mit einer Markierung (103) versehen ist; wobei ein Konturmodell (201) des Objekts (101) mit einer entsprechenden Markierung (203) versehen ist; mit den Schritten Aufnahme mindestens eines Bilds, in dem das Objekt (101) enthalten ist, mittels des Sensors; und Abbilden der Markierungen (103, 203) aufeinander durch Verschiebung, Drehung und/oder Skalierung des Bilds und/oder des Konturmodells (201).

Description

Die Erfindung betrifft ein Verfahren nach Anspruch 1 und ein Fahrzeug nach dem unabhängigen Vorrichtungsanspruch.
Zur Realisierung selbstfahrender Fahrzeuge kommen Algorithmen der künstlichen Intelligenz zum Einsatz. Diese müssen trainiert werden. Dazu sind gelabelte Daten erforderlich. In gelabelten Daten sind die zu trainierenden Objekte mit Markierungen versehen. Die Markierungen werden händisch erzeugt. Dies ist insbesondere bei großen Datensätzen sehr aufwendig und teuer.
Die Druckschrift DE 10 2018 119 682 A1 beschreibt einen Ansatz zum Trainieren eines neuronalen Netzes für die Erkennung von Objekten. Ein künstliches neuronales Netz wird dabei verwendet, um die Position eines Zielobjekts in einem aufgenommenen Bild zu bestimmen. Weiterhin wird das Zielobjekt klassifiziert. Die so gewonnenen Daten werden von einem Benutzer korrigiert und in korrigierter Fassung als Trainingsdaten verwendet.
Der Erfindung liegt die Aufgabe zugrunde, die Erzeugung von Trainingsdaten für selbstfahrende Fahrzeuge zu verbessern. Diese Aufgabe wird gelöst durch ein Verfahren nach Anspruch 1 und ein Fahrzeug nach dem unabhängigen Vorrichtungsanspruch. Bevorzugte Weiterbildungen sind in den Unteransprüchen enthalten und ergeben sich aus nachfolgender Beschreibung.
Das Verfahren dient zum Erzeugen von Trainingsdaten für ein selbstlernendes System eines Fahrzeugs. Bei dem selbstlernenden System kann es sich um ein Fahrassistenzsystem oder ein System zur fahrerlosen Steuerung eines Fahrzeugs handeln. Selbstlernende Systeme werden der künstlichen Intelligenz zugerechnet. Beispiele für selbstlernende Systeme sind künstliche neuronale Netze oder stochastische Algorithmen.
Das Fahrzeug ist beispielsweise ein Straßenfahrzeug, etwa ein Personenkraftfahrzeug oder ein Nutzfahrzeug, oder um ein Flurförderzeug. Ein Flurförderzeug, auch Flurfördergerät genannt, bezeichnet ein Fördermittel zum Transport von Gütern auf ebenem Untergrund. Der Transport zeichnet sich dadurch aus, dass mindestens eine horizontale Bewegung der Güter stattfindet. Eine zusätzliche vertikale Bewegung, etwa zum Aus- und Einladen der Güter ist dabei nicht ausgeschlossen.
Das Fahrzeug weist mindestens einen bildgebenden Sensor auf. Dies ist ein Sensor zum Erstellen von Bildern der Umgebung. Vorzugsweise handelt es sich um digitale Bilder. Gewöhnlich sind die Bilder zweidimensional. Mit geeigneten Sensoren können aber auch dreidimensionale Bilder aufgenommen werden. Als bildgebende Sensoren kommen sowohl Matrix- als auch Zeilenkameras infrage.
Ein zu trainierendes Objekt ist mit einer Markierung versehen. Das selbstlernende System soll trainiert werden, das Objekt zu erkennen. Es handelt sich um ein Objekt der realen Welt, beispielsweise um eine zu befördernde Palette, ein Hindernis oder ein Verkehrsschild handeln. Das Objekt ist insbesondere kein digitales Objekt. Es befindet sich in der Umgebung des Fahrzeugs. Dies bedeutet, dass das Objekt für das Fahrzeug derart erreichbar ist, dass es mittels des bildgebenden Sensors ein Bild des Objekts anfertigen kann. Gegebenenfalls muss das Fahrzeug dazu geeignet verfahren werden.
Das zu trainierende Objekt ist mit einer Markierung versehen. Bei der Markierung handelt es sich bevorzugt um ein grafisches Muster. Ein grafisches Muster zeichnet sich durch mindestens zwei Flächen aus, die sich hinsichtlich ihrer Helligkeit und/oder Farbe voneinander unterscheiden. Das Muster wird so gewählt, dass es möglichst einfach maschinenbasiert erkannt werden kann. Vorzugsweise befindet sich das Muster auf einer Tafel oder Karte, die an dem Objekt fixiert ist. Alternativ kann das Muster direkt, etwa mittels Farbe oder Folie, auf die Oberfläche des Objekts aufgebracht werden.
Das erfindungsgemäße Verfahren basiert auf einem Konturmodell des Objekts. Dies ist ein dreidimensionales Modell des Objekts, das Konturen des Objekts enthält. Insbesondere kann es sich um ein digitales Modell handeln. Konturen sind Linien der Oberfläche des Objekts. Die Konturen des Modells werden so gewählt, dass sie die Form des Objekts möglichst eindeutig repräsentieren. Insbesondere die Kanten des Objekts kommen dafür infrage.
Das Konturmodell ist mit einer Markierung versehen, welche der Markierung des Objekts in der realen Welt entspricht. Insbesondere entsprechen die Größe und die Position der Markierung relativ zu dem Objekt in dem Konturmodell der Größe und der Position der Markierung relativ zu dem Objekt in der realen Welt. Vorzugsweise handelt es sich bei der Markierung in dem Modell um ein Bild der realen Markierung.
Das Konturmodell umfasst bevorzugt auch Größen- und Positionsangaben der Markierung. Eine Größen- und Positionsangabe erfolgt etwa, indem Position und Größe eines Koordinatensystems der Markierung relativ zu einem Koordinatensystem des Konturmodells angegeben werden.
Das erfindungsgemäße Verfahren sieht vor, dass mittels des bildgebenden Sensors mindestens ein Bild aufgenommen wird, indem das Objekt enthalten ist. Das aufgenommene Bild umfasst also ein Abbild des Objekts. Dies impliziert, dass sich das Objekt bei der Aufnahme des Bildes im Aufnahmebereich des bildgebenden Sensors befindet. Auch die Markierung ist in dem Bild enthalten, das heißt ein Abbild der Markierung ist Teil des aufgenommenen Bildes.
In einem weiteren Verfahrensschritt werden die Markierungen, das heißt die Markierung in dem aufgenommenen Bild bzw. deren in dem aufgenommenen Bild enthaltenes Abbild, und die Markierung in dem Konturmodell durch Verschiebung, Drehung und/oder Skalierung des Bilds und/oder des Konturmodells aufeinander abgebildet. Die Abbildung erfolgt derart, dass Markierungen in dem Bild und in dem Konturmodell hinsichtlich Form und Lage möglichst ähnlich sind. Vorzugsweise stimmen durch die Abbildung die Markierungen in dem Bild und in dem Konturmodell hinsichtlich Form und Lage überein.
Da es sich bei dem Konturmodell um ein vereinfachtes Modell des zu trainierenden Objekts handelt, erfolgt die Abbildung vorzugsweise durch Verschiebung, Drehung und/oder Skalierung ausschließlich des Konturmodells. Das Konturmodell wird also auf das Sensorbild abgebildet. Dies ist weniger rechenintensiv als eine entsprechende Abbildung des Sensorbilds.
Man erhält ein Sensorbild, in dem die Konturen des zu trainierenden Objekts mit dem Konturmodell markiert sind. Dies lässt sich zum Trainieren des selbstlernenden Systems verwenden.
Die erfindungsgemäße Erzeugung von Trainingsdaten lässt sich automatisieren bzw. computerimplementiert ausführen. Insbesondere ist keine händische Markierung der zu trainierenden Objekte mehr erforderlich.
Bevorzugt ist das Verfahren mit einem Schritt weitergebildet, in welchem die Markierung in dem aufgenommenen Bild erkannt wird. Weiterbildungsgemäß wird also ein in dem aufgenommenen Bild enthaltenes Abbild der Markierung erkannt. Die Markierung lässt sich so wählen, dass sie mit einfachen Mitteln automatisiert erkennbar ist. Bevorzugt wird entsprechend die Markierung automatisiert erkannt. Damit lässt sich das gesamte Verfahren automatisiert durchführen.
In einer bevorzugten Weiterbildung wird die räumliche Position der Markierung relativ zu dem Fahrzeug bestimmt. Es handelt sich um die räumliche Position, welche die Markierung relativ zu dem Fahrzeug zum Zeitpunkt der Aufnahme des Bilds einnimmt. Aus der räumlichen Position der Markierung ergibt sich unmittelbar die räumliche Position des Objekts relativ zu dem Fahrzeug.
Die räumliche Position der Markierung lässt sich etwa mittels Koordinatensystemen bestimmen. Die räumliche Position eines Koordinatensystems der Markierung bzw. des Objekts in der realen Welt wird relativ zu einem Koordinatensystem des Fahrzeugs bestimmt. Es resultiert ein Bild des Objekts, in dem nicht nur die Konturen des Objekts markiert sind, sondern aus die räumliche Position des Objekts vermerkt ist. Durch Verwendung derartiger Bilder zum Trainieren des selbstlernenden Systems wird das selbstlernende System in die Lage versetzt, das Objekt unabhängig von seiner räumlichen Anordnung zu erkennen.
Da die Markierung besonders einfach automatisiert bzw. computerimplementiert erkennbar ist, lässt sich auch die weiterbildungsgemäße Bestimmung der räumlichen Position der Markierung besonders einfach automatisieren bzw. computerimplementiert ausführen. Entsprechend wird dieser Verfahrensschritt vorzugsweise automatisiert bzw. computerimplementiert ausgeführt.
Bevorzugt wird das erfindungsgemäße Verfahren oder eine bevorzugte Weiterbildung für mehrere zu trainierende Objekte ausgeführt. Ein zu trainierendes erstes Objekt ist also mit einer ersten Markierung versehen, ein zu trainierendes zweites Objekt mit einer zweiten Markierung. Weiterhin sind Konturmodelle des ersten Objekts und des zweiten Objekts jeweils mit entsprechenden Markierungen versehen. Mittels des bildgebenden Sensors des Fahrzeugs wird ein erstes Bild, in dem das erste Objekt enthalten ist, und ein zweites Bild, in dem das zweite Objekt enthalten ist, aufgenommen. Die in dem ersten Bild enthaltene Markierung des ersten Objekts und die in dem Konturmodell des ersten Objekts enthaltene Markierung werden durch Verschiebung, Drehung und/oder Skalierung des ersten Bilds und/oder des Konturmodells des ersten Objekts aufeinander abgebildet. Ebenso werden die in dem zweiten Bild enthaltene Markierung des zweiten Objekts und die in dem Konturmodell des zweiten Objekts enthaltene Markierung durch Verschiebung, Drehung und/oder Skalierung des zweiten Bilds und/oder des Konturmodells des zweiten Objekts aufeinander abgebildet.
Die Bilder der zu trainierenden Objekte, das heißt, das erste Bild und das zweite Bild, werden in einer bevorzugten Weiterbildung aufgenommen, während das Fahrzeug fährt. Dadurch erhält man realitätsgetreue Trainingsdaten.
Ein erfindungsgemäßes selbstfahrendes Fahrzeug ist gattungsgemäß mit dem oben beschriebenen Fahrzeug identisch. Entsprechend weist das Fahrzeug mindestens einen bildgebenden Sensor auf. Erfindungsgemäß ist das Fahrzeug darüber hinaus mit einer Auswerteinheit versehen, die das erfindungsgemäße Verfahren oder eine bevorzugte Weiterbildung implementiert. Die Auswerteinheit ist also ausgebildet, das erfindungsgemäße Verfahren oder eine bevorzugte Weiterbildung auszuführen. Bei der Auswerteinheit handelt es sich etwa um ein Fahrzeugsteuergerät.
Ein bevorzugtes Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt. Übereinstimmende Bezugsziffern kennzeichnen dabei gleiche oder funktionsgleiche Merkmale. Im Einzelnen zeigt:

1 eine Palette mit einem Marker;
2 eine Kontur des Objekts; und
3 eine Abbildung der Kontur auf die Palette.

In 1 ist ein mit einer optischen Kamera aufgenommenes Bild dargestellt. Das Bild enthält eine Palette 101 und einen Marker 103. Dieser ist mit einem Koordinatensystem 105 verknüpft.
Die optische Kamera ist an einem Flurförderzeug angebracht. Um Trainingsdaten zu generieren, werden zunächst Objekte in einer Fertigungshalle, zu denen auch die Palette 101 gehört, mit Markern versehen, zu denen auch der Marker 103 gehört.
Der Marker 103 wird in einer vorbestimmten Ausrichtung an der Palette 101 angebracht. Danach fährt das Flurförderzeug durch die Halle und erfasst mit der Kamera die Umgebung. Wird nun der Marker 103 in einem Kamerabild erkannt, wird dieses abgespeichert. Softwarebasiert wird nun das Koordinatensystem 105 des Markers 103 in Bezug auf ein Koordinatensystem der Kameraposition berechnet. Dadurch ergibt sich die räumliche Position und Ausrichtung der Palette 101 relativ zu dem Flurförderzeug. Diese Information wird zusammen mit dem jeweiligen Bild gespeichert.
Für jedes Objekt wird händisch eine Kontur erzeugt. Eine Kontur 201 der Palette 101 ist in 2 dargestellt. Wie die Palette 101 ist auch deren Kontur 201 mit einem Marker 203 versehen, dem ein Koordinatensystem 205 zugeordnet ist. Dessen Positionierung relativ zu der Kontur 201 entspricht der Positionierung des Labels 103 und dessen Koordinatensystems 105 relativ zu der Palette 101.
Die Kontur 201 und das Bild der Palette 101 werden übereinandergelegt und in Deckung gebracht. Dazu wird das Koordinatensystem 205 so lange gedreht und in der Entfernung zu dem Koordinatensystem der Kamera vergrößert oder verkleinert, bis es exakt auf dem Koordinatensystem 105 liegt. Man erhält das in 3 dargestellte Bild der Palette 101 mit markierten Konturen 201. Dieses Bild lässt sich zum Trainieren künstlicher neuronaler Netze verwenden.
Bezugszeichenliste

101: Palette
103: Marker
105: Koordinatensystem
201: Kontur
203: Marker
205: Koordinatensystem

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102018119682 A1 [0003]

Claims

Verfahren zum Erzeugen von Trainingsdaten für ein selbstlernendes System eines Fahrzeugs, das mindestens einen bildgebenden Sensor aufweist; wobei ein Objekt (101) mit einer Markierung (103) versehen ist; wobei ein Konturmodell (201) des Objekts (101) mit einer entsprechenden Markierung (203) versehen ist; mit den Schritten - Aufnahme mindestens eines Bilds, in dem das Objekt (101) und die Markierung (103) enthalten sind, mittels des Sensors; und - Abbilden der Markierungen (103, 203) aufeinander durch Verschiebung, Drehung und/oder Skalierung des Bilds und/oder des Konturmodells (201).
Verfahren nach Anspruch 1; gekennzeichnet durch den Schritt die Markierung (103) in dem aufgenommenen Bild erkannt wird.
Verfahren nach einem der vorhergehenden Ansprüche; dadurch gekennzeichnet, dass die räumliche Position der Markierung (103) relativ zu dem Fahrzeug zum Zeitpunkt der Aufnahme bestimmt wird.
Verfahren zum Erzeugen von Trainingsdaten für ein selbstfahrendes Fahrzeug, das mindestens einen bildgebenden Sensor aufweist; dadurch gekennzeichnet, dass ein Verfahren nach einem der vorhergehenden Ansprüche für mehrere zu trainierende Objekte (101) ausgeführt.
Verfahren nach dem vorhergehenden Anspruch; dadurch gekennzeichnet, dass das Fahrzeug während der Fahrt mittels des Sensors mehrere Bilder aufnimmt; wobei die Objekte (101) jeweils in mindestens einem der Bilder enthalten sind.
Selbstfahrendes Fahrzeug mit mindestens einem bildgebenden Sensor und mindestens einer Auswerteinheit; dadurch gekennzeichnet, dass die Auswerteinheit ein Verfahren nach einem der vorhergehenden Ansprüche implementiert.