DE102022213904A1

DE102022213904A1 - Verfahren zum Bereitstellen von Trainingsdaten für ein Training eines Maschinenlern-Modells

Info

Publication number: DE102022213904A1
Application number: DE102022213904.6A
Authority: DE
Inventors: Peter Seitz
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2024-06-20

Abstract

Die Erfindung betrifft ein Verfahren (100) zum Bereitstellen von Trainingsdaten (220) für ein Training eines Maschinenlern-Modells (240) zum Erzeugen von synthetischen Hintergründen (230), die zur Bereitstellung von zumindest teilweise synthetischen Trainingsdatensätzen (250) für ein Maschinenlernen vorgesehen sind, umfassend die nachfolgenden Schritte:
- Ermitteln (101) wenigstens eines Datensatzes (210), welcher für wenigstens eine Darstellung von mindestens einem Objekt (50) vor mindestens einem Hintergrund (60) spezifisch ist,
- Identifizieren (102) von Bereichen in dem Datensatz (210), welche für den mindestens einen Hintergrund (60) spezifisch sind,
- Bereitstellen (103) der Trainingsdaten (220) für das Training des Maschinenlern-Modells (240) auf Basis der identifizierten Bereich.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Bereitstellen von Trainingsdaten für ein Training eines Maschinenlern-Modells zum Erzeugen von synthetischen Hintergründen. Ferner bezieht sich die Erfindung auf ein Computerprogramm sowie eine Vorrichtung zu diesem Zweck.
Stand der Technik
Es ist aus dem Stand der Technik bekannt, dass eine Erzeugung von synthetischen Bilddaten aus einer (3D-) Szenenbeschreibung durch Ray-Tracing oder Rasterisierung möglich ist. Dies wird in vielfältigen Anwendungen eingesetzt. Mit dem Fokus auf Geschwindigkeit kommt Rasterisierung bspw. in Computerspielen häufig zur Anwendung. Für hochwertigere Darstellungen, bei denen optische Effekte (wie Reflektion, Brechung oder Streuung) physikalisch korrekt berücksichtigt werden sollen, können Bilder auch durch das aufwendigere Ray-Tracing erzeugt werden.
Ebenfalls ist es bekannt, dass solche synthetische Bilddaten für das Training eines neuronalen Netzes verwendet werden können. Dies ermöglicht es, dass reale Trainingsdaten durch synthetische Bilddaten erweitert werden. Werden allerdings zu einfache Modelle für die Erzeugung der synthetischen Bilddaten genutzt, kann die Darstellung von der Realität so weit abweichen, dass der Übergang von den synthetischen Daten zu den realen Daten (sogenannter Domain Shift) zu groß wird und die Nutzung der synthetischen Daten keine Verbesserung bringt.
Herkömmliche Verfahren sind aus der US 2021004608 A1 und US 2019080206 A1 bekannt.
Offenbarung der Erfindung
Gegenstand der Erfindung ist ein Verfahren mit den Merkmalen des Anspruchs 1, ein Computerprogramm mit den Merkmalen des Anspruchs 9, ein computerlesbares Spechermedium mit den Merkmalen des Anspruch 10 sowie eine Vorrichtung mit den Merkmalen des Anspruchs 11. Weitere Merkmale und Details der Erfindung ergeben sich aus den jeweiligen Unteransprüchen, der Beschreibung und den Zeichnungen. Dabei gelten Merkmale und Details, die im Zusammenhang mit dem erfindungsgemäßen Verfahren beschrieben sind, selbstverständlich auch im Zusammenhang mit dem erfindungsgemäßen Computerprogramm sowie der erfindungsgemäßen Vorrichtung, und jeweils umgekehrt, so dass bezüglich der Offenbarung zu den einzelnen Erfindungsaspekten stets wechselseitig Bezug genommen wird bzw. werden kann.
Gegenstand der Erfindung ist insbesondere ein Verfahren zum Bereitstellen von Trainingsdaten für ein Training eines Maschinenlern-Modells zum Erzeugen von synthetischen Hintergründen und insbesondere nur der Hintergründe bzw. unter Ausschluss der Objekte vor den Hintergründen. Die (durch das trainierte Maschinenlern-Modell erzeugten) synthetischen Hintergründe können dabei wiederum zur Bereitstellung von zumindest teilweise synthetischen Trainingsdatensätzen für ein (weiteres) Maschinenlernen vorgesehen sein. In anderen Worten kann das erfindungsgemäße Verfahren zur Generierung von Trainingsdaten für ein Maschinenlern-Modell dienen, um durch das damit trainierte Maschinenlern-Modell wiederum weitere (d. h. andere und auch andersartige) Trainingsdaten für ein weiteres Modell zu erzeugen.
Gemäß einem ersten Verfahrensschritt kann ein Ermitteln wenigstens eines Datensatzes, welcher für wenigstens eine Darstellung von mindestens einem (vorzugsweise realen) Objekt vor mindestens einem (vorzugsweise realen) Hintergrund spezifisch ist, vorgesehen sein. Bspw. kann der wenigstens eine Datensatz Bilddaten umfassen, welche das mindestens eine Objekt vor dem mindestens einem Hintergrund darstellt. Bevorzugt können eine Vielzahl solcher Datensätze ermittelt werden, welche für eine Vielzahl verschiedener Objekte vor unterschiedlichen Hintergründen spezifisch sind. Der wenigstens eine Datensatz bzw. die Vielzahl der Datensätze können annotiert sein, insbesondere also annotierte Bilddaten umfassen. Bei den Bilddaten können vorzugsweise die und bevorzugt nur die Objekte annotiert sein, also bspw. verschiedenen Klassen semantisch zugeordnet sein. Die Erzeugung der synthetischen Hintergründe kann aus dem wenigstens einen ermittelten Datensatz in der Form von realen Trainingsdaten erfolgen. Dadurch reduziert sich der Aufwand bei der Erzeugung der Szenenbeschreibung erheblich.
Gemäß einem weiteren Verfahrensschritt kann sodann ein Identifizieren von Bereichen in dem wenigstens einen Datensatz erfolgen, welche für den mindestens einen Hintergrund spezifisch sind. Dies kann bspw. anhand der Annotationen im Umkehrschluss erfolgen, da die nicht annotierten Bereiche in den Bilddaten als der Hintergrund aufgefasst werden können. Auch können die Bereiche als Hintergrund aufgefasst werden, in denen keine Annotationen von Objekten, von denen Trainingsdaten erstellt werden sollen, vorhanden sind. D.h. es können eine oder mehrere Klassen von Objekten, die annotiert sind, für eine Anwendung als Hintergrund eingeordnet werden und alle Bildbereiche, die diese Annotationen umfassen, als Hintergrund im Sinne der Erfindung genutzt werden.
Ferner kann als weiterer Verfahrensschritt ein Bereitstellen der Trainingsdaten für das Training des Maschinenlern-Modells auf Basis der identifizierten Bereiche erfolgen, insbesondere, um das Training des Maschinenlern-Modells auf Basis der identifizierten Bereiche durchzuführen. In anderen Worten können aus den identifizierten Bereichen, welche für den mindestens einen Hintergrund oder auch für eine Vielzahl verschiedener Hintergründe spezifisch sind, die Trainingsdaten gebildet werden. Zur Bildung der Trainingsdaten können die identifizierten Bereiche ggf. noch weiterverarbeitet werden, z. B. durch Augmentierung, Merkmalsextraktion oder dergleichen. Die Trainingsdaten können anschließend für das Training des Maschinenlern-Modells bereitgestellt werden. Darunter ist zu verstehen, dass die Trainingsdaten für das Training zu Verfügung stehen, z. B. nicht-flüchtig abgespeichert werden, und ggf. automatisiert hierzu verwendet werden können. Das Bereitstellen kann also bspw. durch ein digitales, flüchtiges oder nicht-flüchtiges Speichern und/oder eine Datenübertragung und/oder eine Bereitstellung auf einem Server oder in der Cloud oder dergleichen erfolgen.
Die Verfahrensschritte können insbesondere automatisiert und/oder wiederholt und/oder nacheinander ausgeführt werden. Darüber hinaus kann das erfindungsgemäße Verfahren auch als ein computerimplementiertes Verfahren ausgeführt sein.
Dabei basiert die Erfindung insbesondere auf der Erkenntnis, dass durch die separate Erzeugung von synthetischen Hintergründen durch das Maschinenlern-Modell, vorzugsweise separat zu den entsprechenden Objekten vor den Hintergründen, sich für ein anschließendes (weiteres) Maschinenlernen besonders geeignete zumindest teilweise synthetische Trainingsdatensätze erzeugen lassen. Dies trifft insbesondere dann zu, wenn der wenigstens eine Datensatz, auf dem die Bereitstellung der Trainingsdaten beruht, bereits annotierte Bilddaten umfasst. Bei den Bilddaten können vorzugsweise die Objekte (und insbesondere nicht die Hintergründe) annotiert sein, sodass sich die Hintergründe anhand der Annotationen ebenfalls identifizieren lassen. Bspw. können in dem Datensatz diejenigen Bereiche identifiziert werden und somit für den mindestens einen Hintergrund spezifisch sein, welche eben nicht als Objekte gelabelt bzw. annotiert sind.
Das Training kann vorteilhafterweise dazu ausgeführt sein, das Maschinenlern-Modell zum Erzeugen von synthetischen Hintergründen zu trainieren. Dies kann dadurch ermöglicht werden, dass die Trainingsdaten für den mindestens einen Hintergrund spezifisch sind und somit eine geeignete Basis für ein maschinelles Lernen bilden.
Es ist möglich, dass die aus einer Anwendung des trainierten Maschinenlern-Modells resultierenden synthetischen Hintergründe anschließend dazu geeignet sind und/oder dazu verwendet werden, um zumindest teilweise synthetische Trainingsdatensätze bereitzustellen und insbesondere zu erzeugen. In anderen Worten sind die synthetischen Hintergründe zur Bereitstellung und vorzugsweise Erzeugung von zumindest teilweise synthetischen Trainingsdatensätzen für wenigstens ein weiteres Maschinenlernen vorgesehen. Es kann daher möglich sein, dass das trainierte Maschinenlern-Modell (und damit natürlich auch die bereitgestellten Trainingsdaten zum entsprechenden Training des Maschinenlern-Modells) dafür verwendet werden, um die zumindest teilweise synthetischen Trainingsdatensätze zu erzeugen. In diesen zumindest teilweise synthetischen Trainingsdatensätzen können die synthetischen Hintergründe ggf. mit weiteren realen Hintergründen und/oder synthetischen und/oder realen Objekten vorhanden sein.
Die zumindest teilweise synthetischen Trainingsdatensätze können sodann für das Maschinenlernen eingesetzt werden, z. B. für ein Training eines weiteren Maschinenlern-Modells für eine Detektions- und/oder Klassifikationsaufgabe. Da die Klassifikation der synthetischen Hintergründe bekannt ist, kann in einfacher und automatischer Weise (d. h. ohne zusätzliche manuelle Annotation) eine Ground-Truth für das Training durch die synthetischen Hintergründe bereitgestellt werden und/oder ein überwachtes Lernen als Methode für das Maschinenlernen verwendet werden.
Es ist insbesondere eine der Erfindung zugrundeliegende Idee, dass durch die Trennung der zumindest teilweise synthetischen Trainingsdatensätze in Objekte und Hintergrund und vorzugsweise die Erzeugung des Hintergrunds mit Hilfe eines sogenannten generative adversarial networks (kurz GAN) die vollständige parametrische Kontrolle über die Objekte erhalten bleiben kann. Gleichzeitig können realistische Hintergründe verwendet werden, die mit ausreichender Variation erzeugt werden können.
Die Erfindung kann ferner den Vorteil haben, dass Hintergründe für die zumindest teilweise synthetischen Trainingsdatensätze, insbesondere Bilddaten, erzeugt werden, die eine ausreichend hohe Variation aufweisen, damit diese zum Training von neuronalen Netzen verwendet werden können und keine Überanpassung bzgl. des Hintergrunds bewirken. Die synthetischen Hintergründe können hierzu bspw. als Textur in einer Szenenbeschreibung genutzt werden, um mittels Ray-Tracing oder Rasterisierung ein synthetisches Bild für die zumindest teilweise synthetischen Trainingsdatensätze zu erzeugen.
Beispielsweise kann es vorgesehen sein, dass nach dem Schritt des Bereitstellens der Trainingsdaten ein Training des Maschinenlern-Modells auf Basis dieser Trainingsdaten durchgeführt wird, um das Maschinenlern-Modell dafür zu trainieren, die synthetischen Hintergründen zu erzeugen. Dies hat den Vorteil, dass das Maschinenlern-Modell dafür trainiert werden kann, besonders variationsreiche und damit für einen Trainingsdatensatz besonders geeignete synthetische Hintergründe zu erzeugen. In anderen Worten können die Trainingsdaten für das Training des Maschinenlern-Modells genutzt werden, insbesondere, um anschießend durch das auf diese Weise trainierte Maschinenlern-Modell die synthetischen Hintergründe zu erzeugen.
Ein weiterer Vorteil im Rahmen der Erfindung ist erzielbar, wenn das Maschinenlern-Modell als GAN ausgebildet ist und/oder ein GAN zumindest teilweise für das Maschinenlern-Modell verwendet wird. Somit ist es möglich, dass ein Generative Adversarial Network (GAN) für die Erzeugung der synthetischen Hintergründe zumindest unterstützend eingesetzt wird. Hierzu kann das GAN - bspw. in bekannter Weise - anhand der bereitgestellten Trainingsdaten dafür trainiert werden, um die synthetischen Hintergründe zu erzeugen. Dabei kann bspw. Maschinenlernen eingesetzt werden, um zwei Netzwerke, ein Discriminator-Netz und ein Generator-Netz, zu trainieren, die im Wesentlichen „ein Spiel gegeneinander spielen“ (d. h. gegnerisch sind, engl. adversarial). Das Discriminator-Netz kann z. B. trainiert werden, um zwischen echten Daten (z. B. echten Bildern, insbesondere Hintergründen) und synthetischen Daten (z. B. virtuellen Bildern, insbesondere Hintergründen) zu unterscheiden und Daten entweder als echt oder synthetisch einzustufen. Das Generator-Netz kann trainiert werden, um synthetische Daten zu produzieren, die das Discriminator-Netz als echte Daten einstuft. Ein synthetisches Gleichgewicht wird erreicht, wenn das Discriminator-Netz nicht in der Lage ist zu bewerten, ob die Daten - also insbesondere die Hintergründe - synthetisch oder echt sind.
Vorteilhaft ist es zudem, wenn nach dem Schritt des Bereitstellens der Trainingsdaten und vorzugsweise nach dem Training des Maschinenlern-Modells die nachfolgenden Schritte vorgesehen ist:

- Erzeugen der synthetischen Hintergründe auf Basis der identifizierten Bereiche, vorzugsweise durch das trainierte Maschinenlern-Modell,
- Verwenden der synthetischen Hintergründe zur Erzeugung der zumindest teilweise synthetischen Trainingsdatensätze, wobei vorzugsweise der wenigstens eine ermittelte Datensatz zumindest um die synthetischen Hintergründe ergänzt wird, um die zumindest teilweise synthetischen Trainingsdatensätze zu erzeugen,
- Bereitstellen der zumindest teilweise synthetischen Trainingsdatensätze für das Maschinenlernen, vorzugsweise für ein Training eines weiteren Maschinenlern-Modells.

Dies ermöglicht es, dass die synthetischen Hintergründe für weitere Zwecke verwendet werden können, insbesondere für ein weiteres Training eines neuronalen Netzes oder dergleichen.
Von weiterem Vorteil kann vorgesehen sein, dass der wenigstens eine ermittelte Datensatz mindestens eine oder mehrere Annotationen des mindestens einen Objekts für das Maschinenlernen aufweist, wobei die Bereiche in dem wenigstens einen ermittelten Datensatz, welche für den mindestens einen Hintergrund spezifisch sind, anhand der Annotationen (der Objekte) identifiziert werden. Somit ist es möglich, die Hintergründe aus dem Datensatz zu ermitteln und die Objekte entsprechend herauszufiltern.
Optional kann es vorgesehen sein, dass die identifizierten Bereiche zusätzlich zu einer zweidimensionalen Bildinformation über den mindestens einen Hintergrund noch weitere Informationen gemäß mindestens einer weiteren Dimension aufweisen, vorzugsweise über eine Tiefe einer in der Bildinformation abgebildeten Umgebung, um vorzugsweise diese Informationen bei dem Training zur Erzeugung einer Textur der synthetischen Hintergründe zu verwenden. Derartige zusätzlichen Informationen können z. B. für die Textur der Objekte in den zumindest teilweise synthetischen Trainingsdatensätzen genutzt werden. Es ist ebenfalls möglich, dass diese Ausschnitte zum Training des Maschinenlern-Modells, vorzugsweise eines GANs, verwendet werden.
Es kann weiter möglich sein, dass der wenigstens eine ermittelte Datensatz zumindest teilweise aus einer Aufzeichnung wenigstens einer Kamera resultiert, um das mindestens eine Objekt vor dem mindestens einen Hintergrund in einer Umgebung eines Fahrzeuges und/oder in einer landwirtschaftlichen Umgebung abzubilden. Beispielhaft kann der mindestens eine Hintergrund im landwirtschaftlichen Kontext einen Ackerboden umfassen, z. B. dann, wenn das Maschinenlernen für eine Detektion von Pflanzen vorgesehen ist. Ferner kann der mindestens eine Hintergrund einen Boden mit Kultur-Pflanzen bspw. in Pflanzreihe umfassen, wobei z. B. das Maschinenlernen für eine Detektion und/oder eine Klassifikation von Unkräutern oder Pflanzen außerhalb eines Pflanzmusters vorgesehen ist. Auch kann der mindestens eine Hintergrund einen Boden mit Bepflanzung umfassen, wobei z. B. das Maschinenlernen für eine Umfelderfassung von Hindernissen und/oder Fremdkörpern vorgesehen ist. Die Anwendung ist jedoch nicht auf den landwirtschaftlichen Kontext begrenzt, sondern kann generisch eingesetzt werden für Hintergründe in Szenen, in denen keine weitere Segmentierung erforderlich ist. Dies ist z. B. der Fall, wenn die wenigstens eine Kamera an einem Straßenfahrzeug vorgesehen ist, um als den wenigstens einen Hintergrund die Grünflächen neben der befahrbaren Bahn oder Gebäudefassaden aufzuzeichnen. Bei Kameras an einem Baustellenfahrzeug können die Hintergründe z. B. Gebäude und/oder eine Landschaft außerhalb der Baustelle umfassen.
Vorteilhaft ist es zudem, wenn das Maschinenlernen für ein weiteres Training eines weiteren Maschinenlern-Modells zur Detektion und/oder Klassifikation vorgesehen ist, insbesondere zur Detektion und/oder Klassifikation von Pflanzen und/oder Hindernissen in einer landwirtschaftlichen Umgebung und/oder zur Detektion und/oder Klassifikation von Grünflächen und/oder Gebäudefassaden und/oder zur Detektion und/oder Klassifikation von Objekten in einer Fahrzeugumgebung, bevorzugt, um ein Fahrzeug basierend auf der Detektion und/oder Klassifikation zumindest teilweise automatisch zu steuern. Damit kann das erfindungsgemäße Verfahren ein zuverlässiges Maschinenlernen für derartige Anwendungen bereitstellen. Das Fahrzeug kann bspw. als ein Kraftfahrzeug und/oder Personenkraftfahrzeug und/oder autonomes Fahrzeug ausgebildet sein. Das Fahrzeug kann eine Fahrzeugeinrichtung, bspw. zur Bereitstellung einer autonomen Fahrfunktion und/oder ein Fahrerassistenzsystem, aufweisen. Die Fahrzeugeinrichtung kann dazu ausgeführt sein, das Fahrzeug zumindest teilweise automatisch zu steuern und/oder zu beschleunigen und/oder abzubremsen und/oder zu lenken.
Ebenfalls Gegenstand der Erfindung ist ein Computerprogramm, insbesondere Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Computerprogrammes durch einen Computer diesen veranlassen, das erfindungsgemäße Verfahren auszuführen. Damit bringt das erfindungsgemäße Computerprogramm die gleichen Vorteile mit sich, wie sie ausführlich mit Bezug auf ein erfindungsgemäßes Verfahren beschrieben worden sind.
Ebenfalls Gegenstand der Erfindung ist eine Vorrichtung zur Datenverarbeitung, die eingerichtet ist, das erfindungsgemäße Verfahren auszuführen. Als die Vorrichtung kann bspw. ein Computer vorgesehen sein, welcher das erfindungsgemäße Computerprogramm ausführt. Der Computer kann wenigstens einen Prozessor zur Ausführung des Computerprogramms aufweisen. Auch kann ein nicht-flüchtiger Datenspeicher vorgesehen sein, in welchem das Computerprogramm hinterlegt und von welchem das Computerprogramm durch den Prozessor zur Ausführung ausgelesen werden kann.
Ebenfalls Gegenstand der Erfindung ist ein computerlesbares Speichermedium, welches das erfindungsgemäße Computerprogramm umfasst. Das Speichermedium ist bspw. als ein Datenspeicher wie eine Festplatte und/oder ein nicht-flüchtiger Speicher und/oder eine Speicherkarte ausgebildet. Das Speichermedium kann z. B. in den Computer integriert sein.
Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung, in der unter Bezugnahme auf die Zeichnung Ausführungsbeispiele der Erfindung im Einzelnen beschrieben sind. Dabei können die in den Ansprüchen und in der Beschreibung erwähnten Merkmale jeweils einzeln für sich oder in beliebiger Kombination erfindungswesentlich sein. Es zeigt:

1 eine schematische Visualisierung eines Verfahrens, einer Vorrichtung sowie eines Computerprogramms gemäß Ausführungsbeispielen der Erfindung.

In 1 sind Ausführungsbeispiele der Erfindung mit weiteren Einzelheiten veranschaulicht. Darin ist ein Verfahren 100 zum Bereitstellen von Trainingsdaten 220 für ein Training eines Maschinenlern-Modells 240 zum Erzeugen von synthetischen Hintergründen 230 visualisiert. Hierbei können die synthetischen Hintergründe 230 zur Bereitstellung von zumindest teilweise synthetischen Trainingsdatensätzen 250 für ein Maschinenlernen vorgesehen sein. Gemäß einem ersten Verfahrensschritt 101 kann dabei wenigstens ein Datensatz 210 ermittelt werden, welcher für wenigstens eine Darstellung von mindestens einem Objekt 50 vor mindestens einem Hintergrund 60 spezifisch ist. Sodann kann gemäß einem zweiten Verfahrensschritt 102 ein Identifizieren von solchen Bereichen in dem Datensatz 210 erfolgen, welche für den mindestens einen Hintergrund 60 spezifisch sind. Dazu können solche Bereiche in den realen Daten des Datensatzes 210 ausgewählt werden, in denen sich kein Objekt 50 befindet. Idealerweise werden dazu möglichst große Bereiche in den Daten identifiziert. Bei der Verwendung von Datensätzen 210, die 2D-Bilddaten umfassen, können die Annotationen in Form von Bounding Boxen/Polygonen oder Pixel genauen semantischen Annotationen vorliegen. Vorteilhaft sind dabei rechteckige oder sogar quadratische Ausschnitte. Es können aber auch beliebige andere Datentypen verwendet werden. Insbesondere werden Datensätze 210 bevorzugt, die neben 2D-Bilddaten weitere Daten wie Tiefe beinhalten, die für die Textur genutzt werden können. Anschließend können gemäß einem dritten Verfahrensschritt 103 die Trainingsdaten 220 für das Training des Maschinenlern-Modells 240 auf Basis der identifizierten Bereich bereitgestellt werden.
Es ist möglich, dass nach dem dritten Verfahrensschritt 103 ein Training des Maschinenlern-Modells 240 auf Basis dieser Trainingsdaten 220 durchgeführt wird, um das Maschinenlern-Modell 240 dafür zu trainieren, die synthetischen Hintergründen 230 zu erzeugen. Dies bedeutet, dass durch das Verfahren gemäß Ausführungsbeispielen der Erfindung Trainingsdaten bereitgestellt werden können, welche der Erzeugung von synthetischen Hintergründen 230 dienen. Diese synthetischen Hintergründe 230 wiederum sind zur Bereitstellung von zumindest teilweise synthetischen Trainingsdatensätzen 250 für ein (weiteres) Maschinenlernen geeignet, da die identifizierten Bereiche für den mindestens einen Hintergrund 60 spezifisch sind. Unter dem Bereitstellen von zumindest teilweise synthetischen Trainingsdatensätzen 250 kann verstanden werden, dass die synthetischen Hintergründe 230 zur Erzeugung der zumindest teilweise synthetischen Trainingsdatensätzen 250 verwendet werden können.
Zusätzlich können zur Erzeugung der zumindest teilweise synthetischen Trainingsdatensätze 250 auch Objekte 50 synthetisch erzeugt werden, z. B. mittels wenigstens eines Modells. Auf diese Weise können verschiedene Varianten der synthetischen Objekte 50 und der synthetischen Hintergründe 230 erzeugt und miteinander kombiniert werden, um die zumindest teilweise synthetischen Trainingsdatensätze 250 zu erhalten. Auch können diese Varianten mit realen Bilddaten wie aus dem ermittelten wenigstens einen Datensatz 210 kombiniert werden, um die zumindest teilweise synthetischen Trainingsdatensätzen 250 zu erhalten. Die synthetische Erzeugung der Objekte 50 kann bspw. mittels Ray-Tracing oder Rasterisierung durchgeführt werden, z. B. mittels aus dem Stand der Technik bereits bekannten Methoden, bei welchen synthetische Bilddaten einer, insbesondere dreidimensionalen, Szenenbeschreibung mittels Ray-Tracing oder Rasterisierung erzeugt werden. Die zur Beschreibung einer Szene erforderlichen Texturen, welche für Objekte der Szene vorgesehen sind, können dabei auf verschiedene Weise erstellt werden. Die Texturen können Farbwerte (typischerweise Rot, Grün, Blau), aber auch weitere Eigenschaften wie Tiefe oder Oberflächenorientierung (Normalen) umfassen. Dabei können die Farbwerte auf Basis von echten Aufnahmen, insbesondere Fotografien, übernommen werden. Aber auch andere Texturebenen können durch Filteroperationen aus dem Bildmaterial erzeugt werden. Vorteilhaft hierfür sind z. B. mehrere Aufnahmen mit unterschiedlichen Beleuchtungsrichtungen. Texturen können darüber hinaus auch algorithmisch erzeugt werden, insbesondere unter Nutzung von Zufallszahlen und Rauschgeneratoren.
Synthetisch erzeugte Bilddaten können ideal für ein Maschinenlernen, also für das Training von neuronalen Netzen, verwendet werden, da durch den Erzeugungsprozess die Zuordnung jeden Pixels zu der ursprünglichen Szenenbeschreibung vorhanden ist. Somit ist das bei echten Aufnahmen erforderliche Annotieren der Bilddaten unnötig. Die synthetischen Bilddaten können daher bereits in für das Training geeigneter Form (pixelgenaue, vollständige Semantik der Szene) vorliegen. Es kann auch mit einer Kombination aus realen Daten und den synthetisch erzeugten Bilddaten trainiert werden.
Beim Maschinenlernen und insbesondere beim Training eines neuronalen Netzes ist darauf zu achten, dass es nicht aufgrund einer zu geringen Variation in den Trainingsdatensätzen zu einer Überanpassung (overfitting) kommt. Insbesondere für Bilddaten, die synthetisch erzeugt werden, sollten genügend Variationen bereits in der Szenenbeschreibung vorgenommen werden. Bei ausreichend detaillierten bzw. algorithmisch erzeugten Objekten kann dies parametrisch erfolgen. Zum Beispiel kann die Objektgröße in einem definierten Bereich wie 80 % bis 120 % für jedes erzeugte Bild zufällig gewählt werden. Ebenfalls können die genutzten Modelle für den Erfolg des Trainings relevant sein. Werden zu einfache Modelle genutzt, kann die Darstellung von der Realität so weit abweichen, dass der Übergang von den synthetischen Daten zu den realen Daten (Domain Shift) zu groß wird und die Nutzung der synthetischen Daten keine Verbesserung bringt. Um dies zu vermeiden, kann z. B. eine Kombination aus einer Spiele-Engine und GANs (Generative Adversarial Networks) genutzt werden, um die Realitätstreue der Bilder zu verbessern. Dabei wird ein generiertes Bild nachträglich mittels eines GANs verändert.
Ferner können nach dem dritten Verfahrensschritt 103 und nach dem Training des Maschinenlern-Modells 240 die synthetischen Hintergründe 230 auf Basis der identifizierten Bereiche erzeugt werden. Dazu können z. B. aus beliebigen Feature-Vektoren Bilder erzeugt werden. Je nach Anwendung kann es vorteilhaft sein, dass das Maschinenlern-Modell 240 bzw. GAN 240 in der Lage ist, einzelne Kacheln zu erzeugen, die einen nahtlosen Übergang zueinander aufweisen (vgl. TileGAN oder SeamlessGAN). Dadurch kann bei größeren Szenen mit einer notwendigen hohen Auflösung oder einer Zeitserie mit Bewegung über den Hintergrund 230 die Konsistenz des Hintergrunds 230 sichergestellt werden. Die synthetischen Hintergründe 230 können wiederum zur Erzeugung der zumindest teilweise synthetischen Trainingsdatensätze 250 verwendet und für das Maschinenlernen, vorzugsweise für ein Training eines weiteren Maschinenlern-Modells 260 bereitgestellt werden. Dabei erlauben es Ausführungsbeispiele der Erfindung, dass die synthetischen Hintergründe 230 als realitätstreue Hintergründe zur Bereitstellung der zumindest teilweise synthetischen Trainingsdatensätzen 250 verwendet werden. Die zumindest teilweise synthetischen Trainingsdatensätze 250 können neben den synthetischen Hintergründen 230 noch weitere synthetisch generierte Daten umfassen, insbesondere synthetisch generierte Objekte. Dabei kann die volle Kontrolle der (Vordergrund-) Objekte von der Szenenbeschreibung bis zum Bildpixel erhalten bleiben.
Es ist gemäß Ausführungsvarianten vorgesehen, dass der wenigstens eine ermittelte Datensatz 210 zumindest teilweise aus einer Aufzeichnung wenigstens einer Kamera 30 resultiert, um das mindestens eine Objekt 50 vor dem mindestens einem Hintergrund 60 in einer Umgebung eines Fahrzeuges 40 und/oder in einer landwirtschaftlichen Umgebung abzubilden.
Zum Training eines neuronalen Netzes im Rahmen des Maschinenlernens kann bereits ein Trainingsdatensatz 210 vorhanden sein, der Annotationen der Objekte 50 aufweist, die von Interesse sind. Dieser Trainingsdatensatz 210 kann zumindest teilweise dem ermittelten Datensatz 210 entsprechen. Um diesen Trainingsdatensatz 210 zu ergänzen, und damit das Maschinenlernen zu verbessern, können zusätzlich synthetische Daten erzeugt werden. Für die Objekte 50 werden hierzu geeignete Modelle genutzt, die bei der synthetischen Datenerzeugung entsprechend variiert werden.
Ebenfalls ist in 1 ein Computerprogramm 20 sowie eine Vorrichtung 10 zur Datenverarbeitung gemäß Ausführungsvarianten der Erfindung dargestellt.
Die voranstehende Erläuterung der Ausführungsformen beschreibt die vorliegende Erfindung ausschließlich im Rahmen von Beispielen. Selbstverständlich können einzelne Merkmale der Ausführungsformen, sofern technisch sinnvoll, frei miteinander kombiniert werden, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2021004608 A1 [0004]
US 2019080206 A1 [0004]

Claims

Verfahren (100) zum Bereitstellen von Trainingsdaten (220) für ein Training eines Maschinenlern-Modells (240) zum Erzeugen von synthetischen Hintergründen (230), die zur Bereitstellung von zumindest teilweise synthetischen Trainingsdatensätzen (250) für ein Maschinenlernen vorgesehen sind, umfassend die nachfolgenden Schritte: - Ermitteln (101) wenigstens eines Datensatzes (210), welcher für wenigstens eine Darstellung von mindestens einem Objekt (50) vor mindestens einem Hintergrund (60) spezifisch ist, - Identifizieren (102) von Bereichen in dem wenigstens einen Datensatz (210), welche für den mindestens einen Hintergrund (60) spezifisch sind, - Bereitstellen (103) der Trainingsdaten (220) für das Training des Maschinenlern-Modells (240) auf Basis der identifizierten Bereiche.
Verfahren (100) nach Anspruch 1, dadurch gekennzeichnet, dass nach dem Schritt des Bereitstellens (103) der Trainingsdaten (220) ein Training des Maschinenlern-Modells (240) auf Basis dieser Trainingsdaten (220) durchgeführt wird, um das Maschinenlern-Modell (240) dafür zu trainieren, die synthetischen Hintergründen (230) zu erzeugen.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Maschinenlern-Modell (240) als GAN ausgebildet ist und/oder ein GAN zumindest teilweise für das Maschinenlern-Modell (240) verwendet wird.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nach dem Schritt des Bereitstellens (103) der Trainingsdaten (220) und vorzugsweise nach dem Training des Maschinenlern-Modells (240) die nachfolgenden Schritte vorgesehen sind: - Erzeugen der synthetischen Hintergründe (230) auf Basis der identifizierten Bereiche, vorzugsweise durch das trainierte Maschinenlern-Modell (240), - Verwenden der synthetischen Hintergründe (230) zur Erzeugung der zumindest teilweise synthetischen Trainingsdatensätze (250), wobei vorzugsweise der ermittelte Datensatz (210) zumindest um die synthetischen Hintergründe (230) ergänzt wird, um die zumindest teilweise synthetischen Trainingsdatensätze (250) zu erzeugen, - Bereitstellen der zumindest teilweise synthetischen Trainingsdatensätze (250) für das Maschinenlernen, vorzugsweise für ein Training eines weiteren Maschinenlern-Modells (260).
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der wenigstens eine ermittelte Datensatz (210) mindestens eine oder mehrere Annotationen des mindestens einen Objekts (50) für das Maschinenlernen aufweist, wobei die Bereiche in dem wenigstens einen ermittelten Datensatz (210), welche für den mindestens einen Hintergrund (60) spezifisch sind, anhand der Annotationen identifiziert werden.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die identifizierten Bereiche zusätzlich zu einer zweidimensionalen Bildinformation über den mindestens einen Hintergrund (60) noch weitere Informationen gemäß mindestens einer weiteren Dimension aufweisen, vorzugsweise über eine Tiefe einer in der Bildinformation abgebildeten Umgebung.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der wenigstens eine ermittelte Datensatz (210) zumindest teilweise aus einer Aufzeichnung wenigstens einer Kamera (30) resultiert, um das mindestens eine Objekt (50) vor dem mindestens einen Hintergrund (60) in einer Umgebung eines Fahrzeuges (40) und/oder in einer landwirtschaftlichen Umgebung abzubilden.
Verfahren (100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Maschinenlernen für ein weiteres Training eines weiteren Maschinenlern-Modells (260) zur Detektion und/oder Klassifikation vorgesehen ist, insbesondere zur Detektion und/oder Klassifikation von Pflanzen und/oder Hindernissen in einer landwirtschaftlichen Umgebung und/oder zur Detektion und/oder Klassifikation von Grünflächen und/oder Gebäudefassaden und/oder zur Detektion und/oder Klassifikation von Objekten in einer Fahrzeugumgebung, bevorzugt, um ein Fahrzeug (40) basierend auf der Detektion und/oder Klassifikation zumindest teilweise automatisch zu steuern.
Computerprogramm (20), umfassend Befehle, die bei der Ausführung des Computerprogramms (20) durch einen Computer (10) diesen veranlassen, das Verfahren (100) nach einem der vorhergehenden Ansprüche auszuführen.
Computerlesbares Speichermedium mit einem Computerprogramm (20) nach Anspruch 9.
Vorrichtung (10) zur Datenverarbeitung, die eingerichtet ist, das Verfahren (100) nach einem der Ansprüche 1 bis 8 auszuführen.