EP3721370A1

EP3721370A1 - Trainieren und betreiben eines maschinen-lern-systems

Info

Publication number: EP3721370A1
Application number: EP18789090.0A
Authority: EP
Inventors: Masato Takami; Uwe Brosch
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-12-04
Filing date: 2018-10-16
Publication date: 2020-10-14
Also published as: WO2019110177A1; US11468687B2; DE102017221765A1; US20210182577A1

Abstract

Es wird ein Verfahren zum Anlernen eines Maschinen-Lern-Systems (10) vorgeschlagen, wobei Bilddaten (14) in ein Maschinen-Lern-System (10) unter Prozessieren zumindest eines Teils der Bilddaten (14) durch das Maschinen-Lern-System (10) eingespeist werden. Das Verfahren zeichnet sich insbesondere durch einen Schritt des synthetischen Generierens wenigstens eines Teils wenigstens einer Tiefenkarte (16a) aus, welche eine Mehrzahl von Tiefeninformationswerten aufweist. Ferner wird die wenigstens eine Tiefenkarte (16a) in das Maschinen-Lern-System (10) unter Prozessieren zumindest eines Teils der Tiefeninformationswerte der wenigstens einen Tiefenkarte (16a) eingespeist. Das Maschinen-Lern-Systems (10) wird sodann basierend auf den prozessierten Bilddaten (14) und basierend auf den prozessierten Tiefeninformationswerten der wenigstens einen Tiefenkarte (16a) unter Anpassen eines Parameterwertes wenigstens eines Parameters des Maschinen-Lern-Systems (10) angelernt, wobei der angepasste Parameterwert eine Interpretation von Eingangsdaten durch das Maschinen-Lern-System (10) beeinflusst.

Description

Beschreibung

Titel

Trainieren und Betreiben eines Maschinen- Lern-Systems

Gebiet der Erfindung

Die vorliegende Erfindung betrifft allgemein das Gebiet künstlicher Intelligenz. Insbesondere betrifft die Erfindung ein Verfahren zum Anlernen eines

Maschinen-Lern-Systems, ein Verfahren zum Betreiben eines Maschinen-Lern- Systems sowie ein Maschinen- Lern-System.

Stand der Technik

Das Führen eines Kraftfahrzeugs im Straßenverkehr erfordert regelmäßig eine zuverlässige visuelle Erkennung einer Vielzahl von Objekten, wie etwa anderer Verkehrsteilnehmer, Verkehrszeichen, Fahrbahnbegrenzungen oder Hindernisse irgendwelcher Art. Zunehmend werden Kraftfahrzeuge im Hinblick auf ein teilweise oder vollständig automatisiertes Fahren weiterentwickelt, wobei das bisher durch einen Fahrer geleistete Erkennen von Objekten künstlich nachgebildet wird. Aufgrund der hohen Komplexität von Erkennungsvorgängen werden dabei in der Regel Maschinen- Lern-Systeme und/oder Künstliche- Intelligenz-Systeme eingesetzt, welche beispielsweise anhand von mit einer Kamera des Kraftfahrzeugs aufgenommenen Bilddaten eine Klassifizierung der in den Bilddaten erkennbaren Objekte vornehmen und so letztlich die Objekte automatisch identifizieren können. Derartige Maschinen- Lern-Systeme zur Erkennung von Objekten können beispielsweise ein neuronales Netzwerk und/oder ein neuronales Netz aufweisen.

Die Objekterkennung mittels Maschinen- Lern-System kann ferner dadurch verbessert werden, dass zusätzlich zu Bilddaten Daten anderer Sensoren ausgewertet werden. Derartige Systeme werden auch Mehrpfad-Systeme oder Multi- Path-Systeme genannt. Ein solches System kann das Umfeld

beispielsweise auf Basis von visuellen Informationen aus unterschiedlichen Quellen erfassen und interpretieren. Dabei kann ein lernendes System, wie z.B. ein neuronales Netz, welches auf Basis von Bildinformationen aus einer einzelnen Kamera das Umfeld erfasst, durch ein Modul ergänzt werden, welches 3D Informationen und/oder zeitliche Bewegungsinformationen erfasst und interpretiert. Dadurch kann insgesamt die Objekterkennung verbessert werden.

Um mit Maschinen-Lern-Systemen und/oder Künstliche-Intelligenz-Systemen zuverlässig Objekte in Eingangsdaten und/oder Sensordaten erkennen zu können, müssen diese Systeme jedoch mit einer großen Menge von

Trainingsdaten angelernt werden. Dies kann besonders bei Mehrpfad-System eine Herausforderung darstellen.

Offenbarung der Erfindung

Mit Ausführungsformen der Erfindung kann in vorteilhafter Weise ein Maschinen- Lern-System umfassend trainiert und/oder angelernt werden, so dass insgesamt das Maschinen-Lern-System und/oder eine Objekterkennung basierend auf dem Maschinen- Lern-System verbessert werden kann.

Gemäß einem ersten Aspekt der Erfindung wird ein Verfahren zum Anlernen und/oder Trainieren eines Maschinen-Lern-Systems vorgeschlagen. In einem Schritt des Verfahrens werden Bilddaten in ein Maschinen-Lern-System unter Prozessieren und/oder Verarbeiten zumindest eines Teils der Bilddaten eingespeist. Das Verfahren zeichnet sich insbesondere durch die folgenden Schritte aus:

- synthetisches Generieren und/oder künstliches Erzeugen wenigstens eines

Teils wenigstens einer Tiefenkarte, welche eine Mehrzahl von

Tiefeninformationswerten aufweist, wobei jeder der Tiefeninformationswerte mit einem Abstand zu einem Objekt korreliert;

- Einspeisen der wenigstens einen Tiefenkarte in das Maschinen-Lern-System unter Prozessieren und/oder Verarbeiten zumindest eines Teils der

Tiefeninformationswerte der wenigstens einen Tiefenkarte durch das

Maschinen-Lern-System; und

- Anlernen des Maschinen-Lern-Systems basierend auf den prozessierten

Bilddaten und basierend auf den prozessierten Tiefeninformationswerten der wenigstens einen Tiefenkarte unter Anpassen, Variieren und/oder Verändern wenigstens eines Parameterwertes wenigstens eines Parameters des Maschinen-Lern-Systems, wobei der angepasste wenigstens eine

Parameterwert eine Interpretation von Eingangsdaten durch das Maschinen- Lern-System und/oder eine Ausgabe des Maschinen- Lern-Systems beeinflusst.

Allgemein kann das Maschinen-Lern-System, im Folgenden auch ML-System oder nur System genannt, ein beliebig ausgestaltetes Künstliche-Intelligenz- System bezeichnen. Insbesondere kann das ML-System als Klassifikator, beispielsweise als neuronales Netz, ausgestaltet sein. Das ML-System kann als Mehrpfad-System und/oder als Multipath-System ausgestaltet sein und dazu eingerichtet sein, neben Bilddaten auch Tiefenkarten zu verarbeiten, zu analysieren und/oder zu interpretieren. Das ML-System kann hierzu als einteiliges System ausgeführt sein oder beispielsweise mehrere Module aufweisen, welche jeweils unterschiedliche Daten verarbeiten können.

Beispielsweise kann das ML-System ein erstes Modul zur Verarbeitung von Bilddaten und ein zweites Modul zur Verarbeitung von Tiefenkarten aufweisen.

Der Begriff„Einspeisen“ von Daten in das ML-System kann hier und im

Folgenden ein Zuführen von Daten zu dem ML-System, etwa über eine geeignete Datenverbindung und/oder eine geeignete Schnittstelle des ML- Systems, bezeichnen.

Des Weiteren kann das„Anlernen des ML-Systems“ ein Einspeisen und

Verarbeiten der entsprechenden Daten, wie etwa der Bilddaten und/oder der Tiefeninformationswerte, in einer beliebigen Datenverarbeitungsrichtung des ML- Systems bezeichnen. Insbesondere können die Daten zum Anlernen des ML- Systems in Vorwärtsrichtung im Rahmen einer Vorwärts- Fortpflanzung (forward propagation) und/oder in Rückwärtsrichtung im Rahmen einer Rückwärts- Fortpflanzung (backward propoagation) durch das ML-System propagiert werden. Dabei kann iterativ und/oder sukzessiv der Parameterwert des wenigstens einen Parameters des ML-Systems derart angepasst, verändert und/oder variiert werden, dass eine Reaktion und/oder die Interpretation von beliebigen weiteren Eingangsdaten im Hinblick auf einen Einsatzzweck des ML- Systems verbessert und/oder optimiert wird. Dient das ML-System

beispielsweise der Objekterkennung, so kann mit dem Verfahren der

Parameterwert des wenigstens einen Parameters derart angepasst, verändert und/oder variiert werden, dass letztlich die Präzision der Objekterkennung verbessert wird. Dabei kann die„Interpretation der Eingangsdaten durch das ML- System“ bedeuten, dass das System die Eingangsdaten verarbeitet und eine insbesondere durch den Parameterwert des wenigstens einen Parameters zumindest teilweise beeinflusste Ausgabe bereitstellt. Handelt es sich bei dem ML-System etwa um einen Klassifikator, so kann das System beispielsweise wenigstens eine Klassenbezeichnung, eine Klasse und/oder wenigstens einen Wahrscheinlichkeitswert für eine Klasse von Objekten ausgeben. Der Parameter kann daher allgemein eine Größe, insbesondere eine mathematische Größe bezeichnen, basierend auf welcher das ML-System die ihm zugeführten

Eingangsdaten, wie Sensordaten, Bilddaten und/oder Tiefenkarten, analysiert und/oder interpretiert.

Die voranstehend genannten Bilddaten und/oder die wenigstens eine Tiefenkarte können insbesondere Trainingsdaten des ML-Systems bezeichnen. Zu

Trainingszwecken können die Bilddaten und/oder die Tiefenkarte auch gelabelt sein. Mit anderen Worten können die Bilddaten und/oder die Tiefenkarte auch eine Information bezüglich beispielsweise der in den Bilddaten und/oder der Tiefenkarte befindlichen Objekte enthalten. Basierend auf den Labels der Bilddaten und/oder der Tiefenkarte kann das ML-System ferner zu

Trainingszwecken einen Erkennungsfehler ermitteln und der wenigstens eine Parameterwert des wenigstens einen Parameters kann unter Minimierung des Erkennungsfehlers angepasst werden, um das ML-System anzulernen und/oder die Objekterkennung zu optimieren.

Die Tiefenkarte kann beispielsweise eine Disparitätskarte bezeichnen, welche Daten eines beliebigen Sensors zur Erfassung von Abstandsinformationen repräsentieren kann. Gleichsam kann die Tiefenkarte Informationen bezüglich eines Abstandes zu einem Objekt, d.h. Abstandsinformationen, repräsentieren, beinhalten und/oder aufweisen. Auch kann die Tiefenkarte räumliche

Informationen, Rauminformation, dreidimensionale Informationen und/oder 3D- Information enthalten. Die Tiefeninformationswerte der Tiefenkarte können dabei Abstandsdaten bezeichnen.

Die Eingangsdaten können beliebige Sensordaten, wie etwa Bilddaten einer Kamera und/oder eine Tiefenkarte eines Abstandsensors, bezeichnen, welche von dem ML-System, etwa zur Objekterkennung, ausgewertet, analysiert und/oder interpretiert werden. Insbesondere können die Eingangsdaten nicht gelabelt sein und/oder Daten bezeichnen, welche dem ML-System nach dem Anlernen des ML-Systems zur eigentlichen Objekterkennung zugeführt werden. Das synthetische Generieren kann als künstliches Erzeugen verstanden werden. Synthetisch generierte und/oder künstlich erzeugte Tiefeninformationswerte können daher Abstandsdaten bezeichnen, welche nicht mit einem Sensor und/oder Abstandssensor erfasst wurden, sondern beispielsweise manuell und/oder maschinell erzeugt wurden.

Zusammenfassend wird gemäß dem ersten Aspekt der Erfindung ein

Trainingsverfahren für ein ML-System, wie beispielsweise ein neuronales Netz, vorgeschlagen, wobei dem System sowohl Bilddaten, wie beispielsweise Bilder einer Kamera, als auch eine zumindest teilweise synthetisch generierte

Tiefenkarte zugeführt werden. Basierend auf den Bilddaten und der Tiefenkarte wird der Parameterwert des wenigstens einen Parameters des ML-Systems zum Anlernen des ML-Systems angepasst. Insbesondere können im Rahmen des erfindungsgemäßen Trainingsverfahrens mehrere oder alle Parameter des ML- Systems angepasst werden, so dass beispielsweise eine Objekterkennung durch das ML-System verbessert wird. Das ML-System kann dabei mit Bilddaten und ausschließlich mit synthetisch generierten Tiefenkarten trainiert werden.

Alternativ können auch zusätzlich zu Bilddaten und synthetisch generierten Tiefenkarten reale Tiefenkarten zum Trainieren verwendet werden, welche mit einem Sensor erfasst wurden. Auch können dem System zum Anlernen synthetisch generierte Bilddaten zugeführt werden.

Durch das synthetische Generieren der Tiefenkarte kann in vorteilhafter Weise ein künstliches Szenario erzeugt und trainiert werden, in welchem beispielsweise eine Interpretation der Bilddaten und eine Interpretation der Tiefenkarte durch das ML-System zu unterschiedlichen Reaktionen und/oder Ergebnissen führen würden. Ferner kann eine Tiefenkarte im Vergleich zu Bilddaten mit geringem Aufwand, schnell und kosteneffizient synthetisch erzeugt werden, da sie im Vergleich zu Bilddaten weniger komplex ist. Auf diese Weise können

kosteneffizient Tiefenkarten erzeugt werden, welche zu den Bilddaten

widersprüchlich sein können, von diesen abweichen können und/oder zu unterschiedlichen Rektionen bzw. Interpretationen durch das ML-System führen können. So kann in vorteilhafter Weise die Reaktion des ML-Systems auf ungewöhnliche und seltene Szenarien, wie beispielsweise optische

Täuschungen, trainiert werden. Beispielsweise kann ein Szenario nachgebildet werden, in welchem mit einer Kamera ein Bild von einem Werbeplakat gemacht wird, auf welchem eine Straße abgebildet ist. Eine Interpretation ausschließlich dieser Abbildung einer Straße könnte dazu führen, dass das ML-System die Straße als reale Straße interpretiert. Ein Sensor zur Erfassung von

Abstandsinformationen würde das Werbeplakat jedoch als solides Objekt in einem festen Abstand zu dem Sensor erkennen und entsprechende

Tiefeninformationswerte und/oder eine Tiefenkarte aufzeichnen. Mit dem erfindungsgemäße Verfahren können in vorteilhafter Weise solche Szenarien künstlich erzeugt und trainiert werden, so dass das trainierte ML-System während dessen Einsatz solche Szenarien erkennen und korrekt interpretieren kann. Insgesamt kann durch das erfindungsgemäße Verfahren das ML-System, insbesondere eine Objekterkennung durch das ML-System, signifikant verbessert werden.

Die Erfindung kann insbesondere als auf den nachfolgend beschriebenen Erkenntnissen beruhend angesehen werden. Ein lernendes System wird in der Regel durch das Prozessieren von großen Mengen an Trainingsdaten

verbessert. Jedoch ist es nicht möglich, die gesamte Welt und/oder alle

Szenarien in den Trainingsdaten abzubilden. Es kann daher Objekte und/oder Szenarien geben, welche für das System unbekannt sind. Die vorliegende Erfindung ermöglicht daher, mit zusätzlichen synthetisch erzeugten Tiefenkarten eine richtige Beurteilung von Objekten und/oder Szenarien zu trainieren, welche nicht in einem konventionellen Trainingsdatensatz von realen Daten enthalten sind. Bei einem Training des ML-Systems ausschließlich mit realen Daten, könnten die Parameter des Systems, etwa Gewichte eines neuronalen Netzes, derart ermittelt und/oder gewählt werden, dass das System komplexe

Informationen aus den Bilddaten und im Vergleich dazu weniger komplexe Informationen aus den Tiefenkarten ableiten kann, da im Vergleich zu

Tiefenkarten in den Bilddaten mehr Information vorhanden sein kann. Bei Verwendung des trainierten ML-Systems kann dies dazu führen, dass das System einer Interpretation der Bilddaten folgt, beispielsweise wenn zueinander abweichende Bilddaten und Tiefenkarten interpretiert werden, da solche

Abweichungen in realen Datensätzen typischerweise unterrepräsentiert sind, selten Vorkommen und daher gegebenenfalls unzureichend trainiert sind. Der Einsatz eines Multipfad-Systems, welches etwa Objekte basierend auf Daten unterschiedlicher Sensoren, wie beispielsweise Bilddaten und Tiefenkarten, erkennt, kann allgemein eine redundante Absicherung der Objekterkennung ermöglichen. Da es verhältnismäßig unwahrscheinlich ist, dass zwei unterschiedliche Erkennungspfade des Systems, etwa ein erster Pfad basierend auf den Bilddaten und ein zweiter Pfad basierend auf den Tiefenkarten, fehlerhaft sind, kann jeder der Pfade zur Plausibilitätskontrolle des jeweils anderen Pfades dienen, wodurch insgesamt die Objekterkennung verbessert werden kann.

Derartige Szenarien, in denen eine Interpretation der Bilddaten durch das ML- System von einer Interpretation der Tiefenkarte durch das ML-System

voneinander abweichen, können in vorteilhafter Weise durch das

erfindungsgemäße Verfahren trainiert werden.

Mit anderen Worten kann durch das erfindungsgemäße Verfahren eine korrekte Interpretation von Objekten mit mehrdeutiger Erscheinung trainiert werden.

Insgesamt kann daher der Trainingsvorgang von lernenden Systemen erweitert und verbessert werden. Dabei werden Szenarien mit synthetisch erzeugten Tiefeninformationen trainiert, welche nur selten Vorkommen und daher nur sehr schwer und mit erheblichem Aufwand in das System eintrainiert werden können. Kern der Erfindung ist daher die Nutzung von synthetisch erzeugten

Tiefenkarten, um das System zu trainieren. Der größte Gewinn zeigt sich bei der Behandlung von sogenannten Corner Cases oder seltenen Spezialfällen, bei denen die Bilddaten einen anderen Schluss zulassen würden als die Tiefenkarte, wie etwa bei den voranstehend beschriebenen optischen Täuschungen. Solche Fälle sind sehr selten und durch das reine Einspeisen von realen Szenen in das System nur sehr schwer zu erlernen. Allgemein kann daher mit der vorliegenden Erfindung ein lernendes System und/oder ein ML-System entscheidend verbessert werden, welches auf Basis von visuellen Daten und/oder Bilddaten sicher entscheiden muss, ob es sich um einen relevanten Gegenstand handelt.

Gemäß einer Ausführungsform der Erfindung weist das Verfahren ferner den Schritt des Zuordnens der Bilddaten zu der wenigstens einen Tiefenkarte auf. Alternativ oder zusätzlich wird der Parameterwert des Maschinen- Lern-Systems in Abhängigkeit der prozessierten Bilddaten und in Abhängigkeit der

prozessierten Tiefeninformationswerte angepasst. Mit anderen Worten kann der Parameterwert des wenigstens einen Parameters auf beide Daten, d.h. sowohl die Bilddaten als auch die Tiefenkarte, abgestimmt werden. Auf diese Weise kann in vorteilhafter Weise ein Mehrpfad-System umfassend angelernt werden, welches eine Umgebung sowohl basierend auf Bilddaten, d.h. basierend auf visueller Information, als auch basierend auf einer Tiefenkarte, d.h. basierend auf einer Rauminformation, analysiert und/oder interpretiert. Gemäß einer Ausführungsform der Erfindung umfasst die Tiefenkarte eine Matrix, ein Array und/oder eine Liste mit Einträgen, wobei jeder Eintrag ein Pixel einer Vorrichtung zur Erfassung von Tiefeninformation, Rauminformation und/oder 3 D- Information repräsentiert. Ein Wert jedes Eintrages ist dabei ein Tiefeninformationswert zur Angabe eines Abstandes zwischen der Vorrichtung und einem Objekt. Die Tiefenkarte kann insbesondere eine Disparitätskarte bezeichnen und/oder die Tiefeninformationswerte können Disparitätswerte und/oder Abstandsdaten bezeichnen.

Gemäß einer Ausführungsform der Erfindung repräsentiert die wenigstens eine Tiefenkarte Daten einer Stereokamera, einer Multi- View- Kamera, einer

Abstandmessvorrichtung, einer radarbasierten Abstandsmessvorrichtung, einer ultraschallbasierten Abstandsmessvorrichtung und/oder einer laserbasierten Abstandsmessvorrichtung. Allgemein kann die Tiefenkarte Daten eines beliebigen Sensors zur Erfassung von Abstandsinformation, Abstandsdaten und/oder Rauminformation repräsentieren. Des Weiteren können die Bilddaten Daten eines beliebigen optischen Sensors bezeichnen, wie etwa einer Kamera, eine RGB-Kamera, eine Farbkamera, eine Grauwertkamera und/oder einer Infrarotkamera.

Gemäß einer Ausführungsform der Erfindung weist der Schritt des synthetischen Generierens des wenigstens einen Teils der wenigstens einen Tiefenkarte ferner die Teilschritte des Definierens, Festlegens und/oder Bestimmens einer Mehrzahl von Tiefeninformationswerten der Tiefenkarte und des Speicherns der Mehrzahl von definierten Tiefeninformationswerten in der Tiefenkarte auf. Dabei können insbesondere wenigstens 1%, beispielsweise wenigstens 5%, aller

Tiefeninformationswerte der synthetisch generierten Tiefenkarte definiert werden. Durch Festlegen von wenigstens rund 1% der Tiefeninformationswerte kann sichergestellt sein, dass ein hinreichend großes und/oder massives Objekt künstlich in der Tiefenkarte erzeugt wird, so dass bei Einspeisen einer realen Tiefenkarte in das trainierte ML-System nicht etwa fälschlicherweise ein statistisches Rauschen der Daten als Objekt erkannt wird. Insgesamt können so der Trainingsvorgang sowie die Objekterkennung mit dem trainierten System weiter verbessert werden. Gemäß einer Ausführungsform der Erfindung sind die definierten

Tiefeninformationswerte Werte zumindest einer Teilmenge von Einträgen der Tiefenkarte, welche Teilmenge einen zusammenhängenden Pixelbereich von Pixeln einer Vorrichtung zur Erfassung von Tiefeninformation repräsentiert, so dass durch Definieren der Tiefeninformationswerte eine Abstandsinformation bezüglich eines geometrisch zusammenhängenden Objektes in der Tiefenkarte erzeugt ist. Auf diese Weise kann ein massives und/oder verhältnismäßig großes Objekt in der Tiefenkarte künstlich erzeugt werden, welches ein reales Objekt repräsentieren und/oder darstellen kann. Das künstlich in der Tiefenkarte erzeugte Objekt kann eine beliebige Form, Kontur und/oder Größe aufweisen. Auch kann das Objekt an einer beliebigen Position in der Tiefenkarte erzeugt werden. Ferner können auch mehrere Objekte in einer einzigen Tiefenkarte erzeugt werden, beispielsweise an unterschiedlichen Positionen.

Gemäß einer Ausführungsform der Erfindung ist das geometrisch

zusammenhängende Objekt ausschließlich in der wenigstens einen Tiefenkarte enthalten, so dass durch das synthetische Generieren des wenigstens einen Teils der wenigstens einen Tiefenkarte eine Diskrepanz und/oder eine

Abweichung zwischen den Bilddaten und der wenigstens einen Tiefenkarte erzeugt ist. In diesem Zusammenhang kann die Diskrepanz zwischen der Tiefenkarte und den Bilddaten bedeuten, dass das Objekt lediglich in der Tiefenkarte vorhanden ist. Alternativ oder zusätzlich kann die Diskrepanz bedeuten, dass in den Bilddaten und der Tiefenkarte unterschiedliche Objekte vorhanden sind. Beispielsweise kann in den Bilddaten eine Fahrbahn erkennbar sein, welche jedoch lediglich von einem Werbeplakat stammt, wohingegen in der Tiefenkarte das Werbeplakat als massives Objekt in einem bestimmten Abstand erkennbar sein kann.

Gemäß einer Ausführungsform der Erfindung, wird der Parameterwert des wenigstens eines Parameters des Maschinen- Lern-Systems derart angepasst, dass bei einer Diskrepanz zwischen den Bilddaten und der wenigstens einen Tiefenkarte eine Interpretation der Tiefenkarte durch das Maschinen-Lern- System gegenüber einer Interpretation der Bilddaten durch das Maschinen-Lern- System bevorzugt wird. Dadurch kann sichergestellt sein, dass, wenn die Tiefenkarte bzw. die darin enthaltene Abstandsinformation nach Interpretation durch das ML-System vermuten lässt, dass sich beispielsweise auf einem Fahrweg eines Kraftfahrzeugs ein Hindernis befindet, welches jedoch in den Bilddaten nicht oder nur unzureichend von dem ML-System erkannt wird, das ML-System eine entsprechende Ausgabe bereitstellt, welche das Fahrzeug veranlassen kann, einen Bremsvorgang und/oder ein Ausweichmanöver durchzuführen. Insgesamt kann so eine Zuverlässigkeit und/oder Präzision der Objekterkennung durch das trainierte ML-System erhöht sein. Auch kann dies bei einem Einsatz des derart trainierten ML-Systems in einem Fahrzeug die

Sicherheit signifikant erhöhen.

Gemäß einer Ausführungsform der Erfindung ist die Mehrzahl von

Tiefeninformationswerten derart definiert und/oder gewählt, dass ein Abstand zwischen der Vorrichtung zur Erfassung von Tiefeninformation und dem Objekt in einem Bereich zwischen 5 cm und 500 m, insbesondere zwischen 5 cm und 200 m, liegt. Der Abstand kann dabei einem fiktiven Abstand einer fiktiven

Vorrichtung zur Erfassung von Abstandsinformation zu dem Objekt entsprechen. Beispielsweise kann der Abstand zu dem Objekt in einem sicherheitsrelevanten Bereich eines Fahrzeugs liegen, so dass das ML-System umfassend für einen Einsatz in einem Fahrzeug trainiert werden kann. In Abhängigkeit davon, welchen Typ von Vorrichtung zur Erfassung von Abstandsinformation die

Tiefenkarte repräsentiert, kann der entsprechende Abstand des synthetisch generierten Objekts gewählt werden. Wenn die Tiefenkarte etwa Daten einer ultraschallbasierten Abstandmessvorrichtung repräsentiert, so kann das synthetisch in der Tiefenkarte erzeugte Objekt in einem kleineren Abstand erzeugt werden als es beispielsweise bei einer radarbasierten

Abstandmessvorrichtung der Fall wäre, um so der geringeren Reichweite der ultraschallbasierten Abstandmessvorrichtung Rechnung zu tragen.

Gemäß einer Ausführungsform der Erfindung weist das Verfahren ferner die folgenden Schritte auf:

- synthetisches Generieren jeweils zumindest eines Teils einer Mehrzahl von

Tiefenkarten unter Definieren einer Mehrzahl von Tiefeninformationswerten jeder Tiefenkarte; und

- Anlernen des Maschinen-Lern-Systems unter Prozessieren der Mehrzahl von synthetisch generierten Tiefenkarten durch das Maschinen-Lern-System, wobei die definierten Tiefeninformationswerte jeder Tiefenkarte jeweils einen zusammenhängenden Pixelbereich von Pixeln einer Vorrichtung zur

Erfassung von Tiefeninformation repräsentieren, so dass durch Definieren der Tiefeninformationswerte jeder Tiefenkarte jeweils eine Abstandsinformation bezüglich eines geometrisch zusammenhängenden Objektes in der jeweiligen Tiefenkarte erzeugt ist.

Allgemein kann durch synthetisches Generieren und Anlernen unter Verarbeiten unterschiedlicher Tiefenkarten das Training des ML-Systems verbessert werden. Auch können so viele unterschiedliche Szenarien mit vielen unterschiedlichen Objekten trainiert werden, so dass dadurch die Objekterkennung mit dem trainierten ML-System wesentlich verbessert werden kann.

Gemäß einer Ausführungsform der Erfindung unterscheiden sich die in den synthetisch generierten Tiefenkarten erzeugten Objekte hinsichtlich einer Kontur, einer Abmessung, einer Position in den jeweiligen Tiefenkarten und/oder hinsichtlich eines Abstandes voneinander. Mit anderen Worten können in den Tiefenkarten zueinander unterschiedliche Objekte erzeugt werden, was das Training unterschiedlicher Szenarien und/oder ein Erkennen unterschiedlicher Objekte ermöglichen kann. Die in den Tiefenkarten erzeugten Objekte können beispielsweise eine runde, ovale, eckige, polygonförmige, viereckige, dreieckige oder eine beliebige andere Kontur und/oder Geometrie aufweisen. Die unterschiedlichen Objekte können dabei insbesondere zufällig generiert werden. Beispielsweise können bestimmte Parameter der Objekte, wie Abmessungen, Größen, Geometrien, Positionen in den Tiefenkarten oder dergleichen, zufällig variiert werden, etwa unter Verwendung eines Zufallszahlgenerators. Alternativ oder zusätzlich können die in den Tiefenkarten erzeugten Objekte von gescannten realen Objekten stammen. Auf diese Weise können effizient und schnell große Mengen unterschiedlicher Tiefenkarten mit unterschiedlichen Objekten erzeugt und zum Trainieren des ML-Systems verwendet werden.

Gemäß einer Ausführungsform der Erfindung ist das Maschinen- Lern-System ein künstliches neuronales Netz, insbesondere ein mehrschichtiges künstliches neuronales Netz. Alternativ oder zusätzlich ist der wenigstens eine Parameter des Maschinen- Lern-Systems ein Gewicht eines Knotenpunktes eines künstlichen neuronalen Netzes. Das neuronale Netz kann etwa ein lineares, ein nicht lineares, ein rekurrentes und/oder ein faltendes neuronales Netz sein.

Ein zweiter Aspekt der Erfindung betrifft die Verwendung wenigstens einer zumindest teilweise synthetisch generierten Tiefenkarte in Kombination mit Bilddaten zum Anlernen und/oder Trainieren eines Maschinen-Lern-Systems, insbesondere zum Anlernen eines ML-Systems, so wie voranstehend und nachfolgend beschrieben.

Ein dritter Aspekt der Erfindung betrifft ein Verfahren zum Betreiben eines Maschinen- Lern-Systems für ein Kraftfahrzeug, wobei das Maschinen-Lern- System durch ein Verfahren, so wie voranstehend und nachfolgend beschrieben, angelernt ist. Das Verfahren zum Betreiben des ML-Systems kann gleichsam ein Verfahren zur Erkennung von Objekten unter Verwendung des ML-Systems bezeichnen.

Merkmale, Elemente und/oder Schritte des Verfahrens zum Anlernen des ML- Systems können Merkmale, Elemente und/oder Schritte des Verfahrens zum Betreiben des angelernten ML-Systems sein und umgekehrt.

Ein vierter Aspekt der Erfindung betrifft ein Maschinen-Lern-System zur

Erkennung von Objekten für ein Kraftfahrzeug, wobei das Maschinen-Lern- System durch ein Verfahren, so wie voranstehend und nachfolgend beschrieben, angelernt ist.

Merkmale, Elemente und/oder Schritte des Verfahrens zum Anlernen und/oder des Verfahrens zum Betreiben des Maschinen- Lern-Systems können Merkmale, Elemente und/oder Eigenschaften des Maschinen- Lern-Systems sein und umgekehrt. Mit anderen Worten gilt sämtliches in Bezug auf einen Aspekt der Erfindung Offenbarte gleichermaßen für alle anderen Aspekte der Erfindung.

Kurze Beschreibung der Zeichnungen

Im Folgenden werden Ausführungsbeispiele der Erfindung mit Bezug auf die beiliegenden Figuren detailliert beschrieben.

Fig. 1 zeigt ein Maschinen-Lern-System gemäß einem Ausführungsbeispiel der Erfindung.

Fig. 2 zeigt ein Flussdiagramm zur Illustration von Schritten eines Verfahrens zum Anlernen eines Maschinen- Lern-Systems gemäß einem

Ausführungsbeispiel der Erfindung. Fig. 3 zeigt ein Flussdiagramm zur Illustration von Schritten eines Verfahrens zum Betreiben eines Maschinen-Lern-Systems gemäß einem

Ausführungsbeispiel der Erfindung.

Die Figuren sind lediglich schematisch und nicht maßstabsgetreu. In den Figuren sind gleiche, gleich wirkende oder ähnliche Elemente mit gleichen

Bezugszeichen versehen.

Ausführungsformen der Erfindung

Fig. 1 zeigt ein Maschinen-Lern-System 10 gemäß einem Ausführungsbeispiel der Erfindung. Allgemein kann das ML-System 10 ein Künstliche-Intelligenz- System 10 beliebiger Art sein. Insbesondere kann das ML-System 10 wenigstens ein neuronales Netz 12 aufweisen. Das neuronale Netz 12 kann dabei mehrschichtig ausgebildet sein und ein lineares, nicht lineares, rekurrentes und/oder faltendes neuronales Netz 12 sein. Das neuronale Netz 12 kann eine oder mehrere Faltungsschichten aufweisen.

Das ML-System 10 der Figur 1 ist als Mehrpfad-System 10 ausgebildet, wobei über einen ersten Pfad 11a Bilddaten 14 als Eingangsgrößen bzw.

Eingangsdaten in das System 10 gespeist und von diesem verarbeitet werden können. Über einen zweiten Pfad 11b können Tiefenkarten 16a, 16b und/oder Abstandsdaten 16a, 16b in das System 10 gespeist und von diesem verarbeitet werden.

Das in Figur 1 gezeigte System 10 weist exemplarisch drei Module 12a, 12b, 12c auf. Ein erstes Modul 12a ist dazu eingerichtet, die Bilddaten 14 zu verarbeiten, analysieren und/oder zu interpretieren und eine erste Interpretation 18a basierend auf den Bilddaten 14 zu ermitteln und/oder auszugeben. Die Bilddaten 14 können etwa Bilder einer Kamera, eine RGB-Kamera, eine Farbkamera, eine Grauwertkamera und/oder einer Infrarotkamera sein.

Das zweite Modul 12b ist dazu eingerichtet, die Tiefenkarten 16a, 16b zu verarbeiten, analysieren und/oder interpretieren und eine zweite Interpretation 18b basierend auf den Tiefenkarten 16a, 16b zu ermitteln und/oder auszugeben. Die Tiefenkarten 16b bezeichnen dabei reale Tiefenkarten 16b, welche etwa Daten einer Stereokamera, einer Multi-View-Kamera, einer

Abstandmessvorrichtung, einer radarbasierten Abstandsmessvorrichtung, einer ultraschallbasierten Abstandsmessvorrichtung und/oder einer laserbasierten Abstandsmessvorrichtung sein können. Auch können die Tiefenkarten 16b aus einer Informationsquelle stammen, aus welcher die Tiefeninformation extrahiert werden kann, wie z.B. einer Monokameraeinheit mit Structure-from- Motion Algorithmus. Die Tiefenkarten 16a bezeichnen dagegen synthetisch generierte Tiefenkarten 16a, welche dem System 10 zu Trainingszwecken zugeführt werden, wie nachfolgend im Detail beschrieben. Die Tiefenkarten 16a können daher künstlich erzeugt sein und Daten einer Stereokamera, einer Multi-View- Kamera, einer Abstandmessvorrichtung, einer radarbasierten

Abstandsmessvorrichtung, einer ultraschallbasierten Abstandsmessvorrichtung und/oder einer laserbasierten Abstandsmessvorrichtung repräsentieren.

Die beiden Interpretationen 18a, 18b werden exemplarisch in Figur 1 einem dritten Modul 12c zugeführt, welches basierend auf der ersten und zweiten Interpretation 18a, 18b eine finale Interpretation 18c ermittelt und/oder ausgibt.

Die drei Module 12a, 12b, 12c können dabei jeweils separate und/oder voneinander unabhängige Module 12a, 12b, 12c sein. Alternativ können die Module 12a, 12b oder alle drei Module 12a, 12b, 12c zu einem einzigen Modul zusammengefasst sein. Insbesondere können die Module 12a-c jeweils als neuronale Netze 12a-c ausgebildet sein und/oder die Module 12a-12c können als gemeinsames neuronales Netz 12 ausgebildet sein.

Zum Trainieren und/oder Anlernen des Systems 10 werden dem System über den ersten Pfad 11a Bilddaten 14 zugeführt und/oder über eine entsprechende Schnittstelle des Systems 10 eingespeist. Über den zweiten Pfad 11b werden dem System 10 ferner synthetisch generierte Tiefenkarten 16a zugeführt und/oder über eine entsprechende Schnittstelle eingespeist. Zusätzlich zu den synthetisch generierten Tiefenkarten 16a können dem System 10 auch reale Tiefenkarten 16b zugeführt werden.

Im Folgenden wird der Trainingsvorgang des Systems 10 exemplarisch basierend auf dem neuronalen Netz 12 erläutert. Ähnlich kann der

Trainingsvorgang jedoch auch bei beliebig anderer Ausgestaltung des Systems 10 von Statten gehen. Die neuronalen Netze 12a, 12b verarbeiten jeweils die Ihnen zugeführten Daten, d.h. die Bilddaten 14, die synthetisch generierten Tiefenkarten 16a und reale Tiefenkarten 16b. Die Bilddaten 14 und/oder die Tiefenkarten 16a, 16b können dabei gelabelt sein, d.h. eine Information bezüglich deren Inhalt, wie etwa in den Bilddaten 14 und/oder Tiefenkarten 16a, 16b enthaltene Objekte, aufweisen. Das neuronale Netz 12a kann bei Vorwärtspropagation der Bilddaten 14 die

Interpretation 18a ermitteln und/oder ausgeben, welche etwa eine Klasse von Objekten und/oder Wahrscheinlichkeitswerte sein kann. Bezüglich der

Interpretation 18a kann ferner anhand der Labelung der Bilddaten ein

Erkennungsfehler bestimmt werden. Ebenso kann das neuronale Netz 12b bei Vorwärtspropagation der Tiefenkarten 16a, 16b die Interpretation 18b ermitteln und/oder ausgeben, welche etwa eine Klasse von Objekten und/oder

Wahrscheinlichkeitswerte sein kann. Auch für die Interpretation 18b kann basierend auf dem Label der Tiefenkarten 16a, 16b ein Erkennungsfehler bestimmt werden.

Die neuronalen Netze 12a, 12b können dann in Rückwärtspropagation betrieben werden, wobei Parameterwerte von Parametern der neuronalen Netze 12a, 12b, welche insbesondere Gewichte von Knotenpunkten der neuronalen Netze 12a, 12b bezeichnen können, jeweils unter Minimierung der Erkennungsfehler angepasst, verändert und/oder variiert werden.

Die Interpretationen 18a, 18b können ferner dem neuronalen Netz 12c zugeführt werden, um eine finale Interpretation 18c zu ermitteln und/oder auszugeben, wobei wieder ein Erkennungsfehler bestimmt werden kann. Auch das neuronale Netz 12c kann in Rückwärtspropagation betrieben werden und unter Minimierung des Erkennungsfehlers können die Parameterwerte der Parameter und/oder die Gewichte der Knotenpunkte des neuronalen Netzes 12c angepasst, verändert und/oder variiert werden.

Alternativ können die Bilddaten 14 und die Tiefenkarten 16a, 16b gemeinsam durch das System 10 und das gesamte neuronale Netz 12 vorwärtspropagiert werden, um die Interpretation 18c zu erhalten. Das neuronale Netz 12 kann dann ebenso in Rückwärtspropagation betrieben werden und die Gewichte der Knotenpunkte des Gesamtsystem 10 und/oder des gesamten neuronalen Netzes 12 können unter Minimierung des Erkennungsfehlers angepasst, variiert und/oder verändert werden.

In jedem Fall wird erfindungsgemäß das System 10 mit Bilddaten 14 und mit synthetisch generierten Tiefenkarten 16a gespeist und die Parameterwerte der Parameter des Systems, insbesondere die Gewichte der Knotenpunkte des neuronalen Netzes 12, werden zum Anlernen des Systems 10 und/oder des neuronalen Netzes 12 angepasst. Die auf diese Weise angepassten

Parameterwerte und/oder Gewichte beeinflussen sodann die Interpretation und/oder Reaktion des Systems 10 auf beliebige Eingangsdaten, wie etwa Bilder einer Kamera in einem Fahrzeug und Sensordaten eines Ultraschall-, Radar, oder Laser-Abstandssensors.

Im Folgenden sind diverse Aspekte und Vorteile der Erfindung

zusammengefasst. Das angelernte Maschinen- Lern-System 10 wird mit

Bilddaten 14, etwa aus einer Kamera, und Tiefenkarten 16b mit

Tiefeninformationswerten gespeist, welche Tiefeninformationen,

Abstandsinformationen, Rauminformationen und/oder Bewegungsinformationen repräsentieren können. Die Tiefenkarten 16b können etwa von einer

Stereokamera stammen. Basierend auf den Daten aus beiden

Informationsquellen, d.h. den Bilddaten 14 und den Tiefenkarten 16b, analysiert das Gesamtsystem 10 die Umgebung. Bei rein bildbasierten Methoden der Objekterkennung kann es zu Verwechslungen und/oder falscher Interpretation 18a kommen. Wenn z.B. Personen auf einem Werbeplakat zu sehen sind, kann der bildbasierte Teil und/oder der erste Pfad 11a des Systems 10 nicht zwischen einer realen Person und einer Person auf dem Plakat unterscheiden. Weiterhin kann das System 10 bei Gegenständen und Objekten, die nicht im Training enthalten sind, nicht entscheiden was es ist. Es kann daher passieren, dass ein unbekannter grauer Kasten in den Bilddaten 14 als grauer Boden, als Bank oder als Tür erkannt wird. Um solche Entscheidungsfälle zu unterstützen, kann es vorteilhaft sein, die Tiefenkarten 16b in dem zweiten Pfad 11b des Systems 10 heranzuziehen.

Für das Training des Systems 10 kann es zeitaufwendig sein, mehrdeutige Fälle und Szenarien zu finden, bei denen die Tiefenkarten 16b bei der

Entscheidungsfindung Klarheit schaffen könnten. Aus diesem Grund ist erfindungsgemäß vorgesehen, synthetisch erzeugte Tiefenkarten 16a zum Trainieren des Systems 10 zu verwenden, womit das Training des Systems 10 und insbesondere des Moduls 12b wesentlich erweitert wird. Synthetisch erzeugte Tiefenkarten 16b können im gleichen Dateiformat vorliegen, wie die realen Tiefenkarten 16a, etwa in Form von Disparitätskarten. Die Tiefenkarten 16a, 16b können etwa eine Matrix und/oder eine Liste mit Einträgen umfassen, wobei jeder Eintrag ein Pixel einer Vorrichtung zur Erfassung von

Tiefeninformation repräsentiert, und wobei ein Wert jedes Eintrages ein

Tiefeninformationswert zur Angabe eines Abstandes zwischen der Vorrichtung und einem Objekt ist. Zum eigentlichen Trainieren können reale Tiefenkarten 16b durch unterschiedliche, künstlich erzeugte Objekte an verschiedenen Positionen angereichert und/oder modifiziert werden. Alternativ können die Tiefenkarten 16a größtenteils und/oder vollständig synthetisch erzeugt werden. Beispielsweise können mehrere Tiefeninformationswerte, insbesondere wenigstens 1% der Tiefeninformationswerte, der Tiefenkarten 16b definiert und/oder festgelegt werden und gespeichert werden, um eine synthetisch generierte Tiefenkarte 16a zu erstellen. Dabei kann insbesondere ein zusammenhängender Pixelbereich in den synthetisch generierten Tiefenkarten 16a manipuliert und/oder definiert werden, so dass in den synthetisch generierten Tiefenkarten geometrisch zusammenhängende Objekte erzeugt werden, welche reale Objekte in realen Tiefenkarten 16b repräsentieren können. Die manipulierten und/oder definierten Tiefeninformationswerte können ferner so gewählt werden, dass sie einem Abstand zu dem jeweiligen Objekt zwischen 5 cm und 500 m, insbesondere zwischen 5 cm und 200 m, entsprechen. Damit können die Objekte in beispielsweise für ein Fahrzeug sicherheitsrelevanten Abständen erzeugt werden. Als Beispiel kann in einer Tiefenkarte 16a ein Block mitten auf einer Straße erzeugt werden, der durch unterschiedliche Tiefeninformationswerte von der Straße abgegrenzt werden und innerhalb der Tiefenkarte 16a einen

Gegenstand auf der Straße repräsentiert, welcher im visuellen Bild und/oder den Bilddaten 14 nicht sichtbar ist. Damit wird eine Situation erzeugt, welche eine optische Täuschung imitiert. Im Vergleich zur Erzeugung von realistischen synthetischen Bilddaten kann es deutlich günstiger sein, synthetische, realistische Tiefenkarten 16a zu erzeugen. Dadurch lernt das System 10 in Fällen, in denen die bildbasierte Entscheidung bzw. Interpretation 18a entlang des ersten Pfades 11a nicht eindeutig ist, sich auf die Tiefeninformation, die zweiten Interpretation 18b und/oder den zweiten Pfad 11b zu fokussieren, um die finale Interpretation 18c durchzuführen. Dabei ist es unkritisch, dass auch die Tiefenkarte 16b Fehler enthalten kann. Solche Fehlerfälle beziehen sich auf einzelne kleine lokale Bildbereiche. Synthetische Tiefenobjekte, welche über einen größeren Bereich eine glatte Oberfläche aufweisen, heben sich dabei deutlich von den Fehlern ab, welche in der Tiefenkarte 16b entstehen können.

Der zweite Pfad 11b des Moduls 12b kann durch ein weiteres Modul erweitert oder ersetzt werden, welches auf Bewegungsinformationen basiert. Im Kontext der Erfindung kann die synthetische Erzeugung von Bewegungsinformation z.B. in Form eines optischen Flusses zu einem verbesserten Trainingsumfang führen. Deutlich wird dies an einem Beispiel, bei dem ein Gegenstand sich durch den Sichtbereich des Systems 10 bewegt, welcher unbekannt oder mehrdeutig ist.

Ferner sei erwähnt, dass auch die Bilddaten 14 zumindest teilweise synthetisch erzeugt und zum Trainieren des Systems 10 verwendet werden können.

Fig. 2 zeigt ein Flussdiagramm zur Illustration von Schritten eines Verfahrens zum Anlernen eines Maschinen- Lern-Systems 10 gemäß einem

Ausführungsbeispiel der Erfindung. Sofern nicht anders beschrieben weist das in Bezug auf Figur 2 beschriebene System 10 dieselben Elemente und Merkmale wie das System 10 der Figur 1 auf.

In einem ersten Schritt S1 wird eine Tiefenkarte 16a zumindest teilweise synthetisch generiert. Hierzu können in Schritt S1 mehrere Einträge der

Tiefenkarte 16a manipuliert, festgelegt, verändert und/oder definiert werden. Insbesondere kann eine Teilmenge von Einträgen der Tiefenkarte 16a manipuliert und/oder definiert werden, welche Teilmenge einen

zusammenhängenden Pixelbereich einer Vorrichtung zur Erfassung von

Tiefeninformation repräsentiert. Auf diese Weise kann ein Objekt bestimmter Abmessung, Größe, Form, Geometrie und/oder Kontur an einer bestimmten Position und in einem bestimmten Abstand in der Tiefenkarte 16a erzeugt werden. Die Tiefenkarte 16a kann ferner in einer Datenspeichervorrichtung gespeichert und/oder hinterlegt werden.

In einem zweiten Schritt S2 wird die synthetisch generierte Tiefenkarte 16a in das ML-System 10 eingespeist, etwa über eine geeignete Schnittstelle. Des Weiteren werden in Schritt S2 Bilddaten 14 in das System 10 eingespeist. Die Bilddaten 16 können von einer Kamera stammen und/oder etwa auf einer Datenspeichervorrichtung hinterlegt sein. Optional können in Schritt S2 die Bilddaten 14 der synthetisch generierten Tiefenkarte 16a zugeordnet werden.

In einem weiteren Schritt S3 werden die Bilddaten 14 und die synthetisch generierte Tiefenkarte 16a durch das System 10 verarbeitet, prozessiert, interpretiert und/oder ausgewertet. Optional kann in Schritt S3 eine erste

Interpretation 18a basierend auf den Bilddaten 14 und eine zweite Interpretation 18b basierend auf der Tiefenkarte 16a durch das System 10 ermittelt, erzeugt und/oder ausgegeben werden. Die Interpretationen 18a, 18b können jeweils eine Klasse von Objekten und/oder Wahrscheinlichkeitswerte für Objekte und/oder für Objektklassen aufweisen.

In einem weiteren Schritt S4 wird wenigstens ein Parameterwert wenigstens eines Parameters des Systems 10 angepasst und/oder verändert, so dass das System 10 basierend auf den prozessierten Bilddaten 14 und der prozessierten Tiefenkarte 16a angelernt wird. Hierzu können beispielsweise die

Interpretationen 18a, 18b in Rückwärtsrichtung durch das System 10 propagiert werden, wobei der Parameterwert des wenigstens einen Parameters unter Minimierung eines Erkennungsfehlers angepasst werden kann. Insbesondere können zum Anlernen des Systems 10 alle Parameterwerte aller Parameter des Systems angepasst werden. Beispielsweise können die Parameterwerte

Gewichte von Knotenpunkten eines neuronalen Netzes 12 sein. Die beiden Interpretationen 18a, 18b können auch zu einer finalen Interpretation 18c des Systems 10 verarbeitet werden, welche wiederum optional ausgegeben werden kann. Alternativ oder zusätzlich kann in Schritt S4 auch die finale Interpretation 18c sowie ein entsprechender Erkennungsfehler dieser Interpretation 18c zum Anlernen des Systems 10 und/oder zum Anpassen der Parameterwerte verwendet werden.

Zum Trainieren von seltenen Fällen, wie etwa optischen Täuschungen, kann das in der synthetischen Karte 16a in Schritt S1 erzeugte Objekt nur in der

Tiefenkarte 16a und nicht in den Bilddaten 14 enthalten sein. Auch können in den Bilddaten 14 und der Tiefenkarte 16a unterschiedliche Objekte vorhanden sein, so dass eine Diskrepanz zwischen Bilddaten 14 und Tiefenkarte 16a vorhanden ist. Dies kann wiederum dazu führen, dass die Interpretationen 18a, 18b voneinander abweichen. Bei einem Abweichen der Interpretationen 18a, 18b voneinander können ferner die Parameterwerte der Parameter des Systems 10 in Schritt S4 derart angepasst werden, dass die Interpretation 18b basierend auf der Tiefenkarte 16a gegenüber der Interpretation 18a basierend auf den

Bilddaten 14 bevorzugt wird. Gleichsam kann die finale Interpretation 18c bevorzugt mit der Interpretation 18b übereinstimmen und die Parameterwerte des Systems 10 können entsprechend gewählt werden.

Die Schritte S1 bis S4 können zum umfassenden Anlernen des Systems 10 mehrfach durchlaufen werden, wobei in den Schritten S1 stets unterschiedliche Tiefenkarten 16a mit relativ zueinander unterschiedlichen Objekten erzeugt werden und in das System 10 eingespeist werden können. Die Objekte in den Tiefenkarten 16a können sich dabei hinsichtlich einer Abmessung, Größe, Form, Geometrie, einer Position, eines Abstands und/oder beliebiger anderer Größen voneinander unterscheiden. Auf diese Weise kann das System 10 auf alle möglichen Objekte und Szenarien angelernt werden.

Fig. 3 zeigt ein Flussdiagramm zur Illustration von Schritten eines Verfahrens zum Betreiben eines Maschinen-Lern-Systems 10 gemäß einem

Ausführungsbeispiel der Erfindung. Sofern nicht anders beschrieben weist das in Bezug auf Figur 3 beschriebene System 10 dieselben Elemente und Merkmale wie das System 10 der Figur 1 auf. Ferner kann das System 10 der Figur 3 gemäß dem mit Bezug auf Figur 2 beschriebenen Verfahren angelernt sein. Das System 10 kann dabei insbesondere zur Objekterkennung in einem

Kraftfahrzeug eingerichtet sein.

In einem ersten Schritt S1 werden dem System Bilddaten 14, etwa einer Kamera des Kraftfahrzeugs, zugeführt. Ferner wird in Schritt S1 dem System 10 eine Tiefenkarte 16b mit Abstandsinformation, etwa von einer Stereokamera, einem Ultraschallsensor oder einem beliebigen anderen Abstandssensor, zugeführt.

In einem Schritt S2 werden die Bilddaten 14 und die Tiefenkarte 16b von dem System 10 verarbeitet, interpretiert und/oder analysiert. Das System 10 kann dabei basierend auf den Bilddaten 14 eine erste Interpretation 18a eines in den Bilddaten 14 abgebildeten Szenarios bestimmen. Ferner kann das System 10 eine zweite Interpretation 18b basierend auf der Tiefenkarte 16b bestimmen.

Die beiden Interpretationen 18a, 18b werden dann in einem Schritt S3 weiterverarbeitet und optional miteinander verglichen. Basierend auf den Interpretationen 18a, 18b wird in Schritt S3 eine finale Interpretation 18c des in den Bilddaten 14 und der Tiefenkarte 16b abgebildeten Szenarios bestimmt und/oder erstellt. Stimmen die beiden Interpretationen 18a, 18b nicht überein, so kann aus Sicherheitsgründen die Interpretation 18b basierend auf der Tiefenkarte 16b gegenüber der Interpretation 18a basierend auf den Bilddaten 14 bevorzugt werden.

Die finale Interpretation 18c kann ferner weiteren Komponenten des

Kraftfahrzeugs, wie etwa einem Steuergerät, zugeführt werden. Basierend auf der Interpretation 18c kann dann eine Reaktion des Fahrzeugs, wie

beispielsweise ein Bremsvorgang und/oder ein Ausweichmanöver, bestimmt, initiiert und/oder durchgeführt werden.

Ergänzend ist darauf hinzuweisen, dass„umfassend“ keine anderen Elemente ausschließt und„eine“ oder„ein“ keine Vielzahl ausschließt. Ferner sei darauf hingewiesen, dass Merkmale, die mit Verweis auf eines der obigen

Ausführungsbeispiele beschrieben worden sind, auch in Kombination mit anderen Merkmalen anderer oben beschriebener Ausführungsbeispiele verwendet werden können. Bezugszeichen in den Ansprüchen sind nicht als Einschränkung anzusehen.

Claims

Ansprüche

1. Verfahren zum Anlernen eines Maschinen-Lern-Systems (10), das Verfahren aufweisend die Schritte:

Einspeisen von Bilddaten (14) in ein Maschinen-Lern-System (10) unter Prozessieren zumindest eines Teils der Bilddaten (14) durch das Maschinen- Lern-System (10), dadurch gekennzeichnet, dass das Verfahren die folgende Schritte aufweist:

synthetisches Generieren wenigstens eines Teils wenigstens einer

Tiefenkarte (16a), welche eine Mehrzahl von Tiefeninformationswerten aufweist, wobei jeder der Tiefeninformationswerte mit einem Abstand zu einem Objekt korreliert;

Einspeisen der wenigstens einen Tiefenkarte (16a) in das Maschinen-Lern- System (10) unter Prozessieren zumindest eines Teils der

Tiefeninformationswerte der wenigstens einen Tiefenkarte (16a) durch das Maschinen-Lern-System (10); und

Anlernen des Maschinen-Lern-Systems (10) basierend auf den

prozessierten Bilddaten (14) und basierend auf den prozessierten

Tiefeninformationswerten der wenigstens einen Tiefenkarte (16a) unter Anpassen eines Parameterwertes wenigstens eines Parameters des

Maschinen-Lern-Systems (10);

wobei der angepasste Parameterwert eine Interpretation von Eingangsdaten durch das Maschinen-Lern-System (10) beeinflusst.

2. Verfahren nach Anspruch 1 ,

wobei das Verfahren ferner den Schritt des Zuordnens der Bilddaten (14) zu der wenigstens einen Tiefenkarte (16a) aufweist; und/oder

wobei der Parameterwert des Maschinen-Lern-Systems (10) in Abhängigkeit der prozessierten Bilddaten (14) und in Abhängigkeit der prozessierten Tiefeninformationswerte angepasst wird.

3. Verfahren nach einem der Ansprüche 1 oder 2,

wobei die Tiefenkarte (16a) eine Matrix und/oder eine Liste mit Einträgen umfasst, wobei jeder Eintrag ein Pixel einer Vorrichtung zur Erfassung von Tiefeninformation repräsentiert; und wobei ein Wert jedes Eintrages ein Tiefeninformationswert zur Angabe eines Abstandes zwischen der Vorrichtung und einem Objekt ist.

4. Verfahren nach einem der voranstehenden Ansprüche,

wobei die wenigstens eine Tiefenkarte (16a) Daten einer Stereokamera, einer Multi-View-Kamera, einer Abstandmessvorrichtung, einer

radarbasierten Abstandsmessvorrichtung, einer ultraschallbasierten

Abstandsmessvorrichtung und/oder einer laserbasierten

Abstandsmessvorrichtung repräsentiert.

5. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des synthetischen Generierens des wenigstens einen Teils der wenigstens einen Tiefenkarte (16a) ferner aufweist:

Definieren einer Mehrzahl von Tiefeninformationswerten der Tiefenkarte (16a) und Speichern der Mehrzahl von definierten Tiefeninformationswerten in der Tiefenkarte (16a).

6. Verfahren nach Anspruch 5, wobei die definierten Tiefeninformationswerte Werte zumindest einer Teilmenge von Einträgen der Tiefenkarte (16a) sind, welche Teilmenge einen zusammenhängenden Pixelbereich von Pixeln einer Vorrichtung zur Erfassung von Tiefeninformation repräsentiert, so dass durch Definieren der Tiefeninformationswerte eine Abstandsinformation bezüglich eines geometrisch zusammenhängenden Objektes in der

Tiefenkarte (16a) erzeugt ist.

7. Verfahren nach Anspruch 6,

wobei das geometrisch zusammenhängende Objekt ausschließlich in der wenigstens einen Tiefenkarte (16a) enthalten ist, so dass durch das synthetische Generieren des wenigstens einen Teils der wenigstens einen Tiefenkarte (16a) eine Diskrepanz zwischen den Bilddaten (14) und der wenigstens einen Tiefenkarte (16a) erzeugt ist.

8. Verfahren nach einem der Ansprüche 5 bis 7, wobei die Mehrzahl von

Tiefeninformationswerten derart definiert und/oder gewählt ist, dass ein Abstand zwischen der Vorrichtung und dem Objekt in einem Bereich zwischen 5 cm und 500 m, insbesondere zwischen 5 cm und 200 m, liegt.

9. Verfahren nach einem der voranstehenden Ansprüche, wobei der Parameterwert des wenigstens eines Parameters des Maschinen- Lern-Systems (10) derart angepasst wird, dass bei einer Diskrepanz zwischen den Bilddaten (14) und der wenigstens einen Tiefenkarte (16a) eine Interpretation der Tiefenkarte (16a) durch das Maschinen-Lern-System (10) gegenüber einer Interpretation der Bilddaten (14) bevorzugt wird.

10. Verfahren nach einem der voranstehenden Ansprüche, weiter aufweisend: synthetisches Generieren jeweils zumindest eines Teils einer Mehrzahl von Tiefenkarten (16a) unter Definieren einer Mehrzahl von

Tiefeninformationswerten jeder Tiefenkarte (16a); und

Anlernen des Maschinen-Lern-Systems (10) unter Prozessieren der Mehrzahl von synthetisch generierten Tiefenkarten (16a) durch das

Maschinen-Lern-System (10),

wobei die definierten Tiefeninformationswerte jeder Tiefenkarte (16a) jeweils einen zusammenhängenden Pixelbereich von Pixeln einer Vorrichtung zur Erfassung von Tiefeninformation repräsentieren, so dass durch Definieren der Tiefeninformationswerte jeder Tiefenkarte (16a) jeweils eine

Abstandsinformation bezüglich eines geometrisch zusammenhängenden Objektes in der jeweiligen Tiefenkarte (16a) erzeugt ist.

1 1. Verfahren nach Anspruch 10,

wobei sich die in den synthetisch generierten Tiefenkarten (16a) erzeugten Objekte hinsichtlich einer Kontur, einer Abmessung, einer Position und/oder eines Abstandes voneinander unterscheiden.

12. Verfahren nach einem der voranstehenden Ansprüche,

wobei das Maschinen-Lern-System (10) ein künstliches neuronales Netz (12), insbesondere ein mehrschichtiges künstliches neuronales Netz (12), ist; und/oder

wobei der wenigstens eine Parameter des Maschinen-Lern-Systems (10) ein Gewicht eines Knotenpunktes eines künstlichen neuronalen Netzes (12) ist.

13. Verwendung wenigstens einer zumindest teilweise synthetisch generierten Tiefenkarte (16a) in Kombination mit Bilddaten (14) zum Anlernen und/oder Trainieren eines Maschinen-Lern-Systems (10).

14. Verfahren zum Betreiben eines Maschinen-Lern-Systems (10) für ein Kraftfahrzeug,

wobei das Maschinen-Lern-System (10) durch ein Verfahren gemäß einem der Ansprüche 1 bis 12 angelernt ist.

15. Maschinen-Lern-System (10) zur Erkennung von Objekten für ein

Kraftfahrzeug,