DE102018114231A1

DE102018114231A1 - Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI)

Info

Publication number: DE102018114231A1
Application number: DE102018114231.5A
Authority: DE
Inventors: Ganesh Sistu; Senthil Kumar Yogamani; Sunil Chandra
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2019-12-19

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), und eines künstlichen neuronalen Netzwerksystems (26). Das künstliche neuronale Netzwerksystem (26) weist künstliche neuronale Netzwerke (30, 32) auf, wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk (30) ist, das die Objekte (16) von bereits gelernten Objektklassen erfasst, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk (32) ist, das Objekte (18) von Objektklassen erfasst, die von den bereits gelernten Objektklassen verschieden sind.Die Erfindung betrifft ferner ein entsprechendes Computerprogrammprodukt, ein entsprechendes künstliches neuronales Netzwerksystem (26) und ein entsprechendes Fahrerassistenzsystem (24) mit einem derartigen künstlichen neuronalen Netzwerksystem (26).

Description

Die Erfindung betrifft ein Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI: region of interest), insbesondere eines Bereichs von Interesse in der Umgebung eines Fahrzeugs, und eines künstlichen neuronalen Netzwerksystems.
Die Erfindung betrifft ferner ein entsprechendes Computerprogrammprodukt, ein entsprechendes künstliches neuronales Netzwerksystem und ein Fahrerassistenzsystem (Advanced Driver Assistance System, ADAS) mit dem entsprechenden künstlichen neuronalen Netzwerksystem.
Das künstliche neuronale Netzwerksystem herkömmlicher Erfassungssysteme (manchmal als Erkennungssysteme bezeichnet) weist mindestens ein künstliches neuronales Netzwerk, z.B. ein tief lernendes (engl.: deep learning) neuronales Netzwerk, auf, wobei das Netzwerk ein trainiertes neuronales Netzwerk ist, das Objekte bereits gelernter Objektklassen erfasst. Die herkömmlichen Erfassungssysteme verwenden Lernalgorithmen, die während der Entwicklung offline trainiert werden, und sobald sie in einem Fahrzeug, z.B. in einem Auto, eingesetzt werden, ist es statisch und entwickelt sich nicht weiter. Mit anderen Worten: die herkömmlichen auf tiefem Lernen basierenden Architekturen für ADAS- (Advanced Driver Assistance Systems) Anwendungen beinhalten die folgenden Schritte:

Trainieren eines tiefen neuronalen Netzwerkalgorithmus an Hunderten von Klassen zum Lernen der visuellen Darstellungen der Objekte (oder Entitäten), die in Vision Systemen (engl. vision systems) sehr häufig auftreten. Die häufigsten Objekte sind Fahrzeuge, Straßen, Hinweistafeln, Fußgänger und Vegetation, usw.

Einsetzen des Netzwerks in einem ECU-System des Fahrzeugs, um es dem Computer-Vision-System zu ermöglichen, die Bedingungen der realen Welt in der Umgebung des Fahrzeugs zu verstehen und richtige Entscheidungen für Anwendungen mit hohem Automatisierungsgrad, wie automatisiertes Parken und autonomes Fahren usw., zu treffen.
Das grundlegende Problem bei einem derartigen Ansatz ist die Unfähigkeit des Computer-Vision-Netzwerks (des tief lernenden Modells), die nicht trainierten Klassen von Objekten in Echtzeit zu identifizieren. In der Praxis ist es unmöglich, alle Objekte abzudecken, bevor es eingesetzt wird, insbesondere angesichts der langen Lebensdauer des Fahrzeugs. Man stelle sich ein Netzwerk vor, das bezüglich allen möglichen Modellen von Autos trainiert ist, die in letzter Zeit verfügbar sind, und während des Echtzeittests erscheint ein Auto eines älteren Modells auf der Straße. In Situationen wie diesen besteht eine Wahrscheinlichkeit dafür, dass das Netzwerk ein zufälliges falsches Ergebnis erzeugt und auf der Ebene des Computer-Vision-Systems einen Fehler verursacht. Hinsichtlich des maschinellen Lernens kann das Problem als die Unfähigkeit der Hyperebene dargestellt werden, die klassenabhängige Wahrscheinlichkeit zu bestimmen. In diesem Bereich werden umfangreiche Forschungsarbeiten durchgeführt, um Möglichkeiten zu nutzen, den vortrainierten Klassifikator optimal an Online-Daten anzupassen. Ein weiterer zu erwähnender wichtiger Punkt ist, dass die meisten erfolgreichen Deep-Learning-Netzwerke überwachte Lernalgorithmen sind. Dies bedeutet, dass sie vollständig oder teilweise annotierte Daten für die Anpassung an die Online-Daten benötigen. Dies macht das Problem des Online-Lernens von Entitäten unbekannter Klassen noch größer, da Online-Daten vor dem Lernprozess annotiert werden müssen. Dies führt zu einem erheblichen Kostenaufwand, da es die Datensammlung von allen Fahrzeugen, eine Annotation von Daten durch trainierte Annotatoren und das erneute Training der Deep-Learning-Algorithmen zur Anpassung an die Online-Daten beinhaltet.
Der Erfindung liegt die Aufgabe zugrunde, ein entsprechendes verbessertes Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse und eines künstlichen neuronalen Netzwerksystems, ein entsprechendes verbessertes Computerprogrammprodukt, ein entsprechendes verbessertes künstliches neuronales Netzwerksystem und ein entsprechendes verbessertes Fahrerassistenzsystem anzugeben.
Die Lösung dieser Aufgabe erfolgt durch ein Verfahren, ein Computerprogrammprodukt sowie ein entsprechendes künstliches neuronales Netzwerksystem und ein Fahrerassistenzsystem mit den Merkmalen der jeweiligen unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche, der Beschreibung und der Figuren.
Gemäß dem erfindungsgemäßen Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse und eines künstlichen neuronalen Netzwerksystems weist dieses künstliche neuronale Netzwerksystem künstliche neuronale Netzwerke auf, wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk zum Erfassen der Objekte bereits gelernter Objektklassen („gelernte Objekte“) ist, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk zum Erfassen der Objekte von Objektklassen ist, die von den bereits gelernten Objektklassen verschieden sind („ungelernte Objekte“ oder „Objekte ungelernter Objektklassen“). Das künstliche neuronale Netzwerksystem kann als ein Computersystem definiert sein, das die künstlichen neuronalen Netzwerke bereitstellt.
Die Hauptvorteile sind: Die Fähigkeit, die Objekte/Entitäten ungelernter Objektklassen über die Zeit zu lernen, und die Fähigkeit, Objekte/Entitäten ungelernter Objektklassen auf eine nicht überwachte Weise zu lernen.
Gemäß einer bevorzugten Ausführungsform der Erfindung ist das künstliche neuronale Netzwerksystem ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem. Vorzugsweise weist das Verfahren die folgenden Schritte auf:

(i) Bereitstellen des mindestens einen Bildes;
(ii) Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die unter Verwendung eines Codierers vom Bild extrahiert werden; und
(iii) Übertragen der Merkmalsinformation an einen Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks und an einen Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks, wobei der Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks auch Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks erhält.

Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung extrahiert jeder der Decodierer anwendungsspezifische Information von den Merkmalskarten, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, und wobei
der entsprechende Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung semantisch segmentiert ist, und/oder
der entsprechende Decodierer die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und vorhersagt, falls die Anwendung eine Objektlokalisierung ist.
Gemäß einer anderen bevorzugten Ausführungsform der Erfindung führt das künstliche neuronale Netzwerksystem ferner sekundäre Arbeiten, insbesondere eine Clusterbildung von Merkmalen und/oder ein erneutes Training für Objekte der Objektklassen aus, die von den bereits gelernten Objektklassen verschieden sind.
Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung wird das adaptive lernende künstliche neuronale Netzwerk durch ein Computernetzwerk bereitgestellt, insbesondere durch das Internet. Im Folgenden wird diese Art eines lernenden künstlichen neuronalen Netzwerks auch als „online-adaptives lernendes künstliches neuronales Netzwerk“ bezeichnet.
Gemäß einer noch anderen bevorzugten Ausführungsform der Erfindung ist das trainierte künstliche neuronale Netzwerk ein lokal bereitgestelltes künstliches neuronales Netzwerk, das insbesondere im Fahrzeug angeordnet ist. Im Folgenden wird ein derartiges trainiertes künstliches neuronales Netzwerk manchmal als „offline-trainiertes künstliches neuronales Netzwerk“ bezeichnet.
Das erfindungsgemäße Computerprogrammprodukt weist computerausführbare Programmcodeabschnitte mit Programmcodeanweisungen auf, die dafür konfiguriert sind, das vorstehend erwähnte Verfahren auszuführen.
Gemäß dem erfindungsgemäßen künstlichen neuronalen Netzwerksystem zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI), insbesondere eines Bereichs von Interesse in der Umgebung eines Fahrzeugs, weist das künstliche neuronale Netzwerksystem künstliche neuronale Netzwerke auf. Eines der künstlichen neuronalen Netzwerke ist ein trainiertes künstliches neuronales Netzwerk zum Erfassen der Objekte bereits gelernter Objektklassen („gelernte Objekte“), und ein anderes der künstlichen neuronalen Netzwerke ist ein adaptives lernendes künstliches neuronales Netzwerk zum Erfassen der Objekte von Objektklassen, die von den bereits gelernten Objektklassen verschieden sind („ungelernte Objekte“ oder „Objekte ungelernter Objektklassen“).
Gemäß einer bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems ist das künstliche neuronale Netzwerksystem ein Codier-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (CNN-System) mit einem Codierer und Erfassungsdecodierern. Vorzugsweise ist dieses Codierer-Decodierer-basierte CNN-System zum Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die vom Bild unter Verwendung des Codierers extrahiert werden, und zum Übertragen der Merkmalsinformation an den Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks und an den Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks geeignet. Der Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks ist mit dem Ausgang des Erfassungsdecodierers des trainierten künstlichen neuronalen Netzwerks verbunden, um Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks zu erhalten.
Gemäß einer weiteren bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems ist jeder der Decodierer dafür eingerichtet, anwendungsspezifische Information von den Merkmalskarten zu extrahieren, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, wobei der entsprechende Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung eine semantische Segmentierung ist, und/oder
der entsprechende Decodierer die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und voraussagt, falls die Anwendung eine Objektlokalisierung ist.
Gemäß einer weiteren bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems weist das künstliche neuronale Netzwerksystem ein Modul für sekundäre Arbeiten auf, insbesondere zur Clusterbildung von Merkmalen und/oder zum erneuten Training für Objekte der Objektklassen, die von den bereits gelernten Objektklassen verschieden sind.
Gemäß dem erfindungsgemäßen Fahrerassistenzsystem (ADAS) weist das System zumindest Teile eines zuvor erwähnten künstlichen neuronalen Netzwerksystems auf.
Weitere Merkmale der Erfindung werden aus den Ansprüchen, der Figur und der Figurenbeschreibung ersichtlich. Alle vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachstehend in der Figurenbeschreibung und/oder nur in der Figur dargestellten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder auch eigenständig anwendbar.
Die Erfindung wird nun anhand einer bevorzugten Ausführungsform sowie unter Bezug auf die beigefügten Zeichnungen näher erläutert.
Es zeigen:

1 eine Draufsicht einer Straßenszene mit einem Fahrzeug auf einer Straße unter Verwendung eines ADAS-Systems gemäß einer bevorzugten Ausführungsform der Erfindung; und
2 eine schematische Darstellung eines künstlichen neuronalen Netzwerksystems.

1 zeigt eine Draufsicht einer Straßenszene 10 mit einer Straße 12, einem Fahrzeug 14 auf der Straße 12 und Objekten 16, 18 am Straßenrand. Das Fahrzeug 14 weist einen bildgebenden Sensor 20, vorzugsweise eine Kamera eines Kamerasystems, mit einem Sichtwinkel auf, der den Bereich von Interesse (ROI) 22 bestimmt. In dem in 1 dargestellten Beispiel befindet sich der bildgebende Sensor 20 an der Vorderseite des Fahrzeug 14 und hat eine Vorwärtsblickrichtung. Das Fahrzeug 14 weist ferner ein Fahrerassistenzsystem 24 (im Folgenden ADAS-System genannt- ADAS: Advanced Driver Assistance System) auf, das Komponenten eines künstlichen neuronalen Netzwerksystems 26 zum Erfassen der Objekte 16, 18 unter Verwendung von durch den bildgebenden Sensor 20 aufgenommenen Bildern 28 aufweist. Mit anderen Worten: die Bilder 28 sind Bilder des Bereichs von Interesse (ROI) 22 in der Umgebung eines Fahrzeugs 14. Das künstliche neuronale Netzwerksystem 26 weist künstliche neuronale Netzwerke auf, nämlich ein trainiertes künstliches neuronales Netzwerk 30, das mit dem ADAS-System 24 verbunden oder Teil des ADAS-Systems ist, und ein adaptives lernendes künstliches neuronales Netzwerk 32, das sich im Internet oder in einem anderen Computernetzwerksystem 34 befindet. Im Betrieb sind das ADAS-System 24 und das trainierte künstliche neuronale Netzwerk 30 mit dem Computernetzwerksystem 34 verbunden (Doppelpfeil). Das trainierte künstliche neuronale Netzwerk 30 wird trainiert, um ein Objekt trainierter Objektklassen, z.B. Hinweisschilder, zu erfassen/zu erkennen.
1 zeigt ferner eines der Bilder 28, die durch den bildgebenden Sensor 20 aufgenommen werden. Das Bild zeigt den Bereich von Interesse (ROI) 22 der Straßenszene 10 aus der Perspektive des Sensors. Die im Bild 28 dargestellten Bildkomponenten sind die Straße 12 und die Objekte 16, 18 am Straßenrand. Eines der Objekte 16, das Hinweisschild auf der rechten Seite, ist ein Objekt 16 einer trainierten Objektklasse. Das andere Objekt 18, das durch ein Kreuzsymbol dargestellt ist, ist ein Objekt einer nicht trainierten Klasse (manchmal als „unbekanntes Objekt“ bezeichnet). Dies bedeutet, dass das trainierte künstliche neuronale Netzwerk 30 nicht in der Lage ist, dieses Objekt 18 eindeutig zu erfassen/zu erkennen.
2 zeigt eine schematische Darstellung des künstlichen neuronalen Netzwerksystems 26. Das in 2 dargestellte künstliche neuronale Netzwerksystem 26 ist ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (CNN-System - CNN: Convolution Neural Network) 36.
Die Bildinformation des Bildes 28 wird im CNN-System 36 auf die folgende Weise verarbeitet: Merkmalsinformation von Merkmalen, die vom Bild 28 extrahiert werden, werden einem Codierer 38 des CNN-Systems 36 zugeführt, wobei der Codierer seinerseits eine Merkmalskarte von Merkmalsinformation von Merkmalen erstellt, die vom Bild 28 extrahiert werden. Die Merkmalsinformation wird anschließend an einen CNN-Erfassungsdecodierer 40 des trainierten künstlichen neuronalen Netzwerks 30 sowie einen CNN-Erfassungsdecodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 übertragen. Der Erfassungsdecodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 erhält außerdem Information über die Erfassungsergebnisse vom Erfassungsdecodierer 40 des trainierten künstlichen neuronalen Netzwerks 30, insbesondere Information darüber, welche Objekte 16, 18 durch das trainierte künstliche neuronale Netzwerk 30 nicht erfasst werden konnten.
In Abhängigkeit von der Anwendung des CNN-Systems 36 stellt die Ausgabe 42, 46 jedes Erfassungsdecodierers 40, 42 eine Zuordnung von Objekten zu Objektklassen 42.1, 46.1, Daten über einen Begrenzungsrahmen 42.2, 46.2 oder eine Objekterkennung 42.3, 46.3 dar. Die Ausgabe des Erfassungsdecodierers 40 des trainierten künstlichen neuronalen Netzwerks 30 steht mit den Objekten 16 bereits gelernter Objektklassen in Beziehung. Die Ausgabe des Erfassungsdecodierers 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 steht mit Objekten 18 von Objektklassen in Beziehung, die von den bereits gelernten Objektklassen verschieden sind.
Des Weiteren weist das CNN-System 36 ein Modul 48 für sekundäre Arbeiten, insbesondere zur Clusterbildung von Merkmalen und/oder zum erneuten Trainieren für Objekte der Objektklassen auf, die von den bereits gelernten Objektklassen verschieden sind (Blöcke „dichter optischer Fluss“ 50, „Erfassung beweglicher Objekte“ 52 und „Clusterbildung“ 54).
Im Folgenden werden die Erfindung und die Vorteile der Erfindung mit anderen Worten beschrieben:

Die Erfindung beschreibt ein neuartiges System und eine Methodologie zum Erkennen unbekannter Objekte (Entitäten) 18 durch online-adaptives Lernen künstlicher neuronaler Netzwerke 30, 32, insbesondere tiefer neuronaler Netzwerke. In jüngster Zeit haben die auf tiefem Lernen (engl.: deep learning) basierenden Methodologien in ADAS-Anwendungen Leistungsfähigkeiten auf dem Niveau menschlicher Intelligenz gezeigt, insbesondere z.B. bei der Objekterkennung, der semantischen Segmentierung und dem End-to-End-Fahren. Deep-Learning-Architekturen, die auf konvolutionellen neuronalen Netzwerken (CNN) und rekurrenten neuronalen Netzwerken (RNN) basieren, haben das Konzept des autonomen Parkens and Fahrens Wirklichkeit werden lassen.

Die herkömmlichen, auf tiefem Lernen basierenden Architekturen für ADAS-Anwendungen beinhalten die folgenden Schritte:

1. Trainieren eines tiefen neuronalen Netzwerkalgorithmus bezüglich Hunderten von Klassen, um die visuellen Darstellungen der Entitäten zu lernen, die in Vision Systemen sehr häufig auftreten. Die häufigsten Entitäten sind Fahrzeuge, Straßen, Hinweistafeln, Fußgänger und Vegetation usw.
2. Einsetzen des Netzwerks in einem ECU-System des Fahrzeugs 14, um es dem Computer-Vision-System zu ermöglichen, die Bedingungen der realen Welt um das Fahrzeug 14 herum zu verstehen und richtige Entscheidungen für Anwendungen mit hohem Automatisierungsgrad, wie automatisches Parken und autonomes Fahren usw. zu treffen.

Das grundlegende Problem bei einem derartigen Ansatz ist die Unfähigkeit des Computer-Vision-Netzwerks (des tief lernenden Modells), die nicht trainierten Klassen von Objekten in Echtzeit zu identifizieren. In der Praxis ist es unmöglich, alle Objekte 16, 18 abzudecken, bevor das Netzwerk eingesetzt wird, insbesondere angesichts der langen Lebensdauer des Fahrzeugs. Man stelle sich ein Netzwerk vor, das bezüglich allen möglichen Modellen von Autos trainiert ist, die in letzter Zeit verfügbar sind, und während des Echtzeittests erscheint ein Auto eines älteren Modells auf der Straße. In Situationen wie diesen besteht eine Wahrscheinlichkeit dafür, dass das Netzwerk ein zufälliges falsches Ergebnis erzeugt und auf der Ebene des Computer Vision Systems einen Fehler verursacht. Hinsichtlich des maschinellen Lernens kann das Problem als die Unfähigkeit der Hyperebene dargestellt werden, die klassenabhängige Wahrscheinlichkeit zu bestimmen. In diesem Bereich werden umfangreiche Forschungsarbeiten durchgeführt, um die Möglichkeiten zu nutzen, den vortrainierten Klassifikator optimal an die Online-Daten anzupassen. Ein weiteres zu erwähnendes wichtiges Problem ist, dass die meisten erfolgreichen Deep-Learning-Netzwerke überwachte Lernalgorithmen sind. Dies bedeutet, dass sie vollständig oder teilweise annotierte Daten für die Anpassung an die Online-Daten benötigen. Dies macht das Problem des Online-Lernens von Entitäten unbekannter Klassen noch größer, da Online-Daten vor dem Lernprozess annotiert werden müssen. Dies führt zu einem erheblichen Kostenaufwand, da es die Datensammlung von allen Fahrzeugen, eine Annotation von Daten durch trainierte Annotatoren und das erneute Training der Deep-Learning-Algorithmen für eine Anpassung an die Online-Daten beinhaltet.
Die Erfindung verwendet eine neue Architektur, die auf der Fusion mehrerer tiefer konvolutioneller neuronaler Netzwerke basiert, um das Wissen über unbekannte Entitäten auf eine unüberwachte Weise einzuschließen.
Die vorgeschlagene Netzwerkarchitektur befasst sich mit zwei ernsthaften Problemen von Computer-Vision-basierten autonomen Park- und Fahrsystemen:

1. Die Fähigkeit, die unbekannten Objekte/Entitäten 18 über die Zeit zu lernen, und
2. die Fähigkeit, die unbekannten Objekte/Entitäten 18 auf eine nicht überwachte Weise zu lernen.

Vorgeschlagene Architektur:

Der CNN-Codierer 38 ist ein Codierer, der allgemeine visuelle Merkmale von den Bildern 28 extrahiert. Diese Merkmale können für Erfassungs-, Erkennungs- und Segmentierungsanwendungen verwendet werden, in einem einfachen Sinn wandelt der CNN-Codierer 38 die komplexen hochdimensionalen Bilder 28 in mehrere Sätze von Merkmalen in kleineren Dimensionen um. Herkömmlicherweise werden diese Merkmale als Merkmalskarten (engl. feature maps) bezeichnet.

Die CNN-Decodierer 40, 44 extrahieren die anwendungsspezifische Information von den Merkmalskarten. Wenn die Anwendung eine semantische Segmentierung ist, verstehen die Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene und geben die Segmentierungskarten auf Pixelebene aus. Wenn die Anwendung eine Objektlokalisierung ist, lernt der Decodierer die Begrenzungsrahmen um jede vortrainierte Objektklasse herum und sagt diese voraus.
In der vorgeschlagenen Architektur lernt der Decodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 (Online-Decodierer) die visuellen Darstellungen von Fehlerfällen des Decodierers 40 des trainierten künstlichen neuronalen Netzwerks 30 (Offline-Decodierer) über wöchentlich gelabelte Daten (Begrenzungsrahmen und Klassenzahl) aus optischen Fluss- und Clusterbildungsalgorithmen. Die Online-Klassen stellen möglicherweise nicht die visuell auffälligen herkömmlichen Klassen dar, weil die herkömmlichen Klassen basierend auf dem menschlichen Verständnis der Entitäten in der realen Welt klassifiziert werden und die Online-Klassen basierend auf Merkmalsverteilungen und der Fähigkeit eines Clusterbildungsalgorithmus klassifiziert werden.
Während der Einsatzzeit erfasst der Offline-Detektor 40 die vortrainierte Klasse von Objekten/Entitäten 16 wie üblich, und der Online-Detektor 44 warnt den Endnutzer vor den unbekannten Objekten/Entitäten 18 in der Nähe des Fahrzeugs 14. Durch eine Eingabe des Benutzers können die Warnungen unterdrückt werden, und das Netzwerk lernt im Laufe der Zeit, dass eine Unterklasse von Online-Klassen-Entitäten für bestimmte Anwendungen ungefährlich ist.
Der vorgeschlagene Algorithmus benötigt zusätzliche Rechenleistung für die Clusterbildung und das erneute Training für andere Objekte 18. Daher wird ein effizientes Schema vorgeschlagen, bei dem die bereits trainierten Codierer erneut verwendet werden und ein Nebendecodierer erneut trainiert wird, wobei nur diese Schichten fein abgestimmt werden. Außerdem wird eine inkrementelle Lernmethodologie vorgeschlagen, bei der längere Leerlaufzeiten von Autos genutzt werden können. Die vorgeschlagene Architektur beruht auf der Verwendung von Bewegungshinweisen zum Bereitstellen der Objektannotation. Andere Hinweise von anderen Sensoren wie Lidar, Radar, und andere Hinweise wie Tiefe, HD-Karten, können ebenfalls genutzt werden.
Bezugszeichenliste

Straßenszene	10
Straße	12
Fahrzeug	14
Objekt, trainierte Klasse	16
Objekt, untrainierte Klasse	18
bildgebender Sensor	20
Bereich von Interesse (ROI)	22
Fahrerassistenzsystem (ADAS-System)	24
künstliches neuronales Netzwerksystem	26
Bild	28
trainiertes künstliches neuronales Netzwerk	30
adaptives lernendes künstliches neuronales Netz	32
Com putern etzwerksystem	34
Codierer-Decodierer-basiertes CNN-System	36
Codierer	38
Decodierer (trainiertes künstliches neuronales Netzwerk)	40
Ausgabe (Decodierer)	42
Decodierer (adaptives lernendes künstliches neuronales Netzwerk)	44
Ausgabe (Decodierer)	46
zusätzliches Modul (künstliches neuronales Netzwerksystem)	48
Blöcke (Modul)	50 - 52

Claims

Verfahren zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), und eines künstlichen neuronalen Netzwerksystems (26) mit künstlichen neuronalen Netzwerken (30, 32), wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk (30) ist, das die Objekte (16) bereits gelernter Objektklassen erfasst, und ein anderes der künstlichen neuronalen Netzwerke ein adaptiv lernendes künstliches neuronales Netzwerk (32) ist, das Objekte (18) von Objektklassen erfasst, die von den bereits gelernten Objektklassen verschieden sind.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das künstliche neuronale Netzwerksystem (26) ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (36) ist, wobei das Verfahren die folgenden Schritte aufweist: Bereitstellen des mindestens einen Bildes (28); Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die unter Verwendung eines Codierers (38) vom Bild (28) extrahiert werden; und Übertragen der Merkmalsinformation an einen Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und einen Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32), Übertragen der Merkmalsinformation an einen Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und einen Erfassungsdecodierer (44) des adaptiv lernenden künstlichen neuronalen Netzwerks (32), wobei der Erfassungsdecodierer (44) des adaptiv lernenden künstlichen neuronalen Netzwerks (32) auch Information über die Erfassungsergebnisse vom Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) erhält.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass jeder der Decodierer (40, 44) anwendungsspezifische Information von den Merkmalskarten extrahiert, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, wobei der entsprechende Decodierer (40, 44) die räumlichen Beziehungen zwischen den Objektklassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung semantische Segmentierung ist und/oder der entsprechende Decodierer (40, 44) die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und vorhersagt, falls die Anwendung eine Objektlokalisierung ist.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das künstliche neuronale Netzwerksystem (26) ferner sekundäre Arbeiten ausführt, insbesondere eine Clusterbildung von Merkmalen und/oder ein erneutes Training für Objekte (18) der Objektklassen, die von den bereits gelernten Objektklassen verschieden sind.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das adaptive lernende künstliche neuronale Netzwerk (32) durch ein Computernetzwerksystem (34) bereitgestellt wird.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das trainierte künstliche neuronale Netzwerk (30) ein lokal bereitgestelltes künstliches neuronales Netzwerk ist, das insbesondere im Fahrzeug (14) angeordnet ist.
Computerprogrammprodukt mit computerausführbaren Programmcodeabschnitten, die Programmcodeanweisungen aufweisen, die dafür konfiguriert sind, das Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
Künstliches neuronales Netzwerksystem (26) zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), wobei das künstliche neuronale Netzwerksystem (26) künstliche neuronale Netzwerke (30, 32) aufweist, wobei eines der künstlichen neuronalen Netze ein trainiertes künstliches neuronales Netzwerk (30) zum Erfassen der Objekte (16) bereits gelernter Objektklassen ist, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk (32) zum Erfassen der Objekte (18) von Objektklassen ist, die von den bereits gelernten Objektklassen verschieden sind.
Künstliches neuronales Netzwerksystem nach Anspruch 8, wobei das künstliche neuronale Netzwerksystem (26) ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (36) mit einem Codierer (38) und Erfassungsdecodierern (40, 44) ist und dafür eingerichtet ist eine Merkmalskarte von Merkmalsinformation von Merkmalen zu erzeugen, die von dem Bild (26) unter Verwendung des Codierers (38) extrahiert werden; und die Merkmalsinformation an den Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und an den Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32) zu übertragen, wobei der Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32) mit dem Ausgang des Erfassungsdecodierers (40) des trainierten künstlichen neuronalen Netzwerks (30) verbunden ist, um Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks (30) zu erhalten.
Fahrerassistenzsystem, welches zumindest Teile (30) eines künstlichen neuronalen Netzwerksystems (26) nach Anspruch 8 oder 9 aufweist.