DE102018114231A1 - Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI) - Google Patents

Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI) Download PDF

Info

Publication number
DE102018114231A1
DE102018114231A1 DE102018114231.5A DE102018114231A DE102018114231A1 DE 102018114231 A1 DE102018114231 A1 DE 102018114231A1 DE 102018114231 A DE102018114231 A DE 102018114231A DE 102018114231 A1 DE102018114231 A1 DE 102018114231A1
Authority
DE
Germany
Prior art keywords
artificial neural
neural network
decoder
objects
network system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018114231.5A
Other languages
English (en)
Inventor
Ganesh Sistu
Senthil Kumar Yogamani
Sunil Chandra
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Connaught Electronics Ltd
Original Assignee
Connaught Electronics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Connaught Electronics Ltd filed Critical Connaught Electronics Ltd
Priority to DE102018114231.5A priority Critical patent/DE102018114231A1/de
Publication of DE102018114231A1 publication Critical patent/DE102018114231A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), und eines künstlichen neuronalen Netzwerksystems (26). Das künstliche neuronale Netzwerksystem (26) weist künstliche neuronale Netzwerke (30, 32) auf, wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk (30) ist, das die Objekte (16) von bereits gelernten Objektklassen erfasst, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk (32) ist, das Objekte (18) von Objektklassen erfasst, die von den bereits gelernten Objektklassen verschieden sind.Die Erfindung betrifft ferner ein entsprechendes Computerprogrammprodukt, ein entsprechendes künstliches neuronales Netzwerksystem (26) und ein entsprechendes Fahrerassistenzsystem (24) mit einem derartigen künstlichen neuronalen Netzwerksystem (26).

Description

  • Die Erfindung betrifft ein Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI: region of interest), insbesondere eines Bereichs von Interesse in der Umgebung eines Fahrzeugs, und eines künstlichen neuronalen Netzwerksystems.
  • Die Erfindung betrifft ferner ein entsprechendes Computerprogrammprodukt, ein entsprechendes künstliches neuronales Netzwerksystem und ein Fahrerassistenzsystem (Advanced Driver Assistance System, ADAS) mit dem entsprechenden künstlichen neuronalen Netzwerksystem.
  • Das künstliche neuronale Netzwerksystem herkömmlicher Erfassungssysteme (manchmal als Erkennungssysteme bezeichnet) weist mindestens ein künstliches neuronales Netzwerk, z.B. ein tief lernendes (engl.: deep learning) neuronales Netzwerk, auf, wobei das Netzwerk ein trainiertes neuronales Netzwerk ist, das Objekte bereits gelernter Objektklassen erfasst. Die herkömmlichen Erfassungssysteme verwenden Lernalgorithmen, die während der Entwicklung offline trainiert werden, und sobald sie in einem Fahrzeug, z.B. in einem Auto, eingesetzt werden, ist es statisch und entwickelt sich nicht weiter. Mit anderen Worten: die herkömmlichen auf tiefem Lernen basierenden Architekturen für ADAS- (Advanced Driver Assistance Systems) Anwendungen beinhalten die folgenden Schritte:
    • Trainieren eines tiefen neuronalen Netzwerkalgorithmus an Hunderten von Klassen zum Lernen der visuellen Darstellungen der Objekte (oder Entitäten), die in Vision Systemen (engl. vision systems) sehr häufig auftreten. Die häufigsten Objekte sind Fahrzeuge, Straßen, Hinweistafeln, Fußgänger und Vegetation, usw.
  • Einsetzen des Netzwerks in einem ECU-System des Fahrzeugs, um es dem Computer-Vision-System zu ermöglichen, die Bedingungen der realen Welt in der Umgebung des Fahrzeugs zu verstehen und richtige Entscheidungen für Anwendungen mit hohem Automatisierungsgrad, wie automatisiertes Parken und autonomes Fahren usw., zu treffen.
  • Das grundlegende Problem bei einem derartigen Ansatz ist die Unfähigkeit des Computer-Vision-Netzwerks (des tief lernenden Modells), die nicht trainierten Klassen von Objekten in Echtzeit zu identifizieren. In der Praxis ist es unmöglich, alle Objekte abzudecken, bevor es eingesetzt wird, insbesondere angesichts der langen Lebensdauer des Fahrzeugs. Man stelle sich ein Netzwerk vor, das bezüglich allen möglichen Modellen von Autos trainiert ist, die in letzter Zeit verfügbar sind, und während des Echtzeittests erscheint ein Auto eines älteren Modells auf der Straße. In Situationen wie diesen besteht eine Wahrscheinlichkeit dafür, dass das Netzwerk ein zufälliges falsches Ergebnis erzeugt und auf der Ebene des Computer-Vision-Systems einen Fehler verursacht. Hinsichtlich des maschinellen Lernens kann das Problem als die Unfähigkeit der Hyperebene dargestellt werden, die klassenabhängige Wahrscheinlichkeit zu bestimmen. In diesem Bereich werden umfangreiche Forschungsarbeiten durchgeführt, um Möglichkeiten zu nutzen, den vortrainierten Klassifikator optimal an Online-Daten anzupassen. Ein weiterer zu erwähnender wichtiger Punkt ist, dass die meisten erfolgreichen Deep-Learning-Netzwerke überwachte Lernalgorithmen sind. Dies bedeutet, dass sie vollständig oder teilweise annotierte Daten für die Anpassung an die Online-Daten benötigen. Dies macht das Problem des Online-Lernens von Entitäten unbekannter Klassen noch größer, da Online-Daten vor dem Lernprozess annotiert werden müssen. Dies führt zu einem erheblichen Kostenaufwand, da es die Datensammlung von allen Fahrzeugen, eine Annotation von Daten durch trainierte Annotatoren und das erneute Training der Deep-Learning-Algorithmen zur Anpassung an die Online-Daten beinhaltet.
  • Der Erfindung liegt die Aufgabe zugrunde, ein entsprechendes verbessertes Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse und eines künstlichen neuronalen Netzwerksystems, ein entsprechendes verbessertes Computerprogrammprodukt, ein entsprechendes verbessertes künstliches neuronales Netzwerksystem und ein entsprechendes verbessertes Fahrerassistenzsystem anzugeben.
  • Die Lösung dieser Aufgabe erfolgt durch ein Verfahren, ein Computerprogrammprodukt sowie ein entsprechendes künstliches neuronales Netzwerksystem und ein Fahrerassistenzsystem mit den Merkmalen der jeweiligen unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche, der Beschreibung und der Figuren.
  • Gemäß dem erfindungsgemäßen Verfahren zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse und eines künstlichen neuronalen Netzwerksystems weist dieses künstliche neuronale Netzwerksystem künstliche neuronale Netzwerke auf, wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk zum Erfassen der Objekte bereits gelernter Objektklassen („gelernte Objekte“) ist, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk zum Erfassen der Objekte von Objektklassen ist, die von den bereits gelernten Objektklassen verschieden sind („ungelernte Objekte“ oder „Objekte ungelernter Objektklassen“). Das künstliche neuronale Netzwerksystem kann als ein Computersystem definiert sein, das die künstlichen neuronalen Netzwerke bereitstellt.
  • Die Hauptvorteile sind: Die Fähigkeit, die Objekte/Entitäten ungelernter Objektklassen über die Zeit zu lernen, und die Fähigkeit, Objekte/Entitäten ungelernter Objektklassen auf eine nicht überwachte Weise zu lernen.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung ist das künstliche neuronale Netzwerksystem ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem. Vorzugsweise weist das Verfahren die folgenden Schritte auf:
    1. (i) Bereitstellen des mindestens einen Bildes;
    2. (ii) Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die unter Verwendung eines Codierers vom Bild extrahiert werden; und
    3. (iii) Übertragen der Merkmalsinformation an einen Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks und an einen Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks, wobei der Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks auch Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks erhält.
  • Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung extrahiert jeder der Decodierer anwendungsspezifische Information von den Merkmalskarten, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, und wobei
    der entsprechende Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung semantisch segmentiert ist, und/oder
    der entsprechende Decodierer die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und vorhersagt, falls die Anwendung eine Objektlokalisierung ist.
  • Gemäß einer anderen bevorzugten Ausführungsform der Erfindung führt das künstliche neuronale Netzwerksystem ferner sekundäre Arbeiten, insbesondere eine Clusterbildung von Merkmalen und/oder ein erneutes Training für Objekte der Objektklassen aus, die von den bereits gelernten Objektklassen verschieden sind.
  • Gemäß einer weiteren bevorzugten Ausführungsform der Erfindung wird das adaptive lernende künstliche neuronale Netzwerk durch ein Computernetzwerk bereitgestellt, insbesondere durch das Internet. Im Folgenden wird diese Art eines lernenden künstlichen neuronalen Netzwerks auch als „online-adaptives lernendes künstliches neuronales Netzwerk“ bezeichnet.
  • Gemäß einer noch anderen bevorzugten Ausführungsform der Erfindung ist das trainierte künstliche neuronale Netzwerk ein lokal bereitgestelltes künstliches neuronales Netzwerk, das insbesondere im Fahrzeug angeordnet ist. Im Folgenden wird ein derartiges trainiertes künstliches neuronales Netzwerk manchmal als „offline-trainiertes künstliches neuronales Netzwerk“ bezeichnet.
  • Das erfindungsgemäße Computerprogrammprodukt weist computerausführbare Programmcodeabschnitte mit Programmcodeanweisungen auf, die dafür konfiguriert sind, das vorstehend erwähnte Verfahren auszuführen.
  • Gemäß dem erfindungsgemäßen künstlichen neuronalen Netzwerksystem zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI), insbesondere eines Bereichs von Interesse in der Umgebung eines Fahrzeugs, weist das künstliche neuronale Netzwerksystem künstliche neuronale Netzwerke auf. Eines der künstlichen neuronalen Netzwerke ist ein trainiertes künstliches neuronales Netzwerk zum Erfassen der Objekte bereits gelernter Objektklassen („gelernte Objekte“), und ein anderes der künstlichen neuronalen Netzwerke ist ein adaptives lernendes künstliches neuronales Netzwerk zum Erfassen der Objekte von Objektklassen, die von den bereits gelernten Objektklassen verschieden sind („ungelernte Objekte“ oder „Objekte ungelernter Objektklassen“).
  • Gemäß einer bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems ist das künstliche neuronale Netzwerksystem ein Codier-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (CNN-System) mit einem Codierer und Erfassungsdecodierern. Vorzugsweise ist dieses Codierer-Decodierer-basierte CNN-System zum Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die vom Bild unter Verwendung des Codierers extrahiert werden, und zum Übertragen der Merkmalsinformation an den Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks und an den Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks geeignet. Der Erfassungsdecodierer des adaptiven lernenden künstlichen neuronalen Netzwerks ist mit dem Ausgang des Erfassungsdecodierers des trainierten künstlichen neuronalen Netzwerks verbunden, um Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks zu erhalten.
  • Gemäß einer weiteren bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems ist jeder der Decodierer dafür eingerichtet, anwendungsspezifische Information von den Merkmalskarten zu extrahieren, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, wobei der entsprechende Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung eine semantische Segmentierung ist, und/oder
    der entsprechende Decodierer die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und voraussagt, falls die Anwendung eine Objektlokalisierung ist.
  • Gemäß einer weiteren bevorzugten Ausführungsform des künstlichen neuronalen Netzwerksystems weist das künstliche neuronale Netzwerksystem ein Modul für sekundäre Arbeiten auf, insbesondere zur Clusterbildung von Merkmalen und/oder zum erneuten Training für Objekte der Objektklassen, die von den bereits gelernten Objektklassen verschieden sind.
  • Gemäß dem erfindungsgemäßen Fahrerassistenzsystem (ADAS) weist das System zumindest Teile eines zuvor erwähnten künstlichen neuronalen Netzwerksystems auf.
  • Weitere Merkmale der Erfindung werden aus den Ansprüchen, der Figur und der Figurenbeschreibung ersichtlich. Alle vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachstehend in der Figurenbeschreibung und/oder nur in der Figur dargestellten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder auch eigenständig anwendbar.
  • Die Erfindung wird nun anhand einer bevorzugten Ausführungsform sowie unter Bezug auf die beigefügten Zeichnungen näher erläutert.
  • Es zeigen:
    • 1 eine Draufsicht einer Straßenszene mit einem Fahrzeug auf einer Straße unter Verwendung eines ADAS-Systems gemäß einer bevorzugten Ausführungsform der Erfindung; und
    • 2 eine schematische Darstellung eines künstlichen neuronalen Netzwerksystems.
  • 1 zeigt eine Draufsicht einer Straßenszene 10 mit einer Straße 12, einem Fahrzeug 14 auf der Straße 12 und Objekten 16, 18 am Straßenrand. Das Fahrzeug 14 weist einen bildgebenden Sensor 20, vorzugsweise eine Kamera eines Kamerasystems, mit einem Sichtwinkel auf, der den Bereich von Interesse (ROI) 22 bestimmt. In dem in 1 dargestellten Beispiel befindet sich der bildgebende Sensor 20 an der Vorderseite des Fahrzeug 14 und hat eine Vorwärtsblickrichtung. Das Fahrzeug 14 weist ferner ein Fahrerassistenzsystem 24 (im Folgenden ADAS-System genannt- ADAS: Advanced Driver Assistance System) auf, das Komponenten eines künstlichen neuronalen Netzwerksystems 26 zum Erfassen der Objekte 16, 18 unter Verwendung von durch den bildgebenden Sensor 20 aufgenommenen Bildern 28 aufweist. Mit anderen Worten: die Bilder 28 sind Bilder des Bereichs von Interesse (ROI) 22 in der Umgebung eines Fahrzeugs 14. Das künstliche neuronale Netzwerksystem 26 weist künstliche neuronale Netzwerke auf, nämlich ein trainiertes künstliches neuronales Netzwerk 30, das mit dem ADAS-System 24 verbunden oder Teil des ADAS-Systems ist, und ein adaptives lernendes künstliches neuronales Netzwerk 32, das sich im Internet oder in einem anderen Computernetzwerksystem 34 befindet. Im Betrieb sind das ADAS-System 24 und das trainierte künstliche neuronale Netzwerk 30 mit dem Computernetzwerksystem 34 verbunden (Doppelpfeil). Das trainierte künstliche neuronale Netzwerk 30 wird trainiert, um ein Objekt trainierter Objektklassen, z.B. Hinweisschilder, zu erfassen/zu erkennen.
  • 1 zeigt ferner eines der Bilder 28, die durch den bildgebenden Sensor 20 aufgenommen werden. Das Bild zeigt den Bereich von Interesse (ROI) 22 der Straßenszene 10 aus der Perspektive des Sensors. Die im Bild 28 dargestellten Bildkomponenten sind die Straße 12 und die Objekte 16, 18 am Straßenrand. Eines der Objekte 16, das Hinweisschild auf der rechten Seite, ist ein Objekt 16 einer trainierten Objektklasse. Das andere Objekt 18, das durch ein Kreuzsymbol dargestellt ist, ist ein Objekt einer nicht trainierten Klasse (manchmal als „unbekanntes Objekt“ bezeichnet). Dies bedeutet, dass das trainierte künstliche neuronale Netzwerk 30 nicht in der Lage ist, dieses Objekt 18 eindeutig zu erfassen/zu erkennen.
  • 2 zeigt eine schematische Darstellung des künstlichen neuronalen Netzwerksystems 26. Das in 2 dargestellte künstliche neuronale Netzwerksystem 26 ist ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (CNN-System - CNN: Convolution Neural Network) 36.
  • Die Bildinformation des Bildes 28 wird im CNN-System 36 auf die folgende Weise verarbeitet: Merkmalsinformation von Merkmalen, die vom Bild 28 extrahiert werden, werden einem Codierer 38 des CNN-Systems 36 zugeführt, wobei der Codierer seinerseits eine Merkmalskarte von Merkmalsinformation von Merkmalen erstellt, die vom Bild 28 extrahiert werden. Die Merkmalsinformation wird anschließend an einen CNN-Erfassungsdecodierer 40 des trainierten künstlichen neuronalen Netzwerks 30 sowie einen CNN-Erfassungsdecodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 übertragen. Der Erfassungsdecodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 erhält außerdem Information über die Erfassungsergebnisse vom Erfassungsdecodierer 40 des trainierten künstlichen neuronalen Netzwerks 30, insbesondere Information darüber, welche Objekte 16, 18 durch das trainierte künstliche neuronale Netzwerk 30 nicht erfasst werden konnten.
  • In Abhängigkeit von der Anwendung des CNN-Systems 36 stellt die Ausgabe 42, 46 jedes Erfassungsdecodierers 40, 42 eine Zuordnung von Objekten zu Objektklassen 42.1, 46.1, Daten über einen Begrenzungsrahmen 42.2, 46.2 oder eine Objekterkennung 42.3, 46.3 dar. Die Ausgabe des Erfassungsdecodierers 40 des trainierten künstlichen neuronalen Netzwerks 30 steht mit den Objekten 16 bereits gelernter Objektklassen in Beziehung. Die Ausgabe des Erfassungsdecodierers 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 steht mit Objekten 18 von Objektklassen in Beziehung, die von den bereits gelernten Objektklassen verschieden sind.
  • Des Weiteren weist das CNN-System 36 ein Modul 48 für sekundäre Arbeiten, insbesondere zur Clusterbildung von Merkmalen und/oder zum erneuten Trainieren für Objekte der Objektklassen auf, die von den bereits gelernten Objektklassen verschieden sind (Blöcke „dichter optischer Fluss“ 50, „Erfassung beweglicher Objekte“ 52 und „Clusterbildung“ 54).
  • Im Folgenden werden die Erfindung und die Vorteile der Erfindung mit anderen Worten beschrieben:
    • Die Erfindung beschreibt ein neuartiges System und eine Methodologie zum Erkennen unbekannter Objekte (Entitäten) 18 durch online-adaptives Lernen künstlicher neuronaler Netzwerke 30, 32, insbesondere tiefer neuronaler Netzwerke. In jüngster Zeit haben die auf tiefem Lernen (engl.: deep learning) basierenden Methodologien in ADAS-Anwendungen Leistungsfähigkeiten auf dem Niveau menschlicher Intelligenz gezeigt, insbesondere z.B. bei der Objekterkennung, der semantischen Segmentierung und dem End-to-End-Fahren. Deep-Learning-Architekturen, die auf konvolutionellen neuronalen Netzwerken (CNN) und rekurrenten neuronalen Netzwerken (RNN) basieren, haben das Konzept des autonomen Parkens and Fahrens Wirklichkeit werden lassen.
  • Die herkömmlichen, auf tiefem Lernen basierenden Architekturen für ADAS-Anwendungen beinhalten die folgenden Schritte:
    1. 1. Trainieren eines tiefen neuronalen Netzwerkalgorithmus bezüglich Hunderten von Klassen, um die visuellen Darstellungen der Entitäten zu lernen, die in Vision Systemen sehr häufig auftreten. Die häufigsten Entitäten sind Fahrzeuge, Straßen, Hinweistafeln, Fußgänger und Vegetation usw.
    2. 2. Einsetzen des Netzwerks in einem ECU-System des Fahrzeugs 14, um es dem Computer-Vision-System zu ermöglichen, die Bedingungen der realen Welt um das Fahrzeug 14 herum zu verstehen und richtige Entscheidungen für Anwendungen mit hohem Automatisierungsgrad, wie automatisches Parken und autonomes Fahren usw. zu treffen.
  • Das grundlegende Problem bei einem derartigen Ansatz ist die Unfähigkeit des Computer-Vision-Netzwerks (des tief lernenden Modells), die nicht trainierten Klassen von Objekten in Echtzeit zu identifizieren. In der Praxis ist es unmöglich, alle Objekte 16, 18 abzudecken, bevor das Netzwerk eingesetzt wird, insbesondere angesichts der langen Lebensdauer des Fahrzeugs. Man stelle sich ein Netzwerk vor, das bezüglich allen möglichen Modellen von Autos trainiert ist, die in letzter Zeit verfügbar sind, und während des Echtzeittests erscheint ein Auto eines älteren Modells auf der Straße. In Situationen wie diesen besteht eine Wahrscheinlichkeit dafür, dass das Netzwerk ein zufälliges falsches Ergebnis erzeugt und auf der Ebene des Computer Vision Systems einen Fehler verursacht. Hinsichtlich des maschinellen Lernens kann das Problem als die Unfähigkeit der Hyperebene dargestellt werden, die klassenabhängige Wahrscheinlichkeit zu bestimmen. In diesem Bereich werden umfangreiche Forschungsarbeiten durchgeführt, um die Möglichkeiten zu nutzen, den vortrainierten Klassifikator optimal an die Online-Daten anzupassen. Ein weiteres zu erwähnendes wichtiges Problem ist, dass die meisten erfolgreichen Deep-Learning-Netzwerke überwachte Lernalgorithmen sind. Dies bedeutet, dass sie vollständig oder teilweise annotierte Daten für die Anpassung an die Online-Daten benötigen. Dies macht das Problem des Online-Lernens von Entitäten unbekannter Klassen noch größer, da Online-Daten vor dem Lernprozess annotiert werden müssen. Dies führt zu einem erheblichen Kostenaufwand, da es die Datensammlung von allen Fahrzeugen, eine Annotation von Daten durch trainierte Annotatoren und das erneute Training der Deep-Learning-Algorithmen für eine Anpassung an die Online-Daten beinhaltet.
  • Die Erfindung verwendet eine neue Architektur, die auf der Fusion mehrerer tiefer konvolutioneller neuronaler Netzwerke basiert, um das Wissen über unbekannte Entitäten auf eine unüberwachte Weise einzuschließen.
  • Die vorgeschlagene Netzwerkarchitektur befasst sich mit zwei ernsthaften Problemen von Computer-Vision-basierten autonomen Park- und Fahrsystemen:
    1. 1. Die Fähigkeit, die unbekannten Objekte/Entitäten 18 über die Zeit zu lernen, und
    2. 2. die Fähigkeit, die unbekannten Objekte/Entitäten 18 auf eine nicht überwachte Weise zu lernen.
  • Vorgeschlagene Architektur:
    • Der CNN-Codierer 38 ist ein Codierer, der allgemeine visuelle Merkmale von den Bildern 28 extrahiert. Diese Merkmale können für Erfassungs-, Erkennungs- und Segmentierungsanwendungen verwendet werden, in einem einfachen Sinn wandelt der CNN-Codierer 38 die komplexen hochdimensionalen Bilder 28 in mehrere Sätze von Merkmalen in kleineren Dimensionen um. Herkömmlicherweise werden diese Merkmale als Merkmalskarten (engl. feature maps) bezeichnet.
  • Die CNN-Decodierer 40, 44 extrahieren die anwendungsspezifische Information von den Merkmalskarten. Wenn die Anwendung eine semantische Segmentierung ist, verstehen die Decodierer die räumlichen Beziehungen zwischen den Klassen auf Pixelebene und geben die Segmentierungskarten auf Pixelebene aus. Wenn die Anwendung eine Objektlokalisierung ist, lernt der Decodierer die Begrenzungsrahmen um jede vortrainierte Objektklasse herum und sagt diese voraus.
  • In der vorgeschlagenen Architektur lernt der Decodierer 44 des adaptiven lernenden künstlichen neuronalen Netzwerks 32 (Online-Decodierer) die visuellen Darstellungen von Fehlerfällen des Decodierers 40 des trainierten künstlichen neuronalen Netzwerks 30 (Offline-Decodierer) über wöchentlich gelabelte Daten (Begrenzungsrahmen und Klassenzahl) aus optischen Fluss- und Clusterbildungsalgorithmen. Die Online-Klassen stellen möglicherweise nicht die visuell auffälligen herkömmlichen Klassen dar, weil die herkömmlichen Klassen basierend auf dem menschlichen Verständnis der Entitäten in der realen Welt klassifiziert werden und die Online-Klassen basierend auf Merkmalsverteilungen und der Fähigkeit eines Clusterbildungsalgorithmus klassifiziert werden.
  • Während der Einsatzzeit erfasst der Offline-Detektor 40 die vortrainierte Klasse von Objekten/Entitäten 16 wie üblich, und der Online-Detektor 44 warnt den Endnutzer vor den unbekannten Objekten/Entitäten 18 in der Nähe des Fahrzeugs 14. Durch eine Eingabe des Benutzers können die Warnungen unterdrückt werden, und das Netzwerk lernt im Laufe der Zeit, dass eine Unterklasse von Online-Klassen-Entitäten für bestimmte Anwendungen ungefährlich ist.
  • Der vorgeschlagene Algorithmus benötigt zusätzliche Rechenleistung für die Clusterbildung und das erneute Training für andere Objekte 18. Daher wird ein effizientes Schema vorgeschlagen, bei dem die bereits trainierten Codierer erneut verwendet werden und ein Nebendecodierer erneut trainiert wird, wobei nur diese Schichten fein abgestimmt werden. Außerdem wird eine inkrementelle Lernmethodologie vorgeschlagen, bei der längere Leerlaufzeiten von Autos genutzt werden können. Die vorgeschlagene Architektur beruht auf der Verwendung von Bewegungshinweisen zum Bereitstellen der Objektannotation. Andere Hinweise von anderen Sensoren wie Lidar, Radar, und andere Hinweise wie Tiefe, HD-Karten, können ebenfalls genutzt werden.
  • Bezugszeichenliste
  • Straßenszene 10
    Straße 12
    Fahrzeug 14
    Objekt, trainierte Klasse 16
    Objekt, untrainierte Klasse 18
    bildgebender Sensor 20
    Bereich von Interesse (ROI) 22
    Fahrerassistenzsystem (ADAS-System) 24
    künstliches neuronales Netzwerksystem 26
    Bild 28
    trainiertes künstliches neuronales Netzwerk 30
    adaptives lernendes künstliches neuronales Netz 32
    Com putern etzwerksystem 34
    Codierer-Decodierer-basiertes CNN-System 36
    Codierer 38
    Decodierer (trainiertes künstliches neuronales Netzwerk) 40
    Ausgabe (Decodierer) 42
    Decodierer (adaptives lernendes künstliches neuronales Netzwerk) 44
    Ausgabe (Decodierer) 46
    zusätzliches Modul (künstliches neuronales Netzwerksystem) 48
    Blöcke (Modul) 50 - 52

Claims (10)

  1. Verfahren zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), und eines künstlichen neuronalen Netzwerksystems (26) mit künstlichen neuronalen Netzwerken (30, 32), wobei eines der künstlichen neuronalen Netzwerke ein trainiertes künstliches neuronales Netzwerk (30) ist, das die Objekte (16) bereits gelernter Objektklassen erfasst, und ein anderes der künstlichen neuronalen Netzwerke ein adaptiv lernendes künstliches neuronales Netzwerk (32) ist, das Objekte (18) von Objektklassen erfasst, die von den bereits gelernten Objektklassen verschieden sind.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das künstliche neuronale Netzwerksystem (26) ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (36) ist, wobei das Verfahren die folgenden Schritte aufweist: Bereitstellen des mindestens einen Bildes (28); Erzeugen einer Merkmalskarte von Merkmalsinformation von Merkmalen, die unter Verwendung eines Codierers (38) vom Bild (28) extrahiert werden; und Übertragen der Merkmalsinformation an einen Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und einen Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32), Übertragen der Merkmalsinformation an einen Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und einen Erfassungsdecodierer (44) des adaptiv lernenden künstlichen neuronalen Netzwerks (32), wobei der Erfassungsdecodierer (44) des adaptiv lernenden künstlichen neuronalen Netzwerks (32) auch Information über die Erfassungsergebnisse vom Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) erhält.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass jeder der Decodierer (40, 44) anwendungsspezifische Information von den Merkmalskarten extrahiert, wobei die Anwendung eine semantische Segmentierung und/oder eine Objektlokalisierung ist, wobei der entsprechende Decodierer (40, 44) die räumlichen Beziehungen zwischen den Objektklassen auf Pixelebene versteht und Segmentierungskarten auf Pixelebene ausgibt, falls die Anwendung semantische Segmentierung ist und/oder der entsprechende Decodierer (40, 44) die Begrenzungsrahmen um jede bereits gelernte Objektklasse lernt und vorhersagt, falls die Anwendung eine Objektlokalisierung ist.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das künstliche neuronale Netzwerksystem (26) ferner sekundäre Arbeiten ausführt, insbesondere eine Clusterbildung von Merkmalen und/oder ein erneutes Training für Objekte (18) der Objektklassen, die von den bereits gelernten Objektklassen verschieden sind.
  5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das adaptive lernende künstliche neuronale Netzwerk (32) durch ein Computernetzwerksystem (34) bereitgestellt wird.
  6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass das trainierte künstliche neuronale Netzwerk (30) ein lokal bereitgestelltes künstliches neuronales Netzwerk ist, das insbesondere im Fahrzeug (14) angeordnet ist.
  7. Computerprogrammprodukt mit computerausführbaren Programmcodeabschnitten, die Programmcodeanweisungen aufweisen, die dafür konfiguriert sind, das Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.
  8. Künstliches neuronales Netzwerksystem (26) zum Erfassen von Objekten (16, 18) unter Verwendung mindestens eines Bildes (28) eines Bereichs von Interesse (22), insbesondere eines Bereichs von Interesse (22) in der Umgebung eines Fahrzeugs (14), wobei das künstliche neuronale Netzwerksystem (26) künstliche neuronale Netzwerke (30, 32) aufweist, wobei eines der künstlichen neuronalen Netze ein trainiertes künstliches neuronales Netzwerk (30) zum Erfassen der Objekte (16) bereits gelernter Objektklassen ist, und ein anderes der künstlichen neuronalen Netzwerke ein adaptives lernendes künstliches neuronales Netzwerk (32) zum Erfassen der Objekte (18) von Objektklassen ist, die von den bereits gelernten Objektklassen verschieden sind.
  9. Künstliches neuronales Netzwerksystem nach Anspruch 8, wobei das künstliche neuronale Netzwerksystem (26) ein Codierer-Decodierer-basiertes konvolutionelles neuronales Netzwerksystem (36) mit einem Codierer (38) und Erfassungsdecodierern (40, 44) ist und dafür eingerichtet ist eine Merkmalskarte von Merkmalsinformation von Merkmalen zu erzeugen, die von dem Bild (26) unter Verwendung des Codierers (38) extrahiert werden; und die Merkmalsinformation an den Erfassungsdecodierer (40) des trainierten künstlichen neuronalen Netzwerks (30) und an den Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32) zu übertragen, wobei der Erfassungsdecodierer (44) des adaptiven lernenden künstlichen neuronalen Netzwerks (32) mit dem Ausgang des Erfassungsdecodierers (40) des trainierten künstlichen neuronalen Netzwerks (30) verbunden ist, um Information über die Erfassungsergebnisse vom Erfassungsdecodierer des trainierten künstlichen neuronalen Netzwerks (30) zu erhalten.
  10. Fahrerassistenzsystem, welches zumindest Teile (30) eines künstlichen neuronalen Netzwerksystems (26) nach Anspruch 8 oder 9 aufweist.
DE102018114231.5A 2018-06-14 2018-06-14 Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI) Pending DE102018114231A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102018114231.5A DE102018114231A1 (de) 2018-06-14 2018-06-14 Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102018114231.5A DE102018114231A1 (de) 2018-06-14 2018-06-14 Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI)

Publications (1)

Publication Number Publication Date
DE102018114231A1 true DE102018114231A1 (de) 2019-12-19

Family

ID=68724402

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018114231.5A Pending DE102018114231A1 (de) 2018-06-14 2018-06-14 Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI)

Country Status (1)

Country Link
DE (1) DE102018114231A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030204368A1 (en) * 2002-03-29 2003-10-30 Emre Ertin Adaptive sequential detection network
WO2017055878A1 (en) * 2015-10-02 2017-04-06 Tractable Ltd. Semi-automatic labelling of datasets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030204368A1 (en) * 2002-03-29 2003-10-30 Emre Ertin Adaptive sequential detection network
WO2017055878A1 (en) * 2015-10-02 2017-04-06 Tractable Ltd. Semi-automatic labelling of datasets

Similar Documents

Publication Publication Date Title
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
DE102017107264A1 (de) Sichtbasierte regenerkennung unter verwendung des tiefen lernens
EP3291172B1 (de) Verfahren zur ermittlung von ergebnisbilddaten
DE102016210534A1 (de) Verfahren zum Klassifizieren einer Umgebung eines Fahrzeugs
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102020215860A1 (de) Korrektur von Bildern eines Rundumsichtkamerasystems bei Regen, Lichteinfall und Verschmutzung
WO2020249758A1 (de) Verfahren und generator zum erzeugen von gestörten eingangsdaten für ein neuronales netz
DE102017221765A1 (de) Trainieren und Betreiben eines Maschinen-Lern-Systems
DE102019214558A1 (de) Projektionsinformations-erkennungsvorrichtung auf basis eines künstlichen neuronalen netzwerks und verfahren derselben
DE102019208735B4 (de) Verfahren zum Betreiben eines Fahrassistenzsystems eines Fahrzeugs und Fahrerassistenzsystem für ein Fahrzeug
DE102020109364A1 (de) Verfahren und Vorrichtung zum Ermitteln und Klassifizieren wenigstens eines Objekts in einem Erfassungsbereich eines Sensors
DE102018109680A1 (de) Verfahren zum Unterscheiden von Fahrbahnmarkierungen und Bordsteinen durch parallele zweidimensionale und dreidimensionale Auswertung; Steuereinrichtung; Fahrassistenzsystem; sowie Computerprogrammprodukt
EP3576013A1 (de) Abschätzen eines verlaufs eines schienenpfads
DE102018132627A1 (de) Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt
DE102018205146A1 (de) Testverfahren für hochauflösende Scheinwerfer mittels KI
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE102017221381A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln eines Abstandes zu einem Objekt
DE102018207923A1 (de) Verbessertes Training eines Klassifikators
WO2022128013A1 (de) Korrektur von bildern einer kamera bei regen, lichteinfall und verschmutzung
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
DE102018114231A1 (de) Verfahren und System zum Erfassen von Objekten unter Verwendung mindestens eines Bildes eines Bereichs von Interesse (ROI)
DE102020133626A1 (de) Verfahren zum Erkennen von für ein neuronales Netz schwierig korrekt zu klassifizierenden Szenen, Assistenzeinrichtung und Kraftfahrzeug
EP3772017A1 (de) Bahnsignalerkennung für autonome schienenfahrzeuge
DE102019132012A1 (de) Verfahren und System zur Detektion von kleinen unklassifizierten Hindernissen auf einer Straßenoberfläche
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000