DE102021206301A1 - Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen - Google Patents

Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen Download PDF

Info

Publication number
DE102021206301A1
DE102021206301A1 DE102021206301.2A DE102021206301A DE102021206301A1 DE 102021206301 A1 DE102021206301 A1 DE 102021206301A1 DE 102021206301 A DE102021206301 A DE 102021206301A DE 102021206301 A1 DE102021206301 A1 DE 102021206301A1
Authority
DE
Germany
Prior art keywords
processing device
image processing
neural network
sequence
stack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021206301.2A
Other languages
English (en)
Inventor
Istvan Remenyi
Balint Domian
Zoltan Karasz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102021206301.2A priority Critical patent/DE102021206301A1/de
Publication of DE102021206301A1 publication Critical patent/DE102021206301A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

Bildverarbeitungsvorrichtung (1) zur Erkennung von Objekten in einer Sequenz von Eingabebildrahmen (2), umfassend ein neuronales Netz (3) mit:• einem Stapel (31) von Faltungsschichten (31a-31g), wobei jede Faltungsschicht (31a-31g) konfiguriert ist, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und wobei der Stapel (31) konfiguriert ist, jeden Eingabebildrahmen (2) in eine niedrig dimensionierte Darstellung (4) in einem latenten Raum umzuwandeln;• mindestens einer Erkennungseinheit (5, 5a, 5b), die konfiguriert ist, um die niedrig dimensionierten Darstellungen (4) zu Erkennungsdatensätzen (61, 61a, 61b) in Bezug auf ein oder mehrere Objekte (6) zuzuordnen; und• mindestens einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) zwischen dem Stapel (31) von Faltungsschichten (31a-31g) und der Erkennungseinheit (5, 5a, 5b) und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten (31a-31g) in dem Stapel (31) geschaltet ist.

Description

  • Die vorliegende Erfindung betrifft die Erkennung und/oder Verfolgung von Objekten, insbesondere von bewegten Objekten, basierend auf einer Sequenz von Bildrahmen.
  • Hintergrund
  • Ein menschlicher Fahrer, der ein Fahrzeug lenkt, nimmt den Großteil der für die Fahraufgabe relevanten Informationen mit seinen Augen wahr. Daher stellen auch bei der Automatisierung der Fahraufgabe oder eines Teils davon die Informationen aus einer optischen Überwachung der Fahrzeugumgebung eine wichtige Informationsquelle dar.
  • Insbesondere ist es wichtig, die Trajektorien von allen sich bewegenden Objekten in der Fahrzeugumgebung zu bewerten, um zu bestimmen, ob ein solches Objekt das Potenzial besitzt, die Trajektorie des zu steuernden Fahrzeugs zu kreuzen, sodass eine Anpassung des Verhaltens des zu steuernden Fahrzeugs erforderlich sein kann.
  • DE 10 2019 214 198 A1 offenbart ein Verfahren zum Erkennen und/oder Verfolgen von Objekten mittels einer Kamera mit ereignisbasierten Sensorelementen. Ein solches ereignisbasiertes Sensorelement gibt ein Ereignis immer dann aus, wenn sich die darauf auftreffende Lichtintensität um mehr als einen vorbestimmten relativen Betrag ändert.
  • Offenlegung der Erfindung
  • Die Erfindung sieht eine Bildverarbeitungsvorrichtung zum Erkennen von Objekten in einer Folge von Eingabebildrahmen vor. Die Bildrahmen können Bilder einer beliebigen geeigneten Bildgebungsmodalität umfassen, wie etwa Kamerabilder, Wärmebilder, Radarbilder, Ultraschallbilder oder Lidar-Bilder.
  • Die Bildverarbeitungsvorrichtung umfasst ein neuronales Netz. Dieses neuronale Netz umfasst einen Stapel von Faltungsschichten. Jede Faltungsschicht ist konfiguriert, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und gibt eine oder mehrere „Feature Maps“ (Merkmalskarten) in Bezug auf bestimmte Bildmerkmale aus, die von den jeweiligen Filterkerneln erkannt werden. Beispielsweise kann eine erste Faltungsschicht im Stapel sehr grundlegende Bildmerkmale erkennen, und spätere Schichten können immer komplexere Merkmale erkennen, die aus den vorherigen grundlegenden Merkmalen bestehen. Das heißt, innerhalb des Stapels werden die von einer Faltungsschicht ausgegebenen Feature Maps als Eingabe an die nächste Faltungsschicht geliefert. Das von dem Stapel von Faltungsschichten ausgegebene Endergebnis ist eine niedrig dimensionierte Darstellung des Eingabebildrahmens in einem latenten Raum.
  • Die Bildverarbeitungsvorrichtung umfasst ferner mindestens eine Erkennungseinheit, die konfiguriert ist, um die niedrig dimensionierten Darstellungen zu Erkennungsdatensätzen in Bezug auf ein oder mehrere Objekte zuzuordnen. Beispielsweise kann ein solcher Erkennungsdatensatz mindestens eine Bezeichnung eines Begrenzungsbereichs umfassen, die alle zum Objekt gehörenden Pixel enthält. Dieser Begrenzungsbereich kann beispielsweise ein Rechteck („Bounding Box“ = Begrenzungsrahmen) sein, er kann aber auch jede andere geeignete Form aufweisen. Der Erkennungsdatensatz kann auch eine Art des Objekts umfassen. Das heißt, die Erkennungseinheit kann auch konfiguriert sein, um erkannten Objekte einer oder mehreren Typklassen einer gegebenen Klassifizierung zuzuweisen, wie etwa „Fußgänger“, „Fahrzeug“ oder „Fahrspurmarkierung“.
  • Die Bildverarbeitungsvorrichtung umfasst ferner mindestens eine rekurrente neuronale Netzeinheit, in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden. Insbesondere wenn Informationen durch das rekurrente neuronale Netz verarbeitet werden, können sie mindestens ein Neuron oder eine andere Verarbeitungseinheit mehr als einmal weiterleiten. Auf diese Weise fungiert die rekurrente neuronale Netzeinheit ähnlich wie ein Speicher, der Informationen bezüglich mehrerer vorangehender Rahmen berücksichtigen kann, wenn Informationen bezüglich eines aktuellen Bildrahmens verarbeitet werden.
  • Auf diese Weise wird durch Verschmelzen von Merkmalen über mehrere Bildrahmen und Nutzen der zusätzlichen räumlichen und zeitlichen Informationen, die in der Sequenz von Bildrahmen verfügbar sind, die Gesamtgenauigkeit der von der mindestens einen Erkennungseinheit ausgegebenen Erkennungsdatensätze verbessert. Insbesondere werden Schwankungen in den Erkennungsdatensätzen reduziert. Beispielsweise gibt es weniger „Lücken“ in der zeitlichen Sequenz von Erkennungsdatensätzen in dem Sinne, dass ein bestimmtes Objekt plötzlich verschwindet und dann einen Rahmen oder einige Rahmen später wieder erscheint.
  • Außerdem kann das neuronale Netz die Bewegung eines gegebenen Objekts lernen. Dies ermöglicht die Erkennung unterschiedlicher Objekte, selbst wenn sich zwei Objekte signifikant überlappen oder das eine Objekt das andere Objekt teilweise verdeckt. Ein gutes Beispiel dafür ist ein Fußgänger, der den Bürgersteig verlässt und eine Lücke zwischen zwei parkenden Fahrzeugen betritt, um die Straße zu überqueren. Die parkenden Autos können den Fußgänger weitgehend verdecken, sodass aus der Perspektive eines die Straße entlangfahrenden Fahrzeugs möglicherweise nur der Kopf, der Rumpf oder ein Körperteil sichtbar ist. Es ist jedoch wichtig, die Absicht des Fußgängers so schnell wie möglich zu erkennen. Viele Unfälle zwischen von Menschen gesteuerten Fahrzeugen und Fußgängern ereignen sich, weil Fußgänger aus einer Lücke zwischen parkenden Fahrzeugen auf die Straße treten und der Fahrer des Fahrzeugs den Fußgänger nicht rechtzeitig sehen kann.
  • Zwischen dem Stapel von Faltungsschichten und der Erkennungseinheit und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten im Stapel ist mindestens eine rekurrente neuronale Netzeinheit geschaltet. Unter „zwischen einer ersten Instanz und einer zweiten Instanz geschaltet“ wird hierin verstanden, dass das rekurrente neuronale Netz eine Ausgabe von der ersten Instanz empfängt, diese verarbeitet und das Ergebnis dieser Verarbeitung als Eingabe an die zweite Instanz liefert.
  • Wenn das rekurrente neuronale Netz zwischen dem Stapel von Faltungsschichten und der Erkennungseinheit geschaltet ist, ergibt sich die Verbesserung der Erkennung weitgehend unabhängig von der Größe von Objekten in den Bildrahmen. Dies ist besonders vorteilhaft für Bilder, die aus der Umgebung eines Fahrzeugs gesammelt werden. Die Größe, mit der Objekte in Bildern erscheinen, hängt dann auch vom Abstand zwischen Fahrzeug und Objekt ab. Sowohl das Fahrzeug als auch das zu erkennende Objekt können sich bewegen. Daher kann der Abstand zwischen beiden und damit die Größe des Objekts in den Bildrahmen innerhalb der Sequenz von Bildrahmen signifikant variieren.
  • Durch Bewegen der rekurrenten neuronalen Netzeinheit an eine Position zwischen zwei aufeinanderfolgende Faltungsschichten in dem Stapel kann eine gewisse Gewichtung verwendet werden, um die Erkennung kleinerer Objekte zu verbessern.
  • In einer vorteilhaften Ausführungsform ist einer Erkennungseinheit der Bildverarbeitungsvorrichtung mindestens eine weitere rekurrente neuronale Netzeinheit nachgeschaltet. Auf diese Weise kann eine weitere Verbesserung zur Erkennung größerer Objekte hinzugefügt werden.
  • Die Anzahl und die Positionen rekurrenter neuronaler Netzeinheiten innerhalb des neuronalen Netzes können als Hyperparameter verwendet werden, die während des Trainings optimiert werden. Beispielsweise können Trainings für unterschiedliche Werte von Hyperparametern durchgeführt werden, und das Ergebnis des Trainings kann durch Testen des neuronalen Netzes an Testdaten bewertet werden. Die Hyperparameter können dann mit dem Ziel optimiert werden, das Ergebnis dieser Bewertung zu verbessern.
  • Vorzugsweise ist mindestens eine rekurrente neuronale Netzeinheit konfiguriert, um Informationen bezüglich eines aktuellen Bildrahmens basierend auf Informationen zu verarbeiten, die sich auf zwischen 2 und 5 vorangehende Rahmen in der Sequenz beziehen. Bei 30 Rahmen pro Sekunde entspricht dies einem Zeitintervall zwischen 66 und 166 Millisekunden. Ein „Speicherhorizont“ zwischen 2 und 5 Bildrahmen ist besonders vorteilhaft für das Erkennen und Verfolgen von verkehrsrelevanten Objekten. Auch der konkrete Wert des „Speicherhorizonts“ kann als Hyperparameter während des Trainings optimiert werden.
  • Ein Beispiel für eine rekurrente neuronale Netzeinheit, die vorteilhafterweise in der vorliegenden Bildverarbeitungsvorrichtung verwendet werden kann, ist eine gattergesteuerte rekurrente Einheit (Gated Recurrent Unit, GRU). Eine GRU funktioniert ähnlich wie ein Long Short-Term Memory (LSTM) mit einem Forget Gate (Vergesstor), aber ihr Verhalten ist durch weniger Parameter gekennzeichnet. Dadurch verringert sich wiederum die Tendenz der „Überanpassung“ an die Trainingsdaten während des Trainings.
  • In einer weiteren vorteilhaften Ausführungsform sind die Architekturen des Stapels von Faltungsschichten und der mindestens einen Erkennungseinheit so gewählt, dass der Stapel von Faltungsschichten und die mindestens eine Erkennungseinheit einen YOLOv3-Objektdetektor implementieren. Ein YOLOv3-Objektdetektor ist sowohl beim Training als auch bei der Inferenz besonders schnell.
  • In einer weiteren besonders vorteilhaften Ausführungsform umfasst die Bildverarbeitungsvorrichtung mindestens einen Objektverfolger, der konfiguriert ist, um die Trajektorien von Objekten über die Sequenz von Bildrahmen basierend auf Erkennungsdatensätzen zu verfolgen, wie sie von der Erkennungseinheit geliefert und/oder von einer rekurrenten neuronalen Netzeinheit, die der Erkennungseinheit nachgeschaltet ist, abgeändert werden. Die verbesserte Qualität der Erkennungsdatensätze erzeugt dann in Kombination mit dem Objektverfolger einen synergistischen Effekt: Komplexe und rechenintensive Objektverfolger können Rauschen, Lücken oder andere Defizite in den Erkennungsdatensätzen weitgehend bewältigen. Im Gegensatz dazu gehen einfache und rechengünstige Objektverfolger von der Annahme aus, dass die Erkennungsdatensätze eine hohe Qualität besitzen, und ihre gute Leistung hängt davon ab, dass diese Annahme sich bewahrheitet. Da nun Erkennungsdatensätze mit besserer Qualität verfügbar sind, kann somit ein einfacher und rechengünstiger Objektverfolger verwendet werden.
  • Im Wesentlichen ermöglicht die Bildverarbeitungsvorrichtung, wenn das gewünschte Endergebnis die Verfolgung von mindestens einer Trajektorie des Objekts ist, eine günstigere Aufteilung der Gesamtkomplexität in die erste Stufe der Objekterkennung und die zweite Stufe der Objektverfolgung, sodass eine gegebene Qualität des Endergebnisses mit einem geringeren Gesamtrechenaufwand erreicht werden kann. Dies ist in gewisser Weise vergleichbar damit, die Aufgabe, einen 2-Meter-Sprung durchzuführen, zu unterteilen, indem zuerst ein Sprung auf eine Zwischenstufe erfolgt und dann ein Sprung auf die noch ausstehende Höhe zum 2-Meter-Ziel ausgeführt wird. In diesem Beispiel wird durch die Festlegung der Zwischenstufe auf eine Höhe von 1 m die Komplexität gleichmäßig auf zwei Stufen aufgeteilt und ist optimal, da der höchste Sprung, der in einem Zug ausgeführt werden muss, ausschlaggebend für die Gesamtschwierigkeit ist.
  • Somit ist in einer weiteren besonders vorteilhaften Ausführungsform der Objektverfolger konfiguriert, um eine Intersection over Union (loU) von Begrenzungsbereichen in Erkennungsdatensätzen auszuwerten, die aus aufeinanderfolgenden Bildrahmen in der Sequenz erhalten werden. Insbesondere wenn eine solche loU hoch genug ist, kann der Objektverfolger daraus schließen, dass die aus den aufeinanderfolgenden Bildrahmen erhaltenen Erkennungsdatensätze zu derselben Objektinstanz gehören und eine fortlaufende Trajektorie dieser Objektinstanz beschreiben. Wenn ein aus dem vorangehenden Rahmen erhaltener Erkennungsdatensatz keinem geeigneten Erkennungsdatensatz entspricht, der gemäß dem loU-Kriterium aus einem nachfolgenden Rahmen erhalten wurde, dann kann davon ausgegangen werden, dass die Trajektorie mit diesem Erkennungsdatensatz endet. Wenn ein Erkennungsdatensatz basierend auf dem nachfolgenden Rahmen erneut erscheint, ohne einem Erkennungsdatensatz zu entsprechen, der aus dem vorangegangenen Rahmen gemäß dem loU-Kriterium ausreichend gut erhalten wurde, dann kann davon ausgegangen werden, dass eine neue Trajektorie mit diesem erneut erschienenen Erkennungsdatensatz beginnt.
  • Die Erfindung stellt auch ein Verfahren zur Herstellung der Bildverarbeitungsvorrichtung bereit.
  • Bei diesem Verfahren wird das neuronale Netz mit dem Stapel von Faltungsschichten, der mindestens einen Erkennungseinheit, der mindestens einen rekurrenten Netzeinheit und optional dem Objektverfolger bereitgestellt. Außerdem wird eine Trainingssequenz von Trainingsbildrahmen in Kombination mit Ground-Truth-Erkennungsdatensätzen und/oder mit Ground-Truth-Verfolgungsergebnissen bereitgestellt.
  • Parameter, die das Verhalten des neuronalen Netzes charakterisieren, und/oder Hyperparameter, die die Architektur des neuronalen Netzes charakterisieren, und/oder Parameter, die das Verhalten des Objektverfolgers charakterisieren, werden mit dem Ziel optimiert, dass
    • • die Erkennungsdatensätze, die von der mindestens einen Erkennungseinheit ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen übereinstimmen, und/oder
    • • die von dem Objektverfolger ausgegebenen Verfolgungsergebnisse mit den Ground-Truth-Verfolgungsergebnissen übereinstimmen.
  • Hierbei können die Verfolgungsergebnisse jede Form aufweisen und sie können mit Ground-Truth-Verfolgungsergebnissen unter Verwendung einer beliebigen Metrik verglichen werden, die für die vorliegende Anwendung geeignet ist. Wenn beispielsweise eine von der Bildverarbeitungsvorrichtung während des Trainings ausgegebene Trajektorie mit einer Ground-Truth-Trajektorie verglichen wird, ist eine mögliche Metrik für die Übereinstimmung die mittlere Abweichung zwischen den Trajektorien. Alternativ dazu oder in Kombination damit kann eine maximale Abweichung zwischen den Trajektorien in die Metrik einfließen.
  • In einer besonders vorteilhaften Ausführungsform entsprechen die Ground-Truth-Erkennungsdatensätze aufeinanderfolgenden Trainingsbildrahmen in der Trainingssequenz. Das Ziel der Optimierung besteht darin, das Verschwinden und anschließende Wiedererscheinen ein und desselben Objekts in den Erkennungsdatensätzen beim Fortschreiten der Trainingssequenz zu minimieren. Solche „Lücken“ oder „Flimmern“ weisen, wie bereits erörtert, eine besondere Tendenz auf, die Verfolgungsergebnisse von Objektverfolgern zu beeinträchtigen. Besonders anfällig dafür sind einfache, rechengünstige Objektverfolger, wie etwa loU-Verfolger. Sie profitieren daher am meisten von einer Reduzierung derartiger Störungen in den Erkennungsdatensätzen.
  • Wie vorstehend erörtert, ist die Überwachung einer bestimmten Umgebung ein Hauptanwendungsfall für die Verfolgung von Objekten. Dies ist nicht auf Umgebungen um ein sich bewegendes Fahrzeug beschränkt. Wenn beispielsweise ein Überwachungssystem Räumlichkeiten zum Schutz vor Einbruch überwacht, ist es auch von Vorteil, das zukünftige Verhalten von verfolgten Objekten vorherzusagen. Beispielsweise können bestimmte Bewegungsmuster von Fußgängern ein Hinweis darauf sein, dass Erkundungsinformationen zur Vorbereitung eines anstehenden Einbruchsversuchs gesammelt werden.
  • Die Erfindung stellt daher auch ein Verfahren zum Überwachen einer Umgebung bereit.
  • Bei diesem Verfahren wird mittels mindestens eines Sensors eine Sequenz von Bildrahmen von zumindest einem Teil der Umgebung erfasst. Diese Sequenz von Bildrahmen wird an die vorstehend beschriebenen Bildverarbeitungsvorrichtung geliefert. Von der Bildverarbeitungsvorrichtung und/oder von einem Objektverfolger, der Erkennungsdatensätze von der Bildverarbeitungsvorrichtung erhält (wenn diese Vorrichtung nur Erkennungsdatensätze liefert), wird die Trajektorie von mindestens einem Objekt erhalten. Basierend auf dieser Trajektorie wird das zukünftige Verhalten mindestens eines Objekts vorhergesagt.
  • Die bessere Qualität der Erkennungsdatensätze und damit auch der erhaltenen Trajektorie wird wahrscheinlich auch die Genauigkeit der Vorhersage verbessern.
  • In einer weiteren vorteilhaften Ausführungsform wird aufgrund des prognostizierten Verhaltens ein Ansteuersignal bestimmt. Mit diesem Ansteuersignal wird ein Fahrzeug und/oder ein Überwachungssystem angesteuert. Beispielsweise kann ein Fahrzeug seine geplante Trajektorie so abändern, dass es die vorhergesagte Trajektorie eines verfolgten Objekts nicht mehr schneidet, wodurch eine Kollision mit dem verfolgten Objekt vermieden wird. Ein Überwachungssystem kann nur dann einen Alarm auslösen oder die Bildrahmen für zukünftige Untersuchungen speichern, wenn das vorhergesagte Verhalten von Objekten im überwachten Bereich verdächtig ist. Da die Vorhersage genauer ist, wird die Wahrscheinlichkeit erhöht, dass die vom Fahrzeug und/oder vom Überwachungssystem in Reaktion auf das Ansteuersignal ergriffene Maßnahme in der gegebenen Situation angemessen ist.
  • Die vorstehend beschriebenen Verfahren können ganz oder teilweise Computerimplementiert und somit in Software verkörpert sein. Die Erfindung betrifft daher auch ein Computerprogramm, das maschinenlesbare Anweisungen umfasst, die bei Ausführung durch einen oder mehrere Computer ein Upgrade für den einen oder die mehreren Computer auf die vorstehend beschriebene Bildverarbeitungsvorrichtung vornehmen und/oder den einen oder die mehreren Computer veranlassen, eines der vorstehend beschriebenen Verfahren durchzuführen. In diesem Zusammenhang sind als Computer auch Steuergeräte für Fahrzeuge sowie andere eingebettete Systeme zu verstehen, die ausführbaren Programmcode ausführen können. Ein nichtflüchtiges Speichermedium und/oder ein Downloadprodukt kann das Computerprogramm umfassen. Ein Downloadprodukt ist ein elektronisches Produkt, das online verkauft und zur sofortigen Kaufabwicklung über ein Netzwerk übertragen werden kann. Ein oder mehrere Computer können mit dem Computerprogramm und/oder mit dem nichtflüchtigen Speichermedium und/oder dem Downloadprodukt ausgestattet sein.
  • Im Folgenden werden die Erfindung und ihre bevorzugten Ausführungsformen anhand von Figuren veranschaulicht, ohne dass die Absicht besteht, den Umfang der Erfindung einzuschränken.
  • Die Figuren zeigen:
    • 1: Ausführungsbeispiel der Bildverarbeitungsvorrichtung 1;
    • 2: Ausführungsbeispiel des Verfahrens 100 zur Herstellung der Bildverarbeitungsvorrichtung 1;
    • 3: Ausführungsbeispiel des Verfahrens 200 zur Überwachung einer Umgebung 10.
  • 1 ist eine schematische Zeichnung eines Ausführungsbeispiels der Bildverarbeitungsvorrichtung 1. Die Bildverarbeitungsvorrichtung 1 umfasst ein neuronales Netz 3, das Bildrahmen 2 als Eingabe erhält und Erkennungsdatensätze 61 von Objekten 6 als Ausgabe erzeugt.
  • Zu diesem Zweck umfasst das neuronale Netz einen Stapel 31 von Faltungsschichten 31a-31g, der die eingegebenen Bildrahmen 2 in niedrig dimensionierte Darstellungen 4 in einem latenten Raum umwandelt. Mittels einer ersten rekurrenten neuronalen Netzeinheit 7a werden diese Darstellungen 4 zu modifizierten Darstellungen 4' verarbeitet. Wie zuvor erörtert, bleiben weitere zeitliche Informationen aus mehreren vorangehenden Rahmen in den modifizierten Darstellungen 4' erhalten.
  • Die modifizierten Darstellungen 4' werden an eine ersten Erkennungseinheit 5a geliefert, die die Erkennungsdatensätze 61a in einem ersten Größenmaßstab erzeugt. Diese Erkennungsdatensätze 61b werden von einer zweiten rekurrenten neuronalen Netzeinheit 7b verarbeitet, um die modifizierte Erkennungsdatensätze 61a' zu erhalten. Die erste Erkennungseinheit 5a wird kaskadierend zu einer zweiten Erkennungseinheit 5b angeordnet, die die Erkennungsdatensätzen 61b in einem zweiten Größenmaßstab erzeugt. Diese Erkennungsdatensätze 61b werden von einer dritten rekurrenten neuronalen Netzeinheit 7c verarbeitet, um die modifizierte Erkennungsdatensätze 61b' zu erhalten. Das Upsampling und weitere Verarbeitungen für den Wechsel von dem ersten Größenmaßstab zum zweiten Größenmaßstab wurden aus Gründen der Klarheit in 1 weggelassen.
  • Die modifizierten Erkennungsdatensätze 61a', 61b' in den verschiedenen Größenmaßstäben werden von dem Objektverfolger 8 verarbeitet, der die Trajektorien 62 der Objekte 6 ausgibt. In dem in 1 gezeigten Beispiel ist dieser Objektverfolger 8 vom neuronalen Netz 3 unabhängig. Der Objektverfolger 8 kann aber auch Teil des neuronalen Netzes 3 sein.
  • 2 ist ein schematisches Flussdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Herstellen der Bildverarbeitungsvorrichtung 1.
  • In Schritt 110 wird das neuronale Netz 3 mit dem Stapel 31 von Faltungsschichten 31a-31g, der mindestens einen Erkennungseinheit 5, 5a, 5b und der mindestens einen rekurrenten Netzeinheit 7, 7a-7c bereitgestellt.
  • Wenn die Bildverarbeitungsvorrichtung 1 die Trajektorien 62 anstelle nur der Erkennungsdatensätze 61, 61a, 61b für die Objekte 6 ausgeben soll, wird der Objektverfolger 8 in Schritt 115 bereitgestellt. Der Objektverfolger 8 kann Teil des neuronalen Netzes 3 sein, kann aber auch ein unabhängiges neuronales Netz oder eine andere Verarbeitungseinheit sein. Das Verhalten des Objektverfolgers 8 kann durch die Parameter 8a charakterisiert werden. Der Objektverfolger 8 kann in einem Zustand bereitgestellt werden, in dem die Parameter 8a noch trainiert werden müssen. Er kann jedoch auch in einem einsatzbereiten Zustand bereitgestellt werden, in dem alle Parameter 8a bereits ihre Endwerte aufweisen und kein weiteres Training erforderlich ist. Der Objektverfolger 8 kann auch in einem vortrainierten Zustand bereitgestellt werden, in dem er bereits bis zu einem gewissen Grad einsatzfertig ist, wobei die Parameter 8a noch durch weiteres Training verfeinert werden müssen.
  • In Schritt 120 wird eine Trainingssequenz der Trainingsbildrahmen 2a in Kombination mit den Ground-Truth-Erkennungsdatensätzen 2b und/oder mit den Ground-Truth-Verfolgungsergebnissen 2c bereitgestellt.
  • In Schritt 130 werden die Parameter 3a, die das Verhalten des neuronalen Netzes 3 charakterisieren, und/oder die Hyperparameter 3b, die die Architektur des neuronalen Netzes 3 charakterisieren, und/oder die Parameter 8a, die das Verhalten des Objektverfolgers 8 charakterisieren, mit dem Ziel optimiert, dass
    • • die Erkennungsdatensätze 61, 61a, 61b, die von der mindestens einen Erkennungseinheit 5, 5a, 5b ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen 2b übereinstimmen, und/oder
    • • die von dem Objektverfolger 8 ausgegebenen Verfolgungsergebnisse 62 mit den Ground-Truth-Verfolgungsergebnissen 2c übereinstimmen.
  • Die endgültig optimierten Zustände der Parameter 3a, der Hyperparameter 3b und der Parameter 8a sind mit den Bezugszeichen 3a*, 3b* bzw. 8a* gekennzeichnet. Mit diesen endgültig optimierten Parametern 3a*, 3b* und 8a* ist die Bildverarbeitungsvorrichtung 1 nun einsatzbereit.
  • Gemäß Block 121 können die Ground-Truth-Erkennungsdatensätze 2b den aufeinanderfolgenden Trainingsbildrahmen 2a in der Trainingssequenz entsprechen. Gemäß Block 131 kann das Ziel der Optimierung dann das Minimieren des Verschwindens und anschließenden Wiedererscheinens ein und desselben Objekts 6 in den Erkennungsdatensätzen 61, 61a, 61b beim Fortschreiten der Trainingssequenz umfassen.
  • 3 ist ein schematisches Flussdiagramm einer Ausführungsform des Verfahrens 200 zur Überwachung einer Umgebung 10.
  • In Schritt 210 wird mithilfe von mindestens einem Sensor 9 eine Sequenz von Bildrahmen erfasst.
  • In Schritt 220 wird die Sequenz von Bildrahmen 2 an die Bildverarbeitungsvorrichtung 1 geliefert. Die Bildverarbeitungsvorrichtung 1 kann vor Ort bereitgestellt werden, aber auch beispielsweise in einer Cloud aufgerufen werden.
  • In Schritt 230 wird die Trajektorie 62 von mindestens einem Objekt 6 von der Bildverarbeitungsvorrichtung 1 und/oder von einem Objektverfolger 8 erhalten, der Erkennungsdatensätze von der Bildverarbeitungsvorrichtung 1 erhält.
  • In Schritt 240 wird basierend auf der erhaltenen Trajektorie 62 das zukünftige Verhalten 63 des mindestens einen Objekts 6 vorhergesagt.
  • In Schritt 250 wird ein Ansteuersignal 250a aus dem vorhergesagten Verhalten 63 bestimmt. In Schritt 260 wird ein Fahrzeug 50 und/oder ein Überwachungssystem 60 mit dem Ansteuersignal 250a angesteuert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • DE 102019214198 A1 [0004]

Claims (15)

  1. Bildverarbeitungsvorrichtung (1) zur Erkennung von Objekten in einer Sequenz von Eingabebildrahmen (2), umfassend ein neuronales Netz (3) mit: • einem Stapel (31) von Faltungsschichten (31a-31g), wobei jede Faltungsschicht (31a-31g) konfiguriert ist, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und wobei der Stapel (31) konfiguriert ist, jeden Eingabebildrahmen (2) in eine niedrig dimensionierte Darstellung (4) in einem latenten Raum umzuwandeln; • mindestens einer Erkennungseinheit (5, 5a, 5b), die konfiguriert ist, um die niedrig dimensionierten Darstellungen (4) zu Erkennungsdatensätzen (61, 61a, 61b) in Bezug auf ein oder mehrere Objekte (6) zuzuordnen; und • mindestens einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) zwischen dem Stapel (31) von Faltungsschichten (31a-31g) und der Erkennungseinheit (5, 5a, 5b) und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten (31a-31g) in dem Stapel (31) geschaltet ist.
  2. Bildverarbeitungsvorrichtung (1) nach Anspruch 1, wobei mindestens eine weitere rekurrente neuronale Netzeinheit (7) nach einer Erkennungseinheit (5a, 5b) der Bildverarbeitungsvorrichtung (1) geschaltet ist.
  3. Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 2, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) konfiguriert ist, um Informationen bezüglich eines aktuellen Bildrahmens (2) basierend auf Informationen zu verarbeiten, die sich auf zwischen 2 und 5 vorangehende Rahmen (2) in der Sequenz beziehen.
  4. Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 3, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) eine gattergesteuerte rekurrente Einheit (Gated Recurrent Unit, GRU) umfasst.
  5. Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 4, wobei die Architekturen des Stapels (31) von Faltungsschichten (31a-31g) und der mindestens einen Erkennungseinheit (5, 5a, 5b) so gewählt sind, dass der Stapel (31) von Faltungsschichten (31a-31g) und die mindestens eine Erkennungseinheit (5, 5a, 5b) einen YOLOv3-Objektdetektor implementieren.
  6. Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 5, wobei ein Erkennungsdatensatz (61, 61a, 61b) in Bezug auf mindestens ein Objekt (6) mindestens umfasst: eine Bezeichnung eines Begrenzungsbereichs, der alle zum Objekt (6) gehörenden Pixel enthält, und optional eine Art des Objekts (6).
  7. Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 6, ferner umfassend mindestens einen Objektverfolger (8), der konfiguriert ist, um die Trajektorien (62) von Objekten (6) über die Sequenz von Bildrahmen (2) basierend auf den Erkennungsdatensätzen (61, 61a, 61b) zu verfolgen, wie sie von der Erkennungseinheit (5, 5a, 5b) geliefert und/oder von einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), die der Erkennungseinheit (5, 5a, 5b) nachgeschaltet ist, abgeändert werden.
  8. Bildverarbeitungsvorrichtung (1) nach den Ansprüchen 6 und 7, wobei der Objektverfolger (8) konfiguriert ist, um eine Intersection over Union (loU) von Begrenzungsbereichen in Erkennungsdatensätzen (61, 61a, 61b) auszuwerten, die aus aufeinanderfolgenden Bildrahmen (2) in der Sequenz erhalten werden.
  9. Verfahren (100) zur Herstellung der Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8, umfassend: • Bereitstellen (110) des neuronalen Netzes (3) mit dem Stapel (31) von Faltungsschichten (31a-31g), der mindestens einen Erkennungseinheit (5, 5a, 5b), der mindestens einen rekurrenten Netzeinheit (7, 7a-7c); • optionales Bereitstellen (115) des Objektverfolgers (8); • Bereitstellen (120) einer Trainingssequenz der Trainingsbildrahmen (2a) in Kombination mit den Ground-Truth-Erkennungsdatensätzen (2b) und/oder mit den Ground-Truth-Verfolgungsergebnissen (2c); und • Optimieren (130) von Parametern (3a), die das Verhalten des neuronalen Netzes (3) charakterisieren, und/oder der Hyperparameter (3b), die die Architektur des neuronalen Netzes (3) charakterisieren, und/oder der Parameter (8a), die das Verhalten des Objektverfolgers (8) charakterisieren, mit dem Ziel, dass o die Erkennungsdatensätze (61, 61a, 61b), die von der mindestens einen Erkennungseinheit (5, 5a, 5b) ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen (2b) übereinstimmen, und/oder o die von dem Objektverfolger (8) ausgegebenen Verfolgungsergebnisse (62) mit den Ground-Truth-Verfolgungsergebnissen (2c) übereinstimmen.
  10. Verfahren (100) nach Anspruch 9, wobei die Ground-Truth-Erkennungsdatensätze (2b) den aufeinanderfolgenden Trainingsbildrahmen (2a) in der Trainingssequenz entsprechen und wobei das Ziel der Optimierung das Minimieren (131) des Verschwindens und anschließenden Wiedererscheinens ein und desselben Objekts (6) in den Erkennungsdatensätzen (61, 61a, 61b) beim Fortschreiten der Trainingssequenz umfasst.
  11. Verfahren (200) zur Überwachung einer Umgebung (10), umfassend die Schritte: • Erfassen (210) einer Sequenz von Bildrahmen (2) von mindestens einem Teil der Umgebung (10) mittels mindestens eines Sensors (9); • Liefern (220) der Sequenz von Bildrahmen (2) an die Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8; • Erhalten (230), von der Bildverarbeitungsvorrichtung (1) und/oder von einem Objektverfolger (8), der Erkennungsdatensätze (61, 61a, 61b) von der Bildverarbeitungsvorrichtung (1) erhält, der Trajektorie (62) von mindestens einem Objekt (6); und • Vorhersagen (240), basierend auf der erhaltenen Trajektorie (62), des zukünftigen Verhaltens (63) des mindestens einen Objekts (6).
  12. Verfahren (200) nach Anspruch 11, ferner umfassend: • Bestimmen (250) eines Ansteuersignals (250a) aus dem vorhergesagten Verhalten (63); und • Ansteuern (260) eines Fahrzeugs (50) und/oder eines Überwachungssystems (60) mit dem Ansteuersignal (250a).
  13. Computerprogramm, umfassend maschinenlesbare Anweisungen, die bei Ausführung durch einen oder mehrere Computer ein Upgrade für den einen oder die mehreren Computer auf die Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8 vornehmen und/oder den einen oder die mehreren Computer veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 9 bis 12 durchzuführen.
  14. Maschinenlesbares nichtflüchtiges Speichermedium und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
  15. Computer oder mehrere Computer mit dem Computerprogramm nach Anspruch 13 und/oder mit dem nichtflüchtigen Speichermedium und/oder Downloadprodukt nach Anspruch 14.
DE102021206301.2A 2021-06-18 2021-06-18 Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen Pending DE102021206301A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102021206301.2A DE102021206301A1 (de) 2021-06-18 2021-06-18 Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102021206301.2A DE102021206301A1 (de) 2021-06-18 2021-06-18 Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen

Publications (1)

Publication Number Publication Date
DE102021206301A1 true DE102021206301A1 (de) 2022-12-22

Family

ID=84283856

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021206301.2A Pending DE102021206301A1 (de) 2021-06-18 2021-06-18 Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen

Country Status (1)

Country Link
DE (1) DE102021206301A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019214198A1 (de) 2019-09-18 2021-03-18 Robert Bosch Gmbh Ereignisbasierte Erkennung und Verfolgung von Objekten

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019214198A1 (de) 2019-09-18 2021-03-18 Robert Bosch Gmbh Ereignisbasierte Erkennung und Verfolgung von Objekten

Similar Documents

Publication Publication Date Title
WO2019179946A1 (de) Erzeugung synthetischer radarsignale
DE102017205093A1 (de) Verfahren und System zur Vorhersage von Sensorsignalen eines Fahrzeugs
DE102011119767A1 (de) Erscheinungsbild-gestützte vereinigung von kamera- undentfernungssensordaten für mehrere objekte
EP1298454A2 (de) Verfahren zur Erkennung und Verfolgung von Objekten
DE102013200409A1 (de) Verfahren und Vorrichtung zum Überwachen eines Umfelds eines Fahrzeugs und Verfahren zum Durchführen einer Notbremsung
DE102015117379A1 (de) Verfahren zum Erfassen eines dynamischen Objekts in einem Umgebungsbereich eines Kraftfahrzeugs auf Basis von Informationen einer kraftfahrzeugseitigen Ultraschalldetektionseinrichtung, Fahrerassistenzsystem und Kraftfahrzeug
DE102015208139A1 (de) Fahrzeuginsassenerfassung mittels des Abstands zwischen Beifahrer- und Fahrermerkmalen
DE102016007899A1 (de) Verfahren zum Betreiben einer Einrichtung zur Verkehrssituationsanalyse, Kraftfahrzeug und Datenverarbeitungseinrichtung
DE102018220941A1 (de) Auswertung von Messgrößen mit KI-Modulen unter Berücksichtigung von Messunsicherheiten
WO2020061603A1 (de) Verfahren und vorrichtung zur analyse eines sensordatenstroms sowie verfahren zum führen eines fahrzeugs
EP3188080A1 (de) Verfahren zur auswertung von gesten
EP2483834B1 (de) Verfahren und Vorrichtung zum Erkennen einer Fehldetektion eines Objekts in einem Bild
DE102018222294A1 (de) Verfahren, Computerprogramm, maschinenlesbares Speichermedium sowie Vorrichtung zur Datenvorhersage
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102021201445A1 (de) Computerimplementiertes Verfahren zum Testen der Konformität zwischen realen und synthetischen Bildern für maschinelles Lernen
DE102019218349A1 (de) Verfahren zum Klassifizieren von zumindest einem Ultraschallecho aus Echosignalen
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102019209463A1 (de) Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse
DE102021206301A1 (de) Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen
DE102019202266A1 (de) Verfahren und Computerprogrammprodukt zum Adaptieren einer Auflösung eines Multisensorsystems eines Straßenfahrzeuges und Steuergerät für ein Multisensorsystem und Computerprogrammprodukt
DE102021133977A1 (de) Verfahren und System zur Klassifikation von Szenarien eines virtuellen Tests sowie Trainingsverfahren
EP4068223A1 (de) Verfahren und system zur bestimmung der bodenebene mit einem künstlichen neuronalen netz
DE102020213527A1 (de) Verfahren zum Optimieren einer Strategie für einen Roboter
EP3772017A1 (de) Bahnsignalerkennung für autonome schienenfahrzeuge
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009660000

Ipc: G06V0030194000