DE102021206301A1

DE102021206301A1 - Verbesserte Objekterkennung und -verfolgung aus einer Sequenz von Bildrahmen

Info

Publication number: DE102021206301A1
Application number: DE102021206301.2A
Authority: DE
Inventors: Istvan Remenyi; Balint Domian; Zoltan Karasz
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-12-22

Abstract

Bildverarbeitungsvorrichtung (1) zur Erkennung von Objekten in einer Sequenz von Eingabebildrahmen (2), umfassend ein neuronales Netz (3) mit:• einem Stapel (31) von Faltungsschichten (31a-31g), wobei jede Faltungsschicht (31a-31g) konfiguriert ist, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und wobei der Stapel (31) konfiguriert ist, jeden Eingabebildrahmen (2) in eine niedrig dimensionierte Darstellung (4) in einem latenten Raum umzuwandeln;• mindestens einer Erkennungseinheit (5, 5a, 5b), die konfiguriert ist, um die niedrig dimensionierten Darstellungen (4) zu Erkennungsdatensätzen (61, 61a, 61b) in Bezug auf ein oder mehrere Objekte (6) zuzuordnen; und• mindestens einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) zwischen dem Stapel (31) von Faltungsschichten (31a-31g) und der Erkennungseinheit (5, 5a, 5b) und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten (31a-31g) in dem Stapel (31) geschaltet ist.

Description

Die vorliegende Erfindung betrifft die Erkennung und/oder Verfolgung von Objekten, insbesondere von bewegten Objekten, basierend auf einer Sequenz von Bildrahmen.
Hintergrund
Ein menschlicher Fahrer, der ein Fahrzeug lenkt, nimmt den Großteil der für die Fahraufgabe relevanten Informationen mit seinen Augen wahr. Daher stellen auch bei der Automatisierung der Fahraufgabe oder eines Teils davon die Informationen aus einer optischen Überwachung der Fahrzeugumgebung eine wichtige Informationsquelle dar.
Insbesondere ist es wichtig, die Trajektorien von allen sich bewegenden Objekten in der Fahrzeugumgebung zu bewerten, um zu bestimmen, ob ein solches Objekt das Potenzial besitzt, die Trajektorie des zu steuernden Fahrzeugs zu kreuzen, sodass eine Anpassung des Verhaltens des zu steuernden Fahrzeugs erforderlich sein kann.
DE 10 2019 214 198 A1 offenbart ein Verfahren zum Erkennen und/oder Verfolgen von Objekten mittels einer Kamera mit ereignisbasierten Sensorelementen. Ein solches ereignisbasiertes Sensorelement gibt ein Ereignis immer dann aus, wenn sich die darauf auftreffende Lichtintensität um mehr als einen vorbestimmten relativen Betrag ändert.
Offenlegung der Erfindung
Die Erfindung sieht eine Bildverarbeitungsvorrichtung zum Erkennen von Objekten in einer Folge von Eingabebildrahmen vor. Die Bildrahmen können Bilder einer beliebigen geeigneten Bildgebungsmodalität umfassen, wie etwa Kamerabilder, Wärmebilder, Radarbilder, Ultraschallbilder oder Lidar-Bilder.
Die Bildverarbeitungsvorrichtung umfasst ein neuronales Netz. Dieses neuronale Netz umfasst einen Stapel von Faltungsschichten. Jede Faltungsschicht ist konfiguriert, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und gibt eine oder mehrere „Feature Maps“ (Merkmalskarten) in Bezug auf bestimmte Bildmerkmale aus, die von den jeweiligen Filterkerneln erkannt werden. Beispielsweise kann eine erste Faltungsschicht im Stapel sehr grundlegende Bildmerkmale erkennen, und spätere Schichten können immer komplexere Merkmale erkennen, die aus den vorherigen grundlegenden Merkmalen bestehen. Das heißt, innerhalb des Stapels werden die von einer Faltungsschicht ausgegebenen Feature Maps als Eingabe an die nächste Faltungsschicht geliefert. Das von dem Stapel von Faltungsschichten ausgegebene Endergebnis ist eine niedrig dimensionierte Darstellung des Eingabebildrahmens in einem latenten Raum.
Die Bildverarbeitungsvorrichtung umfasst ferner mindestens eine Erkennungseinheit, die konfiguriert ist, um die niedrig dimensionierten Darstellungen zu Erkennungsdatensätzen in Bezug auf ein oder mehrere Objekte zuzuordnen. Beispielsweise kann ein solcher Erkennungsdatensatz mindestens eine Bezeichnung eines Begrenzungsbereichs umfassen, die alle zum Objekt gehörenden Pixel enthält. Dieser Begrenzungsbereich kann beispielsweise ein Rechteck („Bounding Box“ = Begrenzungsrahmen) sein, er kann aber auch jede andere geeignete Form aufweisen. Der Erkennungsdatensatz kann auch eine Art des Objekts umfassen. Das heißt, die Erkennungseinheit kann auch konfiguriert sein, um erkannten Objekte einer oder mehreren Typklassen einer gegebenen Klassifizierung zuzuweisen, wie etwa „Fußgänger“, „Fahrzeug“ oder „Fahrspurmarkierung“.
Die Bildverarbeitungsvorrichtung umfasst ferner mindestens eine rekurrente neuronale Netzeinheit, in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden. Insbesondere wenn Informationen durch das rekurrente neuronale Netz verarbeitet werden, können sie mindestens ein Neuron oder eine andere Verarbeitungseinheit mehr als einmal weiterleiten. Auf diese Weise fungiert die rekurrente neuronale Netzeinheit ähnlich wie ein Speicher, der Informationen bezüglich mehrerer vorangehender Rahmen berücksichtigen kann, wenn Informationen bezüglich eines aktuellen Bildrahmens verarbeitet werden.
Auf diese Weise wird durch Verschmelzen von Merkmalen über mehrere Bildrahmen und Nutzen der zusätzlichen räumlichen und zeitlichen Informationen, die in der Sequenz von Bildrahmen verfügbar sind, die Gesamtgenauigkeit der von der mindestens einen Erkennungseinheit ausgegebenen Erkennungsdatensätze verbessert. Insbesondere werden Schwankungen in den Erkennungsdatensätzen reduziert. Beispielsweise gibt es weniger „Lücken“ in der zeitlichen Sequenz von Erkennungsdatensätzen in dem Sinne, dass ein bestimmtes Objekt plötzlich verschwindet und dann einen Rahmen oder einige Rahmen später wieder erscheint.
Außerdem kann das neuronale Netz die Bewegung eines gegebenen Objekts lernen. Dies ermöglicht die Erkennung unterschiedlicher Objekte, selbst wenn sich zwei Objekte signifikant überlappen oder das eine Objekt das andere Objekt teilweise verdeckt. Ein gutes Beispiel dafür ist ein Fußgänger, der den Bürgersteig verlässt und eine Lücke zwischen zwei parkenden Fahrzeugen betritt, um die Straße zu überqueren. Die parkenden Autos können den Fußgänger weitgehend verdecken, sodass aus der Perspektive eines die Straße entlangfahrenden Fahrzeugs möglicherweise nur der Kopf, der Rumpf oder ein Körperteil sichtbar ist. Es ist jedoch wichtig, die Absicht des Fußgängers so schnell wie möglich zu erkennen. Viele Unfälle zwischen von Menschen gesteuerten Fahrzeugen und Fußgängern ereignen sich, weil Fußgänger aus einer Lücke zwischen parkenden Fahrzeugen auf die Straße treten und der Fahrer des Fahrzeugs den Fußgänger nicht rechtzeitig sehen kann.
Zwischen dem Stapel von Faltungsschichten und der Erkennungseinheit und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten im Stapel ist mindestens eine rekurrente neuronale Netzeinheit geschaltet. Unter „zwischen einer ersten Instanz und einer zweiten Instanz geschaltet“ wird hierin verstanden, dass das rekurrente neuronale Netz eine Ausgabe von der ersten Instanz empfängt, diese verarbeitet und das Ergebnis dieser Verarbeitung als Eingabe an die zweite Instanz liefert.
Wenn das rekurrente neuronale Netz zwischen dem Stapel von Faltungsschichten und der Erkennungseinheit geschaltet ist, ergibt sich die Verbesserung der Erkennung weitgehend unabhängig von der Größe von Objekten in den Bildrahmen. Dies ist besonders vorteilhaft für Bilder, die aus der Umgebung eines Fahrzeugs gesammelt werden. Die Größe, mit der Objekte in Bildern erscheinen, hängt dann auch vom Abstand zwischen Fahrzeug und Objekt ab. Sowohl das Fahrzeug als auch das zu erkennende Objekt können sich bewegen. Daher kann der Abstand zwischen beiden und damit die Größe des Objekts in den Bildrahmen innerhalb der Sequenz von Bildrahmen signifikant variieren.
Durch Bewegen der rekurrenten neuronalen Netzeinheit an eine Position zwischen zwei aufeinanderfolgende Faltungsschichten in dem Stapel kann eine gewisse Gewichtung verwendet werden, um die Erkennung kleinerer Objekte zu verbessern.
In einer vorteilhaften Ausführungsform ist einer Erkennungseinheit der Bildverarbeitungsvorrichtung mindestens eine weitere rekurrente neuronale Netzeinheit nachgeschaltet. Auf diese Weise kann eine weitere Verbesserung zur Erkennung größerer Objekte hinzugefügt werden.
Die Anzahl und die Positionen rekurrenter neuronaler Netzeinheiten innerhalb des neuronalen Netzes können als Hyperparameter verwendet werden, die während des Trainings optimiert werden. Beispielsweise können Trainings für unterschiedliche Werte von Hyperparametern durchgeführt werden, und das Ergebnis des Trainings kann durch Testen des neuronalen Netzes an Testdaten bewertet werden. Die Hyperparameter können dann mit dem Ziel optimiert werden, das Ergebnis dieser Bewertung zu verbessern.
Vorzugsweise ist mindestens eine rekurrente neuronale Netzeinheit konfiguriert, um Informationen bezüglich eines aktuellen Bildrahmens basierend auf Informationen zu verarbeiten, die sich auf zwischen 2 und 5 vorangehende Rahmen in der Sequenz beziehen. Bei 30 Rahmen pro Sekunde entspricht dies einem Zeitintervall zwischen 66 und 166 Millisekunden. Ein „Speicherhorizont“ zwischen 2 und 5 Bildrahmen ist besonders vorteilhaft für das Erkennen und Verfolgen von verkehrsrelevanten Objekten. Auch der konkrete Wert des „Speicherhorizonts“ kann als Hyperparameter während des Trainings optimiert werden.
Ein Beispiel für eine rekurrente neuronale Netzeinheit, die vorteilhafterweise in der vorliegenden Bildverarbeitungsvorrichtung verwendet werden kann, ist eine gattergesteuerte rekurrente Einheit (Gated Recurrent Unit, GRU). Eine GRU funktioniert ähnlich wie ein Long Short-Term Memory (LSTM) mit einem Forget Gate (Vergesstor), aber ihr Verhalten ist durch weniger Parameter gekennzeichnet. Dadurch verringert sich wiederum die Tendenz der „Überanpassung“ an die Trainingsdaten während des Trainings.
In einer weiteren vorteilhaften Ausführungsform sind die Architekturen des Stapels von Faltungsschichten und der mindestens einen Erkennungseinheit so gewählt, dass der Stapel von Faltungsschichten und die mindestens eine Erkennungseinheit einen YOLOv3-Objektdetektor implementieren. Ein YOLOv3-Objektdetektor ist sowohl beim Training als auch bei der Inferenz besonders schnell.
In einer weiteren besonders vorteilhaften Ausführungsform umfasst die Bildverarbeitungsvorrichtung mindestens einen Objektverfolger, der konfiguriert ist, um die Trajektorien von Objekten über die Sequenz von Bildrahmen basierend auf Erkennungsdatensätzen zu verfolgen, wie sie von der Erkennungseinheit geliefert und/oder von einer rekurrenten neuronalen Netzeinheit, die der Erkennungseinheit nachgeschaltet ist, abgeändert werden. Die verbesserte Qualität der Erkennungsdatensätze erzeugt dann in Kombination mit dem Objektverfolger einen synergistischen Effekt: Komplexe und rechenintensive Objektverfolger können Rauschen, Lücken oder andere Defizite in den Erkennungsdatensätzen weitgehend bewältigen. Im Gegensatz dazu gehen einfache und rechengünstige Objektverfolger von der Annahme aus, dass die Erkennungsdatensätze eine hohe Qualität besitzen, und ihre gute Leistung hängt davon ab, dass diese Annahme sich bewahrheitet. Da nun Erkennungsdatensätze mit besserer Qualität verfügbar sind, kann somit ein einfacher und rechengünstiger Objektverfolger verwendet werden.
Im Wesentlichen ermöglicht die Bildverarbeitungsvorrichtung, wenn das gewünschte Endergebnis die Verfolgung von mindestens einer Trajektorie des Objekts ist, eine günstigere Aufteilung der Gesamtkomplexität in die erste Stufe der Objekterkennung und die zweite Stufe der Objektverfolgung, sodass eine gegebene Qualität des Endergebnisses mit einem geringeren Gesamtrechenaufwand erreicht werden kann. Dies ist in gewisser Weise vergleichbar damit, die Aufgabe, einen 2-Meter-Sprung durchzuführen, zu unterteilen, indem zuerst ein Sprung auf eine Zwischenstufe erfolgt und dann ein Sprung auf die noch ausstehende Höhe zum 2-Meter-Ziel ausgeführt wird. In diesem Beispiel wird durch die Festlegung der Zwischenstufe auf eine Höhe von 1 m die Komplexität gleichmäßig auf zwei Stufen aufgeteilt und ist optimal, da der höchste Sprung, der in einem Zug ausgeführt werden muss, ausschlaggebend für die Gesamtschwierigkeit ist.
Somit ist in einer weiteren besonders vorteilhaften Ausführungsform der Objektverfolger konfiguriert, um eine Intersection over Union (loU) von Begrenzungsbereichen in Erkennungsdatensätzen auszuwerten, die aus aufeinanderfolgenden Bildrahmen in der Sequenz erhalten werden. Insbesondere wenn eine solche loU hoch genug ist, kann der Objektverfolger daraus schließen, dass die aus den aufeinanderfolgenden Bildrahmen erhaltenen Erkennungsdatensätze zu derselben Objektinstanz gehören und eine fortlaufende Trajektorie dieser Objektinstanz beschreiben. Wenn ein aus dem vorangehenden Rahmen erhaltener Erkennungsdatensatz keinem geeigneten Erkennungsdatensatz entspricht, der gemäß dem loU-Kriterium aus einem nachfolgenden Rahmen erhalten wurde, dann kann davon ausgegangen werden, dass die Trajektorie mit diesem Erkennungsdatensatz endet. Wenn ein Erkennungsdatensatz basierend auf dem nachfolgenden Rahmen erneut erscheint, ohne einem Erkennungsdatensatz zu entsprechen, der aus dem vorangegangenen Rahmen gemäß dem loU-Kriterium ausreichend gut erhalten wurde, dann kann davon ausgegangen werden, dass eine neue Trajektorie mit diesem erneut erschienenen Erkennungsdatensatz beginnt.
Die Erfindung stellt auch ein Verfahren zur Herstellung der Bildverarbeitungsvorrichtung bereit.
Bei diesem Verfahren wird das neuronale Netz mit dem Stapel von Faltungsschichten, der mindestens einen Erkennungseinheit, der mindestens einen rekurrenten Netzeinheit und optional dem Objektverfolger bereitgestellt. Außerdem wird eine Trainingssequenz von Trainingsbildrahmen in Kombination mit Ground-Truth-Erkennungsdatensätzen und/oder mit Ground-Truth-Verfolgungsergebnissen bereitgestellt.
Parameter, die das Verhalten des neuronalen Netzes charakterisieren, und/oder Hyperparameter, die die Architektur des neuronalen Netzes charakterisieren, und/oder Parameter, die das Verhalten des Objektverfolgers charakterisieren, werden mit dem Ziel optimiert, dass

• die Erkennungsdatensätze, die von der mindestens einen Erkennungseinheit ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen übereinstimmen, und/oder
• die von dem Objektverfolger ausgegebenen Verfolgungsergebnisse mit den Ground-Truth-Verfolgungsergebnissen übereinstimmen.

Hierbei können die Verfolgungsergebnisse jede Form aufweisen und sie können mit Ground-Truth-Verfolgungsergebnissen unter Verwendung einer beliebigen Metrik verglichen werden, die für die vorliegende Anwendung geeignet ist. Wenn beispielsweise eine von der Bildverarbeitungsvorrichtung während des Trainings ausgegebene Trajektorie mit einer Ground-Truth-Trajektorie verglichen wird, ist eine mögliche Metrik für die Übereinstimmung die mittlere Abweichung zwischen den Trajektorien. Alternativ dazu oder in Kombination damit kann eine maximale Abweichung zwischen den Trajektorien in die Metrik einfließen.
In einer besonders vorteilhaften Ausführungsform entsprechen die Ground-Truth-Erkennungsdatensätze aufeinanderfolgenden Trainingsbildrahmen in der Trainingssequenz. Das Ziel der Optimierung besteht darin, das Verschwinden und anschließende Wiedererscheinen ein und desselben Objekts in den Erkennungsdatensätzen beim Fortschreiten der Trainingssequenz zu minimieren. Solche „Lücken“ oder „Flimmern“ weisen, wie bereits erörtert, eine besondere Tendenz auf, die Verfolgungsergebnisse von Objektverfolgern zu beeinträchtigen. Besonders anfällig dafür sind einfache, rechengünstige Objektverfolger, wie etwa loU-Verfolger. Sie profitieren daher am meisten von einer Reduzierung derartiger Störungen in den Erkennungsdatensätzen.
Wie vorstehend erörtert, ist die Überwachung einer bestimmten Umgebung ein Hauptanwendungsfall für die Verfolgung von Objekten. Dies ist nicht auf Umgebungen um ein sich bewegendes Fahrzeug beschränkt. Wenn beispielsweise ein Überwachungssystem Räumlichkeiten zum Schutz vor Einbruch überwacht, ist es auch von Vorteil, das zukünftige Verhalten von verfolgten Objekten vorherzusagen. Beispielsweise können bestimmte Bewegungsmuster von Fußgängern ein Hinweis darauf sein, dass Erkundungsinformationen zur Vorbereitung eines anstehenden Einbruchsversuchs gesammelt werden.
Die Erfindung stellt daher auch ein Verfahren zum Überwachen einer Umgebung bereit.
Bei diesem Verfahren wird mittels mindestens eines Sensors eine Sequenz von Bildrahmen von zumindest einem Teil der Umgebung erfasst. Diese Sequenz von Bildrahmen wird an die vorstehend beschriebenen Bildverarbeitungsvorrichtung geliefert. Von der Bildverarbeitungsvorrichtung und/oder von einem Objektverfolger, der Erkennungsdatensätze von der Bildverarbeitungsvorrichtung erhält (wenn diese Vorrichtung nur Erkennungsdatensätze liefert), wird die Trajektorie von mindestens einem Objekt erhalten. Basierend auf dieser Trajektorie wird das zukünftige Verhalten mindestens eines Objekts vorhergesagt.
Die bessere Qualität der Erkennungsdatensätze und damit auch der erhaltenen Trajektorie wird wahrscheinlich auch die Genauigkeit der Vorhersage verbessern.
In einer weiteren vorteilhaften Ausführungsform wird aufgrund des prognostizierten Verhaltens ein Ansteuersignal bestimmt. Mit diesem Ansteuersignal wird ein Fahrzeug und/oder ein Überwachungssystem angesteuert. Beispielsweise kann ein Fahrzeug seine geplante Trajektorie so abändern, dass es die vorhergesagte Trajektorie eines verfolgten Objekts nicht mehr schneidet, wodurch eine Kollision mit dem verfolgten Objekt vermieden wird. Ein Überwachungssystem kann nur dann einen Alarm auslösen oder die Bildrahmen für zukünftige Untersuchungen speichern, wenn das vorhergesagte Verhalten von Objekten im überwachten Bereich verdächtig ist. Da die Vorhersage genauer ist, wird die Wahrscheinlichkeit erhöht, dass die vom Fahrzeug und/oder vom Überwachungssystem in Reaktion auf das Ansteuersignal ergriffene Maßnahme in der gegebenen Situation angemessen ist.
Die vorstehend beschriebenen Verfahren können ganz oder teilweise Computerimplementiert und somit in Software verkörpert sein. Die Erfindung betrifft daher auch ein Computerprogramm, das maschinenlesbare Anweisungen umfasst, die bei Ausführung durch einen oder mehrere Computer ein Upgrade für den einen oder die mehreren Computer auf die vorstehend beschriebene Bildverarbeitungsvorrichtung vornehmen und/oder den einen oder die mehreren Computer veranlassen, eines der vorstehend beschriebenen Verfahren durchzuführen. In diesem Zusammenhang sind als Computer auch Steuergeräte für Fahrzeuge sowie andere eingebettete Systeme zu verstehen, die ausführbaren Programmcode ausführen können. Ein nichtflüchtiges Speichermedium und/oder ein Downloadprodukt kann das Computerprogramm umfassen. Ein Downloadprodukt ist ein elektronisches Produkt, das online verkauft und zur sofortigen Kaufabwicklung über ein Netzwerk übertragen werden kann. Ein oder mehrere Computer können mit dem Computerprogramm und/oder mit dem nichtflüchtigen Speichermedium und/oder dem Downloadprodukt ausgestattet sein.
Im Folgenden werden die Erfindung und ihre bevorzugten Ausführungsformen anhand von Figuren veranschaulicht, ohne dass die Absicht besteht, den Umfang der Erfindung einzuschränken.
Die Figuren zeigen:

1: Ausführungsbeispiel der Bildverarbeitungsvorrichtung 1;
2: Ausführungsbeispiel des Verfahrens 100 zur Herstellung der Bildverarbeitungsvorrichtung 1;
3: Ausführungsbeispiel des Verfahrens 200 zur Überwachung einer Umgebung 10.

1 ist eine schematische Zeichnung eines Ausführungsbeispiels der Bildverarbeitungsvorrichtung 1. Die Bildverarbeitungsvorrichtung 1 umfasst ein neuronales Netz 3, das Bildrahmen 2 als Eingabe erhält und Erkennungsdatensätze 61 von Objekten 6 als Ausgabe erzeugt.
Zu diesem Zweck umfasst das neuronale Netz einen Stapel 31 von Faltungsschichten 31a-31g, der die eingegebenen Bildrahmen 2 in niedrig dimensionierte Darstellungen 4 in einem latenten Raum umwandelt. Mittels einer ersten rekurrenten neuronalen Netzeinheit 7a werden diese Darstellungen 4 zu modifizierten Darstellungen 4' verarbeitet. Wie zuvor erörtert, bleiben weitere zeitliche Informationen aus mehreren vorangehenden Rahmen in den modifizierten Darstellungen 4' erhalten.
Die modifizierten Darstellungen 4' werden an eine ersten Erkennungseinheit 5a geliefert, die die Erkennungsdatensätze 61a in einem ersten Größenmaßstab erzeugt. Diese Erkennungsdatensätze 61b werden von einer zweiten rekurrenten neuronalen Netzeinheit 7b verarbeitet, um die modifizierte Erkennungsdatensätze 61a' zu erhalten. Die erste Erkennungseinheit 5a wird kaskadierend zu einer zweiten Erkennungseinheit 5b angeordnet, die die Erkennungsdatensätzen 61b in einem zweiten Größenmaßstab erzeugt. Diese Erkennungsdatensätze 61b werden von einer dritten rekurrenten neuronalen Netzeinheit 7c verarbeitet, um die modifizierte Erkennungsdatensätze 61b' zu erhalten. Das Upsampling und weitere Verarbeitungen für den Wechsel von dem ersten Größenmaßstab zum zweiten Größenmaßstab wurden aus Gründen der Klarheit in 1 weggelassen.
Die modifizierten Erkennungsdatensätze 61a', 61b' in den verschiedenen Größenmaßstäben werden von dem Objektverfolger 8 verarbeitet, der die Trajektorien 62 der Objekte 6 ausgibt. In dem in 1 gezeigten Beispiel ist dieser Objektverfolger 8 vom neuronalen Netz 3 unabhängig. Der Objektverfolger 8 kann aber auch Teil des neuronalen Netzes 3 sein.
2 ist ein schematisches Flussdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Herstellen der Bildverarbeitungsvorrichtung 1.
In Schritt 110 wird das neuronale Netz 3 mit dem Stapel 31 von Faltungsschichten 31a-31g, der mindestens einen Erkennungseinheit 5, 5a, 5b und der mindestens einen rekurrenten Netzeinheit 7, 7a-7c bereitgestellt.
Wenn die Bildverarbeitungsvorrichtung 1 die Trajektorien 62 anstelle nur der Erkennungsdatensätze 61, 61a, 61b für die Objekte 6 ausgeben soll, wird der Objektverfolger 8 in Schritt 115 bereitgestellt. Der Objektverfolger 8 kann Teil des neuronalen Netzes 3 sein, kann aber auch ein unabhängiges neuronales Netz oder eine andere Verarbeitungseinheit sein. Das Verhalten des Objektverfolgers 8 kann durch die Parameter 8a charakterisiert werden. Der Objektverfolger 8 kann in einem Zustand bereitgestellt werden, in dem die Parameter 8a noch trainiert werden müssen. Er kann jedoch auch in einem einsatzbereiten Zustand bereitgestellt werden, in dem alle Parameter 8a bereits ihre Endwerte aufweisen und kein weiteres Training erforderlich ist. Der Objektverfolger 8 kann auch in einem vortrainierten Zustand bereitgestellt werden, in dem er bereits bis zu einem gewissen Grad einsatzfertig ist, wobei die Parameter 8a noch durch weiteres Training verfeinert werden müssen.
In Schritt 120 wird eine Trainingssequenz der Trainingsbildrahmen 2a in Kombination mit den Ground-Truth-Erkennungsdatensätzen 2b und/oder mit den Ground-Truth-Verfolgungsergebnissen 2c bereitgestellt.
In Schritt 130 werden die Parameter 3a, die das Verhalten des neuronalen Netzes 3 charakterisieren, und/oder die Hyperparameter 3b, die die Architektur des neuronalen Netzes 3 charakterisieren, und/oder die Parameter 8a, die das Verhalten des Objektverfolgers 8 charakterisieren, mit dem Ziel optimiert, dass

• die Erkennungsdatensätze 61, 61a, 61b, die von der mindestens einen Erkennungseinheit 5, 5a, 5b ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen 2b übereinstimmen, und/oder
• die von dem Objektverfolger 8 ausgegebenen Verfolgungsergebnisse 62 mit den Ground-Truth-Verfolgungsergebnissen 2c übereinstimmen.

Die endgültig optimierten Zustände der Parameter 3a, der Hyperparameter 3b und der Parameter 8a sind mit den Bezugszeichen 3a*, 3b* bzw. 8a* gekennzeichnet. Mit diesen endgültig optimierten Parametern 3a*, 3b* und 8a* ist die Bildverarbeitungsvorrichtung 1 nun einsatzbereit.
Gemäß Block 121 können die Ground-Truth-Erkennungsdatensätze 2b den aufeinanderfolgenden Trainingsbildrahmen 2a in der Trainingssequenz entsprechen. Gemäß Block 131 kann das Ziel der Optimierung dann das Minimieren des Verschwindens und anschließenden Wiedererscheinens ein und desselben Objekts 6 in den Erkennungsdatensätzen 61, 61a, 61b beim Fortschreiten der Trainingssequenz umfassen.
3 ist ein schematisches Flussdiagramm einer Ausführungsform des Verfahrens 200 zur Überwachung einer Umgebung 10.
In Schritt 210 wird mithilfe von mindestens einem Sensor 9 eine Sequenz von Bildrahmen erfasst.
In Schritt 220 wird die Sequenz von Bildrahmen 2 an die Bildverarbeitungsvorrichtung 1 geliefert. Die Bildverarbeitungsvorrichtung 1 kann vor Ort bereitgestellt werden, aber auch beispielsweise in einer Cloud aufgerufen werden.
In Schritt 230 wird die Trajektorie 62 von mindestens einem Objekt 6 von der Bildverarbeitungsvorrichtung 1 und/oder von einem Objektverfolger 8 erhalten, der Erkennungsdatensätze von der Bildverarbeitungsvorrichtung 1 erhält.
In Schritt 240 wird basierend auf der erhaltenen Trajektorie 62 das zukünftige Verhalten 63 des mindestens einen Objekts 6 vorhergesagt.
In Schritt 250 wird ein Ansteuersignal 250a aus dem vorhergesagten Verhalten 63 bestimmt. In Schritt 260 wird ein Fahrzeug 50 und/oder ein Überwachungssystem 60 mit dem Ansteuersignal 250a angesteuert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102019214198 A1 [0004]

Claims

Bildverarbeitungsvorrichtung (1) zur Erkennung von Objekten in einer Sequenz von Eingabebildrahmen (2), umfassend ein neuronales Netz (3) mit: • einem Stapel (31) von Faltungsschichten (31a-31g), wobei jede Faltungsschicht (31a-31g) konfiguriert ist, um einen oder mehrere Filterkernel auf ihre Eingaben anzuwenden, und wobei der Stapel (31) konfiguriert ist, jeden Eingabebildrahmen (2) in eine niedrig dimensionierte Darstellung (4) in einem latenten Raum umzuwandeln; • mindestens einer Erkennungseinheit (5, 5a, 5b), die konfiguriert ist, um die niedrig dimensionierten Darstellungen (4) zu Erkennungsdatensätzen (61, 61a, 61b) in Bezug auf ein oder mehrere Objekte (6) zuzuordnen; und • mindestens einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), in der Verbindungen zwischen Neuronen oder anderen Verarbeitungseinheiten einen gerichteten Graphen entlang einer zeitlichen Sequenz bilden, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) zwischen dem Stapel (31) von Faltungsschichten (31a-31g) und der Erkennungseinheit (5, 5a, 5b) und/oder zwischen zwei aufeinanderfolgenden Faltungsschichten (31a-31g) in dem Stapel (31) geschaltet ist.
Bildverarbeitungsvorrichtung (1) nach Anspruch 1, wobei mindestens eine weitere rekurrente neuronale Netzeinheit (7) nach einer Erkennungseinheit (5a, 5b) der Bildverarbeitungsvorrichtung (1) geschaltet ist.
Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 2, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) konfiguriert ist, um Informationen bezüglich eines aktuellen Bildrahmens (2) basierend auf Informationen zu verarbeiten, die sich auf zwischen 2 und 5 vorangehende Rahmen (2) in der Sequenz beziehen.
Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 3, wobei mindestens eine rekurrente neuronale Netzeinheit (7, 7a-7c) eine gattergesteuerte rekurrente Einheit (Gated Recurrent Unit, GRU) umfasst.
Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 4, wobei die Architekturen des Stapels (31) von Faltungsschichten (31a-31g) und der mindestens einen Erkennungseinheit (5, 5a, 5b) so gewählt sind, dass der Stapel (31) von Faltungsschichten (31a-31g) und die mindestens eine Erkennungseinheit (5, 5a, 5b) einen YOLOv3-Objektdetektor implementieren.
Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 5, wobei ein Erkennungsdatensatz (61, 61a, 61b) in Bezug auf mindestens ein Objekt (6) mindestens umfasst: eine Bezeichnung eines Begrenzungsbereichs, der alle zum Objekt (6) gehörenden Pixel enthält, und optional eine Art des Objekts (6).
Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 6, ferner umfassend mindestens einen Objektverfolger (8), der konfiguriert ist, um die Trajektorien (62) von Objekten (6) über die Sequenz von Bildrahmen (2) basierend auf den Erkennungsdatensätzen (61, 61a, 61b) zu verfolgen, wie sie von der Erkennungseinheit (5, 5a, 5b) geliefert und/oder von einer rekurrenten neuronalen Netzeinheit (7, 7a-7c), die der Erkennungseinheit (5, 5a, 5b) nachgeschaltet ist, abgeändert werden.
Bildverarbeitungsvorrichtung (1) nach den Ansprüchen 6 und 7, wobei der Objektverfolger (8) konfiguriert ist, um eine Intersection over Union (loU) von Begrenzungsbereichen in Erkennungsdatensätzen (61, 61a, 61b) auszuwerten, die aus aufeinanderfolgenden Bildrahmen (2) in der Sequenz erhalten werden.
Verfahren (100) zur Herstellung der Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8, umfassend: • Bereitstellen (110) des neuronalen Netzes (3) mit dem Stapel (31) von Faltungsschichten (31a-31g), der mindestens einen Erkennungseinheit (5, 5a, 5b), der mindestens einen rekurrenten Netzeinheit (7, 7a-7c); • optionales Bereitstellen (115) des Objektverfolgers (8); • Bereitstellen (120) einer Trainingssequenz der Trainingsbildrahmen (2a) in Kombination mit den Ground-Truth-Erkennungsdatensätzen (2b) und/oder mit den Ground-Truth-Verfolgungsergebnissen (2c); und • Optimieren (130) von Parametern (3a), die das Verhalten des neuronalen Netzes (3) charakterisieren, und/oder der Hyperparameter (3b), die die Architektur des neuronalen Netzes (3) charakterisieren, und/oder der Parameter (8a), die das Verhalten des Objektverfolgers (8) charakterisieren, mit dem Ziel, dass o die Erkennungsdatensätze (61, 61a, 61b), die von der mindestens einen Erkennungseinheit (5, 5a, 5b) ausgegeben werden, mit den Ground-Truth-Erkennungsdatensätzen (2b) übereinstimmen, und/oder o die von dem Objektverfolger (8) ausgegebenen Verfolgungsergebnisse (62) mit den Ground-Truth-Verfolgungsergebnissen (2c) übereinstimmen.
Verfahren (100) nach Anspruch 9, wobei die Ground-Truth-Erkennungsdatensätze (2b) den aufeinanderfolgenden Trainingsbildrahmen (2a) in der Trainingssequenz entsprechen und wobei das Ziel der Optimierung das Minimieren (131) des Verschwindens und anschließenden Wiedererscheinens ein und desselben Objekts (6) in den Erkennungsdatensätzen (61, 61a, 61b) beim Fortschreiten der Trainingssequenz umfasst.
Verfahren (200) zur Überwachung einer Umgebung (10), umfassend die Schritte: • Erfassen (210) einer Sequenz von Bildrahmen (2) von mindestens einem Teil der Umgebung (10) mittels mindestens eines Sensors (9); • Liefern (220) der Sequenz von Bildrahmen (2) an die Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8; • Erhalten (230), von der Bildverarbeitungsvorrichtung (1) und/oder von einem Objektverfolger (8), der Erkennungsdatensätze (61, 61a, 61b) von der Bildverarbeitungsvorrichtung (1) erhält, der Trajektorie (62) von mindestens einem Objekt (6); und • Vorhersagen (240), basierend auf der erhaltenen Trajektorie (62), des zukünftigen Verhaltens (63) des mindestens einen Objekts (6).
Verfahren (200) nach Anspruch 11, ferner umfassend: • Bestimmen (250) eines Ansteuersignals (250a) aus dem vorhergesagten Verhalten (63); und • Ansteuern (260) eines Fahrzeugs (50) und/oder eines Überwachungssystems (60) mit dem Ansteuersignal (250a).
Computerprogramm, umfassend maschinenlesbare Anweisungen, die bei Ausführung durch einen oder mehrere Computer ein Upgrade für den einen oder die mehreren Computer auf die Bildverarbeitungsvorrichtung (1) nach einem der Ansprüche 1 bis 8 vornehmen und/oder den einen oder die mehreren Computer veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 9 bis 12 durchzuführen.
Maschinenlesbares nichtflüchtiges Speichermedium und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 13.
Computer oder mehrere Computer mit dem Computerprogramm nach Anspruch 13 und/oder mit dem nichtflüchtigen Speichermedium und/oder Downloadprodukt nach Anspruch 14.