-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswertung von Bilddaten einer Stereokamera und kann insbesondere im Rahmen einer Objektbewertung bei einer Fahrzeugkamera für ein System zum assistierten oder automatisierten Fahren eingesetzt werden.
-
Insbesondere bei kleinen (nicht unmittelbar klassifizierbaren) Objekten in großer Entfernung, die gelegentlich auf Fahrbahnen liegen, kommt es auf eine genaue Entfernungs- und Höhenbestimmung an, damit rechtzeitig eine Bewertung bzw. Entscheidung getroffen werden kann, ob diese Objekte durch ein Fahrzeug überfahren werden können. Ab einer bestimmten Höhe stellt das Überfahren eine Gefahr für die Fahrzeuginsassen dar und sollte vermieden werden. Dies ist eine Aufgabe von aktuellen und zukünftigen Systemen zum assistierten oder automatisierten Fahren (ADAS, Advanced Driver Assistance Systems oder AD, Automated Driving). Mit einem Monokamerasystem als Umgebungserfassungssensor eines ADAS oder AD-Systems kann die erforderliche Entfernungs- und Höhenbestimmung nicht zuverlässig durchgeführt werden kann.
-
Mit Stereokameras kann nicht nur ein 2-dimensionales Abbild der Umgebung aufgenommen werden, sondern auch - wegen der Aufnahme der Umgebung aus zwei unterschiedlichen Positionen durch die beiden versetzt angeordneten Kameramodule der Stereokamera - die Entfernung zu erkannten Mustern (bzw. Bildmerkmalen) bestimmt werden. So lässt sich die 3D-Geometrie von erfassten Objekten rekonstruieren. Eine etablierte Methode beruht auf dem „Semi Global Matching“ (SGM)-Verfahren. H. Hirschmüller, „Accurate and efficient stereo processing by semiglobal matching and mutual information,“ in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.807-814 sowie H. Hirschmüller, https://elib.dlr.de/73119/1/180Hirschmueller.pdf, abgerufen am 28.9.2020, zeigen SGM-Verfahren.
-
P. Pinggera et al.: „Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles“. 2016 IEEE (RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), p. 1099-1106, XP055524702, DOI: 10.1109/IROS.2016.7759186, sowie
D. Krökel et al.: „Camera Based Lost Cargo Detection for Automated Driving“, Proceedings SIA VISION 2018, zeigen Lösungsansätze zu der beschriebenen Thematik.
Um entfernte Objekte mittels SGM- oder anderen Verfahren zur Auswertung von Stereobildern hinreichend in 3D rekonstruieren zu können, ist eine hohe Auflösung der Stereobilder erforderlich. Infolge der hohen Auflösung steigt die für SGM-Verfahren erforderliche Rechenzeit sehr stark an.
-
Es ist eine Aufgabe der Erfindung Lösungen für eine verbesserte Objektdetektion mittels einer Stereokamera bereitzustellen, die eine zuverlässige Objektbewertung oder -klassifikation ermöglicht.
-
Einen vielversprechenden Ausgangspunkt bildet eine Monokamerabild-basierte Objektdetektion, z.B. mittels maschinellem Lernen (machine learning) trainiert für tiefe neuronale Netzwerke wie Convolutional neural networks (CNN). Die Objektdetektion hat eine sehr hohe Erkennungsrate für unbestimmte Gegenstände auf der Fahrbahn (siehe Krökel et al.). Allerdings hat diese Methode in manchen Situationen noch Nachteile bzw. Schwierigkeiten:
- - Mit diesem Verfahren kann keine Objekthöhe bestimmt werden. Dies ist unerlässlich für die Bewertung der Überfahrbarkeit.
- - Es werden häufig auch Markierungen und andere z.B. durch Schattenwürfe hervorgerufene Flecken auf der Fahrbahn fälschlicherweise als potentiell kritische Gegenstände erkannt.
-
In Krökel et al. wird vorgeschlagen, eine CNN-basierte Objektdetektion und ein Stereo-Verfahren zu kombinieren, um verlässlich kleine Objekte auf der Fahrbahn zu erkennen.
-
Eine Grundidee der im Folgenden näher beschriebenen Lösung ist es, den Suchbereich für die Auswertung von Stereobildern (z.B. für eine Objekterkennung für Stereokamerasysteme) einzuschränken und damit die Objekterkennung und Höhenbestimmung insbesondere von schwer zu erkennenden Objekten wie beispielsweise verlorenen Gegenstände auf Fahrbahnen zu verbessern.
-
Die Lösung basiert auf einem Stereoauswertungs-Verfahren wie z.B. Semi-Global-Matching.
-
Ein erfindungsgemäßes Verfahren zur Auswertung von Bilddaten einer Stereokamera umfasst die Schritte:
- a) Empfangen von Bilddaten mit einer ursprünglichen Auflösung, die von der Stereokamera erfasst worden sind;
- b) Empfangen oder Berechnen von Bilddaten mit reduzierter Auflösung
- c) Detektieren von Objekten aus 2D-Bilddaten eines Kameramoduls der Stereokamera;
- d) Durchführen eines Stereoauswertungsverfahrens mit der ursprünglichen Auflösung in einem Suchbereich der Bilddaten mit einem detektierten Objekt und mit reduzierter Auflösung im übrigen Bereich der Bilddaten, um 3D-Informationen des Objekts und der Umgebung zu bestimmen; und
- e) Ausgabe der 3D-Informationen.
-
Eine Stereokamera kann innerhalb eines Gehäuses angeordnet sein, so dass beide Kameramodule bzw. Optroniken mechanisch starr miteinander verbunden sind. Alternativ können die Kameramodule wie in
DE 102016217450 A1 beschrieben als Einzelkameras an unterschiedlichen Bereichen in oder an einer Vorrichtung oder einem Fahrzeug befestigt sein. Die beiden Kameramodule können identische Komponenten (Optik und Bildaufnahmesensor) aufweisen.
-
Vorstellbar sind jedoch auch unterschiedliche Komponenten, wie beispielsweise
WO 2017/028848 A1 zeigt. Die Stereokamera kann aus einem Weitwinkel- und einem Telekameramodul aufgebaut sein.
-
Eine Stereoauswertung ist grundsätzlich im „Überlappungsbereich“ der Bildbereiche zweier Kameramodule möglich.
-
Die Stereokamera, die in oder an einem Fahrzeug befestigt ist (fahrzeuggebundene Stereokamera) kann beispielsweise hinter der Windschutzscheibe im Inneren des Fahrzeugs angeordnet sein und zwei Kameramodule umfassen, die den vor dem Fahrzeug liegenden Bereich der Fahrzeugumgebung durch die Windschutzscheibe erfassen und abbilden können.
-
Die ursprüngliche bzw. native Auflösung (Pixelzahl) der Bildaufnahmesensoren bestimmt die maximale Auflösung der erfassten Bilddaten. Die maximale Auflösung kann beispielsweise deutlich über einem Megapixel, größer gleich 5 oder 8 Megapixeln liegen. Es gibt Optroniken, die ihrerseits Bilddaten mit reduzierter Auflösung bereitstellen können. Beispielsweise können mittels Pixelbinning mehrere benachbarte Pixel zusammengefasst werden, wodurch die Auflösung des Bildes reduziert wird. Typischerweise werden beim Pixelbinning immer zwei (zeilen- oder spaltenweises Binning) oder vier Pixel (spalten- und zeilenweises Binning) zu einem neuen Bildpunkt kombiniert.
-
Von derartigen Optroniken ausgegebene Bilddaten mit reduzierter Auflösung können von einer Auswertungsvorrichtung empfangen werden.
-
Sofern die Stereokamera(-module) die Bilddaten nur mit maximaler (nativer) Auflösung ausgibt, können Bilder mit reduzierter Auflösung im Rahmen des Verfahrens zur Auswertung berechnet werden. Mit anderen Worten findet hierbei die Reduktion der Auflösung (bzw. das Pixelbinning) in der Auswertungsvorrichtung statt.
-
Je nach nativer Auflösung der Bilder des linken und des rechten Stereokameramoduls kann die Reduktion der Auflösung für das linke und rechte Bild in gleicher Weise durchgeführt oder individuell angepasst werden.
-
Zur Detektion von Objekten aus 2D-Bilddaten gibt es viele Verfahren, z.B. Kantenerkennung, Gradienten-basierte Verfahren, Mustererkennung, etc. Fortschrittliche Verfahren bedienen sich dazu häufig künstlicher neuronaler Netzwerke. Die zu erkennenden Objekte können beispielsweise kleine Objekte sein, die nicht unmittelbar klassifizierbar sind, da sie keiner der typischen Objektklasse wie „Fahrzeug“, „Fußgänger“, „Radfahrer“, etc. entsprechen. Beispiele von kleinen Objekten bzw. Gegenständen, die auf einer Fahrbahn liegen, sind zum Beispiel:
- Fahrzeugteile, Felgen, Reifenteile, Gepäckstücke, verlorene Ladung, Steine und dergleichen mehr.
-
Ab einer bestimmten Höhe, wie z.B. 10 oder 15 Zentimetern, stellt das Überfahren derartiger Objekte eine Gefahr für die Fahrzeuginsassen dar und sollte vermieden werden. Dazu kann eine Objektbewertung stattfinden, bei der die Objektgeometrie berücksichtigt wird, um die Gefahr einzuschätzen, die das Überfahren des Objekts durch das Fahrzeug darstellt.
-
Ein künstliches neuronales Netzwerk kann dazu trainiert werden, Objekte zu detektieren bzw. zu erkennen, deren Überfahren zu vermeiden ist, beispielsweise im Rahmen einer semantischen Segmentierung. Sofern im Bereich der Fahrbahn ein Segment aufgefunden wird, das nicht dem Segment „Fahrbahnoberfläche“ und auch keinem typischen Objekt zugeordnet werden kann, wird dieses als „potentiell kritisches Objekt“ identifiziert.
-
Dieses Segment soll nun im Rahmen einer Stereoauswertung genauer analysiert werden, insbesondere hinsichtlich der Entfernung des Objekts zur Kamera und der 3D-Objektgeometrie (3D-Informationen), insbesondere der Objekthöhe. Hierzu kann ein Matching-Verfahren (Korrespondenzsuche) zwischen linkem und rechtem Stereobild durchgeführt werden, beispielsweise ein Semi-Global-Matching.
-
Der Suchbereich wird nun so vorgegeben, dass das (Segment mit dem) potentiell kritische(n) Objekt darin enthalten ist. Im Suchbereich wird nun das Stereoauswertungsverfahren, z.B. Semi-Global Matching zwischen linkem und rechtem Bild, mit der ursprünglichen (d.h. der maximalen) Auflösung durchgeführt.
-
Mit anderen Worten wird der Suchbereich für die Stereoauswertung mit maximaler Auflösung eingeschränkt. Eine Stereoauswertung dient - wie der Name andeutet - dazu, aus einem Stereobild räumliche Informationen zu ermitteln. Es gibt Stereoauswertungsverfahren, bei denen ein künstliches neuronales Netzwerk dazu trainiert wurde, aus Stereobildern als Eingangsdaten eine 3D-Rekonstruktion zu bestimmen und auszugeben. Die Stereoauswertung kann die 3D-Rekonstruktion als Tiefeninformationen bereitstellen, beispielsweise in Form einer Disparitätskarte, Tiefenkarte oder 3D-Punktwolke. Hieraus lassen sich die Entfernungen von Bildpunktobjekten zur Stereokamera ermitteln und die Höhe der Objekte im realen Raum rekonstruieren.
-
Das Verfahren lässt sich allgemein für Stereokamerasysteme verwenden, bei denen ein zu erwartender Disparitätsbereich für ein detektiertes Objekt abgeschätzt werden kann.
-
Die 3D-Informationen über die von der Stereokamera erfasste Umgebung außerhalb des oder der Suchbereiche (d.h. von Bildbereichen ohne detektiertes Objekt) ist für das Verständnis der Umgebungssituation wesentlich und wird ebenfalls mittels eines Stereoauswertungsverfahrens ermittelt. Hierbei ist jedoch nicht die ursprüngliche (maximale) Auflösung der Bilddaten der beiden Stereokameramodule zugrunde zu legen, sondern Bilddaten mit reduzierter Auflösung, z.B. ¼ oder ¼ der maximalen Auflösung. Dadurch wird die Stereoauswertung für den Großteil der Bilddaten deutlich beschleunigt. Anhand der ausgegebenen 3D-Informationen kann das Objekt (z.B. hinsichtlich seiner Überfahrbarkeit) bewertet werden.
-
In einer Ausführungsform wird der Suchbereich derart vorgegeben, dass um eine Fläche (z.B. ein Rechteck), das ein erkanntes (potentiell kritisches) Objekt (bzw. ein Segment) genau einschließt, ein flächiger Rahmen (vgl. einem Bilderrahmen) gelegt wird. Der flächige Rahmen kann in alle Richtungen gleich breit sein, links und rechts gleich breit, oben und unten gleich breit oder unterschiedliche Breiten aufweisen. Der Suchbereich entspricht dann dem Rechteck zuzüglich des Rahmens. Mit anderen Worten als umfasst der Suchbereich einen (ausreichenden) Rahmen um die Objektfläche bzw. Bounding Box eines detektierten Objekts. Dadurch kann verhindert werden, dass ein wesentlicher Inhalt bei der 3D-Rekonstruktion übersehen wird.
-
In einer Ausführungsform wird eine erwartete Entfernung ze eines detektierten Objekts geschätzt oder bestimmt.
-
Gemäß einer Ausführungsform wird die Größe des (flächigen) Rahmens aus der für die erwartete Objektentfernung ze zu erwartenden Disparität de = f*b/ze abgeleitet. Beispielsweise kann die Größe des Rahmens in horizontaler Richtung derart vorgegeben werden, dass das Doppelte der zu erwartenden Disparität de durch den Suchbereich abgedeckt ist. Dann ist sichergestellt, dass Objekte bis zur Häfte der geschätzten erwarteten Objektentfernung trotzdem noch im Suchbereich liegen. Damit liegt man noch deutlich unter dem Disparitätssuchbereich, der allgemein z.B. für herkömmliche SGM-Verfahren in horizontaler Richtung angewendet werden müsste.
-
Gemäß einer Ausgestaltung kann der Rahmen bzw. der Suchbereich auf der rechten Seite verkürzt sein (gegenüber der linken Seite des Rahmens bzw. des Suchbereichs für das Matching), wenn die (z.B. CNN-basierte) Objektdetektion auf dem linken Bild durchgeführt wird.
-
In einer Ausführungsform kann die erwartete bzw. ungefähre Entfernung ze des detektierten Objekts aus den 2D-Bilddaten, aus denen das Objekt detektiert wurde, geschätzt werden (beispielsweise unter einer „Flat World“ Annahme, d.h. dass die Fahrbahnebene flach verläuft und ein detektiertes Objekt auf der Fahrbahnebene liegt).
-
Gemäß einer Ausführungsform kann die erwartete Entfernung ze des detektierten Objekts aus einem niedrig aufgelöstem Gesamtstereobild ermittelt werden. Hierzu wird die Stereoauswertung auf dem gesamten Überlappungsbereich der beiden Bilder des linken und des rechten Stereokameramoduls mit reduzierter Auflösung durchgeführt. Für eine grobe Entfernungsschätzung ist dies ausreichend. Damit kann der minimal und maximal zu erwartende Disparitätsbereich nochmals deutlich eingeschränkt werden und die Laufzeit weiter reduziert werden.
-
Entsprechend einer Ausführungsform kann die erwartete Entfernung des detektierten Objekts aus Daten eines Radar- oder Lidarsensors bestimmt werden. Ein Radar oder Lidarsensor liefert beispielsweise eine Objektliste, d.h. Informationen wie Entfernung, Relativgeschwindigkeit, etc. von aktuell erfassten Objekten zum Fahrzeug. Diese können mit den in den 2D-Bilddaten detektierten Objekten abgeglichen werden. Die Entfernungen, die mittels Radar- oder Lidarsensor gemessen worden, sind i. d. R. sehr präzise. Unter Berücksichtigung dieser Entfernung eines Objekts als erwartete Entfernung kann die zu erwartende Disparität sehr präzise geschätzt werden.
-
In einer Ausführungsform kann, wenn einmal die Entfernung zum detektierten Objekt aus der hochauflösenden Messung (SGM im Suchbereich mit maximaler Auflösung) bekannt ist, mit der bekannten Eigenbewegung des Fahrzeugs die Position für das zeitlich nächste Bild vorhergesagt (prädiziert) werden. Daraus kann dann der bzw. die hochauflösende(n) Suchbereich(e) festgelegt werden.
-
In diesem Fall kann auf die Errechnung eines niedrig aufgelösten Gesamtdisparitätsbildes (3D-Repräsentation der Gesamtsituation bzw. Umgebung) verzichtet werden, was einen weiteren Laufzeitvorteil bietet.
-
Gemäß einer Ausführungsform ist die Stereokamera eine Fahrzeugstereokamera („fahrzeuggebunden“).
-
In einer Ausführungsform umfassen die zu erkennenden (potentiell kritischen) Objekte Gegenstände auf der Fahrbahn wie z.B.: Fahrzeugteile, Felgen, Reifenteile, Gepäckstücke, verlorene Ladung, Steine und dergleichen mehr. Damit ist insbesondere gemeint, dass detektierte Objekte, die potentiell Gegenstände auf der Fahrbahn sein können, mit der ursprünglichen Auflösung im Rahmen einer Stereoauswertung näher analysiert werden.
-
Gemäß einer Ausführungsform erfolgt die Objektdetektion mittels eines trainierten künstlichen neuronalen Netzwerks.
-
In einer Ausführungsform erfolgt das Stereoauswertungsverfahren mittels eines trainierten künstlichen neuronalen Netzwerks. Sofern Objektdetektion und Stereoauswertung durch neuronale Netzwerke vorgenommen werden, kann ein gemeinsames neuronales Netzwerk für beide Aufgaben konfiguriert und trainiert sein. Alternativ kann ein separates neuronales Netzwerk für jede der Aufgaben konfiguriert und trainiert sein.
-
Gemäß einer Ausführungsform umfasst das Stereoauswertungsverfahren ein Semi-Globales Matching-Verfahren.
-
Eine erfindungsgemäße Vorrichtung zur Auswertung von Bilddaten einer Stereokamera umfasst
- - eine Empfangseinheit, konfiguriert zum Empfangen von Bilddaten mit einer ursprünglichen Auflösung, die von der Stereokamera erfasst worden sind, und zum Empfangen oder Berechnen von Bilddaten mit reduzierter Auflösung;
- - eine 2D-Objektdetektionseinheit, konfiguriert zum
Detektieren von Objekten aus 2D-Bilddaten (z.B. mittels eines trainierten künstlichen neuronalen Netzwerks), wobei die 2D-Bilddaten von einem Kameramodul der Stereokamera erfasst worden sind;
- - eine 3D-Rekonstruktionseinheit, konfiguriert zum Durchführen eines Stereoauswertungsverfahrens mit der ursprünglichen Auflösung in einem Suchbereich der Bilddaten mit einem detektierten Objekt und mit reduzierter Auflösung im übrigen Bereich der Bilddaten, um 3D-Informationen des Objekts und der Umgebung zu bestimmen; und
- - eine Ausgabeeinheit, konfiguriert zur Ausgabe der 3D-Informationen.
-
Die Vorrichtung kann insbesondere einen Mikrocontroller oder -prozessor, eine Zentrale Verarbeitungseinheit (CPU), ein Grafische Verarbeitungseinheit (GPU), einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.
-
Die Erfindung betrifft weiterhin ein Computer Programmelement, welches, wenn damit eine Vorrichtung bzw. einzelne Einheiten der Vorrichtung programmiert wird bzw. werden, die Vorrichtung dazu anweist, ein Verfahren zur Auswertung von Bilddaten der Stereokamera durchzuführen.
-
Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.
-
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.
-
Die Erfindung bietet insbesondere durch die Einschränkung des Matching-Suchbereichs mit maximaler Auflösung folgende Vorteile:
- - Weniger Rechenaufwand und kürzere Rechenzeiten, da die Suchbereiche reduziert sind und/oder für den Rest des Bildes mit geringerer Auflösung durchgeführt werden.
- - Verbesserte Matchingergebnisse, da die Wahrscheinlichkeit fehlerhafter Matchingergebnisse reduziert wird.
-
Im Folgenden werden Ausführungsbeispiele und Figuren näher erläutert.
-
Es zeigen:
- 1 schematisch eine Erfassung von Objekten durch eine Stereokamera,
- 2 zwei von der Stereokamera zeitgleich erfasste Bilder,
- 3 einen Suchbereich in einem Bild, der ein detektiertes Objekt umfasst,
- 4 einen begrenzten Suchbereich für ein Stereobildpaar, der das detektierte Objekt umfasst, und
- 5 einen weiter begrenzten Suchbereich für ein Stereobildpaar.
-
1 zeigt schematisch die Erfassung von Objekten 3, 4 durch die beiden Kameramodule 11, 12 einer Stereokamera in einer Draufsicht.
-
Das linke Stereokameramodul 11 befindet sich eine Basisbreite b entfernt vom rechten Stereokameramodul 12. Die optische Achse des linken Stereokameramoduls 11 ist durch die Gerade a1 schematisch repräsentiert, die optische Achse des rechten Stereokameramoduls 12 durch die Gerade a2. Der Erfassungs- oder Sichtbereich des linken Stereokameramoduls 11 ist durch die gepunktet dargestellten Geraden s1 symbolisiert, derjenige des rechten Stereokameramoduls 12 durch die gepunkteten Geraden s2. Die Entfernung des kreisförmigen Objekts 3 zur Stereokamera 11, 12 (senkrecht zur Strecke, die die Basisbreite b angibt) beträgt z.
-
2 zeigt schematisch die beiden Bilder, die die Stereokameramodule 11, 12 in der geschilderten Situation (vgl. 1) erfassen.
-
Die beiden Objekte 3, 4 sind aufgrund der unterschiedlichen Position der beiden Kameramodule in horizontaler Richtung in beiden Bildern 21, 22 unterschiedlich.
-
Im links dargestellten Bild 21 des linken Stereokameramoduls 11 erscheinen beide Objekte 3, 4 weiter rechts. Der horizontale Bildabstand des kreisförmigen Objekts 3 im linken Bild 21 gemessen vom linken Bildrand beträgt dL.
-
Im rechts dargestellten Bild 22 des rechten Stereokameramoduls erscheinen beide Objekte 3, 4 weiter links als im linken Bild 21. Der horizontale Bildabstand des kreisförmigen Objekts 3 im rechten Bild 22 gemessen vom linken Bildrand beträgt dR.
-
Die Verschiebung des kreisförmigen Objekts 3 zwischen linken und rechtem Bild 21, 22 ist die Disparität d, es gilt:
-
Anhand von 1 und 2 wird ersichtlich, dass die Disparität d von der Entfernung z und der Basisbreite b abhängt.
-
Wie in D. Krökel et al., in Abschnitt 5.1 (weitere Betrachtungen: Abschnitt 5.3.1) näher erläutert wird, hängt die zu bestimmende Entfernung z eines Objekts 3 zur Stereokamera 11, 12 von der Brennweite der Optik f und der Basisbreite b der Stereokamera 11, 12 sowie der Disparität d ab.
-
Der minimale Entfernungsbereich, der durch ein Stereosystem ermittelt werden kann, wird durch den maximalen Disparitätsbereich festgelegt. Die Disparität d ist umgekehrt proportional zur Entfernung z:
-
Der maximale Disparitätsbereich ist gleichzeitig der Suchbereich, in dem nach Übereinstimmungen im linken und rechten Bild 21, 22 gesucht werden (Matching). Eine kurze Entfernung entspricht also einem großen Suchbereich verbunden mit entsprechend hohem Rechenaufwand und höherer Wahrscheinlichkeit auch fehlerhafte Übereinstimmungen zu finden, die zu falschen Entfernungsergebnissen führen.
-
Insbesondere bei kleinen nicht klassifizierbaren Objekten 3, 4 in großer Entfernung, die gelegentlich auf Fahrbahnen liegen, kommt es auf eine genaue Entfernungs- und Höhenbestimmung an, die mit einem Monokamerasystem nicht zuverlässig durchgeführt werden kann.
-
Ein Beispiel einer Machine-learning-basierten Objekterkennung von kleinen auf einer Straße liegenden Objekten ist beispielsweise in Abschnitt 4 von Krökel et al. beschrieben und wird dort anhand von Figure 4 veranschaulicht. Dort ist das Ergebnis einer semantischen Segmentierung eines Bildes einer Fahrzeugmonokamera zu sehen. Grün markierte Bereiche beinhalten die als Gegenstände auf der Fahrbahne erkannten Objekte („lost cargo“). Die blaue Markierung kennzeichnet den erkannten Freiraum vor dem Fahrzeug, der im Wesentlichen der Straßenoberfläche entspricht.
-
Obwohl eine entsprechend ausgereifte semantische Segmentierung mittels eines trainierten künstlichen neuronalen Netzwerks (insbesondere CNN, convolutional neural network) eine sehr hohe Erkennungsrate für unbestimmte Gegenstände auf der Fahrbahn hat, hat diese Methode in manchen Situationen noch Nachteile bzw. Schwierigkeiten:
- - Mit diesem Verfahren kann keine Objekthöhe bestimmt werden. Dies ist unerlässlich für die Bewertung der Überfahrbarkeit.
- - Es werden häufig auch Markierungen und andere z.B. durch Schattenwürfe hervorgerufene Flecken auf der Fahrbahn als Gegenstände erkannt (false positives). Dies ist in Figure 4 von Krökel et al beispielsweise im Bereich des dort abgebildeten Zebrastreifens der Fall. Auch dort liefert die semantische Segmentierung grün markierte Bereiche, wo also „lost cargo“ sein könnte. Ein menschlicher Betrachter erkennt jedoch, dass dort keine erhabenen Objekte abgebildet sind.
-
In Krökel et al. wird daher vorgeschlagen, die CNN-basierte Objekterkennung mit einem Stereo-Verfahren zu kombinieren, um verlässlich kleine Objekte auf der Fahrbahn zu erkennen.
-
Die hier vorgeschlagene Lösung baut darauf auf. Sie bezieht sich insbesondere auf das SGM-Stereoverfahren. Wie zuvor dargelegt, sollen die Suchbereiche für das Matching durch die zuvor durch das CNN-Verfahren erkannten Objekte 3, 4 eingeschränkt werden. Dies soll anhand der vorliegenden 3 bis 5 schematisch veranschaulicht werden.
-
In 3 ist schematisch ein Bild 21 des linken Stereokameramoduls 11 (vgl. 2 links) dargestellt. Das kreisförmige Objekt 3 kann beispielsweise ein Metallrohr symbolisieren. Dieses Objekt 3 wurde von einer CNN-basierten Objekterkennung bzw. einer semantischen Segmentierung identifiziert (z.B. als ein Objekt 3 einer „Gegenstand“ bzw. „lost cargo“ Klasse). Das gestrichelt dargestellte Rechteck (hier ein Quadrat) 30 stellt die minimale rechteckige Bildfläche dar, die das detektierte (potentiell kritische) Objekt 3 einschließt, Um dieses Rechteck 30 herum kann ein flächiger Rahmen (vgl. einem Bilderrahmen) gelegt werden, in 3 als gepunktetes Rechteck 31 dargestellt. Der flächige Rahmen 31 kann in alle Richtungen gleich breit sein, links und rechts gleich breit, oben und unten gleich breit oder unterschiedliche Breiten aufweisen. Der Suchbereich entspricht dann dem Rechteck 30 zuzüglich des Rahmens 31. In 3 also der gesamten Fläche, die durch das gepunktete Rechteck 31 eingeschlossen ist.
-
Um das Stereo-Verfahren effizient zu gestalten, soll nur in diesen Suchbereichen 30, 31 das SGM mit voller Auflösung durchgeführt werden, während es außerhalb der Suchbereiche 30, 31 das SGM mit reduzierter Auflösung (z.B. ½ oder ¼) durchgeführt wird. Mögliche Suchbereiche 30, 31 schließen also mit anderen Worten gefundene Objekte 3, 4 mit ausreichendem Abstand im Bild („Rahmenbreite“) ein. Der Abstand im Bild kann aus der für die erwartete Objektentfernung zu erwartenden Disparität de=f*b/z abgeleitet werden.
-
Z.B. könnte der Abstand im Bild das Doppelte von de betragen und läge damit noch deutlich unter dem maximalen Disparitätsbereich bzw. dem Disparitätssuchbereich, der allgemein z.B. für herkömmliche SGM-Verfahren in horizontaler Richtung angewendet werden müsste.
-
In 4 ist ein Suchbereich 32 dargestellt, der anhand des linken Stereobildes 21 definiert wird. Der Übersichtlichkeit halber wird auf die Darstellung der minimalen rechteckigen Bildfläche 30, die das detektierte (potentiell kritische) Objekt 3 einschließt, verzichtet. Die Breite des rechteckigen Suchbereichs 32 ist derart gewählt, dass das potentiell relevante Objekt 3 auch im rechten Stereobild noch innerhalb des Suchbereichs 32 liegt. Die Breite des Suchbereichs 32 kann also aus der erwarteten Bildverschiebung bzw. Disparität abgeleitet werden. Die Disparität hängt von der erwarteten Entfernung des Objekts 3 ab. Da das Objekt 3 näher an der Stereokamera ist, ist die Disparität größer, was zu einem relativ breiten Suchbereich führt. Bei weiter entfernten Objekten (z.B. Objekt 4 aus 1) ist die Disparität geringer, wodurch der Suchbereich weniger breit ist.
-
In 5 ist ein auf der rechten Seite verkürzter Suchbereich 33 für die Stereoauswertung mit maximaler Auflösung dargestellt. Dieser kann verwendet werden, wenn die CNN-basierte Objekterkennung auf dem linken Bild 21 durchgeführt wird.
-
Da bekannt ist, auf welchem Bild der Stereokamera (linkes 21 oder rechtes 22 Bild) die CNN-basierte Objekterkennung läuft, können die Suchbereiche 33 auf der rechten (linkes Kamerabild 21 mit CNN-Objekterkennung) bzw. linken Seite (rechtes Kamerabild 22 mit CNN-Objekterkennung, nicht dargestellt) verkürzt werden, da die Objekte im anderen Bild 22 bzw. 21 nach links bzw. rechts verschoben sind (vgl. 1 und 2).
-
Obwohl der Suchbereich 33 in 5 gegenüber dem Objekt 3 im linken Bild 21 nicht symmetrisch ist, da die Breite des Rahmens links (deutlich) größer ist als die Breite rechts, ist auch bei diesem Rahmen sichergestellt, dass das Objekt 3 im rechten Bild 22 innerhalb des Suchbereichs 33 liegt.
-
Damit kann die Rechenzeit für das hochauflösende SGM nochmals reduziert werden.
-
Eine weitere Reduktion der Suchbereiche wird ermöglicht, wenn die ungefähre Entfernung der Objekte 3, 4 bekannt ist. Diese kann entweder aus dem Bild 21 oder 22 mit der CNN-basierten Objekterkennung geschätzt werden („Flat World“ Annahme) oder aus dem nieder aufgelöstem Gesamtstereobild ermittelt werden. Damit kann der minimal und maximal zu erwartende Disparitätsbereich nochmals deutlich eingeschränkt werden und die Laufzeit weiter reduziert werden.
-
Wenn einmal die Entfernung aus der hochauflösenden Messung bekannt ist, kann mit der bekannten Eigenbewegung des Fahrzeugs die Position für das zeitlich nächste Bild vorhergesagt werden, um daraus die hochauflösenden Suchbereiche fest zu legen. Vorteilhafterweise kann in diesem Fall auf die Errechnung eines nieder aufgelösten Gesamtdisparitätsbildes verzichtet werden, was einen weiteren Laufzeitvorteil bietet.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102016217450 A1 [0011]
- WO 2017/028848 A1 [0012]