DE102020109997A1

DE102020109997A1 - System und Verfahren, um zuverlässige gestitchte Bilder zu machen

Info

Publication number: DE102020109997A1
Application number: DE102020109997.5A
Authority: DE
Inventors: Mahesh KONDIPARTHI; Fergal O'Malley
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-14
Also published as: WO2021204881A1; KR20220166845A; JP7447307B2; EP4133450A1; JP2023521791A; CN115516511A; US20230162464A1

Abstract

Ein Verfahren zum Detektieren eines Artefakts in einem gestitchten Bild, umfasst Folgendes: Teilbilder einer Umgebung aus jeweiligen fahrzeugmontierten Kameras mit überlappenden Sichtfeldern zu erfassen; ein gestitchtes Bild aus den Teilbildern zu bilden (410); wenigstens einen Teil des gestitchten Bilds entsprechend dem überlappenden Sichtfeld mit einem Klassifikator zu verarbeiten (420), um eine Liste detektierter Objekte aus der Umgebung an jeweiligen Positionen im gestitchten Bild bereitzustellen; zu bestimmen (430), ob irgendein detektiertes Objekt in der Liste detektierter Objekte eine Verdoppelung eines anderen Objekts in der Liste detektierter Objekte ist, und alle Objekte zu melden, von denen bestimmt worden ist, dass sie Verdoppelungen sind.

Description

Technisches Gebiet
Die vorliegende Anmeldung bezieht sich auf ein System und Verfahren, um zuverlässige gestitchte Bildern zu machen.
Hintergrund
Ein gestitchtes Bild ist ein Bild, das wenigstens zwei Teilbilder kombiniert, die von einer oder mehr Kameras in unterschiedlichen Posen mit überlappenden Sichtfeldern erfasst werden, um ein Bild mit einem größeren oder anderen Sichtfeld als die Teilbilder zu erstellen.
Der Stitching-Prozess kann zu Artefakten im gestitchten Bild führen, zum Beispiel zu Ghosting-Effekten, falls Bilder des gleichen Objekts in Teilbildern an unterschiedlichen Positionen im gestitchten Bild abgebildet werden.
US9509909 beschreibt ein Verfahren zum Korrigieren von photometrischen Ausrichtungsfehlern, das umfasst, Blockabtastwerte aus wenigstens einem von Folgenden, einer geometrischen Lookup-Tabelle der zusammengesetzten Ansicht, einem Eingangs-Fischaugenbild und einer Zone mit überlappender Ansicht, zu extrahieren, Abtastwert-Inlier aus den extrahierten Blockabtastwerten auszuwählen, optimale Farbverstärkung für die ausgewählten Blockabtastwerte zu schätzen, verfeinerte Einstellung auf Basis der geschätzten Farbverstärkung durchzuführen und Farbtransformation anzuwenden und ein zusammengesetztes Bild der Rundumsicht herzustellen.
US2018/0253875 beschreibt ein Verfahren zum Stitching von Bildern, das beinhaltet, ein Stitching-Schema aus einem Satz von Stitching-Schemata auf Basis eines oder mehreren Content-Messwerte der Teilbilder auszuwählen und das ausgewählte Stitching-Schema anzuwenden.
DE102016124978A1 beschreibt ein Verfahren, um die Erkennbarkeit vertikaler Objekte auf einer Anzeigeeinrichtung eines Fahrerassistenzsystems eines Kraftfahrzeugs unter Verwendung einer zusätzlichen Projektionsoberfläche in einem virtuellen dreidimensionalen Raum zu verbessern, um eines oder mehrere vertikale Objekte besser auf der Anzeigeeinrichtung darzustellen.
US2012/0262580 beschreibt ein System, das eine Rundumsicht aus einem Fahrzeug mittels Kameras, die an verschiedenen Positionen am Fahrzeug positioniert sind, bereitstellen kann. Die Kameras können Bilddaten, die der Rundumsicht entsprechen, erzeugen, und eine Verarbeitungseinrichtung kann die Bilddaten verarbeiten und die Rundumsicht erzeugen.
US2009/0110327 beschreibt ein Verfahren, um die Identifizierung einer Ebene in einem 3D-Koordinatensystem zu erleichtern, in dem ein 3D-Modell auf Basis von 2D-Bildern erzeugt werden soll. Eine Extrusionsrichtung für die Ebene und eine interessierende Zone in einem der 2D-Bilder wird eingestellt, und die Ebene wird extrudiert, bis die interessierende Zone in der Ebene mit einer entsprechenden Zone in einem 2D-Bild übereinstimmt.
Es ist ein Ziel der vorliegenden Erfindung, ohne Beschränkung der bisherigen Arbeit gestitchte Bilder zuverlässiger zu machen.
Kurzdarstellung
Die vorliegende Erfindung ist durch den unabhängigen Anspruch definiert. Die abhängigen Ansprüche stellen weitere optionale Merkmale bereit.
Kurz gesagt: Es wird ein Verfahren beschrieben, um gestitchte Bilder zuverlässiger zu machen. Das Verfahren detektiert effizient und exakt Doppeleffekt-Artefakte, bei denen ein Objekt in Teilbildern auf separate diskrete Positionen in einem gestitchten Bild abgebildet wird, und ermöglicht, dass eine Warnmeldung ausgelöst wird, falls der Content im gestitchten Bild unzuverlässig ist. In einigen Ausführungsformen werden die detektierten Artefakte effizient in Echtzeit durch dynamische Impostoren ersetzt, damit sich ein zuverlässiges gestitchtes Bild ergibt.
Figurenliste
Ausführungsformen der Erfindung werden nun beispielhaft unter Bezugnahme auf die begleitenden Zeichnungen beschrieben, in denen Folgendes gilt:

Die 1 zeigt ein Fahrzeug mit mehreren, am Fahrzeug montierten Kameras;
die 2 zeigt das Fahrzeug der 1 und eine überlappende Zone zwischen zwei Kameras genauer;
die 3 zeigt zwei gestitchte Bilder der gleichen Szene, wobei unterschiedliche Blending-Zonen hervorgehoben sind;
die 4 zeigt Verfahren zum Detektieren und Behandeln von Doppeleffekt-Artefakten gemäß einer Ausführungsform der vorliegenden Erfindung;
die 5 zeigt ein Convolutional Neural Network, CNN, zum Bezeichnen eines Bilds, das in der Ausführungsform der 4 eingesetzt wird;
die 6 zeigt ein Bild, bei dem Bezeichnungen für detektierte bekannte Objekte eingeblendet sind;
die 7 zeigt weitere gestitchte Bilder der Szene der 3, wobei jeweilige Blending-Zonen markiert sind. Im linken Bild ist ein Doppeleffekt-Artefakt eines Autos detektiert und markiert worden. Im rechten Bild ist das detektierte Doppelartefakt behandelt worden;
die 8 zeigt weitere gestitchte Bilder der Szene der 3, wobei jeweilige Blending-Zonen markiert sind. Im linken Bild ist ein Doppeleffekt-Artefakt einer Straßenleuchtenstruktur detektiert und markiert worden. Im rechten Bild ist das detektierte Doppelartefakt behandelt worden; und
die 9 zeigt das gestitchte Bild der 8, nachdem detektierte Doppeleffekt-Artefakte behandelt worden sind.

Beschreibung
Für viele Aufgaben, die das Fahren von Fahrzeugen mit sich bringt, ist das Erfassen von Informationen über die örtliche Umgebung wichtig. Eine Weise, auf die dies durchgeführt werden kann, ist durch Analyse von Bildern aus Kameramodulen, die an einem Fahrzeug montiert sind. Die Bilder können dann zusammengestitcht werden, um ein für die Ansicht zweckmäßigeres Bild bereitzustellen.
Wenn versucht wird, die Umgebung um ein Fahrzeug abzubilden, wird eine Kamera im Allgemeinen kein zum Erfassen aller erforderlichen Daten angemessenes Sichtfeld aufweisen. Eine Weise, dieses Problem zu behandeln, ist es, mehrere Kameras zu verwenden. In der 1 wird ein Fahrzeug 100 mit vier Kameras 101, 102, 103, 104 gezeigt, die um die Begrenzungsfläche des Autos angeordnet sind. Ein Rand des Sichtfelds jeder Kamera ist mit einer Punktlinie 101a, 102a, 103a, 104a markiert. Solch eine Anordnung von Kameras führt zu Sichtfeldern, die sich in den Zonen 101b, 102b, 103b, 104b überlappen. Als ein Beispiel: Die Zone 102b stellt die Überlappung zwischen dem Sichtfeld 101a der nach vorne gerichteten Kamera 101 und dem Sichtfeld 102a der nach links gerichteten Kamera 102 dar. Die veranschaulichte Anordnung ist lediglich beispielhaft. Die offenbarten Lehren gelten gleichermaßen für andere Kameraanordnungen.
Die veranschaulichten Sichtfelder überschneiden ungefähr 180 Grad. Ein weites Sichtfeld wird typischerweise durch die Kamera mit einem Weitwinkelobjektiv erreicht, wie etwa einem Fischaugenobjektiv. Ein Fischaugenobjektiv wird bevorzugt, da diese im Allgemeinen zylindersymmetrisch sind. In anderen Anwendungen der Erfindung kann das Sichtfeld weniger oder mehr als 180 Grad betragen. Obgleich ein Fischaugenobjektiv bevorzugt ist, kann jegliches andere Objektiv, das ein weites Sichtfeld liefert, verwendet werden. In diesem Kontext ist ein weites Sichtfeld ein Objektiv, das ein Sichtfeld von über 100 Grad, bevorzugt über 150 Grad und besonders bevorzugt von über 170 Grad aufweist. Typischerweise führen Kameras mit solch einem breiten Sichtfeld zu Bildgebungsartefakten und Verzerrungen in erfassten Bildern.
Die Empfindlichkeit der in der Erfindung verwendeten Kamera muss nicht auf irgendeinen spezifischen Wellenlängenbereich beschränkt sein, sondern wird überwiegend mit Kameras verwendet, die gegenüber sichtbarem Licht empfindlich sind. Die Kamera wird im Allgemeinen in der Form eines Kameramoduls vorliegen, das ein Gehäuse für ein Objektiv und einen Sensor umfasst, wobei das Objektiv zum Fokussieren von Licht auf den Sensor dient. Das Kameramodul kann auch Elektronik zum Versorgen des Sensors mit Strom und zum Ermöglichen von Kommunikation mit dem Sensor aufweisen. Das Kameramodul kann auch Elektronik zum Verarbeiten des Bilds umfassen. Das Verarbeiten kann eine Bildsignalverarbeitung auf niedriger Ebene sein, beispielsweise Verstärkungssteuerung, Belichtungssteuerung, Weißabgleich, Rauschunterdrückung usw., und/oder es kann leistungsfähigeres Verarbeiten beinhalten, beispielsweise für Computervision.
Falls die Anordnung der Kameras so erfolgt, dass sie Bilder aus allen Richtungen um das Fahrzeug bereitstellt, wie in der 1, können ihre Teilbilder genügend Informationen bereitstellen, um ein gestitchtes Bild aus einer von einer Vielzahl von Kameraposen zu synthetisieren, insbesondere aus der Draufsicht auf das Fahrzeug.
Im Kontext eines Fahrzeugs mit mehreren Kameras, wie es zum Beispiel in der 1 gezeigt wird, kann es wünschenswert sein, ein Rundumbild, das ein einzelnes Bild der örtlichen Umgebung aus einem Blickpunkt direkt über dem Fahrzeug umfasst, statt mehrere Bildern aus mehreren Kameras anzuzeigen. Daher müssen die Bilder aus allen vier Kameras zusammengestitcht werden. Die Bilder können, bevor das Stitching durchgeführt wird oder als Teil des Stitching-Prozesses, auf eine andere Oberfläche abgebildet werden. Zum Beispiel können Teilbilder vor dem Stitching auf einer sphärischen Oberfläche oder einer zylindrischen Oberfläche abgebildet werden. In einer Ausführungsform werden die Teilbilder vor dem Stitching auf einer Oberfläche einer Schale mit ebenem Boden abgebildet. Solche Abbildungen können auch Objektivverzeichnung berücksichtigen und/oder den Stitching-Prozess erleichtern.
Zu anderen Zeiten als in dem nachstehend beschriebenen Beispiel, zum Beispiel, falls ein Fahrzeug im Begriff ist, links abzubiegen, kann es wünschenswert sein, ein gestitchtes Bild aus Teilbildern, die von den Kameras 101 an der Fahrzeugvorderseite und 102 an der linken Fahrzeugseite erfasst worden sind, mit einer virtuellen Kamerapose, die sich über dem Fahrzeug befindet, herzustellen, um dem Fahrer eine Kreuzung deutlicher zu veranschaulichen. Ähnlich gestitchte Bilder aus Bildpaaren können erzeugt werden, wenn ein Fahrzeug im Begriff ist, rechts abzubiegen oder rückwärts um eine Ecke zu fahren.
Es gibt mehrere bekannte Weisen, Teilbilder zusammen zu stitchen. Zum Beispiel Direct Stitching, lineares Blending, selektives Blending oder Multi-Band-Blending. Um diese Prozesse zu beschreiben, wird die 2 verwendet, die weitere Details des in der 1 gezeigten Fahrzeugs zeigt. In dieser 2 weist die überlappende Zone 102b ein Blending-Segment 102c auf. Das Blending-Segment 102c ist wenigstens ein Teil der überlappenden Zone und wird durch zwei Winkel definiert: den Winkelversatz 102d und die Winkelweite 102e. Daten aus irgendeinem Teilbild, das innerhalb des Blending-Segments 102c liegt, werden mit Daten aus einem anderen Teilbild kombiniert, und die kombinierten Daten werden beim Bilden des gestitchten Bilds verwendet. Die Projektion eines Blending-Segments auf Teilbilder definiert eine Blending-Zone in den Teilbildern.
Direct Stitching definiert eine Übergangslinie in der überlappenden Zone zwischen zwei Teilbildern. Effektiv wird die Winkelweite 102e auf null gesetzt. Das gestitchte Bild verwendet Bilder aus einem Teilbild auf einer Seite der Linie und Bilder aus dem anderen Teilbild auf der anderen Seite der Linie. Dieser Stitching-Prozess führt zu einem plötzlichen Übergang zwischen einem Teilbild in ein anderes. Folglich können sich im gestitchten Bild Artefakte in der Form von sichtbaren Rändern oder Unstetigkeiten ergeben. In einigen Fällen kann die Wahrscheinlichkeit oder der Schweregrad von Artefakten durch bekannte Techniken und Einrichtungen zur Kameramodulharmonisierung reduziert werden, wie zum Beispiel die in der deutschen Patentanmeldung DE102019126814.1 (Ref.: 2019PF00721) mit dem Titel „An electronic control unit“, eingereicht am 7. Oktober 2019, beschriebenen.
Eine bekannte Variation des Direct Stitching ist Direct Stitching unter Verwendung eines dynamischen Rands. Dabei ist die Direct Stitching-Linie nicht notwendigerweise gerade, sondern weist einen Pfad auf, der gemäß dem Content der gestitchten Teilbilder eingestellt wird. Dieses Verfahren kann einige Ghosting-Effekte behandeln, behandelt jedoch wahrscheinlich nicht die Doppeleffekt-Artefakte, bei denen ein aus den Teilbildern gegebenes Objekt an separaten diskreten Positionen im gestitchten Bild erscheint.
Lineares Blending stellt Pixelwerte in der Blending-Zone 102c ein, indem das Pixelgewicht für ein Teilbild linear mit dem Abstand über der Blending-Zone eingestellt wird. Die Pixelwerte innerhalb der Blending-Zone 102c werden als der gewichtete Mittelwert der Pixelwerte aus den Teilbildern berechnet. Weil die Gewichte graduell auf null fallen, ist statt einer harten Änderung ein gleichmäßiger Übergang von einer Ansicht zu einer anderen zu beobachten. Das Problem beim linearen Blending besteht darin, dass Objekte innerhalb der Blending-Zone unscharf sein können, was auf mangelhafte Objektausrichtung zwischen zwei unterschiedlichen Ansichten zurückzuführen ist. Daher kann wegen des Blendings von fehlausgerichteten Objekten ein Ghosting-Effekt innerhalb des Blending-Bereichs beobachtet werden.
Selektives Blending verwendet sowohl lineares Blending als auch Direct Stitching, um für jedes Pixel synthetisierte Pixelwerte I_linear aus dem linearen Blending und I_stitch aus dem Direct Stitching zu ermitteln. Dann werden diese synthetisierten Pixelwerte mit einem Gewicht kombiniert, das sich auf die Differenz zwischen zwei Teilbildwerten an einer betrachteten Position bezieht. Je geringer die Differenz ist, umso stärker wird das lineare Blending gewichtet und umgekehrt. Das selektive Blending vermeidet das Blending von Pixeln, die fehlangepassten Objekten entsprechen, und kann daher Unschärfe- und Ghosting-Effekte reduzieren. Allerdings versagt es, wenn die fehlangepassten Objekte ähnliche Farben aufweisen oder die verbleibende Diskrepanz nach der photometrischen Ausrichtung immer noch zu hoch ist. Weil Letzteres eine Ursache für Doppeleffekt-Artefakte ist, ist selektives Stitching keine ideale Wahl zum Behandeln der Doppeleffekt-Artefakte. Mit anderen Worten: Selektives Stitching ist wirksam, um Ghosting-Effekte für Objekte mit nicht einheitlicher Farbe aufzuheben, behandelt jedoch wahrscheinlich nicht die extremen Disparitäten, die zu Doppeleffekt-Artefakten führen.
Multi-Band-Blending verbessert das Erscheinungsbild der Blending-Zone in einem gestitchten Bild durch Aufteilen der Teilbilder in Subbänder und adaptives Blending der Subbänder. In einem Beispiel wird eine Frequenz-Subband-Zerlegung in der Blending-Zone 102c angewendet. Für ein hohes Frequenzband wird eine erste kleine Blending-Zone angewendet. Für ein niedriges Frequenzband wird eine zweite größere Blending-Zone verwendet. Im Ergebnis mittelt diese Operation für die niedrigen Frequenzkomponenten über einen längeren räumlichen Bereich und für die hohen Frequenzkomponenten über einen kürzeren räumlichen Bereich. Weil hohe Frequenzkomponenten besser mit einem kleineren Blending-Bereich beibehalten werden können, ist das Ergebnis eine genaue Wiedergabe der Details in der Blending-Zone. Allerdings behandelt Multi-Band-Blending nicht das Ghosting-Problem bei nicht planaren Objekten.
In allen Fällen besteht ein hohes Risiko, dass im gestitchten Bild signifikante Doppeleffekt-Artefakte vorhanden sein werden. Die Wahrscheinlichkeit für oder das Erscheinungsbild solcher Doppeleffekt-Artefakte wird erhöht, wenn Objekte vorhanden sind, die einen hohen Kontrast zum Hintergrund aufweisen. Doppeleffekt-Artefakte sind in anderen Fällen vorhanden, haben jedoch häufig einen unwesentlichen visuellen Einfluss. Zum Beispiel sind Doppeleffekt-Artefakte auf der Straße oder am Himmel selten problematisch - es ist im Allgemeinen kein Problem, wenn zwei leere Teile einer Straße eine verdoppelte Textur aufweisen.
Das Erscheinungsbild des Doppeleffekt-Artefakts hängt von der eingesetzten Stitching-Technik und den Stitching-Parametern ab. Zum Beispiel kann die Variation der Größe der Blending-Zone in der überlappenden Zone zwischen Teilbildern das Erscheinungsbild eines Doppeleffekt-Artefakts verändern.
Um diese Variation zu zeigen, werde die 3 betrachtet, die zwei Bilder von Abschnitten gestitchter Bilder zeigt, die unter Verwendung zweier, jeweils unterschiedlicher Stitching-Parameter hergestellt sind. Die Stitching-Parameter, die das erste Bild 300 auf der linken Seite der 3 bilden, definieren eine relativ breite Blending-Zone 302c. Diese Blending-Zone 302c wird durch die Winkelweite 302e und den Winkelversatz 302e definiert. Der Winkelversatz wird ab der Richtung gerade vor dem Auto gemessen. Die Stitching-Parameter, die das zweite Bild 300' auf der rechten Seite der 3 bilden, definieren eine andere, relativ schmale Blending-Zone 302c'.
Wenn die Teilbilder, die verwendet werden, um die gestitchten Bilder in der 3 herzustellen, erfasst wurden, gab es nur ein Auto auf der Straße vor dem Fahrzeug. Allerdings führt ein Doppeleffekt-Artefakt im ersten Bild 300 zum Erscheinen von zwei teilweise transparenten Autos in der gemischten Zone 302c. Ein anderes Doppeleffekt-Artefakt ist im zweiten Bild 300' vorhanden und führt zum Erscheinen von zwei Autos an der gleichen Position wie im ersten Bild 300. Allerdings liegen im zweiten Bild 300' die beiden erscheinenden Autos außerhalb der Blending-Zone 302c' und sind dunkel. Direct Stitching mit einer Linie in der Mitte der engen Blending-Zone 302' würde zu einem ähnlichen Bild wie das zweite 300' führen.
Herkömmlich kann die gemischte Zone der Teilbilder als ein zylindrischer Sektor betrachtet werden. Als ein Beispiel werde das erste Bild 300 in der 3 betrachtet, in dem sich der zylindrische Sektor über die Höhe des Bilds erstreckt und durch die Winkelweite 302e und den Winkelversatz 302d definiert ist. Weil das Erscheinungsbild von Doppeleffekt-Artefakten von der Stitching-Technik und den Stitching-Parametern abhängt, ist es möglich, die Wahrscheinlichkeit für Doppeleffekt-Artefakte zu reduzieren und/oder den Schweregrad der Artefakte durch Anpassen der Stitching-Technik und der Stitching-Parameter zu reduzieren. Eine Schichtung oder ein Stapel aus zylindrischen Sektoren bietet einen großen Spielraum zum Abschwächen von Doppeleffekt-Artefakten, weil sie mehr Spielraum und zusätzliche Stitching-Parameter zum Einstellen bietet. Weil jede Schicht ein zylindrischer Sektor ist, weist sie zwei zusätzliche Parameter der Schichthöhe und der Schichtstärke zusätzlich zur Winkelweite und dem Winkelversatz auf.
Jetzt mit Bezug auf die 4: Es wird ein Flussdiagramm gezeigt, das eine Ausführungsform der vorliegenden Erfindung beschreibt. Der erste Schritt 410 dient zum Erfassen eines gestitchten Bilds, und dies kann durch Kombinieren von Teilbildern aus einem Paar Kameras mit überlappenden Sichtfeldern unter Verwendung irgendeiner der oben beschriebenen Techniken erfolgen. Trotzdem können Ausführungsformen der Erfindung gleichermaßen auf irgendein gestitchtes Bild angewendet werden, in dem ein gegebenes Objekt, das in jedem aus einem Paar von Teilbildern erscheint, an diskreten Positionen innerhalb des gestitchten Bilds abgebildet werden kann.
In jedem Fall wird das gestitchte Bild dann verarbeitet, um Objekte zu detektieren 420. Diese Detektion kann durch Verwenden eines bekannten Objektdetektionsklassifikators erreicht werden, wie zum Beispiel einem Algorithmus für maschinelles Lernen. In der Ausführungsform kann der Klassifikator das gestitchte Bild direkt verarbeiten, was bedeutet, dass der Prozess für jedes gestitchte Bild nur einmal stattfinden muss. Alternativ oder zusätzlich können der Klassifikator auf jedes Teilbild und die Ergebnisse, die durch Abbilden der Ergebnisse jedes Teilbilds kombiniert werden, auf das gestitchte Bild angewendet werden.
In einer bevorzugten Ausführungsform wird ein CNN verwendet, um die bekannten Objekte in einem Bild zu bezeichnen. Ein Beispiel für ein solches CNN wird in der 5 gezeigt. Fachleuten sind verschiedene Wege bekannt, um das CNN zum Detektieren von bekannten Objekten zu trainieren. Sobald es trainiert worden ist, kann das CNN Bilder verarbeiten und detektierte Objekte mit geeigneten Bezeichnern markieren. Der auf ein detektiertes Objekt angewendete Bezeichner wird typischerweise eine Bounding Box definieren, die wenigstens einen Teil eines detektierten Objekts und den Namen des bekannten Objekts, das detektiert worden ist, einschließt. Die Bounding Box muss nicht rechteckig sein und kann unterschiedliche Formen und Größen aufweisen, wie es zweckmäßig ist. Falls der Klassifikator an Teilbildern betrieben wird, kann das Abbilden zwischen den Teilbildern und dem gestitchten Bild dazu führen, dass eine Bounding Box im gestitchten Bild eine andere Form aufweist.
CNNs können bekannte Objekte durch Verarbeitung eines Eingangsbilds 511 mit einer oder mehr Faltungs- oder Pooling-Schichten detektieren. In einer Faltungsschicht 512 laufen einer oder mehr Faltungskerne über dieses Bild, und in einer Pooling-Schicht 513 wird die räumliche Auflösung der verarbeiteten Daten reduziert. In dem in der 5 gezeigten Beispiel werden zwei Faltungsschichten 511 und 513 und zwei Pooling-Schichten 513 und 515 verwendet. In Ausführungsformen der vorliegenden Erfindung kann irgendeine Anzahl an Faltungs- oder Pooling-Schichten verborgene Schichten 510 des CNN 400 bilden. Die Daten aus den verborgenen Schichten 510 werden dann durch Klassifizierungsschichten 520 verarbeitet, um das Ergebnis zu bilden. In dem in der 5 gezeigten Beispiel werden die Daten aus den verborgenen Schichten 521 geglättet, um einen Merkmalsvektor bereitzustellen, der dann durch mehrere vollständig verbundene Schichten 522 läuft. In diesem Fall wird eine Softmax-Operation 523 durchgeführt, um bekannte Objekte im Bild zu identifizieren, z. B. Lastwagen, Straßenleuchtenstrukturen oder Autos.
Bekannte alternative Klassifikatoren können ebenfalls verwendet werden, um bekannte Objekte zu detektieren. In einigen Ausführungsformen können die Klassifikatoren Informationen nutzen, die von anderen Sensoren bestimmt werden, wie zum Beispiel Lidar-Sensoren am Fahrzeug. Wenn Klassifikatoren trainiert werden, können auch zusätzliche optionale Eingaben, wie randverstärkte Bilder oder Randbilder, eingegeben werden, um in Situationen zu unterstützen, in denen begrenzte Eingangsbilder verfügbar sind. Bei einigen Klassifikatoren helfen solche zusätzlichen Eingaben, die Komplexität des Netzwerks zu verringern, d. h. das Verwenden zusätzlicher Eingaben kann die Anzahl an Schichten in den verborgenen Schichten des CNN reduzieren.
Eine typische Ausgabe des Klassifikators wird im Bild in der 6 gezeigt. Das Eingangsbild weist mehrere Bezeichner auf, die im verarbeiteten Bild eingeblendet sind, einschließlich einer Ampelanlage 601 a, zwei Lastwagen 601b und 601c und einem Auto 601d. Jeder der Bezeichner weist eine verknüpfte Position auf und markiert eine Bounding Box, die die Zone des Eingangsbilds markiert, die der Klassifikator als mit dem bezeichneten Objekt verknüpft betrachtet.
Weil das Ziel ist, Doppeleffekt-Artefakte in einer oder mehreren überlappenden Zonen zu identifizieren, kann die Zone des gestitchten Bilds, das verarbeitet wird, die interessierende Zone ROI (Region of Interest) auf die überlappenden Zonen des gestitchten Bilds beschränkt werden, d. h. die Zone des gestitchten Bilds, in der sich die Sichtfelder für die Teilbilder überlappen. Diese Reduzierung in der ROI beschleunigt die Verarbeitung wesentlich, reduziert unerwünschte Objektdetektion und verringert die Rate von Falsch-Positiven in hohem Maße.
Die ROI kann durch Stitching-Techniken und -Parameter definiert werden. Parameter wie der Stitching-Winkel (z. B. die Winkelweite 302e und der Winkelversatz 302d in der 3) können verwendet werden, um die ROI zu definieren.
Sobald die Objekte detektiert worden sind, werden die detektierten Objekte geprüft 430, um zu erkennen, ob sie ähnlich sind. Mit anderen Worten: Die detektierten Objekte werden verarbeitet, um Ähnlichkeit zwischen dem Content in Bounding Boxes zu detektieren. Normale Detektionsalgorithmen für verdoppelte Contents sind rechenintensiv. Aufgrund der großen Distanz zwischen dem Objekt und der Kamera stellen sich Doppeleffekt-Artefakte meist als translatorische Verschiebungen dar. Daher muss die Bewertung von verdoppelten Contents nicht alle möglichen Formveränderungen berücksichtigen. In einigen Ausführungsformen wird ein Klassifikator, wie zum Beispiel ein CNN, dazu trainiert, Doppeleffekt-Artefakte durch Fokussierung auf das Verdoppeln von translatorischen Verschiebungen des Contents zu detektieren. Die Beschränkung auf translatorische Verschiebungen unterstützt dabei, die Anzahl an Falsch-Positiven zu reduzieren. Falsch-Positiv sind in diesem Fall ähnliche Objekte, die nicht auf Doppeleffekt-Artefakte zurückzuführen sind. Aufgrund der engen Beschränkung, die durch das Prüfen nur auf translatorische Verschiebungen aufgebracht wird, wird die Wahrscheinlichkeit für Falsch-Positive erheblich minimiert. Das Training des Klassifikators kann verbessert werden, indem die perspektivische Verschiebung zwischen einer Kamera zur anderen berücksichtigt wird. Diese Trainingsverbesserung ergibt sich, weil das wegen des Doppeleffekt-Artefakts verdoppelte Objekt aufgrund einer perspektivischen Verschiebung etwas anders erscheinen kann.
Temporäre Signale können ebenfalls dabei unterstützen, beim Detektieren von Doppeleffekt-Artefakten Falsch-Positive zu vermeiden. Zum Beispiel neigen verdoppelte Objekte, die sich aufgrund eines Doppeleffekt-Artefakts ergeben, dazu, sich zusammen zu bewegen und möglicherweise zu verschmelzen, wenn die Objekte dem Fahrzeug näher kommen. Dies ist normalerweise mit anderen Arten von verdoppelten Objekten, die detektiert werden können, nicht der Fall.
Die Ähnlichkeitsprüfung kann in den Klassifikator, der die Objekte detektiert, eingebunden sein, oder sie kann separat auf eine Liste von detektierten Objekten angewendet werden. Nachdem die Objekte in einem gestitchten Bild bezeichnet worden sind, bewertet ein CNN in einer bevorzugten Ausführungsform die Ähnlichkeit der bezeichneten Objekte, um Verdoppelungen zu detektieren. Das Ergebnis der Ähnlichkeitsprüfung ist, dass bezeichnete Objekte, die ähnlich sind, detektiert werden, d. h. wahrscheinliche Doppeleffekt-Artefakte werden detektiert.
Ein weiterer optionaler Schritt ist, zu prüfen 440, ob ein detektiertes verdoppeltes Objekt real ist. In einigen Ausführungsformen umfasst dieser Schritt, wenigstens eines der Teilbilder zu verarbeiten, um zu erkennen, ob ähnliche verdoppelte Objekte in irgendeinem der Teilbilder detektiert werden. Falls in einem der Teilbilder verdoppelte Objekte vorhanden sind, ist es wahrscheinlicher, dass die verdoppelten Objekte kein Artefakt des Stitching sind. Dieser Schritt unterstützt dabei, sicherzustellen, dass zwei reale ähnliche Objekte nicht fehlerhaft als Doppeleffekt-Artefakte bezeichnet werden. Dies ist wichtig, weil Objekte, die aufgrund von Artefakten verdoppelt werden, ignoriert oder anschließend aus einem Bild entfernt werden können; wohingegen das Ignorieren oder Entfernen von realen Objekten, z. B. Autos, ein schwerer Fehler sein könnte. Folglich verbessert die Prüfung, ob anscheinend verdoppelte Objekte real sind, die Zuverlässigkeit des gestitchten Bilds.
Eine Reihe von Optionen ist als Reaktion auf das Detektieren und das optionale Bestätigen, dass ein gestitchtes Bild Doppeleffekt-Artefakte enthält, verfügbar. Dies kann einbeziehen, nur zu kennzeichnen, dass das gestitchte Bild Artefakte enthalten kann, oder in einigen Fällen aktiv zu reagieren, indem versucht wird, das gestitchte Bild zu korrigieren, oder solche Artefakte zu verhindern, die in anschließend erzeugten gestitchten Bildern auftreten.
Somit kann zum Beispiel die Detektion eines Artefakts an den Fahrer gemeldet werden, um sicherzustellen, dass der Fahrer vor potentiell irreführenden Informationen im gestitchten Bild gewarnt wird. Wenn zum Beispiel ein Auto eingeparkt wird, kann eine Warnmeldung ausgelöst werden, um einem Fahrer zu signalisieren, dass zwei nebeneinander stehende Lichtmasten anscheinend auf einen Doppeleffekt-Artefakt zurückzuführen sind. Der Fahrer kann dann in einem Spiegel visuell bestätigen, welcher der anscheinenden Lichtmasten am Wichtigsten ist, und das Auto dementsprechend manövrieren. Das gestitchte Bild und die detektierten Doppeleffekt-Artefakte können auch durch ein Fahrzeugsubsystem aufgezeichnet und protokolliert werden, wie zum Beispiel eine Festplatte oder einen anderen Speicherbereich.
Das Vorhandensein von Doppeleffekt-Artefakten kann auch an einen Algorithmus für maschinelles Lernen gemeldet werden, der dazu ausgebildet ist, die Stitching-Parameter abzustimmen, um Doppeleffekt-Artefakte abzuschwächen. In einer bevorzugten Ausführungsform ist der Algorithmus für maschinelles Lernen, der die Stitching-Parameter abstimmt, ein Convolutional Neural Network, CNN.
In einigen Fällen kann der Content des gestitchten Bilds einfach eingestellt werden, um den detektierten Doppeleffekt-Artefakt zu markieren.
In der vorliegenden Ausführungsform wird allerdings der Content des gestitchten Bilds eingestellt, bevor es angezeigt wird.
Ein Impostor ist ein grafisches Artefakt, das einem Bild hinzugefügt wird, um ein fehlendes oder falsch dargestelltes Objekt besser darzustellen. Als ein Beispiel werde die 3 betrachtet und bemerkt, dass sich die fahrzeugmontierten Kameras alle um die Begrenzungsflächen des Fahrzeugs herum angeordnet und nach außen gerichtet sind. Es gibt daher keine Bilder aus irgendeiner fahrzeugmontierten Kamera, die es dem Fahrzeug gestatten würden, in einem Bild gut wiedergegeben zu werden. Die unten rechts in den Bildern in der 3 gezeigten Fahrzeuge sind lediglich Fahrzeugavatare, die an der korrekten Position des gestitchten Bilds überlagert sind. Solche Avatare verbessern das Erscheinungsbild des gestitchten Bilds erheblich und lassen die Fahrer einfacher visualisieren, wie ein Fahrzeug im gestitchten Bild ausgerichtet ist. Der Fahrzeugavatar ist ein Beispiel für einen statischen Impostor, der ein Impostor ist, der wenigstens zum Teil erzeugt wird, bevor das Verfahren durchgeführt wird, und der im Speicher gespeichert wird, um bei Bedarf verwendet zu werden. Der Nachteil von statischen Impostoren ist, dass sie erfordern, dass das Ersatzbild im Voraus bekannt oder berechenbar ist. Wenn es nicht möglich ist, statische Impostoren zu verwenden, können dynamische Impostoren verwendet werden. Ein dynamischer Impostor ist ein Impostor, der zur Laufzeit wenigstens zum Teil auf Basis von Daten erzeugt wird, die von einer oder mehr Kameras bestimmt werden.
In einigen Ausführungsformen behandelt die vorliegende Erfindung das detektierte Doppeleffekt-Artefakt unter Verwendung von Impostoren. Insbesondere wird im Schritt 450 eines der verdoppelten Objekte durch einen dynamischen Impostor ersetzt. Der dynamische Impostor umfasst Bilddaten aus einem Teilbild. Für jedes Doppeleffekt-Artefakt liefert eines der Teilbilder die Daten für eines der Objekte im Doppeleffekt-Artefakt, und das andere Teilbild liefert die Daten für das andere Objekt. Folglich wird das Ersetzen der Zone des gestitchten Bilds, die als ein Doppeleffekt-Artefakt detektiert worden ist, mit den Daten aus dem anderen Teilbild das Doppeleffekt-Artefakt entfernen.
Zwei Beispiele für diesen Prozess werden in den 7 bzw. 8 gezeigt. In der 7 enthält das linke Bild 700 ein Doppeleffekt-Artefakt in der Form eines verdoppelten Autos. Die Bounding Box des detektierten Doppeleffekt-Artefakts 701 wird in einer schwarz-weiß-gestrichelten Box angezeigt. Im gestitchten Bild stammen die Daten in der Zone unterhalb und links der gemischten Zone 702 aus dem Teilbild, das aus der nach links gerichteten fahrzeugmontierten Kamera stammt. Die Daten in der Zone oberhalb und rechts von der gemischten Zone 702 stammen aus dem Teilbild, das aus der nach vorne gerichteten fahrzeugmontierten Kamera stammt. Folglich stammen die Daten zum Bilden des Fahrzeugobjekts 703 am weitesten links aus der nach links gerichteten Kamera, und das Auto in der Bounding Box des detektierten Doppeleffekt-Artefakts 701 stammt aus der nach vorne gerichteten Kamera. Im rechten Bild 700' sind die Daten in der Bounding Box des detektierten Doppeleffekt-Artefakts 701 durch Daten aus der nach links gerichteten Kamera ersetzt worden, dadurch wird der Doppeleffekt-Artefakt entfernt. Die 8 zeigt den Prozess, der erneut stattfindet, weil festgestellt worden ist, dass eine Straßenleuchtenstruktur ebenfalls ein Doppeleffekt-Artefakt 801 ist. Wieder behandelt das Umschalten der Daten in der Bounding Box des Doppeleffekt-Artefakts auf Daten des anderen Teilbilds das Doppeleffekt-Artefakt.
Das gestitchte Ergebnis ohne anscheinende Doppeleffekt-Artefakte wird in der 9 gezeigt. Weitere Glättungseffekte können verwendet werden, um die Randzonen zu maskieren, die in den gestitchten Bildern eingestellt worden sind. Zum Beispiel können die Impostoren mit dem ursprünglichen gestitchten Bild gemischt werden, um plötzliche Übergänge in den Pixelwerten zu vermeiden. In einigen Ausführungsformen kann der Glättungseffekt die Ränder der Impostoren weich zeichnen. Solche Glättungseffekte unterstützen bei der Tarnung des Impostors im gestitchten Bild.
Weitere Verarbeitung des gestitchten Bilds kann stattfinden, um das Bild zu verfeinern. Zusätzlich kann separate Verarbeitung stattfinden, um andere Bildartefakte zu entfernen. Siehe zum Beispiel die deutsche Patentanmeldung 102019131971,4 (Ref.: 2018PF02667) mit dem Titel „An image processing module“, eingereicht am 26. November 2019. Das Entfernen von Doppeleffekt-Artefakten im Voraus verhindert jede anschließende Verarbeitung, die das Erscheinungsbild der Doppeleffekt-Artefakte verstärkt.
Das beschriebene Verfahren bezweckt, ablenkende Doppeleffekt-Artefakte mit hohen Kontrasten in gestitchten Bildern zuverlässig zu behandeln. Im Gegensatz zu anderen Verfahren zum Ermitteln von verdoppeltem Content verschwendet das beschriebene Verfahren keine Ressourcen, um Doppeleffekt-Artefakte in nicht erforderlichen Flächen zu detektieren und/oder zu beseitigen, z. B. das Erscheinungsbild einer gleichförmigen Straßenoberfläche zu korrigieren. Stattdessen fokussieren sich die beschriebenen Verfahren auf das zuverlässige Abschwächen gegen visuell auffällige Doppeleffekt-Artefakte (z. B. ein zweites Bild eines Autos vorne auf der Straße).
Die beschriebenen Verfahren können Fahrer dabei unterstützen, gestitchten Bildern zu vertrauen. Zum Beispiel werde ein Fahrer betrachtet, der ein gestitchtes Bild über ein im Innern eines Fahrzeugs montiertes Display sieht, z. B. ein Autofahrer, der ein Auto zum Einparken manövriert, indem er ein gestitchtes Bild auf einem Display-Bildschirm ansieht, das im Fahrgastraum eines Autos montiert ist. Die beschriebenen Verfahren können entweder den Fahrer vor dem Vorhandensein eines angezeigten Doppeleffekt-Artefakts warnen oder das Doppeleffekt-Artefakt aus dem angezeigten Bild entfernen. In beiden Fällen wird das angezeigte gestitchte Bild zuverlässiger.
Das betrachtete Fahrzeug könnte auch ein selbstfahrendes Fahrzeug sein, d. h. ein autonomes Fahrzeug, oder ein Fahrzeug mit Fahrerassistenzmerkmalen. In diesem Fall ist die Genauigkeit der betrachteten Bilder besonders wichtig. Zum Beispiel kann ein Fahrzeugsteuermechanismus das Fahrzeugsteuern oder die Fahrempfehlung auf das gestitchte Bild gründen. Indem Doppeleffekt-Artefakte gemeldet oder entfernt werden, kann daher der Fahrzeugsteuermechanismus geeignete Maßnahmen ergreifen. Durch Verwenden der beschriebenen Verfahren können daher schlechte Fahrentscheidungen reduziert werden, die wegen der Doppeleffekt-Artefakte im gestitchten Bild getroffen oder empfohlen werden.
Die Warnmeldungen der detektierten Doppeleffekt-Artefakte oder der korrigierten gestitchten Bilder können auch durch ein Fahrzeugsystem aufgezeichnet werden. Das Aufzeichnen kann in der Form erfolgen, Aufzeichnungen auf einer Medienspeichereinrichtung, z. B. einer Festplatte, zu halten.
Während das oben beschriebene Beispiel in Hinsicht auf gestitchte Bilder bereitgestellt worden ist, die von den vom Fahrzeug nach vorne 101 und nach links 102 gerichteten Kameras erfasst worden sind, versteht es sich, dass zu anderen Zeiten gestitchte Bilder aus anderen Kamerakombinationen mit benachbarten Sichtfeldern interessieren könnten und die Erfindung gleichermaßen auf das Erstellen von Rundumsichtbildern erweiterbar ist, die aus Teilbildern gestitcht werden, die von allen das Fahrzeug umgebenden Kameras 101 ... 104 erfasst werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 9509909 [0004]
US 2018/0253875 [0005]
DE 102016124978 A1 [0006]
US 2012/0262580 [0007]
US 2009/0110327 [0008]
DE 102019126814 [0021]
DE 1020191319714 [0052]

Claims

Verfahren zum Detektieren eines Artefakts in einem gestitchten Bild, das Folgendes umfasst: Teilbilder einer Umgebung aus jeweiligen fahrzeugmontierten Kameras mit überlappenden Sichtfeldern zu erfassen; ein gestitchtes Bild aus den Teilbildern zu bilden (410); wenigstens einen Teil des gestitchten Bilds entsprechend dem überlappenden Sichtfeld mit einem Klassifikator zu verarbeiten (420), um eine Liste detektierter Objekte aus der Umgebung an jeweiligen Positionen im gestitchten Bild bereitzustellen; zu bestimmen (430), ob irgendein detektiertes Objekt in der Liste detektierter Objekte eine Verdoppelung eines anderen Objekts in der Liste detektierter Objekte ist, und alle Objekte zu melden, von denen bestimmt worden ist, dass sie Verdoppelungen sind.
Verfahren nach Anspruch 1, das ferner Folgendes umfasst: für jedes gemeldete verdoppelte Objekt eine Zone des gestitchten Bilds, die das gemeldete verdoppelte Objekt enthält, mit einem Impostor aus einem der Teilbilder zu ersetzen (450).
Verfahren nach Anspruch 2, wobei jedes detektierte Objekt (601a) in der Liste detektierter Objekte durch eine Bounding Box definiert wird und wobei das Ersetzen einer Zone des gestitchten Bilds, die das gemeldete verdoppelte Objekt enthält, mit einem Impostor aus einem der Teilbilder umfasst, das gemeldete verdoppelte Objekt (701) mit einem Impostor (701') der gleichen Form wie die Bounding Box des gemeldeten verdoppelten Objekts zu ersetzen.
Verfahren nach Anspruch 2 oder 3, wobei wenigstens ein Teil des Impostors mit dem ursprünglichen gestitchten Bild gemischt wird (460).
Verfahren nach einem vorhergehenden Anspruch, das des Weiteren Folgendes umfasst: irgendein gemeldetes verdoppeltes Objekt auszuwählen; und als Reaktion darauf, dass das ausgewählte Objekt mehrere Male in einem Teilbild erscheint (440), das ausgewählte Objekt als nicht verdoppelt zu markieren.
Verfahren nach einem vorhergehenden Anspruch, wobei das Bilden eines gestitchten Bilds aus den Teilbildern Folgendes umfasst: mehrere überlappende Zonen von zwei Teilbildern auszuwählen, um mehrere Blending-Zonen zu definieren; die Form oder Position von wenigstens zwei Blending-Zonen der mehreren Blending-Zonen einzustellen; und ein gestitchtes Bild aus den beiden Teilbildern zu bilden, einschließlich die Daten aus den beiden Teilbildern in den mehreren Blending-Zonen zu kombinieren.
Verfahren nach Anspruch 6, wobei das Einstellen der Form oder Position von wenigstens zwei Blending-Zonen der mehreren Blending-Zonen umfasst, Stitching-Parameter (102e, 102d), die die Form oder Position von wenigstens zwei Blending-Zonen definieren, unter Verwendung eines Convolutional Neuronal Networks auszuwählen, das durch Variieren der Stitching-Parameter und durch Bewerten, ob Artefakte in den gestitchten Bildern detektiert werden, die sich aus jeweiligen Sätzen von Stitching-Parametern ergeben, trainiert worden ist.
Verfahren nach einem vorhergehenden Anspruch, wobei jedes gemeldete verdoppelte Objekt ein Stitching-Artefakt ist, das sich aufgrund von Folgendem ergibt: ein abgebildetes Objekt aus einer ersten fahrzeugmontierten Kamera wird im gestitchten Bild an einer ersten Position abgebildet; und das abgebildete Objekt aus einer zweiten fahrzeugmontierten Kamera wird im gestitchten Bild an einer zweiten Position abgebildet, wobei sich die zweite Position von der ersten Position um mehr als einen Schwellenwert unterscheidet.
Verfahren nach Anspruch 8, wobei der Schwellenwert so eingestellt ist, dass das gemeldete verdoppelte Objekt sich nicht mit dem ursprünglichen Objekt überlappt.
Verfahren nach einem vorhergehenden Anspruch, wobei die Teilbilder zur gleichen Zeit von zwei jeweiligen Kameras (101, 102) erfasst werden.
Verfahren nach einem vorhergehenden Anspruch, wobei das Bestimmen, ob irgendein detektiertes Objekt in der Liste detektierter Objekte eine Verdoppelung eines anderen Objekts in der Liste detektierter Objekte ist, umfasst, ein Convolutional Neural Network zu verwenden, um zu klassifizieren, ob detektierte Objekte Verdoppelungen sind, und wobei das Convolutional Neural Network dazu trainiert worden ist, ein verdoppeltes Objekt als eine verschobene Verdoppelung eines anderen Objekts in der Liste detektierter Objekte zu identifizieren.
Verfahren nach Anspruch 11, wobei die verschobene Verdoppelung eines anderen Objekts eine verschobene Verdoppelung eines anderen Objekts ist, die eingestellt worden ist, um die perspektivische Verschiebung zwischen den fahrzeugmontierten Kameras zu berücksichtigen.
Verfahren nach einem vorhergehenden Anspruch, wobei wenigstens ein Teil des gestitchten Bilds die Zonen des gestitchten Bilds umfasst, die aus den Daten von mehr als einem Teilbild gebildet werden.
Fahrzeug (100), das ein Kameramodul umfasst, wobei das Kameramodul gemäß einem vorhergehenden Verfahren arbeitet.