DE102022202174A1

DE102022202174A1 - Fusion von mit einem aktiven Messprinzip gewonnenen Roh-Messdaten und Bildern zu einer Repräsentation mit Tiefen- und/oder Abstandsinformation

Info

Publication number: DE102022202174A1
Application number: DE102022202174.6A
Authority: DE
Inventors: Oliver Lange; Michael David Warren
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-07
Also published as: WO2023165815A1

Abstract

Verfahren (100) zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation (2) eines Bereichs (1) aus Messdaten (3, 4), die durch Beobachtung dieses Bereichs gewonnen wurden, mit den Schritten:• es werden Messdaten (3) einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich (1) sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt (110), wobei diese Messdaten (3) eine interessierende Eigenschaft der reflektierten Welle, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls (S) abhängt, enthalten;• es wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild (4) des beobachteten Bereichs (1) bereitgestellt (120);• aus der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen (6) dahingehend ermittelt (130), welche Punkte (4a) des mindestens einen Bildes (4) einerseits und Punkte (3a) entlang von Sichtstrahlen (S) andererseits sich auf den gleichen Ort (1a) im Bereich (1) beziehen;• unter Heranziehung der Messdaten (3) der ersten Messmodalität, des mindestens einen Bildes (4) und/oder der ermittelten Korrespondenzen (6) werden jeweils für ein und denselben Ort (1a) im Bereich (1) mehrere Hypothesen (7a-7c) bezüglich der Position dieses Orts (1a) im Raum aufgestellt (140);• diese Hypothesen (7a-7c) werden in der gesuchten Repräsentation (2) zu Tiefen- und/oder Abstandsinformation (2a) in Bezug auf diesen Ort (1a) aggregiert (150).

Description

Die vorliegende Erfindung betrifft die Auswertung von Messdaten mehrerer Messmodalitäten zur Erzeugung einer möglichst genauen und sicheren Repräsentation eines beobachten Bereichs, beispielsweise für die Zwecke des zumindest teilweise automatisierten Fahrens.
Stand der Technik
Ein zumindest teilweise automatisiert fahrendes Fahrzeug muss auf Objekte und Ereignisse in seiner Umgebung reagieren. Hierzu wird das Fahrzeugumfeld mit verschiedenen Sensoren, wie etwa Kameras, Radarsensoren oder Lidar-Sensoren, überwacht. Die Messdaten, die mit diesen verschiedenen Messmodalitäten aufgenommen wurden, werden häufig zu einer finalen Feststellung fusioniert, welche Objekte in der Umgebung des Fahrzeugs vorhanden sind. Die WO 2018/188 877 A1 offenbart ein beispielhaftes Verfahren zur Fusionierung von Messdaten über mehrere Messmodalitäten.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation eines Bereichs bereit. Das Verfahren verwendet Messdaten, die durch Beobachtung des Bereichs mit mindestens zwei verschiedenen Messmodalitäten gewonnen wurden. Es werden also Messdaten beider Messmodalitäten bereitgestellt.
Die erste Messmodalität sendet eine elektromagnetische oder akustische Welle in den beobachteten Bereich und empfängt eine reflektierte Welle aus diesem Bereich. Mindestens eine interessierende Eigenschaft, wie beispielsweise die Amplitude oder im Falle von Frequenzmodulation die Frequenz, dieser reflektierten Welle wird gemessen. Zusätzlich kann der reflektierten Welle auch eine Richtung zugewiesen werden, aus der sie aus dem beobachteten Bereich auf den für die Messung verwendeten Sensor einfällt. In geometrischer Näherung kann die reflektierte Welle also als Sichtstrahl interpretiert werden, der vom Ort der Reflexion in gerader Linie auf den Sensor einfällt. Die interessierende Eigenschaft der reflektierten Welle kann dann in Abhängigkeit der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang des Sichtstrahls dargestellt werden. Derartige räumliche und/oder zeitliche Verläufe der interessierenden Eigenschaft sind die Rohdaten, die bei aktiven Messungen dieser Art typischerweise erfasst werden. Die erste Messmodalität kann insbesondere beispielsweise eine Radarmessung, eine Lidar-Messung oder eine Ultraschallmessung sein. Derartige Messungen werden insbesondere vielfach eingesetzt, um Objekte im Umfeld eines Fahrzeugs oder Roboters zu erkennen.
Die zweite Messmodalität liefert mindestens ein Bild des beobachteten Bereichs. Geeignet sind hierbei insbesondere beispielsweise Kamerabilder, Videobilder oder Wärmebilder. Derartige Bilder können beispielsweise mit strukturierter Beleuchtung oder Time-of-Flight-Techniken aufgenommen werden, die unmittelbar auch Tiefeninformation mitmessen. Ein derartiges Bild kann beispielsweise als RGBD-Bild kodiert sein, in dem zusätzlich zu der RGB-Farbinformation auch die Tiefe (Depth) enthalten ist. Es können insbesondere beispielsweise auch mehrere Kameras stereoskopisch kombiniert werden, so dass zeitgleich mehrere Bilder des beobachteten Bereichs aus verschiedenen Perspektiven entstehen. Es kann auch mindestens eine bewegte Kamera verwendet werden, und Tiefeninformation kann mit einer Structure from Motion-Technik ermittelt werden. Die Bilder können beispielsweise in der Form von Intensitätswerten vorliegen, die in einem zwei- oder dreidimensionalen Raster angeordnet sind. Bilder können aber auch beispielsweise in Form von Punktwolken vorliegen, in denen diejenigen Punkte, die mit Intensitätswerten belegt sind, kein zusammenhängendes Gebiet bilden.
Aus der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen dahingehend ermittelt, welche Punkte des mindestens einen Bildes einerseits und Punkte entlang von Sichtstrahlen andererseits sich auf den gleichen Ort im Bereich beziehen. Eine solche Korrespondenz kann beispielsweise angeben, dass ein bestimmter Ort X auf einem Sichtstrahl zwischen dem für die erste Messmodalität verwendeten Sensor und einem Objekt, der sich auch im Sichtfeld von zwei stereoskopisch angeordneten Kameras befindet, im Bild der ersten Kamera durch ein Pixel x_c1 und im Bild der zweiten Kamera durch ein anderes Pixel x_c2 dargestellt wird.
Unter Heranziehung der Messdaten der ersten Messmodalität, des mindestens einen Bildes und/oder der ermittelten Korrespondenzen werden jeweils für ein und denselben Ort im Bereich mehrere Hypothesen bezüglich der Position dieses Orts im Raum aufgestellt. Hierbei wird im Unterschied zu bekannten Verfahren, die ein stark verdichtetes Verarbeitungsergebnis der Messdaten (beispielsweise in Form eines oder mehrerer Peaks) weiter berücksichtigen, das vollständige Rohsignal genutzt. Wie zuvor erläutert, umfasst dieses Rohsignal zeitliche und/oder räumliche Verläufe einer interessierenden Eigenschaft der aus dem beobachteten Bereich reflektierten Welle.
Die Hypothesen können sich beispielsweise selektiv auf die Tiefen- und/oder Abstandsinformation des Orts beziehen, aber auch beispielsweise auf die Koordinaten der Position des Orts insgesamt. Die verschiedenen Hypothesen können insbesondere beispielsweise auf Tiefen- und/oder Abstandsinformation beruhen, die aus verschiedenen Quellen stammt. So kann beispielsweise eine erste Hypothese auf Tiefen- und/oder Abstandsinformation beruhen, die von der aktiven Messung mit der elektromagnetischen oder akustischen Welle herrührt. Eine zweite Hypothese kann hingegen beispielsweise auf Tiefen- und/oder Abstandsinformation beruhen, die von einer stereoskopischen Kombination zweier Bilder herrührt.
Die Hypothesen werden in der gesuchten Repräsentation zu Tiefen- und/oder Abstandsinformationen auf den jeweiligen Ort aggregiert. Dieses Aggregieren kann insbesondere beispielsweise beinhalten, dass Tiefen- und/oder Abstandsinformation, die einer der Hypothesen zu Grunde lag, so korrigiert wird, dass eine entsprechend aktualisierte Hypothese dann bestmöglich im Einklang mit der oder den weiteren Hypothesen steht.
Die Tiefen- und/oder Abstandsinformation in der Repräsentation kann insbesondere beispielsweise mindestens eine Koordinate der Position des Orts im Raum umfassen. Die Tiefen- und/oder Abstandsinformation kann sich aber auch beispielsweise selektiv auf eine Entfernung zwischen dem Ort und einem vorgegebenen Bezugspunkt, beispielsweise der Position des für die erste Messmodalität verwendeten Sensors, beziehen.
Es wurde erkannt, dass durch das Aggregieren die Genauigkeit der letztendlich erhaltenen Tiefen- und/oder Abstandsinformation in der Repräsentation deutlich verbessert werden kann. Insbesondere können Entfernungen zu Objekten in dem beobachteten Bereich genauer bestimmt werden. Auch kann beispielsweise die Form von Peaks in einem Radar- oder Lidar-Signal genauer ausgewertet werden. Aus dieser Form können beispielsweise Informationen über Oberflächennormalen und Rauigkeiten ermittelt werden.
Die Tiefen- und/oder Abstandsinformation wird auch insoweit verlässlicher, als sie immer auf mindestens zwei unabhängigen Messungen mit mindestens zwei verschiedenen Messmodalitäten beruht. Wenn eine dieser Messungen völlig unsinnige Ergebnisse liefert, beispielsweise weil ein Sensor defekt, verschmutzt oder dejustiert ist, fällt dies spätestens beim Aggregieren auf.
Indem sich die aktive Messung mit der elektromagnetischen oder akustischen Welle einerseits und die Abbildung mit mindestens einer Kamera andererseits ergänzen, ist weiterhin die Wahrscheinlichkeit vermindert, dass in der Repräsentation Objekte gänzlich fehlen oder umgekehrt die Repräsentation „Geisterobjekte“ enthält, die in der Realität gar nicht vorhanden sind. So können Objekte, die im Rauschen eines Lidar-Signals verborgen sind, durch die Fusion mit zusätzlicher Information aus einem oder mehreren Kamerabildern über den Rauschpegel gehoben und so erkennbar gemacht werden. Ebenso kann ein Lidar-Signal die Formgebung ausgedehnter, aber nur schwach texturierter Objekte, die aus Bildern dieser Objekte nur schwierig und ungenau zu ermitteln ist, deutlich genauer messen. Umgekehrt ist die Wahrscheinlichkeit, dass beide Messmodalitäten auf Grund von Messartefakten ein „Geisterobjekt“ an der gleichen Stelle erkennen, auf Grund der prinzipiellen physikalischen Unterschiede zwischen den Messmodalitäten sehr gering.
Insgesamt kann das Verfahren insbesondere bei sicherheitsrelevanten Systemen die Sicherheitsintegrität der Umgebungserfassung signifikant erhöhen. Jede Tiefeninformation, die aus den Rohsignalen mindestens zweier unabhängiger Messungen fusioniert wurde, ist genauer, verlässlicher und weniger wahrscheinlich falsch.
Fusionen zwischen Radar- oder Lidar-Messdaten einerseits und Bildern andererseits hat es schon gegeben. Im Unterschied zu früheren Ansätzen wird im Rahmen des hier beschriebenen Verfahrens jedoch das vollständige Rohsignal der ersten Messmodalität genutzt. Es wird also für jeden betrachteten Sichtstrahl die komplette Kurve der interessierenden Eigenschaft in Abhängigkeit der Entfernung zwischen dem Sensor und dem Ort der Reflexion entlang dieses Sichtstrahls berücksichtigt. In früheren Ansätzen wurden hingegen lediglich Peaks aus dem Rohsignal extrahiert und weiter verarbeitet. Hierbei wurde das Rohsignal sehr stark verdichtet. Dies ist in etwa damit vergleichbar, dass aus einem Bild beispielsweise Bounding-Boxen um sichtbare Objekte herum als Merkmale extrahiert werden.
Mindestens eine Hypothese kann unter Heranziehung von Messdaten der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild andererseits, die sich ausweislich der Korrespondenzen auf den gleichen Ort beziehen, aufgestellt werden. Beispielsweise kann für einen Ort auf dem Sichtstrahl zwischen dem für die erste Messmodalität verwendeten Sensor und einem Objekt anhand der Korrespondenzen ermittelt werden, welche Pixel in einem oder mehreren Kamerabildern Informationen über genau diesen Ort beinhalten. Auf Grund der bekannten geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander steckt in Korrespondenzen dieser Art bereits eine Hypothese dergestalt, wo genau der besagte Ort im dreidimensionalen Raum liegt. Die von der ersten Messmodalität gelieferte interessierende Eigenschaft, etwa Amplitude und/oder Frequenz, einerseits und die Bildinformation in Bezug auf diesen Ort andererseits können dann beispielsweise verwendet werden, um die Hypothese zu prüfen.
Alternativ oder auch in Kombination hierzu kann mindestens eine Hypothese unter Heranziehung von Bildern, die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, aufgestellt werden. Aus der bekannten geometrischen Anordnung der Kameras ergibt sich, wo ein Ort, der an zwei verschiedenen Punkten in den jeweiligen Kamerabildern jeweils ein bestimmtes Intensitätssignal hervorruft, im Raum liegen sollte.
Wenn für ein Kamerabild zusätzliche Tiefeninformation verfügbar ist, kann auch aus dieser Tiefeninformation eine Hypothese dahingehend gewonnen werden, wo ein durch ein bestimmtes Bildpixel adressierter Ort physisch liegen sollte. Eine derartige zusätzliche Tiefeninformation kann insbesondere beispielsweise mit einem entsprechend trainierten künstlichen neuronalen Netzwerk, KNN, ermittelt werden.
In einer besonders vorteilhaften Ausgestaltung wird aus den stereoskopischen aufgenommenen Bildern, bzw. aus dem Bild und der zusätzlichen Tiefeninformation, in Verbindung mit der Geometrie des Sichtstrahls und den Korrespondenzen ein Verlauf von Intensitätswerten und/oder Korrelationswerten entlang des Sichtstrahls ermittelt. Korrelationswerte können beispielsweise aus zwei stereoskopisch aufgenommenen Bildern als Korrelation zwischen Bildbereichen („Patches“) ermittelt werden, die in den beiden Bildern jeweils zu ein und demselben Punkt auf dem Sichtstrahl korrespondieren. Entfernungsinformation in den Messdaten der ersten Messmodalität wird dann so korrigiert, dass der Verlauf dieser Messdaten entlang des Sichtstrahls bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte in Einklang stehen. Die Fusion der Messdaten beider Messmodalitäten ist dann in dem Sinne auf die erste Messmodalität zentriert, dass

• der Abgleich mit den Bilddaten der zweiten Messmodalität im Raum der für die erste Messmodalität typischen Messkurven stattfindet und
• eine verbesserte Messkurve dieser Art als Ergebnis dieses Abgleichs erhalten wird.

Auf diese Weise können insbesondere beispielsweise „Geisterobjekte“, die in den Messdaten der ersten Messmodalität als Begleiterscheinung zur Erkennung eines echten Objekts auftreten können, unterdrückt werden, da das Auftreten von „Geisterobjekten“ an die konkrete erste Messmodalität gebunden ist.
Beispielsweise können anhand einer geometrischen Beschreibung des Sichtstrahls Punkte entlang des Sichtstrahls gesampelt werden. Anhand der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander können dann zu den gesampelten Punkten korrespondierende Punkte in dem mindestens einen Bild ermittelt werden. Alternativ oder auch in Kombination hierzu können jeweils mehrere Hypothesen bezüglich der Positionen von gesampelten Punkten im Raum aufgestellt und aggregiert werden. Insbesondere können die zu sampelnden Punkte aus den diskreten Messpunkten ausgewählt werden, für die bei der Messung mit der ersten Messmodalität tatsächlich Messdaten aufgenommen wurden.
In einer weiteren besonders vorteilhaften Ausgestaltung wird aus den stereoskopisch aufgenommenen Bildern, bzw. aus dem Bild und der zusätzlichen Tiefeninformation, eine Verteilung von Intensitätswerten in einem Korrelationsvolumen ermittelt. Die Messdaten entlang des Sichtstrahls werden in das Korrelationsvolumen projiziert. Die aus den stereoskopisch aufgenommenen Bildern gewonnene Tiefeninformation, bzw. die zusätzliche Tiefeninformation, wird dann so korrigiert, dass in dem Korrelationsvolumen die Verteilung der Intensitätswerte bestmöglich mit den Messdaten der ersten Messmodalität in Einklang steht. Es entsteht also eine verbesserte Tiefenschätzung für die durch das stereoskopisch aufgenommene Bild, bzw. durch das einzelne Bild und eine zusätzliche Tiefeninformation, angegebenen Orte. Die Fusion der Messdaten beider Messmodalitäten ist dann in dem Sinne auf die zweite Messmodalität zentriert, dass

• der Abgleich mit den Messdaten der ersten Messmodalität in einem durch Bilder der zweiten Messmodalität aufgespannten Korrelationsvolumen stattfindet und
• verbesserte Tiefeninformation, die sich auf Bilder der zweiten Messmodalität bezieht, also beispielsweise eine Tiefenkarte, als Ergebnis dieses Abgleichs erhalten wird.

Beispielsweise können Punkte aus dem mindestens einen Bild gesampelt werden. Es können dann anhand der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten korrespondierende Punkte entlang des Sichtstrahls ermittelt werden. Alternativ oder auch in Kombination hierzu können jeweils mehrere Hypothesen bezüglich der Positionen von gesampelten Punkten im Raum aufgestellt und aggregiert werden.
Wenn zu einem Punkt auf dem Sichtstrahl ein korrespondierender Punkt in dem mindestens einen Bild ermittelt wird, oder umgekehrt zu einem Punkt im Bild ein korrespondierender Punkt auf dem Sichtstrahl ermittelt wird, ist nicht garantiert, dass das Bild, bzw. der Sichtstrahl, an der jeweils durch die Korrespondenzen angegebenen Stelle tatsächlich Messwerte bzw. Intensitätswerte enthält. Insbesondere werden Messungen mit der ersten Messmodalität einerseits und Bilder andererseits mit unterschiedlichen Auflösungen abgetastet. Die Pixelauflösung von Bildern ist dabei typischerweise wesentlich feiner als die Entfernungsauflösung etwa von Lidar-Messungen.
Eine Möglichkeit, fehlende Messwerte bzw. Intensitätswerte zu ergänzen, besteht darin, einen parametrisierten Ansatz für die Messwerte bzw. Intensitätswerte an die Punkte in dem mindestens einen Bild, bzw. an die Messpunkte der ersten Messmodalität, zu fitten. Dieser parametrisierte Ansatz ist dann überall erklärt. Somit können dann die korrespondierenden Punkte und zugehörigen Messwerte bzw. Intensitätswerte aus diesem Ansatz abgerufen werden.
Eine zweite Möglichkeit, fehlende Messwerte bzw. Intensitätswerte zu ergänzen, besteht darin, die korrespondierenden Punkte sowie die zugehörigen Messwerte bzw. Intensitätswerte zwischen Punkten in dem mindestens einen Bild, bzw. zwischen Messpunkten der ersten Messmodalität, zu interpolieren. Auch die Interpolation ermöglicht es somit, korrespondierende Punkte im Bild, bzw. entlang des Sichtstrahls, auf einer feineren Skala zu erhalten als durch die Abtastung des Bildes, bzw. des Sichtstrahls, vorgegeben.
In einer besonders vorteilhaften Ausgestaltung wird ein Umfeld eines Fahrzeugs oder Roboters als beobachteter Bereich gewählt. Gerade bei Fahrzeugen und Robotern schafft die multimodale Beobachtung des Umfelds beispielsweise mit Radar oder Lidar einerseits und mit einer oder mehreren Kameras andererseits ein erhöhtes Sicherheitsniveau, weil Objekte, mit denen das Fahrzeug, bzw. der Roboter, kollidieren könnte, mit einer geringeren Wahrscheinlichkeit übersehen werden.
Daher wird in einer weiteren vorteilhaften Ausgestaltung aus der Repräsentation ein Ansteuersignal ermittelt. Das Fahrzeug, bzw. der Roboter, wird mit diesem Ansteuersignal angesteuert. Es ist dann vorteilhaft die Wahrscheinlichkeit erhöht, dass die mit dem Ansteuersignal ausgelöste Reaktion des Fahrzeugs, bzw. des Roboters, auf eine im Umfeld erfasste Verkehrssituation dieser Verkehrssituation angemessen ist.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Das Verfahren kommt im einfachsten Fall mit nur einem Sensor für die erste Messmodalität und einer monokularen Kamera aus. Die Ergebnisse werden jedoch umso besser, je mehr Kameras verwendet werden.
Idealerweise werden die Zeiten, zu denen der Sensor der ersten Messmodalität einerseits und die Kameras andererseits Daten aufnehmen, so aufeinander abgestimmt, dass sich die Messdaten der ersten Messmodalität einerseits und die Bilder andererseits auf genau gleiche Zeitpunkte und Zeiträume beziehen. Das heißt, es sollten sowohl der Beginn als auch die Dauer der Datenaufnahme abgestimmt sein. Auf diese Weise werden bei der Beobachtung dynamischer Situationen systematische Fehler minimiert. Beispielsweise kann ein Blitz-Lidar in Kombination mit einer hierzu synchronisierten globalen Shutter-Kamera, die die ganze Szene auf einmal abbildet, verwendet werden. Es kann auch beispielsweise ein scannendes Lidar mit einer Kamera mit Rolling-Shutter kombiniert werden.
Idealerweise werden die geometrischen Eigenschaften des Sensors der ersten Messmodalität einerseits und der Kameras andererseits aufeinander abgestimmt. Es können also insbesondere beispielsweise die Beobachtungsbereiche, Orientierungen und räumlichen Auflösungen der jeweiligen Sensoren aufeinander abgestimmt werden, so dass einerseits der benötigte Entfernungsbereich abgedeckt werden kann und andererseits keine überschüssigen Daten aufgenommen werden, für die es kein passendes „Gegenstück“ der anderen Messmodalität zum Fusionieren gibt.
Wenn zusätzlich die Koordinatenursprünge des Lidar-Sensors einerseits und der Kameras andererseits noch entlang einer Linie angeordnet werden, analog zu einer perfekten Stereo-Konfiguration, verlaufen die Projektionen von Lidar-Sichtstrahlen entlang von Bildzeilen. Die entsprechenden Speicherzugriffe auf Bildinhalte können dann schneller ablaufen.
Auch die Lidar-Scans können vorteilhaft zu Spalten und/oder Zeilen der Bilder korrespondieren, indem die rotierenden Spiegel des Lidar-Sensors entsprechend angesteuert werden.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100 zur Erstellung einer Tiefeninformation beinhaltenden Repräsentation 2 eines Bereichs 1;
2 Prinzipskizze des Zusammenführens von Lidar-Messdaten 3 mit Kamerabildern 4, 4';
3 Beispielhafte Korrektur von Entfernungen in Lidar-Messdaten 3 anhand von Kamerabildern 4, 4';
4 Beispielhafte Korrektur von Tiefeninformation aus Kamerabildern 4, 4' anhand von Lidar-Messdaten 3.

1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation 2 eines Bereichs 1.
In Schritt 110 werden Messdaten 3 einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich 1 sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt. Diese Messdaten 3 enthalten eine interessierende Eigenschaft der reflektierten Welle, wie beispielsweise eine Amplitude und/oder eine Frequenz, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls S abhängt. Diese Messgröße kann also beispielsweise unmittelbar die Entfernung sein. Die Entfernung kann aber auch beispielsweise in der Signallaufzeit kodiert sein.
In Schritt 120 wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild 4 des beobachteten Bereichs 1 bereitgestellt.
In Schritt 130 werden aus der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander Korrespondenzen 6 dahingehend ermittelt, welche Punkte 4a des mindestens einen Bildes 4 einerseits und Punkte 3a entlang von Sichtstrahlen S andererseits sich auf den gleichen Ort 1a im Bereich 1 beziehen.
Es werden nun in Schritt 140 mehrere Hypothesen 7a-7c bezüglich der Position des besagten Orts 1a im Raum aufgestellt. Jede dieser Hypothesen 7a-7c kann für sich genommen auf den Messdaten 3 der ersten Messmodalität, dem mindestens einen Bild 4, den ermittelten Korrespondenzen 6 sowie beliebigen Kombinationen hierauf basieren. Die Gesamtheit aller aufgestellten Hypothesen 7a-7c macht vorzugsweise von all diesen Datenquellen, also Messdaten 3, Bild 4 und Korrespondenzen 6, Gebrauch.
In Schritt 150 werden die Hypothesen 7a-7c in der gesuchten Repräsentation 2 zu Tiefen-und/oder Abstandsinformation 2a in Bezug auf den Ort 1a aggregiert.
Gemäß Block 105 kann ein Umfeld eines Fahrzeugs 50 oder Roboters 60 als beobachteter Bereich 1 gewählt werden. Es kann dann in Schritt 160 aus der Repräsentation 2 ein Ansteuersignal 160a ermittelt werden. Das Fahrzeug 50, bzw. der Roboter 60, kann dann in Schritt 170 mit diesem Ansteuersignal 160a angesteuert werden.
Gemäß Block 141 kann mindestens eine Hypothese 7a-7c

• unter Heranziehung von Messdaten 3 der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild 4 andererseits, die sich ausweislich der Korrespondenzen 6 auf den gleichen Ort beziehen, und/oder
• unter Heranziehung von Bildern 4, die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, und/oder
• unter Heranziehung eines Bildes 4 in Kombination mit zusätzlicher Tiefeninformation 4b in Bezug auf dieses Bild 4

Gemäß Block 142 kann aus den stereoskopischen aufgenommenen Bildern 4, bzw. aus dem Bild und der zusätzlichen Tiefeninformation 4b, in Verbindung mit der Geometrie des Sichtstrahls S und den Korrespondenzen 6 ein Verlauf von Intensitätswerten und/oder Korrelationswerten 8 entlang des Sichtstrahls S ermittelt werden. In diesem Verlauf stecken neue Hypothesen 7a-7c bezüglich der Position von Orten 1a, zu denen auch die Messdaten 3 der ersten Messmodalität bereits eine Aussage machen. Demenentsprechend kann dann gemäß Block 151 Entfernungsinformation in den Messdaten 3 der ersten Messmodalität so korrigiert werden, dass der Verlauf dieser Messdaten 3 entlang des Sichtstrahls S bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte 8 in Einklang steht.
Gemäß Block 143 kann aus den stereoskopisch aufgenommenen Bildern 4, bzw. aus dem Bild 4 und der zusätzlichen Tiefeninformation 4b, eine Verteilung 9 von Intensitätswerten in einem Korrelationsvolumen ermittelt werden. In dieser Verteilung 9 stecken Hypothesen 7a-7c bezüglich der Position von Orten 1a. Diese Hypothesen 7a-7c können mit weiteren Hypothesen 7a-7c zusammengeführt werden, die die Messdaten 3 bezüglich der gleichen Orte 1a bereitstellen. Zu diesem Zweck können gemäß Block 152 die Messdaten 3 entlang des Sichtstrahls S in das Korrelationsvolumen projiziert werden. Gemäß Block 153 kann dann die aus den stereoskopisch aufgenommenen Bildern 4 gewonnene Tiefeninformation 4b, bzw. die zusätzlich zum Bild 4 bereitgestellte Tiefeninformation 4b, so korrigiert werden, dass in dem Korrelationsvolumen die Verteilung 9 der Intensitätswerte bestmöglich mit den Messdaten 3 der ersten Messmodalität in Einklang steht.
Gemäß Block 144 können anhand einer geometrischen Beschreibung des Sichtstrahls S Punkte 3a entlang des Sichtstrahls S gesampelt werden. Gemäß Block 145 können dann anhand der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten 3a korrespondierende Punkte 4a in dem mindestens einen Bild 4 ermittelt werden. Alternativ oder in Kombination hierzu können gemäß Block 146 jeweils mehrere Hypothesen 7a-7c bezüglich der Positionen von gesampelten Punkten 3a im Raum aufgestellt werden, um dann in Schritt 150 aggregiert zu werden.
Gemäß Block 147 können Punkte 4a aus dem mindestens einen Bild 4 gesampelt werden. Gemäß Block 148 können dann anhand der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten 4a korrespondierende Punkte 3a entlang des Sichtstrahls S ermittelt werden. Alternativ oder in Kombination hierzu können gemäß Block 149 jeweils mehrere Hypothesen 7a-7c bezüglich der Positionen von gesampelten Punkten 4a im Raum aufgestellt werden, um dann in Schritt 150 aggregiert zu werden.
Hierbei kann das Ermitteln von korrespondierenden Punkten 4a, 3a gemäß Block 145a bzw. 148a jeweils umfassen, einen parametrisierten Ansatz an die Punkte in dem mindestens einen Bild 4, bzw. an Messpunkte 3 der ersten Messmodalität, zu fitten. Es können dann gemäß Block 145b bzw. 148b die korrespondierenden Punkte 4a, 3a aus diesem Ansatz abgerufen werden.
Alternativ oder in Kombination hierzu kann gemäß Block 145c bzw. 148c das Ermitteln von korrespondierenden Punkten 4a, 3a jeweils umfassen, die korrespondierenden Punkte 4a, 3a zwischen Punkten in dem mindestens einen Bild 4, bzw. zwischen Messpunkten 3 der ersten Messmodalität, zu interpolieren.
2 veranschaulicht, wie Lidar-Messdaten 3 mit Bildern 4, 4' zusammengeführt werden können. Ein Lidar-Sensor 10 sendet eine elektromagnetische Welle zu einem beispielhaft eingezeichneten Objekt 13 in einem Bereich 1, das die elektromagnetische Welle reflektiert. Diese Reflexion wird in geometrischer Näherung als Sichtstrahl S betrachtet. Das Objekt 13 wird weiterhin von zwei stereoskopisch angeordneten Kameras 11 und 12 beobachtet, die Bilder 4 bzw. 4' liefern. Auf Grund der unterschiedlichen Perspektiven, aus denen die Kameras 11 und 12 das Objekt 13 beobachten, erscheint das Objekt 13 in den Bildern 4 und 4' an unterschiedlichen Orten 13a und 13a'.
Aus der geometrischen Anordnung 5 des Lidar-Sensors 10 sowie der beiden Kameras 11 und 12 zueinander folgen Korrespondenzen 6, 6' dahingehend, welche Punkte 4a, 4a' im Bild 4 bzw. 4' sich auf den gleichen Ort 1a im Bereich 1 beziehen wie der Punkt 3a auf dem Sichtstrahl S. Die durch den Punkt 3a gelieferte Positionsangabe dieses Orts 1a ist eine Hypothese 7a-7c zur Position dieses Orts 1a, die noch mit weiteren Hypothesen 7a-7c zusammenzuführen ist. Solche weiteren Hypothesen 7a-7c können beispielsweise aus der Zusammenschau der Bilder 4 und 4' gewonnen werden. Die Punkte 4a, 4a', die zum Punkt 3a korrespondieren, liegen auf einer Projektion S' des Sichtstrahls S in die Bilder 4 und 4'.
3 verdeutlicht, wie die in einer Lidar-Messung ermittelten Entfernungen durch das zusätzliche Heranziehen der Bilder 4, 4' korrigiert werden können („Lidar-zentrischer Ansatz“). In Block 21 wird aus den Lidar-Messdaten 3 die Geometrie des Sichtstrahls S, die auch die auf ihm liegenden Punkte 3a festlegt, extrahiert. Der Sichtstrahl S wird in die Bilder 4, 4' projiziert, und aus der Korrespondenz 6 folgt, welche Punkte 4a, 4a' in den Bildern 4, 4' zu einem gegebenen Punkt 3a auf dem Sichtstrahl S korrespondieren.
Gemäß Block 142 werden aus den Bildern 4, 4'um diese Punkte 4a, 4a' jeweils Bildanteile (Patches) extrahiert, und es werden Korrelationen 8 zwischen diesen Patches berechnet. Diese Korrelation 8 ist ein Zahlenwert, der dem Punkt 3a auf dem Sichtstrahl S zugeordnet wird. Sie kann gemäß Block 151 mit den ursprünglichen Lidar-Messdaten 3 zusammengeführt werden.
In den ursprünglichen Lidar-Messdaten 3 sind neben einem ersten Peak P, der sich auf das in 2 gezeigte Objekt 13 bezieht, auch zwei weitere Geister-Peaks G zu erkennen, die sich auf kein reales Objekt beziehen. Die Korrelation 8 weist diese Geister-Peaks G nicht auf, dafür ist der Peak P zum realen Objekt 13 verbreitert. Durch die Fusion beider Informationen gemäß Block 151 entsteht verbesserte Tiefeninformation 2a in Bezug auf die Orte 1a, auf die sich die Punkte 3a auf dem Sichtstrahl S beziehen. Diese verbesserte Tiefeninformation 2a hat in dem in 3 gezeigten Beispiel die Form eines verbesserten Lidar-Spektrums. Die Geister-Peaks G verschwinden. Gleichzeitig ist der Peak P, der sich auf das reale Objekt 13 bezieht, deutlich schärfer. Wenn also dieser Peak P gemäß Block 22 erkannt und die durch ihn angegebene Entfernung des Objekts 13 zum Lidar-Sensor 10 gemäß Block 23 in die letztendlich gesuchte Repräsentation 2 des Bereichs 1 aufgenommen wird, wird die Genauigkeit und Qualität dieser Repräsentation 2 insgesamt verbessert.
4 verdeutlicht, wie Tiefeninformation 4b, die aus den Bildern 4, 4' auf Grund der stereoskopischen Anordnung der Kameras 11 und 12 gewonnen wurde, durch das zusätzliche Heranziehen der Lidar-Messdaten 3 korrigiert werden kann („Kamera-zentrischer Ansatz“). Die Tiefeninformation 4b wird gemäß Block 143 in eine Verteilung 9 von Intensitätswerten in einem Korrelationsvolumen überführt. Der analog zu 3 in Block 21 aus den Lidar-Messdaten 3 extrahierte Sichtstrahl S wird anhand der Korrespondenz 6 in das Korrelationsvolumen projiziert, wo er die Form S'' annimmt. Entlang dieses projizierten Sichtstrahls S'' werden die Lidar-Messdaten 3 im Korrelationsvolumen aufgetragen, so dass sie mit den dort eingetragenen Intensitätswerten fusioniert werden können. Die Lidar-Messdaten 3 können beispielsweise als zusätzlicher Layer eingeführt und bei der Neuberechnung der Tiefeninformation 4b mitberücksichtigt werden. Die Lidar-Messdaten 3 können aber auch in beliebiger anderer Weise mit den Bildinformationen im Korrelationsvolumen verrechnet werden, beispielsweise als Gewichtungsfaktoren für Bildinformationen.
Die Lidar-Messdaten 3 weisen analog zu 3 neben dem Peak P, der sich auf das reale Objekt 13 bezieht, noch die Geister-Peaks G auf, die sich auf kein reales Objekt beziehen. Dennoch führt ihre Berücksichtigung bei der Neuberechnung der Tiefeninformation 4b in Block 24 dazu, dass aktualisierte Tiefeninformation 2a mit einer deutlich verbesserten Genauigkeit entsteht. Wenn diese aktualisierte Tiefeninformation 2a in die Repräsentation 2 des Bereichs 1 übernommen wird, wird die Genauigkeit und Qualität dieser Repräsentation 2 insgesamt verbessert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2018/188877 A1 [0002]

Claims

Verfahren (100) zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation (2) eines Bereichs (1) aus Messdaten (3, 4), die durch Beobachtung dieses Bereichs gewonnen wurden, mit den Schritten: • es werden Messdaten (3) einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich (1) sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt (110), wobei diese Messdaten (3) eine interessierende Eigenschaft der reflektierten Welle, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls (S) abhängt, enthalten; • es wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild (4) des beobachteten Bereichs (1) bereitgestellt (120); • aus der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen (6) dahingehend ermittelt (130), welche Punkte (4a) des mindestens einen Bildes (4) einerseits und Punkte (3a) entlang von Sichtstrahlen (S) andererseits sich auf den gleichen Ort (1a) im Bereich (1) beziehen; • unter Heranziehung der Messdaten (3) der ersten Messmodalität, des mindestens einen Bildes (4) und/oder der ermittelten Korrespondenzen (6) werden jeweils für ein und denselben Ort (1a) im Bereich (1) mehrere Hypothesen (7a-7c) bezüglich der Position dieses Orts (1a) im Raum aufgestellt (140); • diese Hypothesen (7a-7c) werden in der gesuchten Repräsentation (2) zu Tiefen- und/oder Abstandsinformation (2a) in Bezug auf diesen Ort (1a) aggregiert (150).
Verfahren (100) nach Anspruch 1, wobei die Tiefen- und/oder Abstandsinformation (2a) mindestens eine Koordinate der Position des Orts (1a) im Raum, und/oder eine Entfernung zwischen dem Ort (1a) und einem vorgegebenen Bezugspunkt, umfasst.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei eine Radarmessung, eine Lidar-Messung oder eine Ultraschallmessung als erste Messmodalität gewählt wird.
Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei mindestens eine Hypothese (7a-7c) • unter Heranziehung von Messdaten (3) der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild (4) andererseits, die sich ausweislich der Korrespondenzen (6) auf den gleichen Ort beziehen, und/oder • unter Heranziehung von Bildern (4), die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, und/oder • unter Heranziehung eines Bildes (4) in Kombination mit zusätzlicher Tiefeninformation (4b) in Bezug auf dieses Bild (4) aufgestellt wird (141).
Verfahren (100) nach Anspruch 4, wobei die zusätzliche Tiefeninformation (4b) in Bezug auf das Bild (4) mit einem trainierten künstlichen neuronalen Netzwerk, KNN, ermittelt wird (141a).
Verfahren (100) nach einem der Ansprüche 4 bis 5, wobei • aus den stereoskopischen aufgenommenen Bildern (4), bzw. aus dem Bild und der zusätzlichen Tiefeninformation (4b), in Verbindung mit der Geometrie des Sichtstrahls (S) und den Korrespondenzen (6) ein Verlauf von Intensitätswerten und/oder Korrelationswerten (8) entlang des Sichtstrahls (S) ermittelt wird (142); und • Entfernungsinformation in den Messdaten (3) der ersten Messmodalität so korrigiert wird (151), dass der Verlauf dieser Messdaten (3) entlang des Sichtstrahls (S) bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte (8) in Einklang steht.
Verfahren (100) nach einem der Ansprüche 4 bis 5, wobei • aus den stereoskopisch aufgenommenen Bildern (4), bzw. aus dem Bild (4) und der zusätzlichen Tiefeninformation (4b), eine Verteilung (9) von Intensitätswerten in einem Korrelationsvolumen ermittelt wird (143); • die Messdaten (3) entlang des Sichtstrahls (S) in das Korrelationsvolumen projiziert werden (152), und • die aus den stereoskopisch aufgenommenen Bildern (4) gewonnene Tiefeninformation (4b), bzw. die zusätzliche Tiefeninformation (4b), so korrigiert wird (153), dass in dem Korrelationsvolumen die Verteilung (9) der Intensitätswerte bestmöglich mit den Messdaten (3) der ersten Messmodalität in Einklang steht.
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei anhand einer geometrischen Beschreibung des Sichtstrahls (S) Punkte (3a) entlang des Sichtstrahls (S) gesampelt werden (144) und • anhand der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten (3a) korrespondierende Punkte (4a) in dem mindestens einen Bild (4) ermittelt werden (145), und/oder • jeweils mehrere Hypothesen (7a-7c) bezüglich der Positionen von gesampelten Punkten (3a) im Raum aufgestellt (146) und aggregiert (150) werden.
Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei Punkte (4a) aus dem mindestens einen Bild (4) gesampelt werden (147) und • anhand der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten (4a) korrespondierende Punkte (3a) entlang des Sichtstrahls (S) ermittelt werden (148), und/oder • jeweils mehrere Hypothesen (7a-7c) bezüglich der Positionen von gesampelten Punkten (4a) im Raum aufgestellt (149) und aggregiert (150) werden.
Verfahren (100) nach einem der Ansprüche 8 bis 9, wobei das Ermitteln von korrespondierenden Punkten (4a, 3a) jeweils umfasst, • einen parametrisierten Ansatz an die Punkte in dem mindestens einen Bild (4), bzw. an Messpunkte (3) der ersten Messmodalität, zu fitten (145a, 148a) und • die korrespondierenden Punkte (4a, 3a) aus diesem Ansatz abzurufen (145b, 148b).
Verfahren (100) nach einem der Ansprüche 8 bis 10, wobei das Ermitteln von korrespondierenden Punkten (4a, 3a) jeweils umfasst, die korrespondierenden Punkte (4a, 3a) zwischen Punkten in dem mindestens einen Bild (4), bzw. zwischen Messpunkten (3) der ersten Messmodalität, zu interpolieren (145c, 148c).
Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei ein Umfeld eines Fahrzeugs (50) oder Roboters (60) als beobachteter Bereich (1) gewählt wird (105).
Verfahren (100) nach Anspruch 12, wobei • aus der Repräsentation (2) ein Ansteuersignal (160a) ermittelt wird (160) und • das Fahrzeug (50), bzw. der Roboter (60), mit diesem Ansteuersignal (160a) angesteuert wird (170).
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 13 auszuführen.
Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 14.
Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 14, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 15.