EP4229549A1

EP4229549A1 - System und verfahren zum annotieren von automobilradardaten

Info

Publication number: EP4229549A1
Application number: EP21791365.6A
Authority: EP
Inventors: Robert Prophet; Marcel Hoffmann; Marcel STELZIG; Martin Vossiek
Original assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date: 2020-10-16
Filing date: 2021-10-14
Publication date: 2023-08-23
Also published as: WO2022079162A1; DE102020127315B4; CN116508071A; DE102020127315A1; US20230386175A1

Abstract

System zum Annotieren von Automobilradardaten, umfassend mindestens ein an einem Automobil angeordnetes Radar zum Erzeugen eines Radarbilds durch eine Radarmessung, mindestens ein außerhalb des Automobils angeordnetes optisches Erfassungssystem zum Erzeugen eines Kamerabilds, eine Segmentationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Description

System und Verfahren zum Annotieren von Automobilradardaten

Autonome Landfahrzeuge werden den Straßenverkehr in vielerlei Hinsicht positiv beeinflussen. Um hierbei ein Automatisierungslevel von 3, also das hochautomatisierte Fahren oder höher zu erreichen, werden zunehmend Automobilradare eingesetzt.

Für die Auswertung und Interpretation der Radardaten ist es vorteilhaft, sogenannte künstliche Intelligenz (abgekürzt AI = engl. für „artificial intelligence“) einzusetzen, weshalb maschinenlernende Algorithmen einen wichtigen Forschungsschwerpunkt darstellen. Dabei sind für Verfahren des überwachten maschinellen Lernens möglichst große Trainingsdatensätze notwendig, die die jeweilig gewünschte Ausgangsinformation in Form von Annotationen bereithalten. Ein Beispiel für solche eine Annotation ist die Zuordnung einer Objektklasse zu den in den Radardaten detektierten Zielen, etwa „Mensch“ oder „Fahrrad“. Letztendlich sind derartige Trainingsdatensätze einer der wichtigsten und herausforderndsten Aspekte von AI und die Gewinnung derartiger Datensätze ist mit enormen Kosten verbunden. Die Existenz und der Besitz derartiger Datensätze ist folglich außerordentlich werthaltig und stellt einen bedeutenden Wettbewerbsvorteil bei der Entwicklung von hochautomatisierten Fahrzeugen dar. So ist die Qualität der Trainingsdatensätze mitunter auch maßgeblich dafür verantwortlich, welche Performance mit einer zu trainierenden künstlichen Intelligenz erreicht werden kann.

Automobilradare liefern üblicherweise drei-, vier oder noch höherdimensionale Radarsignaldatensätze, aus denen anschließend eine Radarpunktwolke extrahiert wird, die aus sämtlichen Radarzielen einer Messung besteht. Es gibt viele unterschiedliche Radartypen, mit denen die Ziele bestimmt werden können, wobei dem Fachmann aber klar ist, dass die vorliegende Erfindung nicht auf einen bestimmten Radartyp beschränkt ist. Unter einem Radarziel versteht man ein lokales Maximum im Radarsignaldatensatz, das bzgl. der reflektierten Signalleistung einen gewissen Schwellwert überschreitet. Die angesprochene Extraktion geschieht u.a. aus Gründen der Speicherreduktion und ist stets mit einem gewissen Informationsverlust verbunden. Die erwähnten maschinenlernenden Algorithmen können bereits auf Basis von Radarpunktwolken gute Ergebnisse erzielen, wobei dem Fachmann aber klar ist, dass der Zugriff auf den gesamten Radarsignaldatensatz noch performantere Ergebnisse zulassen würde, vgl. A. Palffy, J. Dong, J. F. P. Kooij, and D. M. Gavrila, “CA/A/ Based Road User Detection Using the 3D Radar Cube," in IEEE Robotics and Automation Letters, vol. 5, issue 2, 2020, pp. 1263-1270.

Zum jetzigen Zeitpunkt existieren lediglich drei öffentliche Automobilradar- Datensätze:

• Astyx HiRes2019 (vgl. H. Caesar et al., “nuScenes: A multi modaldataset for autonomous driving,” arXiv preprint: 1903.11027, 2019. ),

• nuScenes (vgl. M. Meyer and G. Kuschk, “Automotive Radar Dataset for Deep LearningBased 3D Object Detection," in Proc, of 16th European Radar Conference (EuRAD), Paris, France, 2019), sowie

• Oxford Radar RobotCar (vgl. D. Barnes, M. Gadd, P. Murcutt, P. Newman, and I. Posner, “The oxfordradar robotcar dataset: A radar extension to the oxford robotcar dataset," in Proc, of International Conference on Robotics and Automation (ICRA), Paris, France, 2020). Jeder dieser Datensätze stellt ausschließlich Radarpunktwolken bereit und weist verschiedene Schwächen auf. So besteht: Astyx HiRes2019 aus weniger als 600 Messungen ohne jegliche Annotation der Radarziele. nuScenes besitzt zwar annotierte Radarziele, jedoch entsprechen die verwendeten Radare nicht dem Stand der Technik bzw. liefern sie nur sehr wenige Radarziele je Messzyklus. Oxford Radar RobotCar schließlich weist Referenzmesstechnik auf, jedoch keinerlei Annotationen. Überdies basiert der Datensatz auf einem auf dem Fahrzeugdach montiertem Radar, das damit nicht den gängigen Marktanforderungen entspricht.

Infolgedessen ist der Bedarf nach einem weiteren öffentlichen Datensatz mit vollständiger Annotation gegeben. Da der zeitaufwendigste und fehleranfälligste Teilschritt bei der Generierung eines solchen Datensatzes die Annotation ist, ist ein möglichst hoher Automatisierungsgrad hierfür besonders gewinnbringend.

Die Mehrzahl der Annotationen wird durch einen Abgleich der Radarpunktwolke mit Kamerabildern realisiert, die sich im Innenraum des Egofahrzeuges befinden. Das Egofahrzeug ist in diesem Kontext jenes Fahrzeug, das mit den Radaren ausgerüstet ist, deren Daten zu annotieren sind. Da die Kameras sich genauso wie die Radare auf Fahrzeughöhe befinden, betrachten sie die Umgebung des Fahrzeuges mit einer Blickrichtung ungefähr parallel zum Boden oder mit einem mit dem Boden eingeschlossenen Winkel, der weniger als 10° beträgt.

Der Abgleich der Radardaten mit den Kameradaten gestaltet sich jedoch häufig sehr schwierig, da Kameras eine vergleichsweise schlechte bis gar keine Entfernungsinformation liefern. Des Weiteren erfassen Kameras nur die Objekte mit direkter Sichtverbindung, wohingegen Radare in einigen Messsituationen in der Lage sind, hintereinanderliegende Objekte - beispielsweise hintereinanderfahrende Fahrzeuge oder eine Person hinter einem Fahrzeug - zu detektieren, wodurch eine vollständige Annotation nicht gewährleistet werden kann. Das ist besonders nachteilig, da somit die spezifischen Stärken von Radarsystemen in aktuellen Trainingsdatensätzen nur sehr schwer oder gar nicht abgebildet werden und somit der volle Informationsgehalt der Radardaten in üblichen Al-Ansätzen nicht genutzt werden kann.

Des Weiteren ist es aus dem Stand der Technik bekannt durch einen Abgleich der Radarpunktwolke mit einer hochaufgelösten Lidar-Punktwolke zu annotieren. Von den sehr hohen Kosten eines solchen Lidars abgesehen, ergibt sich hierbei das gleiche Problem wie bei den Innenraum-Kameras, wonach hintereinanderliegende Objekte nicht erfasst werden.

In dem Beitrag: N. Scheiner, N. Appenrodt, J. Dickmann, and B. Sick, “Automated Ground Truth Estimation of Vulnerable Road Users in Automotive Radar Data Using GNSS,” in Proc, of International Conference on Microwaves of Intelligent Mobility, Detroit (Ml), USA, 2019; wurde ein Verfahren vorgestellt, in dem Fußgänger und Radfahrer mit mobilen Satelliten-Navigationssystemen ausgerüstet wurden, wodurch entsprechende Bereiche der Radarpunktwolke automatisch annotiert werden konnten. Neben den enormen Kosten des Verfahrens erweist sich hierbei insbesondere die Nicht-Annotation von Infrastrukturobjekten sowie Verkehrsteilnehmern, die nicht mit einem solchen System ausgerüstet sind, als nachteilig.

Es ist demnach das Ziel der vorliegenden Erfindung eine verbesserte und dennoch hochautomatisierbare Annotation von Automobilradardaten bereitzustellen, um die oben aufgeführten Nachteile zu überwinden.

Dies gelingt mit einem System, das sämtliche Merkmale des Anspruchs 1 bzw. einem Verfahren das sämtliche Verfahrensschritte des Anspruchs 10 aufweist.

Das erfindungsgemäße System zum Annotieren von Automobilradardaten umfasst demnach mindestens ein an einem Automobil angeordnetes Radar zum Erzeugen mindestens eines Radarbilds durch mindestens eine Radarmessung, mindestens ein außerhalb des Automobils angeordnetes optisches Erfassungssystem zum Erzeugen eines Kamerabilds, eine Interpretationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild zu bewerten, um mindestens zwei Bereiche unterschiedlicher Objektklassen auf dem Kamerabild zu definieren, wobei die Interpretationseinheit vorzugsweise eine Segmentationseinheit ist, die dazu ausgelegt ist, ein vom optischen Erfassungssystem erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Dies optische Erfassungssystem kann sein: eine Kamera bzw. Stereokamera, oder eine time-of-flight Kamera (optional zusammen mit einer Kamera), oder ein Laserscanner (optional zusammen mit einer Kamera). Jede Umsetzung der optischen Erfassungseinheit ist dazu ausgebildet ein Kamerabild zu erzeugen, das die aufgenommen Informationen enthält.

Ferner kann vorgesehen sein, dass die Annotierungseinheit, dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Der Clou der Erfindung liegt nun in der automatischen Zuordnung des Radarziels an die jeweilige Objektklasse des Semantikgitters in der sich das Radarziel befindet, wobei das Semantikgitter auf einem Kamerabild basiert, das von außerhalb des Automobils aufgenommen worden ist. Bei entsprechender Anordnung des optischen Erfassungssystems können vom Automobil aus nicht zu sehende Objekte fehlerfrei klassifiziert und auch annotiert werden, so dass das volle Potential eines Radarsystems trainiert werden kann. So ist bspw. ein vom Automobil nicht zu sehendes zweites Fahrzeug, das durch ein erstes Fahrzeug optisch abgeschirmt ist, im Kamerabild nun leicht zu erkennen. Dieses zweite Fahrzeug wird nun entsprechend segmentiert, so dass nach einer Transformation des Kamerabilds in ein gemeinsames Koordinatensystem mit dem Radarbild nun auch Radarziele annotiert werden können, die bei einer optischen Erfassungseinheit im Automobil verborgen geblieben wären.

Demzufolge wird das aufgenommene Kamerabild zunächst durch die Interpretationseinheit bewertet, um das Bild in Bereiche von mindestens zwei unterschiedlichen Objektklassen zu unterteilen. Vorzugsweise kann das aufgenommene Kamerabild in eine semantisch segmentierte Karte (nachfolgend Semantikgitter) umgewandelt werden. In diesem Semantikgitter wird pixelweise dem Kamerabild eine Objektklasse zugeordnet, so dass eine optische Annotation vorgenommen wird. Dieser Teilschritt soll vorzugsweise mit einem künstlichen neuronalen Netz ausgeführt werden, da dies besonders zeitsparend ist. Es bietet sich hierbei an, nach dem Vorbild der nachfolgenden Offenbarung zu arbeiten: I. Nigam, C. Huang, and D. Ramanan, “Ensemble Knowledge Transfer for Semantic Segmentation" in Proc, of Winter Conference on Applications of Computer Vision, Lake Tahoe (NV), USA, 2018.

Mithilfe einer Koordinaten-Transformation eines der beiden Bilder oder auch beider Bilder erfolgt eine Überführung des Radarbilds bzw. der daraus abgeleiteten Radarpunktwolke in das Semantikgitter, so dass beide Koordinatensysteme koregistriert sind.

Um die Koregistrierung zu optimieren, können im Vorfeld optische Marker am Egofahrzeug angebracht werden, deren Position im Fahrzeug-Koordinatensystem bekannt sind. Dadurch können kontinuierlich den von den Markern belegten Pixeln im Kamerabild exakte Koordinaten im Fahrzeug-Koordinatensystem zugeordnet werden (oder auch umgekehrt), woraus eine Transformationsvorschrift für weitere Pixel abgeleitet werden kann. Dies ist insbesondere dann von Vorteil, wenn keine strukturelle Verbindung zwischen Automobil (also dem Egofahrzeug) und dem optischen Erfassungssystem vorliegt, sondern diese unabhängig voneinander ausgebildet sind.

Liegen das Kamerabild und das Radarbild in einem gemeinsamen Koordinatensystem vor, kann nun auf einfache Art und Weise eine Annotation der im Radarbild enthaltenen Radarziele erfolgen. In dem koregistrierten Bild, in dem das Kamerabild und das Radarbild in einem gemeinsamen Koordinatensystem vorliegen, wird einem Radarziel nun diejenige Objektklasse zugewiesen, die das Semantikgitter an der Stelle des jeweiligen Radarziels vorgibt. Dadurch kann bei der Annotation das Semantikgitter als eine Art Schablone gesehen werden, so dass die über das koregistrierte Bild verteilten Radarziele denjenigen Objektklassen zugeordnet werden, die das Semantikgitter an der Stelle eines jeweiligen Radarziels besitzt. Der Vorgang reduziert sich auf eine simple Ablesung, die sehr schnell und mit wenig Rechenleistung ausgeführt werden kann. In dem Bereich des Radarziels können radarspezifische Messunsicherheiten berücksichtigt werden. Darüber hinaus ist es möglich, den gesamten Entfernungs-Azimut-Elevations-abhängigen Anteil des Radarsignaldatensatzes auf Basis einer geometrischen Zuordnung zum Semantikgitter zu annotieren. Dem Fachmann ist dabei klar, dass bei einer unzureichenden geometrischen Auflösung eine weitere räumliche Trennung über den Geschwindigkeits-abhängigen Anteil des Radarsignaldatensatzes vorgenommen werden kann.

Nach einer optionalen Fortbildung der Erfindung kann vorgesehen sein, dass die Blickrichtung des optischen Erfassungssystems zur Erzeugung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds verläuft, wobei vorzugsweise die Blickrichtung des optischen Erfassungssystems einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils und/oder der Blickrichtung des Radars einschließt, und/oder wobei die Blickrichtung des optischen Erfassungssystems senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils und/oder der Blickrichtung des Radars verläuft.

Durch die verschiedenen Ausrichtungen von optischen Erfassungssystem und Radar kann gewährleistet werden, dass das Kamerabild aus einer anderen Perspektive als das Radarbild aufgenommen wird. Ist bspw. das optische Erfassungssystem an einer sehr viel höheren Position angeordnet als das Radar (bspw. 3m über dem Radar), kann das optische Erfassungssystem Dinge erkennen, die bei einer Positionierung an identischer oder ähnlicher Stelle wie das Radar optisch verdeckt gewesen wären. Durch das Verändern der Perspektive ist es nun möglich, dass das optische Erfassungssystem Kamerabilder erzeugt, die sehr viel mehr Informationen über den Radarerfassungsbereich in sich tragen als ob sie an ähnlicher Stelle wie das Radar aufgenommen worden wären. Insbesondere eine Sicht aus der Vogelperspektive, die den Radarerfassungsbereich zumindest teilweise abdeckt, bietet sehr viel mehr Tiefeninformationen für das Radarbild, da es vom Radar aus gesehene optische Hindernisse, die die Fernsicht beeinträchtigen, nicht gibt oder diese nur in deutlich verringertem Maße vorhanden sind.

Ferner kann nach der vorliegenden Erfindung vorgesehen sein, dass das Radar und das optische Erfassungssystem derart ausgerichtet sind, dass deren Erfassungsbereiche zumindest teilweise überlappen. Besonders vorteilhaft ist es, wenn das optische Erfassungssystem den Bereich der Radarantenne oder des Radararrays selbst erfasst, so dass ausgehend vom Radar sämtliche Objekte im Erfassungsbereich des optischen Erfassungssystems annotiert werden können

Nach einer optionalen Fortbildung der Erfindung kann vorgesehen sein, dass das optische Erfassungssystem dazu ausgelegt ist, stereoskopische Kamerabilder bzw. 3D-Kamerabilder zu erzeugen, wobei vorzugsweise hierfür mindestens zwei voneinander beabstandete Aufnahmeeinheiten, bevorzugterweise mindestens vier voneinander beabstandete Aufnahmeeinheiten vorgesehen sind. Das Erzeugen von stereoskopische Kamerabildern kann bspw. durch eine ToF- Kamera oder einen Laserscanner realisiert werden. Bei Verwendung einer ToF- Kamera und/oder eines Laserscanners kann es von Vorteil sein zusätzlich dazu eine reguläre Kamera zu verwenden.

Der Vorteil von stereoskopischen Aufnahmen ist die Möglichkeit, Höheninformationen im Kamerabild zu verarbeiten, so dass die nicht für ein Automobil relevanten Informationen an entsprechender Stelle herausgefiltert werden können. So kann der relevante für ein Automobil entscheidende Bereich auf eine Höhe von weniger als 5 m oder weniger als 3 m vom Boden beschränkt werden, so dass Annotationen nur im relevanten Bereich stattfinden und die Wahrscheinlichkeit einer fehlerhaften Segmentierung bzw. Annotation verringert wird.

Weiter kann nach der vorliegenden Erfindung vorgesehen sein, dass das optische Erfassungssystem über eine mechanische Konstruktion oberhalb eines Dachs des Automobils an dem Automobil angeordnet ist, wobei vorzugsweise der vertikale Abstand der optischen Erfassungseinheit zu dem Dach mindestens einen Meter, bevorzugterweise mindestens 2 Meter beträgt.

Dabei kann auch vorgesehen sein, dass das optische Erfassungssystem an einer teleskopierbaren Vorrichtung befestigt ist, die sich nach oben vom Dach des Automobils weg ausfahren lässt.

Die optische Erfassungseinrichtung kann in einer Steadicam angeordnet sein, damit die erhaltenen Kamerabilder nicht verwackelt sind und auch bei Erschütterungen einen möglichst gleichbleibenden Bildausschnitt aufnehmen.

Dem Fachmann ist klar, dass die optische Erfassungseinheit strukturell nicht mit dem Egofahrzeug, also dem Automobil verbunden sein muss. Sie könnte bspw. auch unabhängig davon an einem ortsgebundenen Pfosten oder dergleichen angeordnet sein. Weiter kann nach einer Fortbildung der vorliegenden Erfindung auch vorgesehen sein, dass das optische Erfassungssystem mittels mindestens einer Flugdrohne freischwebend geführt ist, und vorzugsweise beim Erzeugen des Kamerabilds einen vertikalen Abstand zu einem Dach oder einem Untergrund des Automobils von mindestens einem Meter, vorzugsweise mindestens 2 Meter und bevorzugterweise von mindestens 5 Metern aufweist. Möglich sind aber auch Höhen im Bereich von 30 bis 50 m. Dieser Höhenbereich stellt eine normale Flughöhe einer Drohne dar.

Zudem kann vorgesehen sein, dass sich der Abstand der Drohne vom Boden vom Sichtbereich der Radare abhängig ist. So kann man für Long-Range-Radare, die teilweise mehrere hundert Meter weit schauen (bspw. : 150 m weit), eine andere Höhe der Drohne verwenden als für Short-Range-Radare, deren Sichtbereich 100m typischerweise nicht übersteigt (bspw.: 30 m). Man wird bei Short-Range-Radaren eine tiefere Flughöhe ansetzen als bei Long-Range-Radaren.

Dabei kann vorgesehen sein, dass das optische Erfassungssystem mehrere Aufnahmeeinheiten aufweist, die jeweils von einer zugehörigen Flugdrohne freischwebend geführt sind, wobei vorzugsweise der Erfassungsbereich einer jeder der durch die Flugdrohnen getragenen Aufnahmeeinheiten zumindest teilweise überlappt. Vorteilhafterweise sind die mehreren Flugdrohnen mindestens 4 m voneinander entfernt, so dass bei der Aufnahme von stereoskopischen Bildern die Basis der unterschiedlichen Kameras sehr groß ist.

Weiter kann nach einer Fortbildung der Erfindung vorgesehen sein, dass das mittels mindestens einer Flugdrohen geführte optische Erfassungssystem eine Regelungseinrichtung aufweist, damit es relativ zu dem Automobil, auch während einer Fahrt des Automobils, eine vordefinierte Position und Orientierung zu dem Automobil beibehält.

Dies vereinfacht die Transformation der von dem optischen Erfassungssystem aufgenommenen Bilder, da diese bei einer bekannten Relativposition zum Automobil bzw. dem Radar gleichbleibt. Würde sich die Position und die Orientierung des optischen Erfassungssystems zu dem Automobil hingegen ändern, müsste die Transformation der erhaltenen Bilder in ein gemeinsames Koordinatensystem hieran immer angepasst werden, wobei hierfür das ständige exakte Verfolgen der beiden Positionen und Orientierungen von Automobil und Drohne erforderlich wäre. Zudem ist hierbei auch zu beachten, dass es eine ideale Position der Drohne gibt, von wo aus das von ihr getragene optische Erfassungssystem einen optimalen Erfassungsbereich hat. Ändert sich die Position der Drohne, ist folglich der Erfassungsbereich nicht mehr optimal.

Vorzugsweise kann vorgesehen sein, dass jede der mindestens einen Flugdrohne so ausgestaltet ist, dass geeignete Messmittel und vorzugsweise eine Steuer- /Regelungseinrichtung vorhanden ist, die dafür sorgt, dass es eine vordefinierte oder zumindest bekannte Pose (Pose = Position und Orientierung) relativ zum Egofahrzeug (Automobil) auch während der Fahrt des Egofahrzeuges einnimmt. Diese Pose wird im folgenden auch Arbeitspunkt AP genannt. Der AP ist vorzugsweise so zu wählen, dass die Kamerasysteme einen möglichst großen Bereich einsehen, der von den Sichtbereichen der Radare des Egofahrzeuges abgedeckt wird.

Das Halten des Arbeitspunkts relativ zum Egofahrzeug kann vorzugsweise mit einer geeigneten Regelung realisiert werden. Dafür sind genaue Positionsdaten des Egofahrzeuges und der UAVs notwendig. Als bevorzugte Ausführungsvarianten für die Messmittel zur Positionsermittlung sind folgende Varianten denkbar:

• Globales Navigations-Satellitensystem (GNSS), z.B. DGPS, und Inertialsensorik in Egofahrzeug und Flugdrohne(n) sowie Funkkommunikation zwischen Egofahrzeug und Flugdrohne(n)

• GNSS und Inertialsensorik in Flugdrohne(n), Position des Egofahrzeuges wird aus den Kamerabildern abgeleitet, wobei am Egofahrzeug optische Marker angebracht sind

• Flugdrohne(n) und das Egofahrzeug werden mit Transpondern versehen und die Lage zueinander wird mit einem Funkortungssystem erfasst Für den Fall eines Hindernisses (z.B. eine Brücke oder ein Baum, der über die Fahrbahn ragt) in der geplanten Flugdrohnen-Trajektorie muss die mindestens eine Flugdrohne eine entsprechende Hinderniserkennung besitzen. Bei erkanntem Hindernis wäre es besonders zweckmäßig, wenn die Trajektorie optimal und in Echtzeit so angepasst wird, dass möglichst schnell wieder zum AP zurückgekehrt werden kann und gleichzeitig der Informationsverlust minimiert wird.

Nach einer weiteren optionalen Modifikation der Erfindung kann vorgesehen sein, dass das System ferner eine Filtereinheit umfasst, die dazu ausgelegt ist, das Kamerabild vor der Bearbeitung durch die Segmentationseinheit einem Filterprozess zu unterziehen, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.

Hierbei bietet es sich an, wenn das Kamerabild ein stereoskopisches Bild ist, das über Höheninformationen verfügt.

Dem Fachmann ist klar, dass die vorstehend erläuterten Einheiten, wie die Segmentationseinheit, die Rechnereinheit, die Annotierungseinheit und/oder eine Filtereinheit nicht zwangsläufig voneinander verschiedene Einheiten sein müssen, sondern auch durch eine einzige oder mehrere Einheiten, bspw. einen Prozessor umgesetzt sein können.

Die Erfindung betrifft ferner Verfahren zum Annotieren von Automobilradardaten, vorzugsweise mit einem System nach einem der vorhergehend beschriebenen Aspekte, wobei in dem Verfahren: ein Radarbild durch eine Radarmessung von mindestens einem an einem Automobil angeordneten Radars erzeugt wird, ein Kamerabild durch mindestens ein optisches Erfassungssystem erzeugt wird, das außerhalb des Automobils angeordnet ist, das Kamerabild zur Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen auf dem Kamerabild einer Bewertung unterzogen wird, wobei vorzugsweise das Kamerabild zur Bildung eines Semantikgitters einer semantischen Segmentation unterzogen wird, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem übertragen werden, und eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchgeführt wird, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Vorzugsweise kann vorgesehen sein, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Vorzugsweise kann hierbei vorgesehen sein, dass die Blickrichtung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds ist, wobei vorzugsweise die Blickrichtung des Kamerabilds einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils oder der Blickrichtung des Radars einschließt, und/oder wobei die Blickrichtung des Kamerabilds senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils oder der Blickrichtung des Radars verläuft.

Nach einer optionalen Variation des Verfahrens kann das Kamerabild zumindest teilweise mit einem Abdeckungsbereich des Radarbilds überlappen, in dem mindestens ein Radarziel vorhanden ist, wobei es von Vorteil ist, wenn der Überlappungsbereich möglichst groß ist. Es ist demnach vorzuziehen, dass der Erfassungsbereich des optischen Erfassungssystems den Erfassungsbereich des Radars vollständig abdeckt.

Zudem kann vorgesehen sein, dass das Radarbild aus mehrdimensionalen Radarsignaldatensätzen hervorgeht, aus denen vorzugsweise eine extrahierte Radarpunktwolke gewonnen wird, die sämtliche detektierte Radarziele der Radarmessung umfasst. Nach einer Fortbildung des Verfahrens kann die Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds durchgeführt wird, indem eine semantische Segmentation des Kamerabilds jedem Pixel eine Objektklasse zuweisen, die vorzugsweise mithilfe eines neuronalen Netzes durchgeführt wird, wobei die mehreren Objektklassen eine Unterteilung in mindestens zwei Objektklassen der nachfolgend nicht abschließenden Aufzählung ermöglicht: Unbekannt, Hintergrund, Gebäude, Hindernis, Straße, Vegetation, Mensch, Auto und/oder Fahrrad.

Auch kann vorgesehen sein, dass das Kamerabild vor der Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds, vorzugsweise des Semantikgitters einem Filterprozess unterzogen wird, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.

Weitere Merkmale, Einzelheiten und Vorteile der Erfindung werden anhand der nachfolgenden Figurenbeschreibung ersichtlich. Dabei zeigen:

Fig. 1 : eine Seitenansicht einer das optische Erfassungssystem tragenden

Flugdrohne mit darunter angeordnetem das Radar enthaltenden Automobil,

Fig. 2: eine Draufsicht auf das erfindungsgemäße System, bei dem das optische Erfassungssystem durch zwei Flugdrohnen umgesetzt ist,

Fig. 3: eine Draufsicht auf das erfindungsgemäße System einer weiteren

Ausführungsform, bei der das optische Erfassungssystem durch vier Flugdrohnen umgesetzt ist, und Fig. 4: eine Gegenüberstellung eines Kamerabilds im Ursprungszustands mit einem dazu semantisch segmentierten Bild, in das die Radarziele mittels Koordinatentransformation eingefügt sind.

Fig. 1 zeigt eine Seitenansicht einer das optische Erfassungssystem 4 tragenden Flugdrohne 5 mit darunter angeordnetem das Radar 3 enthaltenden Automobil 2 (auch: Egofahrzeug). Man erkennt, dass das optische Erfassungssystem 4 eine andere Perspektive als das bodennah angeordnete Radar 3 hat. Aus diesem Umstand lassen sich bei der Annotierung von Radarzielen Vorteile erzeugen, da vom Radar 3 aus gesehene eigentlich optisch verdeckte Objekte aufgrund der anderen Perspektive des optischen Erfassungssystems 4 erkannt und bei der Annotierung richtig zugeordnet werden können. Ein zu trainierendes neuronales Netz kann dann mit besseren Trainingsdaten beim überwachten Lernen versorgt werden, so dass ein auf Grundlage dieser Daten trainiertes neuronales Netz performanter wird.

Jede der mindestens einen Flugdrohne 5 kann dabei so ausgestaltet sein, dass es geeignete Messmittel und vorzugsweise eine Steuer-ZRegelungseinrichtung umfasst, die dafür sorgt, dass es eine vordefinierte oder zumindest bekannte Pose (Pose = Position und Orientierung) relativ zum Egofahrzeug 2 auch während der Fahrt des Egofahrzeuges einnimmt. Diese Pose wird auch Arbeitspunkt AP genannt. Der Arbeitspunkt AP ist vorzugsweise so zu wählen, dass die optischen Erfassungssysteme 4, bspw. Kamerasysteme einen möglichst großen Bereich 6 einsehen, der von den Sichtbereichen der Radare 3 des Egofahrzeuges abgedeckt wird.

Weiter erkennt man, dass sowohl das Fahrzeug 2 wie auch das optische Erfassungssystem eigenständige Koordinatensysteme verwenden. Kennt man aber die relative Ortsabhängigkeit (Position und Orientierung) von Flugdrohne 5 bzw. der daran befestigten Kamera 4 und dem Egofahrzeug 2 können die erzeugten Bilder in ein gemeinsames Koordinatensystem transformiert werden. Die Drohne 5 hält ihre Pose relativ zum Egofahrzeug 2 konstant. Aufgrund der Dreidimensionalität des Problems ergeben sich hierfür sechs Freiheitsgrade, Translation in x, y, z, sowie Gier-, Nick-, und Rollwinkel. Mit Kenntnis der beiden Posen zueinander ist eine Transformation des Kamera-Koordinatensystems in das Fahrzeug-Koordinatensystem oder umgekehrt möglich.

Fig. 2 zeigt eine Draufsicht auf das erfindungsgemäße System, bei dem das optische Erfassungssystem 4 durch zwei Aufnahmeeinheiten 4 umgesetzt ist. Die beiden Aufnahmeeinheiten 4 können jeweils durch ein Drohne 5 getragen werden, wobei es aber auch denkbar ist, dass die beiden Aufnahmeeinheiten 4 über eine mechanische Konstruktion mit dem Fahrzeug 2 verbunden sind.

Da Automobilradare fast ausschließlich im untergrundnahen Bereich messen, d.h. bis etwa 3 m über dem Untergrund, ist es von Vorteil, wenn das Semantikgitter auf den Untergrund bezogen ist. Hierfür bietet es sich an, ein Höhenprofil zu generieren, das vorzugsweise aus dem Kamerasystem abgeleitet ist. Durch das Verwenden einer Stereokamera, die aus zwei Kameras 4 zweier Drohnen 5 besteht, lässt sich eine stereoskopische Aufnahme erzeugen, so dass dann Bestandteile in einem nicht relevanten Höhenbereich herausgefiltert werden können. Der Abstand b zwischen den mindestens zwei Drohnen 5 beschreibt dabei die Basis zwischen den beiden zur Stereoskopaufnahme erforderlichen Kameras 4. Dieser kann vorliegend sehr groß gewählt werden, so dass die Stereoskopaufnahme von guter Qualität ist.

Fig. 3 zeigt eine Draufsicht auf das erfindungsgemäße System 1 einer weiteren Ausführungsform, bei der das optische Erfassungssystem 4 durch vier Flugdrohnen 5 umgesetzt ist.

Alternativ oder zusätzlich zur Erzeugung und Verwendung eines Höhenprofils besteht ferner die Möglichkeit, mit jeder Kameraaufnahme von mindestens zwei Drohnen 5 des optischen Erfassungssystems 4 jeweils ein Semantikgitter zu erstellen, und diese dann zu überlagern. Bei der Überlagerung ergibt sich ein Filterungsprozess, der Objekte betrifft, die höher als der Untergrund sind. Das überlagerte Semantikgitter liefert dadurch eine für die Radarannotation bessere Grundlage. Fig. 3 illustriert eine zu diesem Zweck vorteilhafte Anordnung der Drohnen 5, bei der der überlagerte Erfassungsbereiche 7 der jeweiligen Kameraaufnahme der Drohnen 5 hervorgehoben ist.

Fig. 4 zeigt eine Gegenüberstellung eines Kamerabilds im Ursprungszustands mit einem dazu semantisch segmentierten Bild, in das die Radarziele mittels Koordinatentransformation eingefügt sind. Dieses Bild basiert auf eine Fotografie, die dem Beitrag: I. Nigam, C. Huang, and D. Ramanan, “Ensemble Knowledge Transfer for Semantic Segmentation” in Proc, of Winter Conference on Applications of Computer Vision, Lake Tahoe (NV), USA, 2018 entnommen worden ist.

Das linke Kamerabild wurde von einer Drohne 5 aufgenommen und anschließend in das rechte Semantikgitter transformiert. Mithilfe einer Koordinatentransformation ist die Annotation der in das Semantikgitter transformierten Radarziele und überdies des gesamten Radarsignaldatensatzes eine einfache Ablesung.

Bei der semantischen Segmentation werden den einzelnen Pixeln oder Pixelbereichen der Kameraufnahme unterschiedliche Objektklassen zugeordnet. So wird die Straße als eine solche erkannt und pixelweise als solche identifiziert. Selbiges gilt für ein Auto oder einen Menschen. Um die semantische Segmentation optisch einfacher darzustellen, sind die unterschiedlichen Strukturen unterschiedlich hervorgehoben.

Transformiert man nun bspw. die Radarziele in das Koordinatensystem des optischen Erfassungssystems 4, also in die Ansicht des linken Bilds, an dem bereits eine semantische Segmentation vorgenommen worden ist, erhält man das rechte Bild. Die dort nun sichtbaren Punkte sind Radarziele, deren Intensität einen gewissen Schwellenwert überschritten hat.

Blickt man nun auf das rechte Bild erkennt man, dass die Annotation der Radarziele ganz einfach durchgeführt werden kann, indem man die Objektklasse des Semantikgitters an der Stelle eines jeweiligen Radarziels mit dem Radarziel verknüpft.

Diese Annotation ist sehr einfach auszuführen und kann hochautomatisiert durch entsprechende Prozessoren verarbeitet werden.

Claims

Ansprüche

1 . System (1 ) zum Annotieren von Automobilradardaten, umfassend: mindestens ein an einem Automobil (2) angeordnetes Radar (3) zum Erzeugen mindestens eines Radarbilds durch mindestens eine Radarmessung, ein außerhalb des Automobils (2) angeordnetes optisches Erfassungssystem (4) zum Erzeugen mindestens eines Kamerabilds, eine Interpretationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild zu bewerten, um mindestens zwei Bereiche unterschiedlicher Objektklassen auf dem Kamerabild zu definieren, wobei die Interpretationseinheit vorzugsweise eine Segmentationseinheit ist, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das mindestens eine Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

2. System nach Anspruch 1 , wobei die Blickrichtung des optischen Erfassungssystems (4) zur Erzeugung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds verläuft, wobei vorzugsweise die Blickrichtung des optischen Erfassungssystems (4) einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) einschließt, und/oder wobei die Blickrichtung des optischen Erfassungssystems (4) senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils (2) oder Blickrichtung des Radars (3) verläuft.

3. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das Radar (3) und das optische Erfassungssystem (4) derart ausgerichtet sind, dass sich deren Erfassungsbereiche zumindest teilweise überlappen, wobei vorzugsweise der Erfassungsbereich des optischen Erfassungssystems den Erfassungsbereich des Radars vollständig abdeckt.

4. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) dazu ausgelegt ist, stereoskopische Kamerabilder zu erzeugen, wobei vorzugsweise hierfür mindestens zwei voneinander beabstandete Aufnahmeeinheiten, bevorzugterweise mindestens vier voneinander beabstandete Aufnahmeeinheiten vorgesehen sind.

5. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) über eine mechanische Konstruktion oberhalb des Dachs an dem Automobil (2) angeordnet ist, wobei vorzugsweise der vertikale Abstand der optischen Erfassungseinheit zu dem Dach mindestens einen Meter, bevorzugterweise mindestens 2 Meter beträgt.

6. System (1 ) nach einem der vorhergehenden Ansprüche 1 - 4, wobei das optische Erfassungssystem (4) mittels mindestens einer Flugdrohne (5) freischwebend geführt ist, und beim Erzeugen des Kamerabilds einen vertikalen Abstand zu einem Dach des Automobils (2) von mindestens einem Meter, vorzugsweise mindestens 2 Meter und bevorzugterweise von mindestens 5 Metern aufweist.

7. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) mehrere Aufnahmeeinheiten aufweist, von denen mindestens eine von einer zugehörigen Flugdrohne (5) freischwebend geführt sind und/oder von denen mindestens eine über eine mechanische Konstruktion oberhalb des Dachs an dem Automobil (2) angeordnet sind, wobei der Erfassungsbereich einer jeder der durch die Flugdrohnen (5) getragenen mindestens einen Aufnahmeeinheit und/oder der an der mechanische Konstruktion gehaltenen mindestens einen Aufnahmeeinheit zumindest teilweise überlappt.

8. System (1 ) nach einem der vorhergehenden Ansprüche 6 oder 7, wobei das mittels mindestens einer Flugdrohne geführte optische Erfassungssystem (4) eine Regelungseinrichtung aufweist, damit es relativ zu dem Automobil (2), auch während einer Fahrt des Automobils (2), eine vordefinierte Position und Orientierung beibehält.

9. System (1 ) nach einem der vorhergehenden Ansprüche, ferner umfassend eine Filtereinheit, die dazu ausgelegt ist, das Kamerabild vor der Bearbeitung durch die Interpretationseinheit einem Filterprozess zu unterziehen, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.

10. Verfahren zum Annotieren von Automobilradardaten, vorzugsweise mit einem System (1 ) nach einem der vorhergehenden Ansprüche, wobei in dem Verfahren: 22 mindestens ein Radarbild durch mindestens eine Radarmessung mindestens eines an einem Automobil (2) angeordneten Radars (3) erzeugt wird, mindestens ein Kamerabild durch mindestens ein optisches Erfassungssystem (4) erzeugt wird, das außerhalb des Automobils (2) angeordnet ist, das Kamerabild zur Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen auf dem Kamerabild einer Bewertung unterzogen wird, wobei vorzugsweise das Kamerabild zur Bildung eines Semantikgitters einer semantischen Segmentation unterzogen wird, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem übertragen werden, und eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchgeführt wird, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

11. Verfahren nach Anspruch 10, wobei die Blickrichtung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds ist, wobei vorzugsweise die Blickrichtung des Kamerabilds einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) einschließt, und/oder wobei die Blickrichtung des Kamerabilds senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) verläuft.

12. Verfahren nach einem der vorhergehenden Ansprüche 10 - 11 , wobei das Kamerabild zumindest teilweise mit einem Abdeckungsbereich des Radarbilds überlappt, in dem mindestens ein Radarziel vorhanden ist.

13. Verfahren nach einem der vorhergehenden Ansprüche 10 - 12, wobei das Radarbild aus einem mehrdimensionalen Radarsignaldatensatz hervorgeht, aus 23 dem vorzugsweise eine extrahierte Radarpunktwolke gewonnen wird, die sämtliche Radarziele der Radarmessung umfasst.

14. Verfahren nach einem der vorhergehenden Ansprüche 10 - 13, wobei die Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des

Kamerabilds durchgeführt wird, indem eine semantische Segmentation des Kamerabilds jedem Pixel eine Objektklasse zuweist und vorzugsweise mithilfe eines neuronalen Netzes durchgeführt wird, wobei die mehreren Objektklassen eine Unterteilung in mindestens zwei Objektklassen der nachfolgend nicht abschließenden Aufzählung ermöglicht: Unbekannt, Hintergrund, Gebäude, Hindernis, Straße, Vegetation, Mensch, Auto und/oder Fahrrad.

15. Verfahren nach einem der vorhergehenden Ansprüche 10 - 14, wobei das Kamerabild mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds, vorzugsweise vor der Bildung des Semantikgitters einem Filterprozess unterzogen wird, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.