EP4229549A1 - System und verfahren zum annotieren von automobilradardaten - Google Patents

System und verfahren zum annotieren von automobilradardaten

Info

Publication number
EP4229549A1
EP4229549A1 EP21791365.6A EP21791365A EP4229549A1 EP 4229549 A1 EP4229549 A1 EP 4229549A1 EP 21791365 A EP21791365 A EP 21791365A EP 4229549 A1 EP4229549 A1 EP 4229549A1
Authority
EP
European Patent Office
Prior art keywords
radar
camera image
image
optical detection
automobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21791365.6A
Other languages
English (en)
French (fr)
Inventor
Robert Prophet
Marcel Hoffmann
Marcel STELZIG
Martin Vossiek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Original Assignee
Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Friedrich Alexander Univeritaet Erlangen Nuernberg FAU filed Critical Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Publication of EP4229549A1 publication Critical patent/EP4229549A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Definitions

  • AI engl. for "artificial intelligence”
  • machine-learning algorithms represent an important research focus.
  • the largest possible training data sets are required for methods of monitored machine learning, which provide the desired output information in the form of annotations.
  • An example of such an annotation is the assignment of an object class to the targets detected in the radar data, such as "human” or "bicycle”.
  • object class is the assignment of an object class to the targets detected in the radar data, such as "human” or "bicycle”.
  • training datasets are one of the most important and challenging aspects of AI, and generating such datasets comes at a huge cost.
  • the existence and possession of such data sets is therefore extremely valuable and represents a significant competitive advantage in the development of highly automated vehicles.
  • Such is the quality of the training data sets sometimes also significantly responsible for the performance that can be achieved with an artificial intelligence that is to be trained.
  • Automobile radars usually deliver three-, four- or even higher-dimensional radar signal data sets, from which a radar point cloud is then extracted, which consists of all radar targets of a measurement.
  • radar point cloud is then extracted, which consists of all radar targets of a measurement.
  • a radar target is a local maximum in the radar signal data set that exceeds a certain threshold value with regard to the reflected signal power.
  • the extraction mentioned is done, among other things, for reasons of memory reduction and is always associated with a certain loss of information.
  • the machine-learning algorithms mentioned can already achieve good results on the basis of radar point clouds, although it is clear to the person skilled in the art that access to the entire radar signal data set would allow even better-performing results, cf.
  • the host vehicle is the vehicle that is equipped with the radars whose data are to be annotated. Since the cameras, like the radars, are at vehicle height, they look at the vehicle's surroundings with a viewing direction approximately parallel to the ground or at an included angle with the ground of less than 10°.
  • the system according to the invention for annotating automobile radar data therefore comprises at least one radar arranged on an automobile for generating at least one radar image by means of at least one radar measurement, at least one optical detection system arranged outside of the automobile for generating a camera image, an interpretation unit which is designed to Evaluate detection system (4) generated camera image to to define at least two areas of different object classes on the camera image, wherein the interpretation unit is preferably a segmentation unit which is designed to subject a camera image generated by the optical detection system to a semantic segmentation to form a semantic grid in order to assign one of several object classes to the camera image pixel by pixel, a computer unit that is designed to transfer the camera image and/or the radar image to a common coordinate system for co-registration, and an annotation unit that is designed to annotate the radar image, i.e.
  • This optical detection system can be: a camera or stereo camera, or a time-of-flight camera (optionally together with a camera), or a laser scanner (optionally together with a camera).
  • Each conversion of the optical detection unit is designed to generate a camera image that contains the recorded information.
  • the annotation unit is designed to annotate the radar image, i.e. the assignment of an object class to a radar target of the radar image, in such a way that a respective radar target is assigned that object class of the semantic grid of the co-registered camera image in which the radar target of the co-registered radar image.
  • the highlight of the invention lies in the automatic assignment of the radar target to the respective object class of the semantic grid in which the radar target is located, the semantic grid being based on a camera image that was recorded from outside the automobile.
  • objects that cannot be seen from the automobile can be classified and also annotated without error, so that the full potential of a radar system can be trained.
  • a second vehicle that cannot be seen from the automobile and that is optically shielded by a first vehicle can now be easily recognized in the camera image.
  • This second vehicle is now segmented accordingly, so that after the camera image has been transformed into a common coordinate system with the radar image, radar targets can now also be annotated that would have remained hidden with an optical detection unit in the automobile.
  • the recorded camera image is first evaluated by the interpretation unit in order to subdivide the image into areas of at least two different object classes.
  • the recorded camera image can preferably be converted into a semantically segmented map (hereinafter semantic grid).
  • semantic grid an object class is assigned pixel by pixel to the camera image, so that an optical annotation is made.
  • This partial step should preferably be carried out using an artificial neural network, since this is particularly time-saving. It is a good idea to work along the lines of the following revelation: I. Nigam, C. Huang, and D. Ramanan, "Ensemble Knowledge Transfer for Semantic Segmentation" in Proc, of Winter Conference on Applications of Computer Vision, Lake Tahoe (NV), United States, 2018.
  • the radar image or the radar point cloud derived from it is transferred to the semantic grid, so that both coordinate systems are co-registered.
  • optical markers can be attached to the host vehicle in advance, whose position in the vehicle coordinate system is known. In this way, exact coordinates in the vehicle coordinate system can be continuously assigned to the pixels in the camera image occupied by the markers (or vice versa), from which a transformation rule for further pixels can be derived. This is particularly advantageous when there is no structural connection between the automobile (ie the host vehicle) and the optical detection system, but instead these are designed independently of one another.
  • the radar targets contained in the radar image can now be annotated in a simple manner.
  • a radar target is now assigned that object class which specifies the semantic grid at the location of the respective radar target.
  • the semantic grid can be seen as a kind of template in the annotation, so that the radar targets distributed over the co-registered image are assigned to those object classes that the semantic grid has at the location of a respective radar target.
  • the process is reduced to a simple reading that can be carried out very quickly and with little computing power. Radar-specific measurement uncertainties can be taken into account in the area of the radar target.
  • the viewing direction of the optical detection system for generating the camera image does not run parallel to the viewing direction of the radar image, with the viewing direction of the optical detection system preferably at an angle of at least 45°, preferably at least 67.5° and particularly preferably includes at least 75° with a substrate of the automobile and/or the line of sight of the radar, and/or the line of sight of the optical detection system runs perpendicularly or approximately perpendicularly to a base of the automobile and/or the line of sight of the radar.
  • the different orientations of the optical detection system and radar ensure that the camera image is recorded from a different perspective than the radar image. If, for example, the optical detection system is located at a much higher position than the radar (e.g. 3m above the radar), the optical detection system can detect things that would have been optically hidden if positioned at an identical or similar location to the radar. By changing the perspective, it is now possible for the optical detection system to produce camera images that carry much more information about the radar detection area than if they were taken at a similar location to the radar. In particular, a bird's-eye view that at least partially covers the radar detection area provides much more depth information for the radar image, as there are no or significantly reduced optical obstacles seen by the radar that affect the long-distance view.
  • the radar and the optical detection system are aligned in such a way that their detection ranges at least partially overlap. It is particularly advantageous if the optical detection system detects the area of the radar antenna or the radar array itself, so that all objects in the detection area of the optical detection system can be annotated based on the radar
  • the optical detection system is designed to generate stereoscopic camera images or 3D camera images, with preferably at least two spaced recording units, preferably at least four spaced recording units being provided for this purpose.
  • Stereoscopic camera images can be generated, for example, by a ToF camera or a laser scanner.
  • a ToF camera and/or a laser scanner it can be advantageous to use a regular camera in addition.
  • the advantage of stereoscopic recordings is the possibility of processing height information in the camera image, so that information that is not relevant to an automobile can be filtered out at the appropriate point.
  • the area that is relevant for an automobile can thus be restricted to a height of less than 5 m or less than 3 m from the ground, so that annotations only take place in the relevant area and the probability of incorrect segmentation or annotation is reduced.
  • the optical detection system is arranged on the automobile via a mechanical structure above a roof of the automobile, the vertical distance between the optical detection unit and the roof preferably being at least one meter, preferably at least 2 meters.
  • the optical detection system is attached to a telescoping device that can be extended upwards away from the roof of the automobile.
  • the optical detection device can be arranged in a steadicam so that the camera images obtained are not blurred and record an image detail that is as constant as possible even in the event of vibrations.
  • the optical detection unit does not have to be structurally connected to the host vehicle, ie the automobile. It could, for example, also be arranged independently of this on a stationary post or the like. Furthermore, according to a further development of the present invention, it can also be provided that the optical detection system is guided in a free-floating manner by means of at least one flying drone, and preferably at a vertical distance from a roof or a base of the automobile of at least one meter, preferably at least 2 meters, when generating the camera image and preferably at least 5 meters. However, heights in the range of 30 to 50 m are also possible. This height range represents a normal flight altitude for a drone.
  • the distance of the drone from the ground depends on the field of view of the radar.
  • the radar For long-range radars, some of which have a range of several hundred meters (e.g. 150 m), you can use a different drone height than for short-range radars, whose field of view typically does not exceed 100 m (e.g.: 30m). A lower altitude will be used for short-range radars than for long-range radars.
  • the optical detection system can have a plurality of recording units which are each guided in a freely floating manner by an associated flying drone, with the detection range of each of the recording units carried by the flying drone preferably at least partially overlapping.
  • the multiple flying drones are at least 4 m apart, so that when recording stereoscopic images, the base of the different cameras is very large.
  • the optical detection system guided by at least one flying drone has a control device so that it maintains a predefined position and orientation relative to the automobile, even while the automobile is driving.
  • This pose is also called the working point AP in the following.
  • the AP should preferably be selected in such a way that the camera systems can view as large an area as possible that is covered by the range of vision of the host vehicle's radar.
  • Holding the operating point relative to the host vehicle can preferably be implemented with a suitable controller. This requires precise position data of the ego vehicle and the UAVs.
  • the following variants are conceivable as preferred variants for the measuring means for determining the position:
  • GNSS Global Navigation Satellite System
  • DGPS DGPS
  • inertial sensors in the host vehicle and flying drone(s) as well as radio communication between the host vehicle and flying drone(s)
  • position of the host vehicle is derived from the camera images, with optical markers attached to the host vehicle
  • Flying drone(s) and the ego vehicle are fitted with transponders and their position in relation to one another is recorded using a radio location system
  • the at least one flight drone must have a corresponding obstacle detection. If an obstacle is detected, it would be particularly useful if the trajectory is adjusted optimally and in real time in such a way that it is possible to return to the AP as quickly as possible while at the same time minimizing the loss of information.
  • the system also includes a filter unit which is designed to subject the camera image to a filter process before processing by the segmentation unit in order to limit the relevant areas of the camera image to an area close to the ground, extending to about 5 meters from the floor, preferably 4 meters from the floor and more preferably 3 meters from the floor.
  • a filter unit which is designed to subject the camera image to a filter process before processing by the segmentation unit in order to limit the relevant areas of the camera image to an area close to the ground, extending to about 5 meters from the floor, preferably 4 meters from the floor and more preferably 3 meters from the floor.
  • the camera image is a stereoscopic image that has height information.
  • the units explained above do not necessarily have to be units that are different from one another, but can also be implemented by a single unit or multiple units, e.g. a processor.
  • the invention also relates to a method for annotating automobile radar data, preferably using a system according to one of the aspects described above, wherein in the method: a radar image is generated by a radar measurement from at least one radar arranged on an automobile, a camera image is generated by at least one optical detection system is, which is arranged outside of the automobile, the camera image to form at least two areas of different object classes on the camera image is subjected to an assessment, preferably with the camera image to form a semantic grid is subjected to a semantic segmentation in order to assign one of several object classes to the camera image pixel by pixel, the camera image and/or the radar image are transferred to a common coordinate system for co-registration, and an annotation of the radar image, i.e.
  • the assignment of an object class to a radar target of the radar image is carried out in such a way that a respective radar target is assigned that object class of the co-registered camera image divided into different object classes, in which the radar target of the co-registered radar image lies.
  • the viewing direction of the camera image is not parallel to the viewing direction of the radar image, with the viewing direction of the camera image preferably being at an angle of at least 45°, preferably at least 67.5° and particularly preferably at least 75° with the vehicle’s underground or the line of sight of the radar, and/or wherein the line of sight of the camera image runs perpendicular or approximately perpendicular to a substrate of the automobile or the line of sight of the radar.
  • the camera image can at least partially overlap with a coverage area of the radar image in which at least one radar target is present, it being advantageous if the overlapping area is as large as possible. Accordingly, it is preferable that the detection range of the optical detection system completely covers the detection range of the radar.
  • the radar image results from multi-dimensional radar signal data sets, from which an extracted radar point cloud is preferably obtained, which includes all detected radar targets of the radar measurement.
  • the formation of at least two areas of different object classes of the camera image can be carried out by assigning a semantic segmentation of the camera image to each pixel of an object class, which is preferably carried out using a neural network, the several object classes being subdivided into at least two object classes of the following non-exhaustive list: unknown, background, building, obstacle, road, vegetation, human, car and/or bicycle.
  • the camera image is subjected to a filtering process before the formation of at least two areas of different object classes of the camera image, preferably the semantic grid, in order to limit the relevant areas of the camera image to an area close to the ground, which is up to about 5 meters from the ground, preferably 4 meters from the floor and preferably 3 meters from the floor.
  • Fig. 1 A side view of one carrying the optical detection system
  • FIG. 1 shows a side view of a flying drone 5 carrying the optical detection system 4 with the automobile 2 (also: ego vehicle) arranged underneath and containing the radar 3 .
  • the optical detection system 4 has a different perspective than the radar 3 arranged close to the ground. From this circumstance, advantages can be generated when annotating radar targets, since objects seen by the radar 3 that are actually optically covered can be recognized due to the different perspective of the optical detection system 4 and can be assigned correctly during the annotation.
  • a neural network to be trained can then be supplied with better training data during supervised learning, so that a neural network trained on the basis of this data has better performance.
  • This pose is also called the working point AP.
  • the operating point AP should preferably be selected in such a way that the optical detection systems 4, for example camera systems, see as large an area 6 as possible, which is covered by the ranges of vision of the radars 3 of the host vehicle.
  • both the vehicle 2 and the optical detection system use independent coordinate systems.
  • the generated images can be transformed into a common coordinate system.
  • the drone 5 keeps its pose relative to the ego vehicle 2 constant. Due to the three-dimensional nature of the problem, there are six degrees of freedom, translation in x, y, z, as well as yaw, pitch and roll angles. With knowledge of the two poses relative to one another, a transformation of the camera coordinate system into the vehicle coordinate system or vice versa is possible.
  • FIG. 2 shows a top view of the system according to the invention, in which the optical detection system 4 is implemented by two recording units 4 .
  • the two recording units 4 can each be carried by a drone 5, although it is also conceivable for the two recording units 4 to be connected to the vehicle 2 via a mechanical structure.
  • a stereoscopic recording can be generated by using a stereo camera, which consists of two cameras 4 of two drones 5, so that components in an irrelevant height range can then be filtered out.
  • the distance b between the at least two drones 5 describes the base between the two cameras 4 required for the stereoscopic recording. In the present case, this can be chosen to be very large, so that the stereoscopic recording is of good quality.
  • FIG. 3 shows a top view of the system 1 according to the invention of a further embodiment, in which the optical detection system 4 is implemented by four flying drones 5 .
  • the left camera image was recorded by a drone 5 and then transformed into the right semantic grid.
  • the annotation of the radar targets transformed into the semantic grid and moreover of the entire radar signal data set is a simple reading.
  • semantic segmentation different object classes are assigned to the individual pixels or pixel areas of the camera recording.
  • the road is recognized as such and identified as such pixel by pixel.
  • the different structures are highlighted differently.
  • the radar targets are now transformed into the coordinate system of the optical detection system 4, that is to say into the view of the left image, on which a semantic segmentation has already been carried out, the right image is obtained.
  • the points now visible there are radar targets whose intensity has exceeded a certain threshold.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Traffic Control Systems (AREA)

Abstract

System zum Annotieren von Automobilradardaten, umfassend mindestens ein an einem Automobil angeordnetes Radar zum Erzeugen eines Radarbilds durch eine Radarmessung, mindestens ein außerhalb des Automobils angeordnetes optisches Erfassungssystem zum Erzeugen eines Kamerabilds, eine Segmentationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.

Description

System und Verfahren zum Annotieren von Automobilradardaten
Autonome Landfahrzeuge werden den Straßenverkehr in vielerlei Hinsicht positiv beeinflussen. Um hierbei ein Automatisierungslevel von 3, also das hochautomatisierte Fahren oder höher zu erreichen, werden zunehmend Automobilradare eingesetzt.
Für die Auswertung und Interpretation der Radardaten ist es vorteilhaft, sogenannte künstliche Intelligenz (abgekürzt AI = engl. für „artificial intelligence“) einzusetzen, weshalb maschinenlernende Algorithmen einen wichtigen Forschungsschwerpunkt darstellen. Dabei sind für Verfahren des überwachten maschinellen Lernens möglichst große Trainingsdatensätze notwendig, die die jeweilig gewünschte Ausgangsinformation in Form von Annotationen bereithalten. Ein Beispiel für solche eine Annotation ist die Zuordnung einer Objektklasse zu den in den Radardaten detektierten Zielen, etwa „Mensch“ oder „Fahrrad“. Letztendlich sind derartige Trainingsdatensätze einer der wichtigsten und herausforderndsten Aspekte von AI und die Gewinnung derartiger Datensätze ist mit enormen Kosten verbunden. Die Existenz und der Besitz derartiger Datensätze ist folglich außerordentlich werthaltig und stellt einen bedeutenden Wettbewerbsvorteil bei der Entwicklung von hochautomatisierten Fahrzeugen dar. So ist die Qualität der Trainingsdatensätze mitunter auch maßgeblich dafür verantwortlich, welche Performance mit einer zu trainierenden künstlichen Intelligenz erreicht werden kann.
Automobilradare liefern üblicherweise drei-, vier oder noch höherdimensionale Radarsignaldatensätze, aus denen anschließend eine Radarpunktwolke extrahiert wird, die aus sämtlichen Radarzielen einer Messung besteht. Es gibt viele unterschiedliche Radartypen, mit denen die Ziele bestimmt werden können, wobei dem Fachmann aber klar ist, dass die vorliegende Erfindung nicht auf einen bestimmten Radartyp beschränkt ist. Unter einem Radarziel versteht man ein lokales Maximum im Radarsignaldatensatz, das bzgl. der reflektierten Signalleistung einen gewissen Schwellwert überschreitet. Die angesprochene Extraktion geschieht u.a. aus Gründen der Speicherreduktion und ist stets mit einem gewissen Informationsverlust verbunden. Die erwähnten maschinenlernenden Algorithmen können bereits auf Basis von Radarpunktwolken gute Ergebnisse erzielen, wobei dem Fachmann aber klar ist, dass der Zugriff auf den gesamten Radarsignaldatensatz noch performantere Ergebnisse zulassen würde, vgl. A. Palffy, J. Dong, J. F. P. Kooij, and D. M. Gavrila, “CA/A/ Based Road User Detection Using the 3D Radar Cube," in IEEE Robotics and Automation Letters, vol. 5, issue 2, 2020, pp. 1263-1270.
Zum jetzigen Zeitpunkt existieren lediglich drei öffentliche Automobilradar- Datensätze:
• Astyx HiRes2019 (vgl. H. Caesar et al., “nuScenes: A multi modaldataset for autonomous driving,” arXiv preprint: 1903.11027, 2019. ),
• nuScenes (vgl. M. Meyer and G. Kuschk, “Automotive Radar Dataset for Deep LearningBased 3D Object Detection," in Proc, of 16th European Radar Conference (EuRAD), Paris, France, 2019), sowie
• Oxford Radar RobotCar (vgl. D. Barnes, M. Gadd, P. Murcutt, P. Newman, and I. Posner, “The oxfordradar robotcar dataset: A radar extension to the oxford robotcar dataset," in Proc, of International Conference on Robotics and Automation (ICRA), Paris, France, 2020). Jeder dieser Datensätze stellt ausschließlich Radarpunktwolken bereit und weist verschiedene Schwächen auf. So besteht: Astyx HiRes2019 aus weniger als 600 Messungen ohne jegliche Annotation der Radarziele. nuScenes besitzt zwar annotierte Radarziele, jedoch entsprechen die verwendeten Radare nicht dem Stand der Technik bzw. liefern sie nur sehr wenige Radarziele je Messzyklus. Oxford Radar RobotCar schließlich weist Referenzmesstechnik auf, jedoch keinerlei Annotationen. Überdies basiert der Datensatz auf einem auf dem Fahrzeugdach montiertem Radar, das damit nicht den gängigen Marktanforderungen entspricht.
Infolgedessen ist der Bedarf nach einem weiteren öffentlichen Datensatz mit vollständiger Annotation gegeben. Da der zeitaufwendigste und fehleranfälligste Teilschritt bei der Generierung eines solchen Datensatzes die Annotation ist, ist ein möglichst hoher Automatisierungsgrad hierfür besonders gewinnbringend.
Die Mehrzahl der Annotationen wird durch einen Abgleich der Radarpunktwolke mit Kamerabildern realisiert, die sich im Innenraum des Egofahrzeuges befinden. Das Egofahrzeug ist in diesem Kontext jenes Fahrzeug, das mit den Radaren ausgerüstet ist, deren Daten zu annotieren sind. Da die Kameras sich genauso wie die Radare auf Fahrzeughöhe befinden, betrachten sie die Umgebung des Fahrzeuges mit einer Blickrichtung ungefähr parallel zum Boden oder mit einem mit dem Boden eingeschlossenen Winkel, der weniger als 10° beträgt.
Der Abgleich der Radardaten mit den Kameradaten gestaltet sich jedoch häufig sehr schwierig, da Kameras eine vergleichsweise schlechte bis gar keine Entfernungsinformation liefern. Des Weiteren erfassen Kameras nur die Objekte mit direkter Sichtverbindung, wohingegen Radare in einigen Messsituationen in der Lage sind, hintereinanderliegende Objekte - beispielsweise hintereinanderfahrende Fahrzeuge oder eine Person hinter einem Fahrzeug - zu detektieren, wodurch eine vollständige Annotation nicht gewährleistet werden kann. Das ist besonders nachteilig, da somit die spezifischen Stärken von Radarsystemen in aktuellen Trainingsdatensätzen nur sehr schwer oder gar nicht abgebildet werden und somit der volle Informationsgehalt der Radardaten in üblichen Al-Ansätzen nicht genutzt werden kann.
Des Weiteren ist es aus dem Stand der Technik bekannt durch einen Abgleich der Radarpunktwolke mit einer hochaufgelösten Lidar-Punktwolke zu annotieren. Von den sehr hohen Kosten eines solchen Lidars abgesehen, ergibt sich hierbei das gleiche Problem wie bei den Innenraum-Kameras, wonach hintereinanderliegende Objekte nicht erfasst werden.
In dem Beitrag: N. Scheiner, N. Appenrodt, J. Dickmann, and B. Sick, “Automated Ground Truth Estimation of Vulnerable Road Users in Automotive Radar Data Using GNSS,” in Proc, of International Conference on Microwaves of Intelligent Mobility, Detroit (Ml), USA, 2019; wurde ein Verfahren vorgestellt, in dem Fußgänger und Radfahrer mit mobilen Satelliten-Navigationssystemen ausgerüstet wurden, wodurch entsprechende Bereiche der Radarpunktwolke automatisch annotiert werden konnten. Neben den enormen Kosten des Verfahrens erweist sich hierbei insbesondere die Nicht-Annotation von Infrastrukturobjekten sowie Verkehrsteilnehmern, die nicht mit einem solchen System ausgerüstet sind, als nachteilig.
Es ist demnach das Ziel der vorliegenden Erfindung eine verbesserte und dennoch hochautomatisierbare Annotation von Automobilradardaten bereitzustellen, um die oben aufgeführten Nachteile zu überwinden.
Dies gelingt mit einem System, das sämtliche Merkmale des Anspruchs 1 bzw. einem Verfahren das sämtliche Verfahrensschritte des Anspruchs 10 aufweist.
Das erfindungsgemäße System zum Annotieren von Automobilradardaten umfasst demnach mindestens ein an einem Automobil angeordnetes Radar zum Erzeugen mindestens eines Radarbilds durch mindestens eine Radarmessung, mindestens ein außerhalb des Automobils angeordnetes optisches Erfassungssystem zum Erzeugen eines Kamerabilds, eine Interpretationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild zu bewerten, um mindestens zwei Bereiche unterschiedlicher Objektklassen auf dem Kamerabild zu definieren, wobei die Interpretationseinheit vorzugsweise eine Segmentationseinheit ist, die dazu ausgelegt ist, ein vom optischen Erfassungssystem erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
Dies optische Erfassungssystem kann sein: eine Kamera bzw. Stereokamera, oder eine time-of-flight Kamera (optional zusammen mit einer Kamera), oder ein Laserscanner (optional zusammen mit einer Kamera). Jede Umsetzung der optischen Erfassungseinheit ist dazu ausgebildet ein Kamerabild zu erzeugen, das die aufgenommen Informationen enthält.
Ferner kann vorgesehen sein, dass die Annotierungseinheit, dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
Der Clou der Erfindung liegt nun in der automatischen Zuordnung des Radarziels an die jeweilige Objektklasse des Semantikgitters in der sich das Radarziel befindet, wobei das Semantikgitter auf einem Kamerabild basiert, das von außerhalb des Automobils aufgenommen worden ist. Bei entsprechender Anordnung des optischen Erfassungssystems können vom Automobil aus nicht zu sehende Objekte fehlerfrei klassifiziert und auch annotiert werden, so dass das volle Potential eines Radarsystems trainiert werden kann. So ist bspw. ein vom Automobil nicht zu sehendes zweites Fahrzeug, das durch ein erstes Fahrzeug optisch abgeschirmt ist, im Kamerabild nun leicht zu erkennen. Dieses zweite Fahrzeug wird nun entsprechend segmentiert, so dass nach einer Transformation des Kamerabilds in ein gemeinsames Koordinatensystem mit dem Radarbild nun auch Radarziele annotiert werden können, die bei einer optischen Erfassungseinheit im Automobil verborgen geblieben wären.
Demzufolge wird das aufgenommene Kamerabild zunächst durch die Interpretationseinheit bewertet, um das Bild in Bereiche von mindestens zwei unterschiedlichen Objektklassen zu unterteilen. Vorzugsweise kann das aufgenommene Kamerabild in eine semantisch segmentierte Karte (nachfolgend Semantikgitter) umgewandelt werden. In diesem Semantikgitter wird pixelweise dem Kamerabild eine Objektklasse zugeordnet, so dass eine optische Annotation vorgenommen wird. Dieser Teilschritt soll vorzugsweise mit einem künstlichen neuronalen Netz ausgeführt werden, da dies besonders zeitsparend ist. Es bietet sich hierbei an, nach dem Vorbild der nachfolgenden Offenbarung zu arbeiten: I. Nigam, C. Huang, and D. Ramanan, “Ensemble Knowledge Transfer for Semantic Segmentation" in Proc, of Winter Conference on Applications of Computer Vision, Lake Tahoe (NV), USA, 2018.
Mithilfe einer Koordinaten-Transformation eines der beiden Bilder oder auch beider Bilder erfolgt eine Überführung des Radarbilds bzw. der daraus abgeleiteten Radarpunktwolke in das Semantikgitter, so dass beide Koordinatensysteme koregistriert sind.
Um die Koregistrierung zu optimieren, können im Vorfeld optische Marker am Egofahrzeug angebracht werden, deren Position im Fahrzeug-Koordinatensystem bekannt sind. Dadurch können kontinuierlich den von den Markern belegten Pixeln im Kamerabild exakte Koordinaten im Fahrzeug-Koordinatensystem zugeordnet werden (oder auch umgekehrt), woraus eine Transformationsvorschrift für weitere Pixel abgeleitet werden kann. Dies ist insbesondere dann von Vorteil, wenn keine strukturelle Verbindung zwischen Automobil (also dem Egofahrzeug) und dem optischen Erfassungssystem vorliegt, sondern diese unabhängig voneinander ausgebildet sind.
Liegen das Kamerabild und das Radarbild in einem gemeinsamen Koordinatensystem vor, kann nun auf einfache Art und Weise eine Annotation der im Radarbild enthaltenen Radarziele erfolgen. In dem koregistrierten Bild, in dem das Kamerabild und das Radarbild in einem gemeinsamen Koordinatensystem vorliegen, wird einem Radarziel nun diejenige Objektklasse zugewiesen, die das Semantikgitter an der Stelle des jeweiligen Radarziels vorgibt. Dadurch kann bei der Annotation das Semantikgitter als eine Art Schablone gesehen werden, so dass die über das koregistrierte Bild verteilten Radarziele denjenigen Objektklassen zugeordnet werden, die das Semantikgitter an der Stelle eines jeweiligen Radarziels besitzt. Der Vorgang reduziert sich auf eine simple Ablesung, die sehr schnell und mit wenig Rechenleistung ausgeführt werden kann. In dem Bereich des Radarziels können radarspezifische Messunsicherheiten berücksichtigt werden. Darüber hinaus ist es möglich, den gesamten Entfernungs-Azimut-Elevations-abhängigen Anteil des Radarsignaldatensatzes auf Basis einer geometrischen Zuordnung zum Semantikgitter zu annotieren. Dem Fachmann ist dabei klar, dass bei einer unzureichenden geometrischen Auflösung eine weitere räumliche Trennung über den Geschwindigkeits-abhängigen Anteil des Radarsignaldatensatzes vorgenommen werden kann.
Nach einer optionalen Fortbildung der Erfindung kann vorgesehen sein, dass die Blickrichtung des optischen Erfassungssystems zur Erzeugung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds verläuft, wobei vorzugsweise die Blickrichtung des optischen Erfassungssystems einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils und/oder der Blickrichtung des Radars einschließt, und/oder wobei die Blickrichtung des optischen Erfassungssystems senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils und/oder der Blickrichtung des Radars verläuft.
Durch die verschiedenen Ausrichtungen von optischen Erfassungssystem und Radar kann gewährleistet werden, dass das Kamerabild aus einer anderen Perspektive als das Radarbild aufgenommen wird. Ist bspw. das optische Erfassungssystem an einer sehr viel höheren Position angeordnet als das Radar (bspw. 3m über dem Radar), kann das optische Erfassungssystem Dinge erkennen, die bei einer Positionierung an identischer oder ähnlicher Stelle wie das Radar optisch verdeckt gewesen wären. Durch das Verändern der Perspektive ist es nun möglich, dass das optische Erfassungssystem Kamerabilder erzeugt, die sehr viel mehr Informationen über den Radarerfassungsbereich in sich tragen als ob sie an ähnlicher Stelle wie das Radar aufgenommen worden wären. Insbesondere eine Sicht aus der Vogelperspektive, die den Radarerfassungsbereich zumindest teilweise abdeckt, bietet sehr viel mehr Tiefeninformationen für das Radarbild, da es vom Radar aus gesehene optische Hindernisse, die die Fernsicht beeinträchtigen, nicht gibt oder diese nur in deutlich verringertem Maße vorhanden sind.
Ferner kann nach der vorliegenden Erfindung vorgesehen sein, dass das Radar und das optische Erfassungssystem derart ausgerichtet sind, dass deren Erfassungsbereiche zumindest teilweise überlappen. Besonders vorteilhaft ist es, wenn das optische Erfassungssystem den Bereich der Radarantenne oder des Radararrays selbst erfasst, so dass ausgehend vom Radar sämtliche Objekte im Erfassungsbereich des optischen Erfassungssystems annotiert werden können
Nach einer optionalen Fortbildung der Erfindung kann vorgesehen sein, dass das optische Erfassungssystem dazu ausgelegt ist, stereoskopische Kamerabilder bzw. 3D-Kamerabilder zu erzeugen, wobei vorzugsweise hierfür mindestens zwei voneinander beabstandete Aufnahmeeinheiten, bevorzugterweise mindestens vier voneinander beabstandete Aufnahmeeinheiten vorgesehen sind. Das Erzeugen von stereoskopische Kamerabildern kann bspw. durch eine ToF- Kamera oder einen Laserscanner realisiert werden. Bei Verwendung einer ToF- Kamera und/oder eines Laserscanners kann es von Vorteil sein zusätzlich dazu eine reguläre Kamera zu verwenden.
Der Vorteil von stereoskopischen Aufnahmen ist die Möglichkeit, Höheninformationen im Kamerabild zu verarbeiten, so dass die nicht für ein Automobil relevanten Informationen an entsprechender Stelle herausgefiltert werden können. So kann der relevante für ein Automobil entscheidende Bereich auf eine Höhe von weniger als 5 m oder weniger als 3 m vom Boden beschränkt werden, so dass Annotationen nur im relevanten Bereich stattfinden und die Wahrscheinlichkeit einer fehlerhaften Segmentierung bzw. Annotation verringert wird.
Weiter kann nach der vorliegenden Erfindung vorgesehen sein, dass das optische Erfassungssystem über eine mechanische Konstruktion oberhalb eines Dachs des Automobils an dem Automobil angeordnet ist, wobei vorzugsweise der vertikale Abstand der optischen Erfassungseinheit zu dem Dach mindestens einen Meter, bevorzugterweise mindestens 2 Meter beträgt.
Dabei kann auch vorgesehen sein, dass das optische Erfassungssystem an einer teleskopierbaren Vorrichtung befestigt ist, die sich nach oben vom Dach des Automobils weg ausfahren lässt.
Die optische Erfassungseinrichtung kann in einer Steadicam angeordnet sein, damit die erhaltenen Kamerabilder nicht verwackelt sind und auch bei Erschütterungen einen möglichst gleichbleibenden Bildausschnitt aufnehmen.
Dem Fachmann ist klar, dass die optische Erfassungseinheit strukturell nicht mit dem Egofahrzeug, also dem Automobil verbunden sein muss. Sie könnte bspw. auch unabhängig davon an einem ortsgebundenen Pfosten oder dergleichen angeordnet sein. Weiter kann nach einer Fortbildung der vorliegenden Erfindung auch vorgesehen sein, dass das optische Erfassungssystem mittels mindestens einer Flugdrohne freischwebend geführt ist, und vorzugsweise beim Erzeugen des Kamerabilds einen vertikalen Abstand zu einem Dach oder einem Untergrund des Automobils von mindestens einem Meter, vorzugsweise mindestens 2 Meter und bevorzugterweise von mindestens 5 Metern aufweist. Möglich sind aber auch Höhen im Bereich von 30 bis 50 m. Dieser Höhenbereich stellt eine normale Flughöhe einer Drohne dar.
Zudem kann vorgesehen sein, dass sich der Abstand der Drohne vom Boden vom Sichtbereich der Radare abhängig ist. So kann man für Long-Range-Radare, die teilweise mehrere hundert Meter weit schauen (bspw. : 150 m weit), eine andere Höhe der Drohne verwenden als für Short-Range-Radare, deren Sichtbereich 100m typischerweise nicht übersteigt (bspw.: 30 m). Man wird bei Short-Range-Radaren eine tiefere Flughöhe ansetzen als bei Long-Range-Radaren.
Dabei kann vorgesehen sein, dass das optische Erfassungssystem mehrere Aufnahmeeinheiten aufweist, die jeweils von einer zugehörigen Flugdrohne freischwebend geführt sind, wobei vorzugsweise der Erfassungsbereich einer jeder der durch die Flugdrohnen getragenen Aufnahmeeinheiten zumindest teilweise überlappt. Vorteilhafterweise sind die mehreren Flugdrohnen mindestens 4 m voneinander entfernt, so dass bei der Aufnahme von stereoskopischen Bildern die Basis der unterschiedlichen Kameras sehr groß ist.
Weiter kann nach einer Fortbildung der Erfindung vorgesehen sein, dass das mittels mindestens einer Flugdrohen geführte optische Erfassungssystem eine Regelungseinrichtung aufweist, damit es relativ zu dem Automobil, auch während einer Fahrt des Automobils, eine vordefinierte Position und Orientierung zu dem Automobil beibehält.
Dies vereinfacht die Transformation der von dem optischen Erfassungssystem aufgenommenen Bilder, da diese bei einer bekannten Relativposition zum Automobil bzw. dem Radar gleichbleibt. Würde sich die Position und die Orientierung des optischen Erfassungssystems zu dem Automobil hingegen ändern, müsste die Transformation der erhaltenen Bilder in ein gemeinsames Koordinatensystem hieran immer angepasst werden, wobei hierfür das ständige exakte Verfolgen der beiden Positionen und Orientierungen von Automobil und Drohne erforderlich wäre. Zudem ist hierbei auch zu beachten, dass es eine ideale Position der Drohne gibt, von wo aus das von ihr getragene optische Erfassungssystem einen optimalen Erfassungsbereich hat. Ändert sich die Position der Drohne, ist folglich der Erfassungsbereich nicht mehr optimal.
Vorzugsweise kann vorgesehen sein, dass jede der mindestens einen Flugdrohne so ausgestaltet ist, dass geeignete Messmittel und vorzugsweise eine Steuer- /Regelungseinrichtung vorhanden ist, die dafür sorgt, dass es eine vordefinierte oder zumindest bekannte Pose (Pose = Position und Orientierung) relativ zum Egofahrzeug (Automobil) auch während der Fahrt des Egofahrzeuges einnimmt. Diese Pose wird im folgenden auch Arbeitspunkt AP genannt. Der AP ist vorzugsweise so zu wählen, dass die Kamerasysteme einen möglichst großen Bereich einsehen, der von den Sichtbereichen der Radare des Egofahrzeuges abgedeckt wird.
Das Halten des Arbeitspunkts relativ zum Egofahrzeug kann vorzugsweise mit einer geeigneten Regelung realisiert werden. Dafür sind genaue Positionsdaten des Egofahrzeuges und der UAVs notwendig. Als bevorzugte Ausführungsvarianten für die Messmittel zur Positionsermittlung sind folgende Varianten denkbar:
• Globales Navigations-Satellitensystem (GNSS), z.B. DGPS, und Inertialsensorik in Egofahrzeug und Flugdrohne(n) sowie Funkkommunikation zwischen Egofahrzeug und Flugdrohne(n)
• GNSS und Inertialsensorik in Flugdrohne(n), Position des Egofahrzeuges wird aus den Kamerabildern abgeleitet, wobei am Egofahrzeug optische Marker angebracht sind
• Flugdrohne(n) und das Egofahrzeug werden mit Transpondern versehen und die Lage zueinander wird mit einem Funkortungssystem erfasst Für den Fall eines Hindernisses (z.B. eine Brücke oder ein Baum, der über die Fahrbahn ragt) in der geplanten Flugdrohnen-Trajektorie muss die mindestens eine Flugdrohne eine entsprechende Hinderniserkennung besitzen. Bei erkanntem Hindernis wäre es besonders zweckmäßig, wenn die Trajektorie optimal und in Echtzeit so angepasst wird, dass möglichst schnell wieder zum AP zurückgekehrt werden kann und gleichzeitig der Informationsverlust minimiert wird.
Nach einer weiteren optionalen Modifikation der Erfindung kann vorgesehen sein, dass das System ferner eine Filtereinheit umfasst, die dazu ausgelegt ist, das Kamerabild vor der Bearbeitung durch die Segmentationseinheit einem Filterprozess zu unterziehen, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.
Hierbei bietet es sich an, wenn das Kamerabild ein stereoskopisches Bild ist, das über Höheninformationen verfügt.
Dem Fachmann ist klar, dass die vorstehend erläuterten Einheiten, wie die Segmentationseinheit, die Rechnereinheit, die Annotierungseinheit und/oder eine Filtereinheit nicht zwangsläufig voneinander verschiedene Einheiten sein müssen, sondern auch durch eine einzige oder mehrere Einheiten, bspw. einen Prozessor umgesetzt sein können.
Die Erfindung betrifft ferner Verfahren zum Annotieren von Automobilradardaten, vorzugsweise mit einem System nach einem der vorhergehend beschriebenen Aspekte, wobei in dem Verfahren: ein Radarbild durch eine Radarmessung von mindestens einem an einem Automobil angeordneten Radars erzeugt wird, ein Kamerabild durch mindestens ein optisches Erfassungssystem erzeugt wird, das außerhalb des Automobils angeordnet ist, das Kamerabild zur Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen auf dem Kamerabild einer Bewertung unterzogen wird, wobei vorzugsweise das Kamerabild zur Bildung eines Semantikgitters einer semantischen Segmentation unterzogen wird, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem übertragen werden, und eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchgeführt wird, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
Vorzugsweise kann vorgesehen sein, dass einem jeweiligen Radarziel diejenige Objektklasse des Semantikgitters des koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
Vorzugsweise kann hierbei vorgesehen sein, dass die Blickrichtung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds ist, wobei vorzugsweise die Blickrichtung des Kamerabilds einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils oder der Blickrichtung des Radars einschließt, und/oder wobei die Blickrichtung des Kamerabilds senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils oder der Blickrichtung des Radars verläuft.
Nach einer optionalen Variation des Verfahrens kann das Kamerabild zumindest teilweise mit einem Abdeckungsbereich des Radarbilds überlappen, in dem mindestens ein Radarziel vorhanden ist, wobei es von Vorteil ist, wenn der Überlappungsbereich möglichst groß ist. Es ist demnach vorzuziehen, dass der Erfassungsbereich des optischen Erfassungssystems den Erfassungsbereich des Radars vollständig abdeckt.
Zudem kann vorgesehen sein, dass das Radarbild aus mehrdimensionalen Radarsignaldatensätzen hervorgeht, aus denen vorzugsweise eine extrahierte Radarpunktwolke gewonnen wird, die sämtliche detektierte Radarziele der Radarmessung umfasst. Nach einer Fortbildung des Verfahrens kann die Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds durchgeführt wird, indem eine semantische Segmentation des Kamerabilds jedem Pixel eine Objektklasse zuweisen, die vorzugsweise mithilfe eines neuronalen Netzes durchgeführt wird, wobei die mehreren Objektklassen eine Unterteilung in mindestens zwei Objektklassen der nachfolgend nicht abschließenden Aufzählung ermöglicht: Unbekannt, Hintergrund, Gebäude, Hindernis, Straße, Vegetation, Mensch, Auto und/oder Fahrrad.
Auch kann vorgesehen sein, dass das Kamerabild vor der Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds, vorzugsweise des Semantikgitters einem Filterprozess unterzogen wird, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.
Weitere Merkmale, Einzelheiten und Vorteile der Erfindung werden anhand der nachfolgenden Figurenbeschreibung ersichtlich. Dabei zeigen:
Fig. 1 : eine Seitenansicht einer das optische Erfassungssystem tragenden
Flugdrohne mit darunter angeordnetem das Radar enthaltenden Automobil,
Fig. 2: eine Draufsicht auf das erfindungsgemäße System, bei dem das optische Erfassungssystem durch zwei Flugdrohnen umgesetzt ist,
Fig. 3: eine Draufsicht auf das erfindungsgemäße System einer weiteren
Ausführungsform, bei der das optische Erfassungssystem durch vier Flugdrohnen umgesetzt ist, und Fig. 4: eine Gegenüberstellung eines Kamerabilds im Ursprungszustands mit einem dazu semantisch segmentierten Bild, in das die Radarziele mittels Koordinatentransformation eingefügt sind.
Fig. 1 zeigt eine Seitenansicht einer das optische Erfassungssystem 4 tragenden Flugdrohne 5 mit darunter angeordnetem das Radar 3 enthaltenden Automobil 2 (auch: Egofahrzeug). Man erkennt, dass das optische Erfassungssystem 4 eine andere Perspektive als das bodennah angeordnete Radar 3 hat. Aus diesem Umstand lassen sich bei der Annotierung von Radarzielen Vorteile erzeugen, da vom Radar 3 aus gesehene eigentlich optisch verdeckte Objekte aufgrund der anderen Perspektive des optischen Erfassungssystems 4 erkannt und bei der Annotierung richtig zugeordnet werden können. Ein zu trainierendes neuronales Netz kann dann mit besseren Trainingsdaten beim überwachten Lernen versorgt werden, so dass ein auf Grundlage dieser Daten trainiertes neuronales Netz performanter wird.
Jede der mindestens einen Flugdrohne 5 kann dabei so ausgestaltet sein, dass es geeignete Messmittel und vorzugsweise eine Steuer-ZRegelungseinrichtung umfasst, die dafür sorgt, dass es eine vordefinierte oder zumindest bekannte Pose (Pose = Position und Orientierung) relativ zum Egofahrzeug 2 auch während der Fahrt des Egofahrzeuges einnimmt. Diese Pose wird auch Arbeitspunkt AP genannt. Der Arbeitspunkt AP ist vorzugsweise so zu wählen, dass die optischen Erfassungssysteme 4, bspw. Kamerasysteme einen möglichst großen Bereich 6 einsehen, der von den Sichtbereichen der Radare 3 des Egofahrzeuges abgedeckt wird.
Weiter erkennt man, dass sowohl das Fahrzeug 2 wie auch das optische Erfassungssystem eigenständige Koordinatensysteme verwenden. Kennt man aber die relative Ortsabhängigkeit (Position und Orientierung) von Flugdrohne 5 bzw. der daran befestigten Kamera 4 und dem Egofahrzeug 2 können die erzeugten Bilder in ein gemeinsames Koordinatensystem transformiert werden. Die Drohne 5 hält ihre Pose relativ zum Egofahrzeug 2 konstant. Aufgrund der Dreidimensionalität des Problems ergeben sich hierfür sechs Freiheitsgrade, Translation in x, y, z, sowie Gier-, Nick-, und Rollwinkel. Mit Kenntnis der beiden Posen zueinander ist eine Transformation des Kamera-Koordinatensystems in das Fahrzeug-Koordinatensystem oder umgekehrt möglich.
Fig. 2 zeigt eine Draufsicht auf das erfindungsgemäße System, bei dem das optische Erfassungssystem 4 durch zwei Aufnahmeeinheiten 4 umgesetzt ist. Die beiden Aufnahmeeinheiten 4 können jeweils durch ein Drohne 5 getragen werden, wobei es aber auch denkbar ist, dass die beiden Aufnahmeeinheiten 4 über eine mechanische Konstruktion mit dem Fahrzeug 2 verbunden sind.
Da Automobilradare fast ausschließlich im untergrundnahen Bereich messen, d.h. bis etwa 3 m über dem Untergrund, ist es von Vorteil, wenn das Semantikgitter auf den Untergrund bezogen ist. Hierfür bietet es sich an, ein Höhenprofil zu generieren, das vorzugsweise aus dem Kamerasystem abgeleitet ist. Durch das Verwenden einer Stereokamera, die aus zwei Kameras 4 zweier Drohnen 5 besteht, lässt sich eine stereoskopische Aufnahme erzeugen, so dass dann Bestandteile in einem nicht relevanten Höhenbereich herausgefiltert werden können. Der Abstand b zwischen den mindestens zwei Drohnen 5 beschreibt dabei die Basis zwischen den beiden zur Stereoskopaufnahme erforderlichen Kameras 4. Dieser kann vorliegend sehr groß gewählt werden, so dass die Stereoskopaufnahme von guter Qualität ist.
Fig. 3 zeigt eine Draufsicht auf das erfindungsgemäße System 1 einer weiteren Ausführungsform, bei der das optische Erfassungssystem 4 durch vier Flugdrohnen 5 umgesetzt ist.
Alternativ oder zusätzlich zur Erzeugung und Verwendung eines Höhenprofils besteht ferner die Möglichkeit, mit jeder Kameraaufnahme von mindestens zwei Drohnen 5 des optischen Erfassungssystems 4 jeweils ein Semantikgitter zu erstellen, und diese dann zu überlagern. Bei der Überlagerung ergibt sich ein Filterungsprozess, der Objekte betrifft, die höher als der Untergrund sind. Das überlagerte Semantikgitter liefert dadurch eine für die Radarannotation bessere Grundlage. Fig. 3 illustriert eine zu diesem Zweck vorteilhafte Anordnung der Drohnen 5, bei der der überlagerte Erfassungsbereiche 7 der jeweiligen Kameraaufnahme der Drohnen 5 hervorgehoben ist.
Fig. 4 zeigt eine Gegenüberstellung eines Kamerabilds im Ursprungszustands mit einem dazu semantisch segmentierten Bild, in das die Radarziele mittels Koordinatentransformation eingefügt sind. Dieses Bild basiert auf eine Fotografie, die dem Beitrag: I. Nigam, C. Huang, and D. Ramanan, “Ensemble Knowledge Transfer for Semantic Segmentation” in Proc, of Winter Conference on Applications of Computer Vision, Lake Tahoe (NV), USA, 2018 entnommen worden ist.
Das linke Kamerabild wurde von einer Drohne 5 aufgenommen und anschließend in das rechte Semantikgitter transformiert. Mithilfe einer Koordinatentransformation ist die Annotation der in das Semantikgitter transformierten Radarziele und überdies des gesamten Radarsignaldatensatzes eine einfache Ablesung.
Bei der semantischen Segmentation werden den einzelnen Pixeln oder Pixelbereichen der Kameraufnahme unterschiedliche Objektklassen zugeordnet. So wird die Straße als eine solche erkannt und pixelweise als solche identifiziert. Selbiges gilt für ein Auto oder einen Menschen. Um die semantische Segmentation optisch einfacher darzustellen, sind die unterschiedlichen Strukturen unterschiedlich hervorgehoben.
Transformiert man nun bspw. die Radarziele in das Koordinatensystem des optischen Erfassungssystems 4, also in die Ansicht des linken Bilds, an dem bereits eine semantische Segmentation vorgenommen worden ist, erhält man das rechte Bild. Die dort nun sichtbaren Punkte sind Radarziele, deren Intensität einen gewissen Schwellenwert überschritten hat.
Blickt man nun auf das rechte Bild erkennt man, dass die Annotation der Radarziele ganz einfach durchgeführt werden kann, indem man die Objektklasse des Semantikgitters an der Stelle eines jeweiligen Radarziels mit dem Radarziel verknüpft.
Diese Annotation ist sehr einfach auszuführen und kann hochautomatisiert durch entsprechende Prozessoren verarbeitet werden.

Claims

Ansprüche
1 . System (1 ) zum Annotieren von Automobilradardaten, umfassend: mindestens ein an einem Automobil (2) angeordnetes Radar (3) zum Erzeugen mindestens eines Radarbilds durch mindestens eine Radarmessung, ein außerhalb des Automobils (2) angeordnetes optisches Erfassungssystem (4) zum Erzeugen mindestens eines Kamerabilds, eine Interpretationseinheit, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild zu bewerten, um mindestens zwei Bereiche unterschiedlicher Objektklassen auf dem Kamerabild zu definieren, wobei die Interpretationseinheit vorzugsweise eine Segmentationseinheit ist, die dazu ausgelegt ist, ein vom optischen Erfassungssystem (4) erzeugtes Kamerabild einer semantischen Segmentation zur Bildung eines Semantikgitters zu unterziehen, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, eine Rechnereinheit, die dazu ausgelegt ist, das mindestens eine Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem zu übertragen, und eine Annotierungseinheit, die dazu ausgelegt ist, eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchzuführen, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
2. System nach Anspruch 1 , wobei die Blickrichtung des optischen Erfassungssystems (4) zur Erzeugung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds verläuft, wobei vorzugsweise die Blickrichtung des optischen Erfassungssystems (4) einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) einschließt, und/oder wobei die Blickrichtung des optischen Erfassungssystems (4) senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils (2) oder Blickrichtung des Radars (3) verläuft.
3. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das Radar (3) und das optische Erfassungssystem (4) derart ausgerichtet sind, dass sich deren Erfassungsbereiche zumindest teilweise überlappen, wobei vorzugsweise der Erfassungsbereich des optischen Erfassungssystems den Erfassungsbereich des Radars vollständig abdeckt.
4. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) dazu ausgelegt ist, stereoskopische Kamerabilder zu erzeugen, wobei vorzugsweise hierfür mindestens zwei voneinander beabstandete Aufnahmeeinheiten, bevorzugterweise mindestens vier voneinander beabstandete Aufnahmeeinheiten vorgesehen sind.
5. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) über eine mechanische Konstruktion oberhalb des Dachs an dem Automobil (2) angeordnet ist, wobei vorzugsweise der vertikale Abstand der optischen Erfassungseinheit zu dem Dach mindestens einen Meter, bevorzugterweise mindestens 2 Meter beträgt.
6. System (1 ) nach einem der vorhergehenden Ansprüche 1 - 4, wobei das optische Erfassungssystem (4) mittels mindestens einer Flugdrohne (5) freischwebend geführt ist, und beim Erzeugen des Kamerabilds einen vertikalen Abstand zu einem Dach des Automobils (2) von mindestens einem Meter, vorzugsweise mindestens 2 Meter und bevorzugterweise von mindestens 5 Metern aufweist.
7. System (1 ) nach einem der vorhergehenden Ansprüche, wobei das optische Erfassungssystem (4) mehrere Aufnahmeeinheiten aufweist, von denen mindestens eine von einer zugehörigen Flugdrohne (5) freischwebend geführt sind und/oder von denen mindestens eine über eine mechanische Konstruktion oberhalb des Dachs an dem Automobil (2) angeordnet sind, wobei der Erfassungsbereich einer jeder der durch die Flugdrohnen (5) getragenen mindestens einen Aufnahmeeinheit und/oder der an der mechanische Konstruktion gehaltenen mindestens einen Aufnahmeeinheit zumindest teilweise überlappt.
8. System (1 ) nach einem der vorhergehenden Ansprüche 6 oder 7, wobei das mittels mindestens einer Flugdrohne geführte optische Erfassungssystem (4) eine Regelungseinrichtung aufweist, damit es relativ zu dem Automobil (2), auch während einer Fahrt des Automobils (2), eine vordefinierte Position und Orientierung beibehält.
9. System (1 ) nach einem der vorhergehenden Ansprüche, ferner umfassend eine Filtereinheit, die dazu ausgelegt ist, das Kamerabild vor der Bearbeitung durch die Interpretationseinheit einem Filterprozess zu unterziehen, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.
10. Verfahren zum Annotieren von Automobilradardaten, vorzugsweise mit einem System (1 ) nach einem der vorhergehenden Ansprüche, wobei in dem Verfahren: 22 mindestens ein Radarbild durch mindestens eine Radarmessung mindestens eines an einem Automobil (2) angeordneten Radars (3) erzeugt wird, mindestens ein Kamerabild durch mindestens ein optisches Erfassungssystem (4) erzeugt wird, das außerhalb des Automobils (2) angeordnet ist, das Kamerabild zur Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen auf dem Kamerabild einer Bewertung unterzogen wird, wobei vorzugsweise das Kamerabild zur Bildung eines Semantikgitters einer semantischen Segmentation unterzogen wird, um dem Kamerabild pixelweise eine von mehreren Objektklassen zuzuordnen, das Kamerabild und/oder das Radarbild zur Koregistrierung in ein gemeinsames Koordinatensystem übertragen werden, und eine Annotierung des Radarbilds, also die Zuweisung einer Objektklasse zu einem Radarziel des Radarbilds, derart durchgeführt wird, dass einem jeweiligen Radarziel diejenige Objektklasse des in unterschiedliche Objektklassen unterteilten, koregistrierten Kamerabilds zugewiesen wird, in dem das Radarziel des koregistrierten Radarbilds liegt.
11. Verfahren nach Anspruch 10, wobei die Blickrichtung des Kamerabilds nicht parallel zur Blickrichtung des Radarbilds ist, wobei vorzugsweise die Blickrichtung des Kamerabilds einen Winkel von mindestens 45°, bevorzugterweise von mindestens 67,5° und besonders bevorzugt mindestens 75° mit einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) einschließt, und/oder wobei die Blickrichtung des Kamerabilds senkrecht oder annähernd senkrecht zu einem Untergrund des Automobils (2) oder der Blickrichtung des Radars (3) verläuft.
12. Verfahren nach einem der vorhergehenden Ansprüche 10 - 11 , wobei das Kamerabild zumindest teilweise mit einem Abdeckungsbereich des Radarbilds überlappt, in dem mindestens ein Radarziel vorhanden ist.
13. Verfahren nach einem der vorhergehenden Ansprüche 10 - 12, wobei das Radarbild aus einem mehrdimensionalen Radarsignaldatensatz hervorgeht, aus 23 dem vorzugsweise eine extrahierte Radarpunktwolke gewonnen wird, die sämtliche Radarziele der Radarmessung umfasst.
14. Verfahren nach einem der vorhergehenden Ansprüche 10 - 13, wobei die Bildung mindestens zweier Bereiche unterschiedlicher Objektklassen des
Kamerabilds durchgeführt wird, indem eine semantische Segmentation des Kamerabilds jedem Pixel eine Objektklasse zuweist und vorzugsweise mithilfe eines neuronalen Netzes durchgeführt wird, wobei die mehreren Objektklassen eine Unterteilung in mindestens zwei Objektklassen der nachfolgend nicht abschließenden Aufzählung ermöglicht: Unbekannt, Hintergrund, Gebäude, Hindernis, Straße, Vegetation, Mensch, Auto und/oder Fahrrad.
15. Verfahren nach einem der vorhergehenden Ansprüche 10 - 14, wobei das Kamerabild mindestens zweier Bereiche unterschiedlicher Objektklassen des Kamerabilds, vorzugsweise vor der Bildung des Semantikgitters einem Filterprozess unterzogen wird, um die relevanten Bereiche des Kamerabilds auf einen bodennahen Bereich zu begrenzen, der sich bis etwa 5 Meter vom Boden, vorzugsweise 4 Meter vom Boden und bevorzugterweise 3 Meter vom Boden erstreckt.
EP21791365.6A 2020-10-16 2021-10-14 System und verfahren zum annotieren von automobilradardaten Pending EP4229549A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020127315.0A DE102020127315B4 (de) 2020-10-16 2020-10-16 System und Verfahren zum Annotieren von Automobilradardaten
PCT/EP2021/078438 WO2022079162A1 (de) 2020-10-16 2021-10-14 System und verfahren zum annotieren von automobilradardaten

Publications (1)

Publication Number Publication Date
EP4229549A1 true EP4229549A1 (de) 2023-08-23

Family

ID=78179428

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21791365.6A Pending EP4229549A1 (de) 2020-10-16 2021-10-14 System und verfahren zum annotieren von automobilradardaten

Country Status (5)

Country Link
US (1) US20230386175A1 (de)
EP (1) EP4229549A1 (de)
CN (1) CN116508071A (de)
DE (1) DE102020127315B4 (de)
WO (1) WO2022079162A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022205505A1 (de) 2022-05-31 2023-11-30 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Erzeugen eines Datensatzes

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11009590B2 (en) 2018-08-29 2021-05-18 Aptiv Technologies Limited Annotation of radar-profiles of objects

Also Published As

Publication number Publication date
WO2022079162A1 (de) 2022-04-21
DE102020127315B4 (de) 2022-06-15
CN116508071A (zh) 2023-07-28
DE102020127315A1 (de) 2022-04-21
US20230386175A1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
DE102014223363B4 (de) Verfahren und Vorrichtung zur Lokalisation eines Kraftfahrzeugs in einer ortsfesten Referenzkarte
DE102015203016B4 (de) Verfahren und Vorrichtung zur optischen Selbstlokalisation eines Kraftfahrzeugs in einem Umfeld
EP3731187A1 (de) Verfahren und vorrichtung zur bestimmung der geografischen position und orientierung eines fahrzeugs
WO2013029722A2 (de) Verfahren zur umgebungsrepräsentation
DE112018003986T5 (de) Steuervorrichtung, steuerverfahren, programm und mobileinheit
EP1589484A1 (de) Verfahren zur Erkennung und/oder Verfolgung von Objekten
DE102018121008B4 (de) System zum fahren eines autonomen fahrzeugs sowie damit ausgestattetes fahrzeugs
DE102018133441A1 (de) Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
DE102018123393A1 (de) Erkennung von Parkflächen
DE102016003261A1 (de) Verfahren zur Selbstlokalisierung eines Fahrzeugs in einer Fahrzeugumgebung
DE102016218852A1 (de) Detektion von Objekten aus Bildern einer Kamera
DE102006039104A1 (de) Verfahren zur Entfernungsmessung von Objekten auf von Bilddaten eines Monokamerasystems
DE102016119729A1 (de) Steuern eines Personenbeförderungsfahrzeugs mit Rundumsichtkamerasystem
DE102020209605A1 (de) Fahrzeug und verfahren zu dessen steuerung
DE102011082477A1 (de) Verfahren und System zur Erstellung einer digitalen Abbildung eines Fahrzeugumfeldes
DE102021206075A1 (de) Fahrzeuglokalisierung als Mitfahrgelegenheit und Insassenidentifikation für autonome Fahrzeuge
DE102020127315B4 (de) System und Verfahren zum Annotieren von Automobilradardaten
DE102015010514B4 (de) Verfahren zur Ermittlung von Karteninformationen für einen Kartendatensatz einer Navigationsumgebung und Recheneinrichtung
EP3809316A1 (de) Vorhersage eines strassenverlaufs auf basis von radardaten
DE102016218849A1 (de) Detektion und Tracking von Objekten aus Bildern einer Kamera
DE102018132676A1 (de) Verfahren zum Lokalisieren eines Fahrzeugs in einer Umgebung
DE102020200876B4 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
DE102018202753A1 (de) Verfahren zur Ermittlung einer Entfernung zwischen einem Kraftfahrzeug und einem Objekt
DE102021101336A1 (de) Verfahren zur Auswertung von Sensordaten eines Abstandssensors, Ermittlungseinrichtung, Computerprogramm und elektronisch lesbarer Datenträger

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230511

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230824

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)