DE102023202076A1

DE102023202076A1 - Method and system for creating an extended semantic dynamic grid map with audio signals

Info

Publication number: DE102023202076A1
Application number: DE102023202076.9A
Authority: DE
Inventors: Rujiao Yan; Matthias Komar; Linda Schubert; Matthias Schreier
Original assignee: Continental Autonomous Mobility Germany GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2022-12-16
Filing date: 2023-03-08
Publication date: 2024-06-27

Abstract

Die Erfindung betrifft ein Verfahren zum Erzeugen einer erweiterten semantischen dynamischen Gridkarte in einem Ego-Fahrzeug mit den folgenden Schritten:
- Aufzeichnen (S1) eines Umfelds des Ego-Fahrzeugs mittels zumindest eines Umfelderfassungssensors (2) und Erzeugen von Sensordaten des zumindest eines Umfelderfassungssensors (2);
- Konvertieren (S2) der Sensordaten aus einem Sensorkoordinatensystem zu Koordinaten des Messgitters zum Erstellen eines ersten Messgitters;
- Aufzeichnen (S3) von auditorischen Signalen mittels zumindest eines Mikrofonarrays (3) des Ego-Fahrzeugs;
- Erzeugen (S4) einer auditorischen Heat-Map mit Ereignisklassen basierend auf den aufgezeichneten auditorischen Signalen;
- Konvertieren (S5) der auditorischen Heat Map in ein zweites semantisches Messgitter und Eintragen von Belegungswahrscheinlichkeiten und Ereignisklassen in entsprechende Gridzellen;
- Erzeugen (S6) einer erweiterten semantischen dynamischen Gridkarte mittels Fusion des ersten Messgitters und des zweiten semantischen Messgitters.

The invention relates to a method for generating an extended semantic dynamic grid map in an ego vehicle with the following steps:
- recording (S1) an environment of the ego vehicle by means of at least one environment detection sensor (2) and generating sensor data of the at least one environment detection sensor (2);
- Converting (S2) the sensor data from a sensor coordinate system to coordinates of the measuring grid to create a first measuring grid;
- recording (S3) auditory signals by means of at least one microphone array (3) of the ego vehicle;
- Generating (S4) an auditory heat map with event classes based on the recorded auditory signals;
- Converting (S5) the auditory heat map into a second semantic measurement grid and entering occupancy probabilities and event classes into corresponding grid cells;
- Generating (S6) an extended semantic dynamic grid map by fusion of the first measurement grid and the second semantic measurement grid.

Description

Die Erfindung betrifft ein Verfahren und ein System zum Erstellen einer erweiterten semantischen dynamischen Gridkarte (Dynamic Grid Map).The invention relates to a method and a system for creating an extended semantic dynamic grid map (Dynamic Grid Map).

Sehen und hören gehören zu den erforderlichen Sinneswahrnehmungen beim Fahren. Allerdings basiert die aktuelle Umfeldmodellierung für automatisiertes/autonomes Fahren meistens auf Kamera, Radar, Ultraschall und Lidar. Zielobjekte können nur detektiert werden, wenn sie sich innerhalb des Sichtfeldes der Sensoren befinden. Diese detektierten Objekte können daraufhin bspw. in ein Messgitter bestehend aus einer Vielzahl an Gridzellen eingetragen werden. Allerdings ist durch die Beschränkung der Sichtbereiche der verwendeten Sensorik auch der Erfassungsbereich und die Möglichkeit zur Umfelderfassung entsprechend beschränkt. Weiterhin sind durch die verwendete Sensorik nur bestimmte Merkmale des Umfelds bzw. der Objekte detektierbar, welche sich bspw. für eine Klassifizierung der Objekte verwenden lassen, was zu einer eingeschränkten Klassifizierungsmöglichkeit führt.Seeing and hearing are among the sensory perceptions required when driving. However, current environment modeling for automated/autonomous driving is mostly based on cameras, radar, ultrasound and lidar. Target objects can only be detected if they are within the field of view of the sensors. These detected objects can then be entered, for example, into a measuring grid consisting of a large number of grid cells. However, the limitation of the field of view of the sensors used also limits the detection range and the possibility of detecting the environment. Furthermore, the sensors used can only detect certain features of the environment or objects, which can be used, for example, to classify the objects, which leads to a limited classification option.

Es ist demnach eine Aufgabe der vorliegenden Erfindung ein Verfahren und ein System bereitzustellen, mittels welchen eine erweiterte semantische dynamische Gridkarte erzeugt werden kann, welche ein verbessertes Verständnis der Fahrzeugumgebung ermöglicht.It is therefore an object of the present invention to provide a method and a system by means of which an extended semantic dynamic grid map can be generated, which enables an improved understanding of the vehicle environment.

Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche 1 und 6 gelöst. Weitere vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche.This object is solved by the subject matter of independent claims 1 and 6. Further advantageous embodiments are the subject matter of the subclaims.

Erste Überlegungen waren dahingehen, dass in vielen Situationen Objekte viel früher gehört werden können, als sie gesehen werden können. Auch im Sichtfeld kann die Umfeldwahrnehmung mit der Fusion von Audio verbessert werden. Daher ist es vorteilhaft eine audiovisuelle Umfeldmodellierung für automatisiertes/autonomes Fahren zu verwenden. Es existieren verstärkt Verfahren der sogenannten Sound Event Localization and Detection SELD, die gleichzeitig mehrere auditorische Ereignisse detektieren und lokalisieren können. Allerdings sind derzeit wenige Verfahren bekannt, welche audiovisuelle Fusionsverfahren zur Umfeldmodellierung für automatisiertes/autonomes Fahren verwenden.Initial considerations were that in many situations objects can be heard much earlier than they can be seen. Even in the field of vision, the perception of the environment can be improved with the fusion of audio. It is therefore advantageous to use audio-visual environment modeling for automated/autonomous driving. There are increasing numbers of so-called Sound Event Localization and Detection (SELD) methods that can detect and localize several auditory events at the same time. However, few methods are currently known that use audio-visual fusion methods for environment modeling for automated/autonomous driving.

In den meisten Systemen fehlen zudem Mikrofone, die als zusätzliche Sensoren die Umfeldwahrnehmung verbessern können. Es gibt kaum audiovisuelle Fusionsverfahren zur Umfeldmodellierung für automatisiertes/autonomes Fahren.Most systems also lack microphones, which can act as additional sensors to improve the perception of the environment. There are hardly any audiovisual fusion processes for modeling the environment for automated/autonomous driving.

Erfindungsgemäß wird daher ein Verfahren zum Erzeugen einer erweiterten semantischen dynamischen Gridkarte in einem Ego-Fahrzeug mit den folgenden Schritten vorgeschlagen:

- Aufzeichnen eines Umfelds des Ego-Fahrzeugs mittels zumindest eines Umfelderfassungssensors und Erzeugen von Sensordaten des zumindest eines Umfelderfassungssensors;
- Konvertieren der Sensordaten aus einem Sensorkoordinatensystem zu Koordinaten des Messgitters zum Erstellen eines ersten Messgitters;
- Aufzeichnen von auditorischen Signalen mittels zumindest eines Mikrofonarrays des Ego-Fahrzeugs;
- Erzeugen einer auditorischen Heat-Map mit Ereignisklassen basierend auf den aufgezeichneten auditorischen Signalen;
- Konvertieren der auditorischen Heat Map in ein zweites semantische Messgitter und Eintragen von Belegungswahrscheinlichkeiten und Ereignisklassen in entsprechende Gridzellen;
- Erzeugen einer erweiterten semantischen dynamischen Gridkarte mittels Fusion des ersten Messgitters und des zweiten semantischen Messgitters.

According to the invention, a method for generating an extended semantic dynamic grid map in an ego vehicle is therefore proposed, comprising the following steps:

- Recording an environment of the ego vehicle by means of at least one environment detection sensor and generating sensor data of the at least one environment detection sensor;
- Converting the sensor data from a sensor coordinate system to measurement grid coordinates to create a first measurement grid;
- Recording auditory signals using at least one microphone array of the ego vehicle;
- Generating an auditory heat map with event classes based on the recorded auditory signals;
- Converting the auditory heat map into a second semantic measurement grid and entering occupancy probabilities and event classes into corresponding grid cells;
- Creating an extended semantic dynamic grid map by merging the first measurement grid and the second semantic measurement grid.

Der Schritt Aufzeichnen des Umfelds umfasst im Lichte der Erfindung nicht nur ein einmaliges Aufzeichnen, sondern auch ein fortlaufendes Aufzeichnen des Umfelds während der Bewegung des Ego-Fahrzeugs. Für jeden Durchlauf der ersten drei Schritte wird je nur eine Aufzeichnung/ein Frame bzw. ein Kamerabild verwendet. Der zumindest eine Umfelderfassungssensor kann beispielsweise eine Kamera, ein Radar-, Lidar- oder Ultraschallsensor sein. Vorteilhafterweise werden mehrere Sensoren gleicher und/oder unterschiedlicher Art verwendet, um ein bessere Umfelderkennung und eine präzisere Bestimmung von detektierten Objekten zu ermöglichen, da jeder Sensortyp bestimmte Merkmale unterschiedlich gut erfassen kann.In the light of the invention, the step of recording the environment includes not only a one-time recording, but also a continuous recording of the environment during the movement of the ego vehicle. For each run of the first three steps, only one recording/frame or camera image is used. The at least one environment detection sensor can be, for example, a camera, a radar, lidar or ultrasound sensor. Advantageously, several sensors of the same and/or different types are used to enable better environment detection and more precise determination of detected objects, since each sensor type can detect certain features with varying degrees of success.

Je nach verwendetem Umfelderfassungssensor kann das erste Messgitter ebenfalls semantische Informationen aufweisen. Beispielsweise bei Verwendung einer Kamera, können die Kameradaten mittels semantischer Segmentierung klassifiziert werden. Durch die semantische Segmentierung lassen sich bspw. Pixel eines Kamerabildes klassifizieren, so dass Klasseninformationen jedes Pixels ermittelt werden können. Bei einer Kamera, wird zuerst eine semantische Segmentierung auf Bildebene durchgeführt. Somit wird jeder Pixel zu einer Klasse zugeordnet. Das Bild wird dann zum Messgitter in Weltkoordinaten (2D Bird's Eye View) konvertiert. So wird jede Gridzelle zu einer Klasse zugeordnet. Die Sensordaten können allerdings auch bspw. Punktwolken eines Lidarsensors oder Reflexionen eines Radarsensors sein. Für das erste Messgitter reichen Informationen über die Belegt- und Frei-Massenaus. Diesen Detektionen müssen nicht zwingend semantische Informationen zugeordnet werden.Depending on the environment detection sensor used, the first measurement grid can also contain semantic information. For example, when using a camera, the camera data can be classified using semantic segmentation. Using semantic segmentation, pixels of a camera image can be classified, for example, so that class information for each pixel can be determined. With a camera, semantic segmentation is first carried out at the image level. This means that each pixel is assigned to a class. The image is then converted to the measurement grid in world coordinates (2D Bird's Eye View). This means that each grid cell is assigned to a class. net. The sensor data can also be, for example, point clouds from a lidar sensor or reflections from a radar sensor. For the first measurement grid, information about the occupied and free masses is sufficient. Semantic information does not necessarily have to be assigned to these detections.

Für die zuvor genannte semantische Segmentierung können mehrere Sätze an Sensordaten, im Beispiel einer Kamera, mehrere Kamerabilder als Eingang für ein neuronales Netz verwendet werden. Der Output des neuronalen Netzes ist dann die semantische Segmentierung in Vogelperspektive in einem Messgitter. Eine weitere Alternative wäre die Klasseninformation jedes Pixels mit Hilfe einer Koordinatenkonvertierung von Bildkoordinaten zu Bird's Eye View in Gridzellen eines Messgitters einzutragen.For the aforementioned semantic segmentation, several sets of sensor data, in the example of a camera, several camera images can be used as input for a neural network. The output of the neural network is then the semantic segmentation in a bird's eye view in a measurement grid. Another alternative would be to enter the class information of each pixel in grid cells of a measurement grid using a coordinate conversion from image coordinates to bird's eye view.

Ein Messgitter (Measurement Grid) ist eine meist zweidimensionale uniforme gitterförmige Aufteilung des Raumes in einzelne Zellen. Je nachdem ob Wahrscheinlichkeitstheorie oder Evidenztheorie verwendet wird, enthält jede dieser Zellen einen Wahrscheinlichkeitswert, ob eine Zelle durch ein Hindernis belegt ist, oder zwei Evidenzwerten, jeweils für den Zustand belegt und den Zustand frei. Zum Erzeugen der dynamischen Gridkarte, werden Messgitter fusioniert. Darüber hinaus werden die Zellen, die durch bewegte Objekte belegt sind, verfolgt und die Evidenzen der verschiedenen Status (statisch belegt, dynamisch belegt, frei, unsichtbar aber im letzten Frame dynamisch belegt) und die Geschwindigkeit dynamischer Zellen werden geschätzt. Ein solches Verfahren ist beispielsweise in dem Paper „ Grid-Based Environment Estimation Using Evidential Mapping and Particle Tracking“ von S. Steyer, et. al (IEEE Transactions on Intelligent Vehicles, 2018 ) beschrieben.A measurement grid is a mostly two-dimensional, uniform grid-like division of space into individual cells. Depending on whether probability theory or evidence theory is used, each of these cells contains a probability value as to whether a cell is occupied by an obstacle, or two evidence values, one for the occupied state and one for the free state. To generate the dynamic grid map, measurement grids are merged. In addition, the cells occupied by moving objects are tracked and the evidence of the various statuses (statically occupied, dynamically occupied, free, invisible but dynamically occupied in the last frame) and the speed of dynamic cells are estimated. Such a method is described, for example, in the paper “ Grid-Based Environment Estimation Using Evidential Mapping and Particle Tracking“ by S. Steyer, et. (IEEE Transactions on Intelligent Vehicles, 2018 ) described.

Weiterhin werden bevorzugt zeitgleich zu den vorgenannten Schritten oder auch darauffolgend mittels zumindest eines Mikrofonarrays auditorische Signale in dem Umfeld des Ego-Fahrzeugs aufgezeichnet. Diese auditorischen Signale werden mit sogenannten Ereignisklassen in eine auditorische Heat-Map eingetragen. Die Ereignisklassen werden mittels bspw. eines entsprechend trainierten neuronalen Netzes den verschiedenen auditorischen Signalen zugeordnet und basierend darauf die Heat-Map erstellt. Die auditorischen Signale des Mikrofonarrays können gefiltert und vorverarbeitet werden, bevor diese an das neuronale Netz übermittelt werden. Die Heat-Map besitzt ebenfalls Zellen, in welche die Ereignisklassen der auditorischen Signale eingetragen werden. Diese Heat-Map wird dann in ein zweites Messgitter konvertiert und die Gridzellen mit entsprechenden Belegungswahrscheinlichkeiten eingeteilt. Weiterhin werden die Ereignisklassen in die Gridzellen eingetragen. Die Heat-Map sowie das erste und zweite Messgitter liegen in Vogelperspektive (Birds-Eye View) vor und beschreiben entsprechend eine zweidimensionale Repräsentation des Umfelds. Die auditorische Heat-Map wird beispielsweise mittels eines entsprechend trainierten neuronalem Netzes erstellt.Furthermore, auditory signals in the environment of the ego vehicle are preferably recorded at the same time as the aforementioned steps or subsequently using at least one microphone array. These auditory signals are entered into an auditory heat map with so-called event classes. The event classes are assigned to the various auditory signals using, for example, an appropriately trained neural network and the heat map is created based on this. The auditory signals of the microphone array can be filtered and pre-processed before they are transmitted to the neural network. The heat map also has cells in which the event classes of the auditory signals are entered. This heat map is then converted into a second measurement grid and the grid cells are divided into corresponding occupancy probabilities. The event classes are also entered into the grid cells. The heat map as well as the first and second measurement grids are available in a bird's eye view and accordingly describe a two-dimensional representation of the environment. The auditory heat map is created using, for example, an appropriately trained neural network.

Die Schritte zum Erstellen des ersten und des zweiten Messgitters werden bevorzugt zumindest zweimal oder mehrfach durchlaufen, um aus den ersten und den zweiten Messgittern eine semantische dynamische Gridkarte erstellen zu können. Dabei können unterschiedlich viele erste und zweite semantische Messgitter erstellt werden. Beispielsweise können mehrere erste Messgitter mit den Sensordaten des Umfelderfassungssensors erstellt werden und mit einem zweiten semantischen Messgitter fusioniert werden. Für das Erstellen einer ersten semantischen dynamischen Gridkarte reicht allerdings die Fusion aus einem einzelnen ersten Messgitter und einem einzelnen zweiten Messgitter aus. Zum Ermitteln der Evidenz des Zustands ob eine Zelle von einem dynamischen Objekt belegt ist, werden dynamische Zellen in der Gridkarte zum Zeitpunkt t_-1 mit einem Partikelfilter bis zur Gridkarte zum Zeitpunkt t₀ verfolgt.The steps for creating the first and second measurement grids are preferably carried out at least twice or more in order to be able to create a semantic dynamic grid map from the first and second measurement grids. A different number of first and second semantic measurement grids can be created. For example, several first measurement grids can be created with the sensor data from the environment detection sensor and fused with a second semantic measurement grid. However, to create a first semantic dynamic grid map, the fusion of a single first measurement grid and a single second measurement grid is sufficient. To determine the evidence of the state of whether a cell is occupied by a dynamic object, dynamic cells in the grid map at time t _-1 are tracked with a particle filter to the grid map at time t ₀ .

Vorteilhaft hierbei ist, dass die auditorischen Signale den Wahrnehmungsbereich erweitern können. Durch das Mikrofonarray wird ebenfalls die Redundanz des Systems erhöht. Die Mikrofonarrays liefern beispielsweise gute Signale, wenn bspw. Kameras unter schlechten Lichtbedingungen nicht gut funktionieren. Eine semantische dynamische Gridkarte, die auf Mikrofonarray und bspw. Kamera basiert, kann die Umgebung besser modellieren als eine rein auf Kamera basierende semantische dynamische Gridkarte, auch wenn sich ein Objekt im Sichtfeld der Kamera befindet.The advantage here is that the auditory signals can expand the range of perception. The microphone array also increases the redundancy of the system. The microphone arrays provide good signals, for example, when cameras do not work well in poor lighting conditions. A semantic dynamic grid map based on a microphone array and, for example, a camera can model the environment better than a semantic dynamic grid map based purely on the camera, even if an object is in the camera's field of view.

In einer bevorzugten Ausführungsform umfassen die Ereignisklassen Sirenen von Einsatzfahrzeugen, Motorgeräusche von motorisierten Fahrzeugen, Hupen von Fahrzeugen, Geräusche beim Starten eines Motors und Lärm ausgehend von weiteren potenziellen nicht motorisierten Verkehrsteilnehmern. Motorgeräusche von motorisierten Fahrzeugen umfassen insbesondere Motorgeräusche von einem fahrenden PKW, LKW, Motorrad oder dergleichen. Die weiteren potenziellen nicht motorisierten Verkehrsteilnehmer umfassen beispielsweise Lärm ausgehend von Fahrrädern, Joggern, spielenden Kindern und von der Klasse „unbekannt“, wenn das Geräusch nicht eindeutig zuordenbar ist.In a preferred embodiment, the event classes include sirens from emergency vehicles, engine noises from motorized vehicles, vehicle horns, noises when starting an engine and noise emanating from other potential non-motorized road users. Engine noises from motorized vehicles include in particular engine noises from a moving car, truck, motorcycle or the like. The other potential non-motorized road users include, for example, noise emanating from bicycles, joggers, children playing and from the class "unknown" if the noise cannot be clearly assigned.

Weiter ist bevorzugt, dass zum Erzeugen der auditorischen Heat-Map ein SELD (Sound Event Localization and Detection) -Verfahren verwendet wird. Besonders bevorzugt wird für das SELD-Verfahren ein neuronales Netz verwendet. Das SELD Verfahren ist entsprechend derart angepasst, dass der Output eine Heat-Map in Vogelperspektive ist.It is further preferred that a SELD (Sound Event Localization and Detection) method is used to generate the auditory heat map. It is particularly preferred for the SELD method A neural network is used. The SELD method is adapted so that the output is a heat map in a bird's eye view.

In einer weiteren bevorzugten Ausgestaltung wird dem ersten Messgitter und dem zweiten semantischen Messgitter jeweils ein Integrationsgewicht zugeordnet.In a further preferred embodiment, an integration weight is each assigned to the first measurement grid and the second semantic measurement grid.

Besonders bevorzugt wird das Integrationsgewicht dem ersten und/oder zweiten Messgitter an vorherrschende Umfeldbedingungen und Fahrszenarien angepasst. Entsprechend könnte das Integrationsgewicht an Uhrzeit, Lichtbedingung, Geschwindigkeit des Ego-Fahrzeugs und an die Szenen angepasst werden. Beispielsweise könnte an einem ruhigen Abend bzw. unter schlechten Lichtbedingungen das Integrationsgewicht des auditorischen Messgitters erhöht werden. Je schneller das Ego-Fahrzeug fährt, desto stärker ist der Fahrtwind. Mit stärkerem Fahrtwind wird der auditorische Empfang schlechter und das entsprechende Integrationsgewicht könnte herabgesetzt werden. Außerdem können Fahrszenarien bzw. Szenen, z.B. Autobahn, Tunnel, Landstraße, Baustellen, Kreuzung, Innenstadt, etc., mittels deren auditorischen und visuellen Eigenschaften detektiert werden. Das Integrationsgewicht der beiden Messgitter kann an verschiedene Fahrszenarien adaptiert werden. Basierend auf der fusionierten semantischen dynamischen Gridkarte kann sowohl befahrener Freiraum extrahiert werden als auch statische und dynamische Objekte erkannt werden.It is particularly preferred if the integration weight of the first and/or second measurement grid is adapted to the prevailing environmental conditions and driving scenarios. Accordingly, the integration weight could be adapted to the time of day, lighting conditions, speed of the ego vehicle and to the scenes. For example, on a quiet evening or in poor lighting conditions, the integration weight of the auditory measurement grid could be increased. The faster the ego vehicle is driving, the stronger the wind. With stronger wind, auditory reception becomes worse and the corresponding integration weight could be reduced. In addition, driving scenarios or scenes, e.g. highway, tunnel, country road, construction site, intersection, city center, etc., can be detected using their auditory and visual properties. The integration weight of the two measurement grids can be adapted to different driving scenarios. Based on the fused semantic dynamic grid map, both open space driven on can be extracted and static and dynamic objects can be recognized.

Erfindungsgemäß wird weiterhin ein System zum Erzeugen einer erweiterten semantischen dynamischen Gridkarte in einem Ego-Fahrzeug vorgeschlagen, umfassend zumindest einen Umfelderfassungssensor zum Aufzeichnen eines Umfelds des Ego-Fahrzeugs sowie zumindest ein Mikrofonarray zum Aufzeichnen von auditorischen Signalen und eine Recheneinrichtung, wobei die Recheneinrichtung derart ausgestaltet ist, Sensordaten des Umfelderfassungssensors sowie auditorische Signale des Mikrofonarrays auszuwerten und zu verarbeiten sowie ein erstes und ein zweites semantisches Messgitter zu erstellen und durch eine Fusion des ersten Messgitters und des zweiten semantischen Messgitters eine erweiterte semantische dynamische Gridkarte zu erzeugen.According to the invention, a system for generating an extended semantic dynamic grid map in an ego vehicle is further proposed, comprising at least one environment detection sensor for recording an environment of the ego vehicle and at least one microphone array for recording auditory signals and a computing device, wherein the computing device is designed to evaluate and process sensor data of the environment detection sensor and auditory signals of the microphone array and to create a first and a second semantic measurement grid and to generate an extended semantic dynamic grid map by merging the first measurement grid and the second semantic measurement grid.

Die Recheneinrichtung kann beispielsweise als ECU im Ego-Fahrzeug ausgestaltet sein. Denkbar wäre auch, dass die Recheneinrichtung in einem der Sensoren angeordnet ist. Das Mikrofonarray, der zumindest eine Umfelderfassungssensor und die Recheneinrichtung sind über eine kabelgebundene oder kabellose Datenverbindung miteinander kommunikativ verbunden. Das Mikrofonarray könnte beispielsweise als eine Einheit an einer zentralen Stelle, wie bspw. an der Mitte des Autodaches angeordnet sein.The computing device can be designed as an ECU in the ego vehicle, for example. It would also be conceivable for the computing device to be arranged in one of the sensors. The microphone array, the at least one environment detection sensor and the computing device are communicatively connected to one another via a wired or wireless data connection. The microphone array could, for example, be arranged as a unit at a central location, such as in the middle of the car roof.

In einer bevorzugten Ausgestaltung des Systems besteht das Mikrofonarray aus mehreren Einzelmikrofonen. Mehrere Mikrofone sind dahingehend vorteilhaft, da so je ein Mikrofon an verschiedenen Positionen an dem Ego-Fahrzeug angebracht werden können, was die Detektionsgenauigkeit und Detektionsmöglichkeiten von auditorischen Signalen verbessert.In a preferred embodiment of the system, the microphone array consists of several individual microphones. Several microphones are advantageous because one microphone can be attached to each of the different positions on the ego vehicle, which improves the detection accuracy and detection options of auditory signals.

Weiter sind besonders bevorzugt die Einzelmikrofone an der Außenseite an einer Dachseite des Ego-Fahrzeugs an vier Eckpunkten angeordnet. Durch eine derartige Anordnung können alle Richtungen aus denen auditorische Signale auftreten können, vorteilhaft abgedeckt werden. Weiterhin ist durch eine Anordnung auf dem Autodach der Einfluss des eigenen Motorengeräusches und der Reifengeräusche am geringsten.Furthermore, the individual microphones are particularly preferably arranged on the outside of one side of the roof of the ego vehicle at four corner points. This type of arrangement can advantageously cover all directions from which auditory signals can occur. Furthermore, the influence of the vehicle's own engine noise and tire noise is minimal when arranged on the roof of the vehicle.

Weitere vorteilhafte Ausgestaltungen und Ausführungsformen sind Gegenstand der Figuren. Darin zeigen:

1: ein schematisches Ablaufdiagramm des Verfahrens gemäß einer Ausgestaltung der Erfindung;
2: eine schematische Darstellung eines Systems gemäß einer Ausführungsform der Erfindung.

Further advantageous embodiments and embodiments are the subject of the figures. Therein show:

1 : a schematic flow diagram of the method according to an embodiment of the invention;
2 : a schematic representation of a system according to an embodiment of the invention.

Die 1 zeigt ein schematisches Ablaufdiagramm des Verfahrens zum Erzeugen einer erweiterten semantischen dynamischen Gridkarte in einem Ego-Fahrzeug gemäß einer Ausgestaltung der Erfindung. In Schritt S1 wird ein Umfeld des Ego-Fahrzeugs mittels zumindest eines Umfelderfassungssensors aufgezeichnet und Sensordaten des zumindest eines Umfelderfassungssensors erzeugt. In Schritt S2 werden die Sensordaten aus einem Sensorkoordinatensystem zu Koordinaten des Messgitters konvertiert, um ein erstes Messgitter zu erstellen. In Schritt S3 werden auditorische Signale mittels zumindest eines Mikrofonarrays des Ego-Fahrzeugs aufgezeichnet. In Schritt S4 wird eine auditorischen Heat-Map mit Ereignisklassen basierend auf den aufgezeichneten auditorischen Signalen erzeugt. In Schritt S6 wird die auditorischen Heat Map in ein zweites semantisches Messgitter konvertiert und Belegungswahrscheinlichkeiten und Ereignisklassen in entsprechende Gridzellen eingetragen. In Schritt S6 wird eine erweiterte semantische dynamische Gridkarte mittels Fusion des ersten Messgitters und des zweiten semantischen Messgitters erzeugt. Die Schritte S1 bis S2 und S4 bis S6 laufen bevorzugt zeitgleich ab.The 1 shows a schematic flow diagram of the method for generating an extended semantic dynamic grid map in an ego vehicle according to an embodiment of the invention. In step S1, an environment of the ego vehicle is recorded using at least one environment detection sensor and sensor data from the at least one environment detection sensor is generated. In step S2, the sensor data from a sensor coordinate system is converted to coordinates of the measurement grid in order to create a first measurement grid. In step S3, auditory signals are recorded using at least one microphone array of the ego vehicle. In step S4, an auditory heat map with event classes is generated based on the recorded auditory signals. In step S6, the auditory heat map is converted into a second semantic measurement grid and occupancy probabilities and event classes are entered into corresponding grid cells. In step S6, an extended semantic dynamic grid map is generated by merging the first measurement grid and the second semantic measurement grid. Steps S1 to S2 and S4 to S6 preferably run simultaneously.

2 zeigt eine schematische Darstellung eines Systems gemäß einer Ausführungsform der Erfindung. Das System 1 weist dabei zumindest einen Umfelderfassungssensor 2, ein Mikrofonarray 3 sowie eine Recheneinrichtung 4 auf. Der Umfelderfassungssensor 2 und das Mikrofonarray 3 sind jeweils über eine Datenverbindung D mit der Recheneinrichtung 4 verbunden. Die Datenverbindung D ist bevorzugt kabelgebunden ausgestaltet. Es wäre auch eine drahtlose Datenverbindung D denkbar. Die Recheneinrichtung 4 ist dabei derart ausgestaltet, Sensordaten des Umfelderfassungssensors 2 sowie auditorische Signale des Mikrofonarrays 3 auszuwerten und zu verarbeiten sowie ein erstes Messgitter und ein zweites semantisches Messgitter zu erstellen und durch eine Fusion des ersten Messgitters und des zweiten semantischen Messgitters eine erweiterte semantische dynamische Gridkarte zu erzeugen. 2 shows a schematic representation of a system according to an embodiment of the invention. The system 1 has at least one environment detection sensor 2, a microphone array 3 and a computing device 4. The environment detection sensor 2 and the microphone array 3 are each connected to the computing device 4 via a data connection D. The data connection D is preferably designed as a wired connection. A wireless data connection D would also be conceivable. The computing device 4 is designed to evaluate and process sensor data from the environment detection sensor 2 and auditory signals from the microphone array 3, to create a first measurement grid and a second semantic measurement grid and to generate an extended semantic dynamic grid map by merging the first measurement grid and the second semantic measurement grid.

BezugszeichenlisteList of reference symbols

11: Systemsystem
22: UmfelderfassungssensorEnvironment detection sensor
33: MikrofonarrayMicrophone array
44: RecheneinrichtungComputing device
DD: DatenverbindungData Connection
S1-S6S1-S6: VerfahrensschritteProcess steps

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely to provide the reader with better information. The list is not part of the German patent or utility model application. The DPMA accepts no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

Grid-Based Environment Estimation Using Evidential Mapping and Particle Tracking“ by S. Steyer, et. (IEEE Transactions on Intelligent Vehicles, 2018 [0011]

Claims

Method for generating an extended semantic dynamic grid map in an ego vehicle with the following steps: - Recording (S1) an environment of the ego vehicle using at least one environment detection sensor (2) and generating sensor data from the at least one environment detection sensor (2); - Converting (S2) the sensor data from a sensor coordinate system to coordinates of the measurement grid to create a first measurement grid; - Recording (S3) auditory signals using at least one microphone array (3) of the ego vehicle; - Generating (S4) an auditory heat map with event classes based on the recorded auditory signals; - Converting (S5) the auditory heat map into a second semantic measurement grid and entering occupancy probabilities and event classes into corresponding grid cells; - Generating (S6) an extended semantic dynamic grid map by merging the first measurement grid and the second semantic measurement grid.

Procedure according to Claim 1 , characterized in that the event classes include sirens from emergency vehicles, engine noises from motorised vehicles, horns from vehicles, noises when starting an engine and noise from other potential non-motorised road users.

Procedure according to Claim 1 , characterized in that a SELD method is used to generate the auditory heat map.

Procedure according to Claim 1 , characterized in that an integration weight is each assigned to the first measuring grid and the second semantic measuring grid.

Procedure according to Claim 4 , characterized in that the integration weight of the first and/or second measuring grid is adapted to prevailing environmental conditions and driving scenarios.

System (1) for generating an extended semantic dynamic grid map in an ego vehicle comprising at least one environment detection sensor (2) for recording an environment of the ego vehicle and at least one microphone array (3) for recording auditory signals and a computing device (4), wherein the computing device (4) is designed to evaluate and process sensor data of the environment detection sensor (2) and auditory signals of the microphone array (3) and to create at least a first measurement grid and a second semantic measurement grid and to generate a semantic dynamic grid map by merging the first measurement grid and the second semantic measurement grid.

System according to Claim 6 , characterized in that the microphone array (4) consists of several individual microphones.

System according to Claim 7 , characterized in that the individual microphones are arranged on the outside of a roof side of the ego vehicle at four corner points.