-
Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum, und eine Steuervorrichtung, die ausgestaltet ist, das Verfahren auszuführen.
-
Automatisierte Fahrzeuge, insbesondere des SAE Levels 4 oder 5, bei denen kein (Sicherheits-)Fahrer bei Gefahr steuert bzw. eingreift, müssen auf ihre Umgebung ebenso reagieren, wie dies ein menschlicher Fahrer tun würde.
-
Das bedeutet, dass die automatisierten Fahrzeuge ihre Umwelt unter anderem nicht nur über Kameras visuell wahrnehmen müssen, sondern idealerweise auch akustisch über Außen- oder Innenmikrofone, wobei erfasste akustische Signale entsprechend verarbeitet werden, d.h. aus denen bestimmte Informationen extrahiert und interpretiert werden, zum Beispiel eine Einsatzfahrzeugsirene erkannt wird.
-
Im urbanen Umfeld, insbesondere in der Stadt oder anderen Umgebungen, ist jedoch eine große Anzahl an verschiedenen, sich überlagernden akustischen Signalen vorhanden, die ein solches Extrahieren und Interpretieren bzw. Verarbeiten erschweren.
-
Eine Erkennung und Interpretation derartiger Signale ist beispielsweise aus der
WO 2016/196003 bekannt. Diese offenbart ein Fahrzeug mit einem Mikrofon, das so positioniert ist, dass es von außerhalb des Fahrzeugs stammende Töne bzw. Geräusche erfasst. Ferner hat das Fahrzeug einen Analogdigitalwandler, der so konfiguriert ist, dass er die vom Mikrofon erfassten Geräusche in digitale Audiosignale umwandelt. Ferner hat das Fahrzeug einen Speicher, der eine Tonverarbeitungssoftware und ein oder mehrere bekannte zu Geräuschen korrespondierende Datensätze gespeichert hat. Beim aus der
WO 2016/196003 bekannten Verfahren werden die erfassten digitalen Audiosignale mit den bekannten Audiodaten die im Speicher gespeichert sind, verglichen. Anschließend wird als Reaktion auf den Vergleich eine Übereinstimmung zwischen den digitalen Audiosignalen und den im Speicher gespeicherten bekannten Audiodaten gesucht, und, falls eine Übereinstimmung gefunden wurde, eine Aktion als Reaktion auf die Übereinstimmung ausgeführt.
-
Nachteilig an einem derartigen System ist, dass es für die Erkennung von bekannten Audiodaten bzw. von bekannten Geräuschen eine Datenbank benötigt, die je nach Größe einen entsprechend großen Speicherplatz im Fahrzeug benötigt. Eine solche Datenbank benötigt für die unterschiedlichen Geräusche und gegebenenfalls deren Varianten, einen ausreichend großen Speicher. Auch ist es für einen Prozessor sowohl zeit- als auch rechenintensiv, Vergleiche mit einer großen Datenbank durchzuführen. Eine Verarbeitung in Echtzeit ist daher nur unter Einsatz einer entsprechend großen Rechenleistung möglich.
-
Daher ist es Aufgabe der vorliegenden Erfindung, die aus dem Stand der Technik bekannten Nachteile zu überwinden.
-
Diese Aufgabe wird erfindungsgemäß durch die Merkmale der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
-
Demnach wird die Aufgabe gelöst durch ein Verfahren zur Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum. Das Verfahren weist ein Erfassen von akustischen Informationen in einem Umfeld des Fahrzeugs, ein Eingeben der Informationen in ein neuronales Netz, Klassifizieren der Informationen mittels des neuronalen Netzes, und ein Ausgeben der klassifizierten Informationen zum Steuern des Fahrzeugs auf.
-
Bei dem neuronalen Netz handelt es sich um ein künstliches neuronales Netz. Bei dem Fahrzeug kann es sich um ein automatisiertes Fahrzeug handeln, insbesondere einen Personenkraftwagen oder einen Lastkraftwagen oder Bus. Das Fahrzeug kann ein Fahrzeug des Automatisierungslevels bzw. des SAE (Society of Automotive Engineers) Levels 2, 3, 4 oder 5 sein. Das SAE Level 2 umfasst eine fahrmodus-spezifische Ausführung von Lenk- und Beschleunigungs- bzw. Bremsvorgängen durch ein oder mehrere Fahrerassistenzsysteme unter Verwendung von Informationen über die Fahrumgebung und mit der Erwartung, dass der menschliche Fahrer alle verbleibenden Aspekte der dynamischen Fahraufgabe ausführt. Die SAE Level 3, 4 und 5 bauen auf dem SAE Level 2 auf. Das SAE Level 3 umfasst dabei ferner eine fahrmodus-spezifische Ausführung (zumindest zeitweise) aller Aspekte der dynamischen Fahraufgabe durch ein automatisiertes Fahrsystem mit der Erwartung, dass der menschliche Fahrer auf Anfrage des Systems angemessen reagieren wird. Das SAE Level 4 umfasst zudem eine automatisierte Führung des Fahrzeugs ohne die Erwartung, dass der Fahrer auf eine Anforderung zum Eingreifen reagiert. Ohne menschliche Reaktion steuert das Fahrzeug weiterhin automatisiert. Das SAE Level 5 umfasst ferner eine durchgängige Ausführung aller Aspekte der dynamischen Fahraufgabe durch ein automatisiertes Fahrsystem unter allen Fahr- und Umweltbedingungen, die von einem menschlichen Fahrer bewältigt werden können. Beim SAE Level 5 wird auch von voller Automation gesprochen.
-
Das Erfassen von akustischen Informationen in einem Umfeld des Fahrzeugs kann mittels einer Mikrofonanordnung durchgeführt werden. Die Mikrofonanordnung kann ein oder mehrere (Außen- oder Innen-) Mikrofone aufweisen, die an und/oder in einem Fahrzeug angeordnet sind. Das Umfeld des Fahrzeugs kann auch als eine Umgebung des Fahrzeugs bezeichnet werden. Das Umfeld des Fahrzeugs umfasst einen Bereich bzw. Raum innerhalb und/oder außerhalb des Fahrzeugs. Die akustischen Informationen können dabei insbesondere zu Geräuschen bzw. Tönen, die in der Umgebung des Fahrzeugs auftreten, korrespondieren. Das Mikrofon bzw. die Mikrofonanordnung kann ausgestaltet sein, um ein analoges Signal in einen Analog-Digital-Wandler einzugeben, der das vom Mikrofon empfangene analoge Signal in ein digitales Signal umwandelt, welches dann die akustischen Informationen darstellt.
-
Das künstliche neuronale Netz kann als ein long short-term memory (LSTM) Netz ausgebildet sein. Ein solches LSTM-Netz ist insbesondere vorteilhaft zur Klassifizierung von Daten, die über die Zeit erfasst werden, wie hier die akustischen Informationen.
-
Die akustischen Informationen können als ein Frequenzverlauf über eine Zeit erfasst werden. Denkbar ist, dass die akustischen Informationen beispielsweise in einem Frequenzband von 1 kHz bis 4 kHz erfasst werden. Insbesondere können die über die Zeit erfassten akustischen Informationen als Spektrogramm dargestellt werden, welches aus den quadrierten Amplituden einer Kurzzeit-Fourier-Transformation gebildet wird und welches einer Zeit-Frequenz Darstellung der akustischen Information entspricht. Zur weiteren Verarbeitung können die quadrierten Amplituden einer Kurzzeit-Fourier-Transformation herangezogen werden.
-
Die erfassten akustischen Informationen können vor dem Eingeben in das neuronale Netz aufbereitet werden. Das Aufbereiten kann ein Aufteilen des Frequenzverlaufs in vorbestimmte Frequenzbänder umfassen. Es ist denkbar, dass eine Bandbreite der Frequenzbänder jeweils 100 Hz beträgt.
-
Die in vorbestimmte Frequenzbänder aufgeteilten akustischen Informationen können je Frequenzband in sich überlappende Zeitfenster einer vorbestimmten Länge unterteilt werden und der Frequenzverlauf je Zeitfenster über die Zeit integriert werden, um einen Mittelwert je Zeitfenster zu erhalten.
-
Die Zeitfenster können auch als sogenannte „sliding windows“ bezeichnet werden. Die Zeitfenster können eine Länge von 0,35 Sekunden aufweisen, die sich überlappen. Mit anderen Worten, die aufeinander folgenden Zeitfenster können dabei jeweils um eine vorbestimmte Zeitspanne, beispielsweise 2,5 Millisekunden, zueinander versetzt sein.
-
Aus den (durch die Integration erhaltenen) Mittelwerten je Zeitfenster kann wiederum für eine vorbestimmte Anzahl von Zeitfenstern innerhalb eines vorbestimmten Zeitraums ein Verlauf der Mittelwerte über die Zeit gebildet bzw. erhalten werden. Es ist denkbar, dass der vorbestimmte Zeitraum 1,5 Sekunden beträgt.
-
Der so erhaltene Verlauf bzw. die so erhaltene Änderung der Mittelwerte über die Zeit ist repräsentativ für eine Änderung der Signalenergie pro Frequenzband.
-
Das neuronale Netz kann so trainiert sein, dass es in den akustischen Informationen enthaltene Muster vorbestimmten Klassen zuordnet, wobei die Klassen zumindest zwei zu unterscheidende Geräuscharten umfassen. Mit anderen Worten, das neuronale Netz, welches wie oben beschrieben ein LSTM-Netz sein kann, kann so ausgebildet sein, dass es Charakteristika in den oben beschriebenen Zeitverläufen der erfassten Frequenzen unterscheidet.
-
Das neuronale Netz kann insbesondere so trainiert sein, dass es zumindest ein Muster in dem Verlauf der Mittelwerte über die Zeit einer vorbestimmten Klasse zuordnen kann und die akustischen Informationen mittels des zugeordneten Musters klassifiziert. Das Muster kann beispielsweise zu einem von einer Sirene eines Einsatzfahrzeugs erzeugten Geräusch korrespondieren.
-
Ferner kann eine Abstandsänderungen einer zu den klassifizierten (akustischen) Informationen korrespondierenden Geräuschquelle zum Fahrzeug basierend auf einer Änderung einer Signalenergie und/oder einer Frequenzverschiebungen der klassifizierten akustischen Informationen ermittelt werden.
-
Das Fahrzeug kann basierend auf den ausgegebenen klassifizierten Informationen gesteuert werden. Das Steuern kann ein Ausgeben von Steuersignalen für eine Quer- und/oder Längsführung umfassen. Denkbar ist auch, dass das Steuern ein Anzeigen bzw. Ausgeben von Informationen, beispielsweise akustisch und/oder visuell, umfasst, z.B. im Rahmen einer geführten Nutzerinteraktion, bei der dem Fahrer des Fahrzeugs eine bestimmte Handlungsempfehlung (z.B. Ausweichen nach rechts) gegeben wird.
-
Ferner betrifft die Erfindung eine Steuervorrichtung, die ausgestaltet ist, das oben beschriebene Verfahren auszuführen. Des Weiteren betrifft die Erfindung ein Fahrzeug, insbesondere ein automatisiertes Fahrzeug oder Lastkraftwagen oder Bus. Das Fahrzeug kann die Steuervorrichtung aufweisen.
-
Das oben beschriebene Prinzip lässt folgende Zusammenfassung zu: Über verschiedene am Fahrzeug verbaute Außen- oder Innenmikrofone (zum Beispiel eins, zwei, drei oder mehr Außen- oder Innenmikrofone) werden akustische Signale aus verschiedenen Richtungen aus der Umgebung des Fahrzeugs erfasst und nach einer Vorverarbeitung bzw. Aufbereitung einem neuronalen Netz, beispielsweise einem LSTM-Netzwerk oder einem anderen gekoppelten neuronalen Netzwerk, zugeführt. Dieses neuronale Netz bzw. Netzwerk klassifiziert basierend auf dem Signalenergieverlauf des Frequenzspektrums und möglicherweise anteilig auch des Zeitsignals jeweils bekannte, da zuvor gelernte, Muster und ist ausgestaltet, deren Bedeutung zu interpretieren. Es ist denkbar, dass anhand eines bestimmten Musters beispielsweise eine Einsatzfahrzeugsirene oder andere Signale erkannt werden. Es ist dann möglich, das Fahrzeug auf die vorhandene Situation adäquat reagieren zu lassen, da es die Situation durch die durch das oben beschriebene Prinzip erhaltenen komplementären akustischen Informationen besser erfassen und einschätzen kann.
-
Nachfolgend wird eine Ausführungsform der Erfindung mit Bezug zu 1, 2 und 3 beschrieben.
- 1 zeigt eine Steuervorrichtung, die ausgestaltet ist, ein in 2 dargestelltes Verfahren auszuführen.
- 2 zeigt ein Verfahren zur Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum.
- 3 zeigt einen Frequenzverlauf eines erfassten digitalen akustischen Signals über eine Zeit.
-
Die in 1 schematisch dargestellte Steuervorrichtung weist ein Mikrofon 1, eine Analysevorrichtung 2, ein Fahrerassistenzsystem 3 und eine Kamera 4 auf.
-
Das Mikrofon 1 kann als eine Mikrofonanordnung ausgeführt werden, die beispielsweise drei Mikrofone aufweist, die außen oder innen an einem nicht weiter dargestellten Fahrzeug angebracht sind. Es ist denkbar, dass jeweils ein Mikrofon 1 in bzw. an einem Außenspiegel des Fahrzeugs angebracht ist und ein weiteres Mikrofon an einer Rück- bzw. Heckseite des Fahrzeugs angebracht ist. Das Mikrofon 1 ist zur Analysevorrichtung 2 so verbunden, dass es sensierte bzw. erfasste Signale zu der Analysevorrichtung 2 eingeben kann.
-
Die Analysevorrichtung 2 weist eine Eingangsschnittstelle 21, einen Prozessor 22 und eine Ausgangsschnittstelle 23 auf. Die Analysevorrichtung 2 ist über die Eingangsschnittstelle 21 zu dem Mikrofon 1 verbunden. Von dem Mikrofon 1 über die Eingangsschnittstelle 21 empfangene Informationen bzw. Daten werden zu dem Prozessor 22 eingegeben.
-
Die Eingangsschnittstelle 21 oder das Mikrofon 1 können einen Analog-Digital-Wandler aufweisen, der ausgestaltet ist, vom Mikrofon 1 erfasste Geräusche bzw. akustische Informationen, die als analoges Signal vorliegen, in ein digitales Signal umzuwandeln, sodass dieses zum Prozessor 22 eingegeben werden kann. Es kann auch ein separater Analogdigitalwandler zwischen dem Mikrofon 1 und der Eingangsschnittstelle 21 vorgesehen sein.
-
Der Prozessor 22 ist ausgestaltet, das nachfolgende mit Bezug zu 2 beschriebene Verfahren teilweise durchzuführen. Der Prozessor 22 ist ferner ausgestaltet, ein Ergebnis des von ihm teilweise durchgeführten Verfahrens über die Ausgangsschnittstelle 23 zu dem Fahrerassistenzsystem 3 auszugeben.
-
Das Fahrerassistenzsystem 3 weist eine Eingangsschnittstelle 35, für die Analysevorrichtung 2, eine weitere Eingangsschnittstelle 33 für weitere Sensoren, wie beispielsweise die Kamera 4, einen Prozessor 32 und eine Ausgangsschnittstelle 34 auf.
-
Über die Eingangsschnittstelle 35 empfangene akustische Informationen von der Analysevorrichtung 2 werden zu dem Prozessor 32 eingegeben. Gleiches gilt für die über die weitere Eingangsschnittstelle 33 empfangenen Informationen, wie beispielsweise visuelle Informationen von der Kamera 4. Der Prozessor 32 ist ausgestaltet, diese Informationen zu fusionieren und in ein sogenanntes Umfeldmodell einzufügen bzw. einzuspeisen, und basierend auf den empfangenen Informationen eine adäquate Fahrzeugführung bzw. Steuerung vorzunehmen. Der Prozessor 32 ist ausgestaltet, ein Steuersignal an das Fahrzeug über die Ausgangsschnittstelle 34 auszugeben.
-
Nachfolgend wird das Verfahren zur Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum, das von der Analysevorrichtung 2 und dem Fahrerassistenzsystem 3 ausgeführt wird, mit Bezug zu 2 und 3 beschrieben.
-
2 zeigt ein Ablaufdiagramm eines Verfahrens zur Erkennung und Interpretation akustischer Signale und Ereignisse im Fahrzeugaußen- und/oder Innenraum. 3 zeigt einen von dem Mikrofon 1 erfassten und mittels der Eingangsschnittstelle 21 in ein digitales Signal gewandelten Frequenzverlauf über eine Zeit.
-
Das in 2 dargestellte Verfahren weist sechs Schritte S1 bis S6 auf.
-
In einem ersten Schritt S1 werden die akustischen Informationen, die zu Geräuschen bzw. Tönen in einem Umfeld des Fahrzeugs korrespondieren, mittels des Mikrofons 1 erfasst.
-
Das Mikrofon 1 gibt die erfassten akustischen Informationen in Form eines Spannungsverlaufs über die Zeit, d.h. als analoges Signal, zu der Eingangsschnittstelle 21 der Analysevorrichtung 2 aus. Die Eingangsschnittstelle 21 der Analysevorrichtung 2 weist den oben beschriebenen Analog-Digital-Wandler auf, der die vom Mikrofon 1 empfangenen akustischen Informationen, die als das Analogsignal vorliegen, in ein digitales Signal durch Abtasten mit einer bestimmten Abtastrate umwandelt. Anschließend gibt die Eingangsschnittstelle 21 die digitalen akustischen Informationen zu dem Prozessor 22 der Analysevorrichtung 2 aus.
-
In einem zweiten Schritt S2 werden diese digitalen Informationen von dem Prozessor 22 aufbereitet. Wie 3 zu entnehmen ist, stellen die digitalen akustischen Informationen einen Frequenzverlauf über eine Zeit dar. Im in 3 gezeigten Schaubild ist die Frequenz in Hertz (Hz), hier beispielsweise von 1000 bis 4000 Hz, auf der vertikalen Achse und die Zeit in Sekunden (s), hier beispielsweise von 0s bis 10s, auf der horizontalen Achse aufgetragen.
-
Zunächst teilt der Prozessor 22 den Frequenzverlauf in vorbestimmte Frequenzbänder 51, 52 auf, die beispielsweise eine Bandbreite von 100 Hertz aufweisen können. Anschließend werden die Frequenzbänder 51, 52 (in 3 beispielhaft nur für eines der Frequenzbänder 51 gezeigt) in sich überlappende Zeitfenster 61, 62, 63 einer vorbestimmten Länge, zum Beispiel 0,35 Sekunden, unterteilt. Die Zeitfenster 61, 62, 63 überlappen sich dabei so, dass jeweils aufeinander folgende Zeitfenster um eine vorbestimmte Zeitspanne, beispielsweise 2,5 Millisekunden, zueinander versetzt sind. Je Zeitfenster 61, 62, 63 wird der Frequenzverlauf über die Zeit integriert, um so einen Mittelwert je Zeitfenster 61, 62, 63 zu erhalten. Anschließend werden mehrere Zeitfenster 61, 62, 63, die sich innerhalb eines vorbestimmten Zeitraums befinden, z.B. 1,5 Sekunden, zusammengefasst und aus den zuvor mittels Integration erhaltenen Mittelwerten ein Verlauf der Mittelwerte über die Zeit (je Zeitraum) gebildet. Der so erhaltene Verlauf der Mittelwerte je Zeitraum korrespondiert zu einem Zuwachs oder einer Abnahme der Signalenergie pro Frequenzband 51, 52.
-
Die so aufbereiteten akustischen Informationen und insbesondere der Verlauf, der zu den vorbestimmten Zeiträumen ermittelten Mittelwerte korrespondiert bzw. der Zuwachs oder Abnahme der Signalenergie pro Frequenzband 51, 52, werden in einem dritten Schritt S3 in ein neuronales Netz des Prozessors 22 eingegeben.
-
Das neuronale Netz ist so trainiert, dass es in einem vierten Schritt S4 die aufbereiteten und eingegebenen akustischen Informationen anhand einer Mustererkennung klassifiziert. Das Klassifizieren umfasst bei der vorliegenden Ausführungsform das Zuordnen von bestimmten Mustern, die zu einer Geräuschquelle korrespondieren, z.B. zu einer Sirene eines Einsatzfahrzeugs, d.h. zu einer Klasse. Mit anderen Worten, das neuronale Netz ist so trainiert, dass es in den akustischen Informationen enthaltene Muster vorbestimmten Klassen zuordnet, wobei die Klassen zumindest zwei zu unterscheidende Geräuscharten umfassen.
-
Ferner ermittelt der Prozessor 22 eine Abstandsänderungen einer zu den klassifizierten Informationen korrespondierenden Geräuschquelle zum Fahrzeug basierend auf einer Änderung einer Signalenergie und/oder einer Frequenzverschiebungen der klassifizierten akustischen Informationen.
-
Die so klassifizierten Informationen werden in einem fünften Schritt S5 zu dem Fahrerassistenzsystem 3 von dem Prozessor 22 über die Ausgangsschnittstelle 23 ausgegeben.
-
In einem sechsten Schritt S6 werden die erhaltenen klassifizierten akustischen Informationen von der Eingangsschnittstelle 35 des Fahrerassistenzsystems 3 zu dem Prozessor 32 des Fahrerassistenzsystems 3 eingegeben, der ein Umfeldmodell aufweist, in dem eine Datenfusion der klassifizierten akustischen Informationen mit Informationen anderer Sensoren, wie beispielsweise der Kamera 4, stattfindet, um so eine entsprechende Fahrzeugsteuerung vornehmen zu können. Der Prozessor 32 gibt anschließend ein Steuersignal über die Ausgangsschnittstelle 34 zu dem automatisierten Fahrzeug aus.
-
Das Steuern kann ein Ausgeben von Steuersignalen für eine Quer- und/oder Längsführung des Fahrzeugs umfassen. Denkbar ist auch, dass das Steuern ein Anzeigen bzw. Ausgeben von Informationen, beispielsweise akustisch und/oder visuell, umfasst, z.B. im Rahmen einer geführten Nutzerinteraktion, bei der dem Fahrer des Fahrzeugs eine bestimmte Handlungsempfehlung (z.B. Ausweichen nach rechts) gegeben wird.
-
Für den Fall des Erkennens eines Einsatzfahrzeugs kann das autonome Fahrzeug beispielsweise so gesteuert werden, dass das autonome Fahrzeug, wenn es (in der Stadt) an einer roten Ampel steht und sich ein Feuerwehrfahrzeug bzw. Einsatzfahrzeug mit Sirene nähert, eine adäquate Ausweichroute fährt. Insbesondere durch die Fusion der Daten, die von der Kamera 4 erhalten werden, und der Daten, die von dem Mikrofon 1 und der Analysevorrichtung 2 erhalten werden, kann evaluiert werden, ob es möglich ist, trotz der roten Ampel in die vorausliegende Kreuzung einzufahren oder nicht, um so dem sich nähernden Einsatzfahrzeug auszuweichen.
-
Bezugszeichenliste
-
- 1
- Mikrofon
- 2
- Analysevorrichtung
- 21
- Eingangsschnittstelle
- 22
- Prozessor
- 23
- Ausgangsschnittstelle
- 3
- Fahrerassistenzsystem
- 31, 35
- Eingangsschnittstelle
- 32
- Prozessor
- 33
- Eingangsschnittstelle
- 34
- Ausgangsschnittstelle
- 4
- Kamera
- 51, 52
- Frequenzbänder
- 61, 62, 63
- Zeitfenster
- S1-S6
- Verfahrensschritte
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-