-
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Lokalisieren und Verfolgen akustischer aktiver Quellen bzw. akustischer Signale. Insbesondere sind das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung zum Lokalisieren und Verfolgen akustischer aktiver Quellen im Straßenverkehr geeignet.
-
In Fahrzeugen kommen vermehrt Fahrerassistenzsysteme zum Einsatz und autonomes Fahren ist ein Entwicklungsschwerpunkt. Um solchen Fahrerassistenzsystemen, wie automatischer Kollisionswarnung, automatischem Bremsen oder automatischem Ausweichen und ähnlichen, aber auch Systemen für autonomes Fahren Daten über Position und/oder Geschwindigkeit von Objekten in der Umgebung eines Fahrzeugs bereitstellen zu können, werden Sensoren wie Kameras, LiDAR, Ultraschallsensoren und der gleichen eingesetzt.
-
Insbesondere die Verarbeitung von Bilddaten und die Ermittlung von Position und/oder Geschwindigkeit von Objekten daraus, sind sehr kompliziert und rechenaufwendig. Allgemein sind für die Bereitstellung und Verarbeitung von Daten bezüglich der Position und/oder Geschwindigkeit von Objekten insbesondere in Fahrzeugen im Straßenverkehr die Echtzeitfähigkeit und möglichst geringe vorbestimmte Annahmen von großer Bedeutung. Es muss möglich sein, das Verfahren echtzeitfähig auf gegebener Hardware von Fahrzeugen zu implementieren bzw. in bestehende Fahrzeuge zu integrieren. Daher darf zum einen das Verfahren keine zu rechenaufwändigen Algorithmen, wie z. B. maschinelles Lernen, beinhalten. Zum anderen dürfen keine Algorithmen verwendet werden, welche den gesamten Datensatz (alle Daten einer längeren Signalaufnahme) benötigen, um eine erfolgreiche Detektion oder Lokalisation durchzuführen. Zudem gilt, dass akustische Quellen, welche im Straßenverkehr auftreten, verschiedenste spezifische Eigenschaften besitzen. Zum Beispiel handelt es sich bei einer Sirene (Feuerwehr, Polizei, Krankenwagen)um ein schmalbandiges Signal. Das Motorengeräusch eines vorbeifahrenden Autos hat jedoch eine breitbandige Charakteristik. Bei dem Aufprall eines Autos hingegen handelt es sich um ein impulsives Geräusch. Diese Beispiele dienen nur der Veranschaulichung, wie divers die Eigenschaften der zu detektierenden und zu lokalisierenden Quellen sind. Weiterhin können sich diese Eigenschaften auch über die Zeit verändern. Aus diesen Gründen sollten keine Annahmen über die Eigenschaften der Quelle gemacht, sondern alle Informationen aus den aufgenommenen Daten inferiert werden. Genauso wie die Eigenschaften der Quellen sind auch die Eigenschaften der Störgeräusche sehr divers und können deshalb nicht ohne weiteres a priori modelliert werden. Besonders das Frequenzverhalten der Störungen hängt sehr stark von der konkreten Situation ab. Aus demselben Grund wie bei den Eigenschaften der Quellen sollten hier alle notwendigen Informationen direkt aus den Daten geschätzt werden.
-
Die vorliegende Erfindung löst daher die Aufgabe, ein Verfahren und eine Vorrichtung zum Lokalisieren und Verfolgen akustischer aktiver Quellen bzw. akustischer Signale bereitzustellen, die zuvor genannte Probleme löst oder zumindest abschwächt.
-
Diese Aufgabe wird durch das Verfahren gemäß Patentanspruch 1 sowie die Vorrichtung gemäß dem weiteren unabhängigen Anspruch gelöst. Vorteilhafte Weiterbildungen und Ausführungsformen der vorliegenden Erfindung sind Gegenstand der abhängigen Patentansprüche.
-
Die vorliegende Erfindung stellt ein Verfahren und eine Vorrichtung zur passiv akustischen Ortung von anderen Teilnehmern im Straßenverkehr bereit, wobei mehrere Mikrofone in mehreren Gruppen (Mikrofonarrays) planar in der Ebene angeordnet sind. Zudem ermöglicht die vorliegende Erfindung die Detektion von Zielen bzw. aktiven Quellen gegenüber Hintergrundgeräuschen durch eine spektrale Signatur und ein Mehrschwellenverfahren in Frequenz- und Zeitbereich.
-
Das erfindungsgemäße Verfahren zum Lokalisieren und Verfolgen akustischer aktiver Quellen, umfasst die folgenden Schritte:
- a) Aufnehmen von Schallsignalen mit mindestens zwei Mikrofonarrays bestehend aus jeweils mindestens zwei Mikrofonen, um aufgenommene Schallsignale zu erhalten.
- b) Transformieren der aufgenommenen Schallsignale in den Zeit-Frequenz-Bereich, um transformierte Schallsignale zu erhalten.
- c) Ermitteln von Detektionen in den transformierten Schallsignalen mittels eines Hypothesentests, um eine Teststatistik zu erhalten.
- d) Ermitteln von aktiven Quellen in der Teststatistik mittels eines binären Hypothesentests im Zeitbereich.
- e) Auswählen von Frequenzen in den transformierten Schallsignalen basierend auf der Amplitude der jeweiligen Frequenzen, um Quellenfrequenzen der aktiven Quellen zu erhalten.
- f) Schätzen von Phasenversätzen mit Hilfe der transformierten Schallsignale und der Quellenfrequenzen, um für jede aktive Quelle einen geschätzten Einfallswinkel zu erhalten.
- g) Gemeinsames Schätzen einer Position und einer Geschwindigkeit zumindest einer der aktiven Quellen der Quellenstatistik im Zustandsraum, wobei ein lineares Bewegungsmodell der aktiven Quelle angenommen wird und eine nichtlineare Funktion, welche die geschätzten Einfallswinkelspektren sowie Positionen und Geschwindigkeiten ins Verhältnis setzt, verwendet wird.
-
Das Verfahren ist insbesondere vorteilhaft für die Ermittlung von Gegenständen und Gefahren (wie z. B. Fußgänger, Fahrräder, Kraftfahrzeuge und weitere aktive oder passive Verkehrsteilnehmer) im Straßenverkehr anhand ihrer Schallsignale (Betriebsgeräusche, Warnsignale und dergleichen). Vor allem in Fahrerassistenzsystemen, wie Kollisionswarnung, automatischem Bremsassistenten, autonomem Fahren und dergleichen, von Fahrzeugen können die Informationen über ermittelte Gegenstände und Gefahren aus dem erfindungsgemäßen Verfahren verwendet werden.
-
Die mindestens zwei Mikrofonarrays sind in einem Abstand zueinander angeordnet. Dabei sind die Mikrofonarrays bevorzugt planar in einer Ebene angeordnet, die bevorzugt eine horizontale Ebene sein kann. Weiter können die Mikrofonarrays bevorzugt parallel zueinander ausgerichtet sein. Weiterhin bevorzugt sind die Mikrofonarrays in einem Abstand von 70 Zentimetern ([cm]) bis 90 [cm] und besonders bevorzugt in einem Abstand von 80 [cm] +/- 1 [cm] angeordnet. Durch den Abstand zwischen den Mikrofonarrays erreichen Schallwellen je nach der Position der Quelle, von der die Schallwellen ausgesendet wurden, zu unterschiedlichen Zeiten die einzelnen Mikrofonarrays. Aus diesem Laufzeitunterschied zwischen den Schallsignalen an den einzelnen Mikrofonen lässt sich der Einfallswinkel der Schallsignale von der Quelle relativ zu den Mikrofonarrays ermitteln. Hieraus lässt sich über das Prinzip der Triangulation die Position der Quelle ermitteln. Jedes Mikrofonarray muss aus mehreren Mikrofonen gebildet werden. Der Abstand der einzelnen Mikrofone eines Mikrofonarrays zueinander kann bevorzugt 4 [cm] +/- 0,5 [cm] betragen. Die einzelnen Mikrophone eines Mikrofonarrays können weiter bevorzugt in eine Ebene angeordnet und/oder parallel zueinander ausgerichtet sein. Die Anzahl der Mikrofone trägt zu der Präzision der Schallortung bei, wobei mit steigender Anzahl der Mikrophone eines Mikrofonarrays die Präzision der Ortung der Quelle der Schallsignale steigt.
-
Die aufgenommenen Schallsignale werden für die weitere Signalverarbeitung in den Zeit-Frequenz-Bereich transformiert. Die Transformation der aufgenommenen Schallsignale in den Zeit-Frequenz-Bereich erfolgt bevorzugt mittels einer schnellen Fourier-Transformation (Fast Fourier Transformation, FFT) .
-
Zur Diskriminierung der Detektionen der Schallquellen von Hintergrundgeräuschen wird eine Hypothese aufgestellt. Je nachdem, ob ein Schallsignal im Zeit-Frequenz-Bereich aufgrund seiner Frequenz den Hypothesentest besteht, wird eine Detektion erkannt. Der Hypothesentest wird mithilfe einer Teststatistik im Zeit-Frequenz-Bereich durchgeführt.
-
Die aktiven Quellen werden aus den Detektionen in der Teststatistik mit einem binären Hypothesentest ermittelt. Dabei werden zeitliche Häufungen von Detektionen als eine aktive Quelle identifiziert.
-
Aus den transformierten Schallsignalen wird basierend auf der Amplitude der jeweiligen Frequenzen jeweils nur die mindestens eine stärkste Frequenz jeder einzelnen der aktiven Quellen als deren mindestens eine Quellenfrequenz ausgewählt. Basierend auf den transformierten Schallsignalen und den ausgewählten Quellenfrequenzen wird der Phasenversatz bzw. der Laufzeitunterschied der Schallsignale der aktiven Quellen an den Mikrofonarrays abgeschätzt. Basierend auf dem geschätzten Phasenversatz bzw. Laufzeitunterschied wird für jede Quellenfrequenz und somit für jede aktive Quelle ein Einfallswinkel bezüglich jedem der Mikrofonarrays bestimmt.
-
Im Zustandsraum wird gemeinsam die Position und Geschwindigkeit (Zustand) jeder aktiven Quelle geschätzt, in dem für jede aktive Quelle ein lineares Bewegungsmodell angenommen wird. Diese linearen Bewegungsmodelle sind bei abhängig von der Abtastrate des Verfahrens hinreichend genau. Bevorzugt beträgt die Abtastrate mindestens 8000 Hertz ([Hz]). Es wird bevorzugt eine nichtlineare Funktion verwendet, um die Einfallswinkel der aktiven Quellen und die Zustände (Position und Geschwindigkeit) der einzelnen aktiven Quellen ins Verhältnis zu setzen. Somit kann für jeden Zeitschritt nur aus den aktuellen Daten und den Daten aus dem Zeitschritt davor gemeinsam die Position und die Geschwindigkeit, also der zustand jeder einzelnen aktiven Quelle geschätzt werden.
-
Es kann auch eine Aussage über die Unsicherheit der Schätzung der Position und der Geschwindigkeit (des Zustands) jeder aktiven Quelle getroffen werden. Diese Aussage kann für die weitere Verarbeitung in einem Fahrerassistenzsystem eines Fahrzeugs wie dem autonomen Fahren wichtig sein.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens umfasst der Schritt des Ermittelns von Detektionen folgende Schritte:
- c1) Schätzen der spektralen Leistungsdichte von Hintergrundgeräuschen in den transformierten Schallsignalen, um eine geschätzte spektrale Leistungsdichte zu erhalten.
- c2) Dividieren der transformierten Schallsignale durch die geschätzte spektrale Leistungsdichte, um die Teststatistik zu erhalten.
-
In einem Zeitraum ohne aktive Quellen wird aus den aufgenommenen Schallsignalen über eine vorgegebene Dauer die spektrale Leistungsdichte der Hintergrundgeräusche ermittelt und somit geschätzt. Die geschätzte spektrale Leistungsdichte wird abgespeichert und in den nachfolgenden Schritten weiterverwendet.
-
Die transformierten Schallsignale werden in die Teststatistik umgewandelt, indem die Schallsignale durch die geschätzte spektrale Leistungsdichte der Hintergrundgeräusche dividiert werden.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens wird im Schritt des Ermittelns von Detektionen eine maskierte Teststatistik ermittelt und dieser Schritt umfasst die die folgenden Schritte:
- c3) Schätzen eines Schwellwertes anhand der geschätzten spektralen Leistungsdichte, um einen ersten Schwellwert zu erhalten;
- c4) Ermitteln von Detektionen in der Teststatistik, wobei nur Amplitudenwerte in der Teststatistik, die größer oder gleich dem ersten Schwellwert sind, als Detektion gewertet werden und die übrigen Amplitudenwerte zu null gesetzt werden, um eine Binärmaske zu erhalten;
- c5) Durchführen einer morphologischen Filterung (S3.5) der ermittelten Detektionen der Binärmaske, um eine gefilterte Binärmaske zu erhalten;
- c6) Multiplizieren der Teststatistik mit der gefilterten Binärmaske (S3.6), um eine maskierte Teststatistik zu erhalten.
-
Basierend auf der geschätzten spektralen Leistungsdichte wird ein erster Schwellwert für Amplitudenwerte abgeschätzt und gespeichert.
-
In der Teststatistik werden nur Amplitudenwerte die größer oder gleich dem ersten Schwellwert sind als ermittelte Detektionen gewertet bzw. markiert woraus sich die Binärmaske ergibt. Die übrigen Amplitudenwerte werden zu null gesetzt.
-
Durch die morphologische Filterung oder ein Soft-Max-Verfahren werden nur Häufungen von Amplitudenwerten in der Binärmaske zu eins und alle anderen Amplitudenwerte, die nicht in Häufungen auftreten, gleich null gesetzt, sodass eine gefilterte Binärmaske entsteht. Dies dient der Vermeidung von Fehlern 1. Art und Fehlern 2. Art.
-
Die Teststatistik wird mit der Binärmaske multipliziert wodurch eine maskierte Teststatistik erhalten wird in der nur die Amplitudenwerte der Detektionen enthalten sind.
-
Zum einen wird dadurch die Teststatistik an Zeit-Frequenz-Punkten, welche sicher keine aktive Quelle darstellen, zu null gesetzt. Zum anderen wird bei Zeit-Frequenz-Punkten, welche potentiell zu einer aktiven Quelle gehören der Grad der Sicherheit erhalten ob es sich um eine Quelle handelt oder nicht. Diese Information ist für die nachfolgenden Schritte essentiell.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens umfasst der Schritt des Durchführens einer morphologischen Filterung mindestens einen der folgenden Schritte:
- c5.1) Durchführen einer morphologischen Öffnung, wobei Amplitudenwerte der ermittelten Detektionen der Binärmaske, die keine ermittelte Detektion in benachbarten Zeit-Frequenz-Punkten aufweisen, zu null gesetzt werden, um „morphologisch geöffnete Detektionen“ zu erhalten.
- c5.2) Durchführen einer morphologischen Schließung, wobei Amplitudenwerte der ermittelten Detektionen der Binärmaske, die ermittelte Detektionen in benachbarten Zeit-Frequenz-Punkten aufweisen, zu eins gesetzt werden, um „morphologisch geschlossene Detektionen“ zu erhalten.
-
Nur ermittelte Detektionen, die in einer gewissen Häufung bzw. über eine gewisse Zeitdauer hinweg, also mit einer gewissen Anzahl an benachbarten ermittelten Detektionen auftreten werden zu eins gesetzt. Vereinzelte ermittelte Detektionen werden zu null gesetzt. Somit können Störgeräusche und Artefakte vermieden werden. Dies hängt zum einen mit der Art der morphologischen Filterung zusammen. Zum anderen hängt es auch mit der Art des detektierten Schallsignals zusammen. Ein impulsives Signal (wie z. B. ein Klatschen) würde, obwohl es eine kurze Zeitdauer hat, nicht entfernt werden da es eine große Ausdehnung im Frequenzbereich besitzt. Ein reines Sinussignal, welches nur aus einer einzelnen Frequenz besteht, würde auch nicht zu null gesetzt werden, da es über eine lange Zeit aktiv ist.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens umfasst der Schritt des Ermittelns von aktiven Quellen folgende Schritte:
- d1) Projizieren der Teststatistik in den Zeitbereich, um eine projizierte Teststatistik zu erhalten.
- d2) Schätzen eines Schwellwerts anhand der projizierten Teststatistik, um einen zweiten Schwellwert zu erhalten.
- d3) Ermitteln von aktiven Quellen in der projizierten Teststatistik, wobei nur Werte in der projizierten Teststatistik, die größer oder gleich dem zweiten Schwellwert sind, als aktive Quellen gewertet werden und die übrigen Werte zu null gesetzt werden, um die aktiven Quellen zu erhalten.
-
Die Teststatistik bzw. die maskierte Teststatistik wird zurück in den Zeit-Bereich projiziert. Die Projektion in den Zeitbereich erfolgt indem die maskierte Teststatistik über die Frequenz summiert wird um eine Summenstatistik zu erhalten.
-
In der projizierten Teststatistik wird ein zweiter Schwellwert abgeschätzt und gespeichert. Der Schwellwert wird dabei so bestimmt, dass eine vorgegebene Schranke für eine Falschalarmrate eingehalten (d.h. nicht überschritten) wird.
-
Die Werte bzw. Amplitudenwerte in der projizierten Teststatistik, die nicht größer oder gleich dem zweiten Schwellwert sind, werden nicht als aktive Quellen gewertet und zu null gesetzt, so dass die Falschalarmrate die vorgegebenen Schranke nicht überschreitet.
-
Nach diesem Schritt ist es nun möglich zu ermitteln zu welchen Zeitpunkten mindestens eine akustische Quelle aktiv ist. Diese Information ist für die Lokalisation und Zielverfolgung notwendig, da nur eine Position und später eine Geschwindigkeit inferiert werden soll, falls auch eine akustische Quelle aktiv ist.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens umfasst der Schritt des Auswählens von Frequenzen folgende Schritte:
- e1) Multiplizieren der transformierten Schallsignale mit der Binärmaske, um maskierte Schallsignale zu erhalten.
- e2) Anwenden eines Peak-Detection-Verfahrens auf die maskierten Schallsignale, um die Quellenfrequenzen der aktiven Quellen zu erhalten.
-
Die transformierten Schallsignale werden in maskierte Schallsignale verarbeitet, indem die Binärmaske mit den transformierten Schallsignalen multipliziert wird.
-
Auf die maskierten Schallsignale wird ein Peak-Detection-Verfahren angewendet. Damit werden nur die Frequenzen mit den stärksten Amplituden herausgefiltert. Diese stellen jeweils zumindest eine der Quellenfrequenzen einer der aktiven Quellen dar.
-
Basierend auf den Quellenfrequenzen können die Richtungen, aus welcher Schallsignale der aktiven Quellen auf den Mikrofonarrays auftreffen, über Zeitverzögerungen (Laufzeitunterschiede) zwischen den einzelnen Mikrofonarrays geschätzt werden.
-
Gemäß einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens umfasst der Schritt des Schätzens von Phasenversätzen folgende Schritte:
- f1) Schätzen einer räumlichen Kovarianz für jede Quellenfrequenz, um geschätzte räumliche Kovarianzen zu erhalten.
- f2) Schätzen eines Einfallswinkelspektrums für jede Quellenfrequenz aus den geschätzten räumlichen Kovarianzen, um geschätzte Einfallswinkelspektren zu erhalten.
- f3) Bilden eines geometrischen Mittelwerts zwischen den geschätzten Einfallswinkelspektren, um jeweils ein einzelnes Einfallswinkelspektrum für jedes Mikrofonarray zu erhalten.
- f4) Extrahieren der stärksten Peaks aus den einzelnen Einfallswinkelspektren, um für jede aktive Quelle den geschätzten Einfallswinkel zu erhalten.
-
Es wird eine räumliche Kovarianz-Matrix, welche die Korrelation der einzelnen im Raum verteilten Mikrofone beschreibt (in Analogie zur zeitlichen Kovarianz, welche die Korrelation eines Signals über die Zeit beschreibt), für jede Quellenfrequenz geschätzt. Zur Schätzung der Kovarianz-Matrix wird die Stichprobenvarianz verwendet. Dies ist notwendig um die späteren Einfallswinkel der Quelle zu schätzen.
-
Basierend auf den geschätzten räumlichen Kovarianzen werden Einfallswinkelspektren für die aktiven Quellen geschätzt. Zum Schätzen der Einfallswinkel wird der MUSIC Algorithmus (Schmidt 1979) verwendet.
-
Aus den einzelnen Einfallswinkelspektren wird jeweils ein Einfallswinkelspektrum für jedes Mikrofonarray erzeugt, indem jeweils ein geometrischer Mittelwert aus den einzelnen Einfallswinkelspektren erzeugt wird.
-
Aus den einzelnen Einfallswinkelspektren, welche die Verteilung der Leistung über den Raumwinkel darstellen (in Analogie zum Spektrum, bei dem die Leistung über die Frequenz ermittelt wird, werden nur die stärksten Peaks, d.h. die Einfallswinkel mit der höchsten Leistungsdichte, herausgenommen. Aus den stärksten Peaks wird für jede aktive Quelle der geschätzten Einfallswinkel ermittelt.
-
Diese Schritte stellen die Grundvoraussetzung für die folgenden Schritte da, da die Einfallswinkel für die spätere Zielortung und -verfolgung notwendig sind.
-
Mit der vorliegenden Erfindung ist somit eine Richtungserkennung und Zielverfolgung dadurch möglich, dass der MUSIC-Algorithmus mit einem Kalman- oder Partikelfilter kombiniert wird.
-
Die verwendeten Verfahren wurden an die Anforderung zugeschnitten. Die geschieht insbesondere durch die Vorverarbeitung, welche im Gegensatz zu etablierten Verfahren, keinerlei Modellannahmen voraussetzt. Insbesondere betrifft dies die Detektion von aktiven Quellen, sowie die Ermittlung der aktiven Frequenzen, welche nicht a priori bekannt sein müssen, aber Grundlage für die weitere Verarbeitung sind.
-
Die erfindungsgemäße Vorrichtung zum Lokalisieren und Verfolgen von akustischen aktiven Quellen umfasst als Module mindestens zwei Mikrofonarrays, ein Zeit-Frequenz-Analyse-Modul, ein Detektionsmodul, ein Quellenmodul, ein Frequenzmodul, ein Winkelmodul und ein Verfolgungsmodul. Die mindestens zwei Mikrofonarrays bestehen aus jeweils mindestens einem Mikrofon und sind eingerichtet, um Schallsignale aufzunehmen. Das Zeit-Frequenz-Analyse-Modul ist eingerichtet, um die aufgenommenen Schallsignale in den Zeit-Frequenz-Bereich zu transformieren. Das Detektionsmodul ist eingerichtet, um Detektionen in den transformierten Schallsignalen mittels eines Hypothesentests zu ermitteln und um eine Teststatistik basierend auf den Detektionen zu erhalten. Das Quellenmodul ist eingerichtet, um aktive Quellen in der Teststatistik mittels eines binären Hypothesentests im Zeitbereich zu ermitteln. Das Frequenzmodul ist eingerichtet, um Frequenzen in den transformierten Schallsignalen basierend auf der Amplitude der jeweiligen Frequenzen auszuwählen und um Quellenfrequenzen der aktiven Quellen basierend auf den ausgewählten Frequenzen zu erhalten. Das Winkelmodul ist eingerichtet, um Phasenversätze mit Hilfe der transformierten Schallsignale und der Quellenfrequenzen zu schätzen und um für jede aktive Quelle einen geschätzten Einfallswinkel basierend auf den Phasenversätzen zu erhalten. Das Verfolgungsmodul ist eingerichtet, um eine Position und eine Geschwindigkeit zumindest einer der aktiven Quellen der Quellenstatistik im Zustandsraum gemeinsam zu schätzen, wobei ein lineares Bewegungsmodell der aktiven Quelle angenommen wird und eine nichtlineare Funktion, welche die geschätzten Einfallswinkelspektren sowie Positionen und Geschwindigkeiten ins Verhältnis setzt, verwendet wird.
-
Die Vorrichtung ist insbesondere vorteilhaft für die Ermittlung von Gegenständen und Gefahren (wie z. B. Fußgänger, Fahrräder, Kraftfahrzeuge und weitere aktive oder passive Verkehrsteilnehmer) im Straßenverkehr anhand ihrer Schallsignale (Betriebsgeräusche, Warnsignale und dergleichen). Vor allem in Fahrerassistenzsystemen, wie Kollisionswarnung, automatischem Bremsassistenten, autonomem Fahren und dergleichen, von Fahrzeugen können die Informationen über ermittelte Gegenstände und Gefahren aus dem erfindungsgemäßen Verfahren verwendet werden.
-
Die mindestens zwei Mikrofonarrays sind in einem Abstand zueinander angeordnet. Dabei sind die Mikrofonarrays bevorzugt planar in einer Ebene angeordnet, die bevorzugt eine horizontale Ebene sein kann. Weiter können die Mikrofonarrays bevorzugt parallel zueinander ausgerichtet sein. Weiterhin bevorzugt sind die Mikrofonarrays in einem Abstand von 70 Zentimetern ([cm]) bis 90 [cm] und besonders bevorzugt in einem Abstand von 80 [cm] +/- 1 [cm] angeordnet. Durch den Abstand zwischen den Mikrofonarrays erreichen Schallwellen je nach der Position der Quelle, von der die Schallwellen ausgesendet wurden, zu unterschiedlichen Zeiten die einzelnen Mikrofonarrays. Aus diesem Laufzeitunterschied zwischen den Schallsignalen an den einzelnen Mikrofonen lässt sich der Einfallswinkel Schallsignale von der Quelle relativ zu den Mikrofonarrays ermitteln. Hieraus lässt sich über das Prinzip der Triangulation die Position der Quelle ermitteln. Jedes Mikrofonarray muss aus mehreren Mikrofonen gebildet werden. Der Abstand der einzelnen Mikrofone eines Mikrofonarrays zueinander kann bevorzugt 4 [cm] +/- 0,5 [cm] betragen. Die einzelnen Mikrophone eines Mikrofonarrays können weiter bevorzugt in eine Ebene angeordnet und/oder parallel zueinander ausgerichtet sein. Die Anzahl der Mikrofone trägt zu der Präzision der Schallortung bei, wobei mit steigender Anzahl der Mikrophone eines Mikrofonarrays die Präzision der Ortung der Quelle der Schallsignale steigt.
-
Die aufgenommenen Schallsignale werden für die weitere Signalverarbeitung von dem Zeit-Frequenz-Analyse-Modul in den Zeit-Frequenz-Bereich transformiert. Die Transformation der aufgenommenen Schallsignale in den Zeit-Frequenz-Bereich erfolgt bevorzugt mittels einer FFT.
-
Zur Diskriminierung der Detektionen der Schallquellen von Hintergrundgeräuschen durch das Detektionsmodul wird eine Hypothese aufgestellt. Je nachdem, ob ein Schallsignal im Zeit-Frequenz-Bereich aufgrund seiner Frequenz den Hypothesentest besteht, wird eine Detektion erkannt. Aus den Detektionen wird eine Teststatistik im Zeit-Frequenz-Bereich erstellt.
-
Die aktiven Quellen werden von dem Quellenmodul aus den Detektionen in der Teststatistik mit einem binären Hypothesentest ermittelt. Dabei werden zeitliche Häufungen von Detektionen als eine aktive Quelle identifiziert.
-
Aus den transformierten Schallsignalen wird von dem Frequenzmodul basierend auf der Amplitude der jeweiligen Frequenzen jeweils nur die mindestens eine stärkste Frequenz jeder einzelnen der aktiven Quellen als deren mindestens eine Quellenfrequenz ausgewählt.
-
Basierend auf den transformierten Schallsignalen und den ausgewählten Quellenfrequenzen wird von dem Winkelmodul der Phasenversatz bzw. der Laufzeitunterschied der Schallsignale der aktiven Quellen an den Mikrofonarrays abgeschätzt. Basierend auf dem geschätzten Phasenversatz bzw. Laufzeitunterschied wird für jede Quellenfrequenz und somit für jede aktive Quelle ein Einfallswinkel bezüglich jedem der Mikrofonarrays bestimmt.
-
Im Zustandsraum wird gemeinsam die Position und Geschwindigkeit (Zustand) jeder aktiven Quelle von dem Verfolgungsmodul geschätzt, in dem für jede aktive Quelle ein lineares Bewegungsmodell angenommen wird. Diese linearen Bewegungsmodelle sind bei abhängig von der Abtastrate des Verfahrens hinreichend genau. Bevorzugt beträgt die Abtastrate mindestens 8000 Hertz ([Hz]). Es wird bevorzugt eine nichtlineare Funktion verwendet, um die Einfallswinkel der aktiven Quellen und die Zustände (Position und Geschwindigkeit) der einzelnen aktiven Quellen ins Verhältnis zu setzen. Somit kann für jeden Zeitschritt nur aus den aktuellen Daten und den Daten aus dem Zeitschritt davor gemeinsam die Position und die Geschwindigkeit, also der zustand jeder einzelnen aktiven Quelle geschätzt werden.
-
Es kann auch eine Aussage über die Unsicherheit der Schätzung der Position und der Geschwindigkeit (des Zustands) jeder aktiven Quelle getroffen werden. Diese Aussage kann für die weitere Verarbeitung in einem Fahrerassistenzsystem eines Fahrzeugs wie dem autonomen Fahren wichtig sein.
-
Die einzelnen Module der erfindungsgemäßen Vorrichtung können separate Datenverarbeitungseinrichtungen, wie z. B. Mikrocontroller (pC), integrierte Schaltungen, anwendungsspezifische integrierte Schaltungen (Application-Specific Integrated Circuit, ASIC), anwendungsspezifisches Standardprodukte (Application-Specific Standard Products, ASSP), digitale Signalprozessoren (DSP), im Feld programmierbare (Logik-)Gatter-Anordnung (Field Programmable Gate Arrays, FPGA) und dergleichen sein. Sie können gemeinsam auf einem oder auf mehreren solcher Datenverarbeitungseinrichtungen implementiert werden. Dabei können die einzelnen Module als Module eines Softwareprogramms ausgestaltet sein.
-
Die zuvor dargestellten Ausführungen bezüglich des erfindungsgemäßen Verfahrens gelten auch für die erfindungsgemäße Vorrichtung. So können alle Schritte des Verfahrens und der vorteilhaften Weiterbildungen des erfindungsgemäßen Verfahrens durch die erfindungsgemäße Vorrichtung bzw. durch die entsprechenden Module der erfindungsgemäßen Vorrichtung ausgeführt werden.
-
Die Erfindung betrifft ferner ein Fahrzeug das eine Vorrichtung wie zuvor beschrieben und zumindest ein Fahrerassistenzsystem umfasst. Die zumindest eine geschätzte Position und Geschwindigkeit zumindest einer der aktiven Quellen von der Vorrichtung wird an das Fahrerassistenzsystem übertragen.
-
Das Fahrerassistenzsystem, wie Kollisionswarnung, automatischer Bremsassistent, autonomes Fahren und dergleichen, kann aus den geschätzten Positionen und Geschwindigkeiten der aktiven Quellen Entscheidungen über die Unterstützung des Fahrers des Fahrzeugs treffen. So kann z. B. eine Warnung für den Fahrer oder ein automatisches Bremsen ausgelöst werden, wenn das Fahrzeug mit einer gewissen Geschwindigkeit einer aktiven Quelle zu nahe kommt.
-
Figurenliste
-
- 1 zeigt ein Ablaufdiagramm des erfindungsgemäßen Verfahrens.
- 2 zeigt eine schematische Darstellung der erfindungsgemäßen Vorrichtung in einem Fahrzeug.
-
AUSFÜHRLICHE BESCHREIBUNG DER FIGUREN
-
Die in den Figuren und deren Beschreibung dargestellten bevorzugten Ausführungsformen der vorliegenden Erfindung dienen lediglich dem besseren Verständnis der Erfindung, sind jedoch keinesfalls einschränkend auszulegen.
-
In 1 ist ein Verfahren 1 zum Lokalisieren und Verfolgen akustischer aktiver Quellen als Ablaufdiagramm dargestellt. Nach einer optionalen Initialisierung S0 des Verfahrens 1 erfolgt eine kontinuierliche Aufnahme S1 von Schallsignalen mit mindestens zwei Mikrofonarrays. Darauf erfolgt ein Transformieren der aufgenommenen Schallsignale S2 in den Zeit-Frequenz-Bereich und ein Ermitteln von Detektionen S3 in den transformierten Schallsignalen mittels eines Hypothesentests, wobei eine Teststatistik erstellt wird. In der Teststatistik erfolgt ein Ermitteln von aktiven Quellen S4 mittels eines binären Hypothesentests im Zeitbereich. Anschließend erfolgt ein Auswählen von Frequenzen S5 in den transformierten Schallsignalen basierend auf der Amplitude der jeweiligen Frequenzen. Daraus resultieren Quellenfrequenzen der aktiven Quellen. Mit Hilfe der transformierten Schallsignale und der Quellenfrequenzen erfolgt ein Schätzen von Phasenversätzen S6, um für jede aktive Quelle einen geschätzten Einfallswinkel zu erhalten. Schließlich erfolgt im Zustandsraum ein gemeinsames Schätzen einer Position und einer Geschwindigkeit (Zustand) S7 zumindest einer der aktiven Quellen der Quellenstatistik. Es wird dazu ein lineares Bewegungsmodell der aktiven Quelle angenommen und eine nichtlineare Funktion, welche die geschätzten Einfallswinkelspektren sowie Positionen und Geschwindigkeiten ins Verhältnis setzt, verwendet.
-
In 2 ist eine Vorrichtung 10 zum Lokalisieren und Verfolgen akustischer aktiver Quellen schematisch dargestellt. Von einer akustischen aktiven Quelle 11 in der Umgebung eines Fahrzeugs 12 mit zwei Mikrofonarrays 13 umfassend jeweils vier Mikrofone 14 werden Schallsignale 15 (z. B. Betriebsgeräusche, Warnsignale und dergleichen) ausgesendet. Die Schallsignale 15 werden von den Mikrofonen 14 der zwei Mikrofonarrays 13 aufgenommen. Die aufgenommenen Schallsignale werden in einem Lokalisierungs- und Verfolgungsmodul 16 des Fahrzeugs 12 ausgewertet. Das Lokalisierungs- und Verfolgungsmodul 16 kann in einer Datenverarbeitungsanlage des Fahrzeugs 12 wie z. B. in dem Steuergerät ausgeführt sein. In dem Lokalisierungs- und Verfolgungsmodul ist ein Zeit-Frequenz-Analyse-Modul 16.1, das die aufgenommenen Schallsignale der zwei Mikrofonarrays 13 empfängt, mit einem Detektionsmodul 16.2 verbunden. Das Detektionsmodul 16.2 ist mit einem Quellenmodul 16.3 verbunden, welches wiederum mit einem Frequenzmodul 16.4 verbunden ist. An das Frequenzmodul ist ein Winkelmodul 16.5 und an dieses ein Verfolgungsmodul 16.6 angeschlossen. Von den Modulen 16.1 bis 16.6 werden aus den aufgenommenen Schallsignalen eine Position und eine Geschwindigkeit der aktiven Quelle 11 ermittelt und an ein Fahrerassistenzsystem 17 weitergeleitet. Das Fahrerassistenzsystem 17 kann aus der geschätzten Position und Geschwindigkeit der aktiven Quelle 11 eine Entscheidung über die Unterstützung eines Fahrers des Fahrzeugs treffen. Es kann eine Warnung für den Fahrer oder ein automatisches Bremsen auslösen, wenn das Fahrzeug 12 mit einer gewissen Geschwindigkeit der aktiven Quelle 11 zu nahe kommt.
-
Bezugszeichenliste
-
- 1
- Verfahren
- 10
- Vorrichtung
- 11
- aktive Quellen
- 12
- Fahrzeug
- 13
- Mikrofonarray
- 14
- Mikrofon
- 15
- Schallsignale
- 16
- Lokalisierungs- und Verfolgungsmodul
- 16.1
- Zeit-Frequenz-Analyse-Modul
- 16.2
- Detektionsmodul
- 16.3
- Quellenmodul
- 16.4
- Frequenzmodul
- 16.5
- Winkelmodul
- 16.6
- Verfolgungsmodul
- 17
- Fahrerassistenzsystem
- S1
- Aufnehmen
- S2
- Transformieren der aufgenommenen Schallsignale
- S3
- Ermitteln von Detektionen
- S3.1
- Schätzen der spektralen Leistungsdichte
- S3.2
- Dividieren der transformierten Schallsignale
- S3.3
- Schätzen eines Schwellwertes
- S3.4
- Ermitteln von Detektionen
- S3.5
- Durchführen einer morphologischen Filterung
- S3.6
- Multiplizieren der Teststatistik mit der morphologisch gefilterten Binärmaske
- S4
- Ermitteln von aktiven Quellen
- S4.1
- Projizieren der Teststatistik
- S4.2
- Schätzen eines Schwellwerts
- S4.3
- Ermitteln von aktiven Quellen
- S5
- Auswählen von Frequenzen
- S5.1
- Multiplizieren der transformierten Schallsignale mit der Binärmaske
- S5.2
- Anwenden eines Peak-Detection-Verfahrens
- S6
- Schätzen von Phasenversätzen
- S6.1
- Schätzen einer räumlichen Kovarianz
- S6.2
- Schätzen eines Einfallswinkelspektrums
- S6.3
- Bilden eines geometrischen Mittelwerts
- S6.4
- Extrahieren der stärksten Peaks aus den einzelnen Einfallswinkelspektren
- S7
- Gemeinsames Schätzen einer Position und einer Geschwindigkeit