DE69324646T2

DE69324646T2 - Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme

Info

Publication number: DE69324646T2
Application number: DE69324646T
Authority: DE
Inventors: Gianni Lazzari; Maurizio Omologo; Piergiorgio Svaizer
Original assignee: Istituto Trentino di Cultura
Current assignee: Fondazione Bruno Kessler
Priority date: 1992-10-23
Filing date: 1993-10-18
Publication date: 1999-09-09
Anticipated expiration: 2013-10-19
Also published as: ITTO920855A0; DE69324646D1; ATE179542T1; ITTO920855A1; EP0594098B1; US5465302A; EP0594098A1; IT1257164B

Description

Gebiet der Erfindung

Die vorliegende Erfindung betrifft im allgemeinen Verfahren und Systeme zur Erfassung und Verarbeitung von akustischen Signalen, wie zum Beispiel die Verfahren und Systeme zum Detektieren, Lokalisieren und Rekonstruieren von akustischen Signalen. Typische Beispiele für die Anwendung von derartigen Systemen sind die Stimmerfassung und das Orten des Sprechers.

Beschreibung des Standes der Technik

Die Erfassung einer stimmlichen Botschaft zum Zweck der Erkennung, Codierung und Verifizierung des Sprechers etc. erfolgt herkömmlicherweise durch die Verwendung eines stationären ("am Kopf montierten") Mikrophons vor dem Sprecher oder eines ("handgehaltenen") Mikrophons, das der Sprecher in der Hand hält. Diese Vorrichtungen haben Nachteile, die mit dem niedrigen Signal/Geräusch-Verhältnis und mit der Abhängigkeit der Leistung des Systems von der Art und Weise, in der es verwendet wird (Entfernung zwischen Mund und Mikrophon, Schläge und Vibrationen etc.), zusammenhängen. Die Verwendung einer Gruppe von Mikrophonen kann einige dieser Probleme lösen und erleichtert auch die Interaktion zwischen dem Verwender und dem System.
Die technische Literatur der letzten zehn Jahre veranschaulicht verschiedene Beispiele für den Gebrauch von Mikrophongruppen zur Erfassung von stimmlichen Botschaften.
Es wird zum Beispiel auf die Artikel "Some Analyses of Microphone Arrays for Speech Data Acquisition" von H. F. Silverman, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-35, Nr. 12, Dezember 1987 und auf "Computer-steered Microphone Arrays for Sound Transduction in Large Rooms" von J. L. Flanagan, J. D. Johnston, R. Zahn, G. W. Elko, J. Acoust. Soc. Am., 78(5), November 1985, Seiten 1508-1518, verwiesen.
Die Erfassung von stimmlichen Botschaften mittels einer Gruppe von Mikrophonen wurde herkömmlicherweise unter Anwendung von Techniken erreicht, die typisch sind für die Verarbeitung von akustischen Signalen unter Wasser und von Radarsignalen, da es das Ziel ist, die Position der akustischen Quelle mittels mehrerer Sensoren, die über den Raum verteilt sind, festzustellen und dieses Wissen zu verwenden, um das Verhältnis zwischen brauchbaren Signalen und Nebengeräuschen zu verbessern.
Manchmal ermöglichen es diese Techniken, die aus der Quelle stammenden Informationen zu extrahieren, ohne eine Schnellbestimmung ihrer Positionen (zum Beispiel Strahlenbündelungstechniken, LMS-anpassungsfähiges Filtern: siehe zum Beispiel die Artikel "Time Delay Estimation Using the LMS Adaptive Filter-Static Behaviour" von F. A. Reed, P. L. Feintuch, N. J. Bershad, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-29, Nr. 3, Juni 1981 und "On Time Delay Estimation Involving Received Signals" von C. Y. Wuu, A. E. Pearson, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-32, Nr. 4, August 1976) zu Hilfe zu nehmen.
Das Problem der Lokalisierung einer akustischen Quelle unter Verwendung einer Mikrophongruppe ist im wesentlichen auf das Problem der Messung von Zeitverzögerungen zwischen den Signalen, die von verschiedenen Sensoren kommend erfaßt wurden, zurückzuführen. Wenn die relativen Verzögerungen, mit denen die Schallwelle die verschiedenen Mikrophone erreicht hat, bekannt sind, so kann die Kurve der ankommenden Wellenfront, die von der akustischen Quelle abgegeben wird, rekonstruiert und bis zu ihrem Mittelpunkt, wo die Quelle, die sie hervorgebracht hat, vermutet wird, zurückverfolgt werden.
Die am weitesten verbreitete Technik zur Abschätzung der relativen Verzögerung zwischen zwei Signalen basiert darauf, den Höchstwert der Kreuzkorrelation zu finden: siehe zum Beispiel die Artikel "An Algorithm for Determining Talker Location Using a Linear Microphone Array and Optimal Hyperbolic Fit" von H. F. Silverman, Proc. Speech and Natural Language Workshop DARPA, Juni 1990, Seiten 151 - 156 und "A Two-stage Algorithm for Determining Talker Location from Linear Microphone Array Data" von H. F. Silverman, S. E. Kirtman, Computer Speech and Language (1992) 6, Seiten 129 - 152.
Die Effizienz dieses Verfahrens wird jedoch stark vom Spektralumfang der in Frage stehenden Signale beeinflußt. Zum Beispiel wird im Fall eines Schmalbandsignals (wie zum Beispiel einer Pfeife) oder von Signalen hoher Periodizität (wie zum Beispiel von stimmlichen Lauten) die Abschätzung der Verzögerung schwierig oder sogar unmöglich, wenn Echos und Nachhall vorhanden sind: In diesen Fällen ist es am wirkungsvollsten zu versuchen, die nützlichsten Informationen zu extrahieren, um die Verzögerung und damit direkt die Phasenverzögerung abzuschätzen.
Die Phase der Detektion eines akustischen Ereignisses besteht darin, die von den Mikrophonen erfaßten Signale voraufzubereiten, um die akustisch signifikanten Zeitabschnitte, an denen im folgenden ein Schritt zur Lokalisierung der Quelle durchgeführt wird, zu bestimmen.
Im gewöhnlich auftretenden Fall von Quellen unbekannter und willkürlicher akustischer Ereignisse ist es unmöglich, a priori Vermutungen über die spektralen Merkmale der entsendeten Signale anzustellen, und das Detektionsverfahren kann nicht auf spezielle Signalmuster gestützt werden.
Die Charakterisierung in Hinblick auf die Stärke des akustischen Signals ist die direkteste und einfachste, die für die Durchführung des Detektionsverfahrens in Betracht gezogen werden kann: In Fällen, in denen das Signal/Geräusch-Verhältnis nicht zu gering ist, kann es ausreichen, feste oder einstellbare Schwellen (abhängig vom geschätzten Geräuschpegel) zu überwinden.
Wie oben gesagt, ermöglichen einige konventionelle Verfahren zur Verarbeitung von Signalen, die mit Hilfe von Mikrophongruppen erfaßt wurden, die Rekonstruktion eines optimalen Signals ohne vorhergehende Abschätzung der Position der akustischen Quelle; dieses Signal kann als gleichwertig mit der anfänglichen akustischen Botschaft erachtet werden, wobei alle unerwünschten akustischen Komponenten, die sekundären Quellen zuzuordnen sind, gedämpft werden.
Genauergesagt betrifft die vorliegende Erfindung ein Verfahren gemäß dem kennzeichnenden Teil des Anspruchs 1, welches zum Beispiel aus US-A-4 982 375 bekannt ist. Auch US-A-4 562 556 ist für die Erfindung von einigem Interesse.

Ziele und Zusammenfassung der Erfindung

Ziel der vorliegenden Erfindung ist die Schaffung eines Verfahrens und Systems zur Erfassung und Verarbeitung von zu einem akustischen Ereignis gehörenden akustischen Signalen, welche es ermöglichen, die obigen Nachteile hinsichtlich des Standes der Technik zu beseitigen oder wenigstens zu mildern.
Gemäß der vorliegenden Erfindung wird dieses Ziel mittels eines Verfahrens erreicht, dessen weitere Merkmale im kennzeichnenden Teil des Anspruchs 1 aufgezeigt sind.
Genauergesagt besitzt die erfindungsgemäße Lösung Merkmale hinsichtlich Wirksamkeit, Rechengeschwindigkeit, Genauigkeit und Unempfindlichkeit gegenüber Störungen, die Systemen vom Stand der Technik überlegen sind. Derartige Lösungen können für die Erfassung einer stimmlichen Botschaft oder anderer Arten von akustischen Ereignissen sowie deren Lokalisierung verwendet werden.
Die vorliegende Erfindung sieht die Verwendung von wenigstens einer Mikrophongruppe in einem System vor, was die verbesserte Erfassung einer allgemeinen akustischen Botschaft in einer lauten Umgebung ermöglicht.
Die vorliegende Erfindung bietet auch die Möglichkeit, aus den Signalen, die mittels der Mikrophongruppe erfaßt wurden, extrahierte Informationen zu verarbeiten, wobei auch die Lokalisierung des Sprechers oder der akustischen Quelle, von denen die Botschaft kommt, ermöglicht wird.
Sowohl die Detektion als auch die Lokalisierung der Botschaft erfolgen auf neuartige Weise unter Verwendung der Phaseninformationen, die im normalisierten Querspektrum (geschätzt mittels einer schnellen Fourier-Transformante oder FFT) vorhanden sind, relativ zu von einem Paar Mikrophonen in der Gruppe erfaßten Signalen.
Die sukzessive Ableitung einer neuen Version der Botschaft, die, betrachtet vom Standpunkt des Verhältnisses zwischen brauchbarem Signal und Umgebungsgeräusch, relativ zu den einzelnen, jedem Mikrophon in der Gruppe zugeordneten Erfassungen, verbessert ist, wird auf Basis der während der Phase, in welcher die Botschaft selbst detektiert und lokalisiert wird, erhaltenen Informationen durchgeführt: Verwendet man noch einfach eine lineare Kombination der zweckmäßig verzögerten Signale aus den Mikrophonen in der Gruppe, so unterscheidet sich dieses Verfahren der Signalrekonstruktion somit auch durch die Originalität, mit der die Informationen betreffend der Phasendivergenz zwischen den über die verschiedenen Mikrophone in der Gruppe erfaßten Signalen verwendet werden.
Unter dem Begriff "Gruppe von Mikrophonen" ist in der vorliegenden Beschreibung und in den folgenden Ansprüchen eine Vorrichtung zu verstehen, die aus einer Mehrzahl von Mikrophonen zusammengesetzt ist, welche vorzugsweise in alle Richtungen wirken und in Bezug zueinander und in regelmäßigen Abständen zueinander ausgerichtet sind. Obwohl es in der nachfolgenden Beschreibung nicht ausdrücklich erwähnt wird, ist es in allen Fällen auch möglich, die Erfindung mit anderen Arten von Mikrophonen, die auf andere Weise räumlich angeordnet sind, durchzuführen: zum Beispiel in der im Artikel "An Approach of Dereverberation Using Multi-Microphone Sub-Band Envelope Estimation" von H. Wang und F. Itakura, Proc. IEEE Int. Conf. on Acoust. Speech Signal Processing, Mai 1991, Seiten 953-956, beschriebenen Weise.
Es versteht sich von selbst, daß der Ausdruck "Mikrophon", wie er im vorliegenden Zusammenhang verwendet wird, im allgemeinen alle mechanisch-elektrischen Wandler, die ein akustisches Schwingphänomen (wozu die Ultraschalltöne zählen) in ein verarbeitbares elektrisches Signal verwandeln können, umfaßt.
Es ist somit zu erkennen, daß die Mikrophone an ein Analog-Digital-Umwandlungssystem, welches in einer genügend hohen Abtastfrequenz (zum Beispiel 24 - 48 kHz) synchron zwischen den verschiedenen Kanälen funktioniert, angeschlossen sind.
Speziell wird in der vorliegenden Beschreibung auf eine Ausführungsform, bei der vier Mikrophone verwendet werden, Bezug genommen, obwohl theoretisch drei ausreichen würden, um die Quelle zu lokalisieren; eine größere Anzahl an Mikrophonen kann jedoch sicherstellen, daß das System besser funktioniert.
Das unten beschriebene Verfahren bezieht sich insbesondere auf das Verarbeiten von akustischen Botschaften, wobei es aus einem vorläufigen Detektieren des Ereignisses selbst, der genauen Lokalisierung der Position, in der das Ereignis erzeugt wurde, und schließlich einer fakultativen Rekonstruktion einer Version der ursprünglichen Botschaft, die von Lärm- und Nachhallkomponenten etc. gereinigt wurde, besteht. Auf diese Weise ist es möglich, die Verwendung des Moduls zum Lokalisieren und/oder das Detektieren des akustischen Ereignisses in Betracht zu ziehen, unabhängig von der Tatsache, daß die Botschaft dann zum Zweck der Codierung und Stimmerkennung in eine Version von optimaler Qualität verwandelt werden muß.
Somit ist anzunehmen, daß das erfindungsgemäße Verfahren und System gut funktionieren bei Geräuschen, die ihren Ursprung in einem räumlich beschränkten Bereich haben und deren entsprechende akustische Druckwelle besondere Richtcharakteristika aufweist, im Gegensatz zu Hintergrundgeräusch, von dem angenommen wird, daß es sich beinahe gleichmäßig in der Umgebung ausbreitet.
Somit berücksichtigt die vorliegende Beschreibung nicht jene Fälle, in denen Sprecher (oder allgemeine akustische Quellen) gleichzeitig Botschaften aussenden, welche eine vergleichbare Dynamik besitzen und für welche das beschriebene Verfahren (auf bekannte Weise) in Verfahren zur Trennung der Quellen integriert würde.
In einer besonders vorteilhaften Ausführungsform sieht die vorliegende Erfindung die Verwendung einer Technik zur Abschätzung von Phasenverzögerungen vor, so wie jene, die in dem Artikel "The Generalized Correlation Method for Estimation of Time Delay" von C. H. Knapp, G. C. Carter, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP- 24, Nr. 4, August 1976, beschrieben ist und die zuvor niemals auf diesem Gebiet der akustischen Analyse verwendet wurde.
Eine derartige Technik verwendet die Fourier-Antitransformante einer Version des Querspektrums der zwei Signale, bei welcher nur die Phaseninformationen beibehalten werden. Somit werden die Amplitudeninformationen, welche für die Messung der Verzögerungen irrelevant sind, wenn das Signal/Geräusch-Verhältnis groß genug ist, aus dem Querspektrum der Signale entfernt.
Die Anwendung auf echte, in einer nachhallenden Umgebung erfaßte Signale hat gezeigt, daß die Wirksamkeit dieses Verfahrens zu einem Großteil unabhängig von der Art der zu lokalisierenden Quelle ist (Stimme, Pfeifen, Explosionen, verschiedene Arten von Geräuschen). Man kann außerdem Signale richtungsabhängiger Natur von anderen akustischen Phänomenen anderer Art (Hintergrundgeräusch, Nachhall, Resonanz) unterscheiden, auch wenn sie dieselbe Intensität aufweisen. Die Kosten für die Berechnung sind vergleichbar mit jenen für die leistungsfähigsten Kreuzkorrelations-Analysen und geringer als jene für andere auf adaptives Filtern basierende Schätzfunktionen für Verzögerungen.
Die vorliegende Erfindung schlägt somit ein neuartiges Detektionsverfahren vor, basierend auf einer Kohärenzfunktion zwischen Signalpaaren, die eine Schwelle überschreiten, wobei dieselbe Funktion auch in der nachfolgenden Lokalisierungsphase verwendet wird. Eine derartige Funktion stellt eine zuverlässige Anzeige für das Vorhandensein eines akustischen Ereignisses von einer Zeitdauer, die auch sehr kurz ist und offensichtlich Richtcharakteristika aufweist, dar.
Weiters schlägt die Erfindung ein Verfahren vor, welches die Rekonstruktion eines optimalen Signals ermöglicht, wie zum Beispiel von linearen Kombinationen jener Signale, die mit Mikrophonen erfaßt wurden und gemäß der Abschätzung der Position der vom Ortungsmodul versorgten Quelle (oder der Verzögerungen zwischen den verschiedenen Paaren) außer Phase gebracht wurden.
Das erfindungsgemäße Verfahren und System kann hauptsächlich für die Erfassung einer gesprochenen Botschaft in einer geräuschvollen Umgebung verwendet werden, ohne daß der Sprecher die Botschaft vor einem Mikrophon sprechen muß. Wenn die Erfassungsumgebung laut ist und nachhallt, wird die Botschaft von einigen der unerwünschten Komponenten gereinigt. Die auf diese Weise erfaßte Botschaft kann dann einem Codiersystem (für Telekonferenzen oder stimmliche Botschaften) oder einem Stimmerkennungssystem zugeführt werden.

Detaillierte Beschreibung der Erfindung

Weitere Vorteile und Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung ersichtlich, welche nur anhand eines nicht einschränkenden Beispiels und unter Bezugnahme auf die beigefügten Zeichnungen angegeben ist, und worin:
- Fig. 1 schematisch die Betriebsbedingungen des Systems gemäß der vorliegenden Erfindung darstellt,
- Fig. 2 ein schematisches Blockdiagramm des Systems gemäß der vorliegenden Erfindung ist,
- Fig. 3 ein schematisches Blockdiagramm eines Teils des Systems gemäß der vorliegenden Erfindung ist, und
- Fig. 4 ein schematisches Blockdiagramm eines Blocks von dem in Fig. 3 dargestellten Teil des Systems ist.
Fig. 1 stellt schematisch eine Umgebung dar, in welcher das System funktioniert. Die akustische Quelle (Sprecher, allgemeine Lautquellen etc., das heißt, das zu detektierende akustische Ereignis) ist als AS angegeben, während die Mikrophongruppe aus vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;, die als an einer X-Achse ausgerichtet dargestellt sind, besteht.
Die relativen Positionen der Mikrophone und der akustischen Quelle sind in Form von Koordinaten in einer kartesischen Ebene x, y ausgedrückt. Die akustische Quelle AS sendet Wellenfronten aus, die zu verschiedenen Zeitpunkten und auf verschiedene Arten an verschiedenen Orten in dem räumlichen Bereich, in welchem sie verteilt werden, detektiert werden, wobei es die Mikrophone in der Gruppe P&sub0;, P&sub1;, P&sub2;, P&sub3; ermöglichen, daß sich die Funktionen des Systems an verschiedenen Stellen entwickeln.
Fig. 2 zeigt das allgemeine Diagramm des Systems. Die Signale werden unter Verwendung von vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3; erfaßt, die in alle Richtungen wirken und mit gleichmäßigen Zwischenräumen zueinander relativ (zum Beispiel ein 15 cm großer Abstand zwischen zwei nebeneinander liegenden Mikrophonen) angeordnet sein sollen und die mit vier Analog-Digital-Umwandlen A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;, die mit einer gegebenen Abtastfrequenz Fc von zum Beispiel 48 kHz arbeiten, verbunden sind. Die vier Ausgänge dieser Erfassungsmodule, bezeichnet mit S&sub0;, S&sub1;, S&sub2;, S&sub3; (Si worin i = 0, ..., 3), sind mit einem Verarbeitungsmodul, das in der Regel mit RLR bezeichnet ist, verbunden (Detektion der Ereignisse, Lokalisierung der Quelle und Rekonstruktion des Signals).
Fig. 3 zeigt das Funktionsblockdiagramm des Moduls RLR. Am Eingang erhält das Modul RLR alle Signale Si (worin i = 0, ..., 3); die Ausgänge dieses Moduls bestehen aus einem Koordinatenpaar X und Y (falls notwendig, mit einer winkelförmigen Koordinate θ, welche die Richtung der Quelle AS identifiziert), aus einem Detektionsindex d und einem rekonstruierten Signal RS.
Im folgenden werden die Module, die das Modul RLR bilden, und die Operationen, die sie ausüben, um die Ausgänge zu erhalten, beschrieben.
In der Praxis kann das Modul RLR von einer elektronischen Verarbeitungsvorrichtung wie zum Beispiel einem Minicomputer oder von einem speziell für diese Aufgabe programmierten Spezialprozessor gebildet sein. Die Kriterien für die Herstellung, Programmierung und Verwendung von derartigen Computern und/oder Prozessoren sind beim derzeitigen Stand der Technik gut bekannt und müssen daher hier nicht beschrieben werden.
Das Modul RLR umfaßt eine erste Reihe von Modulen EST&sub0;, EST&sub1;, EST&sub2;, EST&sub3; (ESTi, worin 1 = 0, ..., 3), welche die jeweils am Eingang erhaltenen Signale S. (von den Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;) in numerische Abtastrahmen umwandeln und außerdem die Fenster für die erhaltenen Rahmen anordnen. Der Ausgang der Module EST besteht somit aus den Rahmen, die mit x&sub0;, x&sub1;, x&sub2; bzw. x&sub3; (xi, worin i = 0, ..., 3) bezeichnet werden.
Eine zweite Modulreihe, die mit CFFT&sub0;, CFFT&sub1;; CFFT&sub2;, CFFT&sub3; (CFFTi, worin i = 0, ..., 3) bezeichnet ist und deren Eingänge mit den jeweiligen Ausgängen der Module ESTi verbunden sind, führt für alle Rahmen die Berechnung der schnellen Fourier-Transformante (oder FFT) aus - oder gegebenenfalls einer anderen integralen Transformante. Die Ausgänge der Module CFFTi, worin i = 0, ..., 3, werden mit X&sub0;, X&sub1;, X&sub2; bzw. X&sub3; (Xi, worin i = 0, ..., 3) bezeichnet.
Eine dritte Modulreihe, die mit CS&sub1;, CS&sub2;, CS&sub3; (CSi, worin i = 1, ..., 3) bezeichnet ist, berechnet zwischen Rahmenpaaren die Querspektra oder die normalisierten Quer- (Leistungs)spektra, die unter Anwendung einer FFT (schnellen Fourier-Transformante) geschätzt werden. Jedes der Module CSi empfängt nämlich als Eingang die Ausgänge zweier Module der vorhergehenden Reihe, das heißt, der Module CFFTi. Insbesondere empfängt jedes Modul CSi als Eingang den Ausgang Xi des entsprechenden Moduls CFFTi und dann den Ausgang X&sub0; des Moduls CFFT&sub0;.
Auf diese Art berechnen die Module CSi das normalisierte Querspektrum der Rahmenpaare (X&sub0;, X&sub1;), (X&sub0;, X&sub2;), (X&sub0;, X&sub3;), extrahiert aus den Signalen S&sub0;, S&sub1;, S&sub2;, S&sub3;. Die Module CSi berechnen außerdem die inversen FFTs der normalisierten Querspektra. Die Ausgänge der Module CSi bestehen jeweils aus den Signalen C&sub1;, C&sub2;, C&sub3; (Ci, worin i = 1, ..., 3).
Eine vierte Modulreihe, die mit ICM&sub1;, ICM&sub2;, ICM&sub3; (ICMi, worin i = 1, ..., 3) bezeichnet ist, interpoliert die auf diese Weise erhaltenen Signale C&sub1;, C&sub2;, C&sub3; und sucht nach deren zeitlichen Höchstwerten. Die Ausgänge der Module ICM; sind durch die Signalpaare M&sub1; und δ&sub1;, M&sub2; und δ&sub2;, M&sub3; und δ&sub3; vorgesehen.
Ein Modul RIL führt die Detektionsfunktion auf Basis der Signale M&sub1;, M&sub2;, M&sub3; aus. Der Ausgang des Moduls RIL ist das Signal d.
Ein Modul LOC führt die Lokalisierungsfunktion aus, das heißt, die Bestimmung der Richtung θ, aus der die Wellenfront ankommt, und die Berechnung der Koordinaten (X, Y) der Quelle. Das Modul LOC funktioniert auf Basis der Signale δ&sub1;, δ&sub2;, δ&sub3; und entsendet das Signal θ und das Koordinatenpaar X, Y am Ausgang.
Ein Modul RIC führt die Rekonstruktionsfunktion aus, das heißt die Konstruktion einer neuen Version der akustischen Botschaft, dargestellt durch das am Ausgang RS entsendete Signal. Das Modul RIC funktioniert auf Basis der Eingangssignale δ&sub1;, δ&sub2;, δ&sub3; und S&sub0;, S&sub1;, S&sub2;, S&sub3;.
Die verschiedenen das erfindungsgemäße System bildende Module und die Operationen, die sie ausüben, werden nun genauer Modul für Modul beschrieben.

Module ESTi

Für jedes Signal S extrahiert jedes Modul ESTi die jeweiligen Rahmen xi einer Länge tf ms entsprechend N Abtastwerten, mit einem Anlayseabstand von ta ms. Jeder Rahmen wird dann mit einem Blackman-Fenster gewichtet, wie in der in "Digital Signal Processing" von A. V. Oppenheim, R. W. Schafer, Prentice Hall 1975, beschriebenen Methode definiert. Die Verwendung des Blackman-Fensters hat sich als für die Zwecke der vorliegenden Erfindung wirksamer als die Verwendung eines herkömmlichen Hamming-Fensters erwiesen.

Module CFFTi

Die Module CFFTi empfangen als Eingang die Rahmen xi von N Abtastwerten, extrahiert aus den Signalen 5 und gewichtet wie oben beschrieben. Die Rahmen werden dann einer FFT unterzogen, um eine komplexe Sequenz i von N Abtastwerten zu erhalten. Eine mögliche Berechnung der FFT ist zum Beispiel in dem oben angeführten Artikel von Oppenheim beschrieben. Die beschriebene Ausführungsform ist so aufgebaut, daß Fc = 48 kHz, N = 1024 (und infolgedessen tf = 21,33) und ta = tf/2 = 10,66. Es ist zu erkennen, daß die obigen Werte nicht in einem streng einschränkenden Sinn zu verstehen sind. Dennoch zeigen sie die entsprechenden Größenordnungen, nach denen derartige Parameter ausgewählt werden, an.

Module CSi

In der Praxis umfassen alle Module CSi drei Submodule, die zum besseren Verständnis in Fig. 4 gezeigt sind.
Ein erstes Submodul X-SP berechnet das Querspektrum eines Paares von komplexen Sequenzen X&sub0;, Xi. Ein zweites Submodul NORM normalisiert das oben angeführte Querspektrum, das vom Submodul X-SP, welches einen komplexen Vektor Yi am Ausgang erzeugt, berechnet wird. Schließlich führt ein drittes Submodul CFFT&supmin;¹ eine inverse FFT des Vektors Yi aus.
Diese oben kurz beschriebenen Operationen werden nun genauer beschrieben, insbesondere in Hinblick auf den mathematischen Aspekt.
Für jedes Analysemoment t wird der Vektor j von N Komponenten pro Sequenzpaar (X&sub0;, X&sub1;), (X&sub1;, X&sub2;), (X&sub2;, X&sub3;) berechnet und definiert als:
j = FFT&supmin;¹ [ j]
wobei, wenn j = 1, 2, 3, die 1-te generische komplexe Komponente des Vektors j definiert ist als:
worin j* den konjugierten komplexen Vektor des Vektors j bezeichnet.
Die Komponenten ρj(i) des Vektors j drücken einen Kohärenzfaktor zwischen den ursprünglichen Signalrahmen, wenn die relative Verzögerung τi gleich i Abtastintervallen ist, aus. Eine positive Verzögerung k/Fc entspricht der k-ten allgemeinen Komponente der ersten Hälfte des Vektors (Komponenten von Index 0 zu Index N/2-1); eine negative Verzögerung (oder Vorlauf) gleich (N - k)/Fc entspricht der k-ten allgemeinen Komponente der zweiten Hälfte des Vektors (Komponenten von Index N/2 zu Index N-1).
Unter idealen Bedingungen, bei denen die zwei Signale abgesehen von einem Skalenfaktor und einer Verzögerung τ&sub0;, die gleich einer ganzen Anzahl von Abtastintervallen sind, gleich sind, würde eine Sequenz j, bestehend aus einem an der der Verzögerung τ&sub0; entsprechenden Komponente zentrierten Impuls, erhalten. In der Praxis kann ρj(i) ausgelegt werden als Kohärenzindex zwischen dem Rahmen x&sub0; und dem Rahmen, der erhalten wird, wenn xj von einer Anzahl von der Verzögerung τi = i/Fc entsprechenden Abtastwerten außer Phase gebracht wird, oder im Fall einer stationären akustischen Quelle als Kohärenzindex zwischen dem Signal S&sub0; und dem durch τj außer Phase gebrachten Signal Sj. Die Komponenten des Vektors werden zwischen 0 und 1 normalisiert. Wie oben definiert, führt die Analyse, die jede ta ms an den Rahmen durchgeführt wird, zur Bestimmung von drei Kohärenzfunktionen C&sub1;(t, τ), C&sub2;(t, τ), C&sub3;(t, τ), die zu jedem Zeitpunkt t = n.ta aus den Vektoren &sub1;, &sub2; bzw. &sub3; bestehen.

Module ICMi

Um die oben erwähnten Kohärenzinformationen deutlicher zu machen, wird jeder Vektor j in den Modulen ICM mittels einer Interpolations- und Filteroperation neu verarbeitet. Auf diese Weise kann die Abschätzung der Verzögerung zwischen zwei Signalen genauer erfolgen.
In der Praxis wird als Ergebnis der auf den Vektor j angewandten Funktion Cj(t, τ) zu jedem Zeitpunkt t = n.ta einer Operation (beschrieben zum Beispiel im Artikel "Optimum FIR Digital Filter Implementation for Decimation, Interpolation and Narrow Band Filtering" von R. E. Crochiere, L. R. Rabiner, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-23, Nr. 5, Seiten 444-456, Oktober 1975) eine neue Kohärenzfunktion C'j(t, τ') erhalten, in welcher die diskrete Variable τ' eine größere Auflösung als die diskrete Variable τ besitzt.
Es wird dann zu jedem Zeitpunkt t = n.ta für jede Kohärenzfunktion C'j (t, τ') eine Suche nach dem Höchstwert der Funktion selbst durchgeführt, wenn die Verzögerung τ' variiert (in der Praxis drückt die Position dieses Höchstwertes die Phaseninformationen, die in den oben berechneten Querspektra vorliegen, aus). Der Höchstwert dieser Funktion, wenn τ' variiert, ist als Mj(t) definiert, und wenn j = 1, 2, 3:
Mj(t) = max C'j(t, τ')
τ'
und die dementsprechende Verzögerung τ'ssx als δj(t) definiert ist.
Modul RIL: Detektion
Die Detektion des akustischen Ereignisses basiert zu jedem Zeitpunkt t auf den Werten M&sub1;(t), M&sub2;(t), M&sub3;(t). Ein Detektionsindex d(t) wie
d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]
wird von diesen Funktionen abgeleitet.
Immer wenn dieser Index einen empirisch vordefinierten Schwellenwert Sd überschreitet, zum Beispiel ist in der vorliegenden Ausführungsform der Aufbau so, daß Sd = 0,7, so wird ein akustisches Ereignis als ausgelöst betrachtet. Das Ereignis wird als beendet betrachtet, wenn der Index wieder unter diesen Schwellenwert fällt.

Modul LOC: Lokalisierung

Der Lokalisierungsschritt der akustischen Quelle wird in jedem zeitlichen Abstand, in dem die Detektion ein positives Ergebnis gebracht hat (siehe Fig. 1), durchgeführt.
Zu jedem Zeitpunkt t kann der Wert δj(t) in die Richtung, in der die Wellenfront eintraf, zurückgebracht werden, bezüglich des Zentrums des Mikrophonpaares (0, j): diese Richtung kann winkelmäßig wie folgt ausgedrückt werden:
θj(t) = arccos (νδj(t)/dj)
wobei v die Schallgeschwindigkeit und dj der Abstand zwischen dem Mikrophon P&sub0; und dem Mikrophon Pj ist. Für jeden Zeitpunkt t wird eine Richtung θj(t) entsprechend der Verzögerung δj(t) jedem Mikrophonpaar (0, j) zugeordnet.
Diese Modellierung basiert auf der Annahme, daß die akustische Druckwelle die Gruppe in Form einer flachen Welle erreicht hat. Für den Fall, daß die Quelle einen kurzen Abstand von der Gruppe entfernt ist, gilt die Annahme nicht mehr.
In diesem Fall, welcher jener ist, in dem die beschriebene Ausführungsform verwendet wird, stellen die möglichen Punkte, die das betreffende akustische Ereignis verstärken können, grafisch einen Ast einer Hyperbel dar, die ihren Brennpunkt in der Position einer der beiden Mikrophone hat. Die Verwendung von vier Mikrophonen und somit von drei Paaren ermöglicht die Bestimmung von drei Ästen einer Hyperbel, deren Schnittpunkte die Fläche, innerhalb welcher sich die Quelle befinden sollte, begrenzen.
Das folgende Verfahren wird zur Berechnung des Schnittpunktes zwischen zwei Ästen einer Hyperbel, zum Beispiel entsprechend den Paaren (0, 1) und (0, 2), verwendet.
Sind die Koordinaten der Mikrophone 0, 1, 2 als P&sub0;, P&sub1;, P&sub2; entlang der Achse der Gruppe gesetzt und die von jedem Paar geschätzten Verzögerungen als δ&sub0;&sub1; und δ&sub0;&sub2; bezeichnet, so sind die Koordinaten des Schnittpunktes wie folgt angegeben:
Die Koordinaten xp13, yp13, xp23, yp23 der Schnittpunkte zwischen den anderen beiden Astpaaren einer Hyperbel werden auf ähnliche Weise bestimmt.
Die Koordinaten (x, y) der akustischen Quelle werden von diesen drei Punkten als Baryzentrum des Dreiecks, von dem sie die Scheitelpunkte bilden, abgeleitet.

Modul RIC: Rekonstruktion

Die Rekonstruktion der Signale auf Basis der Signale s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) und der Verzögerungen δ&sub1;(t), δ&sub2;(t) bzw. δ&sub3;(t) zwischen den Signalpaaren (0, 1), (0, 2), (0, 3) basiert auf einer Modellierung des erwünschten Signals auf folgende Art:
s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))
Bei Verwendung dieser Modellierung kann die Gruppe zu jedem Zeitpunkt auf die Position, die aus den gegebenen Verzögerungen ermittelt wurde, "gelenkt" werden.
Es ist zu erkennen, daß, während das Prinzip der Erfindung dasselbe bleibt, die Details des Aufbaus und der Arten der Ausführungsform in Bezug auf jene, die beschrieben und dargestellt wurden, stark variieren können, ohne dabei von dem durch die angefügten Ansprüche definierten Rahmen der vorliegenden Erfindung abzuweichen.

Claims

1. Verfahren zur Erfassung und Verarbeitung von akustischen Signalen, die zu einem akustischen Ereignis, das sich in einem gegebenen räumlichen Bereich manifestiert, gehören, umfassend die Schritte:

- des Erfassens der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) an einer Mehrzahl von verschiedenen Punkten (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in dem räumlichen Bereich,

- des Erzeugens von Signalen (Y&sub1;, Y&sub2;, Y&sub3;), die Querspektra für eine Mehrzahl von Paaren (S&sub0;, S&sub1;; S&sub0;, S&sub2;; S&sub0;, S&sub3;) dieser akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) anzeigen, aus diesen akustischen Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),

dadurch gekennzeichnet, daß es die Schritte

- des Erzeugens der Signale (Y&sub1;, Y&sub2;, Y&sub3;) als Signale, die die normalisierten Querspektra für die Mehrzahl von Paaren der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) anzeigen, wobei die Phaseninformationen, die in den Querspektra zum Zweck der Erfassung und/oder Verarbeitung vorhanden sind, extrahiert werden und

- des Lokalisierens des akustischen Ereignisses zu jedem Zeitpunkt auf Basis von Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;), die berechnet werden, indem man den Höchstwert von Signalen (C&sub1;', C&sub2;', C&sub3;') sucht, die aus ersten, durch die Antitransformante der normalisierten Querspektra erhaltenen Signalen (C&sub1;, C&sub2;, C&sub3;) geschätzt werden,

umfaßt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß es den Schritt der Rekonstruktion des akustischen Ereignisses unter Verwendung dieser akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) in Verbindung mit diesen Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) umfaßt.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Rekonstruktion des akustischen Ereignisses auf einer Modellierung des zu rekonstruierenden akustischen Signals basiert, u. zw. im wesentlichen gemäß der Formel:

s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))

worin s(t) das zu rekonstruierende akustische Signal ist, s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) die akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) sind, δ&sub1;(t), δ&sub2;(t), δ&sub3;(t) die Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) sind und a&sub0;, a&sub1;, a&sub2;, a&sub3; numerische Koeffizienten sind.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) nach der Messung (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in ein digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) umgewandelt werden.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Umwandlung in ein digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) bei einer gegebenen Abtastfrequenz (Fc) stattfindet, welche höher ist als das Frequenzband des akustischen Ereignisses.

6. Verfahren nach Anspruch 1 oder Anspruch 4, dadurch gekennzeichnet, daß der Schritt des Erzeugens der ersten Signale (C&sub1;, C&sub2;, C&sub3;) auf Basis der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) die Phasen:

- des Extrahierens von Abtastrahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) aus den akustischen Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),

- des Berechnens einer integralen Transformante (X&sub0;, X&sub1;, X&sub2;, X&sub3;) aus den Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;),

- des Berechnens der Quer-Leistungsspektra für eine Mehrzahl von Paaren der integralen Transformante der Rahmen (X&sub0;, X&sub1;, X&sub2;, X&sub3;),

- des Berechnens der Antitransformante (C&sub1;, C&sub2;, C&sub3;) der Quer-Leistungsspektra umfaßt.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Phase zum Extrahieren der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) die Phasen

- des Extrahierens von Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) vorbestimmter Längen tf entsprechend einer vorbestimmten Anzahl N von Abtastwerten, mit einem Höchstwert ta,

- des Gewichtens der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) mittels eines Fensters umfaßt.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Fenster ein Blackman- Fenster ist.

9. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß, wenn Fc = 48 kHz, N so ausgewählt wird, daß es 1024 beträgt, und tf 21,33 ms beträgt, und ta tf/2 = 10,66 ms beträgt.

10. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die integrale Transformante (X&sub0;, X&sub1;, X&sub2;, X&sub3;) der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) eine Fourier-Transformante ist.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Fourier-Transformante eine schnelle Fourier-Transformante oder FFT ist.

12, Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Phase des Berechnens der Quer-Leistungsspektra

- die Phase des Berechnens eines Vektors i mit n Komponenten für jedes einzelne der Transformantenpaare (X&sub0;, X&sub1;, X&sub2;, X&sub3;) im wesentlichen gemäß der Formel

i = FFT&supmin;¹ [ j],

wobei, wenn j = 1, 2, 3, die Paare X&sub0;, X&sub1;; X&sub0;, X&sub2;; X&sub0;, X&sub3; sind; und die 1-te komplexe generische Komponente des Vektors j definiert ist als:

worin Xj* der konjugierte komplexe Vektor des Vektors Xj ist, umfaßt.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Komponenten des Vektors j normalisiert sind.

14. Verfahren nach Anspruch 6 und Anspruch 12, dadurch gekennzeichnet, daß es die Phase des Abschätzens der relativen Verzögerung zwischen Rahmenpaaren von Signalen, welche die Phase des Verwendens des Vektors j beinhaltet, umfaßt, um einen Kohärenzindex zwischen dem Rahmen x&sub0; und einem Rahmen zu berechnen, welcher durch das Außerphasebringen des Rahmens xj durch eine Anzahl von Abtastwerten i entsprechend einer Verzögerung τi = i/Fc, äquivalent zu einem Kohärenzindex zwischen dem akustischen Signal S&sub0; und dem durch eine Verzögerung τi außer Phase gebrachten akustischen Signal Sj, erhalten wird.

15. Verfahren nach einem der Ansprüche 1 oder 12 bis 14, dadurch gekennzeichnet, daß die ersten Signale (C&sub1;, C&sub2;, C&sub3;) jeweils aus den Vektoren j bestehende Kohärenzfunktionen Cj (t, τ) umfassen.

16. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Abtastrahmen in Paaren extrahiert werden, wobei jedes einen ersten Rahmen (X&sub0;), der in jedem Paar vorliegt, enthält, sowie einen zweiten Rahmen (X&sub1;, X&sub2;, X&sub3;), der aus den Rahmen ausgewählt ist, welche vom ersten, allen Paaren gemeinsamen Rahmen unterschiedlich sind, sodaß es für jeden der vom ersten Rahmen unterschiedlichen Rahmen ein Paar gibt.

17. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Antitransformante (C&sub1;, C&sub2;, C&sub3;) eine inverse Fourier-Transformante ist.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß die inverse Fourier- Transformante eine inverse schnelle Fourier-Transformante oder FFT ist.

19. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;') mittels Filtration und Interpolation geschätzt werden.

20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß die Filtration der ersten Signale (C&sub1;, C&sub2;, C&sub3;) durch die Verwendung von mindestens einem Filter mit begrenztem Ansprechen auf einen Impuls oder FIR aktiviert wird.

21. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;') einem Schritt zur Suche nach dem Höchstwert der Signale (C&sub1;', C&sub2;', C&sub3;') zwecks Erzeugung von zweiten Signalen (M&sub1;, M&sub2;, M&sub3;) unterzogen werden.

22. Verfahren nach Anspruch 15 und Anspruch 21, dadurch gekennzeichnet, daß die Phase des Suchens nach dem Höchstwert die Phasen:

- des Suchens nach dem Höchstwert der gefilterten und interpolierten Kohärenzfunktionen Cj'(t, τ'), wenn eine Verzögerung τ' variiert,

- des Erzeugens der Funktionen Mj(t), die im wesentlichen gemäß der Formel

Mj(t) = max Cj'(t, τ')

τ'

definiert sind, wenn t variiert, und

- des Berechnens der Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) als Verzögerungen δj(t) = τ'max entsprechend den Funktionen Mj(t)

umfaßt.

23. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phase des Detektierens des akustischen Ereignisses die Phasen:

- des Erzeugens eines Detektionssignals (d) auf Basis der zweiten Signale (M&sub1;, M&sub2;, M&sub3;),

- des Feststellens, daß das Detektionssignal (d) einen vorbestimmten Schwellenwert überschritten hat

umfaßt.

24. Verfahren nach Anspruch 22 und Anspruch 23, dadurch gekennzeichnet, daß das Detektionssignal (d) im wesentlichen gemäß der Formel

d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]

erzeugt wird, wobei d(t) das Detektionssignal (d) ist.

25. Verfahren nach Anspruch 1 und Anspruch 6, dadurch gekennzeichnet, daß der Schritt des Lokalisierens des akustischen Ereignisses die Phasen:

- des Berechnens eines Astes einer Hyperbel, welche ihren Brennpunkt in einem der zwei Detektionspunkte hat, für jedes Paar von Detektionspunkten entsprechend den Rahmenpaaren,

- des Berechnens einer Fläche, welche durch die Äste einer Hyperbel definiert ist, innerhalb welcher sich das akustische Ereignis befindet,

umfaßt.