DE69324646T2 - Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme - Google Patents

Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme

Info

Publication number
DE69324646T2
DE69324646T2 DE69324646T DE69324646T DE69324646T2 DE 69324646 T2 DE69324646 T2 DE 69324646T2 DE 69324646 T DE69324646 T DE 69324646T DE 69324646 T DE69324646 T DE 69324646T DE 69324646 T2 DE69324646 T2 DE 69324646T2
Authority
DE
Germany
Prior art keywords
signals
acoustic
frames
pairs
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69324646T
Other languages
English (en)
Other versions
DE69324646D1 (de
Inventor
Gianni Lazzari
Maurizio Omologo
Piergiorgio Svaizer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fondazione Bruno Kessler
Original Assignee
Istituto Trentino di Cultura
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Istituto Trentino di Cultura filed Critical Istituto Trentino di Cultura
Publication of DE69324646D1 publication Critical patent/DE69324646D1/de
Application granted granted Critical
Publication of DE69324646T2 publication Critical patent/DE69324646T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H3/00Measuring characteristics of vibrations by using a detector in a fluid
    • G01H3/10Amplitude; Power
    • G01H3/12Amplitude; Power by electric means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V1/00Seismology; Seismic or acoustic prospecting or detecting
    • G01V1/001Acoustic presence detection

Landscapes

  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Geology (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Geophysics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Alarm Systems (AREA)

Description

    Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im allgemeinen Verfahren und Systeme zur Erfassung und Verarbeitung von akustischen Signalen, wie zum Beispiel die Verfahren und Systeme zum Detektieren, Lokalisieren und Rekonstruieren von akustischen Signalen. Typische Beispiele für die Anwendung von derartigen Systemen sind die Stimmerfassung und das Orten des Sprechers.
  • Beschreibung des Standes der Technik
  • Die Erfassung einer stimmlichen Botschaft zum Zweck der Erkennung, Codierung und Verifizierung des Sprechers etc. erfolgt herkömmlicherweise durch die Verwendung eines stationären ("am Kopf montierten") Mikrophons vor dem Sprecher oder eines ("handgehaltenen") Mikrophons, das der Sprecher in der Hand hält. Diese Vorrichtungen haben Nachteile, die mit dem niedrigen Signal/Geräusch-Verhältnis und mit der Abhängigkeit der Leistung des Systems von der Art und Weise, in der es verwendet wird (Entfernung zwischen Mund und Mikrophon, Schläge und Vibrationen etc.), zusammenhängen. Die Verwendung einer Gruppe von Mikrophonen kann einige dieser Probleme lösen und erleichtert auch die Interaktion zwischen dem Verwender und dem System.
  • Die technische Literatur der letzten zehn Jahre veranschaulicht verschiedene Beispiele für den Gebrauch von Mikrophongruppen zur Erfassung von stimmlichen Botschaften.
  • Es wird zum Beispiel auf die Artikel "Some Analyses of Microphone Arrays for Speech Data Acquisition" von H. F. Silverman, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-35, Nr. 12, Dezember 1987 und auf "Computer-steered Microphone Arrays for Sound Transduction in Large Rooms" von J. L. Flanagan, J. D. Johnston, R. Zahn, G. W. Elko, J. Acoust. Soc. Am., 78(5), November 1985, Seiten 1508-1518, verwiesen.
  • Die Erfassung von stimmlichen Botschaften mittels einer Gruppe von Mikrophonen wurde herkömmlicherweise unter Anwendung von Techniken erreicht, die typisch sind für die Verarbeitung von akustischen Signalen unter Wasser und von Radarsignalen, da es das Ziel ist, die Position der akustischen Quelle mittels mehrerer Sensoren, die über den Raum verteilt sind, festzustellen und dieses Wissen zu verwenden, um das Verhältnis zwischen brauchbaren Signalen und Nebengeräuschen zu verbessern.
  • Manchmal ermöglichen es diese Techniken, die aus der Quelle stammenden Informationen zu extrahieren, ohne eine Schnellbestimmung ihrer Positionen (zum Beispiel Strahlenbündelungstechniken, LMS-anpassungsfähiges Filtern: siehe zum Beispiel die Artikel "Time Delay Estimation Using the LMS Adaptive Filter-Static Behaviour" von F. A. Reed, P. L. Feintuch, N. J. Bershad, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-29, Nr. 3, Juni 1981 und "On Time Delay Estimation Involving Received Signals" von C. Y. Wuu, A. E. Pearson, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-32, Nr. 4, August 1976) zu Hilfe zu nehmen.
  • Das Problem der Lokalisierung einer akustischen Quelle unter Verwendung einer Mikrophongruppe ist im wesentlichen auf das Problem der Messung von Zeitverzögerungen zwischen den Signalen, die von verschiedenen Sensoren kommend erfaßt wurden, zurückzuführen. Wenn die relativen Verzögerungen, mit denen die Schallwelle die verschiedenen Mikrophone erreicht hat, bekannt sind, so kann die Kurve der ankommenden Wellenfront, die von der akustischen Quelle abgegeben wird, rekonstruiert und bis zu ihrem Mittelpunkt, wo die Quelle, die sie hervorgebracht hat, vermutet wird, zurückverfolgt werden.
  • Die am weitesten verbreitete Technik zur Abschätzung der relativen Verzögerung zwischen zwei Signalen basiert darauf, den Höchstwert der Kreuzkorrelation zu finden: siehe zum Beispiel die Artikel "An Algorithm for Determining Talker Location Using a Linear Microphone Array and Optimal Hyperbolic Fit" von H. F. Silverman, Proc. Speech and Natural Language Workshop DARPA, Juni 1990, Seiten 151 - 156 und "A Two-stage Algorithm for Determining Talker Location from Linear Microphone Array Data" von H. F. Silverman, S. E. Kirtman, Computer Speech and Language (1992) 6, Seiten 129 - 152.
  • Die Effizienz dieses Verfahrens wird jedoch stark vom Spektralumfang der in Frage stehenden Signale beeinflußt. Zum Beispiel wird im Fall eines Schmalbandsignals (wie zum Beispiel einer Pfeife) oder von Signalen hoher Periodizität (wie zum Beispiel von stimmlichen Lauten) die Abschätzung der Verzögerung schwierig oder sogar unmöglich, wenn Echos und Nachhall vorhanden sind: In diesen Fällen ist es am wirkungsvollsten zu versuchen, die nützlichsten Informationen zu extrahieren, um die Verzögerung und damit direkt die Phasenverzögerung abzuschätzen.
  • Die Phase der Detektion eines akustischen Ereignisses besteht darin, die von den Mikrophonen erfaßten Signale voraufzubereiten, um die akustisch signifikanten Zeitabschnitte, an denen im folgenden ein Schritt zur Lokalisierung der Quelle durchgeführt wird, zu bestimmen.
  • Im gewöhnlich auftretenden Fall von Quellen unbekannter und willkürlicher akustischer Ereignisse ist es unmöglich, a priori Vermutungen über die spektralen Merkmale der entsendeten Signale anzustellen, und das Detektionsverfahren kann nicht auf spezielle Signalmuster gestützt werden.
  • Die Charakterisierung in Hinblick auf die Stärke des akustischen Signals ist die direkteste und einfachste, die für die Durchführung des Detektionsverfahrens in Betracht gezogen werden kann: In Fällen, in denen das Signal/Geräusch-Verhältnis nicht zu gering ist, kann es ausreichen, feste oder einstellbare Schwellen (abhängig vom geschätzten Geräuschpegel) zu überwinden.
  • Wie oben gesagt, ermöglichen einige konventionelle Verfahren zur Verarbeitung von Signalen, die mit Hilfe von Mikrophongruppen erfaßt wurden, die Rekonstruktion eines optimalen Signals ohne vorhergehende Abschätzung der Position der akustischen Quelle; dieses Signal kann als gleichwertig mit der anfänglichen akustischen Botschaft erachtet werden, wobei alle unerwünschten akustischen Komponenten, die sekundären Quellen zuzuordnen sind, gedämpft werden.
  • Genauergesagt betrifft die vorliegende Erfindung ein Verfahren gemäß dem kennzeichnenden Teil des Anspruchs 1, welches zum Beispiel aus US-A-4 982 375 bekannt ist. Auch US-A-4 562 556 ist für die Erfindung von einigem Interesse.
  • Ziele und Zusammenfassung der Erfindung
  • Ziel der vorliegenden Erfindung ist die Schaffung eines Verfahrens und Systems zur Erfassung und Verarbeitung von zu einem akustischen Ereignis gehörenden akustischen Signalen, welche es ermöglichen, die obigen Nachteile hinsichtlich des Standes der Technik zu beseitigen oder wenigstens zu mildern.
  • Gemäß der vorliegenden Erfindung wird dieses Ziel mittels eines Verfahrens erreicht, dessen weitere Merkmale im kennzeichnenden Teil des Anspruchs 1 aufgezeigt sind.
  • Genauergesagt besitzt die erfindungsgemäße Lösung Merkmale hinsichtlich Wirksamkeit, Rechengeschwindigkeit, Genauigkeit und Unempfindlichkeit gegenüber Störungen, die Systemen vom Stand der Technik überlegen sind. Derartige Lösungen können für die Erfassung einer stimmlichen Botschaft oder anderer Arten von akustischen Ereignissen sowie deren Lokalisierung verwendet werden.
  • Die vorliegende Erfindung sieht die Verwendung von wenigstens einer Mikrophongruppe in einem System vor, was die verbesserte Erfassung einer allgemeinen akustischen Botschaft in einer lauten Umgebung ermöglicht.
  • Die vorliegende Erfindung bietet auch die Möglichkeit, aus den Signalen, die mittels der Mikrophongruppe erfaßt wurden, extrahierte Informationen zu verarbeiten, wobei auch die Lokalisierung des Sprechers oder der akustischen Quelle, von denen die Botschaft kommt, ermöglicht wird.
  • Sowohl die Detektion als auch die Lokalisierung der Botschaft erfolgen auf neuartige Weise unter Verwendung der Phaseninformationen, die im normalisierten Querspektrum (geschätzt mittels einer schnellen Fourier-Transformante oder FFT) vorhanden sind, relativ zu von einem Paar Mikrophonen in der Gruppe erfaßten Signalen.
  • Die sukzessive Ableitung einer neuen Version der Botschaft, die, betrachtet vom Standpunkt des Verhältnisses zwischen brauchbarem Signal und Umgebungsgeräusch, relativ zu den einzelnen, jedem Mikrophon in der Gruppe zugeordneten Erfassungen, verbessert ist, wird auf Basis der während der Phase, in welcher die Botschaft selbst detektiert und lokalisiert wird, erhaltenen Informationen durchgeführt: Verwendet man noch einfach eine lineare Kombination der zweckmäßig verzögerten Signale aus den Mikrophonen in der Gruppe, so unterscheidet sich dieses Verfahren der Signalrekonstruktion somit auch durch die Originalität, mit der die Informationen betreffend der Phasendivergenz zwischen den über die verschiedenen Mikrophone in der Gruppe erfaßten Signalen verwendet werden.
  • Unter dem Begriff "Gruppe von Mikrophonen" ist in der vorliegenden Beschreibung und in den folgenden Ansprüchen eine Vorrichtung zu verstehen, die aus einer Mehrzahl von Mikrophonen zusammengesetzt ist, welche vorzugsweise in alle Richtungen wirken und in Bezug zueinander und in regelmäßigen Abständen zueinander ausgerichtet sind. Obwohl es in der nachfolgenden Beschreibung nicht ausdrücklich erwähnt wird, ist es in allen Fällen auch möglich, die Erfindung mit anderen Arten von Mikrophonen, die auf andere Weise räumlich angeordnet sind, durchzuführen: zum Beispiel in der im Artikel "An Approach of Dereverberation Using Multi-Microphone Sub-Band Envelope Estimation" von H. Wang und F. Itakura, Proc. IEEE Int. Conf. on Acoust. Speech Signal Processing, Mai 1991, Seiten 953-956, beschriebenen Weise.
  • Es versteht sich von selbst, daß der Ausdruck "Mikrophon", wie er im vorliegenden Zusammenhang verwendet wird, im allgemeinen alle mechanisch-elektrischen Wandler, die ein akustisches Schwingphänomen (wozu die Ultraschalltöne zählen) in ein verarbeitbares elektrisches Signal verwandeln können, umfaßt.
  • Es ist somit zu erkennen, daß die Mikrophone an ein Analog-Digital-Umwandlungssystem, welches in einer genügend hohen Abtastfrequenz (zum Beispiel 24 - 48 kHz) synchron zwischen den verschiedenen Kanälen funktioniert, angeschlossen sind.
  • Speziell wird in der vorliegenden Beschreibung auf eine Ausführungsform, bei der vier Mikrophone verwendet werden, Bezug genommen, obwohl theoretisch drei ausreichen würden, um die Quelle zu lokalisieren; eine größere Anzahl an Mikrophonen kann jedoch sicherstellen, daß das System besser funktioniert.
  • Das unten beschriebene Verfahren bezieht sich insbesondere auf das Verarbeiten von akustischen Botschaften, wobei es aus einem vorläufigen Detektieren des Ereignisses selbst, der genauen Lokalisierung der Position, in der das Ereignis erzeugt wurde, und schließlich einer fakultativen Rekonstruktion einer Version der ursprünglichen Botschaft, die von Lärm- und Nachhallkomponenten etc. gereinigt wurde, besteht. Auf diese Weise ist es möglich, die Verwendung des Moduls zum Lokalisieren und/oder das Detektieren des akustischen Ereignisses in Betracht zu ziehen, unabhängig von der Tatsache, daß die Botschaft dann zum Zweck der Codierung und Stimmerkennung in eine Version von optimaler Qualität verwandelt werden muß.
  • Somit ist anzunehmen, daß das erfindungsgemäße Verfahren und System gut funktionieren bei Geräuschen, die ihren Ursprung in einem räumlich beschränkten Bereich haben und deren entsprechende akustische Druckwelle besondere Richtcharakteristika aufweist, im Gegensatz zu Hintergrundgeräusch, von dem angenommen wird, daß es sich beinahe gleichmäßig in der Umgebung ausbreitet.
  • Somit berücksichtigt die vorliegende Beschreibung nicht jene Fälle, in denen Sprecher (oder allgemeine akustische Quellen) gleichzeitig Botschaften aussenden, welche eine vergleichbare Dynamik besitzen und für welche das beschriebene Verfahren (auf bekannte Weise) in Verfahren zur Trennung der Quellen integriert würde.
  • In einer besonders vorteilhaften Ausführungsform sieht die vorliegende Erfindung die Verwendung einer Technik zur Abschätzung von Phasenverzögerungen vor, so wie jene, die in dem Artikel "The Generalized Correlation Method for Estimation of Time Delay" von C. H. Knapp, G. C. Carter, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP- 24, Nr. 4, August 1976, beschrieben ist und die zuvor niemals auf diesem Gebiet der akustischen Analyse verwendet wurde.
  • Eine derartige Technik verwendet die Fourier-Antitransformante einer Version des Querspektrums der zwei Signale, bei welcher nur die Phaseninformationen beibehalten werden. Somit werden die Amplitudeninformationen, welche für die Messung der Verzögerungen irrelevant sind, wenn das Signal/Geräusch-Verhältnis groß genug ist, aus dem Querspektrum der Signale entfernt.
  • Die Anwendung auf echte, in einer nachhallenden Umgebung erfaßte Signale hat gezeigt, daß die Wirksamkeit dieses Verfahrens zu einem Großteil unabhängig von der Art der zu lokalisierenden Quelle ist (Stimme, Pfeifen, Explosionen, verschiedene Arten von Geräuschen). Man kann außerdem Signale richtungsabhängiger Natur von anderen akustischen Phänomenen anderer Art (Hintergrundgeräusch, Nachhall, Resonanz) unterscheiden, auch wenn sie dieselbe Intensität aufweisen. Die Kosten für die Berechnung sind vergleichbar mit jenen für die leistungsfähigsten Kreuzkorrelations-Analysen und geringer als jene für andere auf adaptives Filtern basierende Schätzfunktionen für Verzögerungen.
  • Die vorliegende Erfindung schlägt somit ein neuartiges Detektionsverfahren vor, basierend auf einer Kohärenzfunktion zwischen Signalpaaren, die eine Schwelle überschreiten, wobei dieselbe Funktion auch in der nachfolgenden Lokalisierungsphase verwendet wird. Eine derartige Funktion stellt eine zuverlässige Anzeige für das Vorhandensein eines akustischen Ereignisses von einer Zeitdauer, die auch sehr kurz ist und offensichtlich Richtcharakteristika aufweist, dar.
  • Weiters schlägt die Erfindung ein Verfahren vor, welches die Rekonstruktion eines optimalen Signals ermöglicht, wie zum Beispiel von linearen Kombinationen jener Signale, die mit Mikrophonen erfaßt wurden und gemäß der Abschätzung der Position der vom Ortungsmodul versorgten Quelle (oder der Verzögerungen zwischen den verschiedenen Paaren) außer Phase gebracht wurden.
  • Das erfindungsgemäße Verfahren und System kann hauptsächlich für die Erfassung einer gesprochenen Botschaft in einer geräuschvollen Umgebung verwendet werden, ohne daß der Sprecher die Botschaft vor einem Mikrophon sprechen muß. Wenn die Erfassungsumgebung laut ist und nachhallt, wird die Botschaft von einigen der unerwünschten Komponenten gereinigt. Die auf diese Weise erfaßte Botschaft kann dann einem Codiersystem (für Telekonferenzen oder stimmliche Botschaften) oder einem Stimmerkennungssystem zugeführt werden.
  • Detaillierte Beschreibung der Erfindung
  • Weitere Vorteile und Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung ersichtlich, welche nur anhand eines nicht einschränkenden Beispiels und unter Bezugnahme auf die beigefügten Zeichnungen angegeben ist, und worin:
  • - Fig. 1 schematisch die Betriebsbedingungen des Systems gemäß der vorliegenden Erfindung darstellt,
  • - Fig. 2 ein schematisches Blockdiagramm des Systems gemäß der vorliegenden Erfindung ist,
  • - Fig. 3 ein schematisches Blockdiagramm eines Teils des Systems gemäß der vorliegenden Erfindung ist, und
  • - Fig. 4 ein schematisches Blockdiagramm eines Blocks von dem in Fig. 3 dargestellten Teil des Systems ist.
  • Fig. 1 stellt schematisch eine Umgebung dar, in welcher das System funktioniert. Die akustische Quelle (Sprecher, allgemeine Lautquellen etc., das heißt, das zu detektierende akustische Ereignis) ist als AS angegeben, während die Mikrophongruppe aus vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;, die als an einer X-Achse ausgerichtet dargestellt sind, besteht.
  • Die relativen Positionen der Mikrophone und der akustischen Quelle sind in Form von Koordinaten in einer kartesischen Ebene x, y ausgedrückt. Die akustische Quelle AS sendet Wellenfronten aus, die zu verschiedenen Zeitpunkten und auf verschiedene Arten an verschiedenen Orten in dem räumlichen Bereich, in welchem sie verteilt werden, detektiert werden, wobei es die Mikrophone in der Gruppe P&sub0;, P&sub1;, P&sub2;, P&sub3; ermöglichen, daß sich die Funktionen des Systems an verschiedenen Stellen entwickeln.
  • Fig. 2 zeigt das allgemeine Diagramm des Systems. Die Signale werden unter Verwendung von vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3; erfaßt, die in alle Richtungen wirken und mit gleichmäßigen Zwischenräumen zueinander relativ (zum Beispiel ein 15 cm großer Abstand zwischen zwei nebeneinander liegenden Mikrophonen) angeordnet sein sollen und die mit vier Analog-Digital-Umwandlen A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;, die mit einer gegebenen Abtastfrequenz Fc von zum Beispiel 48 kHz arbeiten, verbunden sind. Die vier Ausgänge dieser Erfassungsmodule, bezeichnet mit S&sub0;, S&sub1;, S&sub2;, S&sub3; (Si worin i = 0, ..., 3), sind mit einem Verarbeitungsmodul, das in der Regel mit RLR bezeichnet ist, verbunden (Detektion der Ereignisse, Lokalisierung der Quelle und Rekonstruktion des Signals).
  • Fig. 3 zeigt das Funktionsblockdiagramm des Moduls RLR. Am Eingang erhält das Modul RLR alle Signale Si (worin i = 0, ..., 3); die Ausgänge dieses Moduls bestehen aus einem Koordinatenpaar X und Y (falls notwendig, mit einer winkelförmigen Koordinate θ, welche die Richtung der Quelle AS identifiziert), aus einem Detektionsindex d und einem rekonstruierten Signal RS.
  • Im folgenden werden die Module, die das Modul RLR bilden, und die Operationen, die sie ausüben, um die Ausgänge zu erhalten, beschrieben.
  • In der Praxis kann das Modul RLR von einer elektronischen Verarbeitungsvorrichtung wie zum Beispiel einem Minicomputer oder von einem speziell für diese Aufgabe programmierten Spezialprozessor gebildet sein. Die Kriterien für die Herstellung, Programmierung und Verwendung von derartigen Computern und/oder Prozessoren sind beim derzeitigen Stand der Technik gut bekannt und müssen daher hier nicht beschrieben werden.
  • Das Modul RLR umfaßt eine erste Reihe von Modulen EST&sub0;, EST&sub1;, EST&sub2;, EST&sub3; (ESTi, worin 1 = 0, ..., 3), welche die jeweils am Eingang erhaltenen Signale S. (von den Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;) in numerische Abtastrahmen umwandeln und außerdem die Fenster für die erhaltenen Rahmen anordnen. Der Ausgang der Module EST besteht somit aus den Rahmen, die mit x&sub0;, x&sub1;, x&sub2; bzw. x&sub3; (xi, worin i = 0, ..., 3) bezeichnet werden.
  • Eine zweite Modulreihe, die mit CFFT&sub0;, CFFT&sub1;; CFFT&sub2;, CFFT&sub3; (CFFTi, worin i = 0, ..., 3) bezeichnet ist und deren Eingänge mit den jeweiligen Ausgängen der Module ESTi verbunden sind, führt für alle Rahmen die Berechnung der schnellen Fourier-Transformante (oder FFT) aus - oder gegebenenfalls einer anderen integralen Transformante. Die Ausgänge der Module CFFTi, worin i = 0, ..., 3, werden mit X&sub0;, X&sub1;, X&sub2; bzw. X&sub3; (Xi, worin i = 0, ..., 3) bezeichnet.
  • Eine dritte Modulreihe, die mit CS&sub1;, CS&sub2;, CS&sub3; (CSi, worin i = 1, ..., 3) bezeichnet ist, berechnet zwischen Rahmenpaaren die Querspektra oder die normalisierten Quer- (Leistungs)spektra, die unter Anwendung einer FFT (schnellen Fourier-Transformante) geschätzt werden. Jedes der Module CSi empfängt nämlich als Eingang die Ausgänge zweier Module der vorhergehenden Reihe, das heißt, der Module CFFTi. Insbesondere empfängt jedes Modul CSi als Eingang den Ausgang Xi des entsprechenden Moduls CFFTi und dann den Ausgang X&sub0; des Moduls CFFT&sub0;.
  • Auf diese Art berechnen die Module CSi das normalisierte Querspektrum der Rahmenpaare (X&sub0;, X&sub1;), (X&sub0;, X&sub2;), (X&sub0;, X&sub3;), extrahiert aus den Signalen S&sub0;, S&sub1;, S&sub2;, S&sub3;. Die Module CSi berechnen außerdem die inversen FFTs der normalisierten Querspektra. Die Ausgänge der Module CSi bestehen jeweils aus den Signalen C&sub1;, C&sub2;, C&sub3; (Ci, worin i = 1, ..., 3).
  • Eine vierte Modulreihe, die mit ICM&sub1;, ICM&sub2;, ICM&sub3; (ICMi, worin i = 1, ..., 3) bezeichnet ist, interpoliert die auf diese Weise erhaltenen Signale C&sub1;, C&sub2;, C&sub3; und sucht nach deren zeitlichen Höchstwerten. Die Ausgänge der Module ICM; sind durch die Signalpaare M&sub1; und δ&sub1;, M&sub2; und δ&sub2;, M&sub3; und δ&sub3; vorgesehen.
  • Ein Modul RIL führt die Detektionsfunktion auf Basis der Signale M&sub1;, M&sub2;, M&sub3; aus. Der Ausgang des Moduls RIL ist das Signal d.
  • Ein Modul LOC führt die Lokalisierungsfunktion aus, das heißt, die Bestimmung der Richtung θ, aus der die Wellenfront ankommt, und die Berechnung der Koordinaten (X, Y) der Quelle. Das Modul LOC funktioniert auf Basis der Signale δ&sub1;, δ&sub2;, δ&sub3; und entsendet das Signal θ und das Koordinatenpaar X, Y am Ausgang.
  • Ein Modul RIC führt die Rekonstruktionsfunktion aus, das heißt die Konstruktion einer neuen Version der akustischen Botschaft, dargestellt durch das am Ausgang RS entsendete Signal. Das Modul RIC funktioniert auf Basis der Eingangssignale δ&sub1;, δ&sub2;, δ&sub3; und S&sub0;, S&sub1;, S&sub2;, S&sub3;.
  • Die verschiedenen das erfindungsgemäße System bildende Module und die Operationen, die sie ausüben, werden nun genauer Modul für Modul beschrieben.
  • Module ESTi
  • Für jedes Signal S extrahiert jedes Modul ESTi die jeweiligen Rahmen xi einer Länge tf ms entsprechend N Abtastwerten, mit einem Anlayseabstand von ta ms. Jeder Rahmen wird dann mit einem Blackman-Fenster gewichtet, wie in der in "Digital Signal Processing" von A. V. Oppenheim, R. W. Schafer, Prentice Hall 1975, beschriebenen Methode definiert. Die Verwendung des Blackman-Fensters hat sich als für die Zwecke der vorliegenden Erfindung wirksamer als die Verwendung eines herkömmlichen Hamming-Fensters erwiesen.
  • Module CFFTi
  • Die Module CFFTi empfangen als Eingang die Rahmen xi von N Abtastwerten, extrahiert aus den Signalen 5 und gewichtet wie oben beschrieben. Die Rahmen werden dann einer FFT unterzogen, um eine komplexe Sequenz i von N Abtastwerten zu erhalten. Eine mögliche Berechnung der FFT ist zum Beispiel in dem oben angeführten Artikel von Oppenheim beschrieben. Die beschriebene Ausführungsform ist so aufgebaut, daß Fc = 48 kHz, N = 1024 (und infolgedessen tf = 21,33) und ta = tf/2 = 10,66. Es ist zu erkennen, daß die obigen Werte nicht in einem streng einschränkenden Sinn zu verstehen sind. Dennoch zeigen sie die entsprechenden Größenordnungen, nach denen derartige Parameter ausgewählt werden, an.
  • Module CSi
  • In der Praxis umfassen alle Module CSi drei Submodule, die zum besseren Verständnis in Fig. 4 gezeigt sind.
  • Ein erstes Submodul X-SP berechnet das Querspektrum eines Paares von komplexen Sequenzen X&sub0;, Xi. Ein zweites Submodul NORM normalisiert das oben angeführte Querspektrum, das vom Submodul X-SP, welches einen komplexen Vektor Yi am Ausgang erzeugt, berechnet wird. Schließlich führt ein drittes Submodul CFFT&supmin;¹ eine inverse FFT des Vektors Yi aus.
  • Diese oben kurz beschriebenen Operationen werden nun genauer beschrieben, insbesondere in Hinblick auf den mathematischen Aspekt.
  • Für jedes Analysemoment t wird der Vektor j von N Komponenten pro Sequenzpaar (X&sub0;, X&sub1;), (X&sub1;, X&sub2;), (X&sub2;, X&sub3;) berechnet und definiert als:
  • j = FFT&supmin;¹ [ j]
  • wobei, wenn j = 1, 2, 3, die 1-te generische komplexe Komponente des Vektors j definiert ist als:
  • worin j* den konjugierten komplexen Vektor des Vektors j bezeichnet.
  • Die Komponenten ρj(i) des Vektors j drücken einen Kohärenzfaktor zwischen den ursprünglichen Signalrahmen, wenn die relative Verzögerung τi gleich i Abtastintervallen ist, aus. Eine positive Verzögerung k/Fc entspricht der k-ten allgemeinen Komponente der ersten Hälfte des Vektors (Komponenten von Index 0 zu Index N/2-1); eine negative Verzögerung (oder Vorlauf) gleich (N - k)/Fc entspricht der k-ten allgemeinen Komponente der zweiten Hälfte des Vektors (Komponenten von Index N/2 zu Index N-1).
  • Unter idealen Bedingungen, bei denen die zwei Signale abgesehen von einem Skalenfaktor und einer Verzögerung τ&sub0;, die gleich einer ganzen Anzahl von Abtastintervallen sind, gleich sind, würde eine Sequenz j, bestehend aus einem an der der Verzögerung τ&sub0; entsprechenden Komponente zentrierten Impuls, erhalten. In der Praxis kann ρj(i) ausgelegt werden als Kohärenzindex zwischen dem Rahmen x&sub0; und dem Rahmen, der erhalten wird, wenn xj von einer Anzahl von der Verzögerung τi = i/Fc entsprechenden Abtastwerten außer Phase gebracht wird, oder im Fall einer stationären akustischen Quelle als Kohärenzindex zwischen dem Signal S&sub0; und dem durch τj außer Phase gebrachten Signal Sj. Die Komponenten des Vektors werden zwischen 0 und 1 normalisiert. Wie oben definiert, führt die Analyse, die jede ta ms an den Rahmen durchgeführt wird, zur Bestimmung von drei Kohärenzfunktionen C&sub1;(t, τ), C&sub2;(t, τ), C&sub3;(t, τ), die zu jedem Zeitpunkt t = n.ta aus den Vektoren &sub1;, &sub2; bzw. &sub3; bestehen.
  • Module ICMi
  • Um die oben erwähnten Kohärenzinformationen deutlicher zu machen, wird jeder Vektor j in den Modulen ICM mittels einer Interpolations- und Filteroperation neu verarbeitet. Auf diese Weise kann die Abschätzung der Verzögerung zwischen zwei Signalen genauer erfolgen.
  • In der Praxis wird als Ergebnis der auf den Vektor j angewandten Funktion Cj(t, τ) zu jedem Zeitpunkt t = n.ta einer Operation (beschrieben zum Beispiel im Artikel "Optimum FIR Digital Filter Implementation for Decimation, Interpolation and Narrow Band Filtering" von R. E. Crochiere, L. R. Rabiner, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-23, Nr. 5, Seiten 444-456, Oktober 1975) eine neue Kohärenzfunktion C'j(t, τ') erhalten, in welcher die diskrete Variable τ' eine größere Auflösung als die diskrete Variable τ besitzt.
  • Es wird dann zu jedem Zeitpunkt t = n.ta für jede Kohärenzfunktion C'j (t, τ') eine Suche nach dem Höchstwert der Funktion selbst durchgeführt, wenn die Verzögerung τ' variiert (in der Praxis drückt die Position dieses Höchstwertes die Phaseninformationen, die in den oben berechneten Querspektra vorliegen, aus). Der Höchstwert dieser Funktion, wenn τ' variiert, ist als Mj(t) definiert, und wenn j = 1, 2, 3:
  • Mj(t) = max C'j(t, τ')
  • τ'
  • und die dementsprechende Verzögerung τ'ssx als δj(t) definiert ist.
  • Modul RIL: Detektion
  • Die Detektion des akustischen Ereignisses basiert zu jedem Zeitpunkt t auf den Werten M&sub1;(t), M&sub2;(t), M&sub3;(t). Ein Detektionsindex d(t) wie
  • d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]
  • wird von diesen Funktionen abgeleitet.
  • Immer wenn dieser Index einen empirisch vordefinierten Schwellenwert Sd überschreitet, zum Beispiel ist in der vorliegenden Ausführungsform der Aufbau so, daß Sd = 0,7, so wird ein akustisches Ereignis als ausgelöst betrachtet. Das Ereignis wird als beendet betrachtet, wenn der Index wieder unter diesen Schwellenwert fällt.
  • Modul LOC: Lokalisierung
  • Der Lokalisierungsschritt der akustischen Quelle wird in jedem zeitlichen Abstand, in dem die Detektion ein positives Ergebnis gebracht hat (siehe Fig. 1), durchgeführt.
  • Zu jedem Zeitpunkt t kann der Wert δj(t) in die Richtung, in der die Wellenfront eintraf, zurückgebracht werden, bezüglich des Zentrums des Mikrophonpaares (0, j): diese Richtung kann winkelmäßig wie folgt ausgedrückt werden:
  • θj(t) = arccos (νδj(t)/dj)
  • wobei v die Schallgeschwindigkeit und dj der Abstand zwischen dem Mikrophon P&sub0; und dem Mikrophon Pj ist. Für jeden Zeitpunkt t wird eine Richtung θj(t) entsprechend der Verzögerung δj(t) jedem Mikrophonpaar (0, j) zugeordnet.
  • Diese Modellierung basiert auf der Annahme, daß die akustische Druckwelle die Gruppe in Form einer flachen Welle erreicht hat. Für den Fall, daß die Quelle einen kurzen Abstand von der Gruppe entfernt ist, gilt die Annahme nicht mehr.
  • In diesem Fall, welcher jener ist, in dem die beschriebene Ausführungsform verwendet wird, stellen die möglichen Punkte, die das betreffende akustische Ereignis verstärken können, grafisch einen Ast einer Hyperbel dar, die ihren Brennpunkt in der Position einer der beiden Mikrophone hat. Die Verwendung von vier Mikrophonen und somit von drei Paaren ermöglicht die Bestimmung von drei Ästen einer Hyperbel, deren Schnittpunkte die Fläche, innerhalb welcher sich die Quelle befinden sollte, begrenzen.
  • Das folgende Verfahren wird zur Berechnung des Schnittpunktes zwischen zwei Ästen einer Hyperbel, zum Beispiel entsprechend den Paaren (0, 1) und (0, 2), verwendet.
  • Sind die Koordinaten der Mikrophone 0, 1, 2 als P&sub0;, P&sub1;, P&sub2; entlang der Achse der Gruppe gesetzt und die von jedem Paar geschätzten Verzögerungen als δ&sub0;&sub1; und δ&sub0;&sub2; bezeichnet, so sind die Koordinaten des Schnittpunktes wie folgt angegeben:
  • Die Koordinaten xp13, yp13, xp23, yp23 der Schnittpunkte zwischen den anderen beiden Astpaaren einer Hyperbel werden auf ähnliche Weise bestimmt.
  • Die Koordinaten (x, y) der akustischen Quelle werden von diesen drei Punkten als Baryzentrum des Dreiecks, von dem sie die Scheitelpunkte bilden, abgeleitet.
  • Modul RIC: Rekonstruktion
  • Die Rekonstruktion der Signale auf Basis der Signale s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) und der Verzögerungen δ&sub1;(t), δ&sub2;(t) bzw. δ&sub3;(t) zwischen den Signalpaaren (0, 1), (0, 2), (0, 3) basiert auf einer Modellierung des erwünschten Signals auf folgende Art:
  • s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))
  • Bei Verwendung dieser Modellierung kann die Gruppe zu jedem Zeitpunkt auf die Position, die aus den gegebenen Verzögerungen ermittelt wurde, "gelenkt" werden.
  • Es ist zu erkennen, daß, während das Prinzip der Erfindung dasselbe bleibt, die Details des Aufbaus und der Arten der Ausführungsform in Bezug auf jene, die beschrieben und dargestellt wurden, stark variieren können, ohne dabei von dem durch die angefügten Ansprüche definierten Rahmen der vorliegenden Erfindung abzuweichen.

Claims (25)

1. Verfahren zur Erfassung und Verarbeitung von akustischen Signalen, die zu einem akustischen Ereignis, das sich in einem gegebenen räumlichen Bereich manifestiert, gehören, umfassend die Schritte:
- des Erfassens der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) an einer Mehrzahl von verschiedenen Punkten (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in dem räumlichen Bereich,
- des Erzeugens von Signalen (Y&sub1;, Y&sub2;, Y&sub3;), die Querspektra für eine Mehrzahl von Paaren (S&sub0;, S&sub1;; S&sub0;, S&sub2;; S&sub0;, S&sub3;) dieser akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) anzeigen, aus diesen akustischen Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),
dadurch gekennzeichnet, daß es die Schritte
- des Erzeugens der Signale (Y&sub1;, Y&sub2;, Y&sub3;) als Signale, die die normalisierten Querspektra für die Mehrzahl von Paaren der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) anzeigen, wobei die Phaseninformationen, die in den Querspektra zum Zweck der Erfassung und/oder Verarbeitung vorhanden sind, extrahiert werden und
- des Lokalisierens des akustischen Ereignisses zu jedem Zeitpunkt auf Basis von Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;), die berechnet werden, indem man den Höchstwert von Signalen (C&sub1;', C&sub2;', C&sub3;') sucht, die aus ersten, durch die Antitransformante der normalisierten Querspektra erhaltenen Signalen (C&sub1;, C&sub2;, C&sub3;) geschätzt werden,
umfaßt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß es den Schritt der Rekonstruktion des akustischen Ereignisses unter Verwendung dieser akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) in Verbindung mit diesen Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) umfaßt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Rekonstruktion des akustischen Ereignisses auf einer Modellierung des zu rekonstruierenden akustischen Signals basiert, u. zw. im wesentlichen gemäß der Formel:
s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))
worin s(t) das zu rekonstruierende akustische Signal ist, s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) die akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) sind, δ&sub1;(t), δ&sub2;(t), δ&sub3;(t) die Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) sind und a&sub0;, a&sub1;, a&sub2;, a&sub3; numerische Koeffizienten sind.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) nach der Messung (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in ein digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) umgewandelt werden.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Umwandlung in ein digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) bei einer gegebenen Abtastfrequenz (Fc) stattfindet, welche höher ist als das Frequenzband des akustischen Ereignisses.
6. Verfahren nach Anspruch 1 oder Anspruch 4, dadurch gekennzeichnet, daß der Schritt des Erzeugens der ersten Signale (C&sub1;, C&sub2;, C&sub3;) auf Basis der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) die Phasen:
- des Extrahierens von Abtastrahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) aus den akustischen Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),
- des Berechnens einer integralen Transformante (X&sub0;, X&sub1;, X&sub2;, X&sub3;) aus den Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;),
- des Berechnens der Quer-Leistungsspektra für eine Mehrzahl von Paaren der integralen Transformante der Rahmen (X&sub0;, X&sub1;, X&sub2;, X&sub3;),
- des Berechnens der Antitransformante (C&sub1;, C&sub2;, C&sub3;) der Quer-Leistungsspektra umfaßt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Phase zum Extrahieren der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) die Phasen
- des Extrahierens von Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) vorbestimmter Längen tf entsprechend einer vorbestimmten Anzahl N von Abtastwerten, mit einem Höchstwert ta,
- des Gewichtens der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) mittels eines Fensters umfaßt.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Fenster ein Blackman- Fenster ist.
9. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß, wenn Fc = 48 kHz, N so ausgewählt wird, daß es 1024 beträgt, und tf 21,33 ms beträgt, und ta tf/2 = 10,66 ms beträgt.
10. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die integrale Transformante (X&sub0;, X&sub1;, X&sub2;, X&sub3;) der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) eine Fourier-Transformante ist.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Fourier-Transformante eine schnelle Fourier-Transformante oder FFT ist.
12, Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Phase des Berechnens der Quer-Leistungsspektra
- die Phase des Berechnens eines Vektors i mit n Komponenten für jedes einzelne der Transformantenpaare (X&sub0;, X&sub1;, X&sub2;, X&sub3;) im wesentlichen gemäß der Formel
i = FFT&supmin;¹ [ j],
wobei, wenn j = 1, 2, 3, die Paare X&sub0;, X&sub1;; X&sub0;, X&sub2;; X&sub0;, X&sub3; sind; und die 1-te komplexe generische Komponente des Vektors j definiert ist als:
worin Xj* der konjugierte komplexe Vektor des Vektors Xj ist, umfaßt.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Komponenten des Vektors j normalisiert sind.
14. Verfahren nach Anspruch 6 und Anspruch 12, dadurch gekennzeichnet, daß es die Phase des Abschätzens der relativen Verzögerung zwischen Rahmenpaaren von Signalen, welche die Phase des Verwendens des Vektors j beinhaltet, umfaßt, um einen Kohärenzindex zwischen dem Rahmen x&sub0; und einem Rahmen zu berechnen, welcher durch das Außerphasebringen des Rahmens xj durch eine Anzahl von Abtastwerten i entsprechend einer Verzögerung τi = i/Fc, äquivalent zu einem Kohärenzindex zwischen dem akustischen Signal S&sub0; und dem durch eine Verzögerung τi außer Phase gebrachten akustischen Signal Sj, erhalten wird.
15. Verfahren nach einem der Ansprüche 1 oder 12 bis 14, dadurch gekennzeichnet, daß die ersten Signale (C&sub1;, C&sub2;, C&sub3;) jeweils aus den Vektoren j bestehende Kohärenzfunktionen Cj (t, τ) umfassen.
16. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Abtastrahmen in Paaren extrahiert werden, wobei jedes einen ersten Rahmen (X&sub0;), der in jedem Paar vorliegt, enthält, sowie einen zweiten Rahmen (X&sub1;, X&sub2;, X&sub3;), der aus den Rahmen ausgewählt ist, welche vom ersten, allen Paaren gemeinsamen Rahmen unterschiedlich sind, sodaß es für jeden der vom ersten Rahmen unterschiedlichen Rahmen ein Paar gibt.
17. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Antitransformante (C&sub1;, C&sub2;, C&sub3;) eine inverse Fourier-Transformante ist.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß die inverse Fourier- Transformante eine inverse schnelle Fourier-Transformante oder FFT ist.
19. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;') mittels Filtration und Interpolation geschätzt werden.
20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß die Filtration der ersten Signale (C&sub1;, C&sub2;, C&sub3;) durch die Verwendung von mindestens einem Filter mit begrenztem Ansprechen auf einen Impuls oder FIR aktiviert wird.
21. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;') einem Schritt zur Suche nach dem Höchstwert der Signale (C&sub1;', C&sub2;', C&sub3;') zwecks Erzeugung von zweiten Signalen (M&sub1;, M&sub2;, M&sub3;) unterzogen werden.
22. Verfahren nach Anspruch 15 und Anspruch 21, dadurch gekennzeichnet, daß die Phase des Suchens nach dem Höchstwert die Phasen:
- des Suchens nach dem Höchstwert der gefilterten und interpolierten Kohärenzfunktionen Cj'(t, τ'), wenn eine Verzögerung τ' variiert,
- des Erzeugens der Funktionen Mj(t), die im wesentlichen gemäß der Formel
Mj(t) = max Cj'(t, τ')
τ'
definiert sind, wenn t variiert, und
- des Berechnens der Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) als Verzögerungen δj(t) = τ'max entsprechend den Funktionen Mj(t)
umfaßt.
23. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phase des Detektierens des akustischen Ereignisses die Phasen:
- des Erzeugens eines Detektionssignals (d) auf Basis der zweiten Signale (M&sub1;, M&sub2;, M&sub3;),
- des Feststellens, daß das Detektionssignal (d) einen vorbestimmten Schwellenwert überschritten hat
umfaßt.
24. Verfahren nach Anspruch 22 und Anspruch 23, dadurch gekennzeichnet, daß das Detektionssignal (d) im wesentlichen gemäß der Formel
d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]
erzeugt wird, wobei d(t) das Detektionssignal (d) ist.
25. Verfahren nach Anspruch 1 und Anspruch 6, dadurch gekennzeichnet, daß der Schritt des Lokalisierens des akustischen Ereignisses die Phasen:
- des Berechnens eines Astes einer Hyperbel, welche ihren Brennpunkt in einem der zwei Detektionspunkte hat, für jedes Paar von Detektionspunkten entsprechend den Rahmenpaaren,
- des Berechnens einer Fläche, welche durch die Äste einer Hyperbel definiert ist, innerhalb welcher sich das akustische Ereignis befindet,
umfaßt.
DE69324646T 1992-10-23 1993-10-18 Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme Expired - Lifetime DE69324646T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITTO920855A IT1257164B (it) 1992-10-23 1992-10-23 Procedimento per la localizzazione di un parlatore e l'acquisizione diun messaggio vocale, e relativo sistema.

Publications (2)

Publication Number Publication Date
DE69324646D1 DE69324646D1 (de) 1999-06-02
DE69324646T2 true DE69324646T2 (de) 1999-09-09

Family

ID=11410802

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69324646T Expired - Lifetime DE69324646T2 (de) 1992-10-23 1993-10-18 Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme

Country Status (5)

Country Link
US (1) US5465302A (de)
EP (1) EP0594098B1 (de)
AT (1) ATE179542T1 (de)
DE (1) DE69324646T2 (de)
IT (1) IT1257164B (de)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5828997A (en) * 1995-06-07 1998-10-27 Sensimetrics Corporation Content analyzer mixing inverse-direction-probability-weighted noise to input signal
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
US5844997A (en) * 1996-10-10 1998-12-01 Murphy, Jr.; Raymond L. H. Method and apparatus for locating the origin of intrathoracic sounds
US7085387B1 (en) * 1996-11-20 2006-08-01 Metcalf Randall B Sound system and method for capturing and reproducing sounds originating from a plurality of sound sources
US5950157A (en) * 1997-02-28 1999-09-07 Sri International Method for establishing handset-dependent normalizing models for speaker recognition
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
US6198693B1 (en) * 1998-04-13 2001-03-06 Andrea Electronics Corporation System and method for finding the direction of a wave source using an array of sensors
US6118880A (en) * 1998-05-18 2000-09-12 International Business Machines Corporation Method and system for dynamically maintaining audio balance in a stereo audio system
JP4467802B2 (ja) * 1998-11-11 2010-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改善された信号定位装置
US6239348B1 (en) * 1999-09-10 2001-05-29 Randall B. Metcalf Sound system and method for creating a sound event based on a modeled sound field
GB2364121B (en) * 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
US7039198B2 (en) * 2000-11-10 2006-05-02 Quindi Acoustic source localization system and method
US7092886B2 (en) * 2000-12-19 2006-08-15 Hewlett-Packard Development Company, L.P. Controlling the order of output of multiple devices
US6662137B2 (en) 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US20020082835A1 (en) * 2000-12-19 2002-06-27 Hewlett-Packard Company Device group discovery method and apparatus
WO2003028006A2 (en) * 2001-09-24 2003-04-03 Clarity, Llc Selective sound enhancement
DE60335424D1 (de) * 2002-02-06 2011-01-27 Soundtouch Ltd Verfahren für ein Touch pad
DE10208468A1 (de) * 2002-02-27 2003-09-04 Bsh Bosch Siemens Hausgeraete Elektrisches Gerät, insbesondere Dunstabzugshaube
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7158126B2 (en) * 2002-04-08 2007-01-02 Koninklijke Philips Electronics N.V. Acoustic based pointing device
US6912178B2 (en) * 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
WO2004032351A1 (en) * 2002-09-30 2004-04-15 Electro Products Inc System and method for integral transference of acoustical events
GB2397736B (en) * 2003-01-21 2005-09-07 Hewlett Packard Co Visualization of spatialized audio
EP1453348A1 (de) * 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
WO2004084187A1 (ja) * 2003-03-17 2004-09-30 Nagoya Industrial Science Research Institute 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
US20050153758A1 (en) * 2004-01-13 2005-07-14 International Business Machines Corporation Apparatus, system and method of integrating wireless telephones in vehicles
US7636448B2 (en) * 2004-10-28 2009-12-22 Verax Technologies, Inc. System and method for generating sound events
CA2598575A1 (en) * 2005-02-22 2006-08-31 Verax Technologies Inc. System and method for formatting multimode sound content and metadata
AU2007221976B2 (en) * 2006-10-19 2009-12-24 Polycom, Inc. Ultrasonic camera tracking system and associated methods
US8130966B2 (en) * 2006-10-31 2012-03-06 Anthony Grimani Method for performance measurement and optimization of sound systems using a sliding band integration curve
TWI327230B (en) * 2007-04-03 2010-07-11 Ind Tech Res Inst Sound source localization system and sound soure localization method
US20080273711A1 (en) * 2007-05-01 2008-11-06 Broussard Scott J Apparatus, system and method of integrating wireless telephones in vehicles
US8111583B2 (en) * 2007-08-21 2012-02-07 Schwartz Adam L Method and apparatus for determining and indicating direction and type of sound
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
US20100223552A1 (en) * 2009-03-02 2010-09-02 Metcalf Randall B Playback Device For Generating Sound Events
US8184180B2 (en) * 2009-03-25 2012-05-22 Broadcom Corporation Spatially synchronized audio and video capture
US8233352B2 (en) * 2009-08-17 2012-07-31 Broadcom Corporation Audio source localization system and method
CN104809259B (zh) * 2014-01-23 2019-03-08 腾讯科技(深圳)有限公司 混响三维空间定位方法和装置
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US10553971B1 (en) 2019-01-08 2020-02-04 Te Connectivity Corporation Card edge connector having a contact positioner
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
WO2020237206A1 (en) 2019-05-23 2020-11-26 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
EP4018680A1 (de) 2019-08-23 2022-06-29 Shure Acquisition Holdings, Inc. Zweidimensionale mikrofonanordnung mit verbesserter richtcharakteristik
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
EP4085660A4 (de) 2019-12-30 2024-05-22 Comhear Inc. Verfahren zum bereitstellen eines räumlichen schallfeldes
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111312291B (zh) * 2020-02-24 2023-01-03 厦门快商通科技股份有限公司 信噪比检测方法、系统、移动终端及存储介质
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3626365A (en) * 1969-12-04 1971-12-07 Elliott H Press Warning-detecting means with directional indication
US4131760A (en) * 1977-12-07 1978-12-26 Bell Telephone Laboratories, Incorporated Multiple microphone dereverberation system
US4354059A (en) * 1979-09-11 1982-10-12 Victor Company Of Japan, Ltd. Variable-directivity microphone device
US4562556A (en) * 1981-10-09 1985-12-31 Schlumberger Technology Corporation Compressional and shear velocity logging method apparatus
US4521908A (en) * 1982-09-01 1985-06-04 Victor Company Of Japan, Limited Phased-array sound pickup apparatus having no unwanted response pattern
GB2202942B (en) * 1987-03-21 1991-08-21 Ferranti Plc Production of directionally limited acoustic power spectra
NL8900571A (nl) * 1989-03-09 1990-10-01 Prinssen En Bus Holding Bv Electro-akoestisch systeem.
US4982375A (en) * 1989-11-13 1991-01-01 The United States Of America As Represented By The Secretary Of The Navy Acoustic intensity probe
DE4031089A1 (de) * 1990-10-02 1992-04-09 Diehl Gmbh & Co Minensystem

Also Published As

Publication number Publication date
ITTO920855A0 (it) 1992-10-23
DE69324646D1 (de) 1999-06-02
ATE179542T1 (de) 1999-05-15
ITTO920855A1 (it) 1994-04-23
EP0594098B1 (de) 1999-04-28
US5465302A (en) 1995-11-07
EP0594098A1 (de) 1994-04-27
IT1257164B (it) 1996-01-05

Similar Documents

Publication Publication Date Title
DE69324646T2 (de) Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60303338T2 (de) Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
DE69713647T2 (de) Verfahren und System zur Sprachanalyse mit Eingabe über eine Mikrophonanordnung
DE69409121T2 (de) Störreduktionssystem für ein binaurales hörgerät
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60212528T2 (de) Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
Sturim et al. Tracking multiple talkers using microphone-array measurements
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69606978T2 (de) Verfahren zur rauschunterdrückung mittels spektraler subtraktion
DE69925905T2 (de) Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE69307500T2 (de) Verfahren und vorrichtung zur lokalisierung von schallerzeugenden vorrichtungen mit einer antenne aus passiven funk-schall bojen
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE60304147T2 (de) Virtuelle Mikrophonanordnung
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
Griebel et al. Microphone array speech dereverberation using coarse channel modeling
DE102019211404A1 (de) Verfahren zur Bestimmung einer Einfallsrichtung einer Sondersignal-Schallquelle
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
EP0615226B1 (de) Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
JP3040651B2 (ja) 信号処理装置
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: FONDAZIONE BRUNO KESSLER, TRENTO, IT