DE69324646T2 - Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme - Google Patents
Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte SystemeInfo
- Publication number
- DE69324646T2 DE69324646T2 DE69324646T DE69324646T DE69324646T2 DE 69324646 T2 DE69324646 T2 DE 69324646T2 DE 69324646 T DE69324646 T DE 69324646T DE 69324646 T DE69324646 T DE 69324646T DE 69324646 T2 DE69324646 T2 DE 69324646T2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- acoustic
- frames
- pairs
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 51
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 230000001934 delay Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims 1
- 238000002592 echocardiography Methods 0.000 abstract description 3
- 230000004807 localization Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 101100377797 Arabidopsis thaliana ABCC1 gene Proteins 0.000 description 1
- 101100107608 Arabidopsis thaliana ABCC4 gene Proteins 0.000 description 1
- 241000408659 Darpa Species 0.000 description 1
- 101150001406 EST3 gene Proteins 0.000 description 1
- 101150025806 Est1 gene Proteins 0.000 description 1
- 101000655352 Homo sapiens Telomerase reverse transcriptase Proteins 0.000 description 1
- 102100032938 Telomerase reverse transcriptase Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H3/00—Measuring characteristics of vibrations by using a detector in a fluid
- G01H3/10—Amplitude; Power
- G01H3/12—Amplitude; Power by electric means
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01V—GEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
- G01V1/00—Seismology; Seismic or acoustic prospecting or detecting
- G01V1/001—Acoustic presence detection
Landscapes
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Geology (AREA)
- Environmental & Geological Engineering (AREA)
- General Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Geophysics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Mobile Radio Communication Systems (AREA)
- Circuits Of Receivers In General (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Alarm Systems (AREA)
Description
- Die vorliegende Erfindung betrifft im allgemeinen Verfahren und Systeme zur Erfassung und Verarbeitung von akustischen Signalen, wie zum Beispiel die Verfahren und Systeme zum Detektieren, Lokalisieren und Rekonstruieren von akustischen Signalen. Typische Beispiele für die Anwendung von derartigen Systemen sind die Stimmerfassung und das Orten des Sprechers.
- Die Erfassung einer stimmlichen Botschaft zum Zweck der Erkennung, Codierung und Verifizierung des Sprechers etc. erfolgt herkömmlicherweise durch die Verwendung eines stationären ("am Kopf montierten") Mikrophons vor dem Sprecher oder eines ("handgehaltenen") Mikrophons, das der Sprecher in der Hand hält. Diese Vorrichtungen haben Nachteile, die mit dem niedrigen Signal/Geräusch-Verhältnis und mit der Abhängigkeit der Leistung des Systems von der Art und Weise, in der es verwendet wird (Entfernung zwischen Mund und Mikrophon, Schläge und Vibrationen etc.), zusammenhängen. Die Verwendung einer Gruppe von Mikrophonen kann einige dieser Probleme lösen und erleichtert auch die Interaktion zwischen dem Verwender und dem System.
- Die technische Literatur der letzten zehn Jahre veranschaulicht verschiedene Beispiele für den Gebrauch von Mikrophongruppen zur Erfassung von stimmlichen Botschaften.
- Es wird zum Beispiel auf die Artikel "Some Analyses of Microphone Arrays for Speech Data Acquisition" von H. F. Silverman, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-35, Nr. 12, Dezember 1987 und auf "Computer-steered Microphone Arrays for Sound Transduction in Large Rooms" von J. L. Flanagan, J. D. Johnston, R. Zahn, G. W. Elko, J. Acoust. Soc. Am., 78(5), November 1985, Seiten 1508-1518, verwiesen.
- Die Erfassung von stimmlichen Botschaften mittels einer Gruppe von Mikrophonen wurde herkömmlicherweise unter Anwendung von Techniken erreicht, die typisch sind für die Verarbeitung von akustischen Signalen unter Wasser und von Radarsignalen, da es das Ziel ist, die Position der akustischen Quelle mittels mehrerer Sensoren, die über den Raum verteilt sind, festzustellen und dieses Wissen zu verwenden, um das Verhältnis zwischen brauchbaren Signalen und Nebengeräuschen zu verbessern.
- Manchmal ermöglichen es diese Techniken, die aus der Quelle stammenden Informationen zu extrahieren, ohne eine Schnellbestimmung ihrer Positionen (zum Beispiel Strahlenbündelungstechniken, LMS-anpassungsfähiges Filtern: siehe zum Beispiel die Artikel "Time Delay Estimation Using the LMS Adaptive Filter-Static Behaviour" von F. A. Reed, P. L. Feintuch, N. J. Bershad, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-29, Nr. 3, Juni 1981 und "On Time Delay Estimation Involving Received Signals" von C. Y. Wuu, A. E. Pearson, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-32, Nr. 4, August 1976) zu Hilfe zu nehmen.
- Das Problem der Lokalisierung einer akustischen Quelle unter Verwendung einer Mikrophongruppe ist im wesentlichen auf das Problem der Messung von Zeitverzögerungen zwischen den Signalen, die von verschiedenen Sensoren kommend erfaßt wurden, zurückzuführen. Wenn die relativen Verzögerungen, mit denen die Schallwelle die verschiedenen Mikrophone erreicht hat, bekannt sind, so kann die Kurve der ankommenden Wellenfront, die von der akustischen Quelle abgegeben wird, rekonstruiert und bis zu ihrem Mittelpunkt, wo die Quelle, die sie hervorgebracht hat, vermutet wird, zurückverfolgt werden.
- Die am weitesten verbreitete Technik zur Abschätzung der relativen Verzögerung zwischen zwei Signalen basiert darauf, den Höchstwert der Kreuzkorrelation zu finden: siehe zum Beispiel die Artikel "An Algorithm for Determining Talker Location Using a Linear Microphone Array and Optimal Hyperbolic Fit" von H. F. Silverman, Proc. Speech and Natural Language Workshop DARPA, Juni 1990, Seiten 151 - 156 und "A Two-stage Algorithm for Determining Talker Location from Linear Microphone Array Data" von H. F. Silverman, S. E. Kirtman, Computer Speech and Language (1992) 6, Seiten 129 - 152.
- Die Effizienz dieses Verfahrens wird jedoch stark vom Spektralumfang der in Frage stehenden Signale beeinflußt. Zum Beispiel wird im Fall eines Schmalbandsignals (wie zum Beispiel einer Pfeife) oder von Signalen hoher Periodizität (wie zum Beispiel von stimmlichen Lauten) die Abschätzung der Verzögerung schwierig oder sogar unmöglich, wenn Echos und Nachhall vorhanden sind: In diesen Fällen ist es am wirkungsvollsten zu versuchen, die nützlichsten Informationen zu extrahieren, um die Verzögerung und damit direkt die Phasenverzögerung abzuschätzen.
- Die Phase der Detektion eines akustischen Ereignisses besteht darin, die von den Mikrophonen erfaßten Signale voraufzubereiten, um die akustisch signifikanten Zeitabschnitte, an denen im folgenden ein Schritt zur Lokalisierung der Quelle durchgeführt wird, zu bestimmen.
- Im gewöhnlich auftretenden Fall von Quellen unbekannter und willkürlicher akustischer Ereignisse ist es unmöglich, a priori Vermutungen über die spektralen Merkmale der entsendeten Signale anzustellen, und das Detektionsverfahren kann nicht auf spezielle Signalmuster gestützt werden.
- Die Charakterisierung in Hinblick auf die Stärke des akustischen Signals ist die direkteste und einfachste, die für die Durchführung des Detektionsverfahrens in Betracht gezogen werden kann: In Fällen, in denen das Signal/Geräusch-Verhältnis nicht zu gering ist, kann es ausreichen, feste oder einstellbare Schwellen (abhängig vom geschätzten Geräuschpegel) zu überwinden.
- Wie oben gesagt, ermöglichen einige konventionelle Verfahren zur Verarbeitung von Signalen, die mit Hilfe von Mikrophongruppen erfaßt wurden, die Rekonstruktion eines optimalen Signals ohne vorhergehende Abschätzung der Position der akustischen Quelle; dieses Signal kann als gleichwertig mit der anfänglichen akustischen Botschaft erachtet werden, wobei alle unerwünschten akustischen Komponenten, die sekundären Quellen zuzuordnen sind, gedämpft werden.
- Genauergesagt betrifft die vorliegende Erfindung ein Verfahren gemäß dem kennzeichnenden Teil des Anspruchs 1, welches zum Beispiel aus US-A-4 982 375 bekannt ist. Auch US-A-4 562 556 ist für die Erfindung von einigem Interesse.
- Ziel der vorliegenden Erfindung ist die Schaffung eines Verfahrens und Systems zur Erfassung und Verarbeitung von zu einem akustischen Ereignis gehörenden akustischen Signalen, welche es ermöglichen, die obigen Nachteile hinsichtlich des Standes der Technik zu beseitigen oder wenigstens zu mildern.
- Gemäß der vorliegenden Erfindung wird dieses Ziel mittels eines Verfahrens erreicht, dessen weitere Merkmale im kennzeichnenden Teil des Anspruchs 1 aufgezeigt sind.
- Genauergesagt besitzt die erfindungsgemäße Lösung Merkmale hinsichtlich Wirksamkeit, Rechengeschwindigkeit, Genauigkeit und Unempfindlichkeit gegenüber Störungen, die Systemen vom Stand der Technik überlegen sind. Derartige Lösungen können für die Erfassung einer stimmlichen Botschaft oder anderer Arten von akustischen Ereignissen sowie deren Lokalisierung verwendet werden.
- Die vorliegende Erfindung sieht die Verwendung von wenigstens einer Mikrophongruppe in einem System vor, was die verbesserte Erfassung einer allgemeinen akustischen Botschaft in einer lauten Umgebung ermöglicht.
- Die vorliegende Erfindung bietet auch die Möglichkeit, aus den Signalen, die mittels der Mikrophongruppe erfaßt wurden, extrahierte Informationen zu verarbeiten, wobei auch die Lokalisierung des Sprechers oder der akustischen Quelle, von denen die Botschaft kommt, ermöglicht wird.
- Sowohl die Detektion als auch die Lokalisierung der Botschaft erfolgen auf neuartige Weise unter Verwendung der Phaseninformationen, die im normalisierten Querspektrum (geschätzt mittels einer schnellen Fourier-Transformante oder FFT) vorhanden sind, relativ zu von einem Paar Mikrophonen in der Gruppe erfaßten Signalen.
- Die sukzessive Ableitung einer neuen Version der Botschaft, die, betrachtet vom Standpunkt des Verhältnisses zwischen brauchbarem Signal und Umgebungsgeräusch, relativ zu den einzelnen, jedem Mikrophon in der Gruppe zugeordneten Erfassungen, verbessert ist, wird auf Basis der während der Phase, in welcher die Botschaft selbst detektiert und lokalisiert wird, erhaltenen Informationen durchgeführt: Verwendet man noch einfach eine lineare Kombination der zweckmäßig verzögerten Signale aus den Mikrophonen in der Gruppe, so unterscheidet sich dieses Verfahren der Signalrekonstruktion somit auch durch die Originalität, mit der die Informationen betreffend der Phasendivergenz zwischen den über die verschiedenen Mikrophone in der Gruppe erfaßten Signalen verwendet werden.
- Unter dem Begriff "Gruppe von Mikrophonen" ist in der vorliegenden Beschreibung und in den folgenden Ansprüchen eine Vorrichtung zu verstehen, die aus einer Mehrzahl von Mikrophonen zusammengesetzt ist, welche vorzugsweise in alle Richtungen wirken und in Bezug zueinander und in regelmäßigen Abständen zueinander ausgerichtet sind. Obwohl es in der nachfolgenden Beschreibung nicht ausdrücklich erwähnt wird, ist es in allen Fällen auch möglich, die Erfindung mit anderen Arten von Mikrophonen, die auf andere Weise räumlich angeordnet sind, durchzuführen: zum Beispiel in der im Artikel "An Approach of Dereverberation Using Multi-Microphone Sub-Band Envelope Estimation" von H. Wang und F. Itakura, Proc. IEEE Int. Conf. on Acoust. Speech Signal Processing, Mai 1991, Seiten 953-956, beschriebenen Weise.
- Es versteht sich von selbst, daß der Ausdruck "Mikrophon", wie er im vorliegenden Zusammenhang verwendet wird, im allgemeinen alle mechanisch-elektrischen Wandler, die ein akustisches Schwingphänomen (wozu die Ultraschalltöne zählen) in ein verarbeitbares elektrisches Signal verwandeln können, umfaßt.
- Es ist somit zu erkennen, daß die Mikrophone an ein Analog-Digital-Umwandlungssystem, welches in einer genügend hohen Abtastfrequenz (zum Beispiel 24 - 48 kHz) synchron zwischen den verschiedenen Kanälen funktioniert, angeschlossen sind.
- Speziell wird in der vorliegenden Beschreibung auf eine Ausführungsform, bei der vier Mikrophone verwendet werden, Bezug genommen, obwohl theoretisch drei ausreichen würden, um die Quelle zu lokalisieren; eine größere Anzahl an Mikrophonen kann jedoch sicherstellen, daß das System besser funktioniert.
- Das unten beschriebene Verfahren bezieht sich insbesondere auf das Verarbeiten von akustischen Botschaften, wobei es aus einem vorläufigen Detektieren des Ereignisses selbst, der genauen Lokalisierung der Position, in der das Ereignis erzeugt wurde, und schließlich einer fakultativen Rekonstruktion einer Version der ursprünglichen Botschaft, die von Lärm- und Nachhallkomponenten etc. gereinigt wurde, besteht. Auf diese Weise ist es möglich, die Verwendung des Moduls zum Lokalisieren und/oder das Detektieren des akustischen Ereignisses in Betracht zu ziehen, unabhängig von der Tatsache, daß die Botschaft dann zum Zweck der Codierung und Stimmerkennung in eine Version von optimaler Qualität verwandelt werden muß.
- Somit ist anzunehmen, daß das erfindungsgemäße Verfahren und System gut funktionieren bei Geräuschen, die ihren Ursprung in einem räumlich beschränkten Bereich haben und deren entsprechende akustische Druckwelle besondere Richtcharakteristika aufweist, im Gegensatz zu Hintergrundgeräusch, von dem angenommen wird, daß es sich beinahe gleichmäßig in der Umgebung ausbreitet.
- Somit berücksichtigt die vorliegende Beschreibung nicht jene Fälle, in denen Sprecher (oder allgemeine akustische Quellen) gleichzeitig Botschaften aussenden, welche eine vergleichbare Dynamik besitzen und für welche das beschriebene Verfahren (auf bekannte Weise) in Verfahren zur Trennung der Quellen integriert würde.
- In einer besonders vorteilhaften Ausführungsform sieht die vorliegende Erfindung die Verwendung einer Technik zur Abschätzung von Phasenverzögerungen vor, so wie jene, die in dem Artikel "The Generalized Correlation Method for Estimation of Time Delay" von C. H. Knapp, G. C. Carter, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP- 24, Nr. 4, August 1976, beschrieben ist und die zuvor niemals auf diesem Gebiet der akustischen Analyse verwendet wurde.
- Eine derartige Technik verwendet die Fourier-Antitransformante einer Version des Querspektrums der zwei Signale, bei welcher nur die Phaseninformationen beibehalten werden. Somit werden die Amplitudeninformationen, welche für die Messung der Verzögerungen irrelevant sind, wenn das Signal/Geräusch-Verhältnis groß genug ist, aus dem Querspektrum der Signale entfernt.
- Die Anwendung auf echte, in einer nachhallenden Umgebung erfaßte Signale hat gezeigt, daß die Wirksamkeit dieses Verfahrens zu einem Großteil unabhängig von der Art der zu lokalisierenden Quelle ist (Stimme, Pfeifen, Explosionen, verschiedene Arten von Geräuschen). Man kann außerdem Signale richtungsabhängiger Natur von anderen akustischen Phänomenen anderer Art (Hintergrundgeräusch, Nachhall, Resonanz) unterscheiden, auch wenn sie dieselbe Intensität aufweisen. Die Kosten für die Berechnung sind vergleichbar mit jenen für die leistungsfähigsten Kreuzkorrelations-Analysen und geringer als jene für andere auf adaptives Filtern basierende Schätzfunktionen für Verzögerungen.
- Die vorliegende Erfindung schlägt somit ein neuartiges Detektionsverfahren vor, basierend auf einer Kohärenzfunktion zwischen Signalpaaren, die eine Schwelle überschreiten, wobei dieselbe Funktion auch in der nachfolgenden Lokalisierungsphase verwendet wird. Eine derartige Funktion stellt eine zuverlässige Anzeige für das Vorhandensein eines akustischen Ereignisses von einer Zeitdauer, die auch sehr kurz ist und offensichtlich Richtcharakteristika aufweist, dar.
- Weiters schlägt die Erfindung ein Verfahren vor, welches die Rekonstruktion eines optimalen Signals ermöglicht, wie zum Beispiel von linearen Kombinationen jener Signale, die mit Mikrophonen erfaßt wurden und gemäß der Abschätzung der Position der vom Ortungsmodul versorgten Quelle (oder der Verzögerungen zwischen den verschiedenen Paaren) außer Phase gebracht wurden.
- Das erfindungsgemäße Verfahren und System kann hauptsächlich für die Erfassung einer gesprochenen Botschaft in einer geräuschvollen Umgebung verwendet werden, ohne daß der Sprecher die Botschaft vor einem Mikrophon sprechen muß. Wenn die Erfassungsumgebung laut ist und nachhallt, wird die Botschaft von einigen der unerwünschten Komponenten gereinigt. Die auf diese Weise erfaßte Botschaft kann dann einem Codiersystem (für Telekonferenzen oder stimmliche Botschaften) oder einem Stimmerkennungssystem zugeführt werden.
- Weitere Vorteile und Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung ersichtlich, welche nur anhand eines nicht einschränkenden Beispiels und unter Bezugnahme auf die beigefügten Zeichnungen angegeben ist, und worin:
- - Fig. 1 schematisch die Betriebsbedingungen des Systems gemäß der vorliegenden Erfindung darstellt,
- - Fig. 2 ein schematisches Blockdiagramm des Systems gemäß der vorliegenden Erfindung ist,
- - Fig. 3 ein schematisches Blockdiagramm eines Teils des Systems gemäß der vorliegenden Erfindung ist, und
- - Fig. 4 ein schematisches Blockdiagramm eines Blocks von dem in Fig. 3 dargestellten Teil des Systems ist.
- Fig. 1 stellt schematisch eine Umgebung dar, in welcher das System funktioniert. Die akustische Quelle (Sprecher, allgemeine Lautquellen etc., das heißt, das zu detektierende akustische Ereignis) ist als AS angegeben, während die Mikrophongruppe aus vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;, die als an einer X-Achse ausgerichtet dargestellt sind, besteht.
- Die relativen Positionen der Mikrophone und der akustischen Quelle sind in Form von Koordinaten in einer kartesischen Ebene x, y ausgedrückt. Die akustische Quelle AS sendet Wellenfronten aus, die zu verschiedenen Zeitpunkten und auf verschiedene Arten an verschiedenen Orten in dem räumlichen Bereich, in welchem sie verteilt werden, detektiert werden, wobei es die Mikrophone in der Gruppe P&sub0;, P&sub1;, P&sub2;, P&sub3; ermöglichen, daß sich die Funktionen des Systems an verschiedenen Stellen entwickeln.
- Fig. 2 zeigt das allgemeine Diagramm des Systems. Die Signale werden unter Verwendung von vier Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3; erfaßt, die in alle Richtungen wirken und mit gleichmäßigen Zwischenräumen zueinander relativ (zum Beispiel ein 15 cm großer Abstand zwischen zwei nebeneinander liegenden Mikrophonen) angeordnet sein sollen und die mit vier Analog-Digital-Umwandlen A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;, die mit einer gegebenen Abtastfrequenz Fc von zum Beispiel 48 kHz arbeiten, verbunden sind. Die vier Ausgänge dieser Erfassungsmodule, bezeichnet mit S&sub0;, S&sub1;, S&sub2;, S&sub3; (Si worin i = 0, ..., 3), sind mit einem Verarbeitungsmodul, das in der Regel mit RLR bezeichnet ist, verbunden (Detektion der Ereignisse, Lokalisierung der Quelle und Rekonstruktion des Signals).
- Fig. 3 zeigt das Funktionsblockdiagramm des Moduls RLR. Am Eingang erhält das Modul RLR alle Signale Si (worin i = 0, ..., 3); die Ausgänge dieses Moduls bestehen aus einem Koordinatenpaar X und Y (falls notwendig, mit einer winkelförmigen Koordinate θ, welche die Richtung der Quelle AS identifiziert), aus einem Detektionsindex d und einem rekonstruierten Signal RS.
- Im folgenden werden die Module, die das Modul RLR bilden, und die Operationen, die sie ausüben, um die Ausgänge zu erhalten, beschrieben.
- In der Praxis kann das Modul RLR von einer elektronischen Verarbeitungsvorrichtung wie zum Beispiel einem Minicomputer oder von einem speziell für diese Aufgabe programmierten Spezialprozessor gebildet sein. Die Kriterien für die Herstellung, Programmierung und Verwendung von derartigen Computern und/oder Prozessoren sind beim derzeitigen Stand der Technik gut bekannt und müssen daher hier nicht beschrieben werden.
- Das Modul RLR umfaßt eine erste Reihe von Modulen EST&sub0;, EST&sub1;, EST&sub2;, EST&sub3; (ESTi, worin 1 = 0, ..., 3), welche die jeweils am Eingang erhaltenen Signale S. (von den Mikrophonen P&sub0;, P&sub1;, P&sub2;, P&sub3;) in numerische Abtastrahmen umwandeln und außerdem die Fenster für die erhaltenen Rahmen anordnen. Der Ausgang der Module EST besteht somit aus den Rahmen, die mit x&sub0;, x&sub1;, x&sub2; bzw. x&sub3; (xi, worin i = 0, ..., 3) bezeichnet werden.
- Eine zweite Modulreihe, die mit CFFT&sub0;, CFFT&sub1;; CFFT&sub2;, CFFT&sub3; (CFFTi, worin i = 0, ..., 3) bezeichnet ist und deren Eingänge mit den jeweiligen Ausgängen der Module ESTi verbunden sind, führt für alle Rahmen die Berechnung der schnellen Fourier-Transformante (oder FFT) aus - oder gegebenenfalls einer anderen integralen Transformante. Die Ausgänge der Module CFFTi, worin i = 0, ..., 3, werden mit X&sub0;, X&sub1;, X&sub2; bzw. X&sub3; (Xi, worin i = 0, ..., 3) bezeichnet.
- Eine dritte Modulreihe, die mit CS&sub1;, CS&sub2;, CS&sub3; (CSi, worin i = 1, ..., 3) bezeichnet ist, berechnet zwischen Rahmenpaaren die Querspektra oder die normalisierten Quer- (Leistungs)spektra, die unter Anwendung einer FFT (schnellen Fourier-Transformante) geschätzt werden. Jedes der Module CSi empfängt nämlich als Eingang die Ausgänge zweier Module der vorhergehenden Reihe, das heißt, der Module CFFTi. Insbesondere empfängt jedes Modul CSi als Eingang den Ausgang Xi des entsprechenden Moduls CFFTi und dann den Ausgang X&sub0; des Moduls CFFT&sub0;.
- Auf diese Art berechnen die Module CSi das normalisierte Querspektrum der Rahmenpaare (X&sub0;, X&sub1;), (X&sub0;, X&sub2;), (X&sub0;, X&sub3;), extrahiert aus den Signalen S&sub0;, S&sub1;, S&sub2;, S&sub3;. Die Module CSi berechnen außerdem die inversen FFTs der normalisierten Querspektra. Die Ausgänge der Module CSi bestehen jeweils aus den Signalen C&sub1;, C&sub2;, C&sub3; (Ci, worin i = 1, ..., 3).
- Eine vierte Modulreihe, die mit ICM&sub1;, ICM&sub2;, ICM&sub3; (ICMi, worin i = 1, ..., 3) bezeichnet ist, interpoliert die auf diese Weise erhaltenen Signale C&sub1;, C&sub2;, C&sub3; und sucht nach deren zeitlichen Höchstwerten. Die Ausgänge der Module ICM; sind durch die Signalpaare M&sub1; und δ&sub1;, M&sub2; und δ&sub2;, M&sub3; und δ&sub3; vorgesehen.
- Ein Modul RIL führt die Detektionsfunktion auf Basis der Signale M&sub1;, M&sub2;, M&sub3; aus. Der Ausgang des Moduls RIL ist das Signal d.
- Ein Modul LOC führt die Lokalisierungsfunktion aus, das heißt, die Bestimmung der Richtung θ, aus der die Wellenfront ankommt, und die Berechnung der Koordinaten (X, Y) der Quelle. Das Modul LOC funktioniert auf Basis der Signale δ&sub1;, δ&sub2;, δ&sub3; und entsendet das Signal θ und das Koordinatenpaar X, Y am Ausgang.
- Ein Modul RIC führt die Rekonstruktionsfunktion aus, das heißt die Konstruktion einer neuen Version der akustischen Botschaft, dargestellt durch das am Ausgang RS entsendete Signal. Das Modul RIC funktioniert auf Basis der Eingangssignale δ&sub1;, δ&sub2;, δ&sub3; und S&sub0;, S&sub1;, S&sub2;, S&sub3;.
- Die verschiedenen das erfindungsgemäße System bildende Module und die Operationen, die sie ausüben, werden nun genauer Modul für Modul beschrieben.
- Für jedes Signal S extrahiert jedes Modul ESTi die jeweiligen Rahmen xi einer Länge tf ms entsprechend N Abtastwerten, mit einem Anlayseabstand von ta ms. Jeder Rahmen wird dann mit einem Blackman-Fenster gewichtet, wie in der in "Digital Signal Processing" von A. V. Oppenheim, R. W. Schafer, Prentice Hall 1975, beschriebenen Methode definiert. Die Verwendung des Blackman-Fensters hat sich als für die Zwecke der vorliegenden Erfindung wirksamer als die Verwendung eines herkömmlichen Hamming-Fensters erwiesen.
- Die Module CFFTi empfangen als Eingang die Rahmen xi von N Abtastwerten, extrahiert aus den Signalen 5 und gewichtet wie oben beschrieben. Die Rahmen werden dann einer FFT unterzogen, um eine komplexe Sequenz i von N Abtastwerten zu erhalten. Eine mögliche Berechnung der FFT ist zum Beispiel in dem oben angeführten Artikel von Oppenheim beschrieben. Die beschriebene Ausführungsform ist so aufgebaut, daß Fc = 48 kHz, N = 1024 (und infolgedessen tf = 21,33) und ta = tf/2 = 10,66. Es ist zu erkennen, daß die obigen Werte nicht in einem streng einschränkenden Sinn zu verstehen sind. Dennoch zeigen sie die entsprechenden Größenordnungen, nach denen derartige Parameter ausgewählt werden, an.
- In der Praxis umfassen alle Module CSi drei Submodule, die zum besseren Verständnis in Fig. 4 gezeigt sind.
- Ein erstes Submodul X-SP berechnet das Querspektrum eines Paares von komplexen Sequenzen X&sub0;, Xi. Ein zweites Submodul NORM normalisiert das oben angeführte Querspektrum, das vom Submodul X-SP, welches einen komplexen Vektor Yi am Ausgang erzeugt, berechnet wird. Schließlich führt ein drittes Submodul CFFT&supmin;¹ eine inverse FFT des Vektors Yi aus.
- Diese oben kurz beschriebenen Operationen werden nun genauer beschrieben, insbesondere in Hinblick auf den mathematischen Aspekt.
- Für jedes Analysemoment t wird der Vektor j von N Komponenten pro Sequenzpaar (X&sub0;, X&sub1;), (X&sub1;, X&sub2;), (X&sub2;, X&sub3;) berechnet und definiert als:
- j = FFT&supmin;¹ [ j]
- wobei, wenn j = 1, 2, 3, die 1-te generische komplexe Komponente des Vektors j definiert ist als:
- worin j* den konjugierten komplexen Vektor des Vektors j bezeichnet.
- Die Komponenten ρj(i) des Vektors j drücken einen Kohärenzfaktor zwischen den ursprünglichen Signalrahmen, wenn die relative Verzögerung τi gleich i Abtastintervallen ist, aus. Eine positive Verzögerung k/Fc entspricht der k-ten allgemeinen Komponente der ersten Hälfte des Vektors (Komponenten von Index 0 zu Index N/2-1); eine negative Verzögerung (oder Vorlauf) gleich (N - k)/Fc entspricht der k-ten allgemeinen Komponente der zweiten Hälfte des Vektors (Komponenten von Index N/2 zu Index N-1).
- Unter idealen Bedingungen, bei denen die zwei Signale abgesehen von einem Skalenfaktor und einer Verzögerung τ&sub0;, die gleich einer ganzen Anzahl von Abtastintervallen sind, gleich sind, würde eine Sequenz j, bestehend aus einem an der der Verzögerung τ&sub0; entsprechenden Komponente zentrierten Impuls, erhalten. In der Praxis kann ρj(i) ausgelegt werden als Kohärenzindex zwischen dem Rahmen x&sub0; und dem Rahmen, der erhalten wird, wenn xj von einer Anzahl von der Verzögerung τi = i/Fc entsprechenden Abtastwerten außer Phase gebracht wird, oder im Fall einer stationären akustischen Quelle als Kohärenzindex zwischen dem Signal S&sub0; und dem durch τj außer Phase gebrachten Signal Sj. Die Komponenten des Vektors werden zwischen 0 und 1 normalisiert. Wie oben definiert, führt die Analyse, die jede ta ms an den Rahmen durchgeführt wird, zur Bestimmung von drei Kohärenzfunktionen C&sub1;(t, τ), C&sub2;(t, τ), C&sub3;(t, τ), die zu jedem Zeitpunkt t = n.ta aus den Vektoren &sub1;, &sub2; bzw. &sub3; bestehen.
- Um die oben erwähnten Kohärenzinformationen deutlicher zu machen, wird jeder Vektor j in den Modulen ICM mittels einer Interpolations- und Filteroperation neu verarbeitet. Auf diese Weise kann die Abschätzung der Verzögerung zwischen zwei Signalen genauer erfolgen.
- In der Praxis wird als Ergebnis der auf den Vektor j angewandten Funktion Cj(t, τ) zu jedem Zeitpunkt t = n.ta einer Operation (beschrieben zum Beispiel im Artikel "Optimum FIR Digital Filter Implementation for Decimation, Interpolation and Narrow Band Filtering" von R. E. Crochiere, L. R. Rabiner, IEEE Trans. on Acoustics, Speech and Signal Processing, Band ASSP-23, Nr. 5, Seiten 444-456, Oktober 1975) eine neue Kohärenzfunktion C'j(t, τ') erhalten, in welcher die diskrete Variable τ' eine größere Auflösung als die diskrete Variable τ besitzt.
- Es wird dann zu jedem Zeitpunkt t = n.ta für jede Kohärenzfunktion C'j (t, τ') eine Suche nach dem Höchstwert der Funktion selbst durchgeführt, wenn die Verzögerung τ' variiert (in der Praxis drückt die Position dieses Höchstwertes die Phaseninformationen, die in den oben berechneten Querspektra vorliegen, aus). Der Höchstwert dieser Funktion, wenn τ' variiert, ist als Mj(t) definiert, und wenn j = 1, 2, 3:
- Mj(t) = max C'j(t, τ')
- τ'
- und die dementsprechende Verzögerung τ'ssx als δj(t) definiert ist.
- Modul RIL: Detektion
- Die Detektion des akustischen Ereignisses basiert zu jedem Zeitpunkt t auf den Werten M&sub1;(t), M&sub2;(t), M&sub3;(t). Ein Detektionsindex d(t) wie
- d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]
- wird von diesen Funktionen abgeleitet.
- Immer wenn dieser Index einen empirisch vordefinierten Schwellenwert Sd überschreitet, zum Beispiel ist in der vorliegenden Ausführungsform der Aufbau so, daß Sd = 0,7, so wird ein akustisches Ereignis als ausgelöst betrachtet. Das Ereignis wird als beendet betrachtet, wenn der Index wieder unter diesen Schwellenwert fällt.
- Der Lokalisierungsschritt der akustischen Quelle wird in jedem zeitlichen Abstand, in dem die Detektion ein positives Ergebnis gebracht hat (siehe Fig. 1), durchgeführt.
- Zu jedem Zeitpunkt t kann der Wert δj(t) in die Richtung, in der die Wellenfront eintraf, zurückgebracht werden, bezüglich des Zentrums des Mikrophonpaares (0, j): diese Richtung kann winkelmäßig wie folgt ausgedrückt werden:
- θj(t) = arccos (νδj(t)/dj)
- wobei v die Schallgeschwindigkeit und dj der Abstand zwischen dem Mikrophon P&sub0; und dem Mikrophon Pj ist. Für jeden Zeitpunkt t wird eine Richtung θj(t) entsprechend der Verzögerung δj(t) jedem Mikrophonpaar (0, j) zugeordnet.
- Diese Modellierung basiert auf der Annahme, daß die akustische Druckwelle die Gruppe in Form einer flachen Welle erreicht hat. Für den Fall, daß die Quelle einen kurzen Abstand von der Gruppe entfernt ist, gilt die Annahme nicht mehr.
- In diesem Fall, welcher jener ist, in dem die beschriebene Ausführungsform verwendet wird, stellen die möglichen Punkte, die das betreffende akustische Ereignis verstärken können, grafisch einen Ast einer Hyperbel dar, die ihren Brennpunkt in der Position einer der beiden Mikrophone hat. Die Verwendung von vier Mikrophonen und somit von drei Paaren ermöglicht die Bestimmung von drei Ästen einer Hyperbel, deren Schnittpunkte die Fläche, innerhalb welcher sich die Quelle befinden sollte, begrenzen.
- Das folgende Verfahren wird zur Berechnung des Schnittpunktes zwischen zwei Ästen einer Hyperbel, zum Beispiel entsprechend den Paaren (0, 1) und (0, 2), verwendet.
- Sind die Koordinaten der Mikrophone 0, 1, 2 als P&sub0;, P&sub1;, P&sub2; entlang der Achse der Gruppe gesetzt und die von jedem Paar geschätzten Verzögerungen als δ&sub0;&sub1; und δ&sub0;&sub2; bezeichnet, so sind die Koordinaten des Schnittpunktes wie folgt angegeben:
- Die Koordinaten xp13, yp13, xp23, yp23 der Schnittpunkte zwischen den anderen beiden Astpaaren einer Hyperbel werden auf ähnliche Weise bestimmt.
- Die Koordinaten (x, y) der akustischen Quelle werden von diesen drei Punkten als Baryzentrum des Dreiecks, von dem sie die Scheitelpunkte bilden, abgeleitet.
- Die Rekonstruktion der Signale auf Basis der Signale s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) und der Verzögerungen δ&sub1;(t), δ&sub2;(t) bzw. δ&sub3;(t) zwischen den Signalpaaren (0, 1), (0, 2), (0, 3) basiert auf einer Modellierung des erwünschten Signals auf folgende Art:
- s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))
- Bei Verwendung dieser Modellierung kann die Gruppe zu jedem Zeitpunkt auf die Position, die aus den gegebenen Verzögerungen ermittelt wurde, "gelenkt" werden.
- Es ist zu erkennen, daß, während das Prinzip der Erfindung dasselbe bleibt, die Details des Aufbaus und der Arten der Ausführungsform in Bezug auf jene, die beschrieben und dargestellt wurden, stark variieren können, ohne dabei von dem durch die angefügten Ansprüche definierten Rahmen der vorliegenden Erfindung abzuweichen.
Claims (25)
1. Verfahren zur Erfassung und Verarbeitung von akustischen Signalen, die zu einem
akustischen Ereignis, das sich in einem gegebenen räumlichen Bereich manifestiert,
gehören, umfassend die Schritte:
- des Erfassens der akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) an einer Mehrzahl von
verschiedenen Punkten (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in dem räumlichen Bereich,
- des Erzeugens von Signalen (Y&sub1;, Y&sub2;, Y&sub3;), die Querspektra für eine Mehrzahl
von Paaren (S&sub0;, S&sub1;; S&sub0;, S&sub2;; S&sub0;, S&sub3;) dieser akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;)
anzeigen, aus diesen akustischen Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),
dadurch gekennzeichnet, daß es die Schritte
- des Erzeugens der Signale (Y&sub1;, Y&sub2;, Y&sub3;) als Signale, die die normalisierten
Querspektra für die Mehrzahl von Paaren der akustischen Signale (S&sub0;, S&sub1;, S&sub2;,
S&sub3;) anzeigen, wobei die Phaseninformationen, die in den Querspektra zum
Zweck der Erfassung und/oder Verarbeitung vorhanden sind, extrahiert werden
und
- des Lokalisierens des akustischen Ereignisses zu jedem Zeitpunkt auf Basis
von Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;), die berechnet werden, indem man den
Höchstwert von Signalen (C&sub1;', C&sub2;', C&sub3;') sucht, die aus ersten, durch die
Antitransformante der normalisierten Querspektra erhaltenen Signalen (C&sub1;, C&sub2;,
C&sub3;) geschätzt werden,
umfaßt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß es den Schritt der
Rekonstruktion des akustischen Ereignisses unter Verwendung dieser akustischen
Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) in Verbindung mit diesen Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) umfaßt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Rekonstruktion des
akustischen Ereignisses auf einer Modellierung des zu rekonstruierenden akustischen
Signals basiert, u. zw. im wesentlichen gemäß der Formel:
s(t) = a&sub0;s&sub0;(t) + a&sub1;s&sub1;(t + δ&sub1;(t)) + a&sub2;s&sub2;(t + δ&sub2;(t)) + a&sub3;s&sub3;(t + δ&sub3;(t))
worin s(t) das zu rekonstruierende akustische Signal ist, s&sub0;(t), s&sub1;(t), s&sub2;(t), s&sub3;(t) die
akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) sind, δ&sub1;(t), δ&sub2;(t), δ&sub3;(t) die Verzögerungen (δ&sub1;, δ&sub2;,
δ&sub3;) sind und a&sub0;, a&sub1;, a&sub2;, a&sub3; numerische Koeffizienten sind.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
die akustischen Signale (S&sub0;, S&sub1;, S&sub2;, S&sub3;) nach der Messung (P&sub0;, P&sub1;, P&sub2;, P&sub3;) in ein
digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) umgewandelt werden.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Umwandlung in ein
digitales Format (A/D&sub0;, A/D&sub1;, A/D&sub2;, A/D&sub3;) bei einer gegebenen Abtastfrequenz (Fc)
stattfindet, welche höher ist als das Frequenzband des akustischen Ereignisses.
6. Verfahren nach Anspruch 1 oder Anspruch 4, dadurch gekennzeichnet, daß der Schritt
des Erzeugens der ersten Signale (C&sub1;, C&sub2;, C&sub3;) auf Basis der akustischen Signale (S&sub0;, S&sub1;,
S&sub2;, S&sub3;) die Phasen:
- des Extrahierens von Abtastrahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) aus den akustischen
Signalen (S&sub0;, S&sub1;, S&sub2;, S&sub3;),
- des Berechnens einer integralen Transformante (X&sub0;, X&sub1;, X&sub2;, X&sub3;) aus den
Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;),
- des Berechnens der Quer-Leistungsspektra für eine Mehrzahl von Paaren der
integralen Transformante der Rahmen (X&sub0;, X&sub1;, X&sub2;, X&sub3;),
- des Berechnens der Antitransformante (C&sub1;, C&sub2;, C&sub3;) der Quer-Leistungsspektra
umfaßt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Phase zum Extrahieren
der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) die Phasen
- des Extrahierens von Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) vorbestimmter Längen tf
entsprechend einer vorbestimmten Anzahl N von Abtastwerten, mit einem
Höchstwert ta,
- des Gewichtens der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) mittels eines Fensters
umfaßt.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Fenster ein Blackman-
Fenster ist.
9. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß, wenn Fc = 48 kHz, N so
ausgewählt wird, daß es 1024 beträgt, und tf 21,33 ms beträgt, und ta tf/2 = 10,66 ms
beträgt.
10. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die integrale Transformante
(X&sub0;, X&sub1;, X&sub2;, X&sub3;) der Rahmen (x&sub0;, x&sub1;, x&sub2;, x&sub3;) eine Fourier-Transformante ist.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Fourier-Transformante
eine schnelle Fourier-Transformante oder FFT ist.
12, Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Phase des Berechnens
der Quer-Leistungsspektra
- die Phase des Berechnens eines Vektors i mit n Komponenten für jedes
einzelne der Transformantenpaare (X&sub0;, X&sub1;, X&sub2;, X&sub3;) im wesentlichen gemäß der
Formel
i = FFT&supmin;¹ [ j],
wobei, wenn j = 1, 2, 3, die Paare X&sub0;, X&sub1;; X&sub0;, X&sub2;; X&sub0;, X&sub3; sind; und die 1-te
komplexe generische Komponente des Vektors j definiert ist als:
worin Xj* der konjugierte komplexe Vektor des Vektors Xj ist,
umfaßt.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß die Komponenten des
Vektors j normalisiert sind.
14. Verfahren nach Anspruch 6 und Anspruch 12, dadurch gekennzeichnet, daß es die
Phase des Abschätzens der relativen Verzögerung zwischen Rahmenpaaren von
Signalen, welche die Phase des Verwendens des Vektors j beinhaltet, umfaßt, um
einen Kohärenzindex zwischen dem Rahmen x&sub0; und einem Rahmen zu berechnen,
welcher durch das Außerphasebringen des Rahmens xj durch eine Anzahl von
Abtastwerten i entsprechend einer Verzögerung τi = i/Fc, äquivalent zu einem
Kohärenzindex zwischen dem akustischen Signal S&sub0; und dem durch eine Verzögerung
τi außer Phase gebrachten akustischen Signal Sj, erhalten wird.
15. Verfahren nach einem der Ansprüche 1 oder 12 bis 14, dadurch gekennzeichnet, daß
die ersten Signale (C&sub1;, C&sub2;, C&sub3;) jeweils aus den Vektoren j bestehende
Kohärenzfunktionen Cj (t, τ) umfassen.
16. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Abtastrahmen in Paaren
extrahiert werden, wobei jedes einen ersten Rahmen (X&sub0;), der in jedem Paar vorliegt,
enthält, sowie einen zweiten Rahmen (X&sub1;, X&sub2;, X&sub3;), der aus den Rahmen ausgewählt ist,
welche vom ersten, allen Paaren gemeinsamen Rahmen unterschiedlich sind, sodaß es
für jeden der vom ersten Rahmen unterschiedlichen Rahmen ein Paar gibt.
17. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Antitransformante (C&sub1;,
C&sub2;, C&sub3;) eine inverse Fourier-Transformante ist.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß die inverse Fourier-
Transformante eine inverse schnelle Fourier-Transformante oder FFT ist.
19. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;')
mittels Filtration und Interpolation geschätzt werden.
20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, daß die Filtration der ersten
Signale (C&sub1;, C&sub2;, C&sub3;) durch die Verwendung von mindestens einem Filter mit
begrenztem Ansprechen auf einen Impuls oder FIR aktiviert wird.
21. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Signale (C&sub1;', C&sub2;', C&sub3;')
einem Schritt zur Suche nach dem Höchstwert der Signale (C&sub1;', C&sub2;', C&sub3;') zwecks
Erzeugung von zweiten Signalen (M&sub1;, M&sub2;, M&sub3;) unterzogen werden.
22. Verfahren nach Anspruch 15 und Anspruch 21, dadurch gekennzeichnet, daß die
Phase des Suchens nach dem Höchstwert die Phasen:
- des Suchens nach dem Höchstwert der gefilterten und interpolierten
Kohärenzfunktionen Cj'(t, τ'), wenn eine Verzögerung τ' variiert,
- des Erzeugens der Funktionen Mj(t), die im wesentlichen gemäß der Formel
Mj(t) = max Cj'(t, τ')
τ'
definiert sind, wenn t variiert, und
- des Berechnens der Verzögerungen (δ&sub1;, δ&sub2;, δ&sub3;) als Verzögerungen δj(t) = τ'max
entsprechend den Funktionen Mj(t)
umfaßt.
23. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Phase des Detektierens
des akustischen Ereignisses die Phasen:
- des Erzeugens eines Detektionssignals (d) auf Basis der zweiten Signale (M&sub1;,
M&sub2;, M&sub3;),
- des Feststellens, daß das Detektionssignal (d) einen vorbestimmten
Schwellenwert überschritten hat
umfaßt.
24. Verfahren nach Anspruch 22 und Anspruch 23, dadurch gekennzeichnet, daß das
Detektionssignal (d) im wesentlichen gemäß der Formel
d(t) = max [M&sub1;(t), M&sub2;(t), M&sub3;(t)]
erzeugt wird, wobei d(t) das Detektionssignal (d) ist.
25. Verfahren nach Anspruch 1 und Anspruch 6, dadurch gekennzeichnet, daß der Schritt
des Lokalisierens des akustischen Ereignisses die Phasen:
- des Berechnens eines Astes einer Hyperbel, welche ihren Brennpunkt in einem
der zwei Detektionspunkte hat, für jedes Paar von Detektionspunkten
entsprechend den Rahmenpaaren,
- des Berechnens einer Fläche, welche durch die Äste einer Hyperbel definiert
ist, innerhalb welcher sich das akustische Ereignis befindet,
umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ITTO920855A IT1257164B (it) | 1992-10-23 | 1992-10-23 | Procedimento per la localizzazione di un parlatore e l'acquisizione diun messaggio vocale, e relativo sistema. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69324646D1 DE69324646D1 (de) | 1999-06-02 |
DE69324646T2 true DE69324646T2 (de) | 1999-09-09 |
Family
ID=11410802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69324646T Expired - Lifetime DE69324646T2 (de) | 1992-10-23 | 1993-10-18 | Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme |
Country Status (5)
Country | Link |
---|---|
US (1) | US5465302A (de) |
EP (1) | EP0594098B1 (de) |
AT (1) | ATE179542T1 (de) |
DE (1) | DE69324646T2 (de) |
IT (1) | IT1257164B (de) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5828997A (en) * | 1995-06-07 | 1998-10-27 | Sensimetrics Corporation | Content analyzer mixing inverse-direction-probability-weighted noise to input signal |
US5694474A (en) * | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
US6002776A (en) * | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
US5844997A (en) * | 1996-10-10 | 1998-12-01 | Murphy, Jr.; Raymond L. H. | Method and apparatus for locating the origin of intrathoracic sounds |
US7085387B1 (en) * | 1996-11-20 | 2006-08-01 | Metcalf Randall B | Sound system and method for capturing and reproducing sounds originating from a plurality of sound sources |
US5950157A (en) * | 1997-02-28 | 1999-09-07 | Sri International | Method for establishing handset-dependent normalizing models for speaker recognition |
US5940118A (en) * | 1997-12-22 | 1999-08-17 | Nortel Networks Corporation | System and method for steering directional microphones |
JP3344647B2 (ja) * | 1998-02-18 | 2002-11-11 | 富士通株式会社 | マイクロホンアレイ装置 |
US6198693B1 (en) * | 1998-04-13 | 2001-03-06 | Andrea Electronics Corporation | System and method for finding the direction of a wave source using an array of sensors |
US6118880A (en) * | 1998-05-18 | 2000-09-12 | International Business Machines Corporation | Method and system for dynamically maintaining audio balance in a stereo audio system |
JP4467802B2 (ja) * | 1998-11-11 | 2010-05-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 改善された信号定位装置 |
US6239348B1 (en) * | 1999-09-10 | 2001-05-29 | Randall B. Metcalf | Sound system and method for creating a sound event based on a modeled sound field |
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
US7039198B2 (en) * | 2000-11-10 | 2006-05-02 | Quindi | Acoustic source localization system and method |
US7092886B2 (en) * | 2000-12-19 | 2006-08-15 | Hewlett-Packard Development Company, L.P. | Controlling the order of output of multiple devices |
US6662137B2 (en) | 2000-12-19 | 2003-12-09 | Hewlett-Packard Development Company, L.P. | Device location discovery by sound |
US20020082835A1 (en) * | 2000-12-19 | 2002-06-27 | Hewlett-Packard Company | Device group discovery method and apparatus |
WO2003028006A2 (en) * | 2001-09-24 | 2003-04-03 | Clarity, Llc | Selective sound enhancement |
DE60335424D1 (de) * | 2002-02-06 | 2011-01-27 | Soundtouch Ltd | Verfahren für ein Touch pad |
DE10208468A1 (de) * | 2002-02-27 | 2003-09-04 | Bsh Bosch Siemens Hausgeraete | Elektrisches Gerät, insbesondere Dunstabzugshaube |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7158126B2 (en) * | 2002-04-08 | 2007-01-02 | Koninklijke Philips Electronics N.V. | Acoustic based pointing device |
US6912178B2 (en) * | 2002-04-15 | 2005-06-28 | Polycom, Inc. | System and method for computing a location of an acoustic source |
WO2004032351A1 (en) * | 2002-09-30 | 2004-04-15 | Electro Products Inc | System and method for integral transference of acoustical events |
GB2397736B (en) * | 2003-01-21 | 2005-09-07 | Hewlett Packard Co | Visualization of spatialized audio |
EP1453348A1 (de) * | 2003-02-25 | 2004-09-01 | AKG Acoustics GmbH | Selbstkalibrierung von Arraymikrofonen |
WO2004084187A1 (ja) * | 2003-03-17 | 2004-09-30 | Nagoya Industrial Science Research Institute | 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置 |
US20050153758A1 (en) * | 2004-01-13 | 2005-07-14 | International Business Machines Corporation | Apparatus, system and method of integrating wireless telephones in vehicles |
US7636448B2 (en) * | 2004-10-28 | 2009-12-22 | Verax Technologies, Inc. | System and method for generating sound events |
CA2598575A1 (en) * | 2005-02-22 | 2006-08-31 | Verax Technologies Inc. | System and method for formatting multimode sound content and metadata |
AU2007221976B2 (en) * | 2006-10-19 | 2009-12-24 | Polycom, Inc. | Ultrasonic camera tracking system and associated methods |
US8130966B2 (en) * | 2006-10-31 | 2012-03-06 | Anthony Grimani | Method for performance measurement and optimization of sound systems using a sliding band integration curve |
TWI327230B (en) * | 2007-04-03 | 2010-07-11 | Ind Tech Res Inst | Sound source localization system and sound soure localization method |
US20080273711A1 (en) * | 2007-05-01 | 2008-11-06 | Broussard Scott J | Apparatus, system and method of integrating wireless telephones in vehicles |
US8111583B2 (en) * | 2007-08-21 | 2012-02-07 | Schwartz Adam L | Method and apparatus for determining and indicating direction and type of sound |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US20100223552A1 (en) * | 2009-03-02 | 2010-09-02 | Metcalf Randall B | Playback Device For Generating Sound Events |
US8184180B2 (en) * | 2009-03-25 | 2012-05-22 | Broadcom Corporation | Spatially synchronized audio and video capture |
US8233352B2 (en) * | 2009-08-17 | 2012-07-31 | Broadcom Corporation | Audio source localization system and method |
CN104809259B (zh) * | 2014-01-23 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 混响三维空间定位方法和装置 |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
CN112335261B (zh) | 2018-06-01 | 2023-07-18 | 舒尔获得控股公司 | 图案形成麦克风阵列 |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11310596B2 (en) | 2018-09-20 | 2022-04-19 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US10553971B1 (en) | 2019-01-08 | 2020-02-04 | Te Connectivity Corporation | Card edge connector having a contact positioner |
US11438691B2 (en) | 2019-03-21 | 2022-09-06 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
WO2020237206A1 (en) | 2019-05-23 | 2020-11-26 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
WO2020243471A1 (en) | 2019-05-31 | 2020-12-03 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
EP4018680A1 (de) | 2019-08-23 | 2022-06-29 | Shure Acquisition Holdings, Inc. | Zweidimensionale mikrofonanordnung mit verbesserter richtcharakteristik |
US12028678B2 (en) | 2019-11-01 | 2024-07-02 | Shure Acquisition Holdings, Inc. | Proximity microphone |
EP4085660A4 (de) | 2019-12-30 | 2024-05-22 | Comhear Inc. | Verfahren zum bereitstellen eines räumlichen schallfeldes |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
CN111312291B (zh) * | 2020-02-24 | 2023-01-03 | 厦门快商通科技股份有限公司 | 信噪比检测方法、系统、移动终端及存储介质 |
USD944776S1 (en) | 2020-05-05 | 2022-03-01 | Shure Acquisition Holdings, Inc. | Audio device |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
JP2024505068A (ja) | 2021-01-28 | 2024-02-02 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3626365A (en) * | 1969-12-04 | 1971-12-07 | Elliott H Press | Warning-detecting means with directional indication |
US4131760A (en) * | 1977-12-07 | 1978-12-26 | Bell Telephone Laboratories, Incorporated | Multiple microphone dereverberation system |
US4354059A (en) * | 1979-09-11 | 1982-10-12 | Victor Company Of Japan, Ltd. | Variable-directivity microphone device |
US4562556A (en) * | 1981-10-09 | 1985-12-31 | Schlumberger Technology Corporation | Compressional and shear velocity logging method apparatus |
US4521908A (en) * | 1982-09-01 | 1985-06-04 | Victor Company Of Japan, Limited | Phased-array sound pickup apparatus having no unwanted response pattern |
GB2202942B (en) * | 1987-03-21 | 1991-08-21 | Ferranti Plc | Production of directionally limited acoustic power spectra |
NL8900571A (nl) * | 1989-03-09 | 1990-10-01 | Prinssen En Bus Holding Bv | Electro-akoestisch systeem. |
US4982375A (en) * | 1989-11-13 | 1991-01-01 | The United States Of America As Represented By The Secretary Of The Navy | Acoustic intensity probe |
DE4031089A1 (de) * | 1990-10-02 | 1992-04-09 | Diehl Gmbh & Co | Minensystem |
-
1992
- 1992-10-23 IT ITTO920855A patent/IT1257164B/it active IP Right Grant
-
1993
- 1993-10-18 EP EP93116777A patent/EP0594098B1/de not_active Expired - Lifetime
- 1993-10-18 DE DE69324646T patent/DE69324646T2/de not_active Expired - Lifetime
- 1993-10-18 AT AT93116777T patent/ATE179542T1/de not_active IP Right Cessation
- 1993-10-19 US US08/137,995 patent/US5465302A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
ITTO920855A0 (it) | 1992-10-23 |
DE69324646D1 (de) | 1999-06-02 |
ATE179542T1 (de) | 1999-05-15 |
ITTO920855A1 (it) | 1994-04-23 |
EP0594098B1 (de) | 1999-04-28 |
US5465302A (en) | 1995-11-07 |
EP0594098A1 (de) | 1994-04-27 |
IT1257164B (it) | 1996-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69324646T2 (de) | Verfahren für die Ortsbestimmung eines Sprechers und zur Erhaltung einer Nachricht und verwandte Systeme | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
DE60303338T2 (de) | Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System | |
DE69713647T2 (de) | Verfahren und System zur Sprachanalyse mit Eingabe über eine Mikrophonanordnung | |
DE69409121T2 (de) | Störreduktionssystem für ein binaurales hörgerät | |
DE60027438T2 (de) | Verbesserung eines verrauschten akustischen signals | |
DE60212528T2 (de) | Verfahren zur Verbesserung der nahen Sprachaktivitätsdetektion in einem System zur Sprecherlokalisierung mit Hilfe von Strahlbildung | |
DE69131739T2 (de) | Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
Sturim et al. | Tracking multiple talkers using microphone-array measurements | |
DE112016006218B4 (de) | Schallsignal-Verbesserungsvorrichtung | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69121145T2 (de) | Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung | |
DE69606978T2 (de) | Verfahren zur rauschunterdrückung mittels spektraler subtraktion | |
DE69925905T2 (de) | Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens | |
DE19859174C1 (de) | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale | |
DE69307500T2 (de) | Verfahren und vorrichtung zur lokalisierung von schallerzeugenden vorrichtungen mit einer antenne aus passiven funk-schall bojen | |
EP3065417A1 (de) | Verfahren zur unterdrückung eines störgeräusches in einem akustischen system | |
DE60304147T2 (de) | Virtuelle Mikrophonanordnung | |
EP1755110A2 (de) | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System | |
Griebel et al. | Microphone array speech dereverberation using coarse channel modeling | |
DE102019211404A1 (de) | Verfahren zur Bestimmung einer Einfallsrichtung einer Sondersignal-Schallquelle | |
DE112017007051B4 (de) | Signalverarbeitungsvorrichtung | |
EP0615226B1 (de) | Verfahren zur Geräuschreduktion für gestörte Sprachkanäle | |
JP3040651B2 (ja) | 信号処理装置 | |
DE102019105458B4 (de) | System und Verfahren zur Zeitverzögerungsschätzung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: FONDAZIONE BRUNO KESSLER, TRENTO, IT |