DE60304859T2

DE60304859T2 - Verfahren zur Verarbeitung von Audiosignalen

Info

Publication number: DE60304859T2
Application number: DE60304859T
Authority: DE
Inventors: Rolf Vetter; Stephan Dasen; Philippe Vuadens; Philippe Renevey
Original assignee: Bernafon AG
Current assignee: Bernafon AG
Priority date: 2003-08-21
Filing date: 2003-08-21
Publication date: 2006-11-02
Anticipated expiration: 2023-08-22
Also published as: EP1509065B1; EP1509065A1; AU2004302264A1; AU2004302264B2; DK1509065T3; WO2005020633A1; ATE324763T1; DE60304859D1; US20070100605A1; US7761291B2

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft das Gebiet der Sprachverstärkung von Audiosignalen, und noch genauer ein Verfahren zur Audiosignalverarbeitung, um etwaige vorhandene Sprachkomponenten des Signals zu verstärken. Solche Verfahren sind insbesondere auf Hörhilfen anwendbar, wobei sie es der gehörbehinderten Person ermöglichen, besser mit anderen Leuten zu kommunizieren.
HINTERGRUND DER ERFINDUNG
Das Problem der Extrahierung eines interessierenden Signals aus verlärmten Aufnahmen ist unter Akustikingenieuren allgemein bekannt. Besonders Anwender von tragbaren Sprachverarbeitungssystemen sehen sich oft dem Problem gegenüber, dass Störgeräusche die Qualität und Verständlichkeit von Sprache herab setzen. Um diese nachteiligen Störbeiträge zu verringern, wurden mehrere Einkanal-Sprachverstärkungsalgorithmen entwickelt [1–4]. Obgleich Einkanal-Algorithmen die Signalqualität verbessern können, haben neuere Untersuchungen berichtet, dass sie trotzdem immer noch nicht in der Lage sind, die Verständlichkeit von Sprache zu verbessern [5]. Es wurde hingegen wiederholt gezeigt, dass Mehrmikrophon-Störgeräuschunterdrückungsmethoden die Verständlichkeit und Qualität von Sprache verbessern [6, 7].
Mehrmikrophon-Sprachverstärkungsalgorithmen lassen sich grob in quasistationäres räumliches Filtern und zeitvariables Umhüllungsfiltern unterteilen [8]. Das quasi-stationäre räumliche Filtern nutzt die räumliche Konfiguration der Tonquellen, um Störgeräusche durch ein Raumfilter zu unterdrücken. Die Filtercharakteristiken ändern sich nicht mit der Dynamik von Sprache, aber mit den langsameren Änderungen der räumlichen Konfiguration der Tonquellen. Sie erzielen eine von Kunstprodukten nahezu freie Sprachverstärkung in einfachen Umgebungen mit geringem Nachhall und in Computersimulationen. Typische Beispiele sind adaptive Störgeräuschkompensation, positives und differentielles Beamforming [30], und Blindquellentrennung [28, 29]. Die vielversprechendsten Algorithmen dieser Klasse, die bisher vorgeschlagen wurden, basieren auf der Blindquellentrennung ("Blind Source Separation"; BSS). Die BSS ist die einzige Methode, die darauf abzielt, ein exaktes Modell der akustischen Umgebung abzuschätzen und es möglicherweise zu invertieren. Sie umfasst das Modell für das Entmischen einer Anzahl von akustischen Quellen aus einer gleichen Anzahl von räumlich diversen Aufnahmen. Ausserdem ist auch die Mehrpfad-Ausbreitung, d.h. Nachhall, in BSS-Modellen beinhaltet. Das grundlegende Problem der BSS liegt in der Rückgewinnung von verborgenen Quellsignalen unter ausschliesslicher Verwendung ihrer linearen Mischungen. Es sei angenommen, dass d_s statistisch unabhängige Quellen s(t) = [s₁(t), ..., s_ss(t)]^T vorliegen. Diese Quellen werden gefaltet und in einem linearen Medium gemischt, was in d_x Sensorsignalen x(t) = [x₁(t), ..., x_dx(t)]^T resultiert, die weitere Störgeräusche enthalten können:
Das Ziel der Quellentrennung ist es, die Mehrkanal-Transfercharakteristiken G(τ) zu identifizieren, sie nach Möglichkeit zu invertieren, und Schätzungen der verborgenen Quellen zu erhalten, die gegeben sind durch:
wobei W(τ) die geschätzten inversen Mehrkanal-Transfercharakteristiken von G(τ) sind. Es wurden zahlreiche Algorithmen für die Abschätzung des inversen Modells W(τ) vorgeschlagen. Sie basieren hauptsächlich auf der Nutzung der Annahme der statistischen Unabhängigkeit des Signals der verborgenen Quelle. Die statistische Unabhängigkeit kann auf verschiedene Weisen genutzt werden, und zusätzliche Beschränkungen können eingeführt werden, wie z.B. intrinsische Korrelationen oder die nicht-stationäre Beschaffenheit von Quellsignalen und/oder Störgeräusch. Als Ergebnis wurde neuerdings eine große Anzahl von BSS-Algorithmen in verschiedenen Verwirklichungsformen (z.B. Zeitbereich, Frequenzbereich und Zeit-/Frequenzbereich) für die Mehrkanal-Sprachverstärkung vorgeschlagen (s. z.B. [28, 29]).
Dogan und Stems [9] verwenden eine auf Kumulanten basierende Quellentrennung zum Verstärken des interessierenden Signals bei binauralen Hörhilfen. Rosca et al. [10] wenden Blindquellentrennung zum Entmischen von verzögerten und gefalteten Quellen aus den Signalen einer Gruppe von Mikrophonen an. Eine Nachverarbeitung wird zum Verbessern der Verstärkung vorgeschlagen. Jourjine et al. [11] verwenden die (unter Verwendung von Histogrammen geschätzte) statistische Verteilung der Signale, um Sprache und Störgeräusch von einander zu trennen. Balan et al. [2] schlagen eine autoregressive (AR) Modellierung zum Trennen von Quellen aus einer degenerierten Mischung vor. Mehrere Lösungsansätze verwenden die von einer Mehrzahl von Mikrophonen gelieferten räumlichen Informationen unter Verwendung von Beamformern. Koroljow und Gibian [12] verwenden Beamformer erster und zweiter Ordnung zum Anpassen der Richtwirkung der Hörhilfen an die Störgeräuschbedingungen.
Bhadkamkar und Ngo [3] kombinieren einen negativen Beamformer zum Extrahieren der Sprachquelle und eine Nachverarbeitung zum Eliminieren von Nachhall und Echos. Lindemann [13] verwendet einen Beamformer, um die Energie aus der Sprachquelle zu extrahieren, und ein Kugelmikrophon, um die gesamte Energie von Sprach- und Geräuschquellen zu erhalten. Das Verhältnis zwischen diesen zwei Energien ermöglicht eine Verstärkung des Sprachsignals durch eine spektrale Gewichtung. Feng et al. [14] rekonstruiert das verstärkte Signal unter Verwendung von verzögerten Versionen der Signale eines binauralen Hörhilfensystems.
Es ist gezeigt worden, daß BSS-Methoden in einfachen Umgebungen mit geringem Nachhall, in Laborstudien und in Computersimulationen eine von Kunstprodukten nahezu freie Sprachverstärkung erzielen, jedoch bei Aufnahmen in Umgebungen mit Nachhall oder/und mit diffusen Störgeräuschen keine gute Leistung erbringen. Hier bietet sich die Hypothese an, dass die Anzahl der Modellparameter in hallenden Umgebungen zu groß wird, um unter verlärmten, nicht-stationären Bedingungen exakt identifiziert werden zu können.
Eine Umhüllungsfilterung (z.B. Wiener-, DCT-Bark-, Kohärenz- und Richtungsfiltern) hingegen führt nicht zu solchen Fehlschlägen, da sie eine einfache statistische Beschreibung der akustischen Umgebung bzw. der binauralen Wechselwirkung im menschlichen Gehörapparat verwendet [8]. Solche Algorithmen verarbeiten das Signal in einem geeigneten dualen Bereich. Die Umhüllende des Nutzsignals, oder auf äquivalente Weise ein Kurzzeit-Gewichtungsindex (Kurzzeitsignal-Geräusch-Abstand (SNR), Kohärenz), wird in mehreren Frequenzbändern geschätzt. Es wird angenommen, dass das Erfassungsziel frontal auftrifft, und das verstärkte Signal wird dadurch erhalten, dass die spektrale Umhüllende des verlärmten Signals mit dem geschätzten Kurzzeit-Gewichtungsindex moduliert wird. Die Adaptierung des Gewichtungsindex besitzt eine zeitliche Auflösung, die in etwa der Silbenrate entspricht. Es wurden Zweikanal-Lösungsansätze präsentiert, die auf der statistischen Beschreibung der Quellen unter Verwendung der Kohärenzfunktion basieren [1, 15–17]. Weitere Verbesserungen wurden durch das Einbringen der räumlichen Kohärenz von verlärmten Geräuschfeldern, Maskierungseigenschaften des menschlichen Gehörapparates, und Unterraum-Lösungsansätze [19] erhalten.
Mehrkanal-Sprachverstärkungsalgorithmen auf der Grundlage einer Umhüllungsfilterung sind insbesondere gut für komplexe akustische Umgebungen geeignet, d.h. diffuses Störgeräusch und starker Nachhall. Dennoch sind sie nicht in der Lage, eine verlustfreie oder Kunstprodukt-freie Verstärkung zur Verfügung zu stellen. Alles in Allem reduzieren sie Störbeiträge in den Zeit-Frequenz-Bereichen ohne jegliche Sprachbeiträge. In Zeit-Frequenz-Bereichen mit Sprachbeiträgen kann das Störgeräusch hingegen nicht reduziert werden, und Verzerrungen können eingeführt werden. Dies ist der Hauptgrund, warum eine Umhüllungsfilterung dabei helfen könnte, die Höranstrengung in verlärmten Umgebungen zu mindern, jedoch fehlt allgemein eine Verbesserung der Verständlichkeit [20].
Die vorstehenden Erwägungen weisen darauf hin, dass die Leistungsfähigkeit von Mehrkanal Sprachverstärkungsalgorithmen wesentlich von der Komplexität des akustischen Kontextes abhängt. Ein gegebener Algorithmus wird für eine spezifische akustische Umgebung eingesetzt, und um mit veränderlichen Eigenschaften der akustischen Umgebung umgehen zu können, wurden neuerdings zusammengesetzte Algorithmen vorgeschlagen.
Der von Melanson und Lindemann in [21] vorgeschlagene Lösungsansatz besteht in einem manuellen Umschalten zwischen verschiedenen Algorithmen zur Sprachverstärkung unter verschiedenen Bedingungen. Ein manuelles Umschalten zwischen mehreren Kombinationen aus Filtern und dynamischem Komprimieren wurde ebenfalls von Lindemann et al. [22] vorgeschlagen.
Fortgeschrittenere Methoden, die ein automatisches Umschalten je nach verschiedenen Störgeräuschbedingungen verwenden, wurden von Killion et al. in [23] vorgeschlagen. Der Eingang der Hörhilfe wird automatisch zwischen Allrichtungsmikrophon und gerichtetem Mikrophon umgeschaltet.
Ein strategieselektiver Algorithmus wurde von Wittkop [24] beschrieben. Dieser Algorithmus verwendet eine Umhüllungsfilterung auf der Grundlage eines verallgemeinerten Wiener-Lösungsansatzes und eine Umhüllungsfilterung unter Einbeziehung von Unterschieden zwischen gerichteten Zwischenohrpegeln und Phasenverschiebungen. Ein Kohärenzmaß wird verwendet, um die akustischen Situationen zu identifizieren und bei zunehmender Komplexität das Richtungsfiltern allmählich abzuschalten. Es wird angemerkt, dass dieser Algorithmus dabei hilft, die Höranstrengung in verlärmten Umgebungen zu verringern, dass aber eine Verbesserung der Verständlichkeit immer noch fehlt.
Es ist daher das Ziel der vorliegenden Erfindung, ein zusammengesetztes Verfahren zur Verfügung zu stellen, das Quellentrennung und auf Kohärenz basierende Umhüllungsfilterung umfasst. Quellentrennung und auf Kohärenz basierende Umhüllungsfilterung werden im Zeit-Bark-Bereich bewerkstelligt, d.h. in spezifischen Frequenzbändern. Die Quellentrennung wird in Bändern durchgeführt, in denen kohärente Geräuschfelder des interessierenden Signals oder einer überwiegenden Geräuschquelle erfasst werden. Die auf Kohärenz basierende Umhüllungsfilterung wirkt in Bändern, in denen die Geräuschfelder diffus sind und/oder in denen die Komplexität der akustischen Umgebung zu groß ist. Quellentrennung und auf Kohärenz basierende Umhüllungsfilterung können parallel wirken und werden durch ein Maß der Kohärenz in den Bark-Bändern übergangslos aktiviert.
Es ist ein weiteres Anliegen der vorliegenden Erfindung, eine echte binaurale Verstärkung des beobachteten Geräuschfeldes zur Verfügung zu stellen, indem die durch eine Quellentrennung identifizierten Mehrkanal-Transfercharakteristiken verwendet werden. Tatsächlich erzielen Sprachverstärkungsalgorithmen hauptsächlich eine monaurale Sprachverstärkung, was impliziert, dass Anwender solcher Vorrichtungen die Fähigkeit zum Lokalisieren von Quellen verlieren. Eine viel versprechende Lösung, die eine echte binaurale Sprachverstärkung erzielen könnte, besteht aus einer Vorrichtung mit einem oder zwei Mikrophonen in jedem Ohr und einem RF-Link dazwischen. Der Nutzen für den Anwender wäre enorm. Insbesondere wurde berichtet, dass binaurales Hören die Lautstärke und den Rauschabstand des wahrgenommenen Tones erhöht, die Verständlichkeit und die Qualität von Sprache verbessert, und das Lokalisieren von Quellen gestattet, was in Gefahrensituationen von vordringlicher Wichtigkeit ist. Lindemann und Melanson [25] schlagen ein System mit Funkübertragung zwischen der Hörhilfe und einer am Gürtel des Anwenders getragenen Verarbeitungseinheit vor. Brander [7] schlägt auf ähnliche Weise eine Direktkommunikation zwischen den beiden Ohrvorrichtungen vor. Goldberg et al. [26] kombinieren die Übertragung und die Verstärkung. Schließlich wurde eine optische Übertragung über Gläser von Martin vorgeschlagen [27]. Dennoch wurde in keinem dieser Lösungsansätze eine virtuelle Rekonstruktion des binauralen Geräuschfeldes vorgeschlagen. Der hiermit vorgeschlagene Lösungsansatz, nämlich eine Nutzung der durch eine Quellentrennung identifizierten Mehrkanal-Transfercharakteristiken zum Rekonstruieren des realen Geräuschfeldes und Dämpfen von Störbeiträgen verbessert die Sicherheit und den Komfort der horchenden Person erheblich.

[1] J.B. Allen, D.A. Berkley, und J. Blauert. Multimicrophone signal processing technique to remove room reverberation from speech signals. Journal of Acoustical Society of America, 62(4):912–915, 1977.
[2] Radu Balan, Alexander Jourjine, und Justinian Rosca. Estimator of independent sources from degenerate mixtures. US-Patent US 6,343,268 B1 , Jan. 2002.
[3] Neal Ashok Bhadkamkar und John-Thomas Calderon Ngo. Directional acoustic signal processor and method therefor. US-Patent US 6,002,776 , Dez. 1999.
[4] Y. Bar-Ness, J. Carlin, und M. Steinberg. Bootstrapping adaptive cross-pol canceller for satellite communication. In Proc. IEEE Int. Conf. Communication, S. 4F5.1–4F5.5, 1982.
[5] S.F. Boll. Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. on Acoustics, Speech and Signal Processing, 27:113–120, April 1979.
[6] D. Bradwood. Cross-coupled cancellation systems for improving cross-polarisation discrimination. In Proc. IEEE Int. Conf. Antennas Propagation, Vol. 1, S. 41–45, 1978.
[7] Richard Brander. Bilateral signal processing prothesis. US-Patent US 5,991,419 , Nov. 1999.
[9] Mithat Can Dogan und Stephen Deane Steams. Cochannel signal processing system. US-Patent US 6,018,317 , Jan. 2000.
[10] Justianian Rosca, Christian Darken, Thomas Petsche, und Inga Holube. Blind source separation for hearing aids. European Patent Office Patent 99,310,611.1, Dez. 1999.
[11] Alexander Jourjine, Scott T. Rickard, und Ozgur Yilmaz. Method and apparatus for demixing of degenerate mixtures. US-Patent US 6,430,528 B1 , Aug. 2002.
[12] Walter S. Koroljow und Gary L. Gibian. Hybrid adaptive beamformer. US-Patent US 6,154,552 , Nov. 2000.
[13] Eric Lindemann. Dynamic intensity beamforming system for noise reduction in a binaural hearing aid. US-Patent US 5,511,128 , Apr. 1996.
[14] Albert S. Feng, Charissa R. Lansing, Chen Liu, William O'Brien, und Bruce C. Wheeler. Binaural signal processing system and method. US-Patent US 6,222,927 B1 , April 2001.
[15] Y. Kaneda und T. Tohyama. Noise suppression signal processing using 2-point received signals. Electronics and Communications, 67a(12):19–28, 1984.
[16] B. Le Bourquin und G. Faucon. Using the coherence function for noise reduction. IEE Proceedings, 139(3):484–487, 1997.
[17] G.C. Carter, C.H: Knapp, and A.H. Nuttall. Estimation of the magnitude square coherence function via overlapped fast Fourier transform processing. IEEE Trans. on Audio und Acoustics, 21(4):337–344, 1973.
[18] Y. Ephrahim und H.L. Van Trees. A signal subspace approach for speech enhancement. IEEE Trans. on Speech und Audio Proc., 3:251–266, 1995.
[19] R.Vetter. Method and system for enhancing speech in a noisy environment. US-Patent US 2003/0014248 A1 Jan. 2003.
[20] V. Hohmann, J. Nix, G. Grimm und T. Wittkopp. Binaural noise reduction for hearing aids. In ICASSP 2002, Orlando, USA, 2002.
[21] John L. Melanson und Eric Lindemann. Digital signal processing hearing aid. US-Patent US 6,104,822 , Aug. 2000.
[22] Eric Lindemann, John Melanson, und Nikolai Bisgaard. Digital hearing aid system. US-Patent US 5,757,932 , Mai 1998.
[23] Mead Killion, Fred Waldhauer, Johannes Wittkowski, Richard Goode, und John Allen. Hearing aid having plural microphones and a microphone switching system. US-Patent US 6,327,370 B1 , Dez. 2001.
[24] Thomas Wittkop. Two-channel noise reduction algorithms motivated by models of binaural interaction. Dissertation, Fachbereich Physik der Universität Oldenburg, 2000.
[25] Eric Lindemann und John L. Melanson. Binaural hearing aid. US-Patent US 5,479,522 , Dec. 1995.
[26] Jack Goldberg, Mead C. Killion, und Jame R. Hendershot. System and method for enhancing speech intelligibility utilizing wireless communication. US-Patent US 5,966,639 , Okt. 1999.
[27] Raimund Martin. Hearing aid having two hearing apparatuses with optical signal transmission therebetween. US-Patent 6,148,087, Nov. 2000.
[28] J. Anemüller. Across-frequency processing in convolutive blind source separation. Dissertation, Fachbereich Physik der Universität Oldenburg, 2000.
[29] Lucas Parra und Clay Spence. Convolutive blind separation of non-stationary sources. IEEE Trans. on Speech and Audio Processing, 8(3):320–327, 2000.
[30] S. Haykin. Adaptive filter theory. Prentice Hall, New Jersey, 1996.

ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung umfasst ein Verfahren zur Audiosignalverarbeitung, bei welchem Audiosignale an zwei beabstandeten Orten aufgenommen und einer Transformation im Wahrnehmungsbereich unterzogen werden (Bark- or Mel-Zerlegung), wonach die Verstärkung des Sprachsignals auf der Kombination von parametrischen (auf einem Modell basierenden) und nicht-parametrischen (statistischen) Sprachverstärkungs-Lösungsansätzen basiert:

a. ein Quellentrennungsprozess wird durchgeführt, um eine erste Abschätzung der gewünschten Signalteile und der Störungsteile der Mikrophonsignale zu erhalten, und
b. eine auf Kohärenz basierende Umhüllungsfilterung wird durchgeführt, um eine zweite Abschätzung der gewünschten Signalteile der Mikrophonsignale zu erhalten, und weiter wird an den mindestens zwei Signalen eine Geräuschfeld-Diffusitätsdetektierung durchgeführt, worin die Geräuschfeld-Diffusitätsdetektierung weiter dazu dient, den Ausgang von dem ersten und dem zweiten Quellentrennungsprozess zu mischen, damit das bestmögliche Signal erhalten wird. Die von den Quellentrennungsalgorithmen geschätzten Transferfunktionen werden dazu verwendet, ein virtuelles stereophonisches Geräuschfeld zu rekonstruieren (räumliche Lokalisierung der verschiedenen Tonquellen).

Wenn sich die Sprach- und Geräuschquellen im unmittelbaren Geräuschfeld befinden (der direkte Pfad zwischen Tonquellen und Mikrophonen überwiegt, Nachhall gering), kann die Übertragungs-Transferfunktion von jeder Quelle in jedem Quellen-Ohrsystem abgeschätzt und dazu verwendet werden, Sprach- und Geräuschsignale durch die Verwendung der Quellentrennung zu trennen. Diese Transferfunktionen werden unter Verwendung von Quellentrennungsalgorithmen abgeschätzt. Das Lernen der Koeffizienten der Transferfunktionen kann entweder überwacht (wenn nur die Geräuschquelle aktiv ist) oder blind sein (wenn Sprach- und Geräuschquellen gleichzeitig aktiv sind). Die Lernrate in jedem Frequenzband kann von den Signalcharakteristiken abhängig sein. Das mit diesem Lösungsansatz erhaltene Signal ist die erste Abschätzung des sauberen Sprachsignals.
Wenn sich das Störsignal in dem Nachhall-Geräuschfeld befindet (Beiträge von Nachhall sind mit denen des direkten Pfades vergleichbar), schlagen Lösungsansätze mit Quellentrennung auf Grund der Komplexität der zu bewertenden Transferfunktionen fehl. Eine auf Statistik basierende Umhüllungsfilterung kann verwendet werden, um Sprache aus Störgeräusch zu extrahieren. Die im Transformationsbereich (Bark oder Mel) berechnete Kurzzeit-Kohärenzfunktion ermöglicht die Abschätzung einer Wahrscheinlichkeit des Vorhandenseins von Sprache in jedem Bark- or Mel-Frequenzband. Ihre Anwendung auf das verlärmte Sprachsignal ermöglicht es, diejenigen Bänder zu extrahieren, in denen Sprache überwiegt, und diejenigen zu dämpfen, in denen Störgeräusch überwiegt. Das mit diesem Lösungsansatz erhaltene Signal ist die zweite Abschätzung des sauberen Sprachsignals.
Diese zwei Abschätzungen des sauberen Sprachsignals werden daraufhin gemischt, um die Leistungsfähigkeit der Verstärkung zu optimieren. Das Mischen wird je nach der Geräuschfeldcharakteristik eines jeden Frequenzbandes unabhängig in jedem Frequenzband durchgeführt. Das jeweilige Gewicht für jeden Lösungsansatz und für jedes Frequenzband wird aus der Kohärenzfunktion berechnet.
Während des Kombinierens der aus den beiden Lösungsansätzen errechneten Signale werden die durch die Quellentrennung abgeschätzten Transferfunktionen verwendet, um ein virtuelles stereophonisches Geräuschfeld zu rekonstruieren und die räumlichen Informationen von den verschiedenen Quellen zurück zu gewinnen.
Bei einer weiteren Ausführungsform der Erfindung basiert die Geräuschfeld-Diffusitätsdetektierung auf dem Wert einer Kurzzeit-Kohärenzfunktion, wobei die Kohärenzfunktion ausgedrückt ist als:
Diese Funktion variiert je nach dem Betrag des "kohärenten" Signals zwischen Null und Eins. Wenn das Sprachsignal das Frequenzband dominiert, liegt die Kohärenz nahe bei Eins, und wenn keine Sprache im Frequenzband vorliegt, liegt die Kohärenz nahe bei Null. Sobald die Diffusität des Geräuschfeldes einmal bekannt ist, können die Resultate der Quellentrennung und des auf Kohärenz basierenden Lösungsansatzes optimal kombiniert werden, um die Sprachsignale zu verstärken. Bei der Kombination kann es sich um die Verwendung eines der beiden Lösungsansätze handeln, wenn sich die Geräuschquelle vollständig im unmittelbaren Geräuschfeld oder vollständig im diffusen Geräuschfeld befindet, oder um eine Kombination der Resultate, wenn sich einige der Frequenzbänder im unmittelbaren Geräuschfeld und andere im diffusen Geräuschfeld befinden.
KURZBESCHREIBUNG DER ZEICHNUNG
Es zeigt:
1 ein Blockdiagramm des vorgeschlagenen Lösungsansatzes.
2 ein Vollmischmodell für Sprach- und Geräuschquellen.
3 eine modifiziertes Mischmodell.
4 ein Entmischungsmodell.
BESCHREIBUNG EINER BEVORZUGTEN AUSFÜHRUNGSFORM
Der Zweck eines Hörhilfensystems ist, die Verständlichkeit von Sprache für gehörbehinderte Personen zu verbessern. Es ist daher wichtig, die Spezifität des Sprachsignals zu berücksichtigen. Psycho-akustische Studien haben gezeigt, dass die menschliche Frequenzwahrnehmung nicht linear mit der Frequenz verläuft, sondern dass die Empfindlichkeit gegen Frequenzänderungen mit einer zunehmenden Frequenz des Tones abnimmt. Diese Eigenschaft des menschlichen Gehörapparates wurde vielfach in Sprachverstärkungs- und Spracherkennungssystemen angewendet, um die Leistungsfähigkeit solcher Systeme zu verbessern. Die Verwendung von Critical-Band-Modellierung (Bark- oder Mel-Frequenzskala) ermöglicht es, die statistische Abschätzung der Sprach- und Störgeräuschcharakteristiken zu verbessern und somit die Qualität der Sprachverstärkung zu verbessern.
Wenn sich die Sprach- und Geräuschquellen im unmittelbaren Geräuschfeld (akustische Umgebung mit geringem Nachhall) befinden, kann die Übertragungs-Transferfunktion einer jeden Quelle in jedem Ohrsystem geschätzt werden und dazu verwendet werden, die Sprach- und Geräuschsignale von einander zu trennen. Das Mischsystem ist in 2 dargestellt.
Das Mischmodell von 2 kann so modifiziert werden, dass es dem Modell der 3 gleichwertig ist.
Die Invertierung der Transferfunktionen H12 und H21 ermöglicht es, die ursprünglichen Signale bis hin zu der von der Transferfunktion G11 und G22 eingeführten Modifikation zurück zu gewinnen. Das Entmischungsmodell ist in 4 dargestellt.
Die Entmischungs-Transferfunktionen W12 und W21 können unter Verwendung von Statistik höherer Ordnung oder einer zeitverzögerten Schätzung der Kreuzkorrelation zwischen den Beiden abgeschätzt werden. Die Abschätzung der Modellparameter kann entweder überwacht (wenn nur eine Quelle aktiv ist) oder blind sein (wenn die Sprach- und Geräuschquellen gleichzeitig aktiv sind). Die Lernrate der Modellparameter kann gemäss der Art der Geräuschfeldbedingungen in jedem Frequenzband eingestellt werden. Die resultierenden Signale sind die Abschätzungen des sauberen Sprachsignals und des Geräuschsignals.
Wenn sich die Geräuschquelle nicht in dem unmittelbaren Geräuschfeld (hallende Umgebung) befindet, werden die Misch-Transferfunktionen kompliziert, und es ist nicht möglich, sie in Echtzeit auf einem typischen Prozessor eines Hörhilfensystem zu schätzen. Unter der Annahme, dass die Sprachquelle sich im unmittelbaren Geräuschfeld befindet, übertragen die beiden Kanäle des binauralen Systems jedoch ständig Informationen über die räumliche Position der Sprachquelle, und diese können dazu verwendet werden, das Signal zu verstärken. Ein auf Statistik basierender Gewichtungs-Lösungsansatz kann verwendet werden, um die Sprache aus dem Störgeräusch zu extrahieren. Die Kurzzeit-Kohärenzfunktion ermöglicht die Abschätzung einer Wahrscheinlichkeit des Vorhandenseins von Sprache. Ein solches Maß definiert eine Gewichtungsfunktion im Zeit-Frequenz-Bereich. Deren Anwendung auf die verlärmten Sprachsignale ermöglicht die Bestimmung der Regionen, in denen Sprache überwiegt, und eine Dämpfung von Regionen, in denen Störgeräusch überwiegt.
Wie vorgehend erläutert wurde, werden in dem vorgeschlagenen Lösungsansatz zwei Verstärkungs-Lösungsansätze verwendet. Das Ziel der Geräuschfeld-Diffusitätsdetektierung ist es, die akustischen Bedingungen zu erfassen, unter denen das Hörhilfensystem arbeitet. Der Erfassungsblock liefert eine Angabe der Diffusität der Geräuschquelle. Das Ergebnis kann sein, dass die Geräuschquelle sich im unmittelbaren Geräuschfeld, im diffusen Geräuschfeld, oder dazwischen befindet. Die Information wird für jedes Bark- bzw. Mel-Frequenzband geliefert. Die vorausgehend dargestellte Kohärenzfunktion schätzt ein Maß der Diffusität. Wenn die Kohärenz zwischen Sprachpausen gleich (oder nahezu gleich) Eins ist, befindet sich die Geräuschquelle im unmittelbaren Geräuschfeld. Wenn sie nahe bei Null liegt, befindet sich die Geräuschquelle im diffusen Geräuschfeld. Für dazwischen liegende Werte liegt die akustische Umgebung zwischen dem unmittelbaren und dem diffusen Geräuschfeld.
Sobald die Diffusität des Geräuschfeldes bekannt ist, können die Resultate des parametrischen Lösungsansatzes (Quellentrennung) und des nicht-parametrischen Lösungsansatzes (Kohärenz) optimal kombiniert werden, um die Sprachsignale zu verstärken. Die Kombination kann allmählich erzielt werden, indem das durch die Quellentrennung gelieferte Signal mit dem Maß der Diffusität und das durch die Kohärenz gelieferte Signal durch den Komplementärwert zu Eins des Maßes der Diffusität gewichtet wird.
Da die Entmischungs-Transferfunktionen während der Quellentrennung identifiziert wurden, können sie dazu verwendet werden, die Räumlichkeit der Tonquellen zu rekonstruieren. Die Geräuschquelle kann dem verstärkten Sprachsignal hinzugefügt werden, wobei sie ihre Richtungseigenschaft beibehält, aber mit einer verringerten Lautstärke. Ein solcher Lösungsansatz bietet den Vorteil, dass die Verständlichkeit des Sprachsignals erhöht wird (durch die Verringerung des Geräuschpegels), aber die Information über Geräuschquellen beibehalten wird (dies kann von Nutzen sein, wenn die Geräuschquelle eine Gefahr darstellt). Durch die Beibehaltung der räumlichen Information wird auch der Anwendungskomfort erhöht.

Claims

Verfahren zur Audiosignalverarbeitung, bei welchem Audiosignale an zwei beabstandeten Orten aufgenommen und einer Transformation im Wahrnehmungsbereich unterzogen werden, wonach: a) ein Quellentrennungsprozess durchgeführt wird, um eine erste Abschätzung der gewünschten Signalteile und der Störungsteile der Mikrophonsignale zu erhalten, und b) eine auf Kohärenz basierende Umhüllungsfilterung durchgeführt wird, um eine zweite Abschätzung der gewünschten Signalteile der Mikrophonsignale zu erhalten, und wobei weiter an den mindestens zwei Signalen eine Geräuschfeld-Diffusitätsdetektierung durchgeführt wird, worin weiterhin die Geräuschfeld-Diffusitätsdetektierung dazu dient, den Ausgang von dem Blind-Quellentrennungsprozess und dem auf Kohärenz basierenden Trennungsprozess zu mischen, damit die Wirksamkeit der Verstärkung des gewünschten Signals optimiert wird.
Verfahren nach Anspruch 1, bei welchem eine virtuelle Stereophonie-Rekonstruktion des Signales vor der Lieferung des resultierenden Audiosignals an das rechte und das linke Ohr einer Person durchgeführt wird, wobei die Stereophonie-Rekombination auf der Basis der räumlichen Information über das Geräuschfeld durchgeführt wird.
Verfahren nach Anspruch 1, bei welchem die Geräuschfeld-Diffusitätsdetektierung basierend auf dem Wert einer Kurzzeit-Kohärenzfunktion durchgeführt wird, welche folgendermaßen auszudrücken ist:
worin k die Zahl des Frequenzbandes in dem Bark- oder Mel-Frequenzraum ist.