-
GEBIET DER
ERFINDUNG
-
Die
Erfindung betrifft das Gebiet der Sprachverstärkung von Audiosignalen, und
noch genauer ein Verfahren zur Audiosignalverarbeitung, um etwaige
vorhandene Sprachkomponenten des Signals zu verstärken. Solche
Verfahren sind insbesondere auf Hörhilfen anwendbar, wobei sie
es der gehörbehinderten
Person ermöglichen,
besser mit anderen Leuten zu kommunizieren.
-
HINTERGRUND
DER ERFINDUNG
-
Das
Problem der Extrahierung eines interessierenden Signals aus verlärmten Aufnahmen
ist unter Akustikingenieuren allgemein bekannt. Besonders Anwender
von tragbaren Sprachverarbeitungssystemen sehen sich oft dem Problem
gegenüber,
dass Störgeräusche die
Qualität
und Verständlichkeit
von Sprache herab setzen. Um diese nachteiligen Störbeiträge zu verringern,
wurden mehrere Einkanal-Sprachverstärkungsalgorithmen
entwickelt [1–4].
Obgleich Einkanal-Algorithmen die Signalqualität verbessern können, haben
neuere Untersuchungen berichtet, dass sie trotzdem immer noch nicht
in der Lage sind, die Verständlichkeit
von Sprache zu verbessern [5]. Es wurde hingegen wiederholt gezeigt,
dass Mehrmikrophon-Störgeräuschunterdrückungsmethoden
die Verständlichkeit
und Qualität
von Sprache verbessern [6, 7].
-
Mehrmikrophon-Sprachverstärkungsalgorithmen
lassen sich grob in quasistationäres
räumliches
Filtern und zeitvariables Umhüllungsfiltern
unterteilen [8]. Das quasi-stationäre räumliche Filtern nutzt die räumliche
Konfiguration der Tonquellen, um Störgeräusche durch ein Raumfilter
zu unterdrücken.
Die Filtercharakteristiken ändern
sich nicht mit der Dynamik von Sprache, aber mit den langsameren Änderungen der
räumlichen
Konfiguration der Tonquellen. Sie erzielen eine von Kunstprodukten
nahezu freie Sprachverstärkung
in einfachen Umgebungen mit geringem Nachhall und in Computersimulationen.
Typische Beispiele sind adaptive Störgeräuschkompensation, positives
und differentielles Beamforming [30], und Blindquellentrennung [28, 29].
Die vielversprechendsten Algorithmen dieser Klasse, die bisher vorgeschlagen
wurden, basieren auf der Blindquellentrennung ("Blind Source Separation"; BSS). Die BSS ist
die einzige Methode, die darauf abzielt, ein exaktes Modell der
akustischen Umgebung abzuschätzen
und es möglicherweise
zu invertieren. Sie umfasst das Modell für das Entmischen einer Anzahl
von akustischen Quellen aus einer gleichen Anzahl von räumlich diversen
Aufnahmen. Ausserdem ist auch die Mehrpfad-Ausbreitung, d.h. Nachhall,
in BSS-Modellen beinhaltet. Das grundlegende Problem der BSS liegt
in der Rückgewinnung
von verborgenen Quellsignalen unter ausschliesslicher Verwendung
ihrer linearen Mischungen. Es sei angenommen, dass ds statistisch
unabhängige
Quellen s(t) = [s1(t), ..., sss(t)]T vorliegen. Diese Quellen werden gefaltet
und in einem linearen Medium gemischt, was in dx Sensorsignalen
x(t) = [x1(t), ..., xdx(t)]T resultiert, die weitere Störgeräusche enthalten
können:
-
-
Das
Ziel der Quellentrennung ist es, die Mehrkanal-Transfercharakteristiken
G(τ) zu
identifizieren, sie nach Möglichkeit
zu invertieren, und Schätzungen
der verborgenen Quellen zu erhalten, die gegeben sind durch:
wobei W(τ) die geschätzten inversen Mehrkanal-Transfercharakteristiken
von G(τ)
sind. Es wurden zahlreiche Algorithmen für die Abschätzung des inversen Modells
W(τ) vorgeschlagen.
Sie basieren hauptsächlich
auf der Nutzung der Annahme der statistischen Unabhängigkeit
des Signals der verborgenen Quelle. Die statistische Unabhängigkeit
kann auf verschiedene Weisen genutzt werden, und zusätzliche
Beschränkungen
können
eingeführt
werden, wie z.B. intrinsische Korrelationen oder die nicht-stationäre Beschaffenheit
von Quellsignalen und/oder Störgeräusch. Als
Ergebnis wurde neuerdings eine große Anzahl von BSS-Algorithmen
in verschiedenen Verwirklichungsformen (z.B. Zeitbereich, Frequenzbereich
und Zeit-/Frequenzbereich) für
die Mehrkanal-Sprachverstärkung
vorgeschlagen (s. z.B. [28, 29]).
-
Dogan
und Stems [9] verwenden eine auf Kumulanten basierende Quellentrennung
zum Verstärken des
interessierenden Signals bei binauralen Hörhilfen. Rosca et al. [10]
wenden Blindquellentrennung zum Entmischen von verzögerten und
gefalteten Quellen aus den Signalen einer Gruppe von Mikrophonen
an. Eine Nachverarbeitung wird zum Verbessern der Verstärkung vorgeschlagen.
Jourjine et al. [11] verwenden die (unter Verwendung von Histogrammen
geschätzte)
statistische Verteilung der Signale, um Sprache und Störgeräusch von
einander zu trennen. Balan et al. [2] schlagen eine autoregressive
(AR) Modellierung zum Trennen von Quellen aus einer degenerierten
Mischung vor. Mehrere Lösungsansätze verwenden
die von einer Mehrzahl von Mikrophonen gelieferten räumlichen
Informationen unter Verwendung von Beamformern. Koroljow und Gibian
[12] verwenden Beamformer erster und zweiter Ordnung zum Anpassen
der Richtwirkung der Hörhilfen
an die Störgeräuschbedingungen.
-
Bhadkamkar
und Ngo [3] kombinieren einen negativen Beamformer zum Extrahieren
der Sprachquelle und eine Nachverarbeitung zum Eliminieren von Nachhall
und Echos. Lindemann [13] verwendet einen Beamformer, um die Energie
aus der Sprachquelle zu extrahieren, und ein Kugelmikrophon, um
die gesamte Energie von Sprach- und Geräuschquellen zu erhalten. Das
Verhältnis
zwischen diesen zwei Energien ermöglicht eine Verstärkung des
Sprachsignals durch eine spektrale Gewichtung. Feng et al. [14]
rekonstruiert das verstärkte Signal
unter Verwendung von verzögerten
Versionen der Signale eines binauralen Hörhilfensystems.
-
Es
ist gezeigt worden, daß BSS-Methoden
in einfachen Umgebungen mit geringem Nachhall, in Laborstudien und
in Computersimulationen eine von Kunstprodukten nahezu freie Sprachverstärkung erzielen, jedoch
bei Aufnahmen in Umgebungen mit Nachhall oder/und mit diffusen Störgeräuschen keine
gute Leistung erbringen. Hier bietet sich die Hypothese an, dass
die Anzahl der Modellparameter in hallenden Umgebungen zu groß wird,
um unter verlärmten,
nicht-stationären
Bedingungen exakt identifiziert werden zu können.
-
Eine
Umhüllungsfilterung
(z.B. Wiener-, DCT-Bark-, Kohärenz-
und Richtungsfiltern) hingegen führt nicht
zu solchen Fehlschlägen,
da sie eine einfache statistische Beschreibung der akustischen Umgebung bzw.
der binauralen Wechselwirkung im menschlichen Gehörapparat
verwendet [8]. Solche Algorithmen verarbeiten das Signal in einem
geeigneten dualen Bereich. Die Umhüllende des Nutzsignals, oder
auf äquivalente
Weise ein Kurzzeit-Gewichtungsindex (Kurzzeitsignal-Geräusch-Abstand
(SNR), Kohärenz),
wird in mehreren Frequenzbändern
geschätzt.
Es wird angenommen, dass das Erfassungsziel frontal auftrifft, und das
verstärkte
Signal wird dadurch erhalten, dass die spektrale Umhüllende des
verlärmten
Signals mit dem geschätzten
Kurzzeit-Gewichtungsindex moduliert wird. Die Adaptierung des Gewichtungsindex
besitzt eine zeitliche Auflösung,
die in etwa der Silbenrate entspricht. Es wurden Zweikanal-Lösungsansätze präsentiert, die
auf der statistischen Beschreibung der Quellen unter Verwendung
der Kohärenzfunktion
basieren [1, 15–17].
Weitere Verbesserungen wurden durch das Einbringen der räumlichen
Kohärenz
von verlärmten
Geräuschfeldern,
Maskierungseigenschaften des menschlichen Gehörapparates, und Unterraum-Lösungsansätze [19]
erhalten.
-
Mehrkanal-Sprachverstärkungsalgorithmen
auf der Grundlage einer Umhüllungsfilterung
sind insbesondere gut für
komplexe akustische Umgebungen geeignet, d.h. diffuses Störgeräusch und
starker Nachhall. Dennoch sind sie nicht in der Lage, eine verlustfreie
oder Kunstprodukt-freie Verstärkung
zur Verfügung
zu stellen. Alles in Allem reduzieren sie Störbeiträge in den Zeit-Frequenz-Bereichen
ohne jegliche Sprachbeiträge.
In Zeit-Frequenz-Bereichen mit Sprachbeiträgen kann das Störgeräusch hingegen
nicht reduziert werden, und Verzerrungen können eingeführt werden. Dies ist der Hauptgrund,
warum eine Umhüllungsfilterung
dabei helfen könnte,
die Höranstrengung
in verlärmten
Umgebungen zu mindern, jedoch fehlt allgemein eine Verbesserung
der Verständlichkeit
[20].
-
Die
vorstehenden Erwägungen
weisen darauf hin, dass die Leistungsfähigkeit von Mehrkanal Sprachverstärkungsalgorithmen
wesentlich von der Komplexität
des akustischen Kontextes abhängt.
Ein gegebener Algorithmus wird für
eine spezifische akustische Umgebung eingesetzt, und um mit veränderlichen
Eigenschaften der akustischen Umgebung umgehen zu können, wurden
neuerdings zusammengesetzte Algorithmen vorgeschlagen.
-
Der
von Melanson und Lindemann in [21] vorgeschlagene Lösungsansatz
besteht in einem manuellen Umschalten zwischen verschiedenen Algorithmen
zur Sprachverstärkung
unter verschiedenen Bedingungen. Ein manuelles Umschalten zwischen
mehreren Kombinationen aus Filtern und dynamischem Komprimieren wurde
ebenfalls von Lindemann et al. [22] vorgeschlagen.
-
Fortgeschrittenere
Methoden, die ein automatisches Umschalten je nach verschiedenen
Störgeräuschbedingungen
verwenden, wurden von Killion et al. in [23] vorgeschlagen. Der
Eingang der Hörhilfe
wird automatisch zwischen Allrichtungsmikrophon und gerichtetem
Mikrophon umgeschaltet.
-
Ein
strategieselektiver Algorithmus wurde von Wittkop [24] beschrieben.
Dieser Algorithmus verwendet eine Umhüllungsfilterung auf der Grundlage
eines verallgemeinerten Wiener-Lösungsansatzes
und eine Umhüllungsfilterung
unter Einbeziehung von Unterschieden zwischen gerichteten Zwischenohrpegeln
und Phasenverschiebungen. Ein Kohärenzmaß wird verwendet, um die akustischen
Situationen zu identifizieren und bei zunehmender Komplexität das Richtungsfiltern
allmählich
abzuschalten. Es wird angemerkt, dass dieser Algorithmus dabei hilft,
die Höranstrengung
in verlärmten
Umgebungen zu verringern, dass aber eine Verbesserung der Verständlichkeit
immer noch fehlt.
-
Es
ist daher das Ziel der vorliegenden Erfindung, ein zusammengesetztes
Verfahren zur Verfügung
zu stellen, das Quellentrennung und auf Kohärenz basierende Umhüllungsfilterung
umfasst. Quellentrennung und auf Kohärenz basierende Umhüllungsfilterung
werden im Zeit-Bark-Bereich bewerkstelligt, d.h. in spezifischen
Frequenzbändern.
Die Quellentrennung wird in Bändern
durchgeführt,
in denen kohärente
Geräuschfelder
des interessierenden Signals oder einer überwiegenden Geräuschquelle
erfasst werden. Die auf Kohärenz
basierende Umhüllungsfilterung
wirkt in Bändern,
in denen die Geräuschfelder
diffus sind und/oder in denen die Komplexität der akustischen Umgebung
zu groß ist.
Quellentrennung und auf Kohärenz
basierende Umhüllungsfilterung
können
parallel wirken und werden durch ein Maß der Kohärenz in den Bark-Bändern übergangslos
aktiviert.
-
Es
ist ein weiteres Anliegen der vorliegenden Erfindung, eine echte
binaurale Verstärkung
des beobachteten Geräuschfeldes
zur Verfügung
zu stellen, indem die durch eine Quellentrennung identifizierten
Mehrkanal-Transfercharakteristiken
verwendet werden. Tatsächlich
erzielen Sprachverstärkungsalgorithmen hauptsächlich eine
monaurale Sprachverstärkung,
was impliziert, dass Anwender solcher Vorrichtungen die Fähigkeit
zum Lokalisieren von Quellen verlieren. Eine viel versprechende
Lösung,
die eine echte binaurale Sprachverstärkung erzielen könnte, besteht
aus einer Vorrichtung mit einem oder zwei Mikrophonen in jedem Ohr
und einem RF-Link dazwischen. Der Nutzen für den Anwender wäre enorm.
Insbesondere wurde berichtet, dass binaurales Hören die Lautstärke und
den Rauschabstand des wahrgenommenen Tones erhöht, die Verständlichkeit
und die Qualität
von Sprache verbessert, und das Lokalisieren von Quellen gestattet,
was in Gefahrensituationen von vordringlicher Wichtigkeit ist. Lindemann
und Melanson [25] schlagen ein System mit Funkübertragung zwischen der Hörhilfe und
einer am Gürtel
des Anwenders getragenen Verarbeitungseinheit vor. Brander [7] schlägt auf ähnliche
Weise eine Direktkommunikation zwischen den beiden Ohrvorrichtungen vor.
Goldberg et al. [26] kombinieren die Übertragung und die Verstärkung. Schließlich wurde
eine optische Übertragung über Gläser von
Martin vorgeschlagen [27]. Dennoch wurde in keinem dieser Lösungsansätze eine
virtuelle Rekonstruktion des binauralen Geräuschfeldes vorgeschlagen. Der
hiermit vorgeschlagene Lösungsansatz,
nämlich
eine Nutzung der durch eine Quellentrennung identifizierten Mehrkanal-Transfercharakteristiken
zum Rekonstruieren des realen Geräuschfeldes und Dämpfen von
Störbeiträgen verbessert
die Sicherheit und den Komfort der horchenden Person erheblich.
- [1] J.B. Allen, D.A. Berkley, und J. Blauert. Multimicrophone
signal processing technique to remove room reverberation from speech
signals. Journal of Acoustical Society of America, 62(4):912–915, 1977.
- [2] Radu Balan, Alexander Jourjine, und Justinian Rosca. Estimator
of independent sources from degenerate mixtures. US-Patent US 6,343,268 B1 ,
Jan. 2002.
- [3] Neal Ashok Bhadkamkar und John-Thomas Calderon Ngo. Directional
acoustic signal processor and method therefor. US-Patent US 6,002,776 , Dez. 1999.
- [4] Y. Bar-Ness, J. Carlin, und M. Steinberg. Bootstrapping
adaptive cross-pol canceller for satellite communication. In Proc.
IEEE Int. Conf. Communication, S. 4F5.1–4F5.5, 1982.
- [5] S.F. Boll. Suppression of acoustic noise in speech using
spectral subtraction. IEEE Trans. on Acoustics, Speech and Signal
Processing, 27:113–120,
April 1979.
- [6] D. Bradwood. Cross-coupled cancellation systems for improving
cross-polarisation
discrimination. In Proc. IEEE Int. Conf. Antennas Propagation, Vol.
1, S. 41–45,
1978.
- [7] Richard Brander. Bilateral signal processing prothesis.
US-Patent US 5,991,419 ,
Nov. 1999.
- [9] Mithat Can Dogan und Stephen Deane Steams. Cochannel signal
processing system. US-Patent US 6,018,317 ,
Jan. 2000.
- [10] Justianian Rosca, Christian Darken, Thomas Petsche, und
Inga Holube. Blind source separation for hearing aids. European
Patent Office Patent 99,310,611.1, Dez. 1999.
- [11] Alexander Jourjine, Scott T. Rickard, und Ozgur Yilmaz.
Method and apparatus for demixing of degenerate mixtures. US-Patent US 6,430,528 B1 ,
Aug. 2002.
- [12] Walter S. Koroljow und Gary L. Gibian. Hybrid adaptive
beamformer. US-Patent US 6,154,552 , Nov. 2000.
- [13] Eric Lindemann. Dynamic intensity beamforming system for
noise reduction in a binaural hearing aid. US-Patent US 5,511,128 , Apr. 1996.
- [14] Albert S. Feng, Charissa R. Lansing, Chen Liu, William
O'Brien, und Bruce
C. Wheeler. Binaural signal processing system and method. US-Patent US 6,222,927 B1 ,
April 2001.
- [15] Y. Kaneda und T. Tohyama. Noise suppression signal processing
using 2-point received
signals. Electronics and Communications, 67a(12):19–28, 1984.
- [16] B. Le Bourquin und G. Faucon. Using the coherence function
for noise reduction. IEE Proceedings, 139(3):484–487, 1997.
- [17] G.C. Carter, C.H: Knapp, and A.H. Nuttall. Estimation of
the magnitude square coherence function via overlapped fast Fourier
transform processing. IEEE Trans. on Audio und Acoustics, 21(4):337–344, 1973.
- [18] Y. Ephrahim und H.L. Van Trees. A signal subspace approach
for speech enhancement. IEEE Trans. on Speech und Audio Proc., 3:251–266, 1995.
- [19] R.Vetter. Method and system for enhancing speech in a noisy
environment. US-Patent US 2003/0014248 A1 Jan. 2003.
- [20] V. Hohmann, J. Nix, G. Grimm und T. Wittkopp. Binaural
noise reduction for hearing aids. In ICASSP 2002, Orlando, USA,
2002.
- [21] John L. Melanson und Eric Lindemann. Digital signal processing
hearing aid. US-Patent US 6,104,822 , Aug.
2000.
- [22] Eric Lindemann, John Melanson, und Nikolai Bisgaard. Digital
hearing aid system. US-Patent US 5,757,932 ,
Mai 1998.
- [23] Mead Killion, Fred Waldhauer, Johannes Wittkowski, Richard
Goode, und John Allen. Hearing aid having plural microphones and
a microphone switching system. US-Patent US 6,327,370 B1 , Dez. 2001.
- [24] Thomas Wittkop. Two-channel noise reduction algorithms
motivated by models of binaural interaction. Dissertation, Fachbereich
Physik der Universität
Oldenburg, 2000.
- [25] Eric Lindemann und John L. Melanson. Binaural hearing aid.
US-Patent US 5,479,522 ,
Dec. 1995.
- [26] Jack Goldberg, Mead C. Killion, und Jame R. Hendershot.
System and method for enhancing speech intelligibility utilizing
wireless communication. US-Patent US
5,966,639 , Okt. 1999.
- [27] Raimund Martin. Hearing aid having two hearing apparatuses
with optical signal transmission therebetween. US-Patent 6,148,087,
Nov. 2000.
- [28] J. Anemüller.
Across-frequency processing in convolutive blind source separation.
Dissertation, Fachbereich Physik der Universität Oldenburg, 2000.
- [29] Lucas Parra und Clay Spence. Convolutive blind separation
of non-stationary sources. IEEE Trans. on Speech and Audio Processing,
8(3):320–327,
2000.
- [30] S. Haykin. Adaptive filter theory. Prentice Hall, New Jersey,
1996.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
Erfindung umfasst ein Verfahren zur Audiosignalverarbeitung, bei
welchem Audiosignale an zwei beabstandeten Orten aufgenommen und
einer Transformation im Wahrnehmungsbereich unterzogen werden (Bark-
or Mel-Zerlegung),
wonach die Verstärkung
des Sprachsignals auf der Kombination von parametrischen (auf einem
Modell basierenden) und nicht-parametrischen (statistischen) Sprachverstärkungs-Lösungsansätzen basiert:
- a. ein Quellentrennungsprozess wird durchgeführt, um
eine erste Abschätzung
der gewünschten
Signalteile und der Störungsteile
der Mikrophonsignale zu erhalten, und
- b. eine auf Kohärenz
basierende Umhüllungsfilterung
wird durchgeführt,
um eine zweite Abschätzung
der gewünschten
Signalteile der Mikrophonsignale zu erhalten,
und weiter wird
an den mindestens zwei Signalen eine Geräuschfeld-Diffusitätsdetektierung durchgeführt, worin
die Geräuschfeld-Diffusitätsdetektierung
weiter dazu dient, den Ausgang von dem ersten und dem zweiten Quellentrennungsprozess
zu mischen, damit das bestmögliche
Signal erhalten wird. Die von den Quellentrennungsalgorithmen geschätzten Transferfunktionen
werden dazu verwendet, ein virtuelles stereophonisches Geräuschfeld
zu rekonstruieren (räumliche
Lokalisierung der verschiedenen Tonquellen).
-
Wenn
sich die Sprach- und Geräuschquellen
im unmittelbaren Geräuschfeld
befinden (der direkte Pfad zwischen Tonquellen und Mikrophonen überwiegt,
Nachhall gering), kann die Übertragungs-Transferfunktion
von jeder Quelle in jedem Quellen-Ohrsystem abgeschätzt und
dazu verwendet werden, Sprach- und Geräuschsignale durch die Verwendung
der Quellentrennung zu trennen. Diese Transferfunktionen werden unter
Verwendung von Quellentrennungsalgorithmen abgeschätzt. Das
Lernen der Koeffizienten der Transferfunktionen kann entweder überwacht
(wenn nur die Geräuschquelle
aktiv ist) oder blind sein (wenn Sprach- und Geräuschquellen gleichzeitig aktiv
sind). Die Lernrate in jedem Frequenzband kann von den Signalcharakteristiken
abhängig
sein. Das mit diesem Lösungsansatz
erhaltene Signal ist die erste Abschätzung des sauberen Sprachsignals.
-
Wenn
sich das Störsignal
in dem Nachhall-Geräuschfeld
befindet (Beiträge
von Nachhall sind mit denen des direkten Pfades vergleichbar), schlagen
Lösungsansätze mit
Quellentrennung auf Grund der Komplexität der zu bewertenden Transferfunktionen
fehl. Eine auf Statistik basierende Umhüllungsfilterung kann verwendet
werden, um Sprache aus Störgeräusch zu
extrahieren. Die im Transformationsbereich (Bark oder Mel) berechnete
Kurzzeit-Kohärenzfunktion
ermöglicht
die Abschätzung
einer Wahrscheinlichkeit des Vorhandenseins von Sprache in jedem
Bark- or Mel-Frequenzband. Ihre Anwendung auf das verlärmte Sprachsignal ermöglicht es,
diejenigen Bänder
zu extrahieren, in denen Sprache überwiegt, und diejenigen zu
dämpfen,
in denen Störgeräusch überwiegt.
Das mit diesem Lösungsansatz
erhaltene Signal ist die zweite Abschätzung des sauberen Sprachsignals.
-
Diese
zwei Abschätzungen
des sauberen Sprachsignals werden daraufhin gemischt, um die Leistungsfähigkeit
der Verstärkung
zu optimieren. Das Mischen wird je nach der Geräuschfeldcharakteristik eines jeden
Frequenzbandes unabhängig
in jedem Frequenzband durchgeführt.
Das jeweilige Gewicht für
jeden Lösungsansatz
und für
jedes Frequenzband wird aus der Kohärenzfunktion berechnet.
-
Während des
Kombinierens der aus den beiden Lösungsansätzen errechneten Signale werden
die durch die Quellentrennung abgeschätzten Transferfunktionen verwendet,
um ein virtuelles stereophonisches Geräuschfeld zu rekonstruieren
und die räumlichen
Informationen von den verschiedenen Quellen zurück zu gewinnen.
-
Bei
einer weiteren Ausführungsform
der Erfindung basiert die Geräuschfeld-Diffusitätsdetektierung
auf dem Wert einer Kurzzeit-Kohärenzfunktion,
wobei die Kohärenzfunktion
ausgedrückt
ist als:
-
-
Diese
Funktion variiert je nach dem Betrag des "kohärenten" Signals zwischen
Null und Eins. Wenn das Sprachsignal das Frequenzband dominiert,
liegt die Kohärenz
nahe bei Eins, und wenn keine Sprache im Frequenzband vorliegt,
liegt die Kohärenz
nahe bei Null. Sobald die Diffusität des Geräuschfeldes einmal bekannt ist,
können
die Resultate der Quellentrennung und des auf Kohärenz basierenden
Lösungsansatzes
optimal kombiniert werden, um die Sprachsignale zu verstärken. Bei
der Kombination kann es sich um die Verwendung eines der beiden
Lösungsansätze handeln,
wenn sich die Geräuschquelle
vollständig
im unmittelbaren Geräuschfeld
oder vollständig
im diffusen Geräuschfeld
befindet, oder um eine Kombination der Resultate, wenn sich einige
der Frequenzbänder
im unmittelbaren Geräuschfeld
und andere im diffusen Geräuschfeld
befinden.
-
KURZBESCHREIBUNG
DER ZEICHNUNG
-
Es
zeigt:
-
1 ein
Blockdiagramm des vorgeschlagenen Lösungsansatzes.
-
2 ein
Vollmischmodell für
Sprach- und Geräuschquellen.
-
3 eine
modifiziertes Mischmodell.
-
4 ein
Entmischungsmodell.
-
BESCHREIBUNG
EINER BEVORZUGTEN AUSFÜHRUNGSFORM
-
Der
Zweck eines Hörhilfensystems
ist, die Verständlichkeit
von Sprache für
gehörbehinderte
Personen zu verbessern. Es ist daher wichtig, die Spezifität des Sprachsignals
zu berücksichtigen.
Psycho-akustische Studien haben gezeigt, dass die menschliche Frequenzwahrnehmung
nicht linear mit der Frequenz verläuft, sondern dass die Empfindlichkeit
gegen Frequenzänderungen
mit einer zunehmenden Frequenz des Tones abnimmt. Diese Eigenschaft
des menschlichen Gehörapparates
wurde vielfach in Sprachverstärkungs-
und Spracherkennungssystemen angewendet, um die Leistungsfähigkeit
solcher Systeme zu verbessern. Die Verwendung von Critical-Band-Modellierung (Bark-
oder Mel-Frequenzskala) ermöglicht
es, die statistische Abschätzung
der Sprach- und Störgeräuschcharakteristiken
zu verbessern und somit die Qualität der Sprachverstärkung zu
verbessern.
-
Wenn
sich die Sprach- und Geräuschquellen
im unmittelbaren Geräuschfeld
(akustische Umgebung mit geringem Nachhall) befinden, kann die Übertragungs-Transferfunktion
einer jeden Quelle in jedem Ohrsystem geschätzt werden und dazu verwendet
werden, die Sprach- und Geräuschsignale
von einander zu trennen. Das Mischsystem ist in 2 dargestellt.
-
Das
Mischmodell von 2 kann so modifiziert werden,
dass es dem Modell der 3 gleichwertig ist.
-
Die
Invertierung der Transferfunktionen H12 und H21 ermöglicht es,
die ursprünglichen
Signale bis hin zu der von der Transferfunktion G11 und G22 eingeführten Modifikation
zurück
zu gewinnen. Das Entmischungsmodell ist in 4 dargestellt.
-
Die
Entmischungs-Transferfunktionen W12 und W21 können unter Verwendung von Statistik
höherer Ordnung
oder einer zeitverzögerten
Schätzung
der Kreuzkorrelation zwischen den Beiden abgeschätzt werden. Die Abschätzung der
Modellparameter kann entweder überwacht
(wenn nur eine Quelle aktiv ist) oder blind sein (wenn die Sprach-
und Geräuschquellen
gleichzeitig aktiv sind). Die Lernrate der Modellparameter kann
gemäss
der Art der Geräuschfeldbedingungen
in jedem Frequenzband eingestellt werden. Die resultierenden Signale
sind die Abschätzungen
des sauberen Sprachsignals und des Geräuschsignals.
-
Wenn
sich die Geräuschquelle
nicht in dem unmittelbaren Geräuschfeld
(hallende Umgebung) befindet, werden die Misch-Transferfunktionen
kompliziert, und es ist nicht möglich,
sie in Echtzeit auf einem typischen Prozessor eines Hörhilfensystem
zu schätzen.
Unter der Annahme, dass die Sprachquelle sich im unmittelbaren Geräuschfeld
befindet, übertragen
die beiden Kanäle
des binauralen Systems jedoch ständig
Informationen über
die räumliche
Position der Sprachquelle, und diese können dazu verwendet werden,
das Signal zu verstärken.
Ein auf Statistik basierender Gewichtungs-Lösungsansatz kann verwendet
werden, um die Sprache aus dem Störgeräusch zu extrahieren. Die Kurzzeit-Kohärenzfunktion
ermöglicht
die Abschätzung
einer Wahrscheinlichkeit des Vorhandenseins von Sprache. Ein solches
Maß definiert
eine Gewichtungsfunktion im Zeit-Frequenz-Bereich. Deren Anwendung
auf die verlärmten
Sprachsignale ermöglicht
die Bestimmung der Regionen, in denen Sprache überwiegt, und eine Dämpfung von
Regionen, in denen Störgeräusch überwiegt.
-
Wie
vorgehend erläutert
wurde, werden in dem vorgeschlagenen Lösungsansatz zwei Verstärkungs-Lösungsansätze verwendet.
Das Ziel der Geräuschfeld-Diffusitätsdetektierung
ist es, die akustischen Bedingungen zu erfassen, unter denen das
Hörhilfensystem
arbeitet. Der Erfassungsblock liefert eine Angabe der Diffusität der Geräuschquelle.
Das Ergebnis kann sein, dass die Geräuschquelle sich im unmittelbaren
Geräuschfeld,
im diffusen Geräuschfeld,
oder dazwischen befindet. Die Information wird für jedes Bark- bzw. Mel-Frequenzband
geliefert. Die vorausgehend dargestellte Kohärenzfunktion schätzt ein
Maß der
Diffusität. Wenn
die Kohärenz
zwischen Sprachpausen gleich (oder nahezu gleich) Eins ist, befindet
sich die Geräuschquelle
im unmittelbaren Geräuschfeld.
Wenn sie nahe bei Null liegt, befindet sich die Geräuschquelle
im diffusen Geräuschfeld.
Für dazwischen
liegende Werte liegt die akustische Umgebung zwischen dem unmittelbaren
und dem diffusen Geräuschfeld.
-
Sobald
die Diffusität
des Geräuschfeldes
bekannt ist, können
die Resultate des parametrischen Lösungsansatzes (Quellentrennung)
und des nicht-parametrischen Lösungsansatzes
(Kohärenz)
optimal kombiniert werden, um die Sprachsignale zu verstärken. Die
Kombination kann allmählich
erzielt werden, indem das durch die Quellentrennung gelieferte Signal
mit dem Maß der
Diffusität
und das durch die Kohärenz
gelieferte Signal durch den Komplementärwert zu Eins des Maßes der
Diffusität
gewichtet wird.
-
Da
die Entmischungs-Transferfunktionen während der Quellentrennung identifiziert
wurden, können sie
dazu verwendet werden, die Räumlichkeit
der Tonquellen zu rekonstruieren. Die Geräuschquelle kann dem verstärkten Sprachsignal
hinzugefügt
werden, wobei sie ihre Richtungseigenschaft beibehält, aber
mit einer verringerten Lautstärke.
Ein solcher Lösungsansatz
bietet den Vorteil, dass die Verständlichkeit des Sprachsignals
erhöht
wird (durch die Verringerung des Geräuschpegels), aber die Information über Geräuschquellen beibehalten
wird (dies kann von Nutzen sein, wenn die Geräuschquelle eine Gefahr darstellt).
Durch die Beibehaltung der räumlichen
Information wird auch der Anwendungskomfort erhöht.