DE19948308A1 - Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung - Google Patents

Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Info

Publication number
DE19948308A1
DE19948308A1 DE19948308A DE19948308A DE19948308A1 DE 19948308 A1 DE19948308 A1 DE 19948308A1 DE 19948308 A DE19948308 A DE 19948308A DE 19948308 A DE19948308 A DE 19948308A DE 19948308 A1 DE19948308 A1 DE 19948308A1
Authority
DE
Germany
Prior art keywords
layer
filter
spectrum
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19948308A
Other languages
English (en)
Other versions
DE19948308C2 (de
Inventor
Dietmar Ruwisch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RUWISCH, DIETMAR, DR., 12557 BERLIN, DE
Original Assignee
CORTOLOGIC AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CORTOLOGIC AG filed Critical CORTOLOGIC AG
Priority to DE19948308A priority Critical patent/DE19948308C2/de
Priority to DE50009461T priority patent/DE50009461D1/de
Priority to AT00250301T priority patent/ATE289110T1/de
Priority to EP00250301A priority patent/EP1091349B1/de
Priority to CA002319995A priority patent/CA2319995C/en
Priority to TW089120732A priority patent/TW482993B/zh
Priority to US09/680,981 priority patent/US6820053B1/en
Publication of DE19948308A1 publication Critical patent/DE19948308A1/de
Application granted granted Critical
Publication of DE19948308C2 publication Critical patent/DE19948308C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Verfahren zur Geräuschunterdrückung bei der Sprachübertragung, mit einer Geräuschunterdrückung bei der Sprachübertragung, die durch die Benutzung eines mehrschichtigen, selbstorganisierenden, rückgekoppelten neuronalen Netzwerk mit diffusiver Kopplung in einer der Neuronenschichten erfolgt.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrich­ tung zur Geräuschunterdrückung bei der Sprachübertra­ gung.
Bei der Telekommunikation sowie bei der Aufzeichnung von Sprache in tragbaren Speichergeräten tritt das Pro­ blem auf, daß die Sprachverständlichkeit durch Störge­ räusche stark beeinträchtigt ist. Insbesondere beim Te­ lefonieren im Auto mit Hilfe einer Freisprecheinrich­ tung ist dieses Problem evident. Zur Unterdrückung der Störgeräusche werden Filter in den Signalweg eingebaut. Klassische Bandpaßfilter bieten nur einen geringen Nutzen, da Störgeräusche im allgemeinen in denselben Frequenzbereichen liegen wie das Sprachsignal. Daher werden adaptive Filter benötigt, die sich selbständig den vorhandenen Störgeräuschen und den Eigenschaften des zu übertragenden Sprachsignals anpassen. Hierzu sind verschiedene Konzepte bekannt.
Aus der optimalen Filtertheorie abgeleitet ist da: Wie­ ner-Komolgorov-Filter. (S. V. Vaseghi, Advanced Signal Processing and Digital Noise Reduction", John Wiley and Teubner-Verlag, 1996). Dieses Verfahren basiert auf der Minimierung des mittleren quadratischen Fehlers zwi­ schen dem tatsächlichen und dem erwarteten Sprachsi­ gnal. Dieses Filterkonzept erfordert einen erheblichen Rechenaufwand. Außerdem ist wie bei meisten bekannten Verfahren ein stationäres Störsignal theoretische Vor­ aussetzung.
Ein ähnliches Filterprinzip liegt dem Kalman-Filter zu­ grunde (E. Wan and A. Nelson, Removal of noise from speech using the Dual Extended Kalman Filter algorithm, Proceedings of the IEEE International Conference on Acoustics and Signal Processing (ICASSP' 98), Seattle 1998). Nachteilig bei diesem Filterkonzept wirkt sich die lange Trainingszeit aus, die benötigt wird, um die Filterparameter zu ermitteln.
Ein weiteres Filterkonzept ist aus H. Hermansky and N. Morgan, RASTA processing of speech, IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4, p. 587, 1994, bekannt. Auch bei diesem Verfahren ist eine Trai­ ningsprozedur erforderlich, außerdem erfordern unter­ schiedliche Störgeräusche verschiedene Parameterein­ stellungen.
Ein als LPC bekanntes Verfahren benötigt die aufwendige Berechnung von Korrelationsmatrizen, um mit Hilfe eines linearen Prädiktionsverfahrens Filterkoeffizienten zu berechnen, wie aus T. Arai, H. Hermansky, M. Paveland, C. Avendano, Intelligibility of Speech with Filtered Time Trajectories of LPC Cepstrum, The Journal of the Acoustical Society of Maerica, Vol. 100, No. 4, Pt. 2, p. 2756, 1996, bekannt ist.
Andere bekannte Verfahren setzen neuronale Netzwerke vom Typ eines mehrschichtigen Perzeptrons zur Sprach­ verstärkung ein, so wie in H. Hermansky, E. Wan, C. Avendano, Speech Enhancement Based an Temporal Proces­ sing. Proceedings of the IEEE International Conference an Acoustics and Signal Processing (ICASSP'95), De­ troit, 1995, beschrieben.
Aufgabe der vorliegenden Erfindung ist es, ein Verfah­ ren zu schaffen, das mit geringem Rechenaufwand ein Sprachsignal an seinen zeitlichen und spektralen Eigen­ schaften erkennt und von Störgeräuschen unterscheiden werden kann.
Gelöst wird diese Aufgabe dadurch, daß bei der Sprach­ übertragung ein mehrschichtiges, selbstorganisierendes, rückgekoppeltes neuronales Netzwerk mit diffusiver Kopplung in einer der Neuronenschichten eingesetzt wird.
Dieses Netzwerk erkennt ein Sprachsignal an seinen zeitlichen und spektralen Eigenschaften und unterschei­ det dieses von Störgeräuschen. Im Vergleich zu bekann­ ten Verfahren ist der benötigte Rechenaufwand gering. Das Verfahren zeichnet sich durch eine besonders kurze Adaptionszeit aus, innerhalb derer dich das System auf die Art des Störgeräusches einstellt. Die Signalverzö­ gerung bei der Verarbeitung des Signals ist sehr kurz, so daß das Filter im Echtzeitbetrieb für Telekommunika­ tion einsatzfähig ist.
Weitere vorteilhafte Maßnahmen sind in den Unteransprü­ chen beschrieben. Die Erfindung ist in der beiliegenden Zeichnung dargestellt und wird nachfolgend näher be­ schrieben; es zeigt:
Fig. 1 das Gesamtsystem zur Sprachfilterung;
Fig. 2 ein eine Minimadetektions-Schicht, eine Reaktions-Schicht, eine Diffusions- Schicht und eine Integrations-Schicht enthaltendes neuronales Netzwerk;
Fig. 3 ein Neuron der Minima-Detektions-Schicht, welche M(f,T) ermittelt;
Fig. 4 ein Neuron der Reaktions-Schicht, welches mit Hilfe einer Reaktionsfunktion x[S(T-­ 1)] aus dem Integralsignal S(T-1) und ei­ nem frei wählbaren Parameter K, welcher den Grad der Geräuschunterdrückung be­ stimmt, aus A(f,T) und M(f,t) das Rela­ tivspektrum R(f,T) ermittelt;
Fig. 5 Neuronen der Diffusionsschicht, in wel­ cher eine der Diffusion entsprechende, lokale Kopplung zwischen den Moden herge­ stellt wird;
Fig. 6 ein Neuron der gezeigte Ausführung der Integrationsschicht;
Fig. 7 ein Beispiel für Filtereigenschaften der Erfindung bei verschiedenen Einstellungen des Kontrollparameters K.
Der in der Fig. 1 schematisch und beispielhaft darge­ stellte Gesamtsystem zur Sprachfilterung. Dieses be­ steht aus einer Samplingeinheit 10, die das geräuschbe­ haftete Sprachsignal in der Zeit t abtastet und diskre­ tisiert und somit Samples x(t) erzeugt, die in der Zeit T zu Frames aus n Samples zusammengefaßt werden.
Von jedem Frame wird mittels Fouriertransformation das Spektrum A(f,T) zur Zeit T ermittelt und einer Fil­ tereinheit 11 zugeführt, die mit Hilfe eines neuronalen Netzwerks, wie es in der Fig. 2 dargestellt ist, eine Filterfunktion F(f,T) berechnet, mit der das Spektrum A(f,T) des Signals multipliziert wird, um das ge­ räuschbefreite Spektrum B(f,T) zu erzeugen. Anschlie­ ßend wird das so gefilterte Signal einer Syntheseein­ heit (12) übergeben, die mittels inverser Fouriertrans­ formation aus dem gefilterten Spektrum B(f,T) das ge­ räuschbefreite Sprachsignal y(t) synthetisiert.
Die Fig. 2 zeigt ein eine Minimadetektions-Schicht, eine Reaktions-Schicht, eine Diffusions-Schicht und ei­ ne Integrations-Schicht enthaltende neuronales Netz­ werk, welches insbesondere Gegenstand der Erfindung ist und welchem das Spektrum A(f,T) des Eingangssignals zu­ geführt wird, woraus die Filterfunktion F(f,T) berech­ net wird. Jeder der Moden des Spektrums, die sich durch die Frequenz f unterscheiden, entspricht dabei ein ein­ zelnes Neuron pro Schicht des Netzwerks mit Ausnahme der Integrationsschicht. Die einzelnen Schichten werden in den folgenden Figuren genauer spezifiziert.
So zeigt Fig. 3 ein Neuron der Minima-Detektions- Schicht, welche M(f,T) ermittelt. M(f,T) ist in der Mo­ de mit Frequenz f das Minimum der über m Frames gemit­ telten Amplitude A(f,T) innerhalb eines Intervalls der Zeit T, welches der Länge von 1 Frames entspricht.
Fig. 4 zeigt ein Neuron der Reaktions-Schicht, welches mit Hilfe einer Reaktionsfunktion r[S(T-1)] aus dem In­ tegralsignal S(T-1), wie es in der Fig. 6 im Detail dargestellt ist, und einem frei wählbaren Parameter K, welcher den Grad der Geräuschunterdrückung bestimmt, aus A(f,T) und M(f,T) das Relativspektrum R(f,T) ermit­ telt. R(f,T) hat einen Wert zwischen null und eins. Die Reaktionsschicht unterscheidet Sprache von Geräuschen anhand des zeitlichen Verhaltens des Signals.
Fig. 5 zeigt ein Neuronen der Diffusionsschicht, in welcher eine der Diffusion entsprechende, lokale Kopp­ lung zwischen den Moden hergestellt wird. Die Diffusi­ onskonstante D bestimmt dabei die Stärke der resultie­ renden Glättung über den Frequenzen f bei festgehalte­ ner Zeit T. Die Diffusionsschicht bestimmt aus dem Re­ lativsignal R(f,T) die eigentliche Filterfunktion F(f,T), mit der das Spektrum A(f,t) multipliziert wird, um Störgeräusche zu eliminieren. In der Diffusions­ schicht wird Sprache von Geräuschen anhand spektraler Eigenschaften unterschieden.
Fig. 6 zeigt das in der gewählten Ausführung der Er­ findung einzige Neuron der Integrationsschicht, das die Filterfunktion F(f,T) bei festgehaltener Zeit T über die Frequenzen f integriert und das so erhaltene Inte­ gralsignal S(T) in die Reaktionsschicht zurückkoppelt, wie Fig. 2 zeigt. Diese globale Kopplung sorgt dafür, daß bei hohem Störpegel stark gefiltert wird, während geräuschfreie Sprache unverfälscht übertragen wird.
Fig. 7 zeigt beispielhafte Angabe der Filtereigen­ schaften der Erfindung für verschiedene Einstellungen des Kontrollparameters K. Die restlichen Parameter der Erfindung haben die Werte n = 256 Samples/Frame, m = 2.5 Frames, l = 15 Frames, D = 0.25. Die Abbildung zeigt die Dämpfung von amplitudenmoduliertem weißen Rauschen in Abhängigkeit der Modulationsfrequenz. Bei Modulations­ frequenzen zwischen 0.6 Hz und 6 Hz beträgt die Dämp­ fung weniger als 3 dB. Dieses Intervall entspricht der typischen Modulation menschlicher Sprache.
Die Erfindung wird im folgenden anhand eines Ausfüh­ rungsbeispiels näher erläutert. Zunächst wird ein Sprachsignal, das durch beliebige Störgeräusche beein­ trächtigt sei, in einer Sampling-Einheit 10 abgetastet und digitalisiert, wie die Fig. 1 zeigt. Auf diese Weise erhält man in der Zeit t die Samples x(t). Von diesen Samples werden jeweils n zu einem Frame zusam­ mengefaßt, von dem zur Zeit T mittels Fouriertransfor­ mation ein Spektrum A(f,T) berechnet wird.
Die Moden des Spektrums unterscheiden sich durch ihre Frequenz f. In einer Filtereinheit 11 wird aus dem Spektrum A(f,T) eine Filterfunktion F(f,T) erzeugt und mit dem Spektrum multipliziert. Dadurch erhält man das gefilterte Spektrum B(f,T), aus dem in einer Synthese­ einheit durch inverse Fouriertransformation das ge­ räuschbefreite Sprachsignal y(t) erzeugt wird. Dieses kann nach Digital-Analog-Wandlung in einem Lautsprecher hörbar gemacht werden.
Die Filterfunktion F(f,T) wird von einem neuronalen Netzwerk erzeugt, das eine Minimadetektions-Sclticht, eine Reaktions-Schicht, eine Diffusions-Schicht und ei­ ne Integrationsschicht enthält, wie Fig. 2 zeigt. Das von der Samplingeinheit 10 erzeugte Spektrum A(f,T) wird zunächst der Minimadetektions-Schicht zugeführt, wie sie die Fig. 3 zeigt.
Ein einzelnes Neuron dieser Schicht bearbeitet unabhän­ gig von den anderen Neuronen der Minimadetektions- Schicht eine einzelne Mode, die durch die Frequenz f gekennzeichnet ist. Für diese Mode mittelt das Neuron die Amplituden A(f,T) in der Zeit T über m Frames. Von diesen gemittelten Amplituden bestimmt das Neuron so­ dann über einen Zeitraum in T, der der Länge von l Fra­ mes entspricht, für seine Mode das Minimum. Auf diese Weise erzeugen die Neuronen der Minimadetektionsschicht das Signal M(f,T), das sodann der Reaktionsschicht zu­ geführt wird.
Auch jedes Neuron der Reaktionsschicht, wie sie Fig. 4 zeigt, bearbeitet eine einzelne Mode der Frequenz f, unabhängig von den anderen Neuronen in dieser Schicht. Dazu wird allen Neuronen außerdem ein extern einstell­ barer Paramter K zugeführt, dessen Größe den Grad der Geräuschunterdrückung des gesamten Filters bestimmt Zu­ sätzlich steht diesen Neuronen das Integralsignal S(T-1) vom vorigen Frame (Zeitpunkt T-1) zur Verfügung, das in der Integrations-Schicht, wie sie Fig. 6 zeigt, be­ rechnet wurde.
Dieses Signal ist das Argument einer nichtlinearen Re­ aktionsfunktion r, mit deren Hilfe die Neuronen der Re­ aktionsschicht das Relativspektrum R(f,T) zum Zeitpunkt T berechnen.
Der Wertebereich der Reaktionsfunktion ist auf ein In­ tervall [r1, r2] eingeschränkt. Der Wertebereich des auf diese Weise resultierenden Relativspektrums R(f,T) beschränkt sich auf das Intervall [0, 1].
In der Reaktionsschicht wird das zeitliche Verhalten des Sprachsignals zur Unterscheidung von Nutz- und Störsignal ausgewertet.
Spektrale Eigenschaften des Sprachsignals werden in der Diffusionsschicht, wie sie die Fig. 5 zeigt, ausgewer­ tet, deren Neuronen eine lokale Modenkopplung nach Art einer Diffusion im Frequenzraum durchführen.
In der von den Neuronen der Diffusions-Schicht erzeug­ ten Filterfunktion F(f,T) führt dies zu einer Anglei­ chung benachbarter Moden, deren Stärke durch die Diffu­ sionskonstante D bestimmt wird. Ähnliche Mechanismen, wie sie in der Reaktions- und der Diffusionsschicht am Werke sind, führen in sogenannten dissipativen Medien zu Strukturbildungsphänomenen, die ein Forschungsgegen­ stand der nichtlinearen Physik sind.
Alle Moden der Filterfunktion F(f,T) werden zum Zeit­ punkt T mit den entsprechenden Amplituden A(f,T) multi­ pliziert. Auf diese Weise resultiert das von Störgeräu­ schen befreite Spektrum B(f,T), das mittels inverser Fouriertransformation in das geräuschbefreite Sprachsi­ gnal y(t) verwandelt wird. Über die Moden der Filter­ funktion F(f,T) wird in der Integrations-Schicht inte­ griert, so daß das Integralsignal S(T) resultiert, wie es Fig. 6 zeigt.
Dieses Integralsignal wird in die Reaktions-Schicht zu­ rückgekoppelt. Diese globale Kopplung führt dazu, daß die Stärke der Signalmanipulation im Filter vom Stör­ pegel abhängig ist. Sprachsignale mit geringer Ge­ räuschbelastung passieren das Filter praktisch unbeein­ flußt, während bei hohem Geräuschpegel ein starker Fil­ tereffekt wirksam wird. Dadurch unterscheidet sich die Erfindung von klassischen Bandpaßfiltern, deren Einfluß auf das Signal nur von den gewählten, fest vorgegebenen Parametern abhängig ist.
Anders als ein klassisches Filter besitzt der Gegen­ stand der Erfindung keinen Frequenzgang im herkömmli­ chen Sinne. Bei der Messung mit einem durchstimmbaren sinusförmigen Testsignal würde bereits die Modulations­ geschwindigkeit des Testsignals die Filtereigenschaften beeinflussen.
Ein geeignetes Verfahren zur Analyse der Eigenschaften des Filters benutzt ein amplitudenmoduliertes Rausch­ signal, um in Abhängigkeit der Modulationsfrequenz die Dämpfung des Filters zu bestimmen, wie die Fig. 7 zeigt. Dazu setzt man die eingangs- und ausgangsseitige ge mittlere integrale Leistung zueinander ins Verhält­ nis und trägt diesen Wert gegen die Modulationsfrequenz des Testsignals auf. In Fig. 7 ist dieser "Modula­ tionsgang" für verschiedene Werte des Kontrollparame­ ters K dargestellt.
Für Modulationsfrequenzen zwischen 0.6 Hz und 6 Hz be­ trägt die Dämpfung für alle gezeigten Werte des Kon­ trollparameters K weniger als 3 dB. Dieses Intervall entspricht der Modulation menschlicher Sprache, die den Filter daher optimal passieren kann. Signale außerhalb des genannten Modulationsfrequenzintervalls werden da­ gegen als Störgeräusche identifiziert und in Abhängig­ keit der Einstellung des Parameters K stark gedämpft.
Bezugszeichenliste
10
Samplingeinheit, die ein Sprachsignal x(t) abta­ stet, digitalisiert, in Frames zerlegt und durch Fouriertransformation das Spektrum A(f,T) ermit­ telt
11
Filtereinheit, die aus dem Spektrum A(f,T) eine Filterfunktion F(f,T) berechnet und damit das ge­ räuschbefreite Spektrum B(f,T) erzeugt
12
Syntheseeinheit, die aus dem gefilterten Spektrum B(f,T) das geräuschbefreite Sprachsignal y(t) er­ zeugt
A(f,T) Signalspektrum, d. h. Amplitude der Mode der Frequenz f zum Zeitpunkt T
B(f,T) spektrale Amplitude der Mode der Frequenz f zum Zeitpunkt T nach der Filterung
D Diffusionskonstante, die die Stärke der Glät­ tung in der Diffusions-Schicht bestimmt
F(f,T) Filterfunktion, die B(f,T) aus A(f,T) er­ zeugt: B(f,T) = F(f,T)A(f,T) für alle f zur Zeit T
f Frequenz, durch die sich die Moden eines Spektrums unterscheiden
K Parameter zum Einstellen der Stärke der Ge­ räuschunterdrückung.
l Anzahl der Frames, aus denen man M(f,t) als Minimum der gemittelten A(f,T) er­ hält
m Anzahl der Frames, über die bei der Bestim­ mung von M(f,T) gemittelt wird
n Anzahl der Abtastwerte (Samples) pro Frame
M(f,t) Minimum der über m Frames gemittelten Ampli­ tude A(f,T) innerhalb von l Frames.
R(f,t) Relativspektrum, das von der Reaktionsschicht erzeugt wird
r[S(T)] Reaktionsfunktion der Neuronen in der Reakti­ onsschicht
r1, r2 Grenzen des Wertebereichs der Reaktionsfunk­ tion r1<r(S(T))<r2
S(T) Integralsignal, das dem Integral von F(f,T) über f zum Zeitpunkt T entspricht
t Zeit in der das Sprachsignal abgetastet wird
T Zeit in der das Zeitsignal zu Frames und die­ se zu Spektren verarbeitet werden
x(t) Samples des geräuschbehafteten Sprachsignals
y(t) Samples des geräuschbefreiten Sprachsignals

Claims (23)

1. Verfahren zur Geräuschunterdrückung bei der Sprachübertragung, dadurch gekennzeichnet, daß eine Geräuschunterdrückung bei der Sprachübertragung durch die Benutzung eines mehrschichtigen, selbstorganisie­ renden, rückgekoppelten neuronalen Netzwerk mit diffu­ siver Kopplung in einer der Neuronenschichten erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß das von Störgeräuschen befreite Spektrum B(f,T) mittels inverser Fouriertransformation in das ge­ räuschbefreite Sprachsignal y(t) verwandelt wird. 1
3. Verfahren nach den Ansprüchen 1 und 2, dadurch ge­ kennzeichnet, daß die Signalverzögerung bei der Verar­ beitung des Signals so kurz ist, daß das Filter im Echtzeitbetrieb für Telekommunikation einsatzfähig bleibt wird, wobei allen Neuronen ein extern einstell­ barer Paramter K zugeführt wird, dessen Größe den Grad der Geräuschunterdrückung des gesamten Filters be­ stimmt.
4. Verfahren nach den Ansprüchen 1 bis 3, dadurch ge­ kennzeichnet, daß das die Filterfunktion F(f,T) bei festgehaltener Zeit T über die Frequenzen f integriert und das so erhaltene Integralsignal S(T) in die Reak­ tionsschicht zurückkoppelt wird.
5. Verfahren nach den Ansprüchen 1 bis 9, dadurch ge­ kennzeichnet, daß das von einer Samplingeinheit (10) erzeugte Spektrum A(f,T) der Minimadetektions-Schicht zugeführt wird.
6. Verfahren nach den Ansprüchen 1 bis 5, dadurch ge­ kennzeichnet, daß in einer Filtereinheit (11) aus dem Spektrum A(f,t) eine Filterfunktion F(f,t) erzeugt und mit dem Spektrum multipliziert wird.
7. Verfahren nach den Ansprüchen 1 bis 6, gekenn­ zeichnet durch einen Frame mittels dem eine Fourier­ transformiation das Spektrum A(f,T) zur Zeit T ermit­ telt und einer Filtereinheit (11) zugeführt wird, die mit Hilfe eines neuronalen Netzwerks eine Filterfunk­ tion F (f,t) berechnet, mit der das Spektrum A (f,T) des Signals multipliziert wird, um ein geräuschbefreites Spektrum B(f,T) zu erzeugen.
8. Verfahren nach den Ansprüchen 1 bis 7, dadurch ge­ kennzeichnet, daß das ein gefiltertes Signal einer Syntheseeinheit (12) übergeben wird, die mittels in­ verser Fouriertransformation aus dem gefilterten Spek­ trum B(f,T) ein geräuschbefreite Sprachsignal y(t) synthetisiert.
9. Verfahren nach den Ansprüchen 1 bis 8, dadurch ge­ kennzeichnet, daß ein einzelnes Neuron einer Schicht unabhängig von den anderen Neuronen der Minimadetekti­ ons-Schicht eine einzelne Mode bearbeitet, die durch die Frequenz f gekennzeichnet ist.
10. Verfahren nach den Ansprüchen 1 bis 9, dadurch gekennzeichnet, daß die spektralen Eigenschaften des Sprachsignals in der Diffusionsschicht ausgewertet werden, deren Neuronen eine lokale Modenkopplung nach Art einer Diffusion im Frequenzraum durchführen.
11. Verfahren nach den Ansprüchen 1 bis 10, dadurch gekennzeichnet, daß alle Moden der Filterfunktion F(f,T) zum Zeitpunkt T mit den entsprechenden Amplitu­ den A(f,T) multipliziert werden.
12. Verfahren nach den Ansprüchen 1 bis 11, dadurch gekennzeichnet, daß über die Moden der Filterfunktion F(f,T) in der Integrations-Schicht integriert wird, so daß das Integralsignal S(T) resultiert.
13. Verfahren nach den Ansprüchen 1 bis 12, dadurch gekennzeichnet, daß Sprachsignale mit geringer Ge­ räuschbelastung das Filter praktisch unbeeinflußt pas­ sieren, während bei Sprachsignalen mit hohem Ge­ räuschpegel ein starker Filtereffekt wirksam wird.
14. Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung, insbesondere bei einem Verfahren nach den Ansprüchen 1 bis 13, dadurch gekennzeichnet, daß eine Minimadetektions-Schicht, eine Reaktions- Schicht, eine Diffusions-Schicht und eine Integra­ tions-Schicht enthaltende neuronales Netzwerk vorgese­ hen sind.
15. Vorrichtung nach Anspruch 13, dadurch gekenn­ zeichnet, daß die Moden des Spektrums, die sich durch die Frequenz f unterscheiden, einem einzelnen Neuron pro Schicht des Netzwerks mit Ausnahme der Integrati­ onsschicht entsprechen.
16. Vorrichtung nach den Ansprüchen 13 bis 15, da­ durch gekennzeichnet, daß ein Neuron der Minima- Detektions-Schicht die Funktion M (f,t) ermittelt, wo­ bei M(f,t) in der Mode mit Frequenz f das Minimum der über m Frames gemittelten Amplitude A(f,t) innerhalb eines Intervalls der Zeit T ist, welches der Länge von l Frames entspricht.
17. Vorrichtung nach den Ansprüchen 13 bis 16, ge­ kennzeichnet durch ein Neuron der Reaktions-Schicht, welches mit Hilfe einer Reaktionsfunktion r[S(T-1)] aus dem Integralsignal S(T-1) und einem frei wählbaren Parameter K, welcher den Grad der Geräuschunterdrückung bestimmt, aus A(f,T) und M(f,T) das Relativspek­ trum R(f,t) ermittelt.
18. Vorrichtung nach Anspruch 17, dadurch gekenn­ zeichnet, daß das Relativspektrum R(f,T) einen Wert zwischen null und eins hat.
19. Vorrichtung nach den Ansprüchen 13 bis 18, da­ durch gekennzeichnet, daß den Neuronen ein in der In­ tegrations-Schicht berechnetes Integralsignal S(T-1) vom vorigen Frame (Zeitpunkt T-1) zur Verfügung steht.
20. Vorrichtung nach den Ansprüchen 13 bis 19, da­ durch gekennzeichnet, daß der Wertebereich der Reakti­ onsfunktion auf ein Intervall [r1, r2] eingeschränkt ist.
21. Vorrichtung nach den Ansprüchen 13 bis 20, da­ durch gekennzeichnet, daß der Wertebereich des resul­ tierenden Relativspektrums R(f,T) auf das Intervall [0, 1] beschränkt ist.
22. Vorrichtung nach den Ansprüchen 13 bis 21, da­ durch gekennzeichnet, daß die Stärke der Signalmanipu­ lation im Filter vom Störpegel abhängig ist.
23. Vorrichtung nach den Ansprüchen 13 bis 22, da­ durch gekennzeichnet, daß für Modulationsfrequenzen zwischen 0.6 Hz und 6 Hz die Dämpfung für alle gezeig­ ten Werte des Kontrollparameters K weniger als 3 dB beträgt.
DE19948308A 1999-10-06 1999-10-06 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung Expired - Fee Related DE19948308C2 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE19948308A DE19948308C2 (de) 1999-10-06 1999-10-06 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
AT00250301T ATE289110T1 (de) 1999-10-06 2000-09-08 Verfahren und vorrichtung zur geräuschunterdrückung bei der sprachübertragung
EP00250301A EP1091349B1 (de) 1999-10-06 2000-09-08 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE50009461T DE50009461D1 (de) 1999-10-06 2000-09-08 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
CA002319995A CA2319995C (en) 1999-10-06 2000-09-20 Method and apparatus for suppressing audible noise in speech transmission
TW089120732A TW482993B (en) 1999-10-06 2000-10-05 Method and apparatus for suppressing audible noise in speech transmission
US09/680,981 US6820053B1 (en) 1999-10-06 2000-10-06 Method and apparatus for suppressing audible noise in speech transmission

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19948308A DE19948308C2 (de) 1999-10-06 1999-10-06 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Publications (2)

Publication Number Publication Date
DE19948308A1 true DE19948308A1 (de) 2001-04-19
DE19948308C2 DE19948308C2 (de) 2002-05-08

Family

ID=7924812

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19948308A Expired - Fee Related DE19948308C2 (de) 1999-10-06 1999-10-06 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE50009461T Expired - Lifetime DE50009461D1 (de) 1999-10-06 2000-09-08 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50009461T Expired - Lifetime DE50009461D1 (de) 1999-10-06 2000-09-08 Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung

Country Status (6)

Country Link
US (1) US6820053B1 (de)
EP (1) EP1091349B1 (de)
AT (1) ATE289110T1 (de)
CA (1) CA2319995C (de)
DE (2) DE19948308C2 (de)
TW (1) TW482993B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007033484A1 (de) 2007-07-18 2009-01-22 Ruwisch, Dietmar, Dr. Hörgerät
US9406309B2 (en) 2011-11-07 2016-08-02 Dietmar Ruwisch Method and an apparatus for generating a noise reduced audio signal

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835061A (en) 1995-06-06 1998-11-10 Wayport, Inc. Method and apparatus for geographic-based communications service
US8606851B2 (en) 1995-06-06 2013-12-10 Wayport, Inc. Method and apparatus for geographic-based communications service
EP1585112A1 (de) 2004-03-30 2005-10-12 Dialog Semiconductor GmbH Geräuschunterdrückung ohne Signalverzögerung
DE102004031638A1 (de) * 2004-06-30 2006-01-26 Abb Patent Gmbh Verfahren zum Betrieb einer magnetisch induktiven Durchflussmesseinrichtung
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
TR201810466T4 (tr) * 2008-08-05 2018-08-27 Fraunhofer Ges Forschung Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
US9258653B2 (en) 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
WO2014081408A1 (en) * 2012-11-20 2014-05-30 Unify Gmbh & Co. Kg Method, device, and system for audio data processing
US9330677B2 (en) 2013-01-07 2016-05-03 Dietmar Ruwisch Method and apparatus for generating a noise reduced audio signal using a microphone array
EP3057493B1 (de) * 2013-10-20 2020-06-24 Massachusetts Institute Of Technology Verwendung einer korrelationsstruktur von sprachdynamik zum nachweis von neurologischen veränderungen
CN104036784B (zh) * 2014-06-06 2017-03-08 华为技术有限公司 一种回声消除方法及装置
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
EP3301675B1 (de) 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parametervorhersagevorrichtung parametervorhersageverfahren zur verarbeitung akustischer signale
WO2018204917A1 (en) 2017-05-05 2018-11-08 Ball Aerospace & Technologies Corp. Spectral sensing and allocation using deep machine learning
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
US11182672B1 (en) 2018-10-09 2021-11-23 Ball Aerospace & Technologies Corp. Optimized focal-plane electronics using vector-enhanced deep learning
US10879946B1 (en) * 2018-10-30 2020-12-29 Ball Aerospace & Technologies Corp. Weak signal processing systems and methods
US10761182B2 (en) 2018-12-03 2020-09-01 Ball Aerospace & Technologies Corp. Star tracker for multiple-mode detection and tracking of dim targets
US11851217B1 (en) 2019-01-23 2023-12-26 Ball Aerospace & Technologies Corp. Star tracker using vector-based deep learning for enhanced performance
US11412124B1 (en) 2019-03-01 2022-08-09 Ball Aerospace & Technologies Corp. Microsequencer for reconfigurable focal plane control
EP3726529A1 (de) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Verfahren und vorrichtung zur bestimmung eines tiefenfilters
US11303348B1 (en) 2019-05-29 2022-04-12 Ball Aerospace & Technologies Corp. Systems and methods for enhancing communication network performance using vector based deep learning
US11488024B1 (en) 2019-05-29 2022-11-01 Ball Aerospace & Technologies Corp. Methods and systems for implementing deep reinforcement module networks for autonomous systems control
EP3764664A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme zur strahlformung mit mikrofontoleranzkompensation
EP3764660B1 (de) 2019-07-10 2023-08-30 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme für adaptive strahlenformung
EP3764358B1 (de) 2019-07-10 2024-05-22 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und -systeme zur strahlformung mit windblasschutz
EP3764360B1 (de) 2019-07-10 2024-05-01 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und -systeme zur strahlformung mit verbessertem signal/rauschen-verhältnis
EP3764359A1 (de) 2019-07-10 2021-01-13 Analog Devices International Unlimited Company Signalverarbeitungsverfahren und systeme für mehrfokusstrahlformung
US11828598B1 (en) 2019-08-28 2023-11-28 Ball Aerospace & Technologies Corp. Systems and methods for the efficient detection and tracking of objects from a moving platform
IT201900024454A1 (it) * 2019-12-18 2021-06-18 Storti Gianampellio Apparecchio audio con basso consumo per ambienti rumorosi
CN114944154B (zh) * 2022-07-26 2022-11-15 深圳市长丰影像器材有限公司 音频调整方法、装置、设备及存储介质
US20240112690A1 (en) * 2022-09-26 2024-04-04 Cerence Operating Company Switchable Noise Reduction Profiles

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
DE19728756A1 (de) * 1996-07-05 1998-01-08 Nat Semiconductor Corp Verfahren zum Auslegen eines festgewichteten neuronalen Netzwerks zur analogen Signalverarbeitung
DE69414752T2 (de) * 1993-05-05 1999-05-27 Cselt Centro Studi Lab Telecom Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3610831A (en) * 1969-05-26 1971-10-05 Listening Inc Speech recognition apparatus
US5822742A (en) * 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
US5581662A (en) * 1989-12-29 1996-12-03 Ricoh Company, Ltd. Signal processing apparatus including plural aggregates
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
US5649065A (en) * 1993-05-28 1997-07-15 Maryland Technology Corporation Optimal filtering by neural networks with range extenders and/or reducers
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
US5878389A (en) * 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4309985A1 (de) * 1993-03-29 1994-10-06 Sel Alcatel Ag Geräuschreduktion zur Spracherkennung
DE69414752T2 (de) * 1993-05-05 1999-05-27 Cselt Centro Studi Lab Telecom Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE19728756A1 (de) * 1996-07-05 1998-01-08 Nat Semiconductor Corp Verfahren zum Auslegen eines festgewichteten neuronalen Netzwerks zur analogen Signalverarbeitung

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007033484A1 (de) 2007-07-18 2009-01-22 Ruwisch, Dietmar, Dr. Hörgerät
US9406309B2 (en) 2011-11-07 2016-08-02 Dietmar Ruwisch Method and an apparatus for generating a noise reduced audio signal

Also Published As

Publication number Publication date
CA2319995C (en) 2005-04-26
DE19948308C2 (de) 2002-05-08
TW482993B (en) 2002-04-11
EP1091349A2 (de) 2001-04-11
DE50009461D1 (de) 2005-03-17
US6820053B1 (en) 2004-11-16
ATE289110T1 (de) 2005-02-15
EP1091349B1 (de) 2005-02-09
CA2319995A1 (en) 2001-04-06
EP1091349A3 (de) 2002-01-02

Similar Documents

Publication Publication Date Title
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE112009000805B4 (de) Rauschreduktion
DE60009206T2 (de) Rauschunterdrückung mittels spektraler Subtraktion
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE60310725T2 (de) Verfahren und vorrichtung zur verarbeitung von subbandsignalen mittels adaptiver filter
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE2719973C2 (de)
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE602005000897T2 (de) Eingangsschallprozessor

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: RUWISCH, DIETMAR, DR., 12557 BERLIN, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110502