DE69518174T2 - Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen - Google Patents

Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen

Info

Publication number
DE69518174T2
DE69518174T2 DE69518174T DE69518174T DE69518174T2 DE 69518174 T2 DE69518174 T2 DE 69518174T2 DE 69518174 T DE69518174 T DE 69518174T DE 69518174 T DE69518174 T DE 69518174T DE 69518174 T2 DE69518174 T2 DE 69518174T2
Authority
DE
Germany
Prior art keywords
signal
noise
speech
received signal
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69518174T
Other languages
English (en)
Other versions
DE69518174D1 (de
Inventor
Thomas John Janiszewski
Michael Charles Recchione
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69518174D1 publication Critical patent/DE69518174D1/de
Publication of DE69518174T2 publication Critical patent/DE69518174T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

  • Die vorliegende Erfindung betrifft Vorrichtungen und Verfahren zur Verarbeitung eines empfangenen Signals, das Sprache und Rauschen umfasst oder darstellt.
  • Ein zellulares Fernsprechsystem umfasst drei wesentliche Elemente: ein zellulares Vermittlungssystem, das als Tor zu dem (verdrahteten) Landleitungs- Fernsprechnetz dient, eine Anzahl von Basisstationen unter der Steuerung des Vermittlungssystems, die Geräte enthalten, die zwischen den in dem verdrahteten Fernsprechnetz verwendeten Signalen und den zur drahtlosen Kommunikation verwendeten Funksignalen übersetzen, und eine Anzahl mobiler Fernsprecheinheiten, die zwischen den zur Kommunikation mit den Basisstationen verwendeten Funksignalen und den zur Kommunikation mit menschlichen Benutzern verwendeten hörbaren akustischen Signalen (z. B. Sprache, Musik usw.) übersetzen.
  • Die Kommunikation zwischen einer Basisstation und einem Mobilfernsprecher ist nur dann möglich, wenn sowohl die Basisstation als auch der mobile Fernsprecher identische Funkmodulationsverfahren, Datencodierungskonventionen und Steuerstrategien verwenden, d. h., beide Einheiten müssen einer Funkschnittstellenspezifikation genügen. Es wurden mehrere Standards für Funkschnittstellen in den Vereinigten Staaten etabliert. Bisher erfolgte die gesamte zellulare Telefonie in den Vereinigten Staaten gemäß dem Standard des Advanced Mobile Phone Service (AMPS). Dieser Standard spezifiziert die Analogsignalcodierung unter Verwendung von Frequenzmodulation im 800-MHz-Bereich des Funkspektrums. Bei diesem Verfahren wird jedem zellularem Gespräch für die Dauer der Verbindung ein Kommunikationskanal zugewiesen, der aus zwei 30-kHz- Segmenten dieses Bereichs besteht. Zur Vermeidung von Störungen zwischen Gesprächen dürfen zwei Gespräche nicht gleichzeitig in demselben geografischen Gebiet denselben Kanal einnehmen. Da der gesamte Teil des Funkspektrums, der für die zellulare Telefonie zugeteilt ist, endlich ist, beschränkt diese Einschränkung die Anzahl gleichzeitiger Benutzer eines zellularen Fernsprechsystems.
  • Zur Steigerung der Kapazität des Systems wurden mehrere Alternativen zu dem AMPS-Standard eingeführt. Zu diesen gehört der Interim-Standard-54 (IS-54), ausgegeben von der Electronic Industries Association und der Telecommunications Industry Association. Dieser Standard nutzt die Digitalsignalcodierung und Modulation unter Verwendung eines Zeitmultiplexverfahrens mit Mehrfachzugriff (TDMA). Unter dem TDMA- Verfahren wird jedes 30-kHz-Segment von drei gleichzeitigen Gesprächen gemeinsam benutzt, und jedes Gespräch darf den Kanal ein Drittel der Zeit verwenden. Die Zeit wird in 20-ms-Rahmen eingeteilt, und jeder Rahmen wird weiterhin in drei Zeitschlitze unterteilt. Jedem Gespräch wird ein Zeitschlitz pro Rahmen zugeteilt.
  • Damit alle Informationen, die 20 ms eines Gesprächs beschreiben, in einem einzigen Zeitschlitz übermittelt werden können, werden Sprach- und andere Audiosignale unter Verwendung eines als vektorsummenerregte lineare Prädiktion (VSELP) bekannten digitalen Sprachkomprimierungsverfahrens verarbeitet. Jede IS-54 entsprechende Basisstations- und Mobilfernsprecheinheit enthält einen VSELP-Codierer und -Dekodierer. Statt eine digitale Darstellung der Audio-Kurvenform über den Kanal zu übertragen, nutzt der VSELP-Codierer ein Modell der menschlichen Spracherzeugung zur Reduktion des digitalisierten Audiosignals auf eine Menge von Parametern, die den Zustand des Spracherzeugungsmechanismus während des Rahmens (z. B. die Tonhöhe, die Rachen- und Mundhohlraumkonfiguration usw.) darstellen. Diese Parameter werden zu einem digitalen Bitstrom codiert und dann über den Kanal mit 8 Kilobit pro Sekunde (kbs) zu dem Empfänger übertragen. Diese Bitrate ist wesentlich kleiner, als zur Codierung der tatsächlichen Audio-Kurvenform erforderlich wäre. Der VSELP-Decodierer im Empfänger verwendet diese Parameter dann zur Wiederherstellung einer Abschätzung der digitalisierten Audio-Kurvenform. Die übertragenen digitalen Sprachdaten werden zu digitalen Informationsrahmen mit 20 ms organisiert, die jeweils 160 Abtastwerte enthalten. Es liegen 159 Bit pro Sprachrahmen vor. Das VSELP-Verfahren wird ausführlich in dem Dokument TR45 Full-Rate Speech Codec Compatibility Standard PN-2972, 1990, veröffentlicht von der Electronics Industries Association, beschrieben, auf das hiermit ausdrücklich Bezug genommen wird (und im folgenden als "VSELP-Standard" bezeichnet wird).
  • Die VSELP reduziert die erforderliche Anzahl von Bit zur Übertragung von Audioinformationen über den Kommunikationskanal wesentlich. Sie erzielt diese Reduktion jedoch durch eine starke Abhängigkeit von einem Modell der Spracherzeugung. Dementsprechend werden Nicht-Sprachgeräusche schlecht wiedergegeben. Zum Beispiel ist der Innenraum eines sich bewegenden Kraftfahrzeugs eine naturgemäß rauschbehaftete Umgebung. Die eigenen Geräusche des Kraftfahrzeugs vereinigen sich mit externen Geräuschen und erzeugen einen akustischen Hintergrund-Rauschpegel, der wesentlich höher ist als in der Regel in Nicht-Mobil- Umgebungen angetroffen wird. Durch diese Situation ist VSELP gezwungen, einen großen Teil der Zeit zu versuchen, Nicht-Sprachinformationen sowie Kombinationen von Sprache und Hintergrundgeräusch zu codieren.
  • Bei der Verwendung von VSELP zur Codierung von Sprache bei Anwesenheit von Hintergrundrauschen entstehen zwei Probleme. Erstens klingt das Hintergrundrauschen ungeachtet dessen, ob Sprache vorliegt oder nicht, unnatürlich, und zweitens wird die Sprache auf eine charakteristische Weise verzerrt. Einzeln und kollektiv werden diese Probleme gewöhnlich als "Swirl" bezeichnet.
  • Obwohl es möglich wäre, diese Artefakte, die durch den Codierungs-/Decodierungsprozess eingeführt werden, zu beseitigen, indem der VSELP-Algorithmus durch einen anderen Sprachkomprimierungsalgorithmus ersetzt wird, der diese Unzulänglichkeiten nicht aufweist, würde diese Strategie erfordern, die Funkschnittstellenspezifikation IS-54 zu ändern. Eine solche Änderung ist unerwünscht, da Zellularfernsprech- Dienstanbieter, Hersteller und Teilnehmer beträchtlich in bestehende Geräte investiert haben. Zum Beispiel erkennt bei einem Verfahren des Stands der Technik der Sprachcodierer, wenn keine Sprache vorliegt, und codiert einen speziellen Rahmen, der zu dem Empfänger übertragen werden soll. Dieser spezielle Rahmen enthält Comfort-Rauschparameter, die anzeigen, dass der Sprachdecodierer Comfort-Rauschen erzeugen soll, das dem Hintergrundrauschen auf der Sendeseite gleicht. Diese speziellen Rahmen werden von dem Sender periodisch während Perioden ohne Sprache gesendet. Diese vorgeschlagene Lösung des Swirl-Problems erfordert eine Änderung des derzeitigen VSELP- Sprachalgorithmus, da sie spezielle codierte Rahmen einführt, um anzuzeigen, wann Comfort-Rauschen erzeugt werden soll. Sie wird sowohl auf der Sende- als auch der Empfängerseite des Kommunikationssignals implementiert und erfordert eine Änderung des derzeitigen Funkschnittstellenspezifikationsstandards. Sie ist deshalb eine unerwünschte Lösung.
  • Aus GB-A-2 256 351 ist ein Kommunikationssender/-empfänger zur Kommunikation in Rahmen von codierten Audiosignalen mit einem Sender und Empfänger, einem Sprachcodierer und -decodierer, einem Sprachaktivitätsdetektor und Comfort-Rauscherzeugung und -Einfügung während Perioden von Sprachstille bekannt.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung nach Anspruch 1 bereitgestellt.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren nach Anspruch 7 bereitgestellt.
  • Ein Vorteil der vorliegenden Erfindung besteht darin, dass sie die Stärke der durch VSELP (oder jeden anderen Sprachcodierungs/-decodierungsalgorithmus) eingeführten Artefakte mildert, wenn diese beim Vorliegen von akustischem Hintergrundrauschen verwendet werden, ohne dass die Funkschnittstellenspezifikation geändert werden muss.
  • Es wurde bestimmt, dass eine Kombination aus Signaldämpfung mit Comfort-Rauscheinfügung während Perioden ohne Sprache und eine selektive Hochpassfilterung auf der Grundlage einer Abschätzung der Hintergrundrauschenergie eine effektive Lösung für das oben besprochenen Swirl-Problem ist.
  • Bei einer Ausführungsform der Erfindung verwendet ein Sprachaktivitätsdetektor eine Energieabschätzung zur Erkennung des Vorliegens von Sprache in dem empfangenen Sprachsignal in einer Rauschumgebung. Wenn keine Sprache vorliegt, dämpft das System das Signal und fügt tiefpassgefiltertes weißes Rauschen (d. h. Comfort-Rauschen) mit einem entsprechenden Pegel ein. Dieses Comfort-Rauschen imitiert die typischen spektralen Kenngrößen von Kraftfahrzeug- oder anderem Hintergrundrauschen. Dadurch wird das Swirl geglättet und klingt deshalb natürlich. Wenn der Sprachaktivitätsdetektor bestimmt, dass Sprache in dem Signal vorliegt, wird das synthetisierte Sprachsignal ohne Dämpfung verarbeitet.
  • Es wurde bestimmt, dass die wahrnehmungsbezogen lästigen Artefakte, die durch den Sprachcodierer beim Versuch, sowohl Sprache als auch Rauschen zu codieren, eingeführt werden, hauptsächlich im unteren Frequenzbereich auftreten. Zusätzlich zu der sprachaktivitätsgesteuerten Dämpfung und Comfort- Rauscheinfügung wird deshalb abhängig von dem Hintergrundrauschpegel eine Menge von Hochpassfiltern verwendet. Diese Filterung wird an dem Sprachsignal unabhängig davon vorgenommen, ob Sprache vorliegt oder nicht. Wenn festgestellt wird, dass der Rauschpegel unter -52 dB liegt, wird keine Hochpassfilterung verwendet. Wenn der Rauschpegel zwischen -40 dB und - 52 dB liegt, wird ein Hochpassfilter mit einer Grenzfrequenz von 200 Hz auf das synthetisierte Sprachsignal angewandt. Wenn der Rauschpegel größer als -40 dB ist, wird ein Hochpassfilter mit einer Grenzfrequenz von 350 Hz angewandt. Das Ergebnis dieser Hochpassfilter ist ein verringertes Hintergrundrauschen mit nur wenigen Auswirkungen auf die Sprachqualität.
  • Die hier beschriebene Erfindung wird im Empfänger (entweder in der Basisstation, der Mobileinheit oder in beiden) verwendet und kann somit ohne Notwendigkeit einer Änderung des derzeitigen standardmäßigen Sprachcodierungs/-decodierungsprotokolls implementiert werden.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 ist ein Blockschaltbild eines digitalen Funkempfangssystems, in das die vorliegende Erfindung integriert ist.
  • Fig. 2 ist ein Blockschaltbild einer sprachaktivitätsdektionsgesteuerten Rauschkorrekturvorrichtung, die die vorliegende Erfindung realisiert.
  • Fig. 3 ist eine Kurvenform der akustischen Gesamtenergie eines empfangenen Signals.
  • Fig. 4 ist ein Blockschaltbild eines Hochpassfiltertreibers.
  • Fig. 5 ist ein Flussdiagramm der Arbeitsweise des Sprachaktivitätsdetektors.
  • Fig. 6 zeigt ein Blockschaltbild einer Mikroprozessorausführungsform der vorliegenden Erfindung.
  • Ausführliche Beschreibung
  • Fig. 1 zeigt ein digitales Funkempfangssystem 10, in das die vorliegende Erfindung integriert ist. Ein Demodulator 20 empfängt übertragene Kurvenformen, die codierten Sprachsignalen entsprechen, und verarbeitet die empfangenen Kurvenformen zur Erzeugung eines digitalen Signals d. Dieses digitale Signal d wird einem Kanaldecodierer 30 zugeführt, der das Signal d verarbeitet, um Kanalfehler zu lindern. Das resultierende Signal, das durch den Kanalcodierer 30 erzeugt wird, ist ein codierter Sprachbitstrom b, der gemäß dem oben im Stand der Technik der Erfindung besprochenen VSELP-Standard zu digitalen Informationsrahmen organisiert wird. Dieser codierte Sprachbitstrom b wird einem Sprachdecodierer 40 zugeführt, der den codierten Sprachbitstrom b verarbeitet, um einen decodierten Sprachbitstrom s zu erzeugen. Dieser Sprachdecodierer 40 ist so konfiguriert, dass er Sprache decodiert, die gemäß dem VSELP-Verfahren codiert wurde. Dieser decodierte Sprachbitstrom s wird einer sprachaktivitätsdetektionsgesteuerten Rauschkorrekturvorrichtung (VADDNR) 50 zugeführt, um ein etwaiges, während Perioden ohne Sprache in dem Signal vorliegendes Hintergrund-"Swirl" zu entfernen. Bei einer Ausführungsform empfängt die VADDNR 50 außerdem einen Teil des codierten Sprachbitstroms b aus dem Kanaldecodierer 30 über die Signalleitung 35. Die VADDNR 50 verwendet den Energiewert r0 des VSELP-codierten Rahmens, der Teil des codierten Bitstroms b ist, was nachfolgend ausführlicher besprochen wird. Die VADDNR 50 erzeugt einen verarbeitete decodierte Sprachbitstromausgabe s". Die Ausgabe aus der VADDNR 50 kann dann einem Digital/Analog-Umsetzer 60 zugeführt werden, der das digitale Signal s" in eine analoge Kurvenform umsetzt. Diese analoge Kurvenform kann dann zu einem Zielsystem, wie zum Beispiel einem Fernsprechnetz, gesendet werden. Als Alternative kann die Ausgabe aus der VADDNR 50 einer anderen Einrichtung zugeführt werden, die die VADDNR-Ausgabe in ein anderes digitales Datenformat umsetzt, das von einem Zielsystem verwendet wird.
  • Die VADDNR 50 ist in Fig. 2 ausführlicher gezeigt. Die VADDNR empfängt den Energiewert r0 des VSELP-codierten Rahmens aus dem codierten Sprachbitstrom b über die Signalleitung 35 (siehe Fig. 1). Dieser Energiewert r0 stellt die mittlere Signalleistung in der Eingangssprache über das 20 ms- Rahmenintervall dar. Es gibt 32 mögliche Werte für r0, nämlich 0 bis 31. r0 = 0 stellt eine Rahmenenergie von 0 dar. Die übrigen Werte für r0 liegen zwischen einem Minimum von -64 dB, entsprechend r0 = 1, und einem Maximum von -4 dB, entsprechend r0 = 31. Die Schrittgröße zwischen r0-Werten beträgt 2 dB. Der Rahmenenergiewert r0 wird in VSELP Standard, S. 16, ausführlicher beschrieben. Der Energiewert r0 des codierten Rahmens wird einem Energieabschätzer 210 zugeführt, der die mittlere Rahmenenergie bestimmt.
  • Der Energieabschätzer 210 erzeugt ein Mittelwertsignal e[m] der Rahmenenergie, das die mittlere Rahmenenergie darstellt, die während eines Rahmens m berechnet wird, wobei m ein Rahmenindex ist, der den aktuellen digitalen Informationsrahmen darstellt. e[m] ist folgendermaßen definiert:
  • Einit für m = 0
  • e[m] =
  • α * r0[m] + (1-α) * e[m-1] für m> 0
  • Die mittlere Rahmenenergie wird anfänglich auf eine anfängliche Energieabschätzung Einit eingestellt. Einit wird auf einen Wert eingestellt, der größer als 31, der größte mögliche Wert für r0, ist. Zum Beispiel könnte Einit auf einen Wert von 32 eingestellt werden. Nach der Initialisierung wird die mittlere Rahmenenergie e[m] durch die Gleichung e[m] = α * r0[m] + (1-α) * e[m- 1] berechnet, wobei α eine Glättungskonstante ist, wobei 0 ≤ α ≤ 1 gilt. α sollte so gewählt werden, dass eine annehmbare Rahmenmittelwertbildung bereitgestellt wird. Die Autoren haben festgestellt, dass ein Wert von α = 0,25 optimal ist und eine effektive Rahmenmittelwertbildung über sieben Rahmen von digitalen Informationen (140 ms) liefert. Es könnten auch andere Werte von α gewählt werden, wobei der Wert vorzugsweise im Bereich von 0,25 ± 0,2 liegt.
  • Wie oben besprochen und in Fig. 1 gezeigt, empfängt die VADDNR 50 den Energiewert r0 VSELPcodierter Rahmen aus dem codierten Sprachbitstromsignal b, bevor das Signal b durch den Sprachdecodierer 40 decodiert wird. Als Alternative könnte dieser Rahmenenergiewert r0 durch die VADDNR 50 selbst aus dem decodierten Sprachbitstromsignal s berechnet werden, der aus dem Sprachdecodierer 40 empfangen wird. In einer Ausführungsform, bei der der Rahmenenergiewert r0 durch die VADDNR 50 berechnet wird, müssen keinerlei Teile des codierten Sprachbitstroms b der VADDNR 50 zugeführt werden, und die in Fig. 1 gezeigte Signalleitung 35 würde nicht vorliegen. Stattdessen würde die VADDNR 50 nur den decodierten Sprachbitstrom s verarbeiten, und der Rahmenenergiewert r0 würde wie in VSELP Standard, Seiten 16-17, beschrieben, berechnet. Indem über die Signalleitung 35 aus dem codierten Bitstrom b der VADDNR 50 r0 zugeführt wird, kann die VADDNR jedoch den decodierten Sprachbitstrom s schneller verarbeiten, weil sie r0 nicht berechnen muss.
  • Das Mittelwertsignal e[m] der Rahmenenergie, das durch den Energieabschätzer 210 erzeugt wird, stellt die in dem empfangenen Sprachsignal vorliegende mittlere akustische Gesamtenergie dar. Diese akustische Gesamtenergie kann sowohl Sprache als auch Rauschen umfassen. Als ein Beispiel zeigt Fig. 3 eine Kurvenform, die die akustische Gesamtenergie eines typischen empfangenen Signals 310 über der Zeit T darstellt. In einer Mobilumgebung besteht in der Regel ein bestimmter Pegel von Umgebungs-Hintergrundrauschen. Der Energiepegel dieses Rauschens ist in Fig. 3 als e&sub1; gezeigt. Wenn Sprache in dem Signal 310 vorliegt, stellt der akustische Energiepegel sowohl Sprache als auch Rauschen dar. Dies ist in Fig. 3 in dem Bereich gezeigt, in dem die Energie > e&sub2; ist. Während des Zeitintervalls t&sub1; liegt in dem Signal 310 keine Sprache vor, und die akustische Energie während dieses Zeitintervals t&sub1; stellt nur Umgebungs- Hintergrundrauschen dar. Während des Zeitintervals t&sub2; liegt Sprache in dem Signal 310 vor, und die akustische Energie während dieses Zeitintervalls t&sub2; stellt Umgebungs-Hintergrundrauschen plus Sprache dar.
  • Mit Bezug auf Fig. 2 wird das durch den Energieabschätzer 210 erzeugte Ausgangssignal e[m] einem Rauschabschätzer 220 zugeführt, der den mittleren Hintergrund-Rauschpegel in dem decodierten Sprachbitstrom s bestimmt. Der Rauschabschätzer 220 erzeugt ein Signal N[m], das einen
  • Rauschabschätzungswert darstellt, wobei:
  • Ninit für m = 0
  • N[m] = N[m-1] für e[m] > N[m-1] + Nthresh
  • β * e[m] + (1-β) * N[m-1] andernfalls
  • Anfänglich wird N[m] auf den Anfangswert Ninit eingestellt, bei dem es sich um eine anfängliche Rauschabschätzung handelt. Während der weiteren Verarbeitung nimmt der Wert N[m] auf der Grundlage des tatsächlichen, in dem decodierten Sprachbitstrom s vorliegenden Hintergrundrauschen zu oder ab. Ninit wird auf einen Wert eingestellt, der auf der Grenze zwischen mäßigem und starkem Hintergrundrauschen liegt. Die Initialisierung von N[m] auf diesen Wert ermöglicht, dass sich N[m] schneller in beiden Richtungen, wie durch das tatsächliche Hintergrundrauschen bestimmt, anpasst. Die Autoren haben festgestellt, dass es in einer Mobilumgebung vorzuziehen ist, Ninit auf einen r0-Wert von 13 einzustellen.
  • Die Sprachkomponente der Signalenergie sollte bei der Berechnung des mittleren Hintergrundrauschpegels nicht mit eingeschlossen werden. Zum Beispiel sollte, mit Bezug auf Fig. 3, der Energiepegel, der während des Zeitintervalls t&sub1; in dem Signal 310 vorliegt, bei der Berechnung der Rauschabschätzung N[m] mit eingeschlossen werden, aber der während des Zeitintervalls t&sub2; in dem Signal 310 vorliegende Energiepegel sollte nicht mit eingeschlossen werden, weil die Energie während des Zeitintervalls t&sub2; sowohl Hintergrundrauschen als auch Sprache darstellt.
  • Somit sollte jede mittlere Rahmenenergie e[m], die aus dem Energieabschätzer 210 empfangen wird, die sowohl Sprache als auch Rauschen darstellt, von der Berechnung der Rauschabschätzung N[m] ausgeschlossen werden, um zu verhindern, dass die Rauschabschätzung N[m] beeinflusst wird. Zum Ausschluss von Werten der mittleren Rahmenenergie e[m], die sowohl Sprache als auch Rauschen darstellen, wird ein oberer Rausch- Begrenzungsschwellenwert Nthresh verwendet. Wie oben erwähnt gilt somit N[m] = N[m-1], wenn e[m] > N[m-1] + Nthresh gilt. Anders ausgedrückt wird das N[m] gegenüber der Berechnung des vorherigen Rahmens nicht verändert, wenn die mittlere Rahmenenergie e[m] des aktuellen Rahmens um einen Betrag, der größer oder gleich Nthresh ist, größer als die Rauschabschätzung N[M-1] des vorherigen Rahmens ist, d. h. Sprache vorliegt. Wenn eine große Zunahme der Rahmenenergie über eine kurze Zeitspanne vorliegt, wird somit angenommen, dass diese Zunahme auf das Vorliegen von Sprache zurückzuführen ist, und die Energie wird nicht in der Rauschabschätzung mit eingeschlossen. Die Autoren haben festgestellt, dass es optimal ist, Nthresh auf den Gegenwert eines r0-Werts der Rahmenenergie von 2,5 einzustellen. Dadurch wird der Betriebsbereich des Rauschabschätzungsalgorithmus auf Umstände mit einem Verhältnis von Audiosignal zu Rauschen von besser als 5 dB beschränkt, da r0 in Einheiten von 2 dE skaliert ist. Nthresh könnte für eine annehmbare Leistung des Rauschabschätzers 220 auf einen beliebigen Wert im Bereich von 2 bis 4 eingestellt werden.
  • Wenn keine große Zunahme der Rahmenenergie über eine kurze Zeitspanne vorliegt, dann wird die Rauschabschätzung durch die Gleichung N[m] = β * e[m] + (1-β) * N[m-1] bestimmt, wobei β eine Glättungskonstante ist, die so eingestellt werden sollte, dass eine annehmbare Rahmenmittelwertbildung bereitgestellt wird. Ein Wert von 0,05 für β, der eine Rahmenmittelwertbildung über 25 Rahmen (500 ms) ergibt, hat sich als günstig erwiesen. Der Wert von β sollte im Allgemeinen im Bereich von 0,025 ≤ β ≤ 0,1 eingestellt werden.
  • Der durch den Rauschabschätzer 220 berechnete Rauschabschätzungswert N[m] wird einem Hochpassfiltertreiber 260 zugeführt, der den decodierten Bitstromsignal s verarbeitet, der aus dem Sprachdecodierer 40 bereitgestellt wird. Wie oben besprochen, enthält jeder digitale Informationsrahmen 160 Abtastwerte von Sprachdaten. Der Hochpassfiltertreiber 260 verarbeitet jeden dieser Abtastwerte s[i], wobei i ein Abtastindex ist. Der Hochpassfiltertreiber 260 ist in Fig. 4 ausführlicher gezeigt. Der Rauschabschätzungswert N[m], der durch den Rauschabschätzer 220 erzeugt wird, wird dem Logikblock 410 zugeführt, der Logikschaltkreise enthält, um zu bestimmen, welches einer Menge von Hochpassfiltern zur Filterung jedes Abtastwerts s[i] des decodierten Sprachbitstroms s verwendet wird. Es gibt zwei Hochpassfilter 430 und 440. Das Filter 430 besitzt eine Grenzfrequenz bei 200 Hz und das Filter 440 besitzt eine Grenzfrequenz bei 350 Hz. Diese Grenzfrequenzen wurden bestimmt, um optimale Ergebnisse zu liefern, es können jedoch auch andere Werte gemäß der vorliegenden Erfindung verwendet werden. Die Differenz der Grenzfrequenzen zwischen den Filtern sollte vorzugsweise mindestens 100 Hz betragen. Zur Bestimmung, welches Filter verwendet werden sollte, vergleicht der Logikblock 410 des Hochpassfiltertreibers 260 den Rauschabschätzungswert N[m] mit zwei Schwellen. Die erste Schwelle wird auf einen Wert gesetzt, der einem Rahmenenergiewert r0 = 7 entspricht (entsprechend -52 dE), und die zweite Schwelle wird auf einen Wert gesetzt, der einem Rahmenenergiewert r0 = 13 entspricht (entsprechend -40 dE). Wenn die Rauschabschätzung N[m] kleiner als r0 = 7 ist, dann wird keine Hochpassfilterung angewandt. Wenn der Rauschabschätzungwert N[m] größer oder gleich r0 = 7 und kleiner als r0 = 13 ist, dann wird das 200 Hz- Hochpassfilter 430 angewandt. Wenn der Rauschabschätzungswert N[m] größer oder gleich r0 = 13 ist, dann wird das 350 Hz-Hochpassfilter 440, angewandt. Die Logik zur Bestimmung der anzuwendenden Hochpassfilterung kann folgendermaßen zusammengefasst werden:
  • Allpass für N[m] < 7
  • Filter = Hochpass bei 200 Hz für 7 &le; N[m] < 13
  • Hochpass bei 350 Hz für N[m] &ge; 13
  • Mit Bezug auf Fig. 4 wird diese Logik durch den Logikblock 410 ausgeführt. Der Logikblock 410 bestimmt, welches Filter angewandt werden soll, auf der Grundlage der obigen Regeln und liefert ein Steuersignal c[m] an die beiden Kreuzschalter 420, 450. Ein Steuersignal, das einem Wert von 0 entspricht, zeigt an, daß keine Hochpassfilterung angewandt werden sollte. Ein Steuersignal, das einem Wert von 1 entspricht, zeigt an, dass das 200 Hz-Hochpassfilter angewandt werden soll. Ein Steuersignal, das einem Wert von 2 entspricht, zeigt an, dass das 350 Hz-Hochpassfilter angewandt werden soll.
  • Das Signal s[i] wird dem Kreuzschalter 420 aus dem Sprachdecodierer 40 zugeführt. Der Kreuzschalter 420 lenkt das Signal s[i] zu der entsprechenden Signalleitung 421, 422, 423 zur Auswahl der entsprechenden Filterung. Ein Steuersignal von 0 lenkt das Signal s[i] zu der Signalleitung 421. Die Signalleitung 421 liefert das Signal s[i] ohne Filterung an den Kreuzschalter 450. Ein Steuersignal von 1 lenkt das Signal s[i] zu der Signalleitung 422, die mit dem Hochpassfilter 430 verbunden ist. Nachdem das Signal s[i] durch das Hochpassfilter 430 gefiltert wurde, wird es über die Signalleitung 424 dem Kreuzschalter 450 zugeführt. Ein Steuersignal von 2 lenkt das Signal s[i] zu der Signalleitung 423, die mit dem Hochpassfilter 440 verbunden ist. Nachdem das Signal s[i] durch das Hochpassfilter 440 gefiltert wurde, wird es über die Signalleitung 425 dem Kreuzschalter 450 zugeführt. Das Steuersignal c[m] wird ebenfalls dem Kreuzschalter 450 zugeführt. Auf der Grundlage des Steuersignals c[m] liefert der Kreuzschalter 450 eines der Signale aus der Signalleitung 421, 424, 425 an den Sprachdämpfer 270. Dieses Signal, das durch den Hochpassfiltertreiber 260 erzeugt wird, wird als s'[i] identifiziert. Fachleute werden erkennen, dass eine beliebige Anzahl von Hochpassfiltern oder ein einziges Hochpassfilter mit einer kontinuierlich einstellbaren Grenzfrequenz in dem Hochpassfiltertreiber 260 verwendet werden könnte, um den decodierten Bitstrom s zu filtern. Die Verwendung einer größeren Zahl von Hochpassfiltern oder eines einzigen Hochpassfilters mit einer kontinuierlich einstellbaren Grenzfrequenz würde die Übergänge zwischen Filterauswahlen weniger merkbar werden lassen.
  • Mit Bezug auf Fig. 2 wird das durch den Hochpassfiltertreiber 260 erzeugte Signal s'[i] einer Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt. Die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 verarbeitet das Signal s'[i] zur Erzeugung des verarbeiteten decodierten Sprachbitstromausgangssignals s"[i]. Die Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 empfängt außerdem das Eingangssignal n[i] aus einem geformten Rauschgenerator 250 und das Eingangssignal atten[m] aus einem Dämpferkalkulator 240. Die Arbeitsweise des Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 wird nachfolgend ausführlich besprochen, und zwar nach einer Besprechung, wie seine Eingangssignale n[i] und atten[m] berechnet werden.
  • Die durch den Rauschabschätzer 220 erzeugte Rauschabschätzung N[m] und die durch den Energieabschätzer 210 erzeugte mittlere Rahmenenergie e[m] werden dem Sprachaktivitätsdetektor 230 zugeführt. Der Sprachaktivitätsdetektor 230 bestimmt, ob der aktuelle Rahmen des Sprachsignals Sprache enthält oder nicht und erzeugt ein Sprachdetektionssignal v[m], das anzeigt, ob Sprache vorliegt oder nicht. Ein Wert von 0 für v[m] zeigt an, dass keine Sprachaktivität in dem aktuellen Rahmen des Sprachsignals erkannt wird. Ein Wert von 1 für v[m] zeigt an, dass Sprachaktivität in dem aktuellen Rahmen des Sprachsignals erkannt wird. Die Arbeitsweise des Sprachaktivitätsdetektors 230 wird in Verbindung mit dem Flussdiagramm von Fig. 5 beschrieben. Im Schritt 505 bestimmt der Sprachaktivitätsdetektor 230, ob e[m] < N[m] + Tdetect gilt, wobei Tdetect eine niedrigere Rauschdetektionsschwelle ist, und gleicht funktionsmäßig dem oben in Verbindung mit Fig. 3 besprochenen Wert Nthresh. Es wird angenommen, dass Sprache nur dann vorliegen kann, wenn die mittlere Rahmenenergie e[m] um einen bestimmten Wert Tdetect größer als der Rauschabschätzungswert N[m] ist. Tdetect wird vorzugsweise auf einen r0-Wert von 2,5 eingestellt, d. h., Sprache kann nur dann vorliegen, wenn die mittlere Rahmenenergie e[m] um 5 dB größer als der Rauschabschätzungswert N[m] ist. Es können auch andere Werte verwendet werden. Der Wert von Tdetect sollte im Allgemeinen in dem Bereich von 2,5 +/- 0,5 liegen.
  • Um zu verhindern, dass der Sprachaktivitätsdetektor 230 in Worten angibt, dass keine Sprachaktivität vorliegt, wird ein Zähler Nent für unerkannte Rahmen verwendet. Nent wird auf Null initialisiert und so eingestellt, dass er bis zu einer Schwelle Nentthresh hochzählt, die die Anzahl von Rahmen darstellt, die keine Sprachaktivität enthalten, die vorliegen muss, bevor der Sprachaktivitätsdetektor 230 angibt, dass keine Sprachaktivität vorliegt.
  • Nentthresh kann auf einen Wert von sechs eingestellt werden. Somit deklariert der Sprachaktivitätsdetektor 230 nur dann, dass keine Sprache vorliegt, wenn sechs Rahmen lang (120 ms) keine Sprache erkannt wird. Wieder mit Bezug auf Fig. 5 wird, wenn der Schritt 505 bestimmt, dass e[m] < N[m] + Tdetect gilt, d. h. die mittlere Energie e [m] kleiner als die Energie ist, für die bestimmt wurde, dass Sprache vorliegen kann, Nent im Schritt 510 um Eins erhöht. Wenn der Schritt 515 bestimmt, dass Nent &ge; Nentthresh ist, d. h., dass in 6 Rahmen keine Sprache erkannt wurde, dann wird v[m] im Schritt 530 auf 0 gesetzt, um für den aktuellen Rahmen keine Sprache anzuzeigen. Wenn der Schritt 515 bestimmt, dass Nent < Nentthresh ist, d. h., dass es noch keine 6 Rahmen gegeben hat, in denen Sprache erkannt wurde, dann wird v[m] im Schritt 520 auf 1 gesetzt, um anzuzeigen, dass in dem aktuellen Rahmen Sprache vorliegt. Wenn der Schritt 505 bestimmt, dass e[m] &ge; N[m] + Tdetect gilt, d. h. die mittlere Energie e[m] größer oder gleich der Energie ist, für die bestimmt wurde, dass Sprache vorliegen kann, dann wird Nent im Schritt 525 auf Null gesetzt und v[m] wird im Schritt 520 auf Eins gesetzt, um anzuzeigen, dass in dem aktuellen Rahmen Sprache vorliegt.
  • Das durch den Sprachaktivitätsdetektor 230 erzeugte Sprachdetektionssignal v[m] wird dem Dämpferkalkulator 240 zugeführt, der ein Dämpfungssignal atten[m] erzeugt, das den Grad der Dämpfung des aktuellen Rahmens darstellt. Das Dämpfungssignal atten[m] wird für jeden Rahmen aktualisiert, und sein Wert hängt teilweise davon ab, ob der Sprachaktivitätsdetektor 230 Sprachaktivität erkannt hat oder nicht. Das Signal atten[m] stellt einen bestimmten Wert zwischen 0 und 1 dar. Je näher bei 1, desto geringer die Dämpfung des Signals, und je näher bei 0, desto größer die Dämpfung des Signals. Die maximale Dämpfung, die angewandt wird, wird als maxatten definiert, und es wurde bestimmt, dass der optimale Wert für maxatten 0,65 (d. h. -3,7 dB) beträgt.
  • Es können jedoch auch andere Werte für maxatten verwendet werden, wobei der Wert im Allgemeinen im Bereich von 0,3 bis 0,8 liegt. Der Faktor, um den die Dämpfung des Sprachsignals erhöht wird, ist als attenrate definiert, und der bevorzugte Wert für attenrate hat sich als 0,98 herausgestellt. Es können jedoch auch andere Werte für attenrate verwendet werden, wobei der Wert im Allgemeinen im Bereich von 0,95 +/- 0,04 liegt.
  • In diesem Abschnitt soll die Berechnung des Dämpfungssignals atten[m] beschrieben werden. Die Verwendung von atten[m] bei der Dämpfung des Signals s'[i] wird während der nachfolgenden Besprechung in Verbindung mit der Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 deutlich. Das Dämpfungssignal atten[m] wird folgendermaßen berechnet. Anfänglich wird das Dämpfungssignal atten[m] auf 1 eingestellt. Nach dieser Initialisierung wird atten[m] auf der Grundlage davon berechnet, ob Sprache vorliegt, was durch den Sprachaktivitätsdetektor 230 bestimmt wird, und ob die Dämpfung die durch maxatten definierte maximale Dämpfung erreicht hat. Wenn v[m] 1 ist, d. h. Sprache erkannt wird, dann wird atten[m] auf 1 eingestellt. Wenn v[m] = 0 ist, d. h. keine Sprache erkannt wird, und wenn der Dämpfungsfaktor, der auf die Dämpfung des vorherigen Rahmens angewandt wird (attenrate * atten[m-1]) größer als die maximale Dämpfung ist, dann wird die Dämpfung des aktuellen Rahmens berechnet, indem der Dämpfungsfaktor auf die Dämpfung des vorherigen Rahmens angewandt wird. Wenn v[m] = 0 ist, d. h. keine Sprache erkannt wird, und wenn der Dämpfungsfaktor, der auf die Dämpfung des vorherigen Rahmens angewandt wird, kleiner oder gleich der maximalen Dämpfung ist, dann wird die Dämpfung des aktuellen Rahmens auf die maximale Dämpfung eingestellt. Diese Berechnung der Dämpfung des aktuellen Rahmens wird folgendermaßen zusammengefasst:
  • 1,0 für m = 0 oder v[m] = 1
  • atten[m] = attenrate * atten[m-1] für attenrate * atten[m-1] > maxatten
  • und v[m] = 0 maxatten für attenrate * atten[m-1] &le;maxatten
  • und v[m] = 0
  • Wenn der Sprachaktivitätsdetektor 230 keine Sprache erkennt, wird somit das Dämpfungssignal atten[m] um einen konstanten Faktor 0,98 von 1 auf 0,65 (maxatten) reduziert. Das aktuelle Rahmendämpfungssignal atten[m], das durch den Dämpfungskalkulator 240 erzeugt wird, wird der Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt.
  • Die Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 empfängt außerdem das Signal n[i], das tiefpassgefiltertes weißes Rauschen darstellt, von dem geformten Rauschgenerator 250. Dieses tiefpassgefilterte weiße Rauschen wird auch als Comfort-Rauschen bezeichnet. Der geformte Rauschgenerator 250 empfängt die Rauschabschätzung N[m] von dem Rauschabschätzer 220 und erzeugt das Signal n[i], das das geformte Rauschen darstellt, und zwar folgendermaßen:
  • n[i] = &epsi; * wn[i] + (1-&epsi;) * n[i-1], wobei
  • wn[i] = &delta; * dB2lin (N[m]) * ran[i]
  • wobei i wie oben besprochen der Abtastindex ist. Somit wird n[i] für jeden Abtastwert in dem aktuellen Rahmen erzeugt. Die Funktion dB2lin bildet die Rauschabschätzung N[m] von einem dE- auf einen linearen Wert ab. Der Skalierungsfaktor &delta; wird auf einen Wert von 1,7 eingestellt, und der Filterkoeffizient &epsi; wird auf einen Wert von 0,1 eingestellt. Die Funktion ran[i] erzeugt eine Zufallszahl zwischen -1,0 und 1,0. Somit wird das Rauschen unter Verwendung der Rauschabschätzung N[m] skaliert und dann durch ein Tiefpassfilter gefiltert. Die oben angegebenen Werte für den Skalierungsfaktor &delta; und den Filterkoeffizient &epsi; haben sich als optimal erwiesen. Es können jedoch auch andere Werte verwendet werden, wobei der Wert von &delta; im Allgemeinen im Bereich von 1,5 bis 2,0 und der Wert s im Allgemeinen im Bereich 0,05 bis 0,15 liegt.
  • Das durch den geformten Rauschgenerator 220 erzeugte tiefpassgefilterte weiße Rauschen n[i] und die durch den Dämpfungskalkulator 240 erzeugte Dämpfung atten[m] des aktuellen Rahmens werden der Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung 270 zugeführt. Der Sprachdämpfer empfängt das hochpassgefilterte Signal s'[i] von dem Hochpassfiltertreiber 260 und erzeugt den verarbeiteten dekodierten Sprachbitstrom s" gemäß der folgenden Gleichung:
  • s"[i] = atten[m] * s'[i] + (1-atten[m]) * n[i],
  • für i = 0, 1 ..., 159
  • Für jeden Abtastwert s'[i] in dem hochpassgefilterten Sprachsignal s' dämpft die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 somit den Abtastwert s'[i] um das Dämpfungswert atten[m] des aktuellen Rahmens. Gleichzeitig fügt die Sprachdämpfungs- /Comfort-Rauscheinfügungsvorrichtung 270 außerdem auf der Grundlage des Werts von atten[m] das tiefpassgefilterte weiße Rauschen n[i] ein. Wie aus der obigen Gleichung ersichtlich ist, gibt es keine Dämpfung, wenn atten [m] = 1 ist, und s"[i] = s' [i]. Wenn atten [m] = maxatten (0,65) ist, dann ist s"[i] = < 0,65 * hochpassgefiltertes Sprachsignal) + (0,35 * tiefpassgefiltertes weißes Rauschen). Die Auswirkung der Dämpfung des Signals s'[i] plus die Einfügung des tiefpassgefilterten weißen Rauschens (Comfort- Rauschens) besteht darin, ein glatteres Hintergrundrauschen mit weniger wahrgenommenem Swirl bereitzustellen. Das durch die Sprachdämpfungs- /Comfort-Rauscheinfügungsvorrichtung 270 erzeugte Signal s"[i] kann dem Digital/Analog-Umsetzer 60 oder einer anderen Einrichtung zugeführt werden, die das Signal wie oben besprochen in ein anderes digitales Datenformat umsetzt.
  • Wie oben besprochen wirken der Dämpfungskalkulator 240, der geformte Rauschgenerator 250 und die Sprachdämpfungs-/Comfort- Rauscheinfügungsvorrichtung 270 zusammen, um das Hintergrund-Swirl zu reduzieren, wenn keine Sprache in dem empfangenen Signal vorliegt. Diese Elemente könnten als eine einzige Rauschkorrekturvorrichtung betrachtet werden, die in Fig. 2 in den gestrichelten Linien als 280 gezeigt ist. Diese Rauschkorrekturvorrichtung 280 empfängt das Sprachdetektionssignal v[m] aus dem Sprachaktivitätsdetektor 230, die Rauschabschätzung N[m] aus dem Rauschabschätzer 220 und das hochpassgefilterte Signal s'[i] aus dem Hochpassfiltertreiber 260 und erzeugt den verarbeiteten decodierten Sprachbitstrom s"[i] wie oben besprochen.
  • Eine geeignete VADDNR 50 gemäß der obigen Beschreibung könnte wie in Fig. 6 gezeigt in einem Mikroprozessor implementiert werden. Der Mikroprozessor (u) 610 ist über eine Datenleitung 621 und eine Adressleitung 622 mit einem nichtflüchtigen Speicher 620, beispielsweise einem ROM, verbunden. Der nichtflüchtige Speicher 620 enthält einen Programmcode zur Implementierung der Funktionen der VADDNR 50 wie oben besprochen. Der Mikroprozessor 610 ist außerdem über die Datenleitung 631 und die Adressleitung 632 mit einem flüchtigen Speicher 630, wie zum Beispiel einem RAM, verbunden. Der Mikroprozessor 610 empfängt den decodierten Sprachbitstrom s aus dem Sprachdecodierer 40 auf der Signalleitung 612 und erzeugt einen verarbeiteten decodierten Sprachbitstrom s". Wie oben besprochen wird bei einer Ausführungsform der vorliegenden Erfindung der Energiewert r0 VSELPcodierter Rahmen aus dem codierten Sprachbitstrom b der VADDNR 50 zugeführt. Dies ist in Fig. 6 durch die Signalleitung 611 gezeigt. Bei einer alternativen Ausführungsform berechnet die VADDNR den Rahmenenergiewert r0 aus dem decodierten Sprachbitstrom s, und die Signalleitung 611 würde nicht vorliegen.
  • Es versteht sich, dass die hier gezeigten und beschriebenen Ausführungsformen und Varianten lediglich Beispiele der Erfindung sind und dass Fachleute verschiedene Modifikationen implementieren können.
  • Im Verlauf der vorliegenden Beschreibung wurden verschiedene bevorzugte Werte und Bereiche von Werten offengelegt. Es versteht sich jedoch, dass diese Werte mit der Verwendung der vorliegenden Erfindung in einer Mobilumgebung zusammenhängen. Fachleute werden erkennen, dass die hier offengelegte Erfindung in verschiedenen Umgebungen verwendet werden kann, wobei Werte und Bereiche von Werten von den hier besprochenen abweichen können.

Claims (9)

1. Vorrichtung (50) zum Verarbeiten eines empfangenen Signals, das eine Sprachkomponente und eine Rauschkomponente umfasst, wobei die Vorrichtung folgendes umfasst:
einen Energieabschätzer (210) zum Erzeugen eines Energiesignals (e(m)), das die akustische Energie des empfangenen Signals (r0(m)) darstellt;
einen Rauschabschätzer (220) zum Empfangen des Energiesignals und zum Erzeugen eines Rauschabschätzungssignals (N(m)), das das mittlere Hintergrundrauschen in dem empfangenen Signal darstellt;
einen Sprachaktivitätsdetektor (230) zum Empfangen des Rauschabschätzungssignals und des Energiesignals und zum Erzeugen eines Sprachdetektionssignals (V(m)), das darstellt, ob Sprache in dem empfangenen Signal vorliegt; und
eine Rauschkorrekturvorrichtung (280), die auf das Rauschabschätzungssignal und das Sprachdetektionssignal reagiert, zum Verarbeiten des empfangenen Signals, wenn das Sprachdetektionssignal anzeigt, das keine Sprache in dem empfangenen Signal vorliegt, und zum Erzeugen eines verarbeiteten Signals,
wobei das verarbeitete Signal folgendes umfasst:
eine erste Komponente, die ein gedämpftes empfangenes Signal umfasst; und
eine zweite Komponente, die ein Comfort- Rauschsignal umfasst.
2. Vorrichtung nach Anspruch 1, wobei der Sprachdetektor ein Sprachdetektionssignal erzeugt, das nur dann anzeigt, dass keine Sprache vorliegt, wenn eine vorbestimmte Zeitspanne lang keine Sprache in dem empfangenen Signal erkannt wird.
3. Vorrichtung nach Anspruch 1, wobei das Comfort- Rauschen tiefpassgefiltertes weißes Rauschen umfasst.
4. Vorrichtung nach Anspruch 1, wobei die Rauschkorrekturvorrichtung weiterhin folgendes umfasst:
einen Dämpfungskalkulator (240) zum Empfangen des Sprachdetektionssignals und zum Erzeugen eines gedämpften Signals (atten(m)), das die Dämpfung darstellt, die auf das empfangene Signal angewandt werden soll;
einen geformten Rauschgenerator (250) zum Empfangen des Rauschabschätzungssignals und zum Erzeugen des Comfort-Rauschsignals (n(i)); und
eine Sprachdämpfungs-/Comfort-Rauscheinfügungsvorrichtung (270), die auf das Comfort-Rauschsignal und das Dämpfungssignal reagiert, zum Empfangen des empfangenen Signals und zum Dämpfen des empfangenen Signals und zum Einfügen des Comfort-Rauschsignals in das empfangene Signal.
5. Vorrichtung nach Anspruch 4, wobei das Comfort- Rauschsignal tiefpassgefiltertes weißes Rauschen darstellt, das auf der Grundlage des Rauschabschätzungssignals skaliert wird.
6. Vorrichtung nach Anspruch 1, mit Mitteln zum Empfangen eines codierten Signals, das Sprache und Rauschen darstellt, und Mitteln zum Decodieren des codierten Signals zur Erzeugung des empfangenen Signals.
7. Verfahren zum Verarbeiten eines empfangenen Signals, das Sprache und Rauschen darstellt, mit den folgenden Schritten:
Erzeugen eines Energiewerts, der die akustische Energie des empfangenen Signals darstellt;
Erzeugen eines Rauschabschätzungswerts, der das mittlere Hintergrundrauschen in dem empfangenen Signal darstellt;
Erzeugen von Comfort-Rauschen auf der Grundlage des Rauschabschätzungswerts;
Bestimmen, ob das empfangene Signal eine Sprachkomponente enthält, auf der Grundlage des Energiewerts und des Rauschabschätzungswerts; und
Erzeugen eines verarbeiteten Signals, wenn das empfangene Signal keine Sprachkomponente enthält;
wobei der Schritt des Erzeugens eines verarbeiteten Signals die folgenden Schritte umfasst:
Dämpfen des Signals; und
Einfügen des Comfort-Rauschens in das Signal.
8. Verfahren nach Anspruch 7, wobei ein hochpassgefiltertes Signal erzeugt wird, indem das empfangene Signal auf der Grundlage des Rauschabschätzungswerts an eines von mehreren Hochpassfiltern angelegt wird; und das hochpassgefilterte Signal anstelle des empfangenen Signals als Eingangssignal für den Schritt des Erzeugens eines verarbeiteten Signals verwendet wird.
9. Verfahren nach Anspruch 8, wobei die Differenz der Grenzfrequenzen jedes der mehreren Hochpassfilter mindestens 100 Hz beträgt.
DE69518174T 1994-01-28 1995-01-18 Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen Expired - Lifetime DE69518174T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/188,294 US5657422A (en) 1994-01-28 1994-01-28 Voice activity detection driven noise remediator

Publications (2)

Publication Number Publication Date
DE69518174D1 DE69518174D1 (de) 2000-09-07
DE69518174T2 true DE69518174T2 (de) 2001-05-31

Family

ID=22692567

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69533734T Expired - Lifetime DE69533734T2 (de) 1994-01-28 1995-01-18 Durch Sprachaktivitätsdetektion gesteuerte Rauschunterdrückung
DE69518174T Expired - Lifetime DE69518174T2 (de) 1994-01-28 1995-01-18 Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE69533734T Expired - Lifetime DE69533734T2 (de) 1994-01-28 1995-01-18 Durch Sprachaktivitätsdetektion gesteuerte Rauschunterdrückung

Country Status (7)

Country Link
US (1) US5657422A (de)
EP (2) EP1017042B1 (de)
KR (1) KR100367533B1 (de)
CN (1) CN1132988A (de)
CA (1) CA2138818C (de)
DE (2) DE69533734T2 (de)
RU (1) RU2151430C1 (de)

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU724111B2 (en) * 1995-09-14 2000-09-14 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
US5914827A (en) * 1996-02-28 1999-06-22 Silicon Systems, Inc. Method and apparatus for implementing a noise generator in an integrated circuit disk drive read channel
JP4307557B2 (ja) * 1996-07-03 2009-08-05 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 音声活性度検出器
SE507370C2 (sv) * 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
FR2758676A1 (fr) * 1997-01-21 1998-07-24 Philips Electronics Nv Methode de reduction des clics dans un systeme de transmission de donnees
US5940439A (en) * 1997-02-26 1999-08-17 Motorola Inc. Method and apparatus for adaptive rate communication system
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
USD419160S (en) * 1998-05-14 2000-01-18 Northrop Grumman Corporation Personal communications unit docking station
US6243573B1 (en) 1998-05-15 2001-06-05 Northrop Grumman Corporation Personal communications system
USD421002S (en) * 1998-05-15 2000-02-22 Northrop Grumman Corporation Personal communications unit handset
US6169730B1 (en) 1998-05-15 2001-01-02 Northrop Grumman Corporation Wireless communications protocol
US6223062B1 (en) 1998-05-15 2001-04-24 Northrop Grumann Corporation Communications interface adapter
US6141426A (en) 1998-05-15 2000-10-31 Northrop Grumman Corporation Voice operated switch for use in high noise environments
US6041243A (en) 1998-05-15 2000-03-21 Northrop Grumman Corporation Personal communications unit
US6304559B1 (en) 1998-05-15 2001-10-16 Northrop Grumman Corporation Wireless communications protocol
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6157906A (en) * 1998-07-31 2000-12-05 Motorola, Inc. Method for detecting speech in a vocoded signal
US20010014857A1 (en) * 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6944141B1 (en) * 1999-10-22 2005-09-13 Lucent Technologies Inc. Systems and method for phase multiplexing in assigning frequency channels for a wireless communication network
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
JP4810044B2 (ja) * 2000-01-27 2011-11-09 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 2つのスイッチオフ規準を持つ音声検出装置
JP3929686B2 (ja) * 2000-08-14 2007-06-13 松下電器産業株式会社 音声スイッチング装置およびその方法
US6873604B1 (en) * 2000-07-31 2005-03-29 Cisco Technology, Inc. Method and apparatus for transitioning comfort noise in an IP-based telephony system
US20020116187A1 (en) * 2000-10-04 2002-08-22 Gamze Erten Speech detection
US6708147B2 (en) 2001-02-28 2004-03-16 Telefonaktiebolaget Lm Ericsson(Publ) Method and apparatus for providing comfort noise in communication system with discontinuous transmission
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US20030120484A1 (en) 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US7180881B2 (en) * 2001-09-28 2007-02-20 Interdigital Technology Corporation Burst detector
US20030093270A1 (en) * 2001-11-13 2003-05-15 Domer Steven M. Comfort noise including recorded noise
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
US7499856B2 (en) * 2002-12-25 2009-03-03 Nippon Telegraph And Telephone Corporation Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors
TWI233590B (en) * 2003-09-26 2005-06-01 Ind Tech Res Inst Energy feature extraction method for noisy speech recognition
FR2861247B1 (fr) * 2003-10-21 2006-01-27 Cit Alcatel Terminal de telephonie a gestion de la qualite de restituton vocale pendant la reception
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
ATE343196T1 (de) * 2004-01-22 2006-11-15 Siemens Spa Italiana Sprachaktivitätsdetektion unter vewendung von komprimierten sprachsignal-parametern
US9025638B2 (en) * 2004-06-16 2015-05-05 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus to compensate for receiver frequency error in noise estimation processing
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US20060104460A1 (en) * 2004-11-18 2006-05-18 Motorola, Inc. Adaptive time-based noise suppression
EP1861846B1 (de) * 2005-03-24 2011-09-07 Mindspeed Technologies, Inc. Adaptive stimmenmodus-erweiterung für einen stimmenaktivitäts-detektor
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
ES2778076T3 (es) 2007-03-05 2020-08-07 Ericsson Telefon Ab L M Método y disposición para suavizar ruido estacionario de fondo
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
CN101106736B (zh) * 2007-08-15 2010-04-14 河南蓝信科技有限公司 应答器报文读取装置和读取方法
US8560307B2 (en) 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
CN101483042B (zh) 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
KR102128562B1 (ko) 2008-11-10 2020-06-30 구글 엘엘씨 멀티센서 음성 검출
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
FR2956539B1 (fr) * 2010-02-16 2012-03-16 Dominique Retali Procede de detection du fonctionnement d'un dispositif de transmission sans fil de signaux de voix.
TWI459828B (zh) 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US8428759B2 (en) 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
EP2559028B1 (de) 2010-04-14 2015-09-16 VoiceAge Corporation Flexibles und skalierbares codebuch mit kombinierten innovationen zur verwendung in einem celp-kodiergerät und -dekodiergerät
US8253684B1 (en) 2010-11-02 2012-08-28 Google Inc. Position and orientation determination for a mobile computing device
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US8862254B2 (en) * 2011-01-13 2014-10-14 Apple Inc. Background audio processing
CN102136271B (zh) * 2011-02-09 2012-07-04 华为技术有限公司 舒适噪声生成器、方法及回声抵消装置
MX2013009346A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral.
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
MX2013009305A (es) * 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio.
CA2827266C (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
MX2013009345A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio.
PL2661745T3 (pl) 2011-02-14 2015-09-30 Fraunhofer Ges Forschung Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio
JP5712288B2 (ja) 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
JPWO2014034697A1 (ja) * 2012-08-29 2016-08-08 日本電信電話株式会社 復号方法、復号装置、プログラム、及びその記録媒体
ES2588156T3 (es) 2012-12-21 2016-10-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio
JP6335190B2 (ja) 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
DK3719801T3 (da) * 2013-12-19 2023-02-27 Ericsson Telefon Ab L M Estimering af baggrundsstøj i audiosignaler
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
US9589574B1 (en) * 2015-11-13 2017-03-07 Doppler Labs, Inc. Annoyance noise suppression
US9654861B1 (en) 2015-11-13 2017-05-16 Doppler Labs, Inc. Annoyance noise suppression
CN105913854B (zh) * 2016-04-15 2020-10-23 腾讯科技(深圳)有限公司 语音信号级联处理方法和装置
CN106292827B (zh) * 2016-08-18 2018-09-21 华为技术有限公司 一种电压产生装置及半导体芯片
RU2651803C1 (ru) * 2016-12-22 2018-04-24 Акционерное общество "Научно-производственное предприятие "Полет" Подавитель шума
US10157627B1 (en) 2017-06-02 2018-12-18 Bose Corporation Dynamic spectral filtering
KR102629385B1 (ko) * 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
RU2742720C1 (ru) * 2019-12-20 2021-02-10 Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Московский институт электронной техники" Устройство для защиты конфиденциальных переговоров
US20220417659A1 (en) * 2021-06-23 2022-12-29 Comcast Cable Communications, Llc Systems, methods, and devices for audio correction

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4061875A (en) * 1977-02-22 1977-12-06 Stephen Freifeld Audio processor for use in high noise environments
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
EP0226613B1 (de) * 1985-07-01 1993-09-15 Motorola, Inc. Rauschminderungssystem
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
GB2256351B (en) * 1991-05-25 1995-07-05 Motorola Inc Enhancement of echo return loss
JP2518765B2 (ja) * 1991-05-31 1996-07-31 国際電気株式会社 音声符号化通信方式及びその装置
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5285502A (en) * 1992-03-31 1994-02-08 Auditory System Technologies, Inc. Aid to hearing speech in a noisy environment
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise

Also Published As

Publication number Publication date
RU95101029A (ru) 1996-11-10
CA2138818A1 (en) 1995-07-29
US5657422A (en) 1997-08-12
EP1017042B1 (de) 2004-11-03
DE69533734D1 (de) 2004-12-09
EP0665530B1 (de) 2000-08-02
CN1132988A (zh) 1996-10-09
EP1017042A1 (de) 2000-07-05
CA2138818C (en) 1999-05-11
DE69518174D1 (de) 2000-09-07
KR100367533B1 (ko) 2003-04-07
EP0665530A1 (de) 1995-08-02
DE69533734T2 (de) 2005-11-03
KR950035167A (ko) 1995-12-30
RU2151430C1 (ru) 2000-06-20

Similar Documents

Publication Publication Date Title
DE69518174T2 (de) Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
DE69423693T2 (de) System zur angepassten Reduktion von Geräuschen bei Sprachsignalen
DE69721349T2 (de) Sprachkodierung
DE69226500T2 (de) Verfahren und Gerät zur Sprachsignalübertragung
DE69324213T2 (de) Sprachkodierer und Verfahren zur Sprachkodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60120504T2 (de) Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem
DE69917677T2 (de) SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT
EP0946001B1 (de) Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
DE69617077T2 (de) Mobile Kommunikationseinrichtung
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE69322588T2 (de) Anordnung zum Demodulieren von Sprachsignalen, welche diskontinuierlich von einer mobilen Einheit übertragen werden
DE69029658T3 (de) Verfahren und Einrichtung zur Kompression eines Kommunikationssignals
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE69612431T2 (de) Vorrichtung zur Sprachdekodierung
DE4211945C1 (de)
DE69903886T2 (de) Verfahren und Vorrichtung zur Datenübertagung über einen Sprachkanal
DE69431520T2 (de) Verfahren und vorrichtung zur verminderung von audiosignalverschlechterungen in einem kommunikationssystem
DE69714640T2 (de) Signalquantisierer für die Sprachkodierung
DE60100173T2 (de) Verfahren und Vorrichtung zur drahtloser Übertragung unter Verwendung einer Kodierung mit vielfacher Quellendarstellung
DE69922582T2 (de) Sende- und Empfangsvorrichtung zur Auswahl eines Quellenkodierers und Verfahren dazu
EP0658874A1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition