DE60034212T2 - Verfahren und vorrichtung zur adaptiven rauschunterdrückung - Google Patents

Verfahren und vorrichtung zur adaptiven rauschunterdrückung Download PDF

Info

Publication number
DE60034212T2
DE60034212T2 DE60034212T DE60034212T DE60034212T2 DE 60034212 T2 DE60034212 T2 DE 60034212T2 DE 60034212 T DE60034212 T DE 60034212T DE 60034212 T DE60034212 T DE 60034212T DE 60034212 T2 DE60034212 T2 DE 60034212T2
Authority
DE
Germany
Prior art keywords
signal
frequency band
dtmf
signals
nsr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60034212T
Other languages
English (en)
Other versions
DE60034212D1 (de
Inventor
Ravi South Bend CHANDRAN
Bruce E. Niles DUNNE
Daniel J. Buchanan MARCHOK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coriant Operations Inc
Original Assignee
Tellabs Operations Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tellabs Operations Inc filed Critical Tellabs Operations Inc
Application granted granted Critical
Publication of DE60034212D1 publication Critical patent/DE60034212D1/de
Publication of DE60034212T2 publication Critical patent/DE60034212T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

  • Die vorliegende Erfindung betrifft die Rauschunterdrückung in Telekommunikationssystemen. Insbesondere betrifft die Erfindung die Rauschunterdrückung in Einkanalsystemen bzw. einzelnen Kanälen in Mehrkanalsystemen.
  • Ein wichtiges Merkmal in Sprachkommunikationssystemen ist die Erhöhung der Sprachqualität. Beim Betreiben von Mobiltelefonen beispielsweise liegt oft ein hochpegeliges Umgebungs- und Hintergrundrauschen in sich fortbewegenden Fahrzeugen an. Hintergrundrauschen verursacht eine erhebliche Minderung der Sprachqualität für den fernen Endempfänger, so dass die Sprache kaum noch verständlich ist. Unter solchen Bedingungen können Sprachverbesserungstechniken zum Einsatz kommen, um die Qualität der beim Empfänger eingehenden Sprache zu steigern, wodurch die Zufriedenheit der Kunden erhöht und zu längeren Redezeiten animiert wird.
  • In der Vergangenheit arbeiteten Rauschunterdrückungssysteme gewöhnlich mit Variationen der Spektralsubtraktion. 1 zeigt ein Beispiel eines Rauschunterdrückungssystems 100 mit Spektralsubtraktion. Zuerst erfolgt eine spektrale Zerlegung des gestörten Spracheingangssignals 102 mit Hilfe der Filterbank 104. Die Filterbank 104 kann eine Bank von Bandpassfiltern sein, wie beispielsweise die in R. J. McAulay and M. L. Malpass, „Speech Enhancement Using a Soft-Decision Noise Suppression Filter" (Sprachqualitätsverbesserung mit einem Soft-Decision-Rauschunterdrückungsfilter) IEEE Trans. Acoust., Speech Signal Processing, Band ASSP-28, Nr. 2 (Apr. 1980) S. 137–145, offenbarten Bandpassfilter. In diesem Zusammenhang bezieht sich das Rauschen auf jedes im Sprachsignal vorhandene unerwünschte Störsignal einschließlich: 1) Umgebungs- und Hintergrundrauschen; 2) Echo beispielsweise infolge akustischer Reflexionen bzw. elektrischer Reflexionen in Hybriden; 3) durch spezielle Geräte hardwareseitig hinzukommendes mechanisches und/oder elektrisches Rauschen wie Bandlaufgeräusche in einem Sprachabspielsystem; und 3) Nichtlinearitäten infolge von beispielsweise Signalbeschneidungen (Clipping) bzw. Quantisierung durch Sprachkompression.
  • Die Filterbank 104 zerlegt das Signal in separate Frequenzbänder. Je Band werden Leistungsmessungen im Rauschsignalleistungs- und Rauschleistungsestimator 106 durchgeführt und über die Zeit kontinuierlich aktualisiert. Diese Leistungsmessungen werden zur Bestimmung des Signal-Rausch-Verhältnisses (SNR) im jeweiligen Band verwendet. Mit dem Sprachaktivitätsdetektor 108 werden sprachaktive Zeitperioden von Sprachpausen unterschieden. Die Rauschleistung in einem jeden Frequenzband wird nur während einer Sprachpause aktualisiert, während die Rauschsignalleistung jederzeit verfolgt wird. Je Frequenzband wird auf Grundlage des bandeigenen SNR im Verstärkungsrechner 110 ein Verstärkungsfaktor (Dämpfungsfaktor) berechnet, um das Signal im Verstärkungsvervielfacher (Gain Multiplier) 112 zu dämpfen. Damit wird jedes Frequenzband des eingehenden gestörten Sprachsignals auf Grundlage des bandeigenen SNR gedämpft. In diesem Zusammenhang bezieht sich Sprachsignal auf ein Audiosignal, welches Sprach-, Musik- oder andere informationstragende Audiosignale enthalten kann (z. B. DTMF-Tone, Stummpausen und Geräusch).
  • In einer weitergehenden Verfahrensweise kann zur bandweisen Berechnung der Verstärkungsfaktoren neben den einzelnen SNR-Werten ferner ein Gesamt-SNR-Pegel Verwendung finden. Das Gesamt-Signal-Rausch-Verhältnis wird im Gesamt-SNR-Estimator 114 geschätzt. Die Verstärkungsfaktor-Berechnungen je Band werden im Verstärkungsrechner 110 durchgeführt. Die Dämpfung der Signale in den verschiedenen Bändern erfolgt dadurch, dass das Signal im jeweiligen Band mit dem entsprechenden Verstärkungsfaktor im Verstärkungsvervielfacher multipliziert wird. Die Dämpfung von Bändern mit geringem SNR ist größer als die Dämpfung von Bändern mit hohem SNR. Der Dämpfungswert ist auch bei geringem Gesamt-SNR größer. Das SNR des Eingangssignals weist einen breiten möglichen dynamischen Bereich auf. Das Sprachqualitätsverbesserungssystem als solches muss sowohl sehr saubere Sprachsignale aus Festnetztelefonen als auch sehr verrauschte Sprache aus Mobiltelefonen behandeln können. Nach dem Dämpfungsvorgang werden die Signale in den verschiedenen Bändern in ein einzelnes sauberes Ausgangssignal 116 zurückkombiniert. Das sich ergebende Ausgangssignal 116 hat dabei eine verbesserte wahrgenommene Gesamtqualität.
  • In diesem Zusammenhang bezieht sich Sprachqualitätsverbesserungssystem auf eine Vorrichtung bzw. Einrichtung, die die Qualität eines Sprachsignals in Bezug auf die menschliche Wahrnehmung bzw. in Bezug auf ein anderes Kriterium wie Erkennungsgenauigkeit durch eine Spracherkennungseinrichtung durch die Unterdrückung, Verdeckung, Aufhebung bzw. Entfernung von Störgeräuschen bzw. anderweitige Minderung der nachteiligen Rauschwirkungen erhöht. Sprachqualitätsverbesserungssysteme umfassen Vorrichtungen bzw. Einrichtungen, die ein Eingabesignal auf verschiedene Weise modifizieren, wie beispielsweise: 1) Erzeugung eines Sprachsignals größerer Bandbreite aus einem Sprachsignal geringerer Bandbreite; 2) Aufspaltung eines Eingangssignals in verschiedene Ausgangssignale auf der Grundlage bestimmter Kriterien, z. B. Trennung der Sprache verschiedener Sprecher, wobei ein Signal eine Kombination der Sprachsignale der verschiedenen Sprecher enthält; 3) und getrennte und/oder unterschiedliche Verarbeitung (beispielsweise durch Skalierung) unterschiedlicher „Portionen" eines Eingangssignals, wobei eine „Portion" ein zeitlicher Teilabschnitt des Eingabesignals sein kann (z. B. in Freisprechanlagen) bzw. bestimmte Frequenzbänder enthalten kann (z. B. in Audiosystemen mit Bassverstärkung) bzw. beides umfassen kann.
  • Die Zerlegung des gestörten Eingangssprachsignals kann auch mit Verfahren der Fourier-Transformation bzw. Wavelet-Transformation durchgeführt werden. 2 zeigt den Einsatz von Verfahren der diskreten Fourier-Transformation (dargestellt als Fenster + FFT-Block 202). Hier wird ein Block von Eingangssamplen auf den Frequenzbereich transformiert. Der Wert der komplexen Frequenzbereichselemente wird auf Grundlage der oben beschriebenen Grundsätze der spektralen Subtraktion in der Dämpfungseinheit 208 gedämpft. Die Phase der komplexen Frequenzbereichselemente wird dabei nicht geändert. Die komplexen Frequenzbereichselemente werden über eine inverse diskrete Fourier-Transformation im IFFT-Block 204 zum Zeitbereich zurücktransformiert, wodurch das Ausgangssignal 206 erzeugt wird. An Stelle von Fourier-Transformationsverfahren können zur Zerlegung des Eingangssignals Wavelet-Transformationsverfahren verwendet werden.
  • Bei Rauschunterdrückungssystemen kann eine Sprachaktivitätserkennung verwendet werden. Ein solcher Sprachaktivitätsdetektor wird beispielsweise im US-Patent Nr. 4,351,983 von Crouse u. a. vorgestellt. In diesen Detektoren wird die Leistung des Eingangssignals mit einem variablen Schwellpegel verglichen. Bei Überschreitung des Schwellpegels geht das System davon aus, dass Sprache anliegt. Im anderen Falle wird davon ausgegangen, dass nur Hintergrundrauschen vorhanden ist.
  • Für die meisten Implementierungen der Sprachqualitätsverbesserung wird eine minimale Verzögerung der Verarbeitung gewünscht. Der Einsatz von Verfahren der Fourier-Transformation bzw. Wavelet-Transformation zur spektralen Zerlegung ist somit nicht erstrebenswert, da diese Verfahren beim Zusammenstellen eines Sample-Blocks für die Verarbeitung lange Verzögerungszeiten mit sich bringen.
  • Eine geringe rechnerische Komplexität ist gleichfalls wünschenswert, da das Netzrauschunterdrückungssystem mehrere unabhängige Sprachkanäle gleichzeitig verarbeiten kann. Außerdem wird eine Begrenzung der Berechnungsarten auf Addition, Subtraktion und Multiplikation bevorzugt, um eine direkte digitale Hardware-Implementation zu erleichtern sowie die Verarbeitung in einer auf Digitalsignalprozessor-Basis arbeitenden Festpunktimplementierung zu minimieren. Die Division ist rechnerisch intensiv in Digitalsignalprozessoren und auch für die direkte digitale Hardware-Implementation aufwändig. Infolge der notwendigen gleichzeitigen Verarbeitung mehrerer unabhängiger Sprachkanäle sollten schließlich die Speicheranforderungen für jeden Kanal minimiert werden.
  • Sprachqualitätserhöhungsverfahren müssen auch mit Informationstönen wie DTMF-(Dualtonmehrfrequenz-)Tönen umgehen. DTMF-Tone werden gewöhnlich durch Tasten/Tonwahltelefone erzeugt, sobald eine der Tasten gedrückt wird. Das erweiterte Tastenfeld der Tastwahltelefone verfügt über 16 Tasten: (1, 2, 3, 4, 5, 6, 7, 8, 9, 0, *, #, A, B, C, D).
  • Die Tasten sind in einem Feld vier mal vier angeordnet. Beim Drücken einer beliebigen Taste werden über einen elektronischen Schaltkreis zwei Töne erzeugt. Wie in Tabelle 1 dargestellt, gibt es einen niederfrequenten Ton je Zeile und einen hochfrequenten Ton je Spalte. Dementsprechend werden die Zeilenfrequenzen als Tiefton-Gruppe (Low Group) und die Spaltenfrequenzen als Hochtongruppe (High Group) bezeichnet. Auf diese Weise lassen sich mit nur acht Einzeltönen sechzehn einzelne Tonkombinationen generieren. Tabelle 1 zeigt die Tasten und die entsprechenden Nennfrequenzen. (Obwohl hier in Bezug auf DTMF-Töne erörtert, gelten die in Bezug auf die vorliegende Erfindung erörterten Grundsätze für alle Inbandsignale. In diesem Zusammenhang bezieht sich ein Inbandsignal auf ein Tonsignal jeglicher Art innerhalb der für Sprachübertragenen normalerweise verwendeten Bandbreite wie beispielsweise Faxtöne, Wahltöne, Besetztzeichen und DTMF-Töne). Tabelle 1: Reihenfrequenzen (Tiefton) und Spaltenfrequenzen (Hochton) des Wahltastenfeides
    NF/HF (Hz) 1209 1336 1477 1633
    697 1 2 3 A
    770 4 5 6 B
    852 7 8 9 C
    941 * 0 # D
  • DTMF-Töne haben gewöhnlich eine Dauer von weniger als 100 Millisekunden (ms) und können bis zu 45 ms kurz sein. Diese Töne können bei Telefonaten an automatische Anrufbeantwortungssysteme verschiedener Arten übertragen werden. Diese Töne werden durch einen separaten DTMF–Schaltkreis generiert, dessen Ausgabesignal dem verarbeiteten Sprachsignal vor der Übertragung beigefügt wird.
  • Im Allgemeinen können DTMF-Signale mit einer maximalen Rate von zehn Ziffern pro Sekunde übertragen werden. Bei dieser maximalen Rate muss der Dualtongenerator je 100 ms-Zeitschlitz Tonwahlsignale mit einer Dauer von mindestens 45 ms und maximal 55 ms erzeugen und dann für den Rest des Zeitschlitzes stumm bleiben. Wenn ein Tonpaar nicht mit maximaler Rate übertragen wird, kann es beliebig lang sein, muss aber jeweils vom nächsten Tonpaar einen Zeitabstand von mindestens 40 ms aufweisen.
  • In bestehenden Sprachqualitätsverbesserungssystemen wurden DTMF-Töne jedoch oft zum Teil unterdrückt. Zu der Unterdrückung von DTMF-Tönen kam es, weil Sprachaktivitätsdetektoren und/oder DTMF-Ton-Detektoren eine gewisse Verzögerung benötigten, ehe sie das Anliegen eines Signals bestimmen konnten. Sobald schließlich ein anliegendes Signal erkannt wurde, dauerte es eine weitere Verzögerungsspanne, ehe die Verstärkungsfaktoren für die entsprechenden Frequenzbänder den richtigen (hohen) Wert erreichten. Diese Reaktionszeit verursachte oft eine starke Unterdrückung des Anfangsbereichs der Töne. Dadurch können kurze DTMF-Töne durch das Sprachqualitätsverbesserungssystem noch mehr verkürzt werden. 7 zeigt ein Eingangssignal 702 mit einem 697Hz-Ton 704 von 45 ms Dauer (360 Samples). Das Ausgabesignal 706 wird am Anfang stark unterdrückt, bis der Sprachaktivitätsdetektor das Anliegen des Signals entdeckt. Anschließend erhöht sich der Verstärkungsfaktor 708 allmählich, um eine Dämpfung zu vermeiden. Das Ausgangssignal ist somit eine verkürzte Version des Eingangstons, welcher in diesem Beispiel nicht die allgemeinen Mindestanforderungen erfüllt, die an die Dauer von DTMF-Tönen gestellt werden.
  • Infolge der Verkürzung der DTMF-Töne kann der Empfänger die DTMF-Töne nicht korrekt erkennen, da die Töne nicht der geforderten Mindestdauer entsprechen. Wie in 7 zu erkennen, erreicht der Verstärkungsfaktor 708 zu keiner Zeit seinen maximalen Einheitswert, da er vom SNR des Bandes abhängig ist. Das führt zu einer ständigen leichten Dämpfung des Ausgangssignals 706 und das kann ausreichend sein, um zu verhindern, dass die Signalleistung dem Schwellwert des empfängerseitigen DTMF-Detektors entspricht. Ferner können die Verstärkungsfaktoren für verschiedene Frequenzbänder unterschiedlich genug sein, um die Differenz der Amplituden der Dualtöne zu erhöhen. Hierdurch erhöht sich die Wahrscheinlichkeit, dass der Empfänger die DTMF-Töne nicht korrekt erkennen kann.
  • Die oben erörterten Mängel waren in bestehenden Rauschunterdrückungssystemen zu finden. Beispielsweise war das in den US-Patenten Nr. 4,628,529 , 4,630,304 und 4,603,305 von Borth u. a. offenbarte System für den Betrieb in Umgebungen mit starker Hintergrundrauschen konzipiert. Vorzuziehen ist jedoch ein Betrieb in einem breiten Bereich unterschiedlicher SNR-Bedingungen. Ferner wird in Borths Verfahren mit Software-Division gearbeitet. Rechnerisch intensive Divisionsoperationen kommen auch im US-Patent Nr. 4,454,609 von Kates zum Einsatz. Die Verwendung von log-spektralen Amplitudenschätzungen mit minimaler Standardabweichung, wie im US-Patent Nr. 5,012,519 von Adlersberg u. a. offenbart, ist gleichfalls rechenintensiv. Ferner nutzt das in Adlersberg offenbarte System Fourier-Transformationen für die spektrale Zerlegung, wodurch es zu einer unerwünschten Verzögerung kommt. Im Anwendungsbericht von Texas Instrument „DTMF Tone Generation and Detection: An Implementation Using the TMS320C54x" (DTMF-Ton-Generierung und -Erkennung: Eine Implementation mit dem TMS320C54x), 1997, S. 5–12, 20, A-1, A-2, B-1, B-2, wird zwar ein DTMF-Ton-Generator vorgestellt, aber es gibt keine Systeme, die unterdrückte DTMF-Töne verlängern und/oder regenerieren.
  • In der Industrie gibt es seit langem einen Bedarf für ein Rauschunterdrückungssystem mit geringer rechnerischer Komplexität. Ferner gibt es in der Industrie seit langem einen Bedarf für ein Rauschunterdrückungssystem, das in der Lage ist, teilweise unterdrückte DTMF-Töne zu verlängern und/oder zu regenerieren.
  • Die vorliegende Erfindung, wie durch die angehängten unabhängigen Ansprüche definiert, besteht in einer Vorrichtung zum Verbessern der Qualität eines Kommunikationssignals in einem Kommunikationssystem. Sie umfasst einen adaptierten Prozessor zur Durchführung der Verfahrensschritte: Unterteilen des Kommunikationssignals in mehrere Frequenzbandsignale; Erzeugen eines ersten Stromsignals für ein erstes Frequenzbandsignal, wobei dieses erste Stromsignal auf einer Schätzung der Leistung des ersten Frequenzbandsignals über eine erste Zeitperiode basiert; Erzeugen eines zweiten Stromsignals für das erste Frequenzbandsignal, wobei dieses zweite Stromsignal auf einer Schätzung der Leistung des ersten Frequenzbandsignals über eine zweite Zeitperiode basiert, die kürzer ist als die erste Zeitperiode; Erzeugen eines Zustandssignals, das einen Zustand des ersten Frequenzbandsignals in Reaktion auf vorbestimmte Verhältnisse zwischen dem ersten und dem zweiten Stromsignal darstellt; Einstellen der Verstärkung des Frequenzbandsignals in Reaktion auf das Zustandssignal zum Erzeugen eines justierten Frequenzbandsignals; und Kombinieren des justierten Frequenzbandsignals mit mindestens einem zusätzlichen Frequenzbandsignal zum Erzeugen eines justierten Kommunikationssignals. Das Zustandssignal ist ein Rausch-Signal-Verhältnis (NSR), welches in Reaktion auf eine vorbestimmte arithmetische Beziehung, die Addition, Subtraktion und Multiplikation, aber nicht Division umfasst, zwischen vom ersten und zweiten Stromsignal abgeleiteten Werten erzeugt wird.
  • Die Erfindung besteht ferner in einer Vorrichtung zum Verbessern eines Kommunkationssignals in einem Kommunikationssystem, die einen für die Durchführung des obigen Verfahrens adaptierten Prozessor beinhaltet. Die Vorrichtung und die Verfahren der Erfindung lassen sich entsprechend anpassen, um Informationstöne wie DTMF-Tone zu verarbeiten; um DTMF-Tone teilweise zu unterdrücken; und um teilweise unterdrückte DTMF-Töne zu regenerieren.
  • Die erfindungsgemäße Vorrichtung kann eine Filterbank von Bandpassfiltern nutzen, um das verrauschte eingehende Sprachsignal in einzelne Frequenzbänder aufzuspalten. Zur Bestimmung, ob das Eingangssignal Sprache, DTMF-Töne bzw. Stummpausen enthält, kann ein verbundener Sprachaktivitäts- und DTMF-Aktivitätsdetektor (JVADAD) zur Anwendung kommen.
  • In der normalen Praxis der Erfindung wird ausgehend von Schätzungen der im Eingangssignal bei Sprachaktivität vorliegenden durchschnittlichen Rauschsignalleistung und der in Sprachpausen vorliegenden durchschnittlichen Rauschleistung ein Gesamtdurchschnitts-Rausch-Signal-Verhältnis (NSR) berechnet. An Stelle der direkten Messung des Rauschsignals und der Rauschleistungswerte je Frequenzband, wie dies in Rauschunterdrückungssystemen gewöhnlich erfolgt, werden je Band zwei indirekte Leistungswerte bestimmt. Diese Leistungswerte werden als Kurzzeitleistung und Langzeitleistung bezeichnet. Diese Werte werden im Langzeit- und Kurzzeitleistungsestimator bestimmt. Die Langzeitleistung ist eine skalierte Version der Rauschleistung im Band. Die Kurzzeitleistung ist eine skalierte Version der Rauschsignalleistung im Band. Diese skalierten Leistungswerte können zur Minimierung des für eine Festpunktimplementierung notwendigen dynamischen Bereichs eingesetzt werden. Das führt zu einer besseren Rauschunterdrückungsleistung, die einer Gleitpunktimplementierung nahe kommt. Die Leistungsschätzvorgänge werden auf Grundlage der vom JVADAD angezeigten Signalaktivität adaptiert. Eine erhebliche Verminderung der für die Leistungsmessung erforderlichen Anzahl von Berechnungen erfolgt durch das Undersampling der Signale in jedem Frequenzband vor der Leistungsmessung.
  • Ein NSR-Adapter kann eingesetzt werden, um das NSR für jedes Frequenzband auf Grundlage der Langzeit- und Kurzzeitleistungen, des Gesamt-NSR und der vom JVADAD angezeigten Signalaktivität zu adaptieren. Die NSR-Adaptation erfolgt ohne Division unter Verwendung eines Vorhersagefehlers, der in Abhängigkeit der Langzeit-, Kurzzeit- und Gesamt-NSR-Werte berechnet wird. Ein Verstärkungsrechner nutzt diese NSR-Werte zur Bestimmung des Verstärkungsfaktors für jedes Frequenzband. Der Verstärkungsvervielfacher kann daraufhin die Dämpfung eines jeden Frequenzbandes durchführen. Schließlich werden die verarbeiteten Signale in den separaten Frequenzbändern im Kombinationsglied zur Erzeugung des sauberen Ausgangssignals aufsummiert.
  • Das vorgenannte Verfahren der Adaptation der NSR-Werte während anliegender Sprache unterscheidet sich von dem Verfahren, das beim Anliegen von DTMF-Tönen verwendet wird. Bei DTMF-Tönen wird durch die Schnelleinstellung der NSR-Werte für die entsprechenden, die DTMF-Töne enthaltenden Frequenzbänder der Betrag der transparent durchgeleiteten DTMF-Töne maximiert. Im Falle von Sprache werden die NSR-Werte vorzugsweise langsamer adaptiert, um der Beschaffenheit der Sprachsignale zu entsprechen.
  • Weitere Merkmale und Vorzüge der Erfindung werden aus der folgenden detaillierten Beschreibung ersichtlich, die sich auf die begleitenden Zeichnungen bezieht, wobei gilt:
  • 1 zeigt ein Blockschaltbild eines typischen Rauschunterdrückungssystems.
  • 2 zeigt ein Blockschaltbild eines weiteren typischen Rauschunterdrückungssystems.
  • 3 zeigt ein Blockschaltbild einer Rauschunterdrückungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung.
  • 4 zeigt ein Blockschaltbild einer Vorrichtung zur Bestimmung des NSR in der erfindungsgemäßen Vorrichtung.
  • 5 zeigt ein Ablaufschema zur Beschreibung eines Verfahrens zur Verlängerung von DTMF-Tönen in der erfindungsgemäßen Vorrichtung.
  • 6 zeigt ein Ablaufschema zur Beschreibung eines Verfahrens zur Regenerierung von DTMF-Tonen in der erfindungsgemäßen Vorrichtung.
  • 7 zeigt Diagramme zur Illustration der Unterdrückung von DTMF-Tönen in Sprachqualitätsverbesserungssystemen.
  • 8 zeigt Diagramme zur Illustration der Echtzeitverlängerung von DTMF-Tönen.
  • 9 zeigt ein Blockschaltbild eines verbundenen Sprachaktivitäts- und DTMF-Aktivitätsdetektors in der erfindungsgemäßen Vorrichtung.
  • 3 stellt ein Blockschaltbild einer Rauschunterdrückungsvorrichtung 300 dar. Dargestellt werden eine Filterbank 302, ein Sprachaktivitätsdetektor 304, ein Überhangzähler 305 und ein Gesamt-NSR-(Rausch-Signal-Verhältnis-)Estimator 306. Ferner sind vorhanden: ein Leistungsestimator 308, NSR-Adapter 310, Verstärkungsrechner 312, Verstärkungsvervielfacher 314 und ein Kombinierer 315. Die in 3 dargestellte Ausführungsform stellt auch ein Eingangssignal x(n) 316 und Ausgangssignale xk(n) 318, ein verbundenes Sprachaktivitätserkennungs- und DTMF-Aktivitätserkennungssignal 320 dar. Ferner zeigt 3 einen DTMF-Tongenerator 321. Vom Gesamt-NSR-Estimator 306 wird das Gesamt-NSR („NSRoverall(n)") 322 ausgegeben. Die Leistungsschätzungen 323 sind Ausgabe des Leistungsestimators 308. Die adaptierten NSR-Werte 324 werden vom NSR-Adapter 310 ausgegeben. Die Verstärkungsfaktoren 326 werden vom Verstärkungsrechner 312 ausgegeben. Die gedämpften Signale 328 werden vom Verstärkungsvervielfacher 314 ausgegeben. Die regenerierten DTMF-Tone 329 werden vom DTMF-Tongenerator 321 ausgegeben. 3 zeigt ferner, dass der Leistungsestimator 308 wahlweise einen Undersampling-Schaltkreis 330 enthalten und dass der Leistungsestimator 308 wahlweise die Leistungsschätzungen 323 an den Verstärkungsrechner 312 ausgeben kann.
  • In der illustrierten Ausführungsform von 3 empfängt die Filterbank 302 das Eingangssignal 316. Die Samplingrate des Sprachsignals in beispielsweise Telefonieanwendungen beträgt gewöhnlich 8 kHz bei einer Nyquist-Bandbreite von 4 kHz. Da der Übertragungskanal üblicherweise einen Bereich von 300 bis 3400 Hz aufweist, kann die Filterbank 302 so ausgelegt werden, dass nur Signale in diesem Bereich durchgelassen werden. Die Filterbank 302 kann beispielsweise eine Bank von Bandpassfiltern nutzen. Dabei kann eine Multirate- oder Singlerate-Filterbank 302 verwendet werden. Eine Implementierung der Singlerate-Filterbank 302 verwendet die FSF-Struktur (Frequenz-Sampling-Filter). Die bevorzugte Ausführungsform arbeitet mit einer Resonatorbank, die aus einer Reihe von Filtern niedriger Ordnung mit unendlicher Impulsantwort („IIR-Filter") besteht. Die Resonatorbank kann als eine modifizierte Version der FSF-Struktur betrachtet werden und weist gegenüber der FSF-Struktur verschiedene Vorzüge auf. Die Resonatorbank benötigt nicht den speicherintensiven Kammfilter der FSF-Struktur und erfordert infolgedessen weniger Berechnungen. Die Verwendung abwechselnder Vorzeichen in der FSF-Struktur wird ebenfalls eliminiert, was zu einer verminderten rechnerischen Komplexität führt. Die Übertragungsfunktion des k-ten Resonators kann beispielsweise wie folgt gegeben werden:
    Figure 00100001
  • In Gleichung (1) wird die Mittenfrequenz eines jeden Resonators durch θk angegeben. Die Bandbreite des Resonators wird durch rk angegeben. Der Wert gk wird zur Einstellung der DC-Verstärkung eines jeden Resonators verwendet. Für eine Resonatorbank bestehend aus 40 Resonatoren mit einem Bereich von ca. 300–3400 Hz sind folgende Werte entsprechend geeignet für Resonatorübertragungsfunktionen mit k = 3, 4, ... 42: rk = 0.965 (2a)
    Figure 00100002
    gk = 0.01 (2c)
  • Der Eingang zur Resonatorbank wird mit x(n) bezeichnet, während der Ausgang des k-ten Resonators als xk(n) bezeichnet wird, wobei n die Sample-Zeit ist.
  • Der Verstärkungsfaktor 326 für das k-te Frequenzband kann einmal pro alle T-Samples berechnet werden:
    Figure 00110001
  • Wenn der Verstärkungsfaktor 326 für jedes Frequenzband einmal pro alle T-Samples berechnet wird, liegt ein „Undersampling" der Verstärkung vor, da der Faktor nicht für jedes Sample berechnet wird. Wie durch die gestrichelten Linien in den 1 bis 4 illustriert, können von den jeweiligen Geräten mehrere unterschiedliche Datenelemente, beispielsweise Verstärkungsfaktoren 326, ausgegeben werden. Die mehreren Ausgaben entsprechen vorzugsweise den mehreren Subbändern, in die das Eingangssignal 316 aufgespalten wird. Der Verstärkungsfaktor wird in einem Bereich zwischen einem kleinen positiven Wert ε und 1 liegen, da die NSR-Werte auf den Bereich [0,1–ε] begrenzt sind. Wenn die untere Grenze der Verstärkung auf ε gesetzt wird, werden die Restrauscheffekte („Musical Noise") reduziert und dies gestattet eine begrenzte Hintergrundsignaltransparenz.
  • Die Dämpfung des Signals xk(n) vom k-ten Frequenzband wird erreicht, indem xk(n) mit seinem entsprechenden Verstärkungsfaktor, Gk(n), jedes Samples multipliziert wird. Die Summe der resultierenden gedämpften Signale, y(n), ist das saubere Ausgangssignal 328. Die Summe der gedämpften Signale 328 lässt sich mathematisch wie folgt ausdrücken:
    Figure 00110002
  • Das gedämpfte Signal 328 kann für die weitere Übertragung auch skaliert, beispielsweise angehoben oder verstärkt, werden.
  • Die Leistung, P(n) bei Sample n, eines zeitdiskreten Signals u(n), wird durch Tiefpass-Filterung des vollweggleichgerichteten Signals angenähert geschätzt. Für den Tiefpass-Filter kann ein IIR-Filter erster Ordnung verwendet werden, wie beispielsweise: P(n) = βP(n – 1) + α|u(n)| (5)
  • Das IIR-Filter hat die folgende Übertragungsfunktion:
    Figure 00120001
  • Die DC-Verstärkung dieses Filters ist
    Figure 00120002
  • Der Koeffizient β wird als Zerfallskonstante bezeichnet. Der Wert der Zerfallskonstante bestimmt die Zeitdauer, die der Gegenwartswert (ungleich Null) der Leistung benötigt, um in eine kleine Fraktion des Gegenwartswerts zu zerfallen, wenn das Eingangssignal Null ist, d. h. u(n) = 0. Wenn die Zerfallskonstante β nahe eins ist, benötigt der Leistungswert eine relativ lange Zeit zum Zerfallen. Wenn β nahe null ist, ist die Zerfallsdauer des Leistungswerts relativ kurz. Somit bringt die Zerfallskonstante auch zum Ausdruck, wie schnell der alte Leistungswert verloren geht und wie schnell die Leistung des neuen Eingangssamples integriert wird. Somit führen größere Werte für β zu einem längeren effektiven Mittelungsfenster. In diesem Zusammenhang sind Leistungsschätzungen 323, die ein relativ langes effektives Mittelungsfenster verwenden, Langzeit-Leistungsschatzungen, während Leistungsschätzungen mit einem relativ kurzen Mittelungsfenster Kurzzeit-Leistungsschätzungen sind.
  • Je nach anzusehendem Signal kann eine längere oder kürzere Mittelung für die Schätzung der entsprechenden Leistung günstig sein. Für die Sprachleistung mit ihrem schnell wechselnden Profil wäre die Schätzung mit kleinerem β günstig. Bei Rauschen kann von längeren stationären Perioden als bei Sprache ausgegangen werden. Die Rauschleistung wird deshalb vorzugsweise mit einem längeren Mittelungsfenster (großem β) genau geschätzt.
  • Die bevorzugte Ausführungsform der Leistungsschätzung vermindert die rechnerische Komplexität erheblich, indem zum Zwecke der Leistungsschätzung ein Undersampling des Eingangssignals erfolgt. Das bedeutet, dass von allen T-Samples nur ein Sample für die Aktualisierung der Leistung P(n) verwendet wird. Zwischen diesen Aktualisierungen wird die Leistungsschätzung konstant gehalten. Mathematisch lässt sich diese Vorgehensweise wie folgt darstellen:
    Figure 00130001
  • Dieser Tiefpass-IIR-Filter erster Ordnung wird vorzugsweise für die Schätzung der durchschnittlichen Gesamt-Hintergrundrauschleistung sowie einen Langzeit- und Kurzzeit-Leistungswert je Frequenzband verwendet. Er wird ferner vorzugsweise für Leistungsmessungen in der Sprachaktivitätserkennung (VAD) 304 eingesetzt. Ein Undersampling kann durch den Einsatz beispielsweise eines Undersampling-Schaltkreises 330 erfolgen, welcher mit dem Leistungsestimator 308 verbunden ist.
  • Das Gesamt-SNR („SNRoverall(n)") bei Sample n ist definiert als:
    Figure 00130002
    wobei gilt: PSIG(n) und PBN(n) sind die durchschnittliche Rauschsignalleistung während Sprachaktivität bzw. die durchschnittliche Hintergrundrauschleistung während Pausen. Das Gesamt-SNR wird verwendet, um den Betrag der übermäßigen Signalunterdrückung (Übersuppression) je Frequenzband zu beeinflussen. Die Übersuppression verbessert die wahrgenommene Sprachqualität inbesondere unter Bedingungen mit niedrigem Gesamt-SNR. Die Übersuppression des Signals wird erreicht, indem der Gesamt-SNR-Wert zur Beeinflussung des NSR-Adapters 310 verwendet wird. Darüber hinaus kann in Fällen, wo ein hohes Gesamt-SNR vorliegt, mit verminderter Rauschunterdrückung (Untersuppression) gearbeitet werden, um eine unnötige Dämpfung des Signals zu verhindern. Dies verhindert die Verzerrung der Sprache bei Vorliegen eines hohen SNR, wo das niederpegelige Rauschen durch die Sprache effektiv verdeckt wird. Die Übersuppression und Untersuppression wird im Folgen näher erörtert.
  • Die durchschnittliche Rauschsignalleistung wird vorzugsweise während der Sprachaktivität, wie durch den VAD 304 angezeigt, nach folgender Formel geschätzt:
    Figure 00140001
    wobei gilt: x(n) ist das verrauschte Sprache enthaltende Eingangssignal.
  • Die durchschnittliche Hintergrundrauschleistung wird vorzugsweise nach folgender Formel geschätzt:
    Figure 00140002
    wobei gilt: PBN(n) darf PBN,max(n) nicht übersteigen.
  • Während Pausen bzw. DTMF-Tonaktivität, wie durch den VAD 304 angezeigt, wird der Rauschsignalleistungswert vorzugsweise konstant gehalten, d. h. PSIG(n) = PSIG(n – 1). (10a)
  • Während Sprach- bzw. DTMF-Tonaktivität, wie durch den VAD angezeigt, wird der durchschnittliche Hintergrundrauschleistungswert vorzugsweise konstant gehalten, d. h. PBN(n) = PBN(n – 1) (10b)
  • Wenn der Bereich der Eingangssamples auf ±1 normalisiert wird, sind geeignete Werte für die konstanten Parameter, die in der bevorzugten Ausführungsform verwendet werden: PBN,max = 180/8159 (11a) αSIG = αBN = T/16000 (11b) βSIG = βBN = 1 – T/16000 (11c)wobei gilt: T = 10 ist eine mögliche Undersampling-Periode.
  • Der durchschnittliche Hintergrundrauschleistungspegel wird vorzugsweise auf PBN,max begrenzt und zwar aus zwei Gründen. Zum einen, weil PBN,max das typische ungünstigste Mobiltelefonie-Rauschszenario darstellt. Zum zweiten, weil PSIG(n) und PBN(n) später im NSR-Adapter 310 verwendet werden, um die Verstellung des NSR für jedes Frequenzband zu beeinflussen. Die Begrenzung von PBN(n) stellt ein Mittel zur Verfügung, um den Einfluss des Gesamt-SNR auf den NSR-Wert je Band betraglich zu steuern.
  • In der bevorzugten Ausführungsform wird an Stelle des Gesamt-SNR das Gesamt-NSR 322 berechnet. Das Gesamt-NSR 322 eignet sich besser für die Anpassung der einzelnen Frequenzband-NSR-Werte. Da zur geradlinigen Berechnung des Gesamt-NSR 322 eine rechnerisch intensive Division von PBN(n) durch PSIG(n) gehört, verwendet die bevorzugte Ausführungsform eine Methode, die eine geeignete angenäherte Bestimmung des Gesamt-NSR 322 gewährleistet. Ferner wird die Definition des NSR aufs Negative erweitert, damit sehr hohe Pegel des Gesamt-NSR 322 wie folgt angezeigt werden:
    Figure 00150001
  • Eine Ausführungsform der Erfindung verwendet υ1 = 2,9127, υ2 = 1,45635, υ3 = 0,128, κ1 = 10, κ2 = 14 und κ3 = 20. In diesem Fall hat NSRoverall(n) 322 einen Bereich von: –0,128 ≤ NSRoverall(n) ≤ 0.064. (12b)
  • Die Obergrenze von NSRoverall(n) in dieser Ausführungsform wird dadurch verursacht, dass PBN(n) auf maximal PBN.max(n) begrenzt wird. Die Untergrenze entsteht durch den Umstand, dass PBN(n) – PSIG(n) ≥ –1. (Da davon ausgegangen wird, dass der Eingangssignalbereich auf ±1 normalisiert wird, liegen sowohl PBN(n) als auch PSIG(n) stets zwischen 0 und 1.)
  • Der Langzeit-Leistungswert, PkLT (n) bei Sample n, für das k-te Frequenzband ist proportional zum tatsächlichen Rauschleistungspegel in diesem Band. Er ist eine verstärkte Version des Ist-Rauschleistungspegels. Der Verstärkungsbetrag wird vorherbestimmt, um in einer Festpunktimplementierung des für die Leistungsschätzung eingesetzten IIR-Filters Unterschreitungen (Underflow) zu verhindern bzw. zu minimieren. Underflow kann eintreten, da der dynamische Bereich des Eingangssignals in einem Frequenzband während einer Pause gering ist. Die Schätzung der Langzeitleistung für das k-te Frequenzband erfolgt vorzugsweise nur während einer Pause, wie durch den VAD 304 angezeigt, unter Anwendung des folgenden IIR-Tiefpassfilters erster Ordnung:
    Figure 00160001
  • In diesem Falle würde die Langzeitleistung während DTMF-Tonaktivität bzw. Sprachaktivität nicht aktualisiert werden. Dabei beeinflusst die DTMF-Tonaktivität jedoch im Gegensatz zur Sprache nur einige wenige Frequenzbänder. In einer alternativen Ausführungsform werden deshalb die Langzeitleistungsschätzwerte, die den nicht die DTMF-Tone enthaltenden Frequenzbändern entsprechen, während der DTMF-Tonaktivität aktualisiert. In der vorliegenden Ausführungsform werden Langzeitleistungsschätzwerte für DTMF-Töne enthaltende Frequenzbänder konstant gehalten, d. h. PkLT (n) = PkLT (n – 1). (14)
  • Dabei ist zu beachten, dass auch für den Langzeitleistungswert vorzugsweise ein Undersampling mit einer Periode T erfolgt. Eine geeignete Undersampling-Periode ist T = 10 Samples. Ein geeigneter Satz von Filterkoeffizienten für Gleichung (13) ist: αLT = T/160 (15a) βLT = 1 – T/16000 (15b)
  • In der vorliegenden Ausführungsform beträgt die DC-Verstärkung des Langzeitleistungsfilters HLT(1) = 100. Diese große DG-Verstärkung gewährleistet die notwendige Anhebung zur Vermeidung bzw. Minimierung eines möglichen Underflows beim Langzeitleistungswert.
  • Die Schätzung der Kurzzeitleistung verwendet ein kürzeres Mittelungsfenster als die Schätzung der Langzeitleistung. Wenn die Schätzung der Kurzzeitleistung unter Verwendung eines IR-Filters mit festen Koeffizienten wie in Gleichung (7) durchgeführt würde, würde die Leistung vermutlich schnelle Schwankungen aufweisen, um den bei Sprache vorliegenden Varianzen der Signalleistung zu folgen. In einer Pause wären die Varianzen zwar geringer, würden aber dennoch den Langzeitleistungswert übersteigen.
  • Somit wäre bei Verwendung fester Koeffizienten ein hoher dynamischer Bereich dieses Leistungswertes erforderlich. Da jedoch der Zählerkoeffizient des IR-Filters in Proportionalität zum NSR des Frequenzbandes gebracht wird, folgt die Leistungswertbestimmung statt dessen dem Rauschleistungspegel im Band. Die Möglichkeit eines Overflow wird vermindert bzw. ausgeschlossen, was zu einem genaueren Leistungswert führt.
  • Die bevorzugte Ausführungsform verwendet einen IR-Filter erster Ordnung für die Schätzung der Kurzzeitleistung, PkLT (n) im k-ten Frequenzband, einmal je T-Samples:
    Figure 00170001
    wobei gilt: NSRk(n) ist das Rausch-Signal-Verhältnis (NSR) des k-ten Frequenzbandes bei Sample n. Dieser IR-Filter ist adaptiv, da der Zählerkoeffizient in der Übertragungsfunktion dieses Filters proportional zum NSRk(n) ist, welches zeitabhängig ist und im NSR-Adapter 310 angepasst wird. Diese Leistungsschätzung wird vorzugsweise jederzeit durchgeführt, ungeachtet der durch den VAD 304 angezeigten Signalaktivität.
  • Eine geeignete Undersampling-Periode für die Leistungswertbestimmung kann beispielsweise T = 10 Samples sein. Geeignete Filterkoeffizienten können beispielsweise sein: αST = 1 (17a) βST = 1 – T/128. (17b)
  • In der vorliegenden Ausführungsform beträgt die DG-Verstärkung des für die Schätzung der Kurzzeitleistung verwendeten IR-Filters HST(1) = 12,8.
  • Nun wird das Verfahren zur Adaptation der NSR-Werte bei nicht anliegenden DTMF-Tönen erörtert. Die Adaptation des NSR eines Frequenzbandes erfolgt vorzugsweise auf Basis der Langzeitleistung PLT(n) und der Kurzzeitleistung PST(n), die diesem Band entspricht, sowie des Gesamt-NSR, NSRoverall(n) 322.
  • 4 illustriert den Vorgang der NSR-Adaptation für ein einzelnes Frequenzband. 4 zeigt den Kompensationsfaktor-Adapter 402, den Langzeitleistungsestimator 308a, den Kurzzeitleistungsestimator 308b und den Leistungskompensator 404. Gleichfalls dargestellt sind der Kompensationsfaktor 406, der Langzeitleistungsschätzwert 323a und der Kurzzeitleistungsschätzwert 323b. Ferner ist der Vorhersagefehler 408 dargestellt.
  • Der Gesamt-NSR-Estimator 306 ist für alle Frequenzbänder gleich. In der bevorzugten Ausführungsform ist auch der Kompensationsfaktor-Adapter 402 im Hinblick auf die rechnerische Effizienz für alle Frequenzbänder gleich. Allgemein ist es jedoch möglich, den Kompensationsfaktor-Adapter 402 für verschiedene Frequenzbänder unterschiedlich auszulegen. Während Sprechpausen ist der Kurzzeitleistungsschätzwert 323b in einem Frequenzband ein Maß für den Rauschleistungspegel. Bei Sprache sagt die Kurzzeitleistung 323b den Rauschleistungspegel vorher. Da das Hintergrundrauschen über kurze Zeitperioden hinweg fast stationär ist, liefert die Langzeitleistung 323a, die während Sprachstößen konstant gehalten wird, einen guten Schätzwert für die wahre Rauschleistung, vorzugsweise nach Kompensation durch einen Skalaren. Die Skalarkompensation ist vorteilhaft, da die Langzeitleistung 323a eine verstärkte Version des Ist-Rauschleistungspegel ist. Somit stellt die Differenz zwischen der Kurzzeitleistung 323b und der kompensierten Langzeitleistung ein Mittel zur Anpassung des NSR dar. Diese Differenz wird als Vorhersagefehler 408 bezeichnet. Das Vorzeichen des Vorhersagefehlers kann zur Erhöhung bzw. Verminderung des NSR verwendet werden, ohne dass eine Division erfolgt.
  • Die Adaptation des NSR für das k-te Frequenzband kann während Sprache und Pause (aber vorzugsweise nicht während DTMF-Tonaktivität) wie folgt durchgeführt werden:
    Figure 00180001
    wobei der Kompensationsfaktor (der im Kompensationsfaktor-Adapter adaptiert wird) für die Langzeitleistung wie folgt dargestellt ist:
    Figure 00180002
  • In der Formel (18) wird das Vorzeichen des Vorhersagefehlers 408, PST(n) – C(n)PLT(n), dazu verwendet, die Richtung der Anpassung von NSRk(n) zu bestimmen. In der vorliegenden Ausführungsform wird der Betrag der Anpassung auf der Basis der vom VAD angezeigten Signalaktivität bestimmt. Die bevorzugte Ausführungsform verwendet eine große Δ während Sprache und eine kleine Δ während einer Pause. Die Sprachleistung schwankt schnell und eine große Δ ist für eine schnelle Verfolgung der Varianzen geeignet. In Pausen weist das Hintergrundrauschen gewöhnlich eine langsame Varianz auf und somit ist hier ein kleinerer Δ-Wert ausreichend. Ferner wird durch die Verwendung eines geringen Δ-Wertes verhindert, dass es durch plötzliche Rauschzacken kurzer Dauer zu einer übermäßigen Erhöhung des NSR kommt, wodurch die Rauschzacke durch das Rauschunterdrückungssystem durchschlagen könnte.
  • Ein geeigneter Parametersatz für die Verwendung in Gleichung (18) bei T = 10 ist ε = 0,05 (20a)
    Figure 00190001
  • In der bevorzugten Ausführungsform erfolgt im NSR-Adapter die Adaptation des NSR entsprechend dem VAD-Zustand und der Differenz zwischen der Rausch- und Signalleistung. Obwohl die bevorzugte Ausführungsform nur das Vorzeichen der Differenz zwischen Rausch- und Signalleistung verwendet, kann die Größe dieser Differenz auch zur Änderung des NSR eingesetzt werden. Außerdem kann der NSR-Adapter das NSR nach einem bzw. mehreren der folgenden Faktoren verändern: 1) nach dem VAD-Zustand (z. B. einem vom VAD gesetzten Merker (Flag) für Sprache bzw. Rauschen); 2) nach der Differenz zwischen Rauschleistung und Signalleistung; 3) nach einem Verhältnis von Rausch-zu-Signal-Leistung (Momentan-NSR); und 4) nach der Differenz zwischen dem Momentan-NSR und einem vorangegangenen NSR. Beispielsweise kann Δ ausgehend von einem oder mehreren dieser vier Faktoren variieren. Das Adaptieren von Δ auf Grundlage des Momentan-NSR bewirkt eine „Glättung" bzw. „Mittelung" des adaptierten NSR-Schätzwertes. In einer Ausführungsform kann Δ gemäß folgender Tabelle variiert werden (Tabelle 1.1): Tabelle 1.1 Nachschlagetabelle für mögliche Δ-Einsatzwerte zur Veränderung des adaptierten NSR
    Größenordnung der Differenz zwischen einem vorhergehenden NSR und einem Momentan-NSR während Sprache Δ
    Bei Sprache |Differenz| < 0,025 0
    0,025 < |Differenz| ≤ 0,3 0,025
    |Differenz| < 0,3 0,05
    In Pausen |Differenz| < 0,00625 0
    0,00625 < |Differenz| ≤ 0,3 0,00625
    |Differenz| < 0,3 0,01
  • Das Gesamt-NSR, NSRoverall(n) 322, kann auch ein Faktor in der Adaptation des NSR durch den Kompensationsfaktor C(n) 406 sein, wie durch Gleichung (19) angegeben. Ein höherer Gesamt-NSR-Pegel führt zur übermäßigen Anhebung (Overemphasis) der Langzeitleistung 323a für alle Frequenzbänder. Dadurch werden alle NSR-Werte auf höhere Pegel gestellt. Entsprechend wäre damit der Verstärkungsfaktor 326 für höhere Gesamt-NSR-Pegel niedriger. Die wahrgenommene Sprachqualität wird durch diese überhöhte Entrauschung (Oversuppression) bei höheren Hintergrundrauschpegeln verbessert.
  • Wenn NSRoverall(n) 322 negativ ist, was unter Bedingungen mit sehr hohem Gesamt-SNR vorkommt, wird in der vorliegenden Ausführungsform der NSR-Wert für jedes Frequenzband in Richtung 0 verschoben. Damit wird eine reduzierte Unterdrückung (Undersuppression) sehr geringer Rauschpegel erreicht, da diese niedrigpegeligen Störgeräusche von Sprache effektiv überdeckt werden. Die Beziehung zwischen dem Gesamt-NSR 322 und dem adaptierten NSR 324 in den verschiedenen Frequenzbändern kann als eine proportionale Beziehung beschrieben werden, da mit steigendem Gesamt-NSR 322 das je Band adaptierte NSR 324 ansteigt.
  • In der bevorzugten Ausführungsform gilt: HLT(1) = 100 und HST(1) = 12,8, also HST(1)/HLT(1) = 0,128 in Gleichung (19). Da –0,128 ≤ NSRoverall(n) ≤ 0,064, liegt der Kompensationsfaktor im Bereich: 0 ≤ C(n) ≤ 0.192 (21)
  • Somit ist in der vorliegenden Ausführungsform die Langzeitleistung unter niedrigen SNR-Bedingungen um maximal das 1,5-fache ihres tatsächlichen Wertes übersteigert. Bei Bedingungen mit hohem SNR erfolgt ein Absenken (Deemphase) der Langzeitleistung, wenn C(n) ≤ 0,128.
  • Bei DTMF-Tonaktivität, wie vom VAD 304 angezeigt, ist der Prozess der Adaptation der NSR-Werte mit den Gleichungen (18) und (19) für die DTMF-Töne enthaltenden Frequenzbänder nicht geeignet. Für die Bänder, die keine aktiven DTMF-Töne enthalten, werden die Gleichungen (18) und (19) während vorliegender DTMF-Tonaktivität vorzugsweise werter verwendet.
  • Sobald eine DTMF-Aktivität erkannt wird, werden die NSR-Werte für die DTMF-Töne enthaltenden Frequenzbänder vorzugsweise so lange auf Null gesetzt, bis keine DTMF-Aktivität mehr erkannt wird. Nach dem Ende der DTMF-Aktivität können die NSR-Werte wieder so adaptiert werden, wie oben beschrieben.
  • Der Sprachaktivitätsdetektor („VAD") 304 bestimmt, ob das Eingangssignal entweder Sprache oder eine Pause enthält. Vorzugsweise ist der VAD 304 ein verbundener Sprachaktivitäts- und DTMF-Aktivitätsdetektor („JVADAD"). Die Erkennung der Sprachaktivität und der DTMF-Aktivität kann unabhängig erfolgen, wonach die Entscheidungen der beiden Detektoren zu einer abschließenden Entscheidung kombiniert werden. Wie in 9 dargestellt, kann der JVADAD 304 einen Sprachaktivitätsdetektor 304a, einen DTMF-Aktivitätsdetektor 304b und einen Bestimmungsschaltkreis 304c beinhalten. In einer Ausführungsform liefert der VAD 304a ein Spracherkennungssignal 902 an den Bestimmungsschaltkreis 304c und der DTMF-Aktivitätsdetektor liefert ein DTMF-Erkennungssignal 904 an den Bestimmungsschaltkreis 304c. Der Bestimmungsschaltkreis 304c bestimmt daraufhin anhand des Spracherkennungssignals 902 und des DTMF-Erkennungssignals 904, ob im Eingangssignal 316 Sprache, DTMF-Aktivität bzw. eine Pause vorliegt. Der Bestimmungsschaltkreis 304c kann den Inhalt des Eingangssignals 316 beispielsweise auf Grundlage der in Tabelle 2 (unten) dargestellten Logik bestimmen. In diesem Zusammenhang bezieht sich Pause auf nicht vorliegende Sprache bzw. nicht vorliegende DTMF-Aktivität und kann ein Rauschen beinhalten.
  • Der Sprachaktivitätsdetektor kann ein einzelner Merker, Flag VAD 320, ausgeben, der beispielsweise auf eins gesetzt wird, wenn aktive Sprache erkannt wird, und ansonsten auf null gesetzt wird. Der DTMF-Aktivitätsdetektor setzt ein Flag, beispielsweise DTMF = 1, wenn DTMF-Aktivität erkannt wird, und ansonsten DTMF = 0. Die folgende Tabelle (Tabelle 2) enthält die Logik, die verwendet werden kann, um das Vorhandensein von DTMF- oder Sprachaktivität zu bestimmen: Tabelle 2: Logik für den Einsatz beim JVADAD
    DTMF VAD Entscheidung
    0 0 Pause
    0 1 Sprache
    1 0 DTMF-Aktivität vorhanden
    1 1 DTMF-Aktivität vorhanden
  • Beim Drücken einer Tonwahl-Telefontaste wird ein Tonpaar erzeugt. Einer dieser beiden Töne gehört zum folgenden Satz von Frequenzen: {697, 770, 852, 941} in Hz, und einer zum Satz {1209, 1336, 1477, 1633} in Hz, wie weiter oben in Tabelle 1 angegeben. Diese Frequenz-Sätze werden Tieftongruppen- bzw. Hochtongruppenfrequenzen genannt. Somit sind sechzehn Tonpaare möglich, die den 16 Tasten eines erweiterten Telefontastenfeldes entsprechen. Die Töne müssen innerhalb ±2% dieser Nennwerte empfangen werden. Es ist wichtig zu wissen, dass diese Frequenzen sorgfältig ausgewählt wurden, um den Betrag der harmonischen Wechselwirkung minimal zu halten. Ferner muss zur richtigen Erkennung eines Tonpaares die Amplitudendifferenz zwischen den beiden Tönen (der so genannte „Twist") innerhalb von 6 dB liegen.
  • Ein geeigneter DTMF-Erkennungsalgorithmus zur Erkennung von DTMF-Tönen im JVADAD 304 ist eine modifizierte Version des Goertzel-Algorithmus. Der Goertzel-Algorithmus ist ein rekursives Verfahren zur Durchführung der diskreten Fourier-Transformation (DFT) und ist effektiver als die DFT bzw. FFT für kleine Anzahlen von Tönen. Die Erkennung von DTMF-Tönen und die Regenerierung und Verlängerung von DTMF-Tönen wird im Folgenden näher erörtert.
  • Die Sprachaktivitätserkennung wird vorzugsweise mit Leistungswerten in den ersten Formantregionen des Eingangssignals x(n) durchgeführt. Im Zusammenhang mit dem Telefonie-Sprachsignal ist die erste Formantregion definiert als der Bereich von 300 bis 850 Hz. In der ersten Formantregion werden ein Langzeit- und ein Kurzzeit-Leistungswert mit folgenden Differenzgleichungen verwendet:
    Figure 00230001
    wobei gilt: F stellt den Satz von Frequenzbändern innerhalb der ersten Formantregion dar. Die erste Formantregion wird bevorzugt, da sie einen großen Anteil der Sprachenergie enthält und ein geeignetes Mittel zur Früherkennung des einsetzenden Sprachstoßes bietet. Der Langzeit-Leistungswert folgt dem Hintergrundrauschpegel im ersten Formanten des Signals. Der Kurzzeit-Leistungswert verfolgt den Sprachsignalpegel im ersten Formanten des Signals. Geeignete Parameter für die Langzeit- und Kurzzeit-Leistungswerte im ersten Formanten sind: α1st,ST,1 = 1/16000 (24a) β1st,ST,1 = 1 – α1st,ST,1 (24b) α1st,ST,2 = 1/256 (24c) β1st,ST,2 = 1 – α1st,ST,2 (24d) α1st,ST = 1/128 (24e) β1st,ST = 1 – α1st,ST (24f)
  • Der VAD 304 kann auch einen Überhangzähler, hVAD 305, nutzen. Der Überhangzähler 305 wird verwendet, um den Zustand des VAD-Ausgangs 320 über kurze Perioden gleichmäßig zu halten, wenn die Leistung im ersten Formanten auf niedrige Pegel absinkt. Der niedrigpegelige Abfall der Erstformantleistung kann während kurzer Sprachpausen sowie auch bei konsonantischen Tönen in der Sprache auftreten. Das VAD-Ausgangssignal 320 wird gleichmäßig gehalten, um eine versehentliche Unterdrückung von Sprache zu verhindern. Der Überhangzähler 305 kann wie folgt aktualisiert werden:
    Figure 00240001
    wobei beispielsweise folgende Werte für die Parameter (wenn der Bereich von x(n) auf ±1 normalisiert wird) geeignet sind: μ = 1,75 (26) P0 = 16/8159 (27)
  • Der Wert von hVAD,max entspricht vorzugsweise 150–250 ms, d. h. hVAD,max ∊ [1200, 2000].
  • Sprache wird für aktiv erachtet (VAD = 1), sobald folgende Bedingung erfüllt ist: hVAD > 0 (28)
  • Anderenfalls wird davon ausgegangen, dass keine Sprache im Eingangssignal vorhanden ist (VAD = 0).
  • Nunmehr wird die bevorzugte Vorrichtung und das bevorzugte Verfahren zur Erkennung von DTMF-Tönen, beispielsweise im JVADAD, erörtert. Obwohl bei der bevorzugten Ausführungsform eine Vorrichtung und ein Verfahren zur Erkennung von DTMF-Tönen verwendet wird, gelten die in Bezug auf DTMF-Töne erörterten Grundsätze für alle Inbandsignale. In diesem Zusammenhang ist ein Inbandsignal ein tonales Signal jeglicher Art innerhalb der für die Sprachübertragung gewöhnlich verwendeten Bandbreite. Zu beispielhaften Inbandsignalen gehören Fax-Töne, DTMF-Töne, Anwahltöne und Besetzt-Signaltöne.
  • Bei einem gegebenen Block von N Samples (wobei N geeignet gewählt wird) des Eingangssignals, u(n), n = 0, 1, 2, ... N – 1, kann die Vorrichtung das Vorhandensein eines Tones in der Nähe einer besonderen Frequenz ωo prüfen, indem die Eingangssamples mit einem Paar von Tönen in Quadratur bei der Prüffrequenz ωo in Korrelation gebracht werden. Die Korrelationsergebnisse können verwendet werden, um die Leistung des Eingangssignals 316 rund um die Prüffrequenz zu schätzen. Diese Vorgehensweise lässt sich durch folgende Gleichungen ausdrücken:
    Figure 00250001
  • Gleichung (3) liefert den Schätzwert der Leistung Pωo, rund um die Prüffrequenz ωo. Der rechnerische Aufwand der in (29) bis (31) angegebenen Verfahrensweise lässt sich durch Anwendung eines modifizierten Goertzel-Algorithmus um etwa die Hälfte reduzieren, wie im Folgenden angegeben: w(n) = 2cosωow(n – 1) – w(n – 2) + u(n), n = 0, 1, 2, ... N – 1 (32) w(N) = 2cosωow(N – 1) – w(N – 2) (33)
    Figure 00250002
  • Dabei ist zu beachten, dass für die Ausgangsbedingungen für die Rekursion in (32) gilt: w(–1) = w(–2) = 0.
  • Das obige Verfahren gemäß Gleichungen (32) bis (34) wird vorzugsweise für jede der acht DTMF-Frequenzen und deren zweite Harmonische für einen gegebenen Block von N Samples durchgeführt. Die zweiten Harmonischen sind die Frequenzen, die die Werte der DTMF-Frequenzen um das Doppelte übersteigen. Die Prüfung dieser Frequenzen erfolgt, um sicherzustellen, dass Sprachstimmsignale (die eine harmonische Struktur aufweisen) nicht fälschlich als DTMF-Töne interpretiert werden. Der Goertzel-Algorithmus analysiert vorzugsweise Blöcke der Länge N = 102 Samples. Bei einer bevorzugten Sampling-Rate von 8 kHz enthält jeder Block Signale von 12,75 ms Dauer. Vorzugsweise werden die folgenden Gültigkeitsprüfungen durchgeführt, um das Vorhandensein eines gültigen DTMF-Tonpaares in einem Block von N Samples zu erkennen:
    • (1) Die Leistung der stärksten Tieftongruppenfrequenz und der stärksten Hochtongruppenfrequenz müssen jeweils über bestimmten Schwellenwerten liegen.
    • (2) Die Leistung der stärksten Frequenz in der Tieftongruppe muss um ein bestimmtes Schwellenwertverhältnis höher sein als die anderen drei Leistungswerte in der Tieftongruppe.
    • (3) Die Leistung der stärksten Frequenz in der Hochtongruppe muss um ein bestimmtes Schwellenwertverhältnis höher sein als die anderen drei Leistungswerte in der Hochtongruppe.
    • (4) Das Verhältnis der Leistung der stärksten Frequenz der Tieftongruppe und der Leistung der stärksten Frequenz der Hochtongruppe muss innerhalb bestimmter oberer und unterer Grenzen liegen.
    • (5) Das Verhältnis der Leistungswerte der stärksten Frequenz der Tieftongruppe und ihrer zweiten Harmonischen muss ein bestimmtes Schwellenwertverhältnis übersteigen.
    • (6) Das Verhältnis der Leistungswerte der stärksten Frequenz der Hochtongruppe und ihrer zweiten Harmonischen muss ein bestimmtes Schwellenwertverhältnis übersteigen.
  • Nach Beendigung der obigen Gültigkeitsprüfungen kann eine weitere Bestätigung durchgeführt werden, um sicherzustellen, dass das erkannte DTMF-Tonpaar über ausreichend lange Zeit stabil ist. Um das Vorhandensein eines DTMF-Tonpaars zu bestätigen, muss zur Bestätigung des Vorliegens eines gültigen DTMF-Tonpaars das gleiche DTMF-Tonpaar über eine ausreichende Zeitdauer nach einem Pausenblock entsprechend den verwendeten Spezifikationen, beispielsweise über drei aufeinanderfolgende Blöcke (von ca. 12,75 ms), erkannt werden.
  • Zur Gewährleistung einer verbesserten Erkennung von DTMF-Tönen wird vorzugsweise ein modifizierter Goertzel-Erkennungsalgorithmus verwendet. Dies wird erreicht durch Nutzung der Filterbank 302 in der Rauschunterdrückungsvorrichtung 300, die das Eingangssignal bereits in separate Frequenzbänder aufgespaltet hat. Wenn der Goertzel-Algorithmus für die Schätzung der Leistung nahe einer Prüffrequenz ωo eingesetzt wird, leidet er unter einer schlechten Unterdrückung der Leistung außerhalb der Nachbarschaft von ωo. In der verbesserten Vorrichtung 300 verwendet die Vorrichtung 300 zur Schätzung der Leistung nahe einer Prüffrequenz ωo den Ausgang des Bandpassfilters, dessen Passband ωo enthält. Durch Anwendung des Geortzel-Algorithmus auf die Bandpass-Signale wird eine ausgezeichnete Leistungsunterdrückung in den Frequenzen außerhalb des ωo-nahen Bereichs erreicht.
  • Dabei ist anzumerken, dass die Vorrichtung 300 vorzugsweise die oben beschriebenen Gültigkeitsprüfungen in beispielsweise dem JVADAD 304 verwendet. Die Vorrichtung 300 kann die oben beschriebene Bestätigungsprüfung durchführen oder auch nicht durchführen. In der bevorzugten Ausführungsform wird ein über die Bestätigungsprüfung hinausgehendes, zur Verlängerung bzw. Regenerierung von DTMF-Tönen geeignetes Verfahren eingesetzt. Die Gültigkeitsprüfungen werden vorzugweise im DTMF-Aktivitätserkennungsteil des Verbundenen Sprachaktivitäts- und DTMF-Aktivitätsdetektors (JVADAD) 304 durchgeführt.
  • Im Folgenden wird ein Verfahren und eine Vorrichtung zur Echtzeit-Verlängerung von DTMF-Tönen im Zusammenhang mit 5 und 8 erörtert. Obwohl die bevorzugte Ausführungsform eine Vorrichtung und ein Verfahren zur Verlängerung von DTMF-Tönen verwendet, gelten die in Bezug auf DTMF-Töne erörterten Grundsätze für alle Inbandsignale. In diesem Zusammenhang ist ein Inbandsignal ein tonales Signal jeglicher Art innerhalb der für die Sprachübertragung gewöhnlich verwendeten Bandbreite. Zu beispielhaften Inbandsignalen gehören Fax-Töne, DTMF-Töne, Anwahltöne und Besetzt-Signaltöne.
  • In 8, wo das Konzept der Verlängerung eines Tones in Echtzeit dargestellt wird, beginnt das Eingangssignal 802 etwa bei Sample 100 und endet etwa bei Sample 460 und weist eine Dauer von ca. 45 ms auf. Der im mittleren Diagramm dargestellte Tonaktivitätsmerker (Flag) 804 zeigt an, ob in dem letzten Block von beispielsweise N = 102 Samples ein Ton erkannt wurde. Bis zu Sample 250 steht das Flag auf null und steigt dann auf eins. Das bedeutet, dass für den Block von Sample 149 bis Sample 250 eine Prüfung durchgeführt und enthaltene Tonaktivität festgestellt wurde. Dabei ist anzumerken, dass für den vorherigen Block von Sample 47 bis Sample 148 eine Prüfung durchgeführt und keine enthaltene Tonaktivität festgestellt wurde, obwohl der Eingangston in einem Teil des Blocks enthalten war (der prozentuale Anteil eines Blocks, der einen DTMF-Ton enthalten muss, damit der Tonaktivitätsmerker einen Ton erkennt, kann beispielsweise auf einen vorherbestimmten Schwellenwert gesetzt werden). Bei diesem Block wird von einer Pause ausgegangen. Für die nächsten beiden Blöcke von Samples wurde auch enthaltene Tonaktivität bei der gleichen Frequenz festgestellt. Somit enthalten drei aufeinanderfolgende Sample-Blöcke Tonaktivität nach einer Pause, wodurch das Vorhandensein eines Tons der geprüften Frequenz bestätigt wird. (Es ist anzumerken, dass in der bevorzugten Ausführungsform zur Bestätigung der DTMF-Aktivität das Vorhandensein eines Tons der Tieftongruppe und eines Tons der Hochtongruppe gleichzeitig bestätigt werden muss.) Das Ausgangssignal 806 zeigt, wie der Eingangston verlängert wird, selbst nachdem er bei etwa Sample 460 verklingt. Diese Verlängerung des Tons erfolgt in Echtzeit und der verlängerte Ton hat vorzugsweise die gleiche Phase, Frequenz und Amplitude wie der originale Eingangston.
  • Das bevorzugte Verfahren verlängert einen Ton auf phasenkontinuierliche Weise, wie im Folgenden nun erörtert. In der bevorzugten Ausführungsform behält der verlängerte Ton weiter die Amplitude des Eingangstons. Das bevorzugte Verfahren nutzt die Informationen aus, die erhalten werden, wenn der Goertzel-Algorithmus für die DTMF-Tonerkennung verwendet wird. Wenn beispielsweise folgender Eingangston gegeben ist: u(n) = A0sin(ω0i + ϕ) (35)dann können die Gleichungen (32) und (33) des Goertzel-Algorithmus verwendet werden, um die beiden Zustände w(N – 1) und w(N) zu erhalten. Für ausreichend große Werte von N lässt sich zeigen, dass die folgenden Näherungen zutreffen: w(N – 1) = B0sin(Nω0 + ϕ – π/2) (36) w(N) = B0sin((N + 1)ω0 + ϕ – π/2) (37)wobei:
    Figure 00280001
  • Es wird deutlich, dass w(N – 1) und w(N) zwei aufeinanderfolgende Samples einer Sinuskurve mit der Frequenz ωo haben. Die Phase und Amplitude dieser Sinuskurve besitzen vorzugsweise eine deterministische Beziehung zur Phase und Amplitude der Eingangssinuskurve u(n). Somit kann der DTMF-Tongenerator 321 mit einem rekursiven Oszillator für Sample-Zeiten größer N eine Sinuskurve in Übereinstimmung mit der Phase und Amplitude der Eingangssinuskurve u(n) nach folgender Verfahrensweise erzeugen:
    • (a) Berechnung des nächsten nachfolgenden Samples der Sinuskurve mit der Amplitude B0: w(N + 1) = (2cosω0)w(N) – w(N – 1) (39)
    • (b) Erzeugung von zwei aufeinanderfolgenden Samples einer Sinuskurve, w'(n), mit Amplitude A0 und Phase ϕ bei Verwendung von w(N – 1), w(N) und w(N + 1):
      Figure 00290001
    • (c) Verwendung eines rekursiven Oszillators zur Erzeugung aller aufeinanderfolgenden Samples der Sinuskurve für j = 3, 4, 5, ...: w'(N + j) = (2cosω0)w'(N + j – 1) – w'(N + j – 2) (42)
  • Die Sequenz w'(N + j), j = 1, 2, 3, 4, 5, ... kann verwendet werden, um die Eingangssinuskurve u(n) über das Sample N hinaus zu verlängern.
  • Sobald beispielsweise durch den DTMF-Aktivitätsdetektor die beiden DTMF-Tonfrequenzen bestimmt werden, kann das Verfahren in den Gleichungen (39) bis (42) verwendet werden, um jeden der beiden Töne zu verlängern. Die Verlängerung der Töne erfolgt durch eine gewichtete Kombination des Eingangssignals mit den generierten Tönen. Eine gewichtete Kombination wird vorzugsweise verwendet, um abrupte Änderungen der Amplitude des Signals infolge leichter Amplituden- und/oder Frequenzabweichungen zwischen den Eingangstönen und den generierten Tönen zu verhindern, was zu Impulsstörungen führt. Die gewichtete Kombination wird vorzugsweise wie folgt durchgeführt: y(n) = [1 – ρ(n)]u(n) + ρ(n)[w'L(n) + w'H(n)], n = N + 1, N + 2, N + 3, ... (43)wobei gilt: u(n) ist das Eingangssignal, w'L(n) ist der generierte Ton der Tieftongruppe, w'H(n) ist der generierte Ton der Hochtongruppe und ρ(n) ist ein Verstärkungsparameter, der über eine kurze Zeitperiode, vorzugsweise 5 ms oder weniger, linear von 0 nach 1 ansteigt.
  • Im Rauschunterdrückungssystem ist x(n) das an der Resonatorbank 302 bei Zeit n eingehende Sample. Die Resonatorbank 302 zerlegt das Signal in einen Satz von Bandpass-Signalen {xk(n)}. Es sei hier an Gleichung (4) erinnert: y(n) = ΣkGk(n)xk(n) (44)
  • Wie oben erörtert, sind Gk(n) und xk(n) Verstärkungsfaktor bzw. Bandpass-Signal aus dem k-ten Frequenzband und y(n) ist die Ausgabe der Rauschunterdrückungsvorrichtung 300. Der Satz von Bandpass-Signalen {xk(n)} kann zusammengenommen als Eingangssignal für das DTMF-Tonverlängerungsverfahren bezeichnet werden.
  • Dabei ist zu anzumerken, dass bei Verwendung der DTMF-Tonverlängerung durch die Rauschunterdrückungsvorrichtung 300 keine Blockverzögerung verursacht wird, da das an der Rauschunterdrückungsvorrichtung 300 anstehende aktuelle Eingangssample sofort bei Empfang verarbeitet und ausgegeben wird. Da das DTMF-Erkennungsverfahren mit Blöcken von N Samples arbeitet, definieren wir den aktuell anstehenden Block von N Samples als die letzten empfangenen N Samples, d. h. als die Samples {x(n – N), x(n – N + 1), ..., x(n – 1)}. Der vorhergehende Block besteht dann aus den Samples {x(n – 2N), x(n – 2N + 1), ..., x(n – N – 1)}.
  • Wenden wir uns 5 zu, wo ein beispielhaftes Verfahren 500 für die Verlängerung von DTMF-Tonen dargestellt ist. Zur Bestimmung, ob DTMF-Töne vorliegen, werden vorzugsweise die Gültigkeitsprüfungen des DTMF-Erkennungsverfahrens auf jeden Block angewendet. Wenn ein gültiges DTMF-Tonpaar erkannt wird, wird die entsprechende Ziffer auf Grundlage der Tabelle 1 dekodiert. In der bevorzugten Ausführungsform werden die dekodierten Ziffern verwendet, die vom DTMF-Aktivitätsdetektor (beispielsweise vom JVADAD) für den aktuellen und drei vorhergehende Ausgangsblöcke ausgegeben werden. In diesem Zusammenhang ist die i-te Ausgabe des DTMF-Aktivitätsdetektor Di, wobei ein größeres i einer zeitlich näheren Ausgabe entspricht. Somit werden die vier Ausgangsblöcke als Di (d. h. D1, D2, D3 und D4) bezeichnet. In der bevorzugten Ausführungsform kann jeder Ausgangsblock siebzehn mögliche Werte annehmen: die sechzehn möglichen Werte vom erweiterten Tastenfeld und einen Wert zur Angabe, dass kein DTMF-Ton vorliegt. Die Ausgangsblöcke Di können an den DTMF-Tongenerator 321 im Sprachaktivitätserkennungs- und DTMF-Aktivitätserkennungssignal 320 übertragen werden. Die folgende Entscheidungstabelle (Tabelle 3) wird für die Implementierung des DTMF-Tonverlängerungsverfahrens vorzugsweise verwendet: Tabelle 3: Verlängerung von DTMF-Tonen
    Bedingung Aktion
    (D3 = D2 = D1) und (D3, D2, D1 gültig) und ((D4 nicht gültig) bzw. (D4 ≠ D3) Die nächsten 3 aufeinanderfolgenden Blöcke unterdrücken
    (D4 gültig) und (D3, D2, D1 nicht gültig und/oder nicht gleich) GL(n) = 1 und GH(n) = 1 setzen
    (D4 = D3) und (D4, D3 gültig) und (D3 ≠ D2) und (D2, D1 nicht gültig und/oder nicht gleich) Nächsten Block graduell mit generierten DTMF-Tönen ersetzen gemäß Gleichung (46)
    (D4 = D3 = D2) DTMF-Töne generieren, um die übertragenen Töne zu ersetzen
    Alle anderen Fälle Alle Verstärkungsfaktoren dürfen sich ändern, wie durch Rauschunterdrückungsvorrichtung bestimmt
  • Wenn der erste Block mit einem enthaltenen gültigen DTMF-Tonpaar entdeckt wird, werden zwei Verstärkungsfaktoren des Rauschunterdrückungssystems, GL(n) und GH(n), welche den L-ten bzw. H-ten Frequenzbändern mit den enthaltenen Tönen der Tieftongruppe und Hochtongruppe entsprechen, auf eins gesetzt, beispielsweise nach Gleichung (4), d. h. y(n) = ΣkGk(n)xk(n), GL(n) =1, GH(n) = 1 (45)
  • Dies entspricht den Schritten 504 und 506 in 5. Durch das Setzen dieser Verstärkungsfaktoren auf eins wird sichergestellt, dass die Rauschunterdrückungsvorrichtung 300 die DTMF-Töne nach diesem Punkt nicht unterdrückt. Nach diesem Block, sofern die nächsten ei oder zwei Blöcke nicht die gleiche dekodierte Ziffer ergeben, dürfen die Verstärkungsfaktoren wieder Veränderungen vornehmen, wie vom Rauschunterdrückungssystem bestimmt und durch Schritt 508 in 5 angezeigt.
  • Wenn nach einem Block, der keine DTMF-Tone enthält, die ersten beiden aufeinanderfolgenden Blöcke mit identischen gültigen Ziffern dekodiert werden, wird das der Ziffer entsprechende Tonpaar, beispielsweise unter Verwendung der Gleichungen (39) bis (42), generiert und für die graduelle Ersetzung der Eingangstöne verwendet. Dies entspricht den Schritten 510 und 512 von 5. Die DTMF-Töne 329 werden vorzugsweise im DTMF-Tongenerator generiert. Die Ersetzung wird vorzugsweise so ausgeführt, dass über die nächsten M Samples (j = 1, 2, 3, ... M) der Anteil des Eingangssignals x(n) am Ausgangssginal y(n) vermindert und der Anteil der generierten Töne w'L(n) und w'H(n) am Ausgangssignal y(n) erhöht wird, wie folgt: y(n + j) = [1 – ρ(n + j)]ΣkGk(n)xk(n) + ρ(n + j)[w'L(n) + w'H(n)] (46) ρ(n + j) = j/M (47)
  • Dabei ist zu beachten, dass in Gleichung (47) keine Division notwendig ist. Beginnend mit ρ(n) = 0, kann die Beziehung ρ(n + 1 + 1) = ρ(n + j) + 1/M verwendet werden, um den Verstärkungswert je Sample zu aktualisieren. Ein beispielhafter Wert von M ist 40.
  • In einer bevorzugten Ausführungsform werden somit nach Empfang der ersten beiden aufeinanderfolgenden Blöcke mit identischen gültigen Ziffern die ersten M Samples des nächsten Blocks graduell mit generierten DTMF-Tönen 329 ersetzt, so dass sich nach den M Samples als Ausgabe ergibt: y(n) = w'L(n) + w'N(n). Nach M Samples werden die generierten Töne so lange aufrecht erhalten, bis kein DTMF-Tonpaar in einem Block mehr entdeckt wird. In einem solchen Fall wird die Verzögerung, die bei der Erkennung des DTMF-Tonsignals (z. B. aufgrund der Blocklänge) auftritt, durch die Verzögerung ausgeglichen, die bei Erkennung des Endes eines DTMF-Tonsignals entsteht. Im Ergebnis wird der DTMF-Ton durch die Verwendung generierter DTMF-Töne 329 verlängert.
  • In einer alternativen Ausführungsform setzen sich die generierten Töne dann weiter fort, wenn beispielsweise für etwa einen Halbblock kein DTMF-Ton mehr erkannt wird, nachdem kein DTMF-Tonpaar in einem Block erkannt wird. In der vorliegenden Ausführungsform verlängert der DTMF-Tongenerator den DTMF-Ton um etwa einen Block über das tatsächliche DTMF-Tonpaar hinaus, da der JVADAD für die Erkennung eines DTMF-Tonpaares etwa einen Block benötigt. In dem unwahrscheinlichen Fall, dass ein DTMF-Tonpaar die kleinste erkennbare Länge hat, müsste der ausgegebene DTMF-Ton somit mindestens so lang sein wie der minimale Eingangston. Unabhängig von der verwendeten Ausführungsform kann die zur Erkennung des DTMF-Tonpaares benötigte Zeitlänge auf Grundlage des vom JVADAD verwendeten Erkennungsverfahrens und der verwendeten Blocklänge schwanken. Entsprechend können auch die jeweiligen Verlängerungsperioden schwanken.
  • Wenn drei oder mehr aufeinanderfolgende Blöcke gültige Ziffern enthalten, generiert der DTMF-Tongenerator 321 DTMF-Töne 329, die die eingehenden DTMF-Töne ersetzen. Dies entspricht den Schritten 513 und 514 in 5. Nachdem der DTMF-Tongenerator das DTMF-Tonpaar verlängert hat, wird das Eingangssignal über einen geeigneten Zeitraum, beispielsweise über ca. drei aufeinanderfolgende Blöcke von je 12,75 ms, gedämpft, damit sichergestellt wird, dass nach dem ausgehenden DTMF-Signal eine ausreichende Pause folgt. Dies entspricht den Schritten 515 und 516 von 5. Während der Dämpfungsperiode gilt für das Ausgangssignal: y(n) = ρ(n)ΣkGk(n)xk(n) (48)wobei ρ(n) = 0,02 eine geeignete Wahl ist. Nach den drei Blöcken gilt ρ(n) = 1 und die Rauschunterdrückungsvorrichtung erhält die Freigabe zur Bestimmung der Verstärkungsfaktoren, bis erneut DTMF-Aktivität festgestellt wird (wie durch Schritt 508 von 5 angezeigt).
  • Dabei ist zu anzumerken, dass der aktuell anstehende Block möglicherweise DTMF-Aktivität enthält, auch wenn für den aktuellen Block die Unterdrückung nach Gleichung (48) geplant ist. Das kann beispielsweise dann passieren, wenn als Abstand zwischen DTMF-Tonpaaren die mindestzulässige Zeitperiode vorliegt. Wenn das Eingangssignal 316 legitime DTMF-Töne enthält, haben die Ziffern in der Regel einen Abstand von mindestens drei aufeinanderfolgenden stummen Blöcken. Damit wird im Allgemeinen nur der erste Sample-Block in einem gültigen DTMF-Tonpaar unterdrückt. Dies wird jedoch dann durch die DTMF-Tonverlängerung kompensiert.
  • 6 zeigt ein Verfahren zur Regenerierung von DTMF-Tönen 329. Die DTMF-Tonregenerierung ist eine Alternative zur DTMF-Tonverlängerung. Obwohl die bevorzugte Ausführungsform eine Vorrichtung mit der Regenerierung von DTMF-Tönen verwendet, gelten die in Bezug auf die DTMF-Töne erörterten Grundsätze für alle Inbandsignale. In diesem Zusammenhang ist ein Inbandsignal ein tonales Signal jeglicher Art innerhalb der für die Sprachübertragung gewöhnlich verwendeten Bandbreite. Zu beispielhaften Inbandsignalen gehören Fax-Töne, DTMF-Töne, Anwahltöne und Besetzt-Signaltöne.
  • Die DTMF-Tonregenerierung kann beispielsweise im DTMF-Tongenerator 321 durchgeführt werden. Das Verlängerungsverfahren bedingt eine nur sehr geringe Verzögerung (etwa ein Block in der illustrierten Ausführungsform), ist aber etwas komplizierter, da die Töne für die ordnungsgemäße Erkennung der DTMF-Töne einer Phasenabstimmung unterzogen werden. Das Regenerierungsverfahren bewirkt eine längere Verzögerung (einige Blöcke in der illustrierten Ausführungsform), ist aber einfacher, da die generierten Töne nicht auf die Phase der Eingangstöne abgestimmt werden müssen. Die Verzögerung ist in beiden Fällen temporär und tritt nur für DTMF-Töne ein. Durch die Verzögerung wird ein kleiner Anteil des auf DTMF-Töne folgenden Signals unterdrückt, damit ausreichende Pausen nach einem DTMF-Tonpaar gewährleistet sind. Die DTMF-Regenerierung kann auch bewirken, dass ein einzelner Sprachsignalblock unterdrückt wird, der innerhalb einer Sekunde auf ein DTMF-Tonpaar folgt. Da dies ein höchst unwahrscheinliches Ereignis darstellt und nur die ersten N Sprachsamples eine Unterdrückung erfahren, ist kein Verlust von Nutzinformationen wahrscheinlich.
  • Bei Durchführung der DTMF-Verlängerung kann jedoch der Satz von Signalen {xk(n)} zusammengenommen als Eingang für das DTMF-Regenierungsverfahren bezeichnet werden. Bei der Generierung von DTMF-Tönen 329 ist das Ausgangssignal des Kombinierers 315: y(n) = ρ1(n)ΣkGkxk(n) + ρ2(n)[w'L(n) + w'H(n)] (49)wobei gilt: ΣkGkxk(n) ist der Ausgang des Verstärkungsvervielfachers, w'L(n) und w'H(n) sind die generierten Töne der Tieftongruppe bzw. Hochtongruppe (sofern vorhanden) und ρ1(n) und ρ2(n) sind zusätzliche Verstärkungsfaktoren. Wenn im Eingangssignal keine DTMF-Signale vorliegen, gilt: ρ1(n) = 1 und ρ2(n) = 0. Während der Regenerierung eines DTMF-Tonpaars gilt: ρ2(n) = 1. Wenn das Eingangssignal unterdrückt werden soll (entweder zur Gewährleistung einer Pause nach dem Ende eines regenerierten DTMF-Tonpaares oder während der Regenerierung des DTMF-Tonpaares), dann wird ρ1(n) auf einen kleinen Wert gesetzt, z. B. ρ1(n) = 0,02. Vorzugsweise werden zwei rekursive Oszillatoren 332 verwendet, um die jeweiligen Töne der Tief- und Hochtongruppe zu regenerieren, die der dekodierten Ziffer entsprechen.
  • In einer beispielhaften Ausführungsform, unter weiterem Verweis auf 6, verwendet die DTMF-Tonregenerierung den aktuellen Ausgangsblock und fünf vorhergehende Ausgangsblöcke aus dem DTMF-Tonaktivitätsdetektor (z. B. im JVADAD), zwei Merker (Flags) und zwei Zähler. Die vorhergehenden fünf Ausgangsblöcke und der aktuelle Ausgangsblock können als D1, D2, D3, D4, D5 bzw. D6 bezeichnet werden. Die Flags, das SUPPRESS-Flag (Merker Unterdrückung) und das GENTONES-Flag (Merker Tongenerierung), werden im Folgenden im Zusammenhang mit der Aktion beschrieben, die sie beim DTMF-Tongenerator 321, Kombinierer 315 und/oder Verstärkungsvervielfacher 314 bewirken:
    SUPPRESS Aktion
    1 Ausgangssignal der Rauschunterdrückungssvorrichtung unterdrücken, indem ρ1(n) auf einen kleinen Wert, Z. B. ρ2(n) = 0,02 in Gleichung (49) gesetzt wird.
    0 ρ1(n) = 1 setzen
    GENTONES Aktion
    1 DTMF-Töne generieren und dann ausgeben, indem ρ2(n) = 1 gesetzt wird.
    0 DTMF-Tongenerierung beenden und ρ2(n) = 0 setzen
    Zähler Zweck
    wait_count Zählung der verbleibenden Anzahl zu unterdrückender Blöcke (Countdown) ab dem Zeitpunkt, an dem ein DTMF-Tonpaar erstmals erkannt wurde
    sup_count Zählung der verbleibenden Anzahl zu unterdrückender Blöcke (Countdown) ab dem Ende einer DTMF-Tonpaar-Regenerierung
  • Bei Initialisierung werden alle Merker und Zähler vorzugsweise auf null gesetzt. Die folgende Tabelle (Tabelle 4) illustriert eine beispielhafte Ausführung des DTMF-Tonregenerierungsverfahrens 600: Tabelle 4: DTMF-Tonregenerierung
    Bedingung Aktion
    (D6 gültig) und (D5, D4, D3, D2, D1 sind nicht gültig und/oder nicht gleich) SUPPRESS = 1 wait_count = 40
    (D6 = D5 = D4) und (D6, D5, D4 gültig) und (D3, D2, D1 nicht gültig und/oder nicht gleich) GENTONES = 1
    (D3 = D2 = D1) und (D3, D2, D1 gültig) und (D6, D5, D4 nicht gültig und/oder nicht gleich) GENTONES = 0 sup_count = 4
    (VAD = 1) und (sup_count = 0) SUPPRESS = 0 wait_count = 0
    (GENTONES = 0) und (wait_count = 0) SUPPRESS = 0
    (GENTONES = 0) und (wait_count = 0) Dekrementierung wait_count
    sup_count > 0 Dekrementierung sup_count
  • Es ist zu beachten, dass die Bedingungen in Tabelle 4 einander nicht notwendigerweise ausschließen. In der bevorzugten Ausführungsform wird somit jede Bedingung in der in Tabelle 4 dargestellten Reihenfolge am Ende eines Blocks geprüft (mit Ausnahme der Bedingungen 1 bis 3, die einander wechselseitig ausschließen). Die entsprechende Aktion wird daraufhin für den nächsten Block durchgeführt, wenn die Bedingung wahr ist. Deshalb können am Beginn eines Blockes mehrfache Aktionen ausgeführt werden. Wie bei der DTMF-Tonverlängerung wird für die DTMF-Tonerkennung zur Verwendung bei der Vorrichtung und dem Verfahren der DTMF-Tonregenerierung vorzugsweise N = 102 verwendet.
  • Es folgt nunmehr eine Beschreibung des bevorzugten Tonregenerierungsverfahrens. Wenn ein gültiges DTMF-Paar erstmals in einem Block von N Samples entdeckt wird, wird der Ausgang des Rauschunterdrückungssystems unterdrückt, indem ρ1(n) auf einen kleinen Wert gesetzt wird, z. B. ρ1(n) = 0,02. Dies wird dadurch angezeigt, dass die erste Bedingung in Tabelle 4 erfüllt ist und das SUPPRESS-Flag auf einen Wert von 1 gesetzt ist, und entspricht den Schritten 602 und 604 von 6. Nachdem für drei aufeinanderfolgende Blöcke festgestellt wurde, dass sie die gleiche gültige Ziffer enthalten, werden die DTMF-Töne, w'L(n) und w'H(n), entsprechend der empfangenen Ziffer generiert und in den Ausgang gespeist, d. h. ρ1(n) = 0,02 und ρ2(n) = 1. Dies entspricht dem Umstand, dass die zweite Bedingung von Tabelle 4 erfüllt und das GENTONES-Flag auf 1 gesetzt ist, und den Schritten 606 und 608 von 6. Die DTMF–Tonregenierung wird vorzugsweise noch fortgesetzt, nachdem im aktuellen Block das Eingangs-DTMF-Tonpaar nicht mehr entdeckt wird. Die generierten DTMF-Tone 329 können über eine ausreichend lange Zeit (nachdem das DTMF-Paar im aktuellen Block nicht mehr entdeckt wird) kontinuierlich weiter ausgegeben werden, beispielsweise über drei bzw. vier weitere Blöcke (um sicherzustellen, dass eine ausreichende DTMF-Tondauer versendet wird).
  • Wie beim Verfahren der DTMF-Tonverlängerung, kann die DTMF-Tonregenerierung über eine zusätzliche Zeitperiode stattfinden, beispielsweise über einen halben bzw. ganzen Block von N Samples, damit sichergestellt wird, dass die DTMF-Töne Mindestanforderungen bezüglich der Dauer erfüllen. In der in Tabelle 4 illustrierten Ausführungsform werden die DTMF-Töne 329, nachdem die DTMF-Tone nicht mehr entdeckt werden, über drei Blöcke generiert. Dies bedeutet, dass Bedingung 3 von Tabelle 4 erfüllt ist, und entspricht den Schritten 610 und 612 von 6. Dabei ist anzumerken, dass zwar sup_count auf 4 gesetzt wird, wenn auf 3 aufeinanderfolgende gültige identische DTMF-Blöcke 3 aufeinanderfolgende DTMF-freie Blöcke folgen, aber sup_count in den Schritten 614 und 616 eine Dekrementierung erfährt, bevor Blöcke unterdrückt werden (so dass also 3 Blöcke unterdrückt werden, nicht 4). Danach wird eine Pausenperiode ausreichender Dauer übertragen, d. h. ρ1(n) = 0,02 und ρ2(n) = 0. Dies kann beispielsweise eine Länge von vier 12,75-ms-Blöcken haben.
  • Während der Übertragung der regenerierten Töne und der Pause arbeitet der DTMF-Aktivitätsdetektor (vorzugsweise als Teil des JVADAD) weiter. Wenn eine gültige Ziffer empfangen wird, während der letzte Block der regenerierten DTMF-Töne 329 und/oder die Pause übertragen wird, werden die jeweiligen DTMF-Töne, die dieser Ziffer entsprechen, generiert und nach Beendigung der Pausenperiode übertragen. Werden in diesem Zeitraum keine gültigen Ziffern empfangen, wird der Ausgang über eine Warteperiode weiter unterdrückt. Wenn während dieser Wartezeit eine der beiden Merker des JVADAD den Wert eins annimmt, d. h. VAD = 1 oder DTMF = 1, wird die Warteperiode unverzüglich beendet. Wird die Wartezeit infolge Sprachaktivität (VAD = 1) beendet, wird der Ausgang durch das Rausch unterdrückungssystem mit ρ1(n) = 1 und ρ2(n) = 1 bestimmt, beispielsweise durch Setzen des SUPPRESS-Flag gleich 1 (wie angezeigt, wenn Bedingung 1 von Tabelle 4 erfüllt ist). Ein Zustand VAD = 1 entspricht den Schritten 618 und 620 von 6, während ein Zustand DTMF = 1 den Schritten 602 und 604 von 6 entspricht. Beispielhafte Warteperioden reichen von etwa einer halben Sekunde bis hin zu einer Sekunde (ca. 40 bis 80 Blöcke). Die Warteperiode wird verwendet, um den Verlust kurzer DTMF-Tonbeträge aus dem Eingangssignal zu vermeiden. Die Verwendung von wait_count erleichtert die Countdown-Zahlung der ab dem Zeitpunkt der ersten Erkennung eines DTMF-Tonpaares zu unterdrückenden Blöcke. Dies entspricht den Schritten 622 und 624 aus 6.
  • Wenn keine DTMF-Signale vorhanden sind, gilt: ρ1(n) = 1 und ρ2(n) = 0. In der aktuellen Ausführungsform wird, sobald ein DTMF-Tonpaar in einem Block erkannt wird, der Ausgang des Rauschunterdrückungssystems unterdrückt, indem beispielsweise ρ1(n) auf einen kleinen Wert gesetzt wird, z. B. ρ1(n) = 0,02. In der in Tabelle 4 offenbarten Ausführungsform wird ρ1(n) durch Setzen von SUPPRESS gleich 1 auf einen kleinen Wert gesetzt. Am Ende eines jeden Blocks von N Samples gilt, wenn SUPPRESS gleich 1 ist, für die nächsten N Samples: ρ1(n) = 0,02. Am Ende eines jeden Blocks, falls bestimmt wird, dass die DTMF-Töne während des nächsten Blocks zu regenerieren sind (beispielsweise wenn GENTONES = 1), gilt: ρ2(n) = 1. Der Tongenerator 321 verwendet wait-count und die Merker (Flags) vom JVADAD zur Bestimmung, ob das Eingangssignal während der Warteperiode weiter zu unterdrücken ist. Wird während der Warteperiode weder Sprache noch DTMF-Ton erkannt, so wird wait_count schließlich auf 0 dekrementiert, wonach vorzugsweise die Standardbedingung ρ1(n) = 1 und ρ2(n) = 0 hergestellt wird (dies entspricht den Schritten 626 und 628 in 6).
  • Die Verfahren der DTMF-Tonverlängerung und DTMF-Tonregenerierung werden getrennt beschrieben. Es ist jedoch möglich, die DTMF-Tonverlängerung und die DTMF-Tonregenerierung in einem Verfahren und/oder einer Vorrichtung zu kombinieren.
  • Die hier offenbarten Verfahren der DTMF-Tonverlängerung und -regenerierung werden zwar mit einem Rauschunterdrückungssystem verwendet, aber sie können ebenso mit anderen Systemen der Sprachqualitätsverbesserung verwendet werden, wie mit Systemen der adaptiven Verstärkungsregelung, Echoanullierung und Echounterdrückung. Ferner sind die beschriebenen Verfahren der DTMF-Tonverlängerung und DTMF-Tonregenerierung besonders dort nützlich, wo Verzögerungen nicht toleriert werden können. Wenn jedoch Verzögerungen tolerierbar sind, z. B. wenn in einem Sprachqualitätsverbesserungssystem eine Verzögerung von 20 ms tolerierbar ist (was der Fall sein kann, wenn das Sprachqualitätsverbesserungssystem im Zusammenhang mit einer Sprach kompressionsvorrichtung betrieben wird), dann ist mitunter die Verlängerung und/oder Regenerierung von Tönen nicht notwendig. Bei einem Sprachqualitätsverbesserungssystem ohne DTMF-Detektor kann es jedoch vorkommen, dass die Töne unangemessen skaliert werden. Mit vorhandenem DTMF-Detektor können die Vorrichtung und das Verfahren der Rauschunterdrückung das Vorhandensein der Töne erkennen und die Skalierungsfaktoren für die entsprechenden Subbänder auf eins stellen.
  • Wie unter allgemeiner Bezugnahme auf die 3 und 4 zu sehen, können die Filterbank 302, der JVADAD 304, der Überhangzähler 305, NSR-Estimator 306, der Leistungsestimator 308, der NSR-Adapter 310, der Verstärkungsrechner 312, der Verstärkungsvervielfacher 314, der Kompensationsfaktor-Adapter 402, der Langzeitleistungsestimator 308a, der Kurzzeitleistungsestimator 308b, der Leistungskompensator 404, der DTMF-Tongenerator 321, die Oszillatoren 332, der Undersampling-Schaltkreis 330 und der Kombinierer 315 durch Verwendung von kombinatorischer und sequentieller Logik, ASIC, durch eine Software implementiert werden, welche über eine CPU, ein DSP-Chip oder dergleichen implementiert wird. Die vorgenannten Hardware-Elemente können Teil einer Hardware sein, die zur Durchführung von operativen Funktionen verwendet wird. Die Eingangssignale, Frequenzbänder, Leistungsmess- und -schätzwerte, Verstärkungsfaktoren, NSR-Werte und adaptierten NSR-Werte, Flags, Vorhersagefehler, Kompensatorfaktoren, Zähler und Konstanten können in Registern, RAM, ROM oder dergleichen gespeichert und über Software, über eine in einer Speichervorrichtung wie RAM bzw. RAM usw. befindliche Datenstruktur, generiert werden.

Claims (21)

  1. Vorrichtung zum Verbessern der Qualität eines Kommunikationssignals in einem Kommunikationssystem, die Folgendes umfasst: Mittel zum Unterteilen des Kommunikationssignals in mehrere Frequenzbandsignale; Mittel zum Erzeugen eines ersten Stromsignals für ein erstes Frequenzbandsignal, wobei das erste Stromsignal auf einer Schätzung der Leistung des ersten Frequenzbandsignals über eine erste Zeitperiode basiert; Mittel zum Erzeugen eines zweiten Stromsignals für das erste Frequenzbandsignal, wobei das zweite Stromsignal auf einer Schätzung der Leistung des ersten Frequenzbandsignals über eine zweite Zeitperiode basiert, die kürzer ist als die erste Zeitperiode; Mittel zum Erzeugen eines Rausch-Signal-Verhältnisses (NSR), das einen Zustand des ersten Frequenzbandsignals repräsentiert, als Reaktion auf eine vorbestimmte arithmetische Beziehung, die Addition, Subtraktion und/oder Multiplikation, aber nicht Division umfasst, zwischen Werten, die vom ersten und zweiten Leistungssignal abgeleitet sind; Mittel zum Einstellen der Verstärkung der Frequenzbandsignale als Reaktion auf das NSR zum Erzeugen eines justierten ersten Frequenzbandsignals; und Mittel zum Kombinieren des justierten Frequenzbandsignals mit wenigstens einem zusätzlichen Frequenzbandsignal zum Erzeugen eines justierten Kommunikationssignals.
  2. Vorrichtung nach Anspruch 1, wobei die ersten Stromsignale, zweiten Stromsignale und Zustandssignale mit einer Festpunktimplementation erzeugt werden.
  3. Vorrichtung nach Anspruch 1 oder Anspruch 2, wobei das NSR eine Schätzung eines Verhältnisses umfasst, das durchschnittliche Rauschsignalleistung bei der genannten Sprache und durchschnittliche Hintergrundrauschleistung bei Abwesenheit der genannten Sprache von einem der Frequenzbandsignale umfasst.
  4. Vorrichtung nach einem der vorherigen Ansprüche, wobei die arithmetische Beziehung das Justieren der Werte der Zustandssignale um vorbestimmte Inkremente beinhaltet.
  5. Vorrichtung nach Anspruch 4, wobei Werte der NSRs als Reaktion auf eine erste der vorbestimmten Beziehungen erhöht werden und wobei die Werte der Zustandssignale als Reaktion auf eine zweite der vorbestimmten Beziehungen verringert werden.
  6. Vorrichtung nach einem der vorherigen Ansprüche, wobei die arithmetische Beziehung die Justierung eines Signals der Gruppe bestehend aus einem der ersten Stromsignale und einem der zweiten Stromsignale mit einem Kompensationsfaktor umfasst.
  7. Vorrichtung nach Anspruch 6, wobei ein eine Beziehung zwischen den Signal- und Rauschkomponenten des Kommunikationssignals repräsentierendes Gesamtrauschsignal erzeugt wird und wobei der Kompensationsfaktor als Reaktion auf das Gesamtrauschsignal erzeugt wird.
  8. Vorrichtung nach einem der vorherigen Ansprüche, wobei ein Spracherkennungssignal als Reaktion auf die Erkennung der Sprachkomponente des Kommunikationssignals erzeugt wird und wobei der Wert der Inkremente als Reaktion auf das Spracherkennungssignal variiert.
  9. Vorrichtung nach einem der vorherigen Ansprüche, die einen Prozessor ausgewählt aus der Gruppe bestehend aus kombinatorischer und sequentieller Logik, einer anwendungsspezifischen integrierten Schaltung, einer Zentraleinheit-Ausführungssoftware und einer Digitalsignalprozessor-Ausführungssoftware umfasst.
  10. Vorrichtung nach einem der vorherigen Ansprüche, wobei die ersten Stromsignale bei Abwesenheit der genannten Sprache erzeugt werden.
  11. Vorrichtung nach einem der vorherigen Ansprüche, wobei die zweiten Stromsignale während der/dem genannten Sprache und Rauschen erzeugt werden.
  12. Verfahren zum Verbessern der Qualität eines Kommunikationssignals in einem Kommunikationssystem, das die folgenden Schritte beinhaltet: Unterteilen des Kommunikationssignals in mehrere Frequenzbandsignale; Erzeugen eines ersten Stromsignals für ein erstes Frequenzbandsignal, wobei das erste Stromsignal auf einer Schätzung der Leistung der ersten Frequenzbandsignale über eine erste Zeitperiode basiert; Erzeugen eines zweiten Stromsignals für die ersten Frequenzbandsignale, wobei das zweite Stromsignal auf einer Schätzung der Leistung der ersten Frequenzbandsignale über eine zweite Zeitperiode basiert, die kürzer ist als die erste Zeitperiode; Erzeugen eines Rausch-Signal-Verhältnisses (NSR), das einen Zustand des ersten Frequenzbandsignals repräsentiert, als Reaktion auf eine vorbestimmte arithmetische Beziehung, die Addition, Subtraktion und/oder Multiplikation, aber nicht Division umfasst, zwischen Werten, die vom ersten und zweiten Stromsignal abgeleitet wurden; Einstellen der Verstärkung des Frequenzbandsignals als Reaktion auf das NSR zum Erzeugen eines justierten Frequenzbandsignals; und Kombinieren des justierten Frequenzbandsignals mit wenigstens einem zusätzlichen Frequenzbandsignal zum Erzeugen eines justierten Kommunikationssignals.
  13. Verfahren nach Anspruch 12, bei dem das genannte Erzeugen der ersten Stromsignale, der zweiten Stromsignale und der Zustandssignale das Erzeugen mit einer Festpunktimplementation umfasst.
  14. Verfahren nach Anspruch 12 oder Anspruch 13, wobei die Beziehung zwischen den Signal- und Rauschkomponenten eine Schätzung eines Verhältnisses umfasst, das durchschnittliche Rauschsignalleistung bei der genannten Sprache und durchschnittliche Hintergrundrauschleistung in Abwesenheit der genannten Sprache von einem der Frequenzbandsignale umfasst.
  15. Verfahren nach einem der Ansprüche 12 bis 14, wobei die arithmetische Beziehung das Justieren der Werte zu den Zustandssignalen um vorbestimmte Inkremente beinhaltet.
  16. Verfahren nach Anspruch 15, wobei Werte der NSRs als Reaktion auf eine erste der vorbestimmten Beziehungen erhöht werden und wobei die Werte der Zustandssignale als Reaktion auf eine zweite der vorbestimmten Beziehungen verringert werden.
  17. Verfahren nach einem der Ansprüche 12 bis 16, wobei die arithmetische Beziehung die Justierung von einem Signal der Gruppe bestehend aus einem der ersten Stromsignale und einem der zweiten Stromsignale mit einem Kompensationsfaktor umfasst.
  18. Verfahren nach Anspruch 17, das den Schritt des Erzeugens eines Gesamtrauschsignals beinhaltet, das eine Beziehung zwischen den Signal- und Rauschkomponenten des Kommunikationssignals repräsentiert und wobei der Kompensationsfaktor als Reaktion auf das Gesamtrauschsignal erzeugt wird.
  19. Verfahren nach einem der Ansprüche 12 bis 18, das den Schritt des Erzeugens eines Spracherkennungssignals als Reaktion auf die Erkennung der Sprachkomponente des Kommunikationssignals beinhaltet und wobei der Wert der Inkremente als Reaktion auf das Spracherkennungssignal variiert.
  20. Verfahren nach einem der Ansprüche 12 bis 19, wobei das Erzeugen erster Stromsignale das Erzeugen erster Stromsignale bei Abwesenheit der genannten Sprache umfasst.
  21. Verfahren nach einem der Ansprüche 12 bis 20, wobei das Erzeugen zweiter Stromsignale das Erzeugen zweiter Stromsignale während der/dem genannten Sprache und genannten Rauschen umfasst.
DE60034212T 1999-01-07 2000-01-07 Verfahren und vorrichtung zur adaptiven rauschunterdrückung Expired - Lifetime DE60034212T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11524599P 1999-01-07 1999-01-07
US115245P 1999-01-07
PCT/US2000/000397 WO2000041169A1 (en) 1999-01-07 2000-01-07 Method and apparatus for adaptively suppressing noise

Publications (2)

Publication Number Publication Date
DE60034212D1 DE60034212D1 (de) 2007-05-16
DE60034212T2 true DE60034212T2 (de) 2008-01-17

Family

ID=22360151

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60034212T Expired - Lifetime DE60034212T2 (de) 1999-01-07 2000-01-07 Verfahren und vorrichtung zur adaptiven rauschunterdrückung

Country Status (10)

Country Link
US (3) US6591234B1 (de)
EP (1) EP1141948B1 (de)
AT (1) ATE358872T1 (de)
AU (1) AU2408500A (de)
CA (1) CA2358203A1 (de)
DE (1) DE60034212T2 (de)
DK (1) DK1141948T3 (de)
ES (1) ES2284475T3 (de)
PT (1) PT1141948E (de)
WO (1) WO2000041169A1 (de)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) * 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US6771590B1 (en) 1996-08-22 2004-08-03 Tellabs Operations, Inc. Communication system clock synchronization techniques
US6118758A (en) 1996-08-22 2000-09-12 Tellabs Operations, Inc. Multi-point OFDM/DMT digital communications system including remote service unit with improved transmitter architecture
ES2389626T3 (es) 1998-04-03 2012-10-29 Tellabs Operations, Inc. Filtro para acortamiento de respuesta al impulso, con restricciones espectrales adicionales, para transmisión de múltiples portadoras
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
US6795424B1 (en) 1998-06-30 2004-09-21 Tellabs Operations, Inc. Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
GB2351624B (en) * 1999-06-30 2003-12-03 Wireless Systems Int Ltd Reducing distortion of signals
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
DK1219138T3 (da) * 1999-10-07 2004-04-13 Widex As Fremgangsmåde og signalprocessor til intensivering af talesignalkomponenter i et høreapparat
JP2001218238A (ja) * 1999-11-24 2001-08-10 Toshiba Corp トーン信号受信装置、トーン信号送信装置及びトーン信号送受信装置
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
US6760435B1 (en) * 2000-02-08 2004-07-06 Lucent Technologies Inc. Method and apparatus for network speech enhancement
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
HUP0003010A2 (en) * 2000-07-31 2002-08-28 Herterkom Gmbh Signal purification method for the discrimination of a signal from background noise
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7035293B2 (en) * 2001-04-18 2006-04-25 Broadcom Corporation Tone relay
CA2446085C (en) * 2001-04-30 2010-04-27 Octave Communications, Inc. Audio conference platform with dynamic speech detection threshold
FR2831717A1 (fr) * 2001-10-25 2003-05-02 France Telecom Methode et systeme d'elimination d'interference pour antenne multicapteur
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
AUPS102902A0 (en) * 2002-03-13 2002-04-11 Hearworks Pty Ltd A method and system for reducing potentially harmful noise in a signal arranged to convey speech
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4282317B2 (ja) * 2002-12-05 2009-06-17 アルパイン株式会社 音声通信装置
US7191127B2 (en) * 2002-12-23 2007-03-13 Motorola, Inc. System and method for speech enhancement
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7260209B2 (en) * 2003-03-27 2007-08-21 Tellabs Operations, Inc. Methods and apparatus for improving voice quality in an environment with noise
US7128901B2 (en) 2003-06-04 2006-10-31 Colgate-Palmolive Company Extruded stick product and method for making same
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
US7433463B2 (en) * 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7382825B1 (en) * 2004-08-31 2008-06-03 Synopsys, Inc. Method and apparatus for integrated channel characterization
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
JP4862262B2 (ja) * 2005-02-14 2012-01-25 日本電気株式会社 Dtmf信号処理方法、処理装置、中継装置、及び通信端末装置
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US7826682B2 (en) * 2005-04-14 2010-11-02 Agfa Healthcare Method of suppressing a periodical pattern in an image
JP5203933B2 (ja) * 2005-04-21 2013-06-05 ディーティーエス・エルエルシー オーディオ雑音を減少させるシステムおよび方法
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
JP4551817B2 (ja) * 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
FR2889347B1 (fr) * 2005-09-20 2007-09-21 Jean Daniel Pages Systeme de diffusion sonore
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
US20070189505A1 (en) * 2006-01-31 2007-08-16 Freescale Semiconductor, Inc. Detecting reflections in a communication channel
GB2437559B (en) * 2006-04-26 2010-12-22 Zarlink Semiconductor Inc Low complexity noise reduction method
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8050397B1 (en) * 2006-12-22 2011-11-01 Cisco Technology, Inc. Multi-tone signal discriminator
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
US11217237B2 (en) * 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
CA2697920C (en) * 2007-08-27 2018-01-02 Telefonaktiebolaget L M Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
CA2706717A1 (en) * 2007-11-27 2009-06-04 Arjae Spectral Enterprises, Inc. Noise reduction by means of spectral parallelism
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
CA2715432C (en) * 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US20100054486A1 (en) * 2008-08-26 2010-03-04 Nelson Sollenberger Method and system for output device protection in an audio codec
US8532269B2 (en) * 2009-01-16 2013-09-10 Microsoft Corporation In-band signaling in interactive communications
US8538043B2 (en) * 2009-03-08 2013-09-17 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
ATE515020T1 (de) * 2009-03-20 2011-07-15 Harman Becker Automotive Sys Verfahren und vorrichtung zur dämpfung von rauschen in einem eingangssignal
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP5606764B2 (ja) * 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム
TWI413112B (zh) * 2010-09-06 2013-10-21 Byd Co Ltd Method and apparatus for eliminating noise background noise (1)
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9257952B2 (en) * 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
KR20160010606A (ko) 2013-05-23 2016-01-27 노우레스 일렉트로닉스, 엘엘시 Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US11631421B2 (en) 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
GB2547459B (en) * 2016-02-19 2019-01-09 Imagination Tech Ltd Dynamic gain controller
KR102623514B1 (ko) * 2017-10-23 2024-01-11 삼성전자주식회사 음성신호 처리장치 및 그 동작방법
CN110677744B (zh) * 2019-10-22 2021-07-06 深圳震有科技股份有限公司 一种fxs端口的控制方法、存储介质及接入网设备
US11490198B1 (en) * 2021-07-26 2022-11-01 Cirrus Logic, Inc. Single-microphone wind detection for audio device

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4351983A (en) 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
US4423289A (en) 1979-06-28 1983-12-27 National Research Development Corporation Signal processing systems
US4351982A (en) 1980-12-15 1982-09-28 Racal-Milgo, Inc. RSA Public-key data encryption system having large random prime number generating microprocessor or the like
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4658435A (en) * 1984-09-17 1987-04-14 General Electric Company Radio trunking system with transceivers and repeaters using special channel acquisition protocol
US4630304A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630305A (en) 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4658426A (en) 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
CA1293693C (en) 1985-10-30 1991-12-31 Tetsu Taguchi Noise canceling apparatus
US4811404A (en) 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5285165A (en) 1988-05-26 1994-02-08 Renfors Markku K Noise elimination method
FR2685486B1 (fr) * 1991-12-19 1994-07-29 Inst Francais Du Petrole Methode et dispositif pour mesurer les niveaux d'amplitude successifs de signaux recus sur une voie de transmission.
FI97758C (fi) 1992-11-20 1997-02-10 Nokia Deutschland Gmbh Järjestelmä audiosignaalin käsittelemiseksi
US5400409A (en) 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5432859A (en) 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
US5425105A (en) 1993-04-27 1995-06-13 Hughes Aircraft Company Multiple adaptive filter active noise canceller
EP0622964B1 (de) 1993-04-29 2002-03-20 International Business Machines Corporation Anordnung und Verfahren zur Feststellung der Anwesenheit eines Sprechsignals
US5632003A (en) 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
JP3565226B2 (ja) 1993-12-06 2004-09-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズ低減システム、ノイズ低減装置及びこの装置を具える移動無線局
JPH07202998A (ja) 1993-12-29 1995-08-04 Nec Corp 周囲ノイズ除去機能を備えた電話機
US5619524A (en) 1994-10-04 1997-04-08 Motorola, Inc. Method and apparatus for coherent communication reception in a spread-spectrum communication system
SE505156C2 (sv) 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US5806025A (en) 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置

Also Published As

Publication number Publication date
AU2408500A (en) 2000-07-24
ES2284475T3 (es) 2007-11-16
WO2000041169A1 (en) 2000-07-13
WO2000041169A9 (en) 2002-04-11
EP1141948A1 (de) 2001-10-10
US8031861B2 (en) 2011-10-04
DE60034212D1 (de) 2007-05-16
CA2358203A1 (en) 2000-07-13
US7366294B2 (en) 2008-04-29
US20090129582A1 (en) 2009-05-21
PT1141948E (pt) 2007-07-12
DK1141948T3 (da) 2007-08-13
US6591234B1 (en) 2003-07-08
US20050131678A1 (en) 2005-06-16
EP1141948B1 (de) 2007-04-04
ATE358872T1 (de) 2007-04-15

Similar Documents

Publication Publication Date Title
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE102008027848B4 (de) Echounterdrücker, Echounterdrückungsverfahren und computerlesbares Speichermedium
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE112009000805B4 (de) Rauschreduktion
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
US8010355B2 (en) Low complexity noise reduction method
US6144937A (en) Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
EP2362389B1 (de) Rauschunterdrücker
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE69731573T2 (de) Geräuschverminderungsanordnung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
EP1189419B1 (de) Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
EP1278185A2 (de) Verfahren zur Verbesserung von Geräuschunterdrückung bei der Sprachübertragung
EP1748426A2 (de) Verfahren und Vorrichtung zur adaptiven Rauschunterdrückung
DE10016619A1 (de) Verfahren zur Herabsetzung von Störkomponenten in Sprachsignalen
DE19818609C2 (de) Verfahren und Vorrichtung zur Geräuschfilterung

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: TELLABS OPERATIONS, INC., NAPERVILLE, ILL., US

8364 No opposition during term of opposition