DE69839260T2

DE69839260T2 - Verfahren und gerät zum gebrauchen von zustandsbestimmung zum steuern von funktionsteilen in digitalen telefonsystemen

Info

Publication number: DE69839260T2
Application number: DE69839260T
Authority: DE
Inventors: Gilbert C. San Diego SIH; Anthony P. San Diego MAURO
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1997-01-31
Filing date: 1998-01-27
Publication date: 2009-04-16
Anticipated expiration: 2018-01-28
Also published as: AU5962498A; US5920834A; JP4522497B2; CN1218506C; CA2278928A1; ATE389977T1; HK1025196A1; KR20000070686A; ZA98761B; WO1998034354A1; DE69839260D1; TW370747B; JP2001510655A; EP0956658A1; CN1249869A; EP0956658B1

Description

HINTERGRUND DER ERFINDUNG
I. Gebiet der Erfindung
Die vorliegende Erfindung betrifft digitale Telefonsysteme. Insbesondere betrifft die vorliegende Erfindung ein neues und verbessertes Verfahren und eine Vorrichtung zur Verwendung von Statusbestimmung von einem Echoauslöscher zum Steuern von verschiedenen funktionalen Blöcken in einem digitalen Telefonsystem.
II. Beschreibung des relevanten Hintergrunds
Die Übertragung von Sprache durch digitale Techniken ist inzwischen weit verbreitet, insbesondere in zellularen Telefon- und PCS-Anwendungen. Dies hat wiederum ein Interesse zum Verbessern von Sprachverarbeitungstechniken erzeugt. Drei von solchen Techniken beinhalten die Hinzufügung von Echoauslöschern, Rauschunterdrückern, und Sprachcodierer-/Decodierern, oder Vocodern, zu existierenden Elementen von digitalen Telefonsystemen.
Echoauslöscher werden verwendet, um unerwünschte Echosignale zu verringern, welche durch Impedanzfehlanpassungen in Land basierten Telefonnetzwerken verursacht werden, oder im Fall von mobilen Telefonen, von Echo, welches durch akustische Kupplung zwischen Lautsprecher und Mikrofon in Freisprech-Telefonen verursacht werden. Vocoder werden zum Entfernen von natürlichen Redundanzen von Sprache in einem digitalisiertem Signal verwendet, um Datenübertragungsraten, und somit den Betrag von Information, welcher über einen gegebenen Übertragungskanal übertragen wird, zu verringern. Rauschunterdrücker werden verwendet, um Hintergrundrauschen zu minimieren. Echoauslöscher, Vocoder, und Rauschunterdrücker werden derzeit zusammen in digitalen Telefonsystemen sowohl in Land basierten Anwendungen wie auch in mobilen Systemen verwendet.
Es gibt zwei Typen von Echoauslöschern, den Netzwerk-Echoauslöscher und den akustischen Echoauslöscher. Ein Beispiel eines typischen Echoauslöschers ist in dem U.S. Patent Nummer 5,307,405 , benannt „NETWORK ECHO CANCELLER"; offenbart; welches dem Bevollmächtigten der vorliegenden Erfindung zugeordnet ist. Ein Netzwerk-Echoauslöscher unterdrückt das Echo, welches in einem Telefonnetzwerk erzeugt wird. Ein Land basiertes Telefon ist mit einer zentralen Stelle durch zwei Drahtleitungen verbunden, um Übertragung in beiden Richtungen zu unterstützen. Für Anrufe, welche weiter als ungefähr 35 Meilen entfernt sind, müssen die beiden Richtungen der Übertragung auf physikalisch unterschiedlichen Drähten isoliert sein, was zu einem Draht mit vier Leitungen führt. Die Einrichtung, welche die zweiadrigen und vieradrigen Schnittstellen schnittstellenmäßig verbindet, ist als ein Hybrid bekannt. Eine Impedanzfehlanpassung bei diesem Hybrid führt zu einem Echo, welches durch einen Netzwerk-Echoauslöscher entfernt werden muß. Akustische Echounterdrücker werden in Telefonkonferenz- und Freisprech-Telefonanwendungen verwendet. Ein akustischer Echoauslöscher eliminiert akustisches Echo, welches aus der Rückkopplung zwischen einem Lautsprecher und einem Mikrofon resultiert.
In einem typischen digitalen Telefonsystem wird Sprache von einem analogen Signal in digitale PCM-Samples durch einen A/D-Konvertierer konvertiert. In einem typischen Ausführungsbeispiel wird eine Datenrate von 64 kbps gewählt, um gute Sprachqualität zu erhalten. Sobald das Sprachsignal digitalisiert wurde, kann es manipuliert werden, um bestimmte Vorteile zu erreichen, wie Maximierung von Systemkapazität, Sprachqualitätverbesserung, Rauschunterdrückung und Minimierung von Übertragungsfehlern.
Nachdem das Sprachsignal in PCM-Samples konvertiert wurde, kann unerwünschtes Echo durch einen Echoauslöscher entfernt werden, Hintergrundrauschen kann durch einen Rauschunterdrücker minimiert werden, und Datenkompression kann durch einen Vocoder vor der Modulation und Heraufkonvertierung zur Übertragung durchgeführt werden. Ein Beispiel eines Vocoders mit variabler Rate ist in dem U.S. Patent Nummer 5,414,796 , benannt „VARIABLE RATE VOCODER” offenbart, welches dem Bevollmächtigten der vorliegenden Erfindung zugeordnet ist. Das codierte Sprachsignal kann durch jegliche Anzahl von Techniken moduliert werden einschließlich TDMA, CDMA oder analoger Modulation. Die Verwendung von CDMA-Techniken in einem Vielfachzugriffskommunikationssystem ist in dem U.S. Patent Nummer 4,901,307 , benannt „SPREAD SPECTRUM MULTIPLE ACCESS COMMUNICATION SYSTEM USING SATELLITE OR TERRESTRIAL REPEATERS", welches dem Bevollmächtigten der vorliegenden Erfindung zugeordnet ist, offenbart. Das Kombinieren des Echoauslöschers mit dem Vocoder und dem Rauschunterdrücker hat bestimmte Vorteile wie auch Probleme, welche damit verbunden sind.
Ein Problem beim Einfügen eines Echoauslöschers in die Front-End-Elektronik eines digitalen Telefonsystems ist, dass er das Sprachsignal zu den anderen funktionalen Blöcken aufgrund seines Orts in dem System relativ zu den anderen funktionalen Blöcken verändert. Durch Anordnen des Echoauslöschers zuerst in der Kette von funktionalen Blöcken müssen der Rauschunterdrücker und der Vocoder Hintergrundrauschberechnungen basierend auf dem echo-unterdrückten Signal anstatt des aktuellen Hintergrundrauschens durchführen. Wenn der Echounterdrücker nicht das gesamte Echo von dem Sprachsignal entfernt, kann das verbleibende Echo Fehler in den Hintergrundrauschberechnungen verursachen, welche durch den Rauschunterdrücker und den Vocoder durchgeführt werden.
Hierin wird ein mobiler Benutzer als ein Sprecher am nahen Ende bezeichnet, und der Land basierte Benutzer wird als der Sprecher am entfernten Ende bezeichnet. Ein typischer Vocoder kann einen Rauschunterdrücker beinhalten, dessen Funktion das Entfernen von Hintergrundrauschen von dem Sprachsignal am nahen Ende ist. Ein Beispiel eines typischen Rauschunterdrückers ist in dem U.S. Patent Nummer 4,811,404 , benannt, „NOISE SUPPRESSION SYSTEM", offenbart, welches Motorola, Inc., zugeordnet ist. Rauschauslöschung wird durch Berechnen einer Abschätzung der tatsächlichen Hintergrundrauschenergie während Perioden durchgeführt, wenn der Sprecher am nahen Ende ruhig ist. Ein Problem tritt auf, wenn der Sprecher am nahen Ende (auch als Nahendsprecher) ruhig ist, und der Sprecher am entfernten Ende spricht. In dem mobilen Telefon kann die Stimme des Sprechers am entfernten Ende akustisch von dem Lautsprecher zu dem Mikrofon gekoppelt sein, was zu einem Echo führt, welches durch den Sprecher am entfernten Ende gehört wird, bevor es entfernt wird. In einem Land basierten System kann Sprache am nahen Ende auf dem Sprachsignal des Sprechers am entfernten Ende aufgrund von Impedanzfehlanpassung in dem Hybrid, wie oben diskutiert, gekoppelt sein. Ein Echoauslöscher wird verwendet, um das Echo zu eliminieren, aber aufgrund von Einschränkungen des Echoauslöschers wird das Echo nicht vollständig entfernt werden. Ein Rauschunterdrücker, welcher nach dem Echoauslöscher angeordnet ist, kann das verbleibende Echo als Hintergrundrauschen interpretieren, und die Hintergrundrauschabschätzung basierend auf dem verbleibenden Echo aktualisieren. Dies verfälscht die Hintergrundrauschabschätzung, was zu verschlechterter Rauschauslöschung führt. Der Vocoder wird durch Vorsehen einer schlechten Abschätzung von Hintergrundrauschen zu einem synthetisierten Rauschgenerator in dem System leiden. Zusätzlich werden die Entscheidungen bezüglich der Codierrate des Vocoders schlecht beeinflusst werden.
Es ist deshalb ein Ziel der vorliegenden Erfindung, fehlerhafte Hintergrundrauschaktualisierungen in dem Rauschunterdrücker und dem Vocoder-Codierer zu verhindern, wenn der Sprecher am nahen Ende ruhig ist, und der Sprecher am entfernten Ende aktiv ist.
Es ist ein weiteres Ziel der vorliegenden Erfindung, dass Zustandsbestimmungssignal von dem Echoauslöscher zum Steuern von anderen funktionalen Elementen innerhalb eines digitalen Telefonsystems zu verwenden, wie ein Tondetektor, eine Übertragungsstummstellfunktion, und ein adaptiver Equalizer.
ZUSAMMENFASSUNG DER ERFINDUNG
Ausführungsbeispiele der vorliegenden Erfindung sehen eine neue und verbesserte Kombination von funktionalen Elementen innerhalb eines digitalen Telefonsystems vor. Gemäß von Ausführungsbeispielen der vorliegenden Erfindung wird ein Echoauslöscher in Kombination mit einem Vocoder verwendet, wobei der Echoauslöscher Information zu verschiedenen funktionalen Blöcken innerhalb des Vocoders für Zwecke von Rauschauslöschung, DTMF-Tondetektion, Übertragungsstummschaltung und Sprachcodierung liefert. Ein unmittelbarer Vorteil des Kombinierens eines Echoauslöschers mit einem Vocoder sind die Kosten, Gewicht und Platzeinsparungen der Kombination von zwei integrierten Schaltkreisen in einen einzigen integrierten Schaltkreis.
In dem exemplarischen Ausführungsbeispiel der vorliegenden Erfindung wird ein Echoauslöscher verwendet, welcher unter anderem bestimmt, in welchem Sprachmodus zwei Personen beteiligt sind. In dem exemplarischen Ausführungsbeispiel sind fünf unterschiedliche Modi oder Gesprächszustände möglich: nur Sprecher am nahen Ende, nur Sprecher am entfernten Ende, beide Sprecher sprechen, kein Sprecher spricht, und Überrest (hangover), was die kurze Zeitperiode unmittelbar folgend auf eine Pause in der Unterhaltung ist.
Ausführungsbeispiele der vorliegenden Erfindung verwenden die Zustandsbestimmung des Echoauslöschers in mehreren funktionalen Blöcken innerhalb des Vocoders. Von besonderer Wichtigkeit ist die Verwendung des Zustandsbestimmungssignals in der Rauschunterdrückerfunktion innerhalb des Vocoders. In dem exemplarischen Ausführungsbeispiel wird der Rauschunterdrücker durch Teilen des Eingangssignals in ausgewählte Frequenzbänder, Erzeugen eines Signal-zu-Rausch-Verhältnisses für jedes Frequenzband, dann Verstärken von jedem Frequenzband gemäß einer vorbestimmten Verstärkungstabelle betrieben. Die Sprach-/Rausch-Bestimmung wird wie folgt durchgeführt. Die Roh-Signal-zu-Rausch-Verhältnisse- Abschätzungen für jedes Frequenzband werden zum Indizieren einer Sprachmetriktabelle zum Erhalten von Sprachmetrikwerten für jeden Kanal erhalten. Eine Sprachmetrik ist eine Messung der gesamten sprachähnlichen Charakteristika der Kanalenergie. Die individuellen Kanalsprachmetrikwerten werden summiert, um einen Mehrkanal-Energieparameter zu erzeugen, und dann werden sie mit einem Hintergrundrausch-Aktualisierungsschwellenwert verglichen. Wenn die Sprachmetriksumme nicht den Schwellenwert erreicht, wird der eingegebene Rahmen als Rauschen beurteilt, und eine Hintergrundrauschaktualisierung wird durchgeführt. Wenn die Sprachmetriksumme den Schwellenwert übersteigt, dann wird dieser Rahmen als Sprache behandelt, und die Hintergrundrauschabschätzung wird nicht aktualisiert. Probleme können auftreten, wenn der Rauschunterdrücker verbleibendes Echo von dem Echoauslöscher als Hintergrundrauschen behandelt. In diesem Fall wird der Rauschabschätzungsalgorithmus das Hintergrundrauschen basierend auf dem verbleibenden Echo erneut berechnen, was die Rauschabschätzung verfälschen würde.
Dieses Problem wird durch Vorsehen eines Zustandsinformationssignals von dem Echoauslöscher eliminiert, welches Hintergrundrauschaktualisierungen in dem Rauschunterdrücker deaktiviert, wenn von dem Anrufmodus bestimmt wird, dass er nur entferntes Ende ist. Ohne die Zustandsinformation von dem Echoauslöscher wird der Rauschunterdrücker fehlerhafterweise die Hintergrundrauschberechnung basierend auf dem verbleibenden Echosignal von dem Echoauslöscher aktualisieren.
In einem alternativen Ausführungsbeispiel wird ein zweites Signal von dem Echoauslöscher zu dem Rauschunterdrücker vorgesehen, welches anzeigt, ob irgendwelches Echo tatsächlich bei der Eingabe des Echoauslöschers vorhanden ist. Das zweite Signal wird erlauben, dass Hintergrundrauschabschätzungen in dem Rauschunterdrücker durchgeführt werden, wenn das Echo bei dem Echoauslöscher vorhanden ist, auch wenn das Zustandsinformationssignal anderenfalls die Aktualisierung deaktivieren würde.
Ferner wird die Zustandsbestimmung von dem Echoauslöscher verwendet, um die Tondetektorfunktion innerhalb des Vocoders zu steuern. Der Tondetektor überprüft das Übertragungssignal nach DTMF-Tönen. Wenn Töne detektiert werden wird das normale Übertragungssignal stumm geschaltet und eine Signalisierungsnachricht wird über die Luft gesendet, welche verursacht, dass Töne bei dem Empfänger erzeugt werden. Dies wird durchgeführt, weil eine ausreichend hohe Löschrate einen vocodierten Ton ausreichend verschlechtern kann, dass er nicht detektiert werden würde. Der Tondetektor kann durch das Zustandbestimmungssignal von dem Rauschunterdrücker während des Zustands des Sprechens nur am entfernten Ende deaktiviert werden, was zu Leistungseinsparungen führt.
Zusätzlich wird Zustandsbestimmung von dem Rauschunterdrücker verwendet, um die Übertragungsstummstellfunktion innerhalb des Vocoders zu steuern. Die Übertragungsstummstellung ersetzt PCM-Samples durch synthetisiertes Rauschen, welches zur spektralen Charakteristik bzw. zu den spektralen Charakteristika des derzeitigen Hintergrundrauschens passt. Die spektrale Information und die Volumensteuerung des synthetisierten Rauschens werden durch Analyse geliefert, welche durch den Vocoder-Codierer durchgeführt wird. Die Übertragungsstummstellfunktion wird aktiviert, wenn die Zustandsbestimmung des Echoauslöschers nur Sprache am entfernten Ende bzw. nur Fernsprechen anzeigt. Auf diesem Weg wird das gesamte Echo von dem Übertragungssignal eliminiert.
Zustandsbestimmung von dem Echoauslöscher wird auch zum Steuern eines adaptiven Equalizers verwendet. Dieser Equalizer modifiziert die Frequenzantwort auf dem empfangenen Signal am nahen Ende zum Kompensieren der Frequenzantwortverschlechterungen in dem Übertragungspfad. Der Equalizer schätzt die Frequenzcharakteristika des Übertragungspfads während Sprache am nahen Ende ab, und verwendet diese Abschätzung zum Konstruieren eines Filters, welcher die gesamte Frequenzantwort auf eine gewünschte Charakteristik formt. Weil diese Abschätzung der empfangenen Frequenzantwort durch das Vorhandensein eines Echosignals gestört wer den würde, erlaubt der Echoauslöscher nur, dass der Equalizer seine Abschätzung der Frequenzantwort während des Zustands der Sprache nur am nahen Ende aktualisiert.
Schlussendlich wird Zustandsbestimmung von dem Echoauslöscher verwendet, um die Hintergrundrauschabschätzungsfunktion zu steuern, welche durch den Vocoder-Codierer durchgeführt wird. Die Hintergrundrauschabschätzung wird durchgeführt, um synthetisierte Rauschinformation zu erzeugen, welche durch den Übertragungsstummstellblock verwendet werden soll, wie oben stehend diskutiert, und zum Erzeugen einer Schwellenwertinformation, welche verwendet wird, um zu entscheiden, mit welcher Datenrate codiert wird. Das Ziel ist es, das synthetisierte Rauschen zu dem tatsächlichen Rausch unterdrückten Hintergrundrauschen derart anzupassen, dass der Zuhörer am entfernten Ende die Perioden von synthetisiertem Rauschersatz nicht mit bekommt. Die Hintergrundrauschberechnung wird durch Vorsehen von Zustandsinformation von einem Echoauslöscher zu der Hintergrundrauschabschätzfunktion verbessert. Der Echoauslöscher deaktiviert die Hintergrundrauschabschätzung während Perioden von synthetisierter Rauschersetzung derart, dass eine Hintergrundrauschaktualisierung nicht auf synthetisiertem Rauschen durchgeführt wird.
Somit wird gemäß einem ersten Aspekt der vorliegenden Erfindung eine Vorrichtung zur Sprachverarbeitung in einem digitalen Telefonsystem gemäß Anspruch 1 vorgesehen.
Gemäß einem zweiten Aspekt wird ein Verfahren zum Steuern gemäß Anspruch 15 vorgesehen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Merkmale, Ziele und Vorteile von Ausführungsbeispielen der vorliegenden Erfindung werden offensichtlicher werden von der detaillierten Beschreibung, welche unten stehend gegeben wird, wenn sie zusammen genommen wird mit den Zeichnungen, in welchen gleiche Bezugszeichen korrespondierendes durchgängig identifizieren, und wobei folgendes gilt:
1 ist ein funktionales Blockdiagramm eines mobilen digitalen Telefons;
2 ist ein funktionales Blockdiagramm eines Echoauslöschers und eines Vocoders;
3 ist ein funktionales Blockdiagramm eines Echoauslöschers;
4 ist ein funktionales Blockdiagramm eines Rauschunterdrückers;
5 ist ein funktionales Blockdiagramm eines Tondetektors;
6 ist ein funktionales Blockdiagramm eines Übertragungsstummstellprozessors; und
7 ist ein funktionales Blockdiagramm eines Vocoder-Codierers.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
1 ist ein gesamtes Blockdiagramm eines digitalen zellularen oder PCS-Telefons. Zur Einfachheit der Erklärung ist nur ein Untersatz von Elementen gezeigt. Das digitale Telefon besteht aus einem Handteil 6, welches ein Mikrofon 4 und einen Lautsprecher 2; Analog-zu-Digital (A/D) Konvertierer 8; Echoauslöscher 10; Vocoder 12; Transceiver 14; und Antenne 16 beinhaltet. Es sei verstanden, dass andere Architekturen für das System nur mit einer Veränderung im Ort oder der Position der verschiedenen Betriebselemente verwendet werden können.
Während der Übertragung wird Sprache am nahen Ende durch das Mikrofon 4 empfangen, welches in dem Handteil 6 vorgesehen ist. Das Sprachsignal am nahen Ende wird transformiert durch das Mikrofon 4 in ein elektroakustisches Signal, welches durch den Ausdruck v(t) ausgedrückt wird, wie in 1 gezeigt ist. Das empfangene Sprachsignal x(t) am entfernten Ende wird akustisch zu dem Sprachsignal v(t) bei dem Summierer 5 gekoppelt, beim Durchgang von x(t) durch den unbekannten Echokanal 7 modelliert zum Erzeugen des Echosignals y(t). Die Ausgabe des Summierers 5 ist als kombi niertes Sprach-/Echo-Signal v(t) + y(t) gezeigt. Der nicht bekannte Echokanal 7 und der Summierer 5 sind nicht beinhaltete Elemente in dem System selbst, sondern sind parasitäre Ergebnisse von der physikalischen Nähe des Mikrofons 4 und dem Lautsprecher 2.
Das Sprach-/Echo-Signal v(t) + y(t) wird dann von einem Analogsignal in PCM-Samples durch den analog-zu-digital-Konvertierer 8 konvertiert. In einem exemplarischen Ausführungsbeispiel werden PCM-Samples durch den A/D Konvertier 8 mit einer Rate von 64 kbits pro Sekunde ausgegeben, und werden durch das Signal s(n) repräsentiert, wie in 1 gezeigt ist.
Der Echoauslöscher 10 entfernt das Echosignal y(t) von dem digitalisierten Sprach-/Echo-Signal s(n). In dem exemplarischen Ausführungsbeispiel wird der Echoauslöscher 10 gemäß dem Echoauslöscher betrieben, welcher in dem vorher stehend erwähnten U.S. Patent Nummer 5,307,405 beschrieben ist. In dem exemplarischen Ausführungsbeispiel führt der Echoauslöscher 10 Echoauslöschung durch Bestimmung durch, welcher von mehreren unterschiedlichen Sprachzuständen die Sprecher einnehmen, wobei die Zustände Sprache nur am nahen Ende, Sprache nur am entfernten Ende, sowohl Sprache am nahen wie auch am entfernten Ende gleichzeitig, keiner der Sprecher spricht, oder Überhang sind. Sobald der Sprachzustand durch den Echoauslöscher 10 bestimmt wurde, wird eine Abschätzung des Echosignals y(n) von dem digitalisierten Sprach-/Echo-Signal s(n) entfernt. Weil das Echosignal nicht vollständig eliminiert werden kann, wird ein verbleibendes Echosignal als ein Teil des digitalisierten Sprachsignals verbleiben. Das Echo ausgelöschte Sprachsignal, s'(n), wird dann durch den Vocoder 12 verarbeitet. In dem exemplarischen Ausführungsbeispiel ist der Vocoder 12 ein Vocoder mit linearer Vorhersage, welcher mit einem Code mit variabler Rate angeregt wird (CELP = code excited linear prediction), wie in dem vorher stehend erwähnten U.S. Patent Nummer 5,414,796 beschrieben wurde. In dem exemplarischen Ausführungsbeispiel wird der Vocoder 12 zusammen mit einem Rauschunterdrückungssystem betrieben, wie detailliert in dem vorher stehend erwähnten U.S. Patent Nummer 4,811,404 beschrieben wurde.
Der Vocoder 12 führt mehrere Funktionen auf dem Signal s'(n) aus, einschließlich, aber nicht eingeschränkt auf Sprachkomprimierung, Rauschunterdrückung, Übertragungs- und Empfangs-Volumensteuerung, DTMF-Tondetektion, und Übertragungsstummschaltung. Der Vocoder 12 verwendet die Zustandsbestimmungsergebnisse von dem Echoauslöscher 10, welche als „Zustandsinformation" in 1 gezeigt sind, und zwar in seinem Algorithmus zum Entscheiden, wann seine Hintergrundrauschabschätzung aktualisiert wird. Weitere Details des Echoauslöschers 10 und des Vocoders 12 sind in 2 gezeigt, und werden vollständiger später diskutiert.
Das Vocodersprachsignal s''(n) wird dann zu dem Transceiver 14 geliefert, wo es gemäß einem vorbestimmten Modulationsformat wie Codemultiplex-Vielfachzugriff (CDMA = code devision multiple access), Zeitmultiplex-Vielfachzugriff (TDMA = time division multiple access), Frequenzmultiplex-Vielfachzugriff (FDMA = frequency division multiple access), oder analoger Modulation moduliert wird. In dem exemplarischen Ausführungsbeispiel moduliert der Transceiver 14 das Signal gemäß einem CDMA-Modulationsformat, wie in dem vorher stehend erwähnten U.S. Patent Nummer 4,901,307 beschrieben wurde. Der Transceiver 14 heraufkonvertiert und verstärkt dann das modulierte Signal. Das modulierte Signal wird dann durch die Antenne 16 zu Basisstationstransceivern (nicht gezeigt) übertragen.
Ein ähnlicher reziproker Prozess tritt für empfangene Sprache auf. Ein CDMA-moduliertes Signal wird bei der Antenne 16 empfangen und zu dem Transceiver 14 geliefert. Der Transceiver 14 verstärkt, herunterkonvertiert und demoduliert das empfangene Signal. In dem exemplarischen Ausführungsbeispiel demoduliert der Transceiver 14 das empfangene Signal gemäß einem CDMA-Demodulationsformat, wie in den vorher stehend erwähnten U.S. Patenten mit Nummern 5,103,459 und 4,901,307 beschrieben. Das demodulierte Signal z''(n) wird zu dem Vocoder 12 geliefert.
In dem exemplarischen Ausführungsbeispiel empfängt der Vocoder 12 codierte Pakete mit Daten von variabler Länge alle 20 ms zu Datenraten, welche von 1200–9600 bps reichen. Der Vocoder 12 decodiert die Pakete in 64 kbps PCM-Samples gemäß dem vorher stehend erwähnten U.S. Patent Nummer 5,414,796 . Dann wird das decodierte Signal z'(n) zu dem Echounterdrücker 10 geliefert, wo es als eine Referenz zum Entfernen des unerwünschten Echosignals y(t) von dem gewünschten Sprachsignal verwendet wird. Das decodierte Signal, welches von dem Echounterdrücker 10 ausgegeben wird, ist als z(n) in 1 gezeigt.
Das schlussendlich decodierte Signal z(n) wird zu einer analogen Wellenform durch den A/D Konvertierer 8 konvertiert, dann zu der akustischen Sprache am entfernten Ende unter Verwendung des Lautsprechers 2 konvertiert, welcher in dem Handteil 6 vorgesehen ist.
2 ist ein funktionales Blockdiagramm des Echoauslöschers 10 und des Vocoders 12. In einem exemplarischen Ausführungsbeispiel sind der Echoauslöscher 10 und der Vocoder 12 in Form eines digitalen Prozessors konfiguriert, wie das Model ADSP-2181 der ADSP-2100 Serie des digitalen Signalprozessors, welcher durch Analog Devices aus Norwood, Massachusetts, hergestellt wird. Es sei verstanden, dass andere digitale Signalprozessoren derart programmiert werden können, dass sie gemäß den Lehren hierin funktionieren können. Alternativ können andere Implementierungen des Echoauslöschers 10 und des Vocoders 12 von diskreten Prozessoren oder in anwendungsspezifischer integrierter Schaltkreis (ASIC = application specific integrated circuit)-Form konfiguriert sein. Es sei auch verstanden, dass der Vocoder 12 unter Verwendung von jeglicher Kombination von funktionalen Blöcken konfiguriert sein kann, welcher in 2 gezeigt ist.
Während der Übertragung wird digitalisiertes Sprach-/Echo-Signal s(n) durch Tx PCM-Filter 52 von dem A/D-Konvertierer 8 empfangen. Niederfrequenzkomponenten werden herausgefiltert, weil der Echoauslöscher 10 keine DC-Komponente synthetisieren kann. Das gefilterte Signal wird dann zu dem Summierer 32 innerhalb des Echoauslöschers 10 geliefert, wo das abgeschätzte Echosignal y'(n) davon subtrahiert wird. Das abgeschätzte Echosignal y'(n) wird durch Verarbeitung des empfangenen digitalen Sprachsignals z'(n) unter Verwendung eines adaptiven Filterbetriebs erzeugt, welcher innerhalb des Echoauslöschers 10 durchgeführt wird. Ein Beispiel des Echoauslöschers 10 ist in dem vorher stehend erwähnten U.S. Patent Nummer 5,307,405 offenbart. Die Details des Echoauslöschers 10 werden in größerer Detailliertheit später hierin beschrieben werden.
Die Ausgabe, welche durch den Echoauslöscher 10 erzeugt wurde, beinhaltet das gewünschte digitalisierte Sprachsignal zuzüglich eines Restsignals, welches von dem Echoauslöschprozess übrig gelassen wurde. Das Restsignal wird vorhanden sein, weil der Echoauslöscher niemals vollständig das gesamte Echo von dem digitalisierten Sprachsignal entfernen kann.
Das Ausgangssignal wird dann zu dem Tondetektor 34 geliefert, wo es überprüft wird, um zu erkennen, ob das Signal DTMF-Töne beinhaltet. Wenn das Signal DTMF-Töne beinhaltet, wird Tx Stummschaltung 42 durch den Tondetektor 34 aktiviert, und der Transceiver 14 wird angewiesen, DTMF-Tonsignale zu senden. Zum Sparen von Berechnung wird der Tondetektor 34 umgangen, wenn der Echoauslöscher 10 bestimmt, dass der Sprachzustand nur am entfernten Ende ist, oder dass beide Sprecher ruhig sind.
In dem Telefon wird das Ausgangssignal von dem Echoauslöscher 10 dann durch den Rauschunterdrücker 38 verarbeitet, welcher schwereres Hintergrundrauschen abschwächt. Alternativ wird in der Basisstation ein adaptiver Equalizer anstatt des Rauschunterdrückers 38 zum dynamischen Steuern des Frequenzinhalts des digitalisierten Sprachsignals von dem Benutzer am nahen Ende verwendet. Ein Beispiel eines adaptiven Equalizers ist in der ebenfalls anhängigen U.S. Patentanmeldung mit Seriennummer 08/456,277, angemeldet am 28. April 1995, benannt „METHOD AND APPARATUS FOR PERFORMING ADAPTIVE EQUALIZATION", dem Bevollmächtigten der vorliegenden Erfindung zugeordnet, offenbart. Ein Beispiel des Rauschunterdrü ckers 38 ist in dem vorher stehend erwähnten U.S. Patent Nummer 4,811,404 offenbart. Es sei verstanden, dass andere Implementierungen des Rauschunterdrückers 38 anstatt des in U.S. Patent Nummer 4,811,404 offenbarten verwendet werden können.
Der Rauschunterdrücker 38 aktualisiert seine Abschätzung der Hintergrundrauschcharakteristika durch Messung der spektralen Charakteristika des hereinkommenden Signals. Ein Zustandsbestimmungssignal von dem Echounterdrücker 10 wird vorgesehen, um in der Entscheidung zur Aktualisierung der Hintergrundrauschabschätzung zu helfen. Das Ermöglichen, dass der Echoauslöscher bei der Aktivierung und Deaktivierung der Aktualisierung der Hintergrundrauschabschätzung hilft, liefert signifikante Vorteile, welche später hierin offensichtlicher werden.
Das Rausch unterdrückte Sprachsignal von dem Rauschunterdrücker 38 wird dann zu der Tx Stummschaltung 42 geliefert, welche, wenn sie aktiviert ist, das digitale Sprachsignal durch synthetisiertes Rauschen ersetzt, welches in dem exemplarischen Ausführungsbeispiel zu den spektralen Charakteristika des tatsächlichen Hintergrundrauschens passt. Wenn die Tx Stummschaltung 42 deaktiviert ist, wird das Sprachsignal zu dem Vocoder-Codierer 44 unverändert geliefert. Die Tx Stummschaltung 42 wird durch den Rauschunterdrücker 10 aktiviert, und zwar während des Sprechzustands nur am entfernten Ende.
Das Sprachsignal wird dann von der Tx Stummschaltung 42 zu dem Vocoder-Codierer 44 weitergeleitet. Ein Beispiel eines Vocoder-Codierers 44 und Vocoder-Decodierers 46 ist in dem vorher stehend erwähnten U.S. Patent Nummer 5,414,796 offenbart. In dem exemplarischen Ausführungsbeispiel akzeptiert der Vocoder-Codierer 44 digitalisierte Sprachsamples mit 64 kbps und komprimiert sie zum Erreichen einer verringerten Datenrate. Dies wird durch Entfernen von all den natürlichen Redundanzen, welche in der Sprache inherrent sind, erreicht. Die Basis dieser Technik ist das Berechnen der Parameter eines Filters, benannt der LCP-Filter, welcher kurzzeitige Vorher sagen der Sprachwellenform unter Verwendung eines Modells des menschlichen Sprachtrakts ausführt. Zusätzlich werden Langzeiteffekte, welche mit der Tonhöhe der Sprache in Beziehung stehen, durch Berechnen der Parameter eines Tonhöhenfilters moduliert, welcher im Wesentlichen die menschlichen Stimmbänder modelliert. Schlussendlich müssen diese Filter angeregt werden, und dies wird durchgeführt durch Bestimmung, welche einer Anzahl von Zufalls-Anregungswellenformen in einem Codebuch zu der nächsten Annäherung zu der ursprünglichen Sprache führt, wenn die Wellenform die zwei oben erwähnten Filter anregt. Eine Hintergrundrauschabschätzung wird auch innerhalb des Vocoder-Codierers 44 durchgeführt, welcher die Energie des Hintergrundrauschens während Perioden der Ruhe abschätzt. Weil die Hintergrundrauschabschätzung nur auf tatsächlichem Hintergrundrauschen aktualisiert werden soll, ist es wünschenswert das Zustandsinformationssignal von dem Echoauslöscher 10 zu verwenden, um zu bestimmen, wann sowohl der Sprecher am nahen Ende wie auch der Sprecher am entfernten Ende ruhig sind. Ohne diese Information von dem Echoauslöscher 10 können Hintergrundrauschabschätzungen auch dann aktualisiert werden, wenn synthetisierte Sprache durch die Tx Stummschaltung 42 geliefert wird, was nicht wünschenswert ist. Ferner werden Details des Vocoder-Codierers 44 später hierin geliefert werden.
In der Empfangsrichtung, wiederum unter Bezugnahme auf 2, werden Daten von dem Transceiver 14 akzeptiert und durch den Vocoder-Decodierer 46 verarbeitet. In dem exemplarischen Ausführungsbeispiel akzeptiert der Vocoder-Decodierer 46 Datenpakete mit variabler Länge mit Datenraten, welche von 1200–9600 bps oder von 1200–13000 bps reichen, und erzeugt 64 kbps PCM-Samples gemäß dem vorher stehend erwähnten U.S. Patent Nummer 5,414,796 , und ist als z'(n) gezeigt. Diese PCM-Samples werden dann durch den Echoauslöscher 10 zu dem A/D Konvertierer 8 weitergeleitet. z'(n) wird auch durch den Echoauslöscher 10 als ein Referenzsignal zum Auslöschen des Echos in der Tx-Richtung verwendet. Die Ausgabe des Echoauslöschers 10 in der Rx-Richtung ist als z(n) gezeigt.
Zum besseren Verständnis der Ausführungsbeispiele der vorliegenden Erfindung wird ein Arbeitswissen über die verschiedenen funktionalen Blöcke benötigt. 3 ist ein detailliertes Blockdiagramm des Echoauslöschers 10. Ein Beispiel des Echoauslöschers 10 ist in dem vorher stehend erwähnten U.S. Patent Nummer 5,397,405 offenbart. Es sei verstanden, dass in dem exemplarischen Ausführungsbeispiel der Echoauslöscher 10 im Wesentlichen eine Zustandsmaschine ist, welche definierte Funktionen für jeden der fünf unterschiedlichen Sprachzustände hat, welche oben stehend beschrieben wurden.
In 3, wie dies für 2 der Fall war, wird das Sprachsignal von der Mobilstation als die Sprache s(n) am nahen Ende bezeichnet, während das Sprachsignal am entfernten Ende von den Rx PCM-Filtern 50 als z'(n) bezeichnet wird. z'(n) wird durch eine variable Verstärkungsstufe 170 verstärkt, und zu s(n) bei dem Summierer 5 gekoppelt, moduliert beim Durchgang durch den nicht bekannten Echokanal 7. Zum Entfernen von niederfrequentem Hintergrundrauschen wird die Summe des Echosignals y(n) und des Sprachsignals s(n) am nahen Ende durch Tx PCM-Filter 52 zum Erzeugen des Signals R(n) hochpassgefiltert. Das Signal R(n) wird als eine Eingabe zu jedem der Summierer 32 und 150 und der Steuerungseinheit 152 geliefert.
Die eingegebene Sprache z'(n) am entfernten Ende wird zu der variablen Verstärkungsstufe 170 geliefert, und dann in dem Puffer 154 zur Eingabe zu einem Satz von transversalen adaptiven Filtern (anfänglicher Filter 156, Zustandsfilter 158 und Rauschauslöschfilter 160) und der Steuerungseinheit 152 gespeichert.
Während der Periode des normalen Betriebs des Echoauslöschers 10 wird das Signal ŷ₁(n) von dem Zustandsfilter 158 zu dem Eingang des Summierers 150 ausgegeben, wo es von dem Signal R(n) subtrahiert wird. Die resultierende Ausgabe von dem Summierer 150 ist das Signal e₁(n), welches zu der Steuerungseinheit 152 eingegeben wird. Die Ausgabe des Echoauslöschfilters 160, das Echokopiesignal ŷ₁(n), wird durch den Filterschalter 162 zu einem Eingang des Summierers 32 geliefert, wo es von dem Signal R(n) subtrahiert wird. Das resultierende Echorestsignal e(n), welches von dem Summierer 32 ausgegeben wird, wird zurückgekoppelt als eine Eingabe zu der Steuerungseinheit 152. Das Echorestsignal e(n), wie es von dem Summierer 32 ausgegeben wird, kann direkt als die Ausgabe des Echoauslöschers 10 vorgesehen sein, als s'(n) gezeigt, oder durch zusätzliche Verarbeitungselemente, welche nicht gezeigt sind.
Zum Verhindern, dass große Hintergrundrauschpegel mit der Zustandsbestimmung interferieren, führt der Echoauslöscher 10 einen Algorithmus mit differentieller Energie auf Signalen z'(n) und e(n) aus. Der Algorithmus überwacht kontinuierlich den Hintergrundrauschpegel und vergleicht ihn mit der Signalenergie zum Bestimmen, ob der Sprecher spricht. Die drei Schwellenwerte T₁(B_i), T₂(B_i), und T₃(B_i) werden zunächst berechnet, welche Funktionen des Hintergrundrauschpegels B_i sind. Wenn die Signalenergie des Signals x(n) alle drei Schwellenwerte übersteigt, wird es bestimmt, dass der Sprecher spricht. Wenn die Signalenergie T1 und T2, aber nicht T3, übersteigt, wird es bestimmt, dass der Sprecher wahrscheinlich einen nicht stimmhaften Klang ausspricht, wie den „sp"-Klang in dem Wort „speed". Wenn die Signalenergie kleiner ist als alle drei Schwellenwerte, wird es bestimmt, dass der Sprecher nicht spricht.
Wie in 3 gezeigt ist, verfolgen zwei unabhängig anpassende Filter, nämlich Filter 158 und 160, den unbekannten Echokanal. Während Filter 160 die tatsächliche Echoauslöschung durchführen, wird der Filter 158 durch die Steuerungseinheit 152 zum Bestimmen verwendet, in welchem von mehreren Zuständen der Echoauslöscher 10 betrieben werden soll. Diese Zustandsinformation wird zu verschiedenen funktionalen Blöcken innerhalb des Vocoders 12, einschließlich des Tondetektors 34, des Rauschunterdrückers/adaptiven Equalizers 38, der Tx-Stummschaltung 42, und dem Vocoder-Codierer 44 geliefert.
4 ist ein funktionales Blockdiagramm des Rauschunterdrückers 38. Ein Beispiel des Rauschunterdrückers 38 ist in dem vorher stehend erwähnten U.S. Patent Nummer 4,811,404 offenbart. Es sei verstanden, dass andere Implementierungen des Rauschunterdrückers 38 unterschiedlich von demjenigen, welcher in dem U.S. Patent Nummer 4,811,404 offenbart ist, verwendet werden können. Das Rauschunterdrückungssystem beinhaltet einen Mechanismus 210 zum Trennen des Eingangssignals in eine Vielzahl von vorab verarbeiteten Signalen, welche anzeigend für ausgewählte Frequenzkanäle sind; einen Mechanismus 310 zum Erzeugen einer Abschätzung des Signal-zu-Rausch-Verhältnisses (SNR = signal-to-noise ratio) in jedem individuellen Kanal; einen Mechanismus 830 zum Berechnen der Rauschenergie in jedem Frequenzkanal; einen Mechanismus 590 zum Erzeugen eines Verstärkungswerts für jeden individuellen Kanal durch automatisches Auswählen von einem einer Vielzahl von Verstärkungswerten von einer bestimmten Verstärkungstabelle ansprechend auf die Kanal-SNR-Abschätzungen; einen Mechanismus 250 zum Modifizieren der Verstärkung von jedem der Vielzahl von vorab verarbeiteten Signalen ansprechend auf die ausgewählten Verstärkungswerte zum Liefern einer Vielzahl von nachverarbeiteten Rausch unterdrückten Ausgangssignalen; und einen Mechanismus 260 zum Kombinieren der vorab prozessierten Signale zurück in den Zeitdomänen-PCM-Daten. Ein Sprachmetrikberechner 810 wird verwendet, um den Sprach-/Rausch-Entscheidungsdurchführprozess durchzuführen. Zunächst werden die rohen SNR-Abschätzungen von dem Kanal-SNR-Abschätzer 310 zum Indizieren einer Sprachmetriktabelle zum Erhalten von Sprachmetrikwerten für jeden Kanal verwendet. Eine Sprachmetrik ist eine Messung der gesamten sprachähnlichen Charakteristika der Kanalenergie. Die individuellen Kanal-Sprachmetrikwerte werden summiert zum Erzeugen eines ersten Mehrkanalenergieparameters, und dann mit dem Hintergrundrauschaktualisierungsschwellenwert in dem Schwellenwertvergleicher 820 verglichen. Wenn die Sprachmetriksumme den Schwellenwert nicht übersteigt, wird angenommen, dass der Eingaberahmen Rauschen ist, und eine Hintergrundrauschaktualisierung wird durchgeführt, um dem Rauschenergieberechner 830 zu ermöglichen, die Rauschenergie in jedem Kanal erneut zu berechnen. Die ab geschätzte Rauschenergie wird durch die Verstärkungstabelle 590 zum Auswählen der geeigneten Verstärkung für jeden Kanal verwendet. Wenn die Sprachmetriksumme den Aktualisierungsschwellenwert übersteigt, wird es angenommen, dass der Rahmen ein Sprachrahmen ist, und der Rauschenergieberechner 830 wird am Aktualisieren der Rauschenergieabschätzung gehindert. Ein zusätzliches Aktivierungssignal wird von dem Echoauslöscher 10 vorgesehen, welches den Rauschenergieberechner 830 deaktiviert, wenn der Echoauslöscher 10 bestimmt, dass nur Sprache am entfernten Ende bzw. Fernendsprechen auftritt. Dieses Aktivierungssignal hat Vorrang gegenüber dem Aktivierungssignal von dem Schwellenwertvergleicher 820; das heißt wenn der Rauschenergieberechner 830 durch das Signal von dem Echoauslöscher 10 deaktiviert wird, wird er auch dann deaktiviert bleiben, wenn ein Aktivierungssignal von dem Schwellenwertvergleicher 820 geliefert wird. Durch Verwendung der Zustandsinformation von dem Echoauslöscher 10 auf diese Art und Weise wird verhindert, dass die Hintergrundrauschabschätzung fehlerhafterweise aktualisiert wird.
In einem zweiten Ausführungsbeispiel liefert der Echoauslöscher 10 ein Aktivierungssignal zu dem Energieberechner 830, welches Hintergrundrauschabschätzungen ermöglicht, wenn der Sprachzustand derart bestimmt wird, dass beide Sprecher ruhig sind. Ohne das Aktivierungssignal von dem Echoauslöscher 10 würde keine Hintergrundrauschaktualisierung auftreten.
In einem dritten Ausführungsbeispiel wird ein zweites Signal von dem Echoauslöscher zu dem Rauschunterdrücker geliefert, welches anzeigt, ob irgendwelches Echo tatsächlich bei dem Eingang des Echoauslöschers vorhanden ist. Wie in 4 gezeigt ist, wird das zweite Signal als „Echo anwesend?" bezeichnet, und wird erlauben, dass Hintergrundrauschabschätzungen durchgeführt werden, wenn kein Echo bei dem Eingang des Echoauslöschers vorhanden ist, auch wenn das Zustandsinformationssignal anderenfalls die Aktualisierung deaktivieren würde. Dieses Ausführungsbeispiel ist notwendig, wenn es wünschenswert ist, die Hintergrundrauschabschätzung während des Zustands der Sprache nur am entfernten Ende zu aktualisieren, wenn der Sprecher am entfernten Ende kein Echo auf das Übertragungssignal einführt.
In der Basisstation wird ein adaptiver Equalizer (Filter) anstatt des Rauschunterdrückers 38 verwendet. Der Zweck des adaptiven Filters ist es, die Sprache am nahen Ende derart zu verändern, dass die Frequenzverschlechterung in der Übertragung von dem Sprecher am nahen Ende zu demjenigen am entfernten Ende kompensiert wird. Die Koeffizienten des adaptiven Filters werden während Perioden der Sprache nur am nahen Ende aktualisiert. Die Zustandsinformation von dem Echoauslöscher 10 kann zum Aktivieren dieser Aktualisierung verwendet werden, wenn er Sprache nur am nahen Ende detektiert.
Die Zustandsbestimmungsinformation, welche durch den Echoauslöscher 10 geliefert wird, wird auch zum Steuern des Tondetektors 34 verwendet. Wie in 5 gezeigt ist, besteht der Tondetektor 34 aus einem funktionalen Block, dem DTMF-Tondetektor 70. In dem exemplarischen Ausführungsbeispiel werden PCM-codierte Daten durch den DTMF Tondetektor 70 mit 64 kbps empfangen, wenn er alle 105 Datenrahmen betrieben wird. Der DTMF-Tondetektor 70 verwendet den Goertzel-Algorithmus mit Frequenz- und Versatztests, welche in der AT&T Anwendungsnote spezifiziert sind, welche „Dual-Tone Multifrequency Receiver Using the WE DSP 16 Digital Signal Processor", benannt ist, um zu bestimmen, ob DTMF-Töne vorhanden sind oder nicht. Der Goertzel-Algorithmus und die AT&T Anwendungsnote sind beide dem Fachmann gut bekannt. Wenn DTMF-Töne detektiert werden, wird ein Signal durch den DTMF-Tondetektor 70 zu der Tx-Stummschaltung 42 gesendet, welches die Tx-Stummschaltung 42 anweist, die DTMF-Töne durch synthetisiertes Rauschen zu ersetzen. Die PCM-Daten werden dann unverändert zu dem Rauschunterdrücker 38 auch dann gesendet, wenn sie später stumm geschaltet werden, und zwar aufgrund dessen, weil die Hintergrundrauschabschätzung immer noch durch den Rauschunterdrücker 38 während Pausen zwischen DTMF-Tönen aktualisiert werden kann.
Zustandsinformation von dem Echoauslöscher 10 wird verwendet, um den DTMF-Tondetektor 70 zu deaktivieren, wenn der Echoauslöscher 10 bestimmt, dass nur Sprache am entfernten Ende auftritt, oder dass beide Sprecher ruhig sind. Dies führt zu gesparter Verarbeitungsleistung. Wenn der DTMF-Tondetektor 70 deaktiviert ist, werden PCM-Daten von dem Echoauslöscher 10 nicht verändert, und zu dem Rauschunterdrücker 38 geliefert.
In einem zweiten Ausführungsbeispiel wird Zustandsinformation von dem Echoauslöscher 10 verwendet, um den Tondetektor 70 zu aktivieren, wenn der Echoauslöscher 10 bestimmt, dass nur Sprache am nahen Ende auftritt. Für alle anderen Sprachzustände würde der Tondetektor 70 deaktiviert werden.
Das Zustandsbestimmungssignal von dem Echoauslöscher 10 wird auch verwendet, um die Tx-Stummschaltung 42 zu steuern. Wie in 6 gezeigt ist, werden PCM-Daten durch den Schalter 76 empfangen. Wenn der Echoauslöscher 10 nur Sprache am entfernten Ende detektiert, wird ein Signal zu dem Schalter 76 gesendet, welches PCM-Daten durch synthetisiertes Rauschen von dem Generator 74 für synthetisiertes Rauschen 74 ersetzt. Der Generator 74 für synthetisiertes Rauschen verwendet LPC-Parameter und Lautstärkeninformation von dem Vocoder-Codierer 44 zum Anpassen der spektralen Charakteristika des tatsächlichen Hintergrundrauschens. Eine Diskussion über die LPC-Parameter und die Lautstärkensteuerungsinformation wird hierin später gegeben. Wenn keine Stummschaltung auftritt, wird die Tx-Stummschaltfunktion umgangen, was erlaubt, das PCM-Daten zu dem Vocoder-Codierer 44 unverändert gesendet werden.
Die Zustandsbestimmungsfunktion des Echoauslöschers 10 wird auch verwendet, um den Vocoder-Codierer 44 zu steuern. Ein funktionales Blockdiagramm des Vocoder-Codierers 44 ist in 7 gezeigt. PCM-Daten von der Tx-Stummschaltung 42 werden zu dem Sprachaktivitätsdetektor 80 und dem Schwellenwert-Erzeuger 78 geliefert. Der Sprachaktivitätsdetektor 80 berechnet den Betrag von Sprachaktivität auf dem PCM-Datensignal. Wenn der Sprecher am nahen Ende spricht, ist die Sprachaktivität relativ hoch. Während Perioden von Ruhe am nahen Ende oder kurzen Pausen zwischen Wörtern, ist die Sprachaktivität relativ niedrig. Der Schwellenwerterzeuger 78 berechnet drei Schwellenwertpegel basierend auf dem Hintergrundrauschpegel der Rausch unterdrückten PCM-Daten. Die Schwellenwertpegel werden aktualisiert, wann immer der Sprachaktivitätsdetektor einen minimalen Pegel von Sprecheraktivität bestimmt. Wenn jedoch die Zustandsbestimmung von dem Echoauslöscher 10 anzeigt, dass der Sprechzustand nur Sprache am nahen Ende ist, wird ein Zustandsbestimmungssignal von dem Echoauslöscher 10 zu dem Schwellenwerterzeuger 78 geliefert, welcher die Hintergrundrauschaktualisierung deaktiviert. Es ist notwendig, eine Hintergrundrauschaktualisierung in dieser Situation zu verhindern, weil wenn der Sprecher am nahen Ende ruhig ist, synthetisiertes Rauschen das tatsächliche Datensignal in der Tx-Stummschaltung 42 ersetzt, wie oben stehend diskutiert wurde. Es ist nicht wünschenswert, dass Hintergrundrauschabschätzsignal basierend auf synthetisiertem Rauschen zu aktualisieren.
In einem zweiten Ausführungsbeispiel liefert der Echoauslöscher 10 ein Aktivierungssignal, welches den Schwellenwerterzeuger 78 aktiviert, und zwar zum Durchführen von Hintergrundrauschabschätzungen, wenn der Sprechzustand derart bestimmt wird, dass beide Sprecher ruhig sind. In diesem Ausführungsbeispiel werden keine Hintergrundrauschaktualisierungen durchgeführt, bis das Aktivierungssignal durch den Echoauslöscher 10 geliefert wird.
Die drei berechneten Schwellenwerte, welche oben stehend diskutiert wurden, werden zu dem Schwellenwertvergleicher 82 gesendet, wo sie die Basis für die Ratencodierungsendscheidung bilden. Der Sprachaktivitätspegel wird mit diesen Schwellenwerten auf einer Rahmen-um-Rahmen-Basis verglichen. In dem exemplarischen Ausführungsbeispiel beinhaltet jeder Rahmen 160 Samples, oder 20 msec von Daten. Wenn die Sprachaktivitätsenergie den höchsten Schwellenwert während irgendeinem Rahmen von PCM-Daten übersteigt, wird es bestimmt, dass der Sprecher am nahen Ende spricht, und dass der Rahmen durch den mux 84 multiplexiert und mit voller Rate unter Verwendung von CELP 86 codiert wird. Wenn die Sprachaktivitätsenergie während irgendeinem Rahmen geringer ist als der niedrigste Schwellenwert, wird dieser Rahmen durch den mux 84 multiplexiert und mit einem Achtel der Rate unter Verwendung von CELP 92 codiert. Wenn die Sprachaktivitätsenergie während irgendeinem Rahmen zwischen den höchsten Schwellenwert und den niedrigsten Schwellenwert fällt, wird der Rahmen mit einer Rate von entweder ein Halb oder ein Viertel unter Verwendung von CELP 86 und CELP 88 jeweils codiert. Die Ausgabe von jedem der CELP-Verarbeitungsblöcke 86–92 werden zu dem Nachverarbeitungselement 94 geliefert, wo sie kombiniert werden, um ein veränderliches Datenratensignal zwischen 1,2 kbps und 9,6 kbps in dem exemplarischen Ausführungsbeispiel zu erzeugen. Die Ausgabe des Nachverarbeitungselements 94 wird zu dem Steuerungsmikroprozessor (nicht gezeigt) gesendet.
Die vorher stehende Beschreibung der bevorzugten Ausführungsbeispiele wird geliefert, um jedem Fachmann zu ermöglichen, die vorliegende Erfindung auszuführen oder zu benutzen. Die verschiedenen Modifikationen zu diesen Ausführungsbeispielen werden dem Fachmann offensichtlich sein, und die hierin definierten allgemeinen Prinzipien können auf andere Ausführungsbeispiele ohne die Verwendung der erfinderischen Fähigkeit angewandt werden. Somit ist es nicht beabsichtigt, die vorliegende Erfindung auf die hierin gezeigten Ausführungsbeispiele einzuschränken, sondern ihr soll der weiteste Umfang, wie durch die Ansprüche definiert, zugestanden werden.

Claims

Ein Mobilhandgerät zur Sprachverarbeitung in einem digitalen Telephonsystem und zum Empfangen von Fernendsprechsignalen von einem landgestützten Benutzer und Nahend-Sprachsignalen von einem Benutzer eines mobilen Handgeräts, wobei das mobile Handgerät Folgendes aufweist: Einen Echolöscher bzw. Echoauslöscher (7, 10, 32, 52, 150 bis 170) zum Empfangen eines digitalisierten Sprache-plus-Echosignals, zum Empfangen des Fernendsprechsignals und zum Vorsehen eines echounterdrückten Ausgabesignals, wobei der Echolöscher (10) Zustandsbestimmungsmittel (158) aufweist zum Bestimmen in welchen Sprechzuständen sich die zwei Benutzer befinden, wobei die Zustandsbestimmungsmittel (158) ein Zustandsinformationssignal anzeigend für die Sprechzustände zwischen den zwei Benutzern vorsehen; einen Vocoder-Codierer (44, 78 bis 94) operativ zum Empfang des Zustandsinformationssignals; und Übertragungsmuting- bzw. Stummschaltmittel (42, 74, 76) operativ zum Empfangen von digitalisierten Sprachabtastungen und des Zustandsinformationssignals und zum Vorsehen als Eingabe für den Vocoder-Codierer (44, 78 bis 94) entweder die digitalisierten Abtastungen oder ein synthetisiertes Rauschsignal, wobei die Übertragungsstummschaltmittel (42, 74, 76) Steuermittel aufweisen zum Austauschen der digitalisierten Sprachabtastungen mit dem synthetisierten Rauschsignal, wenn das Zustandsinformationssignal Nur-Fernendsprechen bzw. -sprache anzeigt.
Mobilhandgerät nach Anspruch 1, wobei der Vocoder-Codierer (44, 78 bis 94) operativ ist zum Empfangen des Zustandsinformationssignals von dem Echolöscher (7, 10, 32, 52, 150 bis 170), um zu bestimmen, wenn beide Benutzer still sind.
Mobilhandgerät nach Anspruch 1 oder 2, das einen Tondetektor (34, 70) aufweist.
Mobilhandgerät nach Anspruch 3, wobei der Tondetektor (34, 70) Folgendes aufweist: Eingabemittel zum Empfangen von digitalisierten Sprachabtastungen und zum Empfangen des Zustandsinformationssignals; Ausgabemittel zum Vorsehen der digitalisierten Sprachabtastungen und zum Vorsehen eines Signals anzeigend von DTMF-Tonauswahl und -dauer; Tondetektiermittel zum Detektieren von DTMF-Tönen; und Steuermittel zum Deaktivieren der Tondetektiermittel, wenn das Zustandsinformationssignal einen Nur-Fernendsprechzustand anzeigt.
Mobilhandgerät nach Anspruch 3, wobei der Tondetektor (34, 70) Folgendes aufweist: Eingabemittel zum Empfangen von digitalisierten Sprachabtastungen und zum Empfangen des Zustandsinformationssignals; Ausgabemittel zum Vorsehen der digitalisierten Sprachabtastungen und eines Signals anzeigend für DTMF-Tonauswahl und -dauer; Tondetektiermittel zum Detektieren von DTMF-Tönen; und Steuermittel zum Aktivieren der Tondetektiermittel, wenn das Zustandsinformationssignal ein Nur-Nahend-Sprechzustand anzeigt.
Mobilhandgerät nach einem der vorhergehenden Ansprüche, das einen Rauschunterdrücker (38, 210, 250, 260, 310, 590, 810 bis 830) aufweist.
Mobilhandgerät nach Anspruch 6, wobei der Rauschunterdrücker (38, 210, 250, 260, 310, 590, 810 bis 830) Folgendes aufweist: Eingabemittel (210, 830) zum Empfangen von digitalisierten Sprachabtastungen und zum Empfangen des Zustandsinformationssignals; Ausgabemittel (250, 260) zum Vorsehen eines rauschunterdrückten digitalisierten Sprachsignals; Hintergrundrauschschätzmittel (310, 810 bis 830) zum Generieren eines Schätzhintergrundrauschsignals, das verwendet wird, um Hintergrundrauschen zu unterdrücken; und Steuermittel zum Sperren bzw. Deaktivieren der Hintergrundschätzmittel (310, 810 bis 830), wenn das Zustandsinformationssignal ein Nur-Fernendsprechen anzeigt.
Mobilhandgerät nach Anspruch 6, wobei der Rauschunterdrücker (38, 210, 250, 260, 310, 590, 810 bis 830) Folgendes aufweist: Eingabemittel (210, 830) zum Empfangen von digitalisierten Sprachabtastungen und zum Empfangen des Zustandsinformationssignals; Ausgabemittel (250, 260) zum Vorsehen eines rauschunterdrückten digitalisierten Sprachsignals; Hintergrundrauschschätzmittel (310, 810 bis 830) zum Generieren eines Schätzhintergrundrauschsignals, das verwendet wird, um Hintergrundrauschen zu unterdrücken; und Steuermittel zum Aktivieren der Hintergrundrauschschätzmittel (310, 810 bis 830), wenn das Zustandsinformationssignal anzeigt, dass beide Sprecher still sind.
Mobilhandgerät nach Anspruch 6, wobei der Rauschunterdrücker (38, 210, 250, 260, 310, 590, 810 bis 830) Folgendes aufweist: Eingabemittel (210, 830) zum Empfangen von digitalisierten Sprachabtastungen, zum Empfangen des Zustandsinformationssignals und zum Empfangen eines Echodetektiersignals anzeigend dafür, ob ein Echo an dem Eingang zu dem Echolöscher (5, 7, 10, 32, 52, 150 bis 170) vorliegt oder nicht; Ausgabemittel (250, 260) zum Vorsehen eines rauschunterdrückten digitalisierten Sprachsignals; Hintergrundrauschschätzmittel (310, 810 bis 830) zum Generieren eines Schätzhintergrundrauschsignals, das verwendet wird, um Hintergrundrauschen zu unterdrücken; und Steuermittel zum Aktivieren der Hintergrundrauschschätzmittel (310, 810 bis 830), wenn das Zustandsinformationssignal nur Fernendsprechen anzeigt und das Echodetektiersignal kein vorliegendes Echo anzeigt.
Mobilhandgerät nach einem der vorhergehenden Ansprüche, wobei die Übertragungstummschaltmittel (42, 74, 76) Rauschgeneriermittel (74) aufweisen zum Generieren des synthetisierten Rauschsignals.
Mobilhandgerät nach einem der vorhergehenden Ansprüche, wobei der Vocoder-Codierer (44, 78 bis 94) Folgendes aufweist: Eingabemittel (78, 80) zum Empfangen von digitalisierten Sprachabtastungen und zum Empfangen des Zustandsinformationssignals; Ausgabemittel (84 bis 94) zum Vorsehen eines codierten Digitalsprachpakets mit einer reduzierten Datenrate; Hintergrundrauschschätzmittel (78) zum Generieren von Schwelleninformation, die verwendet wird zum Bestimmen mit welcher Rate die digitalisierten Sprachabtastungen zu codieren sind; und Steuermittel zum Deaktivieren der Hintergrundrauschschätzmittel (78), wenn das Zustandsinformationssignal nur Fernendsprechen anzeigt.
Mobilhandgerät nach einem der Ansprüche 1 bis 10, wobei der Vocoder-Codierer (44, 78 bis 94) Folgendes aufweist: Eingabemittel (78, 80) zum Empfangen von digitalisierten Sprachabtastungen und zum Empfang des Zustandsinformationssignals; Ausgabemittel (84 bis 94) zum Vorsehen eines codierten Digitalsprachpakets mit einer reduzierten Datenrate; Hintergrundrauschschätzmittel (78) zum Generieren von Schwelleninformation, die verwendet wird, um zu bestimmen, mit welcher Rate die digitalisierten Sprachabtastungen zu codieren sind; und Steuermittel zum Freigeben bzw. Aktivieren der Hintergrundrauschschätzmittel (78), wenn das Zustandsinformationssignal anzeigt, dass beide Sprecher still sind.
Mobilhandgerät nach einem der vorhergehenden Ansprüche, das einen adaptiven Equalizer (38) aufweist.
Mobilhandgerät nach Anspruch 13, wobei der adaptive Equalizer (38) Folgendes aufweist: Eingabemittel zum Empfangen von digitalisierten Sprachabtastungen und zum Empfang des Zustandsinformationssignals; Ausgabemittel zum Vorsehen eines frequenzkompensierten digitalisierten Sprachsignals; Frequenzschätzmittel zum Schätzen des Spektralinhalts der digitalisierten Sprachabtastungen; und Steuermittel zum Aktivieren der Frequenzschätzmittel, während das Zustandsinformationssignal Nur-Fernendsprechen anzeigt.
Ein Verfahren zum Steuern des Sprachverarbeitungsbetriebs von Übertragungsstummschaltmitteln und eines Vocoder-Codierers in einem Mobilhandgerät in einem digitalen Telephonsystem unter Verwendung von Zustandsinformation von einem Echolöscher in dem Mobilhandgerät, wobei das Verfahren Folgendes aufweist: Empfangen an dem Mobilhandgerät, von Fernend-Sprechsignalen von einem land-gestützten Benutzer und Nahend-Sprechsignalen von einem Benutzer des Mobilhandgeräts; Generieren (158) eines Zustandsinformationssignals durch den Echolöscher (5, 7, 10, 32, 52, 150 bis 170) anzeigend für die Sprechzustände zwischen den zwei Benutzern; Empfangen des Zustandsinformationssignals an dem Vocoder-Codierer (44, 78 bis 94); und Empfangen an den Übertragungsstummschaltmitteln von digitalisierten Sprachabtastungen und dem Zustandsinformationssignal und zum Vorsehen als eine Eingabe an den Vocoder-Codierer (44, 78 bis 94) entweder der digitalisierten Abtastungen oder eines synthetisierten Rauschsignals; und Austauschen der digitalisierten Sprachabtastungen mit dem synthetisierten Rauschsignal, wenn das Zustandsinformationssignal Nur-Fernendsprechen anzeigt.
Verfahren nach Anspruch 15, wobei der Vocoder-Codierer (44, 78 bis 94) das Zustandsinformationssignal empfängt, um zu bestimmen, wann beide Benutzer still sind.
Verfahren nach Anspruch 15 oder 16, das Folgendes aufweist: Steuern einer Tondetektorfunktion (34, 70) innerhalb des Mobilhandgeräts.
Verfahren nach Anspruch 17, wobei das Steuern Folgendes aufweist: Deaktivieren der Tondetektorfunktion (34, 70), wenn das Zustandsinformationssignals Nur-Fernendsprechen anzeigt.
Verfahren nach Anspruch 17, wobei das Steuern Folgendes aufweist: Aktivieren der Tondetektorfunktion (34, 70), wenn das Zustandsinformationssignal Nur-Nahendsprechen anzeigt.
Verfahren nach Anspruch 15 oder 16, wobei das Verfahren Folgendes aufweist: Steuern einer Rauschunterdrückerfunktion (38, 210, 250, 260, 310, 590, 810 bis 830) innerhalb des Mobilhandgeräts.
Verfahren nach Anspruch 20, wobei das Steuern Folgendes aufweist: Deaktivieren einer Hintergrundrauschschätzberechnung (310, 810 bis 830) ausgeführt durch die Rauschunterdrückerfunktion (38, 210, 250, 260, 310, 590, 810 bis 830), wenn das Zustandsinformationssignal Nur-Fernendsprechen anzeigt.
Verfahren nach Anspruch 20, wobei das Steuern Folgendes aufweist: Aktivieren einer Hintergrundrauschschätzberechnung (310, 810 bis 830), die ausgeführt wird durch die Rauschunterdrückerfunktion (38, 210, 250, 260, 310, 590, 810 bis 830), wenn das Zustandsinformationssignal anzeigt, dass beide Sprecher still sind.
Verfahren nach Anspruch 20, wobei das Steuern Folgendes aufweist: Empfangen eines Signals anzeigend dafür, ob ein Echo an der Eingabe zu dem Echolöscher (5, 7, 10, 32, 52, 150 bis 170) vorliegt oder nicht; Deaktivieren einer Hintergrundrauschschätzberechnung (310, 810 bis 830) ausgeführt durch die Rauschunterdrückerfunktion (38, 210, 250, 260, 310, 590, 810 bis 830), wenn beide, das Zustandsinformationssignal Nur-Fernendsprechen anzeigt und das Echo-vorhanden-Signal, das Vorliegen eines Echos an der Eingabe zu dem Echolöscher (5, 7, 10, 32, 52, 150 bis 170) anzeigt; und Aktivieren der Hintergrundrauschschätzberechnung (310, 810 bis 830), wenn beide, das Zustandsinformationssignal Nur-Fernendsprechen und das Echo-vorhanden-Signal kein Echo vorliegend an der Eingabe zum Echolöscher (5, 7, 10, 32, 52, 150 bis 170), anzeigt.
Verfahren nach Anspruch 15 oder 16, das Folgendes aufweist: Deaktivieren einer Hintergrundrauschschätzberechnung ausgeführt durch den Vocoder-Codierer (74, 78 bis 94), wenn die Zustandsinformation Nur-Fernendsprechen anzeigt.
Verfahren nach Anspruch 15 oder 16, das Folgendes aufweist: Aktivieren einer Hintergrundrauschschätzberechnung ausgeführt durch den Vocoder-Codierer (74, 78 bis 94), wenn das Zustandsinformationssignal anzeigt, dass beide Sprecher still sind.
Verfahren nach Anspruch 15 oder 16, das das Steuern einer adaptiven Equalizerfunktion (38) innerhalb des Mobilhandgeräts aufweist.
Verfahren nach Anspruch 26, wobei das Steuern Folgendes aufweist: Aktivieren einer Frequenzantwortaktualisierung ausgeführt durch die adaptive Equalizerfunktion (38), wenn das Zustandsinformationssignal Nur-Nahendsprechen bzw. Sprache anzeigt.