-
HINTERGRUND DER ERFINDUNG
-
I. Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft digitale Telefonsysteme. Insbesondere
betrifft die vorliegende Erfindung ein neues und verbessertes Verfahren
und eine Vorrichtung zur Verwendung von Statusbestimmung von einem
Echoauslöscher
zum Steuern von verschiedenen funktionalen Blöcken in einem digitalen Telefonsystem.
-
II. Beschreibung des relevanten Hintergrunds
-
Die Übertragung
von Sprache durch digitale Techniken ist inzwischen weit verbreitet,
insbesondere in zellularen Telefon- und PCS-Anwendungen. Dies hat
wiederum ein Interesse zum Verbessern von Sprachverarbeitungstechniken
erzeugt. Drei von solchen Techniken beinhalten die Hinzufügung von Echoauslöschern,
Rauschunterdrückern,
und Sprachcodierer-/Decodierern, oder Vocodern, zu existierenden
Elementen von digitalen Telefonsystemen.
-
Echoauslöscher werden
verwendet, um unerwünschte
Echosignale zu verringern, welche durch Impedanzfehlanpassungen
in Land basierten Telefonnetzwerken verursacht werden, oder im Fall
von mobilen Telefonen, von Echo, welches durch akustische Kupplung
zwischen Lautsprecher und Mikrofon in Freisprech-Telefonen verursacht
werden. Vocoder werden zum Entfernen von natürlichen Redundanzen von Sprache
in einem digitalisiertem Signal verwendet, um Datenübertragungsraten,
und somit den Betrag von Information, welcher über einen gegebenen Übertragungskanal übertragen
wird, zu verringern. Rauschunterdrücker werden verwendet, um Hintergrundrauschen
zu minimieren. Echoauslöscher,
Vocoder, und Rauschunterdrücker
werden derzeit zusammen in digitalen Telefonsystemen sowohl in Land
basierten Anwendungen wie auch in mobilen Systemen verwendet.
-
Es
gibt zwei Typen von Echoauslöschern, den
Netzwerk-Echoauslöscher
und den akustischen Echoauslöscher.
Ein Beispiel eines typischen Echoauslöschers ist in dem
U.S. Patent Nummer 5,307,405 , benannt „NETWORK
ECHO CANCELLER";
offenbart; welches dem Bevollmächtigten
der vorliegenden Erfindung zugeordnet ist. Ein Netzwerk-Echoauslöscher unterdrückt das
Echo, welches in einem Telefonnetzwerk erzeugt wird. Ein Land basiertes
Telefon ist mit einer zentralen Stelle durch zwei Drahtleitungen
verbunden, um Übertragung
in beiden Richtungen zu unterstützen.
Für Anrufe,
welche weiter als ungefähr
35 Meilen entfernt sind, müssen
die beiden Richtungen der Übertragung
auf physikalisch unterschiedlichen Drähten isoliert sein, was zu
einem Draht mit vier Leitungen führt.
Die Einrichtung, welche die zweiadrigen und vieradrigen Schnittstellen
schnittstellenmäßig verbindet,
ist als ein Hybrid bekannt. Eine Impedanzfehlanpassung bei diesem
Hybrid führt
zu einem Echo, welches durch einen Netzwerk-Echoauslöscher entfernt
werden muß.
Akustische Echounterdrücker
werden in Telefonkonferenz- und Freisprech-Telefonanwendungen verwendet.
Ein akustischer Echoauslöscher eliminiert
akustisches Echo, welches aus der Rückkopplung zwischen einem Lautsprecher
und einem Mikrofon resultiert.
-
In
einem typischen digitalen Telefonsystem wird Sprache von einem analogen
Signal in digitale PCM-Samples durch einen A/D-Konvertierer konvertiert.
In einem typischen Ausführungsbeispiel
wird eine Datenrate von 64 kbps gewählt, um gute Sprachqualität zu erhalten.
Sobald das Sprachsignal digitalisiert wurde, kann es manipuliert
werden, um bestimmte Vorteile zu erreichen, wie Maximierung von
Systemkapazität,
Sprachqualitätverbesserung, Rauschunterdrückung und
Minimierung von Übertragungsfehlern.
-
Nachdem
das Sprachsignal in PCM-Samples konvertiert wurde, kann unerwünschtes
Echo durch einen Echoauslöscher
entfernt werden, Hintergrundrauschen kann durch einen Rauschunterdrücker minimiert
werden, und Datenkompression kann durch einen Vocoder vor der Modulation
und Heraufkonvertierung zur Übertragung
durchgeführt
werden. Ein Beispiel eines Vocoders mit variabler Rate ist in dem
U.S. Patent Nummer 5,414,796 ,
benannt „VARIABLE
RATE VOCODER” offenbart,
welches dem Bevollmächtigten
der vorliegenden Erfindung zugeordnet ist. Das codierte Sprachsignal
kann durch jegliche Anzahl von Techniken moduliert werden einschließlich TDMA,
CDMA oder analoger Modulation. Die Verwendung von CDMA-Techniken
in einem Vielfachzugriffskommunikationssystem ist in dem
U.S. Patent Nummer 4,901,307 ,
benannt „SPREAD SPECTRUM
MULTIPLE ACCESS COMMUNICATION SYSTEM USING SATELLITE OR TERRESTRIAL
REPEATERS", welches
dem Bevollmächtigten der
vorliegenden Erfindung zugeordnet ist, offenbart. Das Kombinieren
des Echoauslöschers
mit dem Vocoder und dem Rauschunterdrücker hat bestimmte Vorteile
wie auch Probleme, welche damit verbunden sind.
-
Ein
Problem beim Einfügen
eines Echoauslöschers
in die Front-End-Elektronik
eines digitalen Telefonsystems ist, dass er das Sprachsignal zu
den anderen funktionalen Blöcken
aufgrund seines Orts in dem System relativ zu den anderen funktionalen Blöcken verändert. Durch
Anordnen des Echoauslöschers
zuerst in der Kette von funktionalen Blöcken müssen der Rauschunterdrücker und
der Vocoder Hintergrundrauschberechnungen basierend auf dem echo-unterdrückten Signal
anstatt des aktuellen Hintergrundrauschens durchführen. Wenn
der Echounterdrücker
nicht das gesamte Echo von dem Sprachsignal entfernt, kann das verbleibende
Echo Fehler in den Hintergrundrauschberechnungen verursachen, welche
durch den Rauschunterdrücker
und den Vocoder durchgeführt
werden.
-
Hierin
wird ein mobiler Benutzer als ein Sprecher am nahen Ende bezeichnet,
und der Land basierte Benutzer wird als der Sprecher am entfernten Ende
bezeichnet. Ein typischer Vocoder kann einen Rauschunterdrücker beinhalten,
dessen Funktion das Entfernen von Hintergrundrauschen von dem Sprachsignal
am nahen Ende ist. Ein Beispiel eines typischen Rauschunterdrückers ist
in dem
U.S. Patent Nummer 4,811,404 ,
benannt, „NOISE
SUPPRESSION SYSTEM",
offenbart, welches Motorola, Inc., zugeordnet ist. Rauschauslöschung wird
durch Berechnen einer Abschätzung
der tatsächlichen
Hintergrundrauschenergie während
Perioden durchgeführt,
wenn der Sprecher am nahen Ende ruhig ist. Ein Problem tritt auf,
wenn der Sprecher am nahen Ende (auch als Nahendsprecher) ruhig
ist, und der Sprecher am entfernten Ende spricht. In dem mobilen Telefon
kann die Stimme des Sprechers am entfernten Ende akustisch von dem
Lautsprecher zu dem Mikrofon gekoppelt sein, was zu einem Echo führt, welches
durch den Sprecher am entfernten Ende gehört wird, bevor es entfernt
wird. In einem Land basierten System kann Sprache am nahen Ende
auf dem Sprachsignal des Sprechers am entfernten Ende aufgrund von
Impedanzfehlanpassung in dem Hybrid, wie oben diskutiert, gekoppelt
sein. Ein Echoauslöscher
wird verwendet, um das Echo zu eliminieren, aber aufgrund von Einschränkungen
des Echoauslöschers
wird das Echo nicht vollständig
entfernt werden. Ein Rauschunterdrücker, welcher nach dem Echoauslöscher angeordnet
ist, kann das verbleibende Echo als Hintergrundrauschen interpretieren,
und die Hintergrundrauschabschätzung
basierend auf dem verbleibenden Echo aktualisieren. Dies verfälscht die
Hintergrundrauschabschätzung,
was zu verschlechterter Rauschauslöschung führt. Der Vocoder wird durch
Vorsehen einer schlechten Abschätzung
von Hintergrundrauschen zu einem synthetisierten Rauschgenerator
in dem System leiden. Zusätzlich
werden die Entscheidungen bezüglich
der Codierrate des Vocoders schlecht beeinflusst werden.
-
Es
ist deshalb ein Ziel der vorliegenden Erfindung, fehlerhafte Hintergrundrauschaktualisierungen in
dem Rauschunterdrücker
und dem Vocoder-Codierer
zu verhindern, wenn der Sprecher am nahen Ende ruhig ist, und der
Sprecher am entfernten Ende aktiv ist.
-
Es
ist ein weiteres Ziel der vorliegenden Erfindung, dass Zustandsbestimmungssignal
von dem Echoauslöscher
zum Steuern von anderen funktionalen Elementen innerhalb eines digitalen
Telefonsystems zu verwenden, wie ein Tondetektor, eine Übertragungsstummstellfunktion,
und ein adaptiver Equalizer.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Ausführungsbeispiele
der vorliegenden Erfindung sehen eine neue und verbesserte Kombination
von funktionalen Elementen innerhalb eines digitalen Telefonsystems
vor. Gemäß von Ausführungsbeispielen
der vorliegenden Erfindung wird ein Echoauslöscher in Kombination mit einem
Vocoder verwendet, wobei der Echoauslöscher Information zu verschiedenen
funktionalen Blöcken
innerhalb des Vocoders für
Zwecke von Rauschauslöschung, DTMF-Tondetektion, Übertragungsstummschaltung und
Sprachcodierung liefert. Ein unmittelbarer Vorteil des Kombinierens
eines Echoauslöschers
mit einem Vocoder sind die Kosten, Gewicht und Platzeinsparungen
der Kombination von zwei integrierten Schaltkreisen in einen einzigen
integrierten Schaltkreis.
-
In
dem exemplarischen Ausführungsbeispiel der
vorliegenden Erfindung wird ein Echoauslöscher verwendet, welcher unter
anderem bestimmt, in welchem Sprachmodus zwei Personen beteiligt
sind. In dem exemplarischen Ausführungsbeispiel
sind fünf unterschiedliche
Modi oder Gesprächszustände möglich: nur
Sprecher am nahen Ende, nur Sprecher am entfernten Ende, beide Sprecher
sprechen, kein Sprecher spricht, und Überrest (hangover), was die kurze
Zeitperiode unmittelbar folgend auf eine Pause in der Unterhaltung
ist.
-
Ausführungsbeispiele
der vorliegenden Erfindung verwenden die Zustandsbestimmung des Echoauslöschers in
mehreren funktionalen Blöcken innerhalb
des Vocoders. Von besonderer Wichtigkeit ist die Verwendung des
Zustandsbestimmungssignals in der Rauschunterdrückerfunktion innerhalb des
Vocoders. In dem exemplarischen Ausführungsbeispiel wird der Rauschunterdrücker durch
Teilen des Eingangssignals in ausgewählte Frequenzbänder, Erzeugen
eines Signal-zu-Rausch-Verhältnisses für jedes
Frequenzband, dann Verstärken
von jedem Frequenzband gemäß einer
vorbestimmten Verstärkungstabelle
betrieben. Die Sprach-/Rausch-Bestimmung wird wie folgt durchgeführt. Die
Roh-Signal-zu-Rausch-Verhältnisse- Abschätzungen
für jedes
Frequenzband werden zum Indizieren einer Sprachmetriktabelle zum
Erhalten von Sprachmetrikwerten für jeden Kanal erhalten. Eine
Sprachmetrik ist eine Messung der gesamten sprachähnlichen Charakteristika
der Kanalenergie. Die individuellen Kanalsprachmetrikwerten werden
summiert, um einen Mehrkanal-Energieparameter zu erzeugen, und dann
werden sie mit einem Hintergrundrausch-Aktualisierungsschwellenwert
verglichen. Wenn die Sprachmetriksumme nicht den Schwellenwert erreicht,
wird der eingegebene Rahmen als Rauschen beurteilt, und eine Hintergrundrauschaktualisierung wird
durchgeführt.
Wenn die Sprachmetriksumme den Schwellenwert übersteigt, dann wird dieser
Rahmen als Sprache behandelt, und die Hintergrundrauschabschätzung wird
nicht aktualisiert. Probleme können
auftreten, wenn der Rauschunterdrücker verbleibendes Echo von
dem Echoauslöscher
als Hintergrundrauschen behandelt. In diesem Fall wird der Rauschabschätzungsalgorithmus
das Hintergrundrauschen basierend auf dem verbleibenden Echo erneut
berechnen, was die Rauschabschätzung
verfälschen
würde.
-
Dieses
Problem wird durch Vorsehen eines Zustandsinformationssignals von
dem Echoauslöscher
eliminiert, welches Hintergrundrauschaktualisierungen in dem Rauschunterdrücker deaktiviert, wenn
von dem Anrufmodus bestimmt wird, dass er nur entferntes Ende ist.
Ohne die Zustandsinformation von dem Echoauslöscher wird der Rauschunterdrücker fehlerhafterweise
die Hintergrundrauschberechnung basierend auf dem verbleibenden
Echosignal von dem Echoauslöscher
aktualisieren.
-
In
einem alternativen Ausführungsbeispiel wird
ein zweites Signal von dem Echoauslöscher zu dem Rauschunterdrücker vorgesehen,
welches anzeigt, ob irgendwelches Echo tatsächlich bei der Eingabe des
Echoauslöschers
vorhanden ist. Das zweite Signal wird erlauben, dass Hintergrundrauschabschätzungen
in dem Rauschunterdrücker
durchgeführt
werden, wenn das Echo bei dem Echoauslöscher vorhanden ist, auch wenn
das Zustandsinformationssignal anderenfalls die Aktualisierung deaktivieren
würde.
-
Ferner
wird die Zustandsbestimmung von dem Echoauslöscher verwendet, um die Tondetektorfunktion
innerhalb des Vocoders zu steuern. Der Tondetektor überprüft das Übertragungssignal
nach DTMF-Tönen.
Wenn Töne
detektiert werden wird das normale Übertragungssignal stumm geschaltet
und eine Signalisierungsnachricht wird über die Luft gesendet, welche
verursacht, dass Töne
bei dem Empfänger
erzeugt werden. Dies wird durchgeführt, weil eine ausreichend
hohe Löschrate
einen vocodierten Ton ausreichend verschlechtern kann, dass er nicht detektiert
werden würde.
Der Tondetektor kann durch das Zustandbestimmungssignal von dem
Rauschunterdrücker
während
des Zustands des Sprechens nur am entfernten Ende deaktiviert werden,
was zu Leistungseinsparungen führt.
-
Zusätzlich wird
Zustandsbestimmung von dem Rauschunterdrücker verwendet, um die Übertragungsstummstellfunktion
innerhalb des Vocoders zu steuern. Die Übertragungsstummstellung ersetzt PCM-Samples
durch synthetisiertes Rauschen, welches zur spektralen Charakteristik
bzw. zu den spektralen Charakteristika des derzeitigen Hintergrundrauschens
passt. Die spektrale Information und die Volumensteuerung des synthetisierten
Rauschens werden durch Analyse geliefert, welche durch den Vocoder-Codierer
durchgeführt
wird. Die Übertragungsstummstellfunktion
wird aktiviert, wenn die Zustandsbestimmung des Echoauslöschers nur Sprache
am entfernten Ende bzw. nur Fernsprechen anzeigt. Auf diesem Weg
wird das gesamte Echo von dem Übertragungssignal
eliminiert.
-
Zustandsbestimmung
von dem Echoauslöscher
wird auch zum Steuern eines adaptiven Equalizers verwendet. Dieser
Equalizer modifiziert die Frequenzantwort auf dem empfangenen Signal
am nahen Ende zum Kompensieren der Frequenzantwortverschlechterungen
in dem Übertragungspfad.
Der Equalizer schätzt
die Frequenzcharakteristika des Übertragungspfads
während
Sprache am nahen Ende ab, und verwendet diese Abschätzung zum Konstruieren
eines Filters, welcher die gesamte Frequenzantwort auf eine gewünschte Charakteristik formt.
Weil diese Abschätzung
der empfangenen Frequenzantwort durch das Vorhandensein eines Echosignals
gestört
wer den würde,
erlaubt der Echoauslöscher
nur, dass der Equalizer seine Abschätzung der Frequenzantwort während des
Zustands der Sprache nur am nahen Ende aktualisiert.
-
Schlussendlich
wird Zustandsbestimmung von dem Echoauslöscher verwendet, um die Hintergrundrauschabschätzungsfunktion
zu steuern, welche durch den Vocoder-Codierer durchgeführt wird. Die
Hintergrundrauschabschätzung
wird durchgeführt,
um synthetisierte Rauschinformation zu erzeugen, welche durch den Übertragungsstummstellblock verwendet
werden soll, wie oben stehend diskutiert, und zum Erzeugen einer
Schwellenwertinformation, welche verwendet wird, um zu entscheiden,
mit welcher Datenrate codiert wird. Das Ziel ist es, das synthetisierte
Rauschen zu dem tatsächlichen
Rausch unterdrückten
Hintergrundrauschen derart anzupassen, dass der Zuhörer am entfernten
Ende die Perioden von synthetisiertem Rauschersatz nicht mit bekommt.
Die Hintergrundrauschberechnung wird durch Vorsehen von Zustandsinformation
von einem Echoauslöscher
zu der Hintergrundrauschabschätzfunktion
verbessert. Der Echoauslöscher
deaktiviert die Hintergrundrauschabschätzung während Perioden von synthetisierter
Rauschersetzung derart, dass eine Hintergrundrauschaktualisierung
nicht auf synthetisiertem Rauschen durchgeführt wird.
-
Somit
wird gemäß einem
ersten Aspekt der vorliegenden Erfindung eine Vorrichtung zur Sprachverarbeitung
in einem digitalen Telefonsystem gemäß Anspruch 1 vorgesehen.
-
Gemäß einem
zweiten Aspekt wird ein Verfahren zum Steuern gemäß Anspruch
15 vorgesehen.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Die
Merkmale, Ziele und Vorteile von Ausführungsbeispielen der vorliegenden
Erfindung werden offensichtlicher werden von der detaillierten Beschreibung,
welche unten stehend gegeben wird, wenn sie zusammen genommen wird
mit den Zeichnungen, in welchen gleiche Bezugszeichen korrespondierendes
durchgängig
identifizieren, und wobei folgendes gilt:
-
1 ist
ein funktionales Blockdiagramm eines mobilen digitalen Telefons;
-
2 ist
ein funktionales Blockdiagramm eines Echoauslöschers und eines Vocoders;
-
3 ist
ein funktionales Blockdiagramm eines Echoauslöschers;
-
4 ist
ein funktionales Blockdiagramm eines Rauschunterdrückers;
-
5 ist
ein funktionales Blockdiagramm eines Tondetektors;
-
6 ist
ein funktionales Blockdiagramm eines Übertragungsstummstellprozessors;
und
-
7 ist
ein funktionales Blockdiagramm eines Vocoder-Codierers.
-
DETAILLIERTE BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
-
1 ist
ein gesamtes Blockdiagramm eines digitalen zellularen oder PCS-Telefons. Zur Einfachheit
der Erklärung
ist nur ein Untersatz von Elementen gezeigt. Das digitale Telefon
besteht aus einem Handteil 6, welches ein Mikrofon 4 und
einen Lautsprecher 2; Analog-zu-Digital (A/D) Konvertierer 8; Echoauslöscher 10;
Vocoder 12; Transceiver 14; und Antenne 16 beinhaltet.
Es sei verstanden, dass andere Architekturen für das System nur mit einer
Veränderung
im Ort oder der Position der verschiedenen Betriebselemente verwendet
werden können.
-
Während der Übertragung
wird Sprache am nahen Ende durch das Mikrofon 4 empfangen,
welches in dem Handteil 6 vorgesehen ist. Das Sprachsignal
am nahen Ende wird transformiert durch das Mikrofon 4 in
ein elektroakustisches Signal, welches durch den Ausdruck v(t) ausgedrückt wird,
wie in 1 gezeigt ist. Das empfangene Sprachsignal x(t) am
entfernten Ende wird akustisch zu dem Sprachsignal v(t) bei dem
Summierer 5 gekoppelt, beim Durchgang von x(t) durch den
unbekannten Echokanal 7 modelliert zum Erzeugen des Echosignals
y(t). Die Ausgabe des Summierers 5 ist als kombi niertes Sprach-/Echo-Signal
v(t) + y(t) gezeigt. Der nicht bekannte Echokanal 7 und
der Summierer 5 sind nicht beinhaltete Elemente in dem
System selbst, sondern sind parasitäre Ergebnisse von der physikalischen Nähe des Mikrofons 4 und
dem Lautsprecher 2.
-
Das
Sprach-/Echo-Signal v(t) + y(t) wird dann von einem Analogsignal
in PCM-Samples durch den analog-zu-digital-Konvertierer 8 konvertiert.
In einem exemplarischen Ausführungsbeispiel werden
PCM-Samples durch den A/D Konvertier 8 mit einer Rate von
64 kbits pro Sekunde ausgegeben, und werden durch das Signal s(n)
repräsentiert, wie
in 1 gezeigt ist.
-
Der
Echoauslöscher
10 entfernt
das Echosignal y(t) von dem digitalisierten Sprach-/Echo-Signal s(n).
In dem exemplarischen Ausführungsbeispiel wird
der Echoauslöscher
10 gemäß dem Echoauslöscher betrieben,
welcher in dem vorher stehend erwähnten
U.S. Patent Nummer 5,307,405 beschrieben
ist. In dem exemplarischen Ausführungsbeispiel führt der
Echoauslöscher
10 Echoauslöschung durch Bestimmung
durch, welcher von mehreren unterschiedlichen Sprachzuständen die
Sprecher einnehmen, wobei die Zustände Sprache nur am nahen Ende,
Sprache nur am entfernten Ende, sowohl Sprache am nahen wie auch
am entfernten Ende gleichzeitig, keiner der Sprecher spricht, oder Überhang sind.
Sobald der Sprachzustand durch den Echoauslöscher
10 bestimmt
wurde, wird eine Abschätzung des
Echosignals y(n) von dem digitalisierten Sprach-/Echo-Signal s(n)
entfernt. Weil das Echosignal nicht vollständig eliminiert werden kann,
wird ein verbleibendes Echosignal als ein Teil des digitalisierten
Sprachsignals verbleiben. Das Echo ausgelöschte Sprachsignal, s'(n), wird dann durch
den Vocoder
12 verarbeitet. In dem exemplarischen Ausführungsbeispiel
ist der Vocoder
12 ein Vocoder mit linearer Vorhersage,
welcher mit einem Code mit variabler Rate angeregt wird (CELP =
code excited linear prediction), wie in dem vorher stehend erwähnten
U.S. Patent Nummer 5,414,796 beschrieben
wurde. In dem exemplarischen Ausführungsbeispiel wird der Vocoder
12 zusammen
mit einem Rauschunterdrückungssystem
betrieben, wie detailliert in dem vorher stehend erwähnten
U.S. Patent Nummer 4,811,404 beschrieben
wurde.
-
Der
Vocoder 12 führt
mehrere Funktionen auf dem Signal s'(n) aus, einschließlich, aber nicht eingeschränkt auf
Sprachkomprimierung, Rauschunterdrückung, Übertragungs- und Empfangs-Volumensteuerung,
DTMF-Tondetektion,
und Übertragungsstummschaltung.
Der Vocoder 12 verwendet die Zustandsbestimmungsergebnisse
von dem Echoauslöscher 10,
welche als „Zustandsinformation" in 1 gezeigt
sind, und zwar in seinem Algorithmus zum Entscheiden, wann seine
Hintergrundrauschabschätzung
aktualisiert wird. Weitere Details des Echoauslöschers 10 und des
Vocoders 12 sind in 2 gezeigt,
und werden vollständiger später diskutiert.
-
Das
Vocodersprachsignal s''(n) wird dann zu dem
Transceiver
14 geliefert, wo es gemäß einem vorbestimmten Modulationsformat
wie Codemultiplex-Vielfachzugriff
(CDMA = code devision multiple access), Zeitmultiplex-Vielfachzugriff (TDMA
= time division multiple access), Frequenzmultiplex-Vielfachzugriff (FDMA
= frequency division multiple access), oder analoger Modulation
moduliert wird. In dem exemplarischen Ausführungsbeispiel moduliert der
Transceiver
14 das Signal gemäß einem CDMA-Modulationsformat,
wie in dem vorher stehend erwähnten
U.S. Patent Nummer 4,901,307 beschrieben
wurde. Der Transceiver
14 heraufkonvertiert und verstärkt dann
das modulierte Signal. Das modulierte Signal wird dann durch die
Antenne
16 zu Basisstationstransceivern (nicht gezeigt) übertragen.
-
Ein ähnlicher
reziproker Prozess tritt für
empfangene Sprache auf. Ein CDMA-moduliertes Signal wird bei der
Antenne
16 empfangen und zu dem Transceiver
14 geliefert.
Der Transceiver
14 verstärkt, herunterkonvertiert und
demoduliert das empfangene Signal. In dem exemplarischen Ausführungsbeispiel
demoduliert der Transceiver
14 das empfangene Signal gemäß einem
CDMA-Demodulationsformat, wie in den vorher stehend erwähnten
U.S. Patenten mit Nummern 5,103,459 und
4,901,307 beschrieben. Das
demodulierte Signal z''(n) wird zu dem Vocoder
12 geliefert.
-
In
dem exemplarischen Ausführungsbeispiel empfängt der
Vocoder
12 codierte Pakete mit Daten von variabler Länge alle
20 ms zu Datenraten, welche von 1200–9600 bps reichen. Der Vocoder
12 decodiert
die Pakete in 64 kbps PCM-Samples gemäß dem vorher stehend erwähnten
U.S. Patent Nummer 5,414,796 .
Dann wird das decodierte Signal z'(n) zu dem Echounterdrücker
10 geliefert,
wo es als eine Referenz zum Entfernen des unerwünschten Echosignals y(t) von
dem gewünschten
Sprachsignal verwendet wird. Das decodierte Signal, welches von dem
Echounterdrücker
10 ausgegeben
wird, ist als z(n) in
1 gezeigt.
-
Das
schlussendlich decodierte Signal z(n) wird zu einer analogen Wellenform
durch den A/D Konvertierer 8 konvertiert, dann zu der akustischen Sprache
am entfernten Ende unter Verwendung des Lautsprechers 2 konvertiert,
welcher in dem Handteil 6 vorgesehen ist.
-
2 ist
ein funktionales Blockdiagramm des Echoauslöschers 10 und des
Vocoders 12. In einem exemplarischen Ausführungsbeispiel
sind der Echoauslöscher 10 und
der Vocoder 12 in Form eines digitalen Prozessors konfiguriert,
wie das Model ADSP-2181 der ADSP-2100 Serie des digitalen Signalprozessors,
welcher durch Analog Devices aus Norwood, Massachusetts, hergestellt
wird. Es sei verstanden, dass andere digitale Signalprozessoren derart
programmiert werden können,
dass sie gemäß den Lehren
hierin funktionieren können.
Alternativ können
andere Implementierungen des Echoauslöschers 10 und des
Vocoders 12 von diskreten Prozessoren oder in anwendungsspezifischer
integrierter Schaltkreis (ASIC = application specific integrated circuit)-Form
konfiguriert sein. Es sei auch verstanden, dass der Vocoder 12 unter
Verwendung von jeglicher Kombination von funktionalen Blöcken konfiguriert
sein kann, welcher in 2 gezeigt ist.
-
Während der Übertragung
wird digitalisiertes Sprach-/Echo-Signal s(n) durch Tx PCM-Filter
52 von dem
A/D-Konvertierer
8 empfangen. Niederfrequenzkomponenten
werden herausgefiltert, weil der Echoauslöscher
10 keine DC-Komponente
synthetisieren kann. Das gefilterte Signal wird dann zu dem Summierer
32 innerhalb
des Echoauslöschers
10 geliefert,
wo das abgeschätzte
Echosignal y'(n)
davon subtrahiert wird. Das abgeschätzte Echosignal y'(n) wird durch Verarbeitung
des empfangenen digitalen Sprachsignals z'(n) unter Verwendung eines adaptiven
Filterbetriebs erzeugt, welcher innerhalb des Echoauslöschers
10 durchgeführt wird.
Ein Beispiel des Echoauslöschers
10 ist
in dem vorher stehend erwähnten
U.S. Patent Nummer 5,307,405 offenbart. Die
Details des Echoauslöschers
10 werden
in größerer Detailliertheit
später
hierin beschrieben werden.
-
Die
Ausgabe, welche durch den Echoauslöscher 10 erzeugt wurde,
beinhaltet das gewünschte digitalisierte
Sprachsignal zuzüglich
eines Restsignals, welches von dem Echoauslöschprozess übrig gelassen wurde. Das Restsignal
wird vorhanden sein, weil der Echoauslöscher niemals vollständig das
gesamte Echo von dem digitalisierten Sprachsignal entfernen kann.
-
Das
Ausgangssignal wird dann zu dem Tondetektor 34 geliefert,
wo es überprüft wird,
um zu erkennen, ob das Signal DTMF-Töne beinhaltet. Wenn das Signal
DTMF-Töne
beinhaltet, wird Tx Stummschaltung 42 durch den Tondetektor 34 aktiviert,
und der Transceiver 14 wird angewiesen, DTMF-Tonsignale zu senden.
Zum Sparen von Berechnung wird der Tondetektor 34 umgangen,
wenn der Echoauslöscher 10 bestimmt,
dass der Sprachzustand nur am entfernten Ende ist, oder dass beide
Sprecher ruhig sind.
-
In
dem Telefon wird das Ausgangssignal von dem Echoauslöscher
10 dann
durch den Rauschunterdrücker
38 verarbeitet,
welcher schwereres Hintergrundrauschen abschwächt. Alternativ wird in der Basisstation
ein adaptiver Equalizer anstatt des Rauschunterdrückers
38 zum
dynamischen Steuern des Frequenzinhalts des digitalisierten Sprachsignals
von dem Benutzer am nahen Ende verwendet. Ein Beispiel eines adaptiven
Equalizers ist in der ebenfalls anhängigen U.S. Patentanmeldung
mit Seriennummer 08/456,277, angemeldet am 28. April 1995, benannt „METHOD
AND APPARATUS FOR PERFORMING ADAPTIVE EQUALIZATION", dem Bevollmächtigten
der vorliegenden Erfindung zugeordnet, offenbart. Ein Beispiel des
Rauschunterdrü ckers
38 ist
in dem vorher stehend erwähnten
U.S. Patent Nummer 4,811,404 offenbart.
Es sei verstanden, dass andere Implementierungen des Rauschunterdrückers
38 anstatt
des in
U.S. Patent Nummer 4,811,404 offenbarten
verwendet werden können.
-
Der
Rauschunterdrücker 38 aktualisiert
seine Abschätzung
der Hintergrundrauschcharakteristika durch Messung der spektralen
Charakteristika des hereinkommenden Signals. Ein Zustandsbestimmungssignal
von dem Echounterdrücker 10 wird
vorgesehen, um in der Entscheidung zur Aktualisierung der Hintergrundrauschabschätzung zu
helfen. Das Ermöglichen,
dass der Echoauslöscher
bei der Aktivierung und Deaktivierung der Aktualisierung der Hintergrundrauschabschätzung hilft,
liefert signifikante Vorteile, welche später hierin offensichtlicher werden.
-
Das
Rausch unterdrückte
Sprachsignal von dem Rauschunterdrücker 38 wird dann
zu der Tx Stummschaltung 42 geliefert, welche, wenn sie
aktiviert ist, das digitale Sprachsignal durch synthetisiertes Rauschen
ersetzt, welches in dem exemplarischen Ausführungsbeispiel zu den spektralen
Charakteristika des tatsächlichen
Hintergrundrauschens passt. Wenn die Tx Stummschaltung 42 deaktiviert ist,
wird das Sprachsignal zu dem Vocoder-Codierer 44 unverändert geliefert.
Die Tx Stummschaltung 42 wird durch den Rauschunterdrücker 10 aktiviert,
und zwar während
des Sprechzustands nur am entfernten Ende.
-
Das
Sprachsignal wird dann von der Tx Stummschaltung
42 zu
dem Vocoder-Codierer
44 weitergeleitet. Ein Beispiel eines
Vocoder-Codierers
44 und Vocoder-Decodierers
46 ist
in dem vorher stehend erwähnten
U.S. Patent Nummer 5,414,796 offenbart.
In dem exemplarischen Ausführungsbeispiel akzeptiert
der Vocoder-Codierer
44 digitalisierte Sprachsamples mit
64 kbps und komprimiert sie zum Erreichen einer verringerten Datenrate.
Dies wird durch Entfernen von all den natürlichen Redundanzen, welche
in der Sprache inherrent sind, erreicht. Die Basis dieser Technik
ist das Berechnen der Parameter eines Filters, benannt der LCP-Filter,
welcher kurzzeitige Vorher sagen der Sprachwellenform unter Verwendung
eines Modells des menschlichen Sprachtrakts ausführt. Zusätzlich werden Langzeiteffekte,
welche mit der Tonhöhe
der Sprache in Beziehung stehen, durch Berechnen der Parameter eines Tonhöhenfilters
moduliert, welcher im Wesentlichen die menschlichen Stimmbänder modelliert.
Schlussendlich müssen
diese Filter angeregt werden, und dies wird durchgeführt durch
Bestimmung, welche einer Anzahl von Zufalls-Anregungswellenformen
in einem Codebuch zu der nächsten
Annäherung
zu der ursprünglichen
Sprache führt,
wenn die Wellenform die zwei oben erwähnten Filter anregt. Eine Hintergrundrauschabschätzung wird
auch innerhalb des Vocoder-Codierers
44 durchgeführt, welcher
die Energie des Hintergrundrauschens während Perioden der Ruhe abschätzt. Weil
die Hintergrundrauschabschätzung
nur auf tatsächlichem
Hintergrundrauschen aktualisiert werden soll, ist es wünschenswert das
Zustandsinformationssignal von dem Echoauslöscher
10 zu verwenden,
um zu bestimmen, wann sowohl der Sprecher am nahen Ende wie auch
der Sprecher am entfernten Ende ruhig sind. Ohne diese Information
von dem Echoauslöscher
10 können Hintergrundrauschabschätzungen
auch dann aktualisiert werden, wenn synthetisierte Sprache durch
die Tx Stummschaltung
42 geliefert wird, was nicht wünschenswert
ist. Ferner werden Details des Vocoder-Codierers
44 später hierin
geliefert werden.
-
In
der Empfangsrichtung, wiederum unter Bezugnahme auf
2,
werden Daten von dem Transceiver
14 akzeptiert und durch
den Vocoder-Decodierer
46 verarbeitet. In dem exemplarischen
Ausführungsbeispiel
akzeptiert der Vocoder-Decodierer
46 Datenpakete mit variabler
Länge mit
Datenraten, welche von 1200–9600
bps oder von 1200–13000
bps reichen, und erzeugt 64 kbps PCM-Samples gemäß dem vorher stehend erwähnten
U.S. Patent Nummer 5,414,796 ,
und ist als z'(n) gezeigt.
Diese PCM-Samples werden dann durch den Echoauslöscher
10 zu dem A/D
Konvertierer
8 weitergeleitet. z'(n) wird auch durch den Echoauslöscher
10 als
ein Referenzsignal zum Auslöschen
des Echos in der Tx-Richtung verwendet. Die Ausgabe des Echoauslöschers
10 in
der Rx-Richtung ist als z(n) gezeigt.
-
Zum
besseren Verständnis
der Ausführungsbeispiele
der vorliegenden Erfindung wird ein Arbeitswissen über die
verschiedenen funktionalen Blöcke
benötigt.
3 ist
ein detailliertes Blockdiagramm des Echoauslöschers
10. Ein Beispiel
des Echoauslöschers
10 ist
in dem vorher stehend erwähnten
U.S. Patent Nummer 5,397,405 offenbart. Es
sei verstanden, dass in dem exemplarischen Ausführungsbeispiel der Echoauslöscher
10 im
Wesentlichen eine Zustandsmaschine ist, welche definierte Funktionen
für jeden
der fünf
unterschiedlichen Sprachzustände
hat, welche oben stehend beschrieben wurden.
-
In 3,
wie dies für 2 der
Fall war, wird das Sprachsignal von der Mobilstation als die Sprache
s(n) am nahen Ende bezeichnet, während
das Sprachsignal am entfernten Ende von den Rx PCM-Filtern 50 als
z'(n) bezeichnet
wird. z'(n) wird durch
eine variable Verstärkungsstufe 170 verstärkt, und
zu s(n) bei dem Summierer 5 gekoppelt, moduliert beim Durchgang
durch den nicht bekannten Echokanal 7. Zum Entfernen von
niederfrequentem Hintergrundrauschen wird die Summe des Echosignals
y(n) und des Sprachsignals s(n) am nahen Ende durch Tx PCM-Filter 52 zum
Erzeugen des Signals R(n) hochpassgefiltert. Das Signal R(n) wird
als eine Eingabe zu jedem der Summierer 32 und 150 und
der Steuerungseinheit 152 geliefert.
-
Die
eingegebene Sprache z'(n)
am entfernten Ende wird zu der variablen Verstärkungsstufe 170 geliefert,
und dann in dem Puffer 154 zur Eingabe zu einem Satz von
transversalen adaptiven Filtern (anfänglicher Filter 156,
Zustandsfilter 158 und Rauschauslöschfilter 160) und
der Steuerungseinheit 152 gespeichert.
-
Während der
Periode des normalen Betriebs des Echoauslöschers 10 wird das
Signal ŷ1(n) von dem Zustandsfilter 158 zu
dem Eingang des Summierers 150 ausgegeben, wo es von dem
Signal R(n) subtrahiert wird. Die resultierende Ausgabe von dem Summierer 150 ist
das Signal e1(n), welches zu der Steuerungseinheit 152 eingegeben
wird. Die Ausgabe des Echoauslöschfilters 160,
das Echokopiesignal ŷ1(n), wird durch den Filterschalter 162 zu
einem Eingang des Summierers 32 geliefert, wo es von dem
Signal R(n) subtrahiert wird. Das resultierende Echorestsignal e(n),
welches von dem Summierer 32 ausgegeben wird, wird zurückgekoppelt
als eine Eingabe zu der Steuerungseinheit 152. Das Echorestsignal e(n),
wie es von dem Summierer 32 ausgegeben wird, kann direkt
als die Ausgabe des Echoauslöschers 10 vorgesehen
sein, als s'(n)
gezeigt, oder durch zusätzliche
Verarbeitungselemente, welche nicht gezeigt sind.
-
Zum
Verhindern, dass große
Hintergrundrauschpegel mit der Zustandsbestimmung interferieren,
führt der
Echoauslöscher 10 einen
Algorithmus mit differentieller Energie auf Signalen z'(n) und e(n) aus.
Der Algorithmus überwacht
kontinuierlich den Hintergrundrauschpegel und vergleicht ihn mit
der Signalenergie zum Bestimmen, ob der Sprecher spricht. Die drei
Schwellenwerte T1(Bi),
T2(Bi), und T3(Bi) werden zunächst berechnet,
welche Funktionen des Hintergrundrauschpegels Bi sind.
Wenn die Signalenergie des Signals x(n) alle drei Schwellenwerte übersteigt,
wird es bestimmt, dass der Sprecher spricht. Wenn die Signalenergie
T1 und T2, aber nicht T3, übersteigt,
wird es bestimmt, dass der Sprecher wahrscheinlich einen nicht stimmhaften
Klang ausspricht, wie den „sp"-Klang in dem Wort „speed". Wenn die Signalenergie
kleiner ist als alle drei Schwellenwerte, wird es bestimmt, dass
der Sprecher nicht spricht.
-
Wie
in 3 gezeigt ist, verfolgen zwei unabhängig anpassende
Filter, nämlich
Filter 158 und 160, den unbekannten Echokanal.
Während
Filter 160 die tatsächliche
Echoauslöschung
durchführen, wird
der Filter 158 durch die Steuerungseinheit 152 zum
Bestimmen verwendet, in welchem von mehreren Zuständen der
Echoauslöscher 10 betrieben
werden soll. Diese Zustandsinformation wird zu verschiedenen funktionalen
Blöcken
innerhalb des Vocoders 12, einschließlich des Tondetektors 34,
des Rauschunterdrückers/adaptiven
Equalizers 38, der Tx-Stummschaltung 42, und dem
Vocoder-Codierer 44 geliefert.
-
4 ist
ein funktionales Blockdiagramm des Rauschunterdrückers
38. Ein Beispiel
des Rauschunterdrückers
38 ist
in dem vorher stehend erwähnten
U.S. Patent Nummer 4,811,404 offenbart. Es
sei verstanden, dass andere Implementierungen des Rauschunterdrückers
38 unterschiedlich
von demjenigen, welcher in dem
U.S.
Patent Nummer 4,811,404 offenbart ist, verwendet werden
können. Das
Rauschunterdrückungssystem
beinhaltet einen Mechanismus
210 zum Trennen des Eingangssignals
in eine Vielzahl von vorab verarbeiteten Signalen, welche anzeigend
für ausgewählte Frequenzkanäle sind;
einen Mechanismus
310 zum Erzeugen einer Abschätzung des
Signal-zu-Rausch-Verhältnisses
(SNR = signal-to-noise ratio) in jedem individuellen Kanal; einen
Mechanismus
830 zum Berechnen der Rauschenergie in jedem
Frequenzkanal; einen Mechanismus
590 zum Erzeugen eines
Verstärkungswerts
für jeden
individuellen Kanal durch automatisches Auswählen von einem einer Vielzahl
von Verstärkungswerten
von einer bestimmten Verstärkungstabelle
ansprechend auf die Kanal-SNR-Abschätzungen; einen Mechanismus
250 zum
Modifizieren der Verstärkung
von jedem der Vielzahl von vorab verarbeiteten Signalen ansprechend
auf die ausgewählten
Verstärkungswerte
zum Liefern einer Vielzahl von nachverarbeiteten Rausch unterdrückten Ausgangssignalen;
und einen Mechanismus
260 zum Kombinieren der vorab prozessierten
Signale zurück
in den Zeitdomänen-PCM-Daten. Ein Sprachmetrikberechner
810 wird
verwendet, um den Sprach-/Rausch-Entscheidungsdurchführprozess durchzuführen. Zunächst werden
die rohen SNR-Abschätzungen
von dem Kanal-SNR-Abschätzer
310 zum
Indizieren einer Sprachmetriktabelle zum Erhalten von Sprachmetrikwerten
für jeden
Kanal verwendet. Eine Sprachmetrik ist eine Messung der gesamten
sprachähnlichen
Charakteristika der Kanalenergie. Die individuellen Kanal-Sprachmetrikwerte
werden summiert zum Erzeugen eines ersten Mehrkanalenergieparameters,
und dann mit dem Hintergrundrauschaktualisierungsschwellenwert in dem
Schwellenwertvergleicher
820 verglichen. Wenn die Sprachmetriksumme
den Schwellenwert nicht übersteigt,
wird angenommen, dass der Eingaberahmen Rauschen ist, und eine Hintergrundrauschaktualisierung
wird durchgeführt,
um dem Rauschenergieberechner
830 zu ermöglichen,
die Rauschenergie in jedem Kanal erneut zu berechnen. Die ab geschätzte Rauschenergie
wird durch die Verstärkungstabelle
590 zum
Auswählen
der geeigneten Verstärkung
für jeden
Kanal verwendet. Wenn die Sprachmetriksumme den Aktualisierungsschwellenwert übersteigt,
wird es angenommen, dass der Rahmen ein Sprachrahmen ist, und der
Rauschenergieberechner
830 wird am Aktualisieren der Rauschenergieabschätzung gehindert.
Ein zusätzliches
Aktivierungssignal wird von dem Echoauslöscher
10 vorgesehen,
welches den Rauschenergieberechner
830 deaktiviert, wenn
der Echoauslöscher
10 bestimmt, dass
nur Sprache am entfernten Ende bzw. Fernendsprechen auftritt. Dieses
Aktivierungssignal hat Vorrang gegenüber dem Aktivierungssignal
von dem Schwellenwertvergleicher
820; das heißt wenn
der Rauschenergieberechner
830 durch das Signal von dem
Echoauslöscher
10 deaktiviert
wird, wird er auch dann deaktiviert bleiben, wenn ein Aktivierungssignal von
dem Schwellenwertvergleicher
820 geliefert wird. Durch
Verwendung der Zustandsinformation von dem Echoauslöscher
10 auf
diese Art und Weise wird verhindert, dass die Hintergrundrauschabschätzung fehlerhafterweise
aktualisiert wird.
-
In
einem zweiten Ausführungsbeispiel
liefert der Echoauslöscher 10 ein
Aktivierungssignal zu dem Energieberechner 830, welches
Hintergrundrauschabschätzungen
ermöglicht,
wenn der Sprachzustand derart bestimmt wird, dass beide Sprecher
ruhig sind. Ohne das Aktivierungssignal von dem Echoauslöscher 10 würde keine
Hintergrundrauschaktualisierung auftreten.
-
In
einem dritten Ausführungsbeispiel
wird ein zweites Signal von dem Echoauslöscher zu dem Rauschunterdrücker geliefert,
welches anzeigt, ob irgendwelches Echo tatsächlich bei dem Eingang des Echoauslöschers vorhanden
ist. Wie in 4 gezeigt ist, wird das zweite
Signal als „Echo
anwesend?" bezeichnet,
und wird erlauben, dass Hintergrundrauschabschätzungen durchgeführt werden,
wenn kein Echo bei dem Eingang des Echoauslöschers vorhanden ist, auch
wenn das Zustandsinformationssignal anderenfalls die Aktualisierung
deaktivieren würde. Dieses
Ausführungsbeispiel
ist notwendig, wenn es wünschenswert
ist, die Hintergrundrauschabschätzung
während
des Zustands der Sprache nur am entfernten Ende zu aktualisieren, wenn
der Sprecher am entfernten Ende kein Echo auf das Übertragungssignal
einführt.
-
In
der Basisstation wird ein adaptiver Equalizer (Filter) anstatt des
Rauschunterdrückers 38 verwendet.
Der Zweck des adaptiven Filters ist es, die Sprache am nahen Ende
derart zu verändern,
dass die Frequenzverschlechterung in der Übertragung von dem Sprecher
am nahen Ende zu demjenigen am entfernten Ende kompensiert wird.
Die Koeffizienten des adaptiven Filters werden während Perioden der Sprache
nur am nahen Ende aktualisiert. Die Zustandsinformation von dem
Echoauslöscher 10 kann zum
Aktivieren dieser Aktualisierung verwendet werden, wenn er Sprache
nur am nahen Ende detektiert.
-
Die
Zustandsbestimmungsinformation, welche durch den Echoauslöscher 10 geliefert
wird, wird auch zum Steuern des Tondetektors 34 verwendet. Wie
in 5 gezeigt ist, besteht der Tondetektor 34 aus
einem funktionalen Block, dem DTMF-Tondetektor 70. In dem
exemplarischen Ausführungsbeispiel werden
PCM-codierte Daten durch den DTMF Tondetektor 70 mit 64
kbps empfangen, wenn er alle 105 Datenrahmen betrieben wird. Der
DTMF-Tondetektor 70 verwendet
den Goertzel-Algorithmus mit Frequenz- und Versatztests, welche
in der AT&T Anwendungsnote
spezifiziert sind, welche „Dual-Tone
Multifrequency Receiver Using the WE DSP 16 Digital Signal
Processor", benannt
ist, um zu bestimmen, ob DTMF-Töne
vorhanden sind oder nicht. Der Goertzel-Algorithmus und die AT&T Anwendungsnote
sind beide dem Fachmann gut bekannt. Wenn DTMF-Töne detektiert werden, wird
ein Signal durch den DTMF-Tondetektor 70 zu der Tx-Stummschaltung 42 gesendet,
welches die Tx-Stummschaltung 42 anweist, die DTMF-Töne durch
synthetisiertes Rauschen zu ersetzen. Die PCM-Daten werden dann
unverändert
zu dem Rauschunterdrücker 38 auch
dann gesendet, wenn sie später
stumm geschaltet werden, und zwar aufgrund dessen, weil die Hintergrundrauschabschätzung immer
noch durch den Rauschunterdrücker 38 während Pausen
zwischen DTMF-Tönen
aktualisiert werden kann.
-
Zustandsinformation
von dem Echoauslöscher 10 wird
verwendet, um den DTMF-Tondetektor 70 zu deaktivieren,
wenn der Echoauslöscher 10 bestimmt,
dass nur Sprache am entfernten Ende auftritt, oder dass beide Sprecher
ruhig sind. Dies führt
zu gesparter Verarbeitungsleistung. Wenn der DTMF-Tondetektor 70 deaktiviert
ist, werden PCM-Daten von dem Echoauslöscher 10 nicht verändert, und
zu dem Rauschunterdrücker 38 geliefert.
-
In
einem zweiten Ausführungsbeispiel
wird Zustandsinformation von dem Echoauslöscher 10 verwendet,
um den Tondetektor 70 zu aktivieren, wenn der Echoauslöscher 10 bestimmt,
dass nur Sprache am nahen Ende auftritt. Für alle anderen Sprachzustände würde der
Tondetektor 70 deaktiviert werden.
-
Das
Zustandsbestimmungssignal von dem Echoauslöscher 10 wird auch
verwendet, um die Tx-Stummschaltung 42 zu steuern. Wie
in 6 gezeigt ist, werden PCM-Daten durch den Schalter 76 empfangen.
Wenn der Echoauslöscher 10 nur
Sprache am entfernten Ende detektiert, wird ein Signal zu dem Schalter 76 gesendet,
welches PCM-Daten durch synthetisiertes Rauschen von dem Generator 74 für synthetisiertes
Rauschen 74 ersetzt. Der Generator 74 für synthetisiertes
Rauschen verwendet LPC-Parameter und Lautstärkeninformation von dem Vocoder-Codierer 44 zum
Anpassen der spektralen Charakteristika des tatsächlichen Hintergrundrauschens.
Eine Diskussion über
die LPC-Parameter und die Lautstärkensteuerungsinformation
wird hierin später
gegeben. Wenn keine Stummschaltung auftritt, wird die Tx-Stummschaltfunktion
umgangen, was erlaubt, das PCM-Daten zu dem Vocoder-Codierer 44 unverändert gesendet
werden.
-
Die
Zustandsbestimmungsfunktion des Echoauslöschers 10 wird auch
verwendet, um den Vocoder-Codierer 44 zu steuern. Ein funktionales Blockdiagramm
des Vocoder-Codierers 44 ist in 7 gezeigt.
PCM-Daten von der Tx-Stummschaltung 42 werden zu dem Sprachaktivitätsdetektor 80 und
dem Schwellenwert-Erzeuger 78 geliefert. Der Sprachaktivitätsdetektor 80 berechnet
den Betrag von Sprachaktivität
auf dem PCM-Datensignal. Wenn der Sprecher am nahen Ende spricht,
ist die Sprachaktivität
relativ hoch. Während
Perioden von Ruhe am nahen Ende oder kurzen Pausen zwischen Wörtern, ist
die Sprachaktivität
relativ niedrig. Der Schwellenwerterzeuger 78 berechnet
drei Schwellenwertpegel basierend auf dem Hintergrundrauschpegel
der Rausch unterdrückten
PCM-Daten. Die Schwellenwertpegel werden aktualisiert, wann immer der
Sprachaktivitätsdetektor
einen minimalen Pegel von Sprecheraktivität bestimmt. Wenn jedoch die
Zustandsbestimmung von dem Echoauslöscher 10 anzeigt,
dass der Sprechzustand nur Sprache am nahen Ende ist, wird ein Zustandsbestimmungssignal von
dem Echoauslöscher 10 zu
dem Schwellenwerterzeuger 78 geliefert, welcher die Hintergrundrauschaktualisierung
deaktiviert. Es ist notwendig, eine Hintergrundrauschaktualisierung
in dieser Situation zu verhindern, weil wenn der Sprecher am nahen Ende
ruhig ist, synthetisiertes Rauschen das tatsächliche Datensignal in der
Tx-Stummschaltung 42 ersetzt, wie oben stehend diskutiert
wurde. Es ist nicht wünschenswert,
dass Hintergrundrauschabschätzsignal
basierend auf synthetisiertem Rauschen zu aktualisieren.
-
In
einem zweiten Ausführungsbeispiel
liefert der Echoauslöscher 10 ein
Aktivierungssignal, welches den Schwellenwerterzeuger 78 aktiviert,
und zwar zum Durchführen
von Hintergrundrauschabschätzungen,
wenn der Sprechzustand derart bestimmt wird, dass beide Sprecher
ruhig sind. In diesem Ausführungsbeispiel
werden keine Hintergrundrauschaktualisierungen durchgeführt, bis
das Aktivierungssignal durch den Echoauslöscher 10 geliefert
wird.
-
Die
drei berechneten Schwellenwerte, welche oben stehend diskutiert
wurden, werden zu dem Schwellenwertvergleicher 82 gesendet,
wo sie die Basis für
die Ratencodierungsendscheidung bilden. Der Sprachaktivitätspegel
wird mit diesen Schwellenwerten auf einer Rahmen-um-Rahmen-Basis
verglichen. In dem exemplarischen Ausführungsbeispiel beinhaltet jeder
Rahmen 160 Samples, oder 20 msec von Daten. Wenn die Sprachaktivitätsenergie
den höchsten
Schwellenwert während
irgendeinem Rahmen von PCM-Daten übersteigt, wird es bestimmt, dass
der Sprecher am nahen Ende spricht, und dass der Rahmen durch den
mux 84 multiplexiert und mit voller Rate unter Verwendung
von CELP 86 codiert wird. Wenn die Sprachaktivitätsenergie
während
irgendeinem Rahmen geringer ist als der niedrigste Schwellenwert,
wird dieser Rahmen durch den mux 84 multiplexiert und mit
einem Achtel der Rate unter Verwendung von CELP 92 codiert.
Wenn die Sprachaktivitätsenergie
während
irgendeinem Rahmen zwischen den höchsten Schwellenwert und den
niedrigsten Schwellenwert fällt,
wird der Rahmen mit einer Rate von entweder ein Halb oder ein Viertel
unter Verwendung von CELP 86 und CELP 88 jeweils
codiert. Die Ausgabe von jedem der CELP-Verarbeitungsblöcke 86–92 werden
zu dem Nachverarbeitungselement 94 geliefert, wo sie kombiniert
werden, um ein veränderliches
Datenratensignal zwischen 1,2 kbps und 9,6 kbps in dem exemplarischen
Ausführungsbeispiel
zu erzeugen. Die Ausgabe des Nachverarbeitungselements 94 wird
zu dem Steuerungsmikroprozessor (nicht gezeigt) gesendet.
-
Die
vorher stehende Beschreibung der bevorzugten Ausführungsbeispiele
wird geliefert, um jedem Fachmann zu ermöglichen, die vorliegende Erfindung
auszuführen
oder zu benutzen. Die verschiedenen Modifikationen zu diesen Ausführungsbeispielen
werden dem Fachmann offensichtlich sein, und die hierin definierten
allgemeinen Prinzipien können auf
andere Ausführungsbeispiele
ohne die Verwendung der erfinderischen Fähigkeit angewandt werden. Somit
ist es nicht beabsichtigt, die vorliegende Erfindung auf die hierin
gezeigten Ausführungsbeispiele
einzuschränken,
sondern ihr soll der weiteste Umfang, wie durch die Ansprüche definiert,
zugestanden werden.