DE19935808A1

DE19935808A1 - Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit

Info

Publication number: DE19935808A1
Application number: DE19935808A
Authority: DE
Inventors: Ulf Lindgren; Mohan Misra; John Philipsson
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1999-07-29
Filing date: 1999-07-29
Publication date: 2001-02-08
Also published as: JP2003506924A; EP1208689B1; CN1451225A; DE60023515D1; AU6160800A; WO2001010102A2; WO2001010102A3; MY133285A; US6597787B1; EP1208689A2; ATE308201T1

Abstract

Eine Echounterdrückungseinrichtung (ECD) umfaßt einen Echokompensator (EC) mit einer Übertragungsfunktions-Abschätzungseinrichtung (EST, H) und einen Subtrahierer (ADD) und eine Restecho-Unterdrückungseinrichtung (G), (ADD2). Die Restecho-Unterdrückungseinrichtung (G) umfaßt ein Restechobild (G) mit einer einstellbaren Filterfunktion (g). Diese Filterfunktion (g) kann dafür ausgelegt werden, um von dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) entweder die spektralen Eigenschaften zu entfernen, die sich auf das Empfangssignal (RFE) beziehen, und/oder in dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) einen Hintergrundsignal-Spektralinhalt hervorzuheben, der sich auf das Sendesignal (TNE) bezieht, das von einer Sendeeinheit (MC, TCRT) erzeugt wird. Eine Rauscherzeugungseinrichtung (NGM') kann an dem Ausgang des adaptiven Filters (G) vorgesehen sein, um vor einer Sprachcodierung in einem Sprachcodierer (COD) einen Rauschprozeß in das Filterausgangssignal (TNE') zu injizieren. Der Rauschprozeß maskiert in dem Filterausgangssignal einen spektralen Inhalt, der sich auf das Empfangssignal (RFE) bezieht. Die Echounterdrückungseinrichtung (ECD) gemäß der vorliegenden Erfindung stellt den Vorteil einer verbesserten Restechounterdrückung bereit, bei der keine Notwendigkeit besteht, irgendwelche Codewörter zu ändern oder den Echokompensator (EC) zu überbrücken.

Description

GEBIET DER ERFINDUNG

Die Erfindung betrifft eine Echounterdrückungseinrichtung zum Unterdrücken von Echos, die durch eine Kopplung eines Empfangssignals, das von einer Empfangseinheit einer Sender/Empfänger-Einheit eines Telekommunikationssystems empfangen wird, zu einer Sendeeinheit derr Sender/Empfänger- Einheit verursacht wird. Insbesondere beseitigt die Erfindung Echos, die in dem Sendepfad der Sender/Empfänger-Einheit als Folge einer akustischen Kopplung zwischen einem Lautsprecher der Empfangseinheit zu einem Mikrofon der Sendeeinheit eingeleitet werden.

Insbesondere ist die Echounterdrückungseinrichtung dafür vorgesehen, um sogenannte Restechos in dem Sendepfad zu beseitigen, die in dem Ausgang eines herkömmlichen Echokompensators verbleiben, nachdem eine Haupt- Echounterdrückung ausgeführt worden ist.

HINTERGRUND DER ERFINDUNG

Fig. 1 zeigt in Verbindung mit der Fig. 2-1 ein Blockschaltbild eines herkömmlichen Echokompensators EC einer Sender/Empfänger-Einheit TRU eines Telekommunikationssystems TELE. Über eine Antenne ANT und einen Antennenschalter SW wird ein Signal RFE''' eingegeben und von einer Empfangseinheit RX verarbeitet. Eine Empfänger- Schaltungsanordnung RCRT und ein Decoder DECOD enthalten die Hochfrequenz- und Niederfrequenz-Schaltungen zum Bereitstellen eines Empfangssignals RFE an einem Lautsprecher SP über einen D/A-Wandler und an dem Echokompensator EC. In dem Niederfrequenzpfad der Empfangseinheit RX setzt der Sprachdecoder DECOD Sprache aus der Information, die in dem Signal RFE" enthalten ist, wieder zusammen (siehe Fig. 1). Diese erneute Zusammensetzung von Sprache wird mit näheren Einzelheiten unter Bezugnahme auf die Fig. 4 erläutert, die ein schematisches Blockschaltbild des Sprachdecoders DECOD zeigt. Nachstehend wird das Signal RFE, das von einer Sender/Empfänger-Einheit eines fernen Endes empfangen wird, auch als das "Signal des fernen Endes oder Far End-Signal" bezeichnet, wohingegen das Signal TFE, das von der Sender/Empfänger-Einheit des nahen Endes an der Sender/Empfänger-Einheit des fernen Endes bereitgestellt wird, auch als das "gesendete Signal des nahen Endes oder Near End-Signal" bezeichnet wird.

Wie insbesondere schematisch in Fig. 2-1 gezeigt, wird das Far End-Signal RFE von dem Lautsprecher SP der Sender/Empfänger-Einheit TRU ausgestrahlt und αkustisch mit der Sendeeinheit TR, insbesondere mit dem Mikrofon MC davon, gekoppelt. Auch andere Kopplungseffekte sind möglich, d. h. über eine parasitäre elektrische Kopplung zwischen den Empfangs- und Sendeeinheiten RX, TR. Somit bilden das von dem Lautsprecher SP ausgestrahlte Far End-Signal zusammen mit dem Mikrofon MC ein System einer geschlossenen Schleife, was bewirkt, daß das Far End-Signal RFE an die Sender/Empfänger- Einheit des fernen Endes (Far End-Sender/Empfänger-Einheit) zurückgesendet wird.

In den meisten Telekommunikationssystemen TELE, insbesondere in einem Globalsystem für Mobilkommunikationen (Global System for Mobile Communication GSM), wird das gesendete Signal TNE', TFE verzögert werden, so daß der Benutzer einer Far End-Sender/Empfänger-Einheit dies als ein Echo wahrnehmen wird. In diesem Zusammenhang sei darauf hingewiesen, daß die hier offenbarte technische Lehre nicht besonders auf ein Mobilfunk-Kommunikationssystem beschränkt ist, sondern auch auf andere Kommunikationssysteme angewendet werden kann, bei denen zwei Sender/Empfänger-Einheiten Sprache senden und empfangen. Deshalb ist die Funkübertragung über eine Antenne ANT nur ein Beispiel von derartigen Telekommunikationssystemen.

Aufgrund des akustischen und/oder elektrischen Kopplungseffekts wird ein Teil des Far End-Signals immer in dem Sendepfad vorhanden sein, und zwar unabhängig davon, ob der Benutzer der Sender/Empfänger-Einheit des nahen Endes (der Near End-Sender/Empfänger-Einheit) tatsächlich in das Mikrofon MC spricht oder nicht. Dieser Aspekt bezüglich der Tatsache, ob Sprache vorhanden ist oder nicht, wird nachstehend noch mit näheren Einzelheiten untersucht.

STAND DER TECHNIK I RESTECHO-KOMPENSATION

Um das Far End-Signal, das an die Far End-Sender/Empfänger- Einheit gesendet wird, zu beseitigen, wird eine Echounterdrückungseinrichtung EC verwendet, die eine Übertragungsfunktions-Abschätzungseinrichtung EST, H und einen Subtrahierer ADD umfaßt, wie in Fig. 2-1 gezeigt. Grundlegend ist die Übertragungsfunktions- Abschätzungseinrichtung EST, H dafür ausgelegt, um die Kopplungsübertragungsfunktion H von der Empfangseinheit RC an die Sendeeinheit TR abzuschätzen und das Empfangssignal RFE mit der abgeschätzten Kopplungsübertragungsfunktion H zu verarbeiten. Wenn die akustische Kopplung betrachtet wird, dann schätzt die Übertragungsfunktions- Abschätzungseinrichtung EST, H insbesondere die akustische Übertragungsfunktion von dem Lautsprecher SP zu dem Mikrofon MC ab. Das Filterausgangssignal RFE' wird durch den Subtrahierer ADD von dem Übertragungssignal TNE subtrahiert, das ein Echosignal aufgrund der akustischen und/oder elektrischen Kopplung des empfangenen Signals RFE zu der Sendeeinheit umfaßt. Im idealen Fall sollte die Verwendung der Übertragungsfunktions-Abschätzungseinrichtung und des Subtrahierers ausreichend sein, um das Auftreten des Empfangssignals RFE in dem Ausgangssignal TNE' von dem Echokompensator EC vollständig zu beseitigen.

Jedoch kann in der Praxis die Haupt- oder Grundechokompensation durch Verwendung der Übertragungsfunktions-Abschätzungseinrichtung und des Subtrahierers das zurückgehende Signal nicht vollständig beseitigen. Der Grund dafür besteht darin, daß die Übertragungsfunktions-Abschätzungseinrichtung H, EST die CRC Übertragungsfunktion, insbesondere die Übertragungsfunktion der akustischen Kopplung zwischen dem Lautsprecher SP und dem Mikrofon MC, nicht perfekt abschätzen kann. Demzufolge werden einige Teile des empfangenen Far End-Signals RFE noch in dem Signal TNE', das an die Far End-Sender/Empfänger-Einheit gesendet wird, vorhanden sein. In der Far End- Sender/Empfänger-Einheit werden derartige verbleibende Teile noch als ein Echo wahrgenommen. Da eine Hauptechokompensation bereits einige der Hauptechos entfernt hat, werden die verbleibenden Teile des Far End-Signals als "Restechos" bezeichnet. Deshalb muß eine zusätzliche Signalverarbeitung auf das Restsignal TNE' angewendet werden und im Gebiet der herkömmlichen Echokompensation wird diese zusätzliche Verarbeitung als "Restechokompensation" bezeichnet. Somit wird in einigen herkömmlichen Echokompensationseinrichtungen eine zusätzliche Restecho-Unterdrückungseinrichtung verwendet, um Restechos in dem Ausgangssignal TNE' des Subtrahierers zu unterdrücken. Dies wird nachstehend unter Bezugnahme auf einige Beispiele des veröffentlichten Standes der Technik erläutert.

STAND DER TECHNIK II GSM SPRACH-CODIERUNG/DECODIERUNG

In modernen Mobilkommunikationssystemen, d. h. GSM, wird das Sprachsignal TNE' in Fig. 1 nicht als eine Darstellung der Sprachsignalamplituden übertragen. Anstelle davon wird das Sprachsignal codiert und in GSM basiert die Sprachcodierung auf einem Modell zur Spracherzeugung. Herkömmlich verwendete Verfahren zum Modellieren von Sprache sind in L. R. Rabiner und R. W. Schäfer, Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, Nj, 1978, beschrieben. Insbesondere wird bei der Signalverarbeitung oft ein Modell verwendet, daß das Anregungssignal und den Stimmtrakt des Sprechers modelliert. Dieses Modell wird mit zwei Typen von Anregungssignalen und einem Filter definiert. Die zwei Anregungssignale sind:

1. eine Impulsfolge, die für stimmhafte Sprache verwendet wird, z. B. für den Buchstaben "a";
2. ein weißes Rauschen, das für stimmlose Sprachen verwendet wird, z. B. für den Buchstaben "s".

Das verwendete Filter modelliert den Stimmtrakt und die Verwendung eines autoregressiven-(AutoRegressive AR)-Filters ist angebracht. Durch Verwendung des Sprachmodells ist es möglich, eine künstliche Sprache zu erzeugen. Tatsächlich wird sich die Sprache aufgrund der Anregungssignale unnatürlich anhören. Wenn jedoch die Anregung sorgfältig gewählt wird, kann eine Sprache erzeugt werden, die sich natürlicher anhört.

Typischerweise wird eine Sprachmodellierung in Sprachcodierern verwendet, z. B. in dem Vollraten-(Full Rate FR)-Codierer in GSM. Der FR Codierer ist als ein regulärer Impulsanregungs-Langzeitvorhersage-(Regular Pulse Excitation- Long Term Prediction RPE-LTP)-Codierer bekannt und ist zum Beispiel in der GSM Spezifikation GSM 06.10 beschrieben. Eine vereinfachte Beschreibung des SR Codierers, wie in Fig. 3 gezeigt, ist folgendermaßen:

Ein Rahmen von Eingangsabtastwerten TNE', wobei in GSM ein Rahmen aus 160 Abtastwerten besteht, wird an dem Codierereingang bereitgestellt, z. B. in der Form des Signals TNE', das von dem Echokompensator EC ausgegeben wird. Der Eingang wird verwendet, um ein AR Modell zu bestimmen, was in Fig. 3 mit dem Bezugszeichen COD-AR bezeichnet ist. Dies wird durch Ausnutzen der Toeplitz-Struktur der TNE' Korrelationsmatrix erreicht, d. h. unter Verwendung einer Schür-Rekursion, wie in J. G. Proakis und D. G. Manolakis: Digital signal processing: principles, algorithms and applications, Macmillan, publishing company, New York, 2nd edition, 1992 beschrieben ist. Diese Rekursion führt zu einem Satz von Koeffizienten, die als Reflexionskoeffizienten bezeichnet werden und in einer Gitterfilter-Realisation verwendet werden können. Auf Grundlage der ermittelten Koeffizienten wird der eingegebene Rahmen durch die Umkehrung des AR Modells, (die als eine Gitter-Struktur implementiert werden kann) gefiltert, was im idealen Fall das Anregungssignal erzeugen würde, das als das Restsignal ausgegeben wird, das in Fig. 3 mit RES bezeichnet ist (es sei darauf hingewiesen, daß hier das Restsignal nicht äquivalent zu dem Restecho ist). Das heißt, die spektralen Eigenschaften des Eingangssignals sind abgeflacht worden.

Es ist klar, daß das AR Filter, das zusammen mit dem Restsignal berechnet wird, verwendet werden kann, um das ursprüngliche Eingangssignal durch eine Filterung wiederherzustellen. Jedoch würde die Übertragung von Parametern und dem Restsignal nicht einem guten Kompressionsverhältnis entsprechen. Zur Erhöhung des Kompressionsverhältnisses nutzt der GSM FR Codierer das Restsignal aus, um eine Langzeitvorhersage (Long Term Prediction) in einer Einrichtung LTP der Fig. 3 zu berechnen, was im wesentlichen einem Maß der periodischen Natur des Restsignals entspricht, z. B. einer Frequenz, die sich auf die Vibration der Stimmbänder bezieht. Auf Grundlage der Langzeitvorhersage LTP wird das Restsignal um einen Faktor 3 in einer Einrichtung DD (Dezimierungseinrichtung) in Fig. 3 unterabgetastet (neu abgetastet).

Das erneut abgetastete Restsignal EXS, die AR Filterkoeffizienten LARP und die Verstärkungskoeffizienten werden in einem Block, der als ein Sprachrahmen (260 Bits) bezeichnet wird, quantisiert und organisiert. Dies wird in Fig. 3 durch eine Rahmenverpackungseinrichtung FPD ausgeführt. Einige wenige andere Koeffizienten sind auch in dem Sprachrahmen enthalten, diese werden der Einfachheit halber weggelassen, wie in GSM 06.10 beschrieben.

Am Empfängerende wird in Fig. 4 der Sprachrahmen in der Rahmenauspackeinrichtung FUD ausgepackt und das Restsignal wird in der Anregungsrekonstruktionseinrichtung ERD heraufabgetastet und als ein Anregungssignal EX an dem Stimmtraktfilter VTF (das ein AR Filter ist) verwendet.

Die obige Beschreibung ist nur eine Vereinfachung des GSM-FR Sprachcodierers. Keinerlei Anstrengungen sind dahingehend gemacht worden, welche Formate die Filterkoeffizienten aufweisen. Jedoch werden die Filterparameter groß zusammengefaßt als Log-Bereichs Verhältnis-(Log Area Ratio LAR) Parameter übertragen, die mit LARP in Fig. 3 dargestellt sind, und nicht als ein Reflektionskoeffizient oder die Reflektionskoeffizienten, die in dem Nennerpolynom des AR Filters auftreten.

Wie in Fig. 3 gezeigt, umfaßt der Sprachcodierer COD den Codierungsblock SPECOD und einen Sprachaktivitätsdetektor COD-VAD. Wie voranstehend erläutert, wird der Stimmtrakt durch ein autoregressives (AR)-Modell in einer COD-AR Einheit modelliert. Somit werden die Parameter LARP des AR Modells (d. h. des Stimmtraktfilters) und Information EXS bezüglich des Anregungssignals an die Far End-Transceivereinheit gesendet.

Wie in Fig. 1 gezeigt, werden nach dem Empfang von Rahmen des Empfangssignals REF" mit den AR Parametern LARP und der Anregungssignal-Information EXS von einer Antenne ANT und einem Antennenschalter SW und einer Empfangsschaltung RCRT die empfangenen Parameter und die empfangene Information verwendet, um eine Sprachsynthese in einem Sprachdecoder DECOD auszuführen, der in Fig. 4 dargestellt ist. Wie erläutert, wird die Übertragung der Parameter und der Information des Sprachmodells auf einer Rahmen-Basis ausgeführt, was - unabhängig von dem verwendeten Sprachmodell und der Übertragungsgeschwindigkeit - eine bestimmte Bandbreite (Anzahl von Bits pro Sekunde) erfordert, die von der Sendeeinheit TR bereitgestellt werden muß. Diese erforderliche Bandbreite kann relativ groß sein und kann somit bewirken, daß die Ressourcen der Sendeeinheit TR zu einem großen Ausmaß während der Übertragung von Sprache belegt sind.

Jedoch gibt es in einem typischen Telefonanruf auch Sprachpausen, bei denen der Sprecher am nahen Ende (Near End- Sprecher) nicht in das Mikrofon MC hineinspricht, d. h. bei denen keine Sprache in dem Near End-Sendesignal TNE vorhanden ist. In diesem Fall muß der Sprachcodierer COD nur Hintergrundrauschen codieren. Die Codierung von relativ irrelevantem Hintergrundrauschen mit der gleichen Bandbreite wie diejenige, die zum Codieren der Sprache verwendet wird, würde eine ziemliche Verschwendung von Ressourcen in der Sendeeinheit TR sein. Deshalb gehen moderne Sprachcodierer COD in den Sprachpausen oft in einen Modus über, der als diskontinuierlicher Übertragungsmodus (Discontinuos Transmission Mode DTX) bezeichnet wird und der von einem Sprachaktivitätsdetektor (Voice Activity Detector VAD) COD- VAD, der mit dem Sprachcodierer COD verbunden ist. In dem DTX Betriebsmodus codiert der Sprachcodierer das Hintergrundrauschen unter Verwendung der AR Modell- Einrichtung COD-AR innerhalb des Codiererblocks. Jedoch werden in dem DTX Modus die codierten Parameter in der Rahmenverpackungseinrichtung SID in einen speziellen Rahmen gepackt, der als Ruhe-Beschreiber-(Silence Descriptor SID) Rahmen bezeichnet wird. Die Einheit TCRT, die für das GSM Protokoll verantwortlich ist, kann bestimmen, wann und wo (in der TDMA Struktur) der SID Rahmen über die Antenne ANT gesendet wird. Durch Verwendung des DTX Modus kann eine niedrigere Bitrate verwendet werden.

Genauer gesagt wird der VAD in GSM in GSM 06.32 definiert und bestimmt auf Grundlage des eingegebenen Rahmens in dem Signal TNE', ob ein Rahmen Sprache enthält oder nicht. Der in GSM verwendete VAD überwacht die Übertragungs- Sprachcodiererparameter SPPAR, die sich auf TNE beziehen (genauer gesagt auf das Übertragungssignal TNE', das von dem Echokompensator EC ausgegeben wird), um Sprachpausen zu erfassen. Der VAD setzt ein sogenanntes VAD Flag (eine VAD Marke) FSLG in Fig. 3 auf 1 oder Null, um so Sprache bzw. keine Sprach anzuzeigen. Diese Sprachaktivitätserfassung basiert auf einem adaptivem Energieschwellwert, d. h., die Sprachaktivitätserfassung hängt von der Energie des beobachteten Signals TNE' ab. Wenn zum Beispiel das dem Sprachaktivitätsdetektor VAD eingegebene Signal unter einen vorgegebenen Schwellwert fällt, dann wird das eingegebene Signal als keine Sprache markiert. Um ein Abschneiden von Sprache mit geringer Leistung zu vermeiden, kann eine zusätzliche Verzögerung verwendet werden (die als die Überhang-Zeit oder Hangover-Zeit bezeichnet wird), bevor das VAD Flag gesetzt wird. Die Verwendung des SID Rahmens ist in den Standardprotokollen von GSM eingebaut und definiert.

Zusätzlich zu der Sprachaktivitätsdetektion schätzt der Sprachaktivitätsdetektor COD-VAD die Periodizität des Eingangssignals (TNE oder TNE') ab, was ein zusätzlicher Entscheidungsfaktor für das Setzen des VAD Flags VFLG sein wird.

Vorausgesetzt, daß der Eingangsrahmen des Signals TNE' Sprache nicht enthält, wie von der jeweiligen Einstellung des Flags VFLG angezeigt, wird der Sprachcodierer den speziellen Silence-Descriptor-SID-Rahmen in der Rahmenverpackungseinrichtung FPD bilden. Der SID Rahmen besteht nur aus den Filterkoeffizienten LARP, wie von der Einrichtung COD-AR bestimmt.

Auf den Empfang und einer Erfassung eines SID-Rahmens auf der Empfangsseite in dem Decoder DECOD Fig. 4 wird eine Pseudorauschgenerator-Einrichtung PNG als Eingang an dem Stimmtraktfilter VTF (Position B in Fig. 4) verwendet. Der Ausgang auf der Empfängerseite wird als Komfortrauschen bezeichnet und soll das Hintergrundrauschen auf der Senderseite simulieren.

Demzufolge wird für den Fall eines gesetzten VAD Flags VFLG ein SID Rahmen gebildet, in dem die AR Parameter von der Einrichtung COD-AR, d. h. die Stimmtraktparameter, die einzigen gültigen Daten sind. Offensichtlich arbeitet der Sprachcodierer immer auf jedem eingegebenen Rahmen von dem Signal TNE' und erzeugt immer einen Ausgangsrahmen TFE' (Sprache oder SID Rahmen). Für den Fall, daß die Ausgabe des Sprachcodierers ein SID Rahmen ist, erlaubt das GSM Protokoll jedoch eine verringerte Übertragungsrate von nachfolgenden SID Rahmen in dem Signal TSE. Das heißt, die Sendeeinheit TCRT der Transceivereinheit TRU muß nicht die Parameter und die Information bei der gleichen Bitrate wie derjenigen senden, die während einer Sprachcodierung verwendet wird. Demzufolge kann die Sendeeinheit TCRT Leistung einsparen und die Batterielebensdauer der Transceivereinheit TRU verlängern.

Wie erläutert, wird der SID Rahmen an die Far End- Transceivereinheit TRU gesendet und der Sprachdecoder DECOD packt in der Rahmenauspackeinrichtung FUD in Fig. 4 den SID Rahmen als ein sogenanntes Comfortrauschen aus. Deshalb wird auf der empfängerseitigen TRU nur das AR Modell VTF von einem weißen Rauschen angesteuert, das von einem Pseudorausch- (Pseudo Noise PN)-Generator PNG erzeugt wird, der sich in der Empfangseinheit RX in Fig. 1 befindet, zum Beispiel in dem Sprachdecoder DECOD, wie in Fig. 4 gezeigt. Wenn die Kommunikation in einem Telefon eines öffentlichen Telefonvermittlungsnetzes (Public Switched Telephone Network PSTN) endet, dann kann der Sprachcodierer COD, der Decoder DECOD und der Pseudorauschgenerator PNG in dem Netz angeordnet sein.

STAND DER TECHNIK III/IV ERZEUGUNG VON HINTERGRUNDRAUSCHEN

Anstelle lediglich SID Rahmen im DTX Modus zu erzeugen, wie voranstehend erläutert, ist es auch möglich, wie in den Fig. 2-2 und 2-3 gezeigt, den Sprachcodierer COD derart zu manipulieren, daß er Codes für das Hintergrundrauschen nur dann übertragen wird, wenn keine Sprache vorhanden ist. Grundlegend kann dies mit zwei Vorgehensweisen durchgeführt werden:

A) Verwendung eines ausgegebenen Rahmens von dem Sprachcodierer COD und Umwandeln von diesen in einen SID Rahmen (Fig. 2-3); und
B) Alternativ wird an dem Eingang des Sprachcodierers COD ein synthetisches Hintergrundrauschen erzeugt, so daß der Sprachcodierer dieses künstliche Rauschen codieren wird. Wenn eine DTX Funktionalität existiert, wird der Codierer COD wahrscheinlich in den DTX Modus übergehen und beginnen, SID Rahmen zu erzeugen (Fig. 2-2).

Bezüglich einer Restechounterdrückung können die zwei Alternativen I, II verwendet werden, um Restechos zu unterdrücken und nachstehend wird die Alternative I und II als Restechounterdrückungsverfahren des Typs I bzw. des Typs II bezeichnet.

Typ I: Umwandlung in einen SID Rahmen (Fig. 2-3)

Selbst wenn tatsächlich keine Sprache auf der Near End-Seite erzeugt wird, gibt es noch die Möglichkeit, daß ein Echo, insbesondere ein Restecho, in dem Eingangssignal an dem Sprachcodierer COD vorhanden ist. Die Tatsache, daß das Restecho noch in dem Eingangssignal an dem Sprachcodierer vorhanden ist, kann für die Erzeugung von Hintergrundrauschübertragungscodes ausgenutzt werden. Das heißt, die Verwendung eines Echounterdrückungsverfahrens des Typs I wird die Sendeeinheit TR in einen BTX Betriebsmodus zu Zeiten ohne Near-End-Sprache bringen und das Restecho sowie das Hintergrundrauschsignal werden in dem Sprachcodierer verwendet, um einen Sprachrahmen zu bilden.

Im DTX Modus zeigt der VAD über das VAD Flag VFLG an, daß nur ein Far End-Empfangssignal in dem Sendesignal TNE vorhanden ist und demzufolge wird der Sprachrahmen in einen SID Rahmen in einer SID-Rahmenherstellungseinrichtung MSID der MSIDM Einrichtung umgewandelt, die in Fig. 1 (in gestrichelten Linien) und in Fig. 2-3 dargestellt ist. Die Erzeugung von Übertragungscodes für das Hintergrundrauschen auf Grundlage des Restechos (d. h. der Reste des empfangenen und akustisch gekoppelten Far End-Signals) ist in der Tat möglich, da der sprektrale Einfluß des Restechos als vernachlässigbar angesehen werden kann.

Wenn auf der Far End-Empfangsseite die Far End-Tansceiver- Einheit Codes für das Hintergrundrauschen empfängt, die auf Grundlage der Restechos in der Near End-Sendeeinheit TR gebildet werden, dann wird das Anregungssignal EX, das zum Bilden des Near End-Signals an dem Terminal der Far End- Transceivereinheit im DTX Betriebsmodus verwendet wird, noch ein weißes Rauschen sein, das von einem Pseudozufallsrauschgenerator PNG (siehe Fig. 4) erzeugt wird. Deshalb wird die Far-End-Transceivereinheit tatsächlich kein Restecho, sondern Rauschen erzeugen und somit wird der Far End-Benutzer das empfangene Signal im DTX Betriebsmodus als Rauschen und nicht als Restecho wahrnehmen.

Wie in Fig. 4 gezeigt, basiert die Sprachsynthese, die in dem Sprachdecoder DECOD ausgeführt wird, auf zwei Typen von Anregungssignalen, jedoch wird in dem DTX Betriebsmodus nur ein Anregungssignal verwendet, d. h. der Schalter in Fig. 4 wird auf die Position B durch das Schaltsignal FT gesteuert, das von der Rahmenauspackeinrichtung FUD ausgegeben wird. Dieses Anregungssignal hat keinerlei Zusammenhang mit dem Sprachcodierungs- oder Hintergrundrauschcodierungsprozeß, der in dem Sprachcodierer COD in der Near End-Transceivereinheit TRU ausgeführt wird.

Typ II: Erzeugung von synthetischem Hintergrundrauschen (Fig. 2-2)

Alternativ, wie in Fig. 2-2 gezeigt, ist es an Stelle einer Verwendung des Restechos in dem Sprachcodierer COD zum Bilden einer Abschätzung des Hintergrundprozesses auch möglich, eine Rauschsequenz zu erzeugen, die dem Hintergrundrauschen ähnelt, wenn keine Near End-Sprachaktivität vorhanden ist.

Wie in Fig. 1 (in gestrichelten Linien) und in Fig. 2-2 gezeigt, umfaßt die Sendeeinheit TR eine zusätzliche Rauscherzeugungseinrichtung NGM mit einem Rauschgenerator NG, der ein weißes Rauschen erzeugt und eine AR Modelleinheit AR ansteuert, eine Hintergrundabschätzungseinrichtung BEST, die die A/D gewandelte Version des Sendesignals TNE (einschließlich des Echosignals) empfängt und die Parameter des AR Modells in der AR Modelleinheit AR über ein Einstellsignal AR-PAR steuert, einen Sprachaktivitätsdetektor VAD, der das Subtrahiererausgangssignal TNE' (einschließlich des Restechos) empfängt und einen Steuerausgang kein-Sprechen (No Talk) NT an einen Schalter SW2 ausgibt, und einen weiteren Schalter SW1, der von dem zusätzlichen VAD Ausgangssignal Far End-Einzelnes-Sprechen (Far-End-Single- Talk) FEST gesteuert wird, um an den Sprachcodierer COD in einem ersten Schaltzustand B einen Ausgang von dem Echokompensator EC und in einem zweiten Schaltzustand A einen Ausgang von der AR Modelleinheit AR zu schalten. Die Einrichtugn BEST arbeitet nur für den Fall, wenn in dem Signal TNE keine Near End- und keine Far End-Sprache vorhanden ist. Für den Fall, daß NT wahr ist (Kein-Sprechen), wird deshalb das Signal TNE mit der Einrichtung BEST über den Schalter SW2 in einer geschlossenen Position verbunden, und für den Fall von NT unwahr (Sprechen), ist der Schalter SW2 offen und die Einrichtung BEST arbeitet nicht. Der Sprachaktivitätsdetektor VAD kann in dem Codierer COD eingebaut sein, wie in Fig. 3 gezeigt, oder er kann außerhalb des Codierers COD bereitgestellt serden.

Wenn man die Einrichtungen in den Fig. 2-1, 2-2 und 2-3 in Kombination betrachtet (z. B. in Fig. 1 die gestrichelten Boxen NGM und/oder MSIDM sind vorhanden), können hier unterschiedliche Fälle in Abhängigkeit davon unterschieden werden, ob in dem Mikrofon MC eine Sprachaktivität vorhanden ist oder nicht und ob eine Kopplung des von dem Far End empfangenen Signal in das Signal TNE vorhanden ist, was ein Restecho in dem Ausgang des Echokompensators EC verursacht. Die vier Fälle sind folgendermaßen:

1. Es gibt eine Near End-Sprache sowie Hintergrundrauschen in dem Pulscodemodulations-(Pulse Code Modulation PCM) Abtastwerten in dem jeweiligen Sprach-Rahmen. Dies entspricht einer Situation einer normalen Sprache mit keinen zusätzlichen Echos.
2. Es gibt nur Hintergrundrauschen und keine Sprache ist in den PCM Abtastwerten vorhanden, d. h. der Codierer COD wird in den DTX Betriebsmodus übergehen.
3. Es gibt eine Near End-Sprachpause und ein Echo und demzufolge ist ein Restecho sowie Hintergrundrauschen in den PCM Abtastwerten vorhanden.
4. Es gibt eine Near End-Sprache, ein Restecho eines von dem Far End empfangenen Signals und Hintergrundrauschen in den PCM Abtastwerten.

Im Fall 1 wird der in Fig. 2-2 und Fig. 2-3 gezeigte Schalter SW1 in die Position B eingestellt, weil das VAD Signal SEST undwahr ist. In diesem Fall wird ein normaler Betrieb der Sendeeinheit TR vorgegeben und die Near End-Sprache und das Near End-Hintergrundrauschen werden durch den Echokompensator EC und gerade durch den Sprachcodierer COD geführt. Da das VAD Ausgangssignal NT unwahr ist (Sprechen), befindet sich der zusätzliche Schalter SW2 in Fig. 2-2 in einer offenen Position.

Im Fall 2 können die Schalter SW1 in Fig. 2-2 und Fig. 2-3 die Position A oder B einnehmen und das VAD Signal FEST ist unwahr. Vorzugsweise befinden sich die Schalter in der Position B. Das VAD Ausgangssignal MT ist unwahr und somit befindet sich in Fig. 2-2 der zusätzliche Schalter SW2 in einer geschlossenen Position. In dieser Bedingung arbeitet die Einrichtung BEST und schätzt die spektralen Eigenschaften des TNE Hintergrundsignals ab.

Im Fall 3 ist Hintergrundrauschen von dem Mikrofon MC sowie ein Restecho in dem Subtrahiererausgangssginal TNT' vorhanden. Im Fall 3 wird der Scahlter SW1 aus Fig. 2-2 und Fig. 2-3 auf die Position A eingestellt, weil das Signal FEST wahr ist. Das heißt, in Fig. 2-2 wird das Restecho nicht an den Codierer COD geführt. Jedoch wird das Signal an dem Codierer COD in Fig. 2-2 und 2-3 mit einem Signal versehen, welches das Hintergrundrauschen über die Einrichtung NGN und/oder die Einrichtung MSIDM imitiert. Es sollte jedoch darauf hingewiesen werden, daß nur im Fall 2 das AR Modell der Fig. 2-2 aktualisiert wird, möglicherweise durch Verwenden des Ausgangs TNE' von dem Echokompensator EC. In Fig. 2-3 empfängt der Codierer COD das Restecho zusammen mit dem Hintergrundrauschsignal. Da jedoch der Schalter SW1 in der Position A ist, wird der Sprachrahmen von MSID so manipuliert, daß ein SID Rahmen gebildet wird. Diesbezüglich soll verstanden werden, daß eine DTX Funktionalität von dem Protokoll unterstützt wird. Jedoch sei darauf hingewiesen, daß die Einheit MSID einen Sprachrahmen in einer Weise manipulieren kann, daß die Information, die sich auf das Anregungssignal EXS in Fig. 3 bezieht, durch eine Rauschanregung ersetzt werden kann. In dieser Weise kann ein System ohne eine DTX Funktionalität Fig. 2-3 verwenden. Das VAD Ausgangssignal NT ist nicht wahr und somit befindet sich der zusätzliche Schalter SW2 in Fig. 2-2 in einer offenen Position.

Im Fall 4 wird der Schalter SW1 der Fig. 2-2 und 2-3 auf die Position B gesteuert, da das VAD Signal FEST unwahr ist. Die Near End-Sprache wird das in dem Ausgangssignal TNE' des Echokompensators EC verbleibende Restecho maskieren.

Das heißt, wenn Sprache und außerdem das Restecho vorhanden ist, wird das Restecho maskiert werden und es besteht keine Notwendigkeit für dessen Entfernung. Das VADA-Ausgangssignal NT ist unwahr und somit befindet sich der zusätzliche Schalter SW2 in Fig. 2-2 in einer offenen Position.

Zusammengefaßt, wenn in irgendeinem der obigen Fälle 1.-4. der Schalter SW1 in der Position A ist, wird der Codierer COD Codierungsinformation (Code-Wörter) erzeugen, die abhängig von der Situation ausschließlich auf dem Hintergrundrauschen basiert oder auf dem Hintergrundrauschen, welches auch das Echo oder das Restecho enthält, basieren.

Deshalb empfängt in dem Fall der Fig. 2-2 (Typ II) der Sprachcodierer COD ein synthetisches Hintergrundrauschsignal, das von einem synthetischen Rauschgenerator NGM in der Sendeeinheit TR erzeugt wird. Wenn der Sparachodierer COD ein derartiges synthetisches Hintergrundrauschen erfaßt, wird der Sprachcodierer COD automatisch in den DTX Modus übergehen.

Einige Sprachcodierersysteme weisen eine DTX-Funktionalität nicht auf und deshalb werden sämtliche Rahmen sprach-codiert. Da jedoch keine near-end-Sprache erfaßt wird, wird der Sprachcodierer das Hintergrundtrauschen als einen Sprachrahmen codieren und auf der far-end-Seite enthält das empfangene Signal kein Restecho. Um ein Restecho zu verhindern, besteht deshalb eine Möglichkeit darin, ein synthetisches Hintergrundsignal in dem Eingang des Sprachcodierers zu verwenden, vorausgesetzt, daß keine near- end-Sprache vorhanden ist.

STAND DER TECHNIK V VERÖFFENTLICHTE DOKUMENTE

Auf die folgenden veröffentlichten Dokumente des Standes der Technik kann hinsichtlich der obigen Ausführungen Bezug genommen werden.

In dem United States Patent US 5,563,944 wird eine Echounterdrückungseinrichtung beschrieben, bei der eine zusätzliche Restecho-Unterdrückungseinrichtung stromabwärts von einer Hauptechounterdrückungseinrichtung angeordnet ist. Dieses Dokument beschreibt deshalb die Merkmale der beigefügten Ansprüche 1, 14, 19. Die Restecho- Unterdrückungseinrichtung schätzt einen Restecho-Pegel in einem Restsignal ab und erzeugt ein Schwellwertsignal mit einem Schwellwertpegel, der dem Restecho-Pegel gleicht. Ein Restecho-Unterdrücker ist vorgesehen, um einen Unterdrückungsbetrag für das Restecho auf Grundlage des Schwellwertsignals, das von der Restecho- Pegelabschätzungseinrichtung zugeführt wird, adaptiv zu steuern. Somit wird eine REstecho-Unterdrückung stromabwärts von der Hauptechounterdrückung auf Grundlage einer Schwellpegelbestimmung des Echosignals ausgeführt.

Die europäische Patentanmeldung EP 0 884 886 A2 beschreibt einen Echokompensator, der eine Mehrfachstufenverstärkung verwendet. Hier arbeitet eine Rauschunterdrückungseinrichtung als eine Art von Restfehler-Unterdrückungseinrichtung wie in dem Oberbegriff der Ansprüche 1, 14, 19. Die Rauschunterdrückungseinrichtung schätzt Signalkomponenten aufgrund des lokalen Hintergrundrauschens ab und entfernt diese Rauschkomponenten aus dem abgehenden Signal. Diese Rauschunterdrückungseinrichtung verwendet verschiedene altbekannte Rauschunterdrückungsverfahren, beispielsweise eine spektrale Subtraktion, eine Bandaufsplittungsdämpfung oder eine adaptive Filterung.

In den patent abstracts of Japan JP 63-42527 ist eine kaskadierte Echounterdrückungsanordnung offenbart. Zwischen zwei Echounterdrückungsstufen ist ein Ausgleicher (equalizer) vorgesehen, der eine Ausgleichung der Wellenformverzerrung aufgrund Leitungscharakteristiken ausführt. Ein Subtrahierer subtrahiert die ungefähre Echokomponente aus dem ausgeglichenen Empfangssignal, das von dem Ausgleicher ausgegeben wird, um eine Echokomponente zu beseitigen. Somit wird die Wellenformverzerrung ausgeglichen und die Echokomponente wird beseitigt, wenn das Sendesignal der anderen Partei an einem Empfangsterminal ausgegeben wird.

Das United States patent US 5,721,730 beschreibt eine Restechounterdrückung durch Dämpfen der Nebenband- Fehlersignale auf einer unabhängigen Basis im Ansprechen auf einen Vergleich der relativen Pegel der entsprechenden Nebenband-Sendeeingangssignale, Nebenband-Empfangssignale und Nebenband-Fehlersignale. Somit bezieht sich in diesem Echokompensator eine injizierte Rauschkomponente genauer auf das vorherrschende Rauschspektrum innerhalb des gesendeten Signals. Das United States Patent US 5,283,784 betrifft eine Restechounterdrückung durch Vergleichen von relativen Pegeln des gesendeten Eingangssignals, des empfangenen Eingangssignals und eines Fehlersignals, welches nach Entfernung eines erwarteten Echosignals von dem gesendeten Eingangssignal verbleibt. Somit wird ein Restecho aus einer Echounterdrückungsschaltung durch einen variablen Dämpfer reduziert. Es ist auch beschrieben, daß ein nicht-linearer Prozessor oder eine Zentrums-Abschneideeinrichtung (Center Clipper) irgendein Restecho entfernt, das in dem Ausgangssignal nach der Subtraktion des angenommenen Echos verbleibt und er/sie ist angeordnet, um Restechos in dem Ausgang als Folge von dem Signal des far-end-Sprechers zu entfernen und das Signal an den near-end-Sprecher ohne eine Verzerrung zu liefern. Der nicht-lineare Prozessor vermeidet eine plötzliche und wahrnehmbare Änderung in dem Ausgang des Echokompensators durch proportionales Entfernen von Restechos und nicht durch eine Operation oberhalb eines Schwellwert- Signalpegels. Der nicht-lineare Prozessor erfaßt den durchschnittlichen Hintergrundrauschpegel und injiziert proportional ein Rauschsignal in den Ausgang, um den durchschnittlichen Pegel trotz der Änderung im Betrieb des nicht-linearen Prozessors aufrechtzuhalten, die mit der Anwesenheit oder Abwesenheit eines Signals von dem near-end- Sprecher bzw. dem far-end-Sprecher auftritt.

Die United States Patente US 5,222,251 und US 5,646,991 offenbaren Echounterdrückungseinrichtungen, die auch Sprachcodierer-Eigenschaften einer Restechounterdrückung ausnutzen. Diesbezüglich weisen diese Dokumente eine gewisse Beziehung mit der voranstehend beschriebenen Fig. 2-2 auf.

Im Hinblick auf die Fig. 2-2 offenbart die US 5,222,251, daß das akustische Eche mit wenigstens einem Codewort ersetzt werden sollte, das durch eine Kommunikationseinrichtung erzeugt wird, wobei das Codewort eine Energie und einen spektralen Inhalt des Umgebungsrauschens, d. h. des Hintergrundrauschens darstellt. Jedoch offenbart dieses Patent nicht, welches Codewort gemeint ist, d. h. ob es das Codewort der PCM-Codierungsvorrichtung oder ein Codewort des GSM-Sprachcodierers, d. h. des in Fig. 3 ??? (verb?) Codierers COD ist. Die US 5,222,251 offenbart auch ein Verfahren für eine Restechounterdrückung, bei dem unterschieden wird, ob Sprache in der Sendeeinheit TR gesendet wird und ein Schwellwert berechnet wird. Wenn das akustische Echo kleiner als der erzeugte Schwellwert ist, dann wird das Codewort ersetzt. Der Schwellwert kann auch hinsichtlich der Verluste aufgrund einer AEC kompensiert werden.

Ferner offenbart die US 5,646,991 im Hinblick auf Fig. 2-2 verschiedene Rauscherzeugungseinrichtungen, um ein synthetisiertes Rauschersetzungssignal dem Ausgangssignal eines Echokompensators aufzuprägen, wenn Hintergrundrauschen in dem Sendesignal vorhanden ist. In diesem Patent ist eine spektrale Ansprecheinrichtung vorgesehen, die auf ein Abwesenheitssignal für die far-end-Sprache und ein Abwesenheitssignal für die near-end-Sprache anspricht und ein Rauschsignal von einem Ausgangssprachkanal empfängt, um gemäß einem vordefinierten spektralen Antwortformant eine spektrale Ansprechcharakteristik zu bestimmen. Eine Rauschgeneratoreinrichtung reagiert auf das Abwesenheitssignal der near-end-Sprache und des Anwesenheitssignals der far-end-Sprache, um gemäß der spektralen Ansprechcharakteristik ein synthetisiertes Rauschersetzungsignal zu erzeugen. Die Rauschgeneratoreinrichtung prägt in einer schaltbaren Weise dieses synthetisierte Rauschersetzungsignal auf den Ausgangssprachkanal auf. Gemäß einer anderen Alternative in diesem Patent spricht eine Spektralantworteinrichtung auf das Abwesenheitssignal der far-end-Sprahe und auf das Abwesenheitssignal der near-end-Sprache an, um das Rauschsignal zu empfangen, und bestimmt gemäß einem vorgegebenen spektralen Antwortformant eine spektrale Antwortcharakteristik. Eine Rauschgeneratoreinrichtung spricht auf das Abwesenheitssignal der near-end-Sprache und das Anwesenheitssignal der far-end-Sprache an, um gemäß der spektralen Ansprechcharakteristik und der Rauschgröße ein synthetisiertes Rauschersetzungsignal zu erzeugen.

ZUSAMMENFASSUNG DER ERFINDUNG

Wie voranstehend erläutert, werden in herkömmlichen Restecho- Unterdrückungseinrichtungen zusätzliche Rauscherzeugungsprozeduren verwendet, um an dem Eingang des Sprachcodierers COD modifizierte Codeworte zu erzeugen, um das Restecho loszuwerden, wenn ein Hintergrund vorhanden ist oder nicht vorhanden ist und wenn Sprache vorhanden ist oder nicht vorhanden ist. Andererseits führt die typische Verwendung von Restecho-Unterdrückungseinrichtungen, die auf Center-Clippern basieren, die nicht-lineare Elemente sind, zu dem Nachteil, daß unerwünschte Verzerrungen in dem Signal eingeleitet werden, das an das ferne Ende übertragen wird.

Insbesondere und wie in Fig. 2-2 und 2-3 gezeigt geht in herkömmlichen Echokompensatoren das zu sendende Signal an dem Echokompensator vorbei und ein synthetisches Rauschen wird erzeugt, das an den Codierer COD gesendet werden soll. Jedoch bezieht sich diese Rauscherzeugung nicht direkt auf den tatsächlichen Mikrophonsignalinhalt, sie bezieht sich überhaupt nicht auf ein empfangenes Signal oder ein ausgegebenes Signal des Echokompensators wie TNE'. Wenn der VAD-Detektor eine Fehlfunktion ausführt, d. h. entweder erfaßt er die erneute Erzeugung in Sprache in dem Signal TNE nicht oder er erfaßt die Abwesenheit von Sprache nicht schnell genug, dann wird der Benutzer an dem fernen Ende entweder Rauschen und nicht die tatsächliche Sprache hören oder der Benutzer wird zunächst ein sprachrahmen-codiertes tatsächliches Hintergrundrauschen (einschließlich möglicher Restechos) und danach das künstliche Rauschen hören, wodurch der Benutzer zwei verschiedene Arten von Rauschphänomenen augesetzt wird.

AUFGABE DER ERFINDUNG

Deshalb ist die Aufgabe der vorliegenden Erfindung, eine effiziente Echounterdrückungseinrichtung beizustellen, die eine effektive Unterdrückung von Restechos ausführt, ohne daß der Echokompensator während der Anwesenheit und/oder Abwesenheit von Sprache überbrückt wird.

LÖSUNG DER ERFINDUNG

Gemäß einem ersten Aspekt der Erfindung wird diese Aufgabe gelöst durch eine Echounterdrückungseinrichtung (Anspruch 1) zum Unterdrücken von Echos, die durch eine Koppeln eines von einr Empfangseinheit einer Sender-/Empfängereinheit eines Telekommunikationssystems empfangenen Empfangssignals an eine Sendeeinheit davon verursacht wird, umfassend eine Übertragungsfunktions-Abschätzungseinrichtung, die dafür ausgelegt ist, die Kopplungsübertragungsfunktion von der Empfangseinheit zu der Sendeeinheit abzuschätzen und das Empfangssignal mit der abgeschätzten Kopplungsübertragungssfunktion zu verarbeiten, ein Subtrahierer, der dafür ausgelegt ist, um von dem Sendesignal, das ein Echosignal aufgrund der Kopplung des empfangenen Signals zu der Sendeeinheit enthält, das verarbeitete Empfangssignal zu subtrahieren, und eine Restecho-Unterdrückungseinrichtung zum Unterdrücken von Restechos in dem Subtrahiererausgangssignal, wobei die Restecho-Unterdrückungseinrichtung einen Restechofilter mit einer einstellbaren Filterfunktion umfaßt, die dafür ausgelegt ist, um von dem Subtrahiererausgangssignal des Subtrahierers die spektralen Charakteristiken, die sich auf das Empfangssignal beziehen, zu entfernen.

Gemäß einem zweiten Aspekt der Erfindung wird diese Aufgabe gelöst durch eine Echounterdrückungseinrichtung (Anspruch 14) zum Unterdrücken von Echos, die durch ein Koppeln eines von einer Empfangseinheit einer Sender-/Empfänger-Einheit eines Telekommunikationssystems empfangenen Empfangssignals zu der Sendeeinheit davon verursacht werden, umfassend eine Übertragungsfunktions-Abschätzungseinrichtung, die dafür ausgelegt ist, um die Kopplungsübertragungsfunktion von der Empfangseinheit zu der Sendeeinheit abzuschätzen und das Empfangssignal mit der abgeschätzten Kopplungsübertragungsfunktion zu verarbeiten, einen Subtrahierer, der dafür ausgelegt ist, von dem Übertragungssignal, das ein Echosignal aufgrund der Kopplung des empfangenen Signals zu der Sendeeinheit umfaßt, das verarbeitete Empfangssignal abzuziehen, und eine Restechounterdrückungseinrichtung zum Unterdrücken von Restechos in dem Subtrahiererausgangssignal, wobei die Restecho-Unterdrückungseinrichtung einen Filter mit einer einstellbaren Filterfunktion umfaßt, die dafür ausgelegt ist, um in dem Subtrahiererausgangssignal des Subtrahierers den spektralen Inhalt des Hintergrundsignals in dem Sendesignal, das von der Sendeeinehit gesendet wird, zu verstärken.

Gemäß einem dritten Aspekt der Erfindung wird diese Aufgabe gelöst durch eine Echokompensationseinrichtung (Anspruch 19) zum Unterdrücken von Echos, die durch eine Kopplung eines von einer Empfangseinheit einer Sender-/Empfängereinheit eines Telekommunikationssystems (TELE) empfangenen Empfangssignals zu einer Sendeeinheit davon verursacht werden, umfassend eine Übertragungsfunktions-Abschätzungseinrichtung, die dafür ausgelegt ist, die Kopplungsübertragungsfunktion von der Empfangseinheit zu der Sendeeinheit abzuschätzen und das Empfangssignal mit der abgeschätzten Kopplungsübertragungsfunktion zu verarbeiten, einen Subtrahierer, der dafür ausgelegt ist, von dem Übertragungssignal, das ein Echosignal aufgrund der Kopplung des empfangenen Signals zu der Sendeeinheit enthält, das verarbeitete Empfangssignal abzuziehen, und eine Restecho- Unterdrückungseinrichtung zum Unterdrücken von Restechos in dem Subtrahiererausgangssignal, wobei die Restecho- Unterdrückungseinrichtung einen Restechofilter mit einer einstellbaren Filterfunktion und eine Rauscherzeugungseinrichtung umfaßt, die ausgelegt ist, um in dem Filterausgangssignal in einem spektralen Bereich, der sich auf das Empfangssignal bezieht, Rauschen hinzuzufügen, um Restechos zu maskieren.

WEITERE VORTEILHAFTE AUSFÜHRUNGSFORMEN

Die oben beschriebenen Aspekte der vorliegenden Erfindung können auch in Kombination verwendet werden. Das heißt, der erste und zweite Aspekt, der erste und dritte Aspekt, der zweite und dritte Aspekt, und der erste, zweite und dritte Aspekt können kombiniert werden. Weitere vorteilhafte Ausführungsformen und Verbesserungen der Erfindung können den beigefügten abhängigen Ansprüchen entnommen werden. Es sei auch darauf hingewiesen, daß die Erfindung Ausführungsformen umfassen kann, die sich aus einer Kombination von Merkmalen ergeben, die in den Ansprüchen getrennt beansprucht und/oder in der Beschreibung getrennt beschrieben sind, einschließlich derjenigen Merkmale, die als Hintergrund der Erfindung oder als Stand der Technik in der voranstehend erwähnten Einleitung beschrieben werden, selbst wenn ein derartiger Stand der Technik sich nur auf einen internen Stand der Technik der Anmelderin bezieht.

Nachstehend werden die Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert.

KURZBESCHREIBUNG DER ZEICHNUNGEN

In den Zeichnungen zeigen:

Fig. 1 eine herkömmliche Sender-Empfänger-Einheit TRU gemäß dem Hintergrund der Erfindung;

Fig. 2-1 ein Prinzipblockschaltbild einer Echounterdrückungseinrichtung EC gemäß einem Stand der Technik I ohne eine Restecho- Unterdrückungsverfahren;

Fig. 2-2 ein Prinzipblockschaltbild einer Echounterdrückungseinrichtung EC gemäß einem Stand der Technik III mit einem Restecho- Unterdrückungsansatz des Typs II, bei dem eine zusätzliche Rauscherzeugung stattfindet;

Fig. 2-3 ein Prinzipblockschaltbild einer Echounterdrückungseinrichtung EC gemäß einem Stand der Technik IV mit einem Restecho- Unterdückungsansatz des Typs I, bei dem ein SID Rahmen während einer Hintergrundrauscherfassung erzeugt wird;

Fig. 3 ein Blockschaltbild eines herkömmlichen Sprachcodierers COD gemäß einem Stand der Technik II und wie in Fig. 1 gezeigt;

Fig. 4 ein Blockschaltbild eines herkömmlichen Sprachdecodierers DECOD gemäß einem Stand der Technik II und wie in Fig. 1 gezeigt;

Fig. 5-0 ein Blockschaltbild einer Echounterdrückungseinrichtung EC gemäß dem Prinzip der vorliegenden Erfindung;

Fig. 5-1 ein Blockschaltbild einer Echounterdrückungseinrichtung EC gemäß der ersten Ausführungsform der vorliegenden Erfindung;

Fig. 5-2 ein Blockschaltbild einer Echounterdrückungseinrichtung EC gemäß der zweiten Ausführungsform der vorliegenden Erfindung;

Fig. 5-3 ein Blockschaltbild einer Echounterdrückungseinrichtung EC gemäß der dritten Ausführungsform der vorliegenden Erfindung;

Fig. 6 die Steuerbox CTL, die in den Fig. 5-0, 5-1. 5-2. 5-3 verwendet wird;

Fig. 7 eine Black Box-Darstellung eines AR-Prozesses.

Es sei darauf hingewiesen, daß in den Zeichnungen die gleichen oder ähnliche Bezugsszeichen die gleichen oder ähnlichen Teile oder Schritte überall in den Zeichnungen zeigen.

PRINZIP DER ERFINDUNG

Fig. 5-0 zeigt ein Blockschaltbild einer ECD gemäß dem Prinzip der vorliegenden Erfindung. Diese Echounterdrückungseinrichtung ECD umfaßt einen Echokompensator EC wie in Fig. 1 und Fig. 2-1 und zusätzlich eine Steuereinrichtung CTL, ein adaptives Filter G und optional einen zusätzlicher Addierer ADD2. Diese Echounterdrückungseinrichtung ECD kann in der Sender/Empfänger-Einheit (Transceiver-Einheit) TRU in Fig. 1 verwendet werden und erzeugt einen Ausgang, der an den Codierer COD geführt wird, wobei die Blöcke des Standes der Technik gemäß der Fig. 2-2 und Fig. 2-3, die in gestrichelten Linien in Fig. 1 dargestellt sind, nicht vorhanden sein können.

Wie sich der Fig. 5-0 entnehmen läßt, läuft das Mikrophonsignal TNE immer durch den Echokompensator EC und zusätzliche Einheiten G und optional ADD2 sind stromabwärts von dem Echokompensator EC (der die prinzipielle Konfiguration wie in Fig. 2-1 aufweist) vorgesehen, um die Restechounterdrückung von Restechos in dem Ausgangssignal TNE' des Echokompensators EC auszuführen. Insbesondere findet keine Überbrückung des Echokompensators EC wie z. B. in Fig. 2-2 unter bestimmten Bedingungen statt. Der Addierer ADD2 wird optional in einigen Ausführungsformen verwendet, wie nachstehend erläutert wird.

ERSTE AUSFÜHRUNGSFORM DER ERFINDUNG

Die Fig. 5-0 und 5-1 zeichen eine Echounterdrückungseinrichtung ECD gemäß eier ersten Ausführungsform der Erfindung. Wie in Fig. 5-1 gezeigt, wird in dieser ersten Ausführungsform der Addierer ADD2 nicht verwendet. Wie sich jedoch aus einem Vergleich mit Fig. 1 und Fig. 2-1 ersehen läßt, umfaßt die erste Ausführungsform, die in Fig. 5-1 in Zusammenhang mit Fig. 5-0 gezeigt ist, zusätzlich zu der Übertragungsfunktions- Abschätzungseinrichtung EST, H und dem Subtrahierer ADD eine zusätzliche Restecho-Unterdrückungseinrichtung G zum Unterdrücken von Restechos in dem Subtrahiererausgangssignal. TNE'.

In der ersten Auführungsform umfaßt die Restecho- Unterdrückungseinrichtung G einen Restechofilter F mit einer einstellbaren Filterfunktion g, die dafür ausgeslegt ist, um von dem Subtrahiererausgangssignal TNE' des Subtrahierers ADD die spektralen Charakteristiken zu entfernen, die sich auf das Empfangssignal RFE beziehen. Die Steuereinrichtung CTL gemäß der ersten Ausführungsform ist vorgesehen, um die Filterfunktion g des Restechofilters G über ein Einstellsignal GC einzustellen. Deshalb arbeitet die Steuereinrichtung CTL in der ersten Ausführungsform als eine Spektralinhalt-Bestimmungseinrichtung, die dafür ausgelegt ist, um das Empfangssignal RFE und/oder das Sendesignal TNE mit dem Restecho aufgrund der Kopplung des empfangenen Signal RFE zu der Sendeeinheit TR und/oder das verarbeitete Empfangssignal RFE' und/oder das Subtrahiererausgangssignal TNE' zu empfangen.

Die Spektralinhalt-Bestimmungseinrichtung, die durch die Steuereinrichtung CTL gebildet wird, bestimmt den spektralen Inhalt, der sich auf das Empfangssignal RFE bezieht, auf Grundlage von einem oder mehreren von diesen Signalen und stellt auf Grundlage dieser Bestimmung die Filterfunktion g des Restechofilters G in Abhängigkeit von dem bestimmten spektralen Inhalt ein. Es sei drauf hingewiesen, daß die Spektralinhalt-Bestimmungseinrichtung CTL den spektralen Inhalt, der sich auf das Restecho bezieht, auf Grundlage von irgendeinem der vier Signale bestimmen kann, die der Spektralinhalt-Bestimmungseinrichtung CTL eingegeben werden. Wenn jedoch die Spektralinhalt-Bestimmungseinrichtung CTL den spektralen Inhalt auf Grundlage des Sendesignals PNE und/oder des Subtrahierer-Ausgangssignals TNE' bestimmt, so tut sie dies nur dann, wenn ein Sprachaktivitätsdetektor VAD keinerlei near-end-Sprachaktivität in diesen Signalen erfaßt.

Das Restechofilter G ist ein digitales Filter, dessen Filtercharakteristik durch einen Satz von eisntellbaren Filterparametern eingestellt werden kann, sowie dies dem Durchnittsfachmann in dem technischen Gebiet des Digitalfilterentwurfs altbekannt ist. Deshalb erübrigen sich irgendwelche weiteren Erläuterungen, wie die Filterfunktion in dem digitalen Filter mit Hilfe eines Satzes von Parametern eingestellt werden kann. Ohne darauf beschränkt zu sein, wird nachstehend ein Filtermodell beschrieben, welches verwendet werden kann.

Der Zweck der Spektralinhalt-Bestimmungseinrichtung besteht darin, wenigstens eines der Signale, die in die Einheit kommen, zu überwachen. Vorzugsweise wird der Spektralinhalt des far-end-Sprechsignals auf Grundlage des Signals RFE' bestimmt, so daß der bestimmte spektrale Inhalt nahezu demjenigen des Restecho-Signals sein wird. Bevor weitere Beispiele angeführt werden, wie die Spektralinhalt- Bestimmungseinrichtung den spektralen Inhalt bestimmt, werden einige allgemeine Schritte des Verfahrens der ersten Ausführungsform, die in Fig. 5-0 gezeigt ist, betrachtet. In einem ersten Schritt für die Dämpfung des far-end-Signals, d. h. des Restechos in dem Ausgang TNE' des Addierers ADD, wird wenigstens ein Signal genommen, welches sich auf das far-end-Signal RFE bezieht, vorzugsweise RFE oder RFE'. Dieses Signal wird nachstehend mit "X" bezeichnet.

In einem zweiten Schritt wird ein Modell des spektralen Inhalts des gewählten Signals X durch die Spektralinhalt- Bestimmungseinrichtung CTL berechnet. Dieses Modell des spektralen Inhalts wird mit "A" bezeichnet und kann durch folgende Maßnahmen bestimmt werden:

a) durch einen parametrischen Ansatz, z. B. durch eine Abschätzung von Parametern in einem AR-(autoregressivem) (AutoRegressive)), einem ARX-(autoregressivem exogenen (Auto-Regressive eXogenous)), einem ARMA- (autoregressivem sich bewegenden Durchschnitt (AutoRegressive Moving-Average)) Modell oder anderen ähnlichen Modellen;
b) durch einen nicht-parametrischen Ansatz, z. B. mit Hilfe einer Fourier-Transformation (insbesondere einer diskreten Fourier-Transformation (Discrete Fourier Transform)), einer Wavelet-Transformation etc.

In einem dritten Schritt berechnet die Spektralinhalt- Bestimmungseinrichtung CTL eine inverse Darstellung des Modells A. Die inverse Darstellung A. Die inverse Darstellung von wird mit "G" bezeichnet.

In einem vierten Schritt wird die Spektralinhalt- Bestimmungseinrichtung die Filterfunktion g einstellen, so daß sie dem inversen Modell G entspricht.

Es sei darauf hingewiesen, daß sämtliche Signale RFE, RFE', TNE, TNE', die für die Abschätzung des spektralen Inhalts verwendet werden können, in der Echounterdrückungs- Einrichtung EC auf einer Rahmen-Basis auftreten. Deshalb wird ein neues inveres Modell G und somit eine neue Filterübertragungsfunktion g auf einer Abtastwert-Basis oder einer Rahmen-Basis erhalten, d. h. ein neues G, g wird bei jedem Abtastwert oder jedem Rahmen erhalten. Jedoch ist es auch ausreichend, wenn nur bei jedem N-ten Abtastwert ein neues gG berechnet wird. N kann irgendeine Zahl sein, die von dem Konstrukteur gewählt wird.

Wenn ein Doppelsprechen (Double-Talk) auftritt (Sprache sowohl in dem Sendesignal TNE als auch dem Empfangssignal FRE), kann ein Double-Talk-Detektor verwendet werden (z. B. wenn Fig. 5-1 das VAD-Double-Talk-Signal DT, das die Einstelleinheit ADJ anweist, G entsprechend zu ändern), um das Filter G zu umgehen. Das heißt, wenn der Double-Talk- Detektor ein wesentliches Doppelsprechen (Double-Talk) erfaßt (was bedeutet, daß RFE und TNE Spracheenthalten), dann kann das Filter G zu G = 1 gemacht werden, so daß sämtliche Frequenzen durchgelassen werden.

Es sei darauf hingewiesen, daß natürlich im Prinzip das Filter G nicht benötigt wird, wenn kein far-end-signal RFE vorhanden ist. Wenn das far-end-Signal RFE ruhig ist, wird das far-end-Signal RFE einen niedrigen Energie/Leistungs- Pegel aufweisen. In diesem Fall leitet die Spektralinhalt- Bestimmungseinrichtung natürlich ein Filtermodell G ab, das bewirken wird, daß das Filter G eine Konstante oder nahezu ein Einheitsfilter (unity filter) ist. In irgeneinem anderen Fall wird Energie von dem Lautsprecher ausgesendet und ist als solche Teil der akustischen Schleife und wird somit um G reduziert.

Aus Fig. 5-0 läßt sich entnehmen, daß die inverse Filterung, bei der G das far-end-Signal dämpft, das den spektralen Inhalt entfernt, der sich auf das far-end-Signal bezieht, keinerlei Modifikation der Sprachcodes erfordert, so daß das Hintergrundsignal synthetisiert ist.

SPEKTRALE ABSCHÄTZUNG UNTER VERWENDUNG EINES ADAPTIVEN PARAMETRISCHEN MODELLS

Es ist altbekannt, daß die Theorie, die für den Zweck einer Systemidentifikation entwickelt wurde, oft auf stochastischen Annahmen basiert. Deshalb kann die Ableitung des spektralen Inhalts auf die Annahme gestützt werden, daß sämtliche Signale stationäre Zufallsprozesse sind.

In Fig. 7, die eine Black-Box-Darstellung eines AR-Prozesses zeigt, wird ein weißes Rauschen e(n) auf ein nur mit Polen besetztes System (All-Pole-System) A^-1(z) gegeben, um so ein Ausgangssignal y(n) zu erzeugen. In dieser Hinsicht ist nur das Ausgangssignal y(n) beobachtbar. Für die Fig. 5-0 oder Fig. 5-1 entspricht das Ausgangssignal y(n) RFE oder RFE' (oder irgendeinem der Signale TNE, TNE', die zum Bestimmen des spektralen Inhalts verwendet werden). Ferner kann auch gesagt werden, daß das Filter A^-1(z) als das Stimmtraktfilter des far-end-Sprechers angesehen werden kann. Somit kann y(n) das Signal RFE sein. Natürlich ist das Signal e(n) die far- end-Anregung (die Anregung am entfernten Ende). Um den spektralen Inhalt zu bestimmen, ist es erforderlich, das System zu identifizieren, das das Ausgangssignal y(n) erzeugt, Ganz offensichtlich kann irgendein Modell angenommen werden, das - bei einer gegebenen Weißrauschen- Eingangssequenz - einen Ausgang erzeugt, der das beobachtete Verhalten des beobachteten Signals y(n) beschreibt. Um den Identifikationsansatz zu erläutern kann angenommen werden, daß der Ausgang y(n) ein AR-Prozeß ist, der oft als ein Modell für den Stimmtrakt verwendet wird. Das Augangssignal wird in einen Identifikationsblock geführt, in dem das Ziel darin besteht, einen Ausgang zu erhalten, der weiß ist.

Die Black-Box-Darstellung eines AR-Prozesses, der in Fig. 7 dargestellt ist, wird nachstehend verwendet, um die Identifikation zu beschreiben. Der AR-Prozeß y(n) wird von einem All-Pol-System A^-1(z) erzeugt, der von einem Weißrauschprozeß e(n) angesteuert wird. Um A^-1(z) zu identifizieren, wird ein mit nur Nullstellen versehenes System (All-Zero-System) (z) verwendet. Das heißt, idealerweise werden die Nullstellen die Polstellen des unbekannten Systems beseitigen und demzufolge wird e(n) ermittelt.

Der unbekannte AR-Prozeß kann wie folgt definiert werden:

wobei q der Einheitszeit-Schieberoperator ist. Nun besteht die Aufgabe darin, eine Abschätzung für y(n) zu finden, die mit (n) bezeichnet ist. Da angenommen wird, daß der beobachtete Prozeß y(n) ein AR-Prozeß ist, wird die Größe (n) = y(n) - (n; a) so eingestellt, daß (n) ein weißer Prozeß wie e(n) sein wird. Die Einstellung wird durch einen Satz von Parametern gesteuert, die indem Vektor

a^T= [α₁. . .α_M] (2)

enthalten sind. Im Prinzip kann das Signal ein (n) duch Filtern von y(n) mit

gefunden werden. Es sei darauf hingewiesen, daß durch Vewendung des Operators (q; a) auf y(n) die Summe in der Gleichung (3) als die Vorhersage von y(n) auf Grundlage von Werten des Prozesses y(n) beobachtet bis zu der Zeit n - 1 interpretiert werden kann. Somit entspricht (q; a) dem Filter G, das in den Fig. 5-0 und 5-1 dargestellt ist.

Deshalb ist die gewählte Modellstruktur (hier AR) zusammen mit den abgeschätzten Parametern a eine Beschreibung des spektralen Inhalts von y(n). Das heißt, eine Ersetzung des Schiebeoperators in der Gleichung (1) und eine Auswertung der linken Seite entspricht tatsächlich der Fourier- Transformation von y(n).

Jedoch kann die theoretische Definition einer Fourier- Transformation eines stochastischen Prozesses schwierig sein. Deshalb wird das Spektrum eines stochastischen Prozesses als die Autokorrelationsfunktion definiert. Trotzdem kann, wie in Gleichung (1) ersichtlich, durch Filterung von y(n) mit A(q) sämtliche Spektralinformationen entfernt werden.

Die Abschätzung der Filterparameter ist relativ einfach, siehe z. B. die voranstehend erwähnte Referenz von Proakis und Manolakis. In der Tat wird eine ähnliche Abschätzung innerhalb des Sprachcodierers durchgeführt. Der Ansatz, der in dem Sprachcodierer verfolgt wird, ist eine blockbasierte Version. Jedoch kann die Abschätzung auch durch eine Gradientensuche, beispielsweise einen Least-Mean-Square (Verfahren der kleinsten Fehlerquadrate oder LMS) Algorithmus gelöst werden. Um die Prozedur zu erläutern, erfolgt nun eine kurze Ableitung der erforderlichen Gleichungen. Bei einem gegebenen Eingangssignal y(n) besteht das Ziel darin, die Energie in dem Signal zu minimieren. Das heißt, die Aufgabe besteht darin,

V(a) = E{y(n) - (n; a))² (4)

minimieren, wobei y(n) das abgeschätzte Signal gegeben in Abtastwerten bis zu der Zeit n - 1 ist. Das Minimum der Gleichung (4) wird die Varianz eines weißen Prozesses sein. Ferner ist dies ein lineares Problem, was sicherstellt, daß ein globales Minimum existiert. Die Parameter werden durch Lösen eines linearen Gleichungssystems, definiert mit ∂V(a)/∂a = 0, gefunden. Die LMS-Suche nutzt den Gradienten in einer rekursiven Parameteraktualisierung aus, die stoppen wird, wenn der Gradient Null ist, siehe S. Haykin. Adaptive Filter Theory. Prentice Hall, Englewood Cliffs, NJ, 1991; P. E. Gill, W. Murray, and M. H. Wright. Practical Optimization. Academic Press, London 1981. Das heißt, die folgende Operation wird ausgeführt:

wobei µ die Richtung nach unten dämpft. Es ist allgemein bekannt, daß die Dämpfung oft erforderlich ist, um die Stabilität der rekursiven Gleichung (5) aufrechtzuerhalten, S. Haykin. Adaptive Filter Theory. Prentice-Hall, Englewood Cliffs, NJ, 1991. Ferner wird in der LMS-Suche der erwartete Wert durch die momentane Approximation

a(n) = a(n - 1) - µy(n -1)(y(n) - y(n - 1)a^T), (6)

mit y^T(n - 1) = [y(n - 1), . . ., y(n - 1), . . ., y(n - M - 1).

ersetzt. Wie bereits ausgeführt, kann das Modell unter Verbindung eines block- oder abtastwert-basierten Ansatzes berechnet werden. Asymptotisch sind die Ansätze gleich. Jedoch kann der abtastwert-basierte Ansatz etwas besser für eine Festpunkt-Implementierung geeignet sein. Die Implementierung des block-basierten Ansatzes ist nicht zu kompliziert, vorausgesetzt, daß das Korrelationsverfahren verwendet wird, das eine symmetrische Toeplitz-Struktur sicherstellen wird.

Im Prinzip kann die spektrale Bestimmung von RFE oder RFE' wie voranstehend angegeben ausgeführt werden. Wie bereits voranstehend ausgeführt, entspricht das beobachtete Signal y(n) RFE oder RFE' und (q; a) entspricht dem dem Filter G, das in den Fig. 5-0 und 5-1 dargestellt ist. Es sei darauf hingewiesen, daß die spektrale Bestimmung hier implizit durch Anpassen von Daten an ein Modell durchgeführt wird.

INTERPOLATION EINES PARAMETRISCHEN G-MODELLS

Durch Verwendung von einem oder mehreren der obigen Signale wird das Filter G sämtliche Frequenzen dämpfen, die sich auf das far-end Signal beziehen. Offensichtlich wird in Double- Talk-Situationen die Dämpfung auch eine Auswirkung auf die near-end-Sprache haben. Da jedoch die near-end- und die far- end-Sprache als statistisch unabhängige Prozesse/Signale angesehen werden können, wird es schwierig sein, den Effekt zu hören (durch aktualisieren des G-Filters in einer speziellen Weise durch Wählen der Zahl N). Zum Beispiel wird angenommen, daß die Parameter des Filters G bei jedem Rahmen berechnet werden. Um einen plötzlichen Übergang in dem zu sendenden Signal aufgrund einer Änderung der Parameter in G zu vermeiden, kann ein Glättungsansatz verwendet werden. Ein Verfahren zum Erreichen der Glättung besteht darin, folgende Schritte abzuarbeiten:
S. 1 G_old
S. 2 (q) = 0Berechnung der Filterkoeffizienten des Filters G_old(q)
S. 3 Berechnung der Reflektionskoeffizienten G_new(q) auf Grundlage eines neuen eingegebenen Rahmens (z. B. 160 Abtastwerte).
S. 4 Bestimmung einer geraden Linie zwischen entsprechenden Reflektionskoeffizienten des Filters G_old(q) und G_new(q).
S. 5 Wählen von zum Beispiel K = 4 Punkten auf der Linie einschließlich der Endpunkte, d. h. zwei zusätzlichen Sätzen von Reflektionskoeffizienten. Bezeichnendes Satzhes von Reflektionskoeffizienten mit Γ_β wobei β = 1, . . ., K ist. Es sei darauf hingewiesen, daß die Sätze bezüglich des Punkts auf der Linie, die von G_old(q) zu G_new(q) reicht, geordnet werden;
S. 6 Filtern der ersten N/K Abtastwerten unter Verwendung des ersten Satzes von Reflektionskoeffizienten, d. h. ent sprechend G_old(q).
S. 7 Filtern der βN/K Abtastwerte unter Verwendung der Sätze Γ_β, wobei β = 2, . . ., K.
S. 8 Sätzen von G_old(q) = G_new(q) und weitermachen mit dem Schritt S2.

Die obige Prozedur entspricht ungefähr einer Auswertung eines neuen Filters auf einer Unterrahmenbasis, die aus N/K Abtastwerten besteht. Der Vorteil mit der obigen Prozedur besteht darin, daß sie weniger Berechnungen benötigt, als dies die exakte Bestätigung eines Filters auf Grundlage eines Unterrahmens benötigt.

SPEKTRALE ABSCHÄTZUNG VERWENDUNG EINES ADAPTIVEN NICHT-PARAMETRISCHEN MODELLS

Nachstehend wird ein Beispiel für die Verwendung eines nicht- parametrischen Ansatzes unter Verwendung von diskreten Fouriertransformationen zur Bestimmung des Spektralinhalts beschrieben. Die Spektralinhalte-Bestimmungseinrichtung CNT verwendet eines der Signale RFE, RFE', TNE, TNE' und vorzugsweise das Signal TNE' oder TNE, das das Restecho enthält. Wie voranstehend erläutert wird bei Verwendung der Signale TNE, TNE' der Sprachaktivitätsdetektor VAD benötigt, so daß dann die Filterfunktionsberechnung nur in Sprachpausen des Near End-Signals ausgeführt wird.

Somit bestimmt die Bestimmungseinrichtung CTL eine diskrete Fourier-Transformation DFT, z. B. das subtrahierte Ausgangssignal TNE', das das Restechosignal enthält, oder des Sendesignals TNE, das das Echosignal enthält, und eine diskrete Fourier-Transformation DFT des Empfangssignals RFE, und stellt die Filterparameter auf Grundlage einer Subtraktion einer skandierten Version der diskreten Fourier- Transformation DFT des Empfangssignals RFE von der diskreten Fourier-Transformation DFT des Sendesignals TNE, das das Echosignal enthält, oder von der diskreten Fourier- Transformation DFT des Subtrahiererausgangssignals TNE', das das Restechosignal enthält, ein. D. h., in mathematischer Schreibweise entspricht diese Subtraktion:

T(ω_i) = M(ω_i) - αX(ω_i), (7)

wobei ω_i und α die i-te Sequenz der diskreten Fourier- Transformation DFT bzw. den Installierungsfaktor bezeichnen. Wie voranstehend erwähnt entsprechen die Signale M und X in Gleichung 7 der diskreten Fourier-Transformation des Signals, das das Restecho enthält (TNE' oder TNE), bzw. das Far End- Signal (RFE). Gleichung 5 kann folgendermaßen umgeschrieben werden:

Aus der Gleichung 6 läßt sich ersehen, daß die gewünschte Filterfunktion G in der Fourier-Domäne folgendermaßen ist:

Die Gleichung (5) oder (6) beziehen sich in enger Weise auf den parametrischen Ansatz, bei dem eine Übertragungsfunktion z. B. durch ein autoregressives exogenes (ARX) Modell abgeschätzt wird. Derartige Modelle, die zum Abschätzen der Filterfunktion verwendet werden können, sind z. B. von T. Söderström und T. Stoika, system identification, Prentice- Hall International, London, UK, 1998, beschrieben. Für Durchschnittsfachleute im Gebiet der Signalverarbeitung und der Signalidentifikation ist es klar, daß ein Bereich der Verfahren verwendet werden kann, um die Information abzuschätzen, die benötigt wird, um den spektralen Inhalt des Restechos auf Grundlage der voranstehend erwähnten Ausführungsform zu unterdrücken. Deshalb sollte die Erläuterung, die voranstehend gegeben wurde, nur als eine gegenwärtig angenommene beste Ausführungsform der Erfindung angesehen werden, so wie sie von den Erfindern erdacht wurde. Die zentrale Idee besteht darin, die Tatsache auszunutzen, daß das far end-Signal bekannt ist und αls solches verwendet werden kann, um in dem Signal TNE' diejenigen Spektrallinien zu unterdrücken, die sich auf das far end-Signal RFE beziehen. Deshalb wird das Restecho durch das Filter G vollständig unterdrückt.

DIE EINSTELLUNG VON G UND DIE SPRACHAKTIVITÄTSDETEKTION

Wie voranstehend beschrieben basiert die erste Ausführungsform auf dem speziellen technischen Merkmal, daß keine Modifikation der Sprachcodes erforderlich ist, so daß das Hintergrundsignal synthetisiert wird.

Wenn wie voranstehend erwähnt das Signal TNE oder das Signal TNE' für die Abschätzung des spektralen Inhalts verwendet wird, der sich auf das Empfangssignal RFE bezieht, ist es erforderlich sicherzustellen, daß dies nur dann durchgeführt wird, wenn kein Near-End-Signal von dem Mikrophon MC vorhanden ist, d. h. wenn keine Sprache von dem Sprecher der Near-End-Transceiver Einheit TRU vorhanden ist. Deshalb wird der in Fig. 5-1 gezeigte VAD Detektor benötigt, so daß die Spektralinhalt-Bestimmungseinrichtung zur Berechnung einer neuen Filterfunktion g, G nur in Near-End-Sprachpausen arbeiten wird.

In Fig. 5-1 ist die erste Ausführungsform dargestellt. Die Einheit Far-End-ESTimator (Far-End-Abschätzungseinrichtung) FEEST, die als ein Teil der Spektralinhalt- Bestimmungseinrichtung arbeitet, schätzt die spektralen Eigenschaften des Far-End-seitigen Signals ab, z. B. unter Verwendung der Gleichungen (1)-(6). In Fig. 5-1 wird das Signal RFE' verwendet, weil es nahe zu den Charakteristiken des Far-End-Signals in TNE ist. Die Einheit, die mit INV bezeichnet ist, ist mehr oder weniger deshalb eingefügt, um anzuzeigen, daß das inverse Modell der Far-End spektralen Charakteristik verwendet werden soll. Es sollte klar sein, daß tatsächlich das inverse Modell durch Verwendung eines Systemidentifikationsansatzes ermittelt wird, wie mit Gleichung (3) angedeutet, und im Prinzip von der DECOD- Einrichtung als die Koeffizienten verfügbar sind, die in dem Filter VTF verwendet werden, wie in Fig. 4 gezeigt. Somit bilden die Einrichtungen FEEST und INV die Spektralinhalts- Bestimmungseinrichtung und die Einstelleinheit ADJ ist vorgesehen, um die bestimmten Filterkoeffizienten des Filters G über das Einstellsignal GC einzustellen.

Die Verwendung des VAD Detektors ist optional, d. h. er wird nicht notwendigerweise benötigt. Jedoch verbessert er das Betriebsverhalten. Im Prinzip nutzt der VAD zwei Signale aus, um ein Doppelsprechen (Double Talk DT) und ein Far-End- Einzelsprechen (Far End Single Talk FEST) zu bestimmen. Die Eingänge an dem VAD sind Signale, die sich auf den Far- und Near-End-Sprecher beziehen. Es sei darauf hingewiesen, daß man RFE anstelle von FRE' und TNE anstelle von TNE' verwenden kann. Der Grund für die Verwendung von TNE' und RFE' besteht darin daß TNE' nicht ein starkes Far-End-Signal enthält (es existiert fast nur das Near-End-Signal) und RFE' nahe zu einer Replizierung des Far-End-Signals in TNE ist. Somit gibt der Detektor VAD FEST aus, wenn das Signal TNE nur Far End- Sprache enthält und der Detektor VAD gibt DT aus, wenn TNE sowohl Far-End- als auch Near-End-Sprache gleichzeitig enthält. Schließlich gibt der VAD NEST aus, wenn nur eine Near-End-Sprache vorhanden ist.

Die drei Ausgänge FEST, NEST und DT des Detektors VAD werden an die Box ADJ gesendet, die zum Transferieren der Filterparameter an G verantwortlich ist. Ferner ist ADJ auch zum Glätten von Parametern gemäß der obigen Ausführungen verantwortlich. Die Flags von dem Detektor VAD können von ADJ wie folgt verwendet werden.

Für den Fall von nur Near-End-Sprache, d. h. NEST (Near-End Single Talk oder Near-End-Einzelsprechen) ist wahr und DT (Doppelsprechen oder Double Talk) und FEST (Far End Single Talk oder Far End-Einzelsprechen) sind unwahr, soll keine Filterung durchgeführt werden und demzufolge kann die Einstellung das Modell, das für G vorgesehen ist, auf eine Einheitsfunktion zwangsweise einstellen. Ferner kann dies auch für Double Talk durchgeführt werden, d. h. DT ist wahr und FEST und NEST sind unwahr, so daß das Restecho von dem Near End-Sprecher maskiert wird.

Schließlich kann die Verstärkung auf Grundlage der Signale in dem VAD auch als Funktion einer Frequenz eingestellt werden. Wenn beispielsweise angenommen wird, daß das Modell parametrisch ist, dann kann die Verstärkung als Funktion der Frequenz geändert werden, indem die Wurzeln radial bezüglich des z-Domäne-Einheitskreises bewegt werden. Der Grund für die Durchführung dieser Änderung besteht darin, daß ein VAD Detektor ein kontinuierliches Maß (d. h. eine Wahrscheinlichkeit und nicht eine binäre Variable, die die Werte 0 und 1 annimmt) des Sprechens anzeigen kann und eine volle Filterung durchgeführt werden soll, wenn nur ein Restecho in TNE' auftritt. Wenn die Near End-Sprache beginnt oder stoppt, kann die Verstärkung allmählich von der vollen Verstärkung auf 1 bzw. von 1 auf die volle Verstärkung bewegt werden. Somit wird die Box ADJ - auf Grundlage der Signale DT, FEST und NEST - die radiale Position der Wurzeln von G wie voranstehend beschrieben während der Übergänge von FEST nach DT und DT nach FEST und während der Übergänge von NEST auf FEST und FEST auf NEST einstellen.

ZWEITE AUSFÜHRUNGSFORM DER ERFINDUNG

Die zweite Ausführungsform basiert ebenfalls auf der allgemeinen Konfiguration, wie in Fig. 5 gezeigt. In der zweiten Ausführungsform umfaßt die Restecho- Unterdrückungseinrichtung G ein Restechofilter G mit einer einstellbaren Filterfunktion g, die dafür ausgelegt ist, um in dem Subtrahiererausgangssignal TNE' des Subtrahierers ADD einen Hintergrundsignal-Spektralinhalt des Sendesignals in Sprachpausen hervorzuheben. Für diesen Zweck enthält die Steuereinrichtung CNT eine Hintergrundsignalmodell- Bestimmungseinrichtung, die - wie in der ersten Ausführungsform - eines oder mehrere der Signale TNE, TNE' zum Abschätzen eines Hintergrundsignalmodells auf Grundlage von einem oder mehreren dieser Signale verwendet. Wenn das Hintergrundsignalmodell bestimmt worden ist, stellt die Hintergrundsignalmodell-Bestimmungseinrichtung CNT die Filterfunktion g des Restechofilters G gemäß dem bestimmten Hintergrundsignalmodell ein, so daß der Hintergrundsignal- Spektralinhalt hervorgehoben wird.

Wenn das Near-End-Signal TNE für die Bestimmung des Hintergrundrauschmodells verwendet wird, wird ein VAD Detektor, der schematisch in Fig. 5-2 gezeigt ist, verwendet, so daß das Hintergrundrauschmodell nur in Sprachpausen bestimmt wird. Diesbezüglich empfängt der Detektor VAD das Subtrahierereingangssignal RFE' und das Subtrahiererausgangssignal TNE' und erfaßt, ob in beiden Signalen keine Sprache vorhanden ist. Wenn ja, dann gibt der VAD einen wahren Wert in dem Kein-Sprechen-Signal (No Talk signal NT) aus und somit wird der Schalter SW geschlossen. Demzufolge wird das Signal TNE oder TNE' für die Hintergrundspektralabschätzung in der Hintergrundspektralabschätzungseinrichtung BEST verwendet. Wenn keine Far End-Sprache vorhanden ist, können die Signale TNE und TNE' verwendet werden, um das Modell für das Hintergrundrauschen zu bestimmen. Jedoch ist das erhaltene Modell für den Fall, daß das Far End-Signal aktiv ist. D. h., in den Sprachpausen wird das Modell bestimmt, jedoch wird dieses in den Sprachpausen sowie in den Sprachintervallen verwendet. Deshalb werden in dem Verfahren der zweiten Ausführungsform die folgenden Schritte ausgeführt:

1. Ein Signal wird verwendet, welches sich auf das Hintergrundsignal bezieht, z. B. vorzugsweise TNE oder TNE', wenn der VAD Detektor NT ausgibt (keine Sprache ist vorhanden). Dieses Signal wird mit "Y" bezeichnet.
2. Ein Modell des spektralen Inhalts des gewählten Signals Y wird in der Hintergrundspektralinhalt- Abschätzungseinrichtung BEST wie in der ersten Ausführungsform auf Grundlage der folgenden Ansätze berechnet:
- 1. Einem parametrischen Ansatz, z. B. einer Abschätzung von Parametern in einem AR-, ARX-, ARMA-Modell, etc.; und/oder
- 2. einem nicht-parametrischen Ansatz, z. B. einer Fourier-Transformation, einer Wavelet- Transformation etc.
  Dieses Modell des Hintergrundrauschens wird mit "G" bezeichnet.
3. Die Filterfunktion g wird über die Einstelleinheit ADJ auf Grundlage von G eingestellt und das Signal TNE' wird in dem Filter G gefiltert.

Wie voranstehend erläutert treten die Signale in der zweiten Ausführungsform auf einer Abtastwertbasis oder Rahmenbasis auf und die Hintergrundrauschmodellbestimmung und die Berechnung der Filterübertragungsfunktion G, g wird nur in Rahmen ausgeführt, in denen keine Sprache für das Far-End- Signal RFE und das Near End-Signal TNE vorhanden ist. Jedoch wird die Hervorhebung des Hintergrundrauschens auf Grundlage des eingestellten Filters in sämtlichen Rahmen ausgeführt, insbesondere auch in den Sprachrahmen.

Nachdem das Hintergrundrauschmodell auf Grundlage von einem oder mehreren der oben beschriebenen Signale bestimmt worden ist, wird die eingestellte Filterfunktion sämtliche Frequenzen verstärken, die sich auf das Hintergrundrauschspektrum beziehen. Somit werden Frequenzen, die sich auf das Far-End-Signal RFE beziehen, gedämpft, außer wenn das Far-End-Signal RFE den gleichen spektralen Inhalt wie das Hintergrundrauschen aufweist. Jedoch ist ein Sprachsignal zeitlich veränderlich und demzufolge ist auch das Sprachspektrum veränderlich. Somit wird das Sprachsignal gedämpft. Demzufolge wird das Restecho nicht in irgendeiner systematischen Weise hervorgehoben und das Verhältnis des Hintergrundsignals zu dem restlichen Far-End-Signal wird zunehmen. In dieser Hinsicht ist es wahrscheinlich, daß im Zusammenhang mit dem DTX Betriebsmodus, wie unter Bezugnahme auf die Fig. 2-1, Fig. 2-2 beschrieben, einer der zwei folgenden Fälle auftreten kann, nämlich:

1. Ein DTX Betriebsmodus des Sprachcodierers wird aufgrund der Hervorhebung des Hintergrundrauschens in Rahmen, die keine Sprache enthalten, eingeleitet; und
2. das restliche Far-End-Signal wird von der Verstärkung der Frequenzen, die sich auf den Hintergrundprozeß beziehen, in Rahmen, die Sprache enthalten, maskiert.

Es sei auch darauf hingewiesen, daß eine verbesserte Version der zweiten Ausführungsform auch eine Langzeit- Vorhersageeinrichtung (Long Term Predictor LTP) zum Ausführen einer Langzeitvorhersage des Far-End-Signals umfassen kann, um so Überbleibsel einer stimmhaften Anregung zu entfernen.

Aus der obigen Beschreibung der zweiten Ausführungsform läßt sich ersehen, daß auch in der zweiten Ausführungsform keine Modifikation von Codewörtern an dem Ausgang des Echokompensators EC stattfindet und da spezielle technische Merkmal einer Verbindung eines Filters G ist das gleiche. Während in der ersten Ausführungsform die Signalkomponenten der Sprache, die sich auf das Far-End-Signal RFE beziehen, gedämpft werden, wird in der zweiten Ausführungsform das Hintergrundrauschen, das sich auf das empfangene Far End- Signal bezieht, in TME hervorgehoben und zwar im wesentlichen mit der gleichen Wirkung.

In Fig. 5-2 ist die zweite Ausführungsform als Echounterdrückungseinrichtung ECD dargestellt. Es sei darauf hingewiesen, daß die Blöcke ähnlich wie diejenigen der ersten Ausführungsform sind, aber die Funktion nicht die gleiche ist. Hier gibt der VAD das Kein-Sprechen-Signal NT, das Near- End-Single Talk-Signal NEST und das Double Talk-Signal DT aus. Das Signal NT steuert, wann eines der zwei Signale TNE und TNE' von der BEST-Einheit verwendet wird, über den Schalter SW. Im Prinzip besteht das Ziel darin, das Hintergrundsignal abzuschätzen. Somit kann dies nur durchgeführt werden, wenn in TNE und TNE' kein Near-End- und kein Far-End-Sprachsignal vorhanden ist. Demzufolge zeigte die VAD Einheit mit Hilfe des Signals NT (kein-Sprechen oder No-Talk) kein Near-End- und Far-End-Signal an. Die VAD Entscheidungssignale NEST, DT und NT basieren auf der Beobachtung von zwei Signalen, die sich auf das nahe Ende bzw. das ferne Ende beziehen, in diesem Fall TNE' und RFE'.

Wie voranstehend erläutert schätzt die Hintergrund- Abschätzungseinrichtung BEST die spektralen Eigenschaften von TNE oder TNE' während NT ab. Diese Abschätzung kann wie in der ersten Ausführungsform parametrisch oder nicht- parametrisch sein. Die abgeschätzte spektrale Charakteristik des Hintergrunds wird an die ADJ Einheit geführt.

In der zweiten Ausführungsform besteht die Hauptaufgabe von ADJ darin, den Stärkungsfilter G so einzustellen, daß es den spektralen Inhalt von TNE', der sich auf das Hintergrundspektrum bezieht, verstärkt. Die Einstellungseinheit ADJ kann den Ausgang der Einrichtung BEST auch neu formen, so daß eine Einheitsübertragung (unity) während eines Near-End-Einzelsprechens, d. h. wenn ein Far End-Signal in dem Sendesignal TNE vorhanden ist, verwendet werden kann. Das erneute Formen des Ausgangs der Einrichtung (BEST) kann sich auch, wie in der ersten Ausführungsform, auf den Abschluß und auf den Start von Sprachsignalen beziehen. D. h., die Einstelleinheit ADJ kann die spektrale Form der besten Abschätzung allmählich abflachen, wenn NEST von dem VAD Block angezeigt wird. Wenn andererseits das Signal NEST keine Near-End-Sprache anzeigt und das Signal DT kein Doppelsprechen anzeigt, dann kann die flache spektrale Charakteristik von G allmählich erhöht werden, um das Hintergrundsignal in TNE' signifikant zu verstärken. Die DT Flagge (Flag) alleine kann verwendet werden, um das Filter G auf 1 einzustellen. Dies ist möglich, weil das Near End- Signal das Restecho in TNE' maskieren wird. Die ADJ Einheit kann natürlich aus einer Einrichtung zum Einstellen des Filters G bei einer gegebenen zusätzlichen Information, die sich auf die Sprachaktivität der Far-End- und Near-End- Signale bezieht, betrachtet werden.

In der ersten Ausführungsform der vorliegenden Erfindung wird ein Filter G so ausgelegt, daß es spektrale Eigenschaften dämpft, die sich auf das Far End-Signal beziehen. Der Einfachheit halber kann angenommen werden, daß ein Filter, das gemäß der ersten Ausführungsform bestimmt wird, ein Filter mit nur Nullen (All Zero Filter FIR) ist, welches folgendermaßen dargestellt werden kann:

In der zweiten Ausführungsform wird das berechnete und eingestellte Filter G verwendet, um das Hintergrundsignal, d 17216 00070 552 001000280000000200012000285911710500040 0002019935808 00004 17097as sich auf die Near-End-Seite bezieht, hervorzuheben, d. h. zu verstärken. Dieses Filter kann als ein Filter mit nur Polen abgeschätzt werden (All-Pole-Filter), das folgendermaßen dargestellt wird:

Natürlich ist es möglich, die erste und zweite Ausführungsform zu kombinieren, um so ein Filter zu erhalten, das das Far-End-Signal dämpft und das Hintergrundsignal hervorhebt, d. h. verstärkt. Das erhaltene Filter kann als G verwendet werden und es wird typischerweise ein Filter mit einer unendlichen Impulsantwort (Infinite Impulse Response IIR) sein:

Deshalb kann die erste und zweite Ausführungsform kombiniert werden, d. h. die Entfernung des spektralen Inhalts, der sich auf das Far End-Signal bezieht, kann gleichzeitig mit der Hervorhebung, d. h. Verstärkung des spektralen Inhalts des Sendesignals ausgeführt werden. D. h., der spektrale Inhalt, der sich auf das Far-End-Signal bezieht, wird entfernt und der Hintergrundspektralinhalt, der sich auf das Near-End- Signal (bestimmt in Sprachpausen) bezieht, wird hervorgehoben (das Modell wird in den Sprachpausen bestimmt und die Verstärkung kann in den Sprachpausen und/oder während einer Sprachaktivität stattfinden).

DRITTE AUSFÜHRUNGSFORM DER ERFINDUNG

Auch eine Rauscherzeugungseinrichtung NGM', ähnlich zu der in Fig. 2-2 gezeigten, kann im Zusammenhang mit der Erfindung gemäß der dritten Ausführungsform verwendet werden. In der dritten Ausführungsform kann eine zusätzliche Rauscherzeugungseinrichtung NGM im wesentlichen an dem Ausgang der Echounterdrückungseinrichtung EC vorgesehen werden, wo ein zusätzlicher Addierer ADD2 angeordnet ist, wie in Fig. 5-0 und 5-3 gezeigt.

D. h., in der in dem Blockdiagramm der Fig. 5-3 dargestellten dritten Ausführungsform wird der Addierer ADD2 verwendet. Im Gegensatz zur Fig. 2-2 oder 2-3 sei jedoch darauf hingewiesen, daß der injizierte Rauschprozeß sich nicht direkt auf den Hintergrundrauschprozeß bezieht und außerdem das Rauschen nicht geschaltet wird. Der injizierte Rauschprozeß basiert auf dem Hintergrundspektrum, aber auch gewichtet und Verwendung von TNE'. Die Gewichtung wird verwendet, um das Restecho durch einen Rauschprozeß zu maskieren. Der Maskierungsschwellwert wird in einer ähnlichen Weise berechnet, wie in J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria", IEEE Journal on selected areas in communications, S. 314-323, vol. 6, Februar 1988, beschrieben ist. Im Prinzip kann die Gewichtungsfunktion wie folgt berechnet werden.

1. Berechnen des spektralen Inhalts von TNE' unter Verwendung einer barken Skala (Bark Scale) auf Grundlage von M Abtastwerten, wobei M wenigstens 320 ist;
2. Falten der Spreizfunktion mit dem Bark-Spektrum von TNE';
3. erneute Normalisierung des Ergebnisses bezüglich der Spreizfunktion.
4. Vergleichen des abgeschätzten Hintergrundspektrums (unter Verwendung einer barken Skala), BEST in Fig. 5-3, mit dem Ergebnis des Schritts 3.
5. Erhöhen der Amplituden des Hintergrundspektrums in den Fällen, bei denen der Schritt 3 im Sinne des Schritts 4 größer ist.

Grundlegend zielt die obige Prozedur darauf ab, die spektrale Energie der Hintergrundspektralabschätzung in Bereichen zu erhöhen, an denen das Restecho Leistung beiträgt. Das Ergebnis des Schritts 3 kann als ein Maskierungs-Schwellwert angesehen werden, der anzeigt, daß zusätzliche Rauschpegel oberhalb des Schwellwerts wahrgenommen werden.

In der Tat muß der Schwellwert nicht notwendigerweise adaptiv sein, z. B. nicht bei jedem Rahmen neu berechnet werden. Die Kenntnis des durchschnittlichen Restecho-Spektralinhalts kann ebenfalls für eine gute Berechnung dienen.

Somit ist der erhaltene gesamte Prozeß nahe zu dem Hintergrundsignal, aber noch mit Informationen bezüglich des Far-End-Signals RFE.

Ferner sollte es deutlich sein, daß das hinzugefügte Rauschsignal eine abgeschätzte Version des Hintergrundsignals ist, das einen überlagerten zusätzlichen Rauschprozeß aufweist, der sich auf die spektrale Form (Lang- oder Kurzzeit) des Restechos bezieht.

Der Hauptvorteil einer Hinzufügung eines Rauschprozesses zu dem Subtrahiererausgangssighal TNE' läßt sich zunächst durch Betrachtung des in Fig. 2-2 und Fig. 2-3 dargestellten Standes der Technik verstehen. Wie ersichtlich enthalten beide Figuren einen Schalter SW1, der von der gleichen Logik (dem Detektor VAD) gesteuert wird. Natürlich hängt das Betriebsverhalten zu einem großen Teil davon ab, wie gut die Steuerlogik arbeitet. D. h., wenn das in Fig. 2-2 und Fig. 2-3 verwendete System kein Near-End-Signal TNE anzeigt, wohingegen in der Tat ein Near-End-Signal TNE vorhanden ist, dann wird die Sprachnachricht in dem weitergegebenen Sendesignal TNE durch Rauschen ersetzt. Natürlich ist dieses Verhalten nicht erwünscht.

In der vorliegenden dritten Ausführungsform wird für den Fall, daß ein Near-End-Signal plötzlich in TNE' vorhanden ist, dieses Signal an die Far-End-Seite weitergegeben. Dies liegt hauptsächlich an der Tatsache, daß die Leistung des Addierers ADD2 im Durchschnitt gleich zu der Leistung von TNE' sein wird. Da die Berechnungen auf Grundlage einer relativen Langzeitbasis (z. B. unter Verwendung der gemittelten spektralen Information des Restecho-Signals) basieren, ist klar, daß es unwahrscheinlich ist, daß der Maskierungs-Schwellwert das Near End-Signal steckt, und zwar aufgrund des Unterschieds in der spektralen Form und der Leistung.

Schließlich ist klar, daß das Signal RFE' oder RFE verwendet werden kann, um den gewünschten Maskierungs-Schwellwert zu berechnen. Der Hauptvorteil einer Verwendung RFE' oder RFE besteht darin, daß niemals das Near-End-Signal in diesen Signalen auftritt. Somit muß der spektrale Inhalt RFE' oder RFE nur in einem Filter gefiltert werden, daß die Effekte des Echokompensators ED imitiert, um so ein Signal zu erhalten, welches spektral nahe zum Restsignal ist. Unter Verwendung dieses Ansatzes kann das injizierte Rauschsignal neu berechnet werden. Auch in der dritten Ausführungsform wird ein Near-End-Sprachaktivitätsdetektor VAD benötigt, wie in dem schematischen Blockschaltbild in Fig. 5-3 angedeutet, um Einzelsprechen/Doppelsprechen-Situationen zu erfassen.

In Fig. 5-0 ist das Gesamtprinzip der drei Ausführungsformen der vorliegenden Erfindung dargestellt. In dieser Figur ist ein Block, der als Steuereinheit CTL bezeichnet ist, gezeigt. Hinsichtlich der dritten Ausführungsform arbeitet die Steuerbox CTL, die in Fig. 6 gezeigt ist (die die Steuerbox in Kombination für Fig. 5-0 bis Fig. 5-3 zeigt), gemäß der voranstehend angegebenen Ausführungen. D. h., die Schwellwert- Berechnung basiert auf RFE' (RFE nicht angezeigt) und TNE'. Diese Information wird an das Modell zurückgeführt, das zum Erzeugen einer geeigneten Rauschsequenz hinsichtlich einer Gesamtverstärkung k und einer Einstellung der spektralen Form verwendet wird. Das Rohhintergrundsignal wird durch eine spektrale Abschätzung unter Verwendung von herkömmlichen Verfahren wie parametrischen oder nicht-parametrischen Verfahren, bestimmt. Es sei darauf hingewiesen, daß dies in Fig. 6 in einem Block geschieht, der mit "Hintergrund- Modellabschätzung" bezeichnet ist. Ferner zeigt das lokale VAD Signal über Far-End-Einzelsprechen (Far End Single Talk FEST) und Near-End-Einzelsprechen (Near End Single Talk NEST) an, wann das Signal TNE' (oder das Sendesignal TNE) für die Abschätzung des spektralen Inhalts zu verwenden ist.

WEITERE AUSFÜHRUNGSFORMEN DER ERFINDUNG

Wie voranstehend erläutert können die ersten bis dritten Ausführungsformen jeweils getrennt arbeiten, d. h. gemäß der ersten Ausführungsform wird der spektrale Inhalt des Empfangssignals entfernt, gemäß der zweiten Ausführungsform wird das Hintergrundrauschen hervorgehoben d. h. verstärkt und gemäß der dritten Ausführungsform wird ein Rauschprozeß injiziert.

Jedoch kann die erste und zweite Ausführungsform kombiniert werden d. h. die Entfernung des spektralen Inhalts kann mit der Hervorhebung des Hintergrundrauschens durch die zweite Ausführungsform kombiniert werden. D. h., der spektrale Inhalt, der sich auf das Far-End-Signal bezieht, wird entfernt und der Hintergrund-Spektralinhalt, der sich auf das Near-End-Signal (bestimmt in Sprachpausen) bezieht, wird hervorgehoben (in den Sprachpausen und/oder während einer Sprachaktivität).

Die dritte Ausführungsform kann zusammen mit der ersten und zweiten Ausführungsform verwendet werden. Z. B., wie in Fig. 5-0 gezeigt, kann vor dem Sprachcodierereingang ein zusätzlicher Addierer ADD2 angeordnet werden. Einer der zwei Eingänge an dem Addierer ADD2 ist die gedämpfte Version von TNE' (d. h. gedämpft gemäß der ersten und/oder zweiten Ausführungsform). Der zweite Eingang ist ein künstliches Hintergrundsignal NC. Nun wird das Signal TNE' bezüglich der Energie des Hintergrundsignals gedämpft, d. h.

wobei E_b ausgewertet wird, wenn kein Near-End- und kein Far- End-Signal vorhanden ist und x(n) das Signal TNE ist. Dann wird die folgende Operation ausgeführt:

wobei A ein synthetisches Hintergrundsignal aus AR + NG ist und das Filter G wie in der Ausführungsform 1 oder 2 ist. Es sei darauf hingewiesen, daß der Ausdruck x(n)G/√E_b skaliert ist, wohingegen A dies nicht ist. Demzufolge wird der Sprachcodierer ein Signal erhalten, welches von dem Hintergrundrauschen dominiert wird, sich aber nicht nur auf den Hintergrund bezieht.

Die dritte Ausführungsform kann mit der zweiten und/oder dritten Ausführungsform kombiniert werden. Die erste Ausführungsform berechnet ein Filter, welches spektral nahe zu der inversen des Restechosignals ist. Natürlich wird der Hauptteil des Restechos eliminiert. Jedoch kann es aufgrund von verschiedenen Beschränkungen, beispielsweise einer Nicht- Linearität des Lautsprechers, wünschenswert sein, die dritte Einrichtung als eine Vorgehensweise zu verwenden, um das Restecho vollständig zu beseitigen. Dies kann erreicht werden, indem der Ausgang von G an die Schwellwert- Berechnungseinstelleinheit ADJ zurückgekoppelt wird, wie in Fig. 6 gezeigt.

Wenn die dritte Ausführungsform mit der zweiten Ausführungsform kombiniert wird, kann die dritte Ausführungsform die Berechnung des Schwellwerts auf der Basis des Ausgangs des Filters G, so wie es gemäß der zweiten Ausführungsform eingestellt ist, ausführen.

Natürlich ist es in Kombination mit den Ausführungsformen der Erfindung möglich, die Echounterdrückungsverfahren zu verwenden, die unter Bezugnahme auf die Einrichtung NGM und die Einrichtung MSIDM erläutert wurden, die in den Fig. 2-1, 2-2 und 2-3 gezeigt sind, um die Echounterdrückung weiter zu verbessern.

Wie voranstehend erwähnt zeigt Fig. 6 die Wechselwirkung der drei Ausführungsformen. In Fig. 6 ist eine allgemeine Steuereinrichtung CTL gezeigt. Die Einheiten, die innerhalb der Steuereinrichtung CTL angeordnet sind, sind somit die Ansammlung der Einheiten, die in den Fig. 5-1, 5-2, 5-3 für die erste, zweite und dritte Ausführungsform gezeigt sind. Wie sich der Fig. 6 entnehmen läßt, umfaßt die Einstelleinrichtung ADJ zwei Blöcke, nämlich eine Schwellwert-Berechnungseinrichtung wie in der dritten Ausführungsform beschrieben und eine Kombinierereinrichtung. Die Kombinierereinrichtung kombiniert einen Zähler und einen Nenner der Modelle der ersten und zweiten Ausführungsform, wie mit Gleichung (12) angezeigt. Ferner kann der Kombinierer verwendet werden, um den Radius von Nullstellen und Polstellen der Filterfunktion g in Abhängigkeit von dem Status der VAD Ausgangssteuersignale NEST, FEST und DT (NT) kann aus diesen zwei Signalen abgeleitet werden) einzustellen. In dem Block NGM' kann eine zusätzliche Verstärkungskonstante k hinzugefügt werden. Die Verstärkungskonstante wird verwendet, um die Ausgangsleistung des Blocks NGM' einzustellen, wenn dies erforderlich ist. Das Signal MASK-AR ist das Maskierungsspektrum, das in der dritten Ausführungsform erzeugt wird und das an den Block NGM' und die AR Einheit gesendet wird.

GEWERBLICHE ANWENDBARKEIT DER ERFINDUNG

Wie voranstehend erläutert kann die vorliegende Erfindung in irgendeiner Transceiver-(Sender/Empfänger)-Einheit TRU eines Telekommunikationssystems TELE verwendet werden, und zwar unabhängig davon, ob der Kommunikationsprozeß eine drahtlose Kommunikation oder eine Drahtkommunikation ist. Ferner basiert die Erfindung im Prinzip auch nicht auf einer Rahmen weisen Verarbeitung für die Signale. Obwohl die akustische Kopplung der Hauptkopplungseffekt ist, der in der vorliegenden Erfindung betrachtet wird, können auch andere Restechos beseitigt werden, die durch ein kapazitive und/oder induktive Kopplung zwischen dem Empfangs- und dem Sendeteil verursacht werden. Während die Erfindung unter Bezugnahme auf Signale erläutert worden ist, die in einem Telekommunikations-Transceiver auftreten, ist klar, daß Signale von irgendeinem anderen System verwendet werden können, bei dem das Problem von geschlossenen Schleifen aufgrund einer Kopplung (was somit Echos erzeugt) existiert.

Ferner sei darauf hingewiesen, daß die Erfindung nicht auf die beschriebenen Ausführungsformenbeispiele beschränkt ist und daß der Umfang der Erfindung nicht durch die beigefügten Ansprüche begrenzt ist. Wie vorangehend erläutert kann die vorliegende Erfindung Ausführungsformen umfassen, die sich aus getrennt beschriebenen Merkmalen in den Ansprüchen und der Beschreibung ergeben. Deshalb sollten die voranstehend beschriebenen Ausführungsformen nur als das angesehen werden, was die Erfinder gegenwärtig als die beste Vorgehensweise zur Umsetzung der Erfindung ansehen.

Die Bezugszeichen in den Ansprüchen dienen nur Verdeutlichungszwecken und engen den Umfang der Erfindung nicht ein.

BEZUGSZEICHENLISTE

ADD Addierer (ADDer)
ADJ Einstellung (ADJusting)
ANT Antenne (ANTenna)
AR Autoregressiv (AutoRegressive) AR-PAR Autoregressiver Parameter (AutoRegressive- PARameter)
BEST Hintergrund-Abschätzungseinrichtung (Background ESTimator)
CNT Steuereinrichtung (CoNTroller)
COD Codierer (CODer)
DECOD Decodierer (DECODer)
DT Doppelsprechen (Double Talk)
DTX Diskontinuierliche Übertragung (Discontinuous Transmission)
EC Echokompensator (Echo Canceller)
EST Abschätzung (ESTimator)
FE Entferntes Ende (Far End)
FEEST Abschätzungseinrichtung für das entfernte Ende (Far End ESTimator)
FEST Einzelsprechen vom entfernten Ende (Far End Single Talk)
FR Volle Rate (Full Rate)
GC Filter-G-Steuerung (Filter G Control)
GSM Globalsystem für die Mobilkommunikation (Global System for Mobile communication)
INV Bildung einer Inversen (INVerse)
LAR Log-Bereichs-Verhältnis (Log Area Ratio)
MC Mikrofon (MiCrophone)
MSID SID herstellen (Make SID)
NC Rauschsteuerung (Noise Control)
NE Nahes Ende (Near End)
NEST Einzelsprechen am nahen Ende (Near End Single Talk)
NG Rauschgenerator (Noise Generator)
NGM Rauschgenerator-Einrichtung (Noise Generator Means)
NT Kein-Sprechen (No Talk)
PNG Pseudorauschgenerator (Pseudo Noise Generator)
RC Funkschaltungen (Radio Circuits)
RF Funkfrequenz (Radio Frequency)
RFE Vom entfernten Ende empfangen (Received Far End)
RFE' Vom entfernten Ende empfangen am Ausgang von H (Received Far End at output of H)
RFESC Sprachcodiert vom entfernten Ende empfangen (Received Far End Speech Coded)
RPE-LTP Reguläre Impulsanregungs-Langzeitvorhersage (Regular Pulse Excitation-Long Term Prediction)
ID Ruhebeschreiber (SIlence Descriptor)
SNG Synthetischer Rauschgenerator (Synthetic Noise Generator)
SP Lautsprecher (loud SPeaker)
SPECOD Sprach-Codierereinheit (SPEech CODer unit)
SW Schalter (SWitch) TELE Telefon (TELEphone)
TNE Vom nahen Ende gesendet (Transmitted Near End)
TNE' Vom nahen Ende gesendet nach EC(Transmitted Near End after EC)
TRU Sender/Empfänger-Einheit (TRansceiver Unit)
TR Sendeeinheit (TRansmitt unit)
TX Sender (Transmitter)
VAD Sprachaktivitätsdetektor (Voice Activity Detector)

Claims

1. Echounterdrückungseinrichtung (ECD) zum Unterdrücken von Echos, die durch Koppeln eines Empfangssignals (RFE), das von einer Empfangseinheit (RX) einer Sender/Empfänger-Einheit (TRU) eines Telekommunikationssystems (TELE) empfangen wird, zu einer Sendeeinheit (TR) davon verursacht werden, umfassend:

a) eine Übertragungsfunktions-Abschätzungseinrichtung (EST, H) zum Abschätzen der Kopplungsübertragungsfunktion (H) von der Empfangseinheit (RC, SP, RCRT) zu der Sendeeinheit (TR, MC, TCRT) und zum Verarbeiten des Empfangssignals (RFE) mit der abgeschätzten Kopplungsübertragungsfunktion (H);
b) einen Subtrahierer (ADD), um von dem Sendesignal (TNE), das ein Echosignal aufgrund der Kopplung des empfangenen Signals (RFE) zu der Sendeeinheit (MC, TCRT) umfaßt, das verarbeitete Empfangssignal (RFE') zu subtrahieren;
c) eine Restecho-Unterdrückungseinrichtung zum Unterdrücken von Restechos in dem Subtrahiererausgangssignal (ADD);

dadurch gekennzeichnet, daß

a) die Restecho-Unterdrückungseinrichtung ein Restechofilter (G) mit einer einstellbaren Filterfunktion (g) umfaßt, um von dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) die spektralen Charakteristiken zu entfernen, die sich auf das Empfangssignal (RFE) beziehen.

2. Einrichtung (ECD) nach Anspruch 1, gekennzeichnet durch eine Spektralinhalt-Bestimmungseinrichtung (CTL) zum Empfangen des Empfangssignals (RFE) und/oder des Sendesignals (TNE), daß das Echosignal aufgrund der Kopplung des empfangenen Signals (RFE) zu der Sendeeinheit (MC, TCRT) enthält, und/oder des verarbeiteten Empfangssignals (RFE') und/oder des Subtrahiererausgangssignals (TNE'), zum Bestimmen des Spektralinhalts, der sich auf das Empfangssignal (RFE) bezieht, auf Grundlage von einem oder mehreren dieser Signale, und zum Einstellen der Filterfunktion (g) des Restechofilters (G) in Abhängigkeit von dem bestimmten spektralen Inhalt.

3. Einrichtung (ECD) nach Anspruch 2, dadurch gekennzeichnet, daß die Spektralinhalt- Bestimmungseinrichtung (CTL) einen Sprachaktivitätsdetektor (VAD) zum Bestimmen einer Sprachaktivität in dem Sendesignal (TNE), das das Echosignal enthält, und/oder in dem verarbeiteten Empfangssignal (RFE') und/oder in dem Subtrahiererausgangssignal (TNE'), wobei die Spektralinhalt-Bestimmungseinrichtung (CTL) einen spektralen Inhalt, der sich auf das Empfangssignal bezieht, in dem Sendesignal (TNE), das das Echosignal enthält und/oder in dem Subtrahiererausgangssignal (TNE), das das Echosignal enthält und/oder in dem Subtrahiererausgangssignal (TNE') nur dann bestimmt, wenn der Sprachaktivitätsdetektor (VAD) keinerlei Sprachaktivität in diesen Signalen erfaßt.

4. Einrichtung (ECD) nach Anspruch 2, dadurch gekennzeichnet, daß das Restechofilter (G) ein digitales Filter ist, dessen Filtercharakteristik durch einen Satz von einstellbaren Filterparametern bestimmt wird.

5. Einrichtung (ECD) nach Anspruch 4, dadurch gekennzeichnet, daß die Spektralinhalt- Bestimmungseinrichtung (CTL) eine spektrale Darstellung des jeweiligen Signals durch Abschätzen der Modellparameter eines linearen Modells (A(z^-1) von einem oder mehreren der Signale (RFE; TNE, RFE; RFE'; TNE') bestimmt, die Parameter einer Umkehrung des linearen Modells (A^-1) bestimmt und die einstellbaren Filterparameter auf die Parameter des inversen Modells (A^-1) einstellt, um den Spektralinhalt zu entfernen, der sich auf das Empfangssignal (RFE) bezieht.

6. Einrichtung (ECD) nach Anspruch 5, dadurch gekennzeichnet, daß das lineare Modell ein autoregressives (AG) Modell oder ein autoregressives exogenes (ARX) Modell aus dem Restecho von dem Far-End- Signal ist.

7. Einrichtung (ECD) nach Anspruch 5, dadurch gekennzeichnet, daß die Bestimmungseinrichtung (CTL) eine diskrete Fourier-Transformation (DFT) des Subtrahiererausgangssignals (TNE'), das das Restechosignal enthält, oder des Sendesignals (TNE), das das Echosignal enthält und eine diskrete Fourier- Transformation (DFT) des Empfangssignals (RFE) bestimmt und die Filterparameter auf Grundlage einer Subtraktion einer skalierten Version (a) der diskreten Fourier- Transformation (DFT) des Empfangssignals (RFE) von der diskreten Fourier-Transformation (DFT) des Sendesignals (TNE), das das Echosignal enthält, oder von der diskreten Fourier-Transformation (DFT) des Subtrahiererausgangssignals (TNE'), das das Restechosignal enthält, einstellt.

8. Einrichtung (ECD) nach Anspruch 7, dadurch gekennzeichnet, daß die Filteroperation, die durch Einstellen der Filterparameter des digitalen Filters erzielt wird, folgendermaßen bestimmt ist:
G(ω_i) = (1 - α . X(ω_i)/M(ω_i)) (2)
wobei G(ω_i) die diskrete Fourier-Transformation der Filterfunktion g ist, X(ω_i) die diskrete Fourier- Transformation des Empfangssignals ist, M(ω_i) die diskrete Fourier-Transformation des Sendesignals (TNE), das das Echosignal enthält, oder diskrete Fourier- Transformation (DFT) des Subtrahiererausgangssignals (TNE'), das das Restechosignal enthält, ist und (α) der Skalierungsfaktor ist.

9. Einrichtung (ECD) nach Anspruch 1, gekennzeichnet durch einen Einzel/Doppelsprechen-Detektor (VAD, DT) zum Erfassen einer Sprachaussendung indem Empfangssignal (RFE) und/oder dem Sendesignal(TNE), das das Echosignal aufgrund der Koplung des empfangenen Signals (RFE) zu der Sendeeinheit (MC, TCRT) enthält, und/oder dem verarbeiteten Empfangssignal (RFE') und/oder dem Subtrahiererausgangssignal (TNE'), um eine Sprachaktivität in dem Empfangs- und/oder Sendesignal zu bestimmen.

10. Einrichtung (ECD) nach Anspruch 9, dadurch gekennzeichnet, daß dann, wenn der Einzel/Doppelsprechen-Detektor (VAD, DT) eine Sprachaktivität im Empfangssignal und keine Sprachaktivität im Sendesignal bestimmt, die einstellbare Filterfunktion (g) von einer Steuerschaltung (CTL) auf eine All-Pass-Schaltung eingestellt wird;
dann, wenn der Einzel/Doppelsprechen-Detektor (VAD, DT) keine Sprachaktivität in dem Empfangssignal und den STart einer Sprachaktivität in dem Sendesignal bestimmt, wenn die einstellbare Filterfunktion (g) auf ein All-Pass- Schaltung gesteuert ist, dann die einstellbre Filterfunktion (g) in dem All-Pass-Zustand gehalten wird;
dann, wenn der Einzel/Doppelsprechen-Detektor (VAD, DT) eine Sprachaktivität in dem Sendesignal und den Start einer Sprachaktivität in dem Empfangssignal bestimmt, wenn die einstellbare Filterfunktion (g) auf eine All- Pass-Schaltung gesteuert ist, die einstellbare Filterfunktion (g) so gesteuert wird, daß der spektrale Inhalt zu einem gewissen Grad verringert wird;
dann, wenn der Einzel/Doppelsprechen-Detektor (VAD, DT) den Stop einer Sprachaktivität in dem Sendesignal und den Start einer Sprachaktivität in dem Empfangssignal bestimmt die einstellbare Filterfunktion (g) so gesteuert wird, daß der spektrale Inhalt entfernt wird.

11. Einrichtung (ECD) nach Anspruch 1, dadurch gekennzeichnet, daß die einstellbare Filterfunktion (g) ferner dafür ausgelegt ist, um in dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) den spektralen Inhalt des Hintergundsignals in dem Sendesignal (TNE, TNE'), das von der Sendeeinheit (TR), TCRT) gesendet wird, zu verstärken.

12. Einrichtung (ECD) nach Anspruch 11, dadurch gekennzeichnet, daß der Hintergrund-Spektralinhalt in Sprachpausen des Sendesignals (TNE, TNE') bestimmt wird und die Verstärkung in Sprachpausen und/oder während einer Sprache in dem Sendesignal (TNE, TNE') ausgeführt wird, während die Entfernungen des spektralen Inhalts, der sich auf das Empfangssignal (RFE) bezieht, zu sämtlichen Zeiten ausgeführt wird.

13. Einrichtung (ECD) nach Anspruch 1 oder 11, gekennzeichnet durch eine Rauscherzeugungseinrichtung (NGM', AR, ADD2), die dafür ausgelegt ist, um in das Filterausgangssignal (TNE') in einem Spektralbereich, der sich auf das Empfangssignal (RFE) bezieht, Rauschen hinzuzufügen, um Restechoszu maskieren.

14. Echounterdrückungseinrichtung (ECD) zum Unterdrücken von Echos, die durch Koppeln eines Empfangssignals (RFE), das von einer Empfangseinheit (RX) einer Sender/Empfänger-Einheit (TRU) eines Telekommunikationssystems (TELE) empfangen wird, zu einer Sendeeinheit (TR) davon verursacht werden, umfassend:

dadurch gekennzeichnet, daß

a) die Restecho-Unterdrückungseinrichtung (G) mit einer einsellbaren Filterfunktion (g) umfaßt, die dafür ausgelegt ist, um in dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) den spektralen Inhalt des Hintergundsignals in dem Sendesignal (TNE, TNE'), m das von der Sendeeinheit (TR, TCRT), gesendet wird, zu verstärken.

15. Einrichtung (ECD) nach Anspruch 14, gekennzeichnet durch eine Hintergrundsignalmodell-Bestimmungseinrichtung (CTL)zum Empfang des Sendesignals (TNE), das das Echosignal aufgrund der Kopplung des empfangenen Signals (RFE) zu der Sendeeinheit (MC, TCRT) enthält, und/oder des Subtrahiererausgangesignals (TNE'), um auf Grundlage von einem oder mehreren dieser Signale ein Hintergundsignalmodell zu bestimmen und um die Filterfunktion (g) des Restechofilters (G) in Abhängigkeit von dem bestimmten Hintergrundsignalmodell einzustellen, um den Hintergrundsignal-Spektralinhalt hervorzuheben.

16. Einrichtung (ECD) nach Anspruch 15, dadurch gekennzeichnet, daß die Hintergrundsignalmodell- Bestimmungseinrichtung (CTL) einen Sprachaktivitätsdetektor (VAD) zum Bestimmen einer Sprachaktivität, in dem Sendesignal (TNE), das das Echosignal enthält und/oder in dem Subtrahiererausgangssignal (TNE') zu bestimmen, wobei die Hintergrundsignalmodell-Bestimmungseinrichtung (CTL) ein Modell des Hintergrundsignals nur dann bestimmt, wenn der Sprachaktivitätsdetektor (VAD) keinerlei Sprachaktivität in den Signalen erfaßt.

17. Einrichtung (ECD) nach Anspruch 14, dadurch gekennzeichnet, daß die einstellbare Filterfunktion (g) ferner anpaßbar ist, um aus dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) die spektralen Eigenschaften zu entfernen, die sich auf das Empfangssignal (RFE) beziehen.

18. Einrichtung (ECD) nach Anspruch 14 oder 17, gekennzeichnet durch eine Rauscherzeugungseinrichtung (NGM'; AR, ADD2), die dafür ausgelegt ist, um in dem Filterausgangssignal (TNE') in einem Spektgralberiech, der sich auf das Empfangssignal (RFE) bezieht, Rauschen hinzuzufügen, um Restechos zu maskieren.

19. Echounterdrückungseinrichtung (ECD) zum Unterdrücken von Echos, die durch Koppeln eines Empfangssignals (RFE), das von einer Empfangseinheit (RX) einer Sender/Empfänger-Einheit (TRU) eines Telekommunikationssystems (TELE) empfangen wird, zu einer Sendeeinheit (TR) davon verursacht werden, umfassend:

dadurch gekennzeichnet, daß

a) die Restechounterdrückungseinrichtung (G), die ein Restechofilter (G) mit einer einstellbaren Filterfunktion (g) und eine Rauscherzeugungseinrichtung (NGM'; AR, ADD2) umfaßt, die dafür ausgelegt ist, um in dem Filterausgangssignal(TNE') in einem Spektralbereich, der sich auf das Empfangssignal (RFE) bezieht, Rauschen hinzuzufügen, um Restechos zu maskieren.

20. Einrichtung (ECD) nach Anspruch 19, gekennzeichnet durch eine Spektralinhalt-Bestimmungseinrichtung (CTL) zum Empfangen des Empfangssignals (RFE) und/oder des Sendesignals (TNE), das das Echosignal aufgrund der Kopplung des empfangenen Signals (RFE) zu der Sendeeinheit (MC, TCRT) umfaßt, und/oder des verarbeiteten Empfangssignals (RFE') und/oder des Subtrahiererausgangssignals (TNE'), um den Spektralbereich, der sich auf das Empfangssignal (RFE) bezieht, auf Grundlage von einem oder mehreren dieser Signale zu bestimmen.

21. Einrichtung (ECD) nach Anspruch 19, dadurch gekennzeichnet, daß die Filterfunktion (g) von einer Steuereinrichtung (CTL) eingestellt wird, um ein Allpass-Filter zu sein.

22. Einrichtung (ECD) nach Anspruch 19, dadurch gekennzeichnet, daß die Ruscherzeugungseinrichtung (NGM') eine AR-Modelleinheit (AR) umfaßt, die von einem Rauschgenerator (NG) angesteuert wird, wobei eine Einstelleinheit (ADJ) vorgesehen ist, um die AR-Einheit zu steuern, um eine spektralae Form einzustellen, die für das Maskieren des Restechos benötigt wird.

23. Einrichtung (ECD) nach Anspruch 19, dadurch gekennzeichnet, daß die einstellbare Filterfunktion (g) anpaßbar ist, um von dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) die spektralen Charakteristiken zu entfernen, die sich auf das Empfangssignal (RFE) beziehen.

24. Einrichtung (ECD) nach Anspruch 19 oder 23, dadurch gekennzeichnet, daß die einstellbare Filterfunktion (g) ferner anpaßbar ist, um in dem Subtrahiererausgangssignal (TNE') des Subtrahierers (ADD) den spektralen Inhalt des Hintergrundsignals in dem Sendesignal (TNE, TNE'), das von der Sendeeinheit (TR, TCRT) gesendet wird, zu verstärken.

25. Sender/Empfänger-Einheit (TRU) mit einer Echounterdrückungseinrichtung (EC) gemäß einem odere mehreren der Ansprüche 1-16, dadurch gekennzeichnet, daß die Empfangseinheit (RX; SP) einen Lautsprecher (SP) zum Ausgeben des Empfangssignals (RFE) umfaßt und die Sendeeinheit (TR, MC) ein Mikrophon (MC) umfaßt, das das Sendesignal (TNE) erzeugt, wobei die Echos durch eine akustische Kopplung zwischen dem Lautsprecher (SP) und dem Mikrophon (MC) verursacht wird.

26. Sender/Empfänger-Einheit (TRU) mit einer Echounterdrückungseinrichtung (ECD) nach einem oder mehreren der Ansprüche 1-17 und ein Sprachcodierer (COD) stromabwärts von der Echounterdrückungseinrichtung (ECD).