DE60021049T2

DE60021049T2 - Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung

Info

Publication number: DE60021049T2
Application number: DE60021049T
Authority: DE
Inventors: Andre J. Van Schyndel; Jeff Ottawa Lariviere; Rafik Ottawa Goubran
Original assignee: Nortel Networks Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1999-12-15
Filing date: 2000-12-15
Publication date: 2006-05-04
Anticipated expiration: 2020-12-16
Also published as: CA2328006A1; EP1109154A2; CA2328006C; US6718036B1; EP1109154A3; DE60021049D1; EP1109154B1

Description

Gebiet der Erfindung
Diese Erfindung bezieht sich auf die Echokompensation und insbesondere auf ein verbessertes Verfahren zur Durchführung einer akustischen Echokompensation in Sprachkommunikationsnetzwerken.
Hintergrund der Erfindung
In Sprachkommunikationsnetzwerken wird das digitale Sprachsignal abschließend von einer Quelle zu einem Ziel ausgesandt. Ein Hauptziel bei der Entwicklung von Sprachcodierern besteht in der weitestgehenden Verringerung der Anzahl von Bits, die erforderlich sind, um das Sprachsignal darzustellen, während gleichzeitig die Lesbarkeit der Sprache aufrechterhalten wird. Dieses Ziel hat zu der Entwicklung einer Klasse von eine niedrige Bitrate aufweisenden Vocodern (das heißt Sprachcodierern) geführt, die auf der Konstruktion eines Modells der Sprachquelle und der Aussendung der Modellparameter beruhen.
Auf dem Gebiet der Mobilkommunikationen beruhen die meisten Sprachcodierverfahren auf irgendeiner Variante der linearen prädiktiven Codierung (LPC), deren Hauptzweck darin besteht, die Menge an Bits zu verringern, die über einen Kanal ausgesandt werden. Ein linearer prädiktiver Codierer ist ein üblicher Vocoder, der wahrnehmungsmäßig bedeutsame Merkmale der Sprache direkt aus einer Zeit-Schwingungsform anstatt aus Frequenzspektren ableitet, wie dies Kanal- und Formanten-Vocoder tun.
Grundlegend analysiert ein LPC-Codierer eine Sprach-Schwingungsform, um ein sich zeitlich änderndes Modell der Stimmkanal-Erregung und der Übertragungsfunktion zu erzeugen. Ein Synthesizer in dem empfangenden Endgerät stellt die Sprache dadurch wieder her, dass die angegebene Erregung durch ein mathematisches Modell des Stimmkanals geleitet wird. Durch periodisches Aktualisieren der Parameter des Modells und der Spezifikation der Erregung passt sich der Synthesizer an Änderungen in jedem dieser Punkte an. Während irgendeines Spezifikations-Intervalls wird jedoch angenommen, dass der Stimmkanal einen linearen zeitlich unveränderlichen Prozess darstellt. Weil lediglich eine Handvoll von Parametern übertragen wird, ist die Sprach-Datenrate niedrig.
Diese Art der Sprachcodierung kann bei Anwendungen mit begrenzter Bandbreite verwendet werden, bei denen andere Techniken nicht verwendbar sind. Zusätzlich ergibt die LPC eine natürlicher klingende Sprache als rein Frequenzdomänenbasierte Vocoder.
Im Allgemeinen erzeugt der LPC-Codierer auf der Seite des Sprechers verschiedene Teile der Information, die zur Seite des Hörers ausgesandt werden, wo sie zur Rekonstruktion des ursprünglichen Sprachsignals verwendet werden. Diese Information besteht aus (a) der Art der Erregung, das heißt gesprochen oder nicht gesprochen, (b) Klangperiode (für gesprochene Erregung), (c) Verstärkungsfaktor und (d) Prädiktor-Koeffizienten (Parameter des Stimmkanal-Modells).
Auf dem Gebiet moderner Telekommunikationen ist die Freisprech-Telefonie immer mehr ein zunehmend wünschenwertes Merkmal. Freisprechtelefone sind in einer Vielzahl von Anwendungen wünschenwert, von Telefonkonferenz-Systemen zu Mobil-Zellulartelefonen und Multimedia-Endgeräten. Eine eine hohe Qualität aufweisende Vollduplex-Freisprechkommunikation ist jedoch schwierig zu erzielen. Bei diesen Systemen befinden sich der Lautsprecher und das Mikrofon typischerweise an einer von den Benutzern entfernten Stelle, so dass große Signalverstärkungen erforderlich sind, um bequeme Lautstärkepegel aufrechtzuerhalten. Diese großen festen Verstärkungen können zu einer elektroakustischen Instabilität führen. Bei manchen Freisprechsystemen sind das Mikrofon und der Lautsprecher in der gleichen akustischen Umhüllung angeordnet, um die Freisprecheinrichtung als eine einzige Tischaufsatz-Einheit zu vermarkten. In diesem Fall ergibt die große Verstärkung in Verbindung mit der engen Lautsprecher-Mikrofon-Kopplung einen großen Echopfad zurück zu dem Sprecher, der sich mit dem Freisprech-Endgerät unterhält. Derzeit wird großer Wert auf Kommunikationen auf der Grundlage von Sprache über das Internet-Protokoll (VoIP) gelegt, und bei dieser Umgebung können die Paket-Netzwerke eine erhebliche Verzögerung in dem Echopfad einführen (beispielsweise >>40 ms). Das verzögerte Echo kann in schwerwiegender Weise Konversationen beeinträchtigen.
Ein Beispiel einer bekannten Echounterdrückungs-Vorrichtung, die Echo von LPCcodierten Sprachsignalen ohne Synthetisieren eines Sprachsignals unterdrückt, ist in der WO-A-98/59431 beschrieben.
Es wurde eine Anzahl von Lösungen vorgeschlagen und gerätemäßig realisiert, um die Freisprech-Telefonie zu einer brauchbaren Technologie zu machen. Traditionell wurde angenommen, dass zwei Sprecher sich nicht gleichzeitig unterhalten, und damit erzielten anfängliche Freisprech-Endgeräte einen echofreien Betrieb dadurch, dass manuelle oder automatische geschaltete Verluste aufweisende Funktionen in den nicht verwendeten Sprachpfad eingeführt wurden. Dieses Verfahren erfordert irgendeine Art von Schalt-Entscheidungsmechanismus, um festzustellen, wer der am stärksten gewünschte Sprecher ist, und erfordert eine endliche Größe der Schaltzeit. Dieses Schalten kann als solches eine gewisse Beeinträchtigung hervorrufen, wobei in besonders merkbarer Weise Worte oder Sätze abgeschnitten oder zerhackt werden. Die Tatsache, dass lediglich ein Sprachpfad zu irgendeiner Zeit zur Verfügung steht, definiert diese Art von System als Halbduplex. Eine echte Vollduplex-Freisprech-Telefonie kann möglich sein, jedoch mit einer „Echokompensations"-Technologie. Echokompensatoren modellieren die Impulsantwort des akustischen Echopfades und synthesisieren eine Wiedergabe des tatsächlichen Echosignals zur Kompensation.
Echokompensatoren gibt es in zwei Arten. Leitungs- oder Hybrid- (Gabel-) Echokompensatoren kompensieren die Echos, die durch nicht perfekte Gabelschaltungseinrichtungen auf der Leitung hindurchlecken. Akustische Echokompensatoren (AEC's) kompensieren jedoch das akustische Echo, das an dem Mikrofon von dem Lautsprecher empfangen wird. Eine akustische Echokompensation ist ein schwierigeres und komplizierteres Problem als eine elektrische Gabelschaltungs-Echokompensation, und zwar aus verschiedenen Gründen: (a) der akustische Echopfad wird durch jede Bewegung innerhalb seiner akustischen Umgebungen beeinflusst, (b) die Länge der erforderlichen Kompensation ist sehr lang, (c) das Vorhandensein von Hintergrund-Schallstörungen in dem Raum, und (d) der akustische Echopfad weist in vielen Fällen nicht lineare Komponenten auf, von denen ein Beispiel der Lautsprecher sein kann. Diese Nichtlinearitäten können so weit bedeutsam sein, dass sie das Betriebsverhalten der modernsten Echokompensationsschemas beschränken.
AEC's verwenden allgemein adaptive Filter, um die von dem Lautsprecher gekoppelte Komponente von dem Mikrofonsignal mathematisch zu modellieren und zu beseitigen. Ein adaptives Filter wird zur Schaffung eines linearen Modells verwendet, das die beste Anpassung an den unbekannten Impulsgang des akustischen Echopfades darstellt. In der gesamten Geschichte der AEC-Realisierung hat der Algorithmus der kleinsten mittleren Quadrate (LMS) oder der Algorithmus der normalisierten kleinsten mittleren Quadrate (NLMS) in vielen Fällen das Verfahren der Wahl dargestellt, und zwar aufgrund seiner Einfachheit und der geringen Rechenanforderungen. In den letzten Jahren, in denen die verfügbare Verarbeitungsleistung angestiegen ist, wurden Algorithmen, die ein besseres Betriebsverhalten, wenn auch bei höherem Rechenaufwand bieten, stärker wünschenswert.
Ein derartiger Algorithmus, der ein besseres Betriebsverhalten bietet, ist das verallgemeinerte frequenzdomänenadaptive Mehrfachverzögerungs-Filter (GMDF). Weil der Algorithmus in der Frequenzdomäne arbeitet, ist eine getrennte Domänen-Transformationsstufe erforderlich. Daher ist eine gewisse Blockverarbeitung immer erforderlich, bevor die Filterung erfolgen kann. Dies führt Durchsatzverzögerungen ein, was unerwünscht ist, insbesondere in den Fällen, in denen die Kommunikationsverbindungsstrecke bereits eine Verzögerung einführt. Eine Verzögerung während der Konversationen verringert die Menge des von der Wahrnehmung her tolerierbaren Echos, wodurch dann die Betriebsleistungsanforderungen an die akustische Echo-Kompensationseinrichtung vergrößert werden.
Grundlegend für die Akzeptanz von Freisprechsystemen durch den Benutzer ist die Betriebsleistung der Algorithmen für die akustische Echokompensation und die Störunterdrückung. Aus diesen und anderen Gründen sind akustische Echokompensatoren ein Gebiet, das weiterhin von großem Interesse ist. Insbesondere sind Fragen bezüglich der Stabilität und der Konvergenzrate dieser Algorithmen der Gegenstand einer fortlaufenden Forschung. Die Konvergenzgeschwindigkeit ist die Zeit, die erforderlich ist, um eine eingeschwungene Fehlervarianz mittlerer Quadrate aus der Algorithmus-Initialisierung zu erreichen. Eine Vergrößerung der Konvergenztiefe und der Rate der Echokompensatoren sind Faktoren, die dazu beitragen, dass die maximal erzielbare Kompensation vergrößert wird.
Zusammenfassung der Erfindung
Die vorliegende Erfindung, wie sie in den beigefügten Ansprüchen beansprucht ist, stellt eine innovative Möglichkeit zur Durchführung einer akustischen Echokompensation in Telefon-Endgeräten, insbesondere in der Freisprech-Betriebsart dar, die zu einer verbesserten Betriebsleistung und einer verringerten Verarbeitungslast führt. Die meisten Sprachcodierungs-Algorithmen beruhen auf irgendeiner Variante der linearen prädiktiven Codierung (LPC), und Daten, die diese Transformation durchlaufen haben, weisen eine Form auf, die besser für die Echokompensation geeignet ist. Anstatt der Durchführung der Echokompensation in der Zeitdomäne wird der Echokompensator in der LPC-Domäne betrieben, was zu einem Prozess führt, der besser an die Sprachcharakteristiken angepasst ist.
Speziell werden ein Sprachsignal vom fernen Ende und die LPC-Parameter, aus denen es konstruiert ist, in Verbindung mit einem adaptiven Modell des akustischen Echopfades zwischen dem Lautsprecher und dem Mikrofon verwendet, um Schätzwerte der entsprechenden Echo-LPC-Parameter zu erzeugen. Die Echo-LPC-Parameter werden dann in einen üblichen LPC-Decodierer eingespeist, der einen Echtzeit-Schätzwert des Echosignals synthetisiert. Dieser Schätzwert des Echosignals wird von dem Mikrofonsignal subtrahiert, um die örtliche Sprache (am nahen Ende) zu isolieren. Auf diese Weise wird der akustische Echopfad nicht unnötigerweise in Bereichen modelliert, die für die Sprache nicht von Bedeutung sind und daher nicht zu der Sprachqualität beitragen.
Der Betrieb einer akustischen Echokompensation (AEC) auf der Grundlage der LPC-Parameter am Empfänger vor der Decodierungsstufe bietet einige wichtige Vorteile. Zunächst erzeugt der Sprachcodierungsprozess eine rauschartige „Erregungssequenz", die bei Verwendung als ein Eingang an einen NLMS-Algorithmus die Konvergenzrate beschleunigt. Zweitens können der akustische Echokompensator (AEC) und der LPC-Codierer einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen, weil die Domänentransformation (von den Zeit- zu den LPC-Parametern) bereits Teil der Codierungsstufe bildet. Zusätzlich kann ein Echo-Codebuch dazu verwendet werden, die erforderliche Erregungsfolge für den Echokompensationsprozess zu speichern, wodurch der adaptive Filterprozess auf ein einfaches Tabellen-Nachschlageverfahren reduziert wird.
Weiterhin haben die LPC-Transformationsdaten weniger Parameter und damit weniger Anzapfungen, und sie können daher aufgrund der direkten Verringerung der Bitrate wirkungsvoller sein. Außerdem beruhen die LPC-Raum-Koordinaten auf Spracheigenschaften. Der Spracheingang an die LPC-Transformation ist daher spektral breit, wodurch die LPC-Koordinaten mit einer Dichte stimuliert werden, die gleichförmiger ist, als in einer Fourier-Transformation oder in direkten Zeitfilter-Modellen. Dies führt zu einer schnelleren und gleichförmigeren Konvergenz des LPC-Echomodells. Schließlich ist die Betriebsleistung, die heute für Stör- und Echokompensatoren, die in der Zeitdomäne arbeiten verfügbar ist, das Ergebnis vieler Jahre von Forschung und Optimierung. Wenn diese Anstrengungen auf die vorliegende Erfindung angewandt werden, kann eine weiter verbesserte Betriebsleistung sicherlich in der Zukunft erreicht werden.
Weitere Gesichtspunkte und Merkmale der vorliegenden Erfindung werden für den Fachmann aus einer Betrachtung der folgenden Beschreibung spezieller Ausführungsformen der Erfindung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
Kurze Beschreibung der Zeichnungen
1 ist eine Darstellung eines physikalischen Systems, das eine übliche akustische Echo-Kompensationseinrichtung beinhaltet.
2 zeigt ein verallgemeinertes Modell einer akustischen Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung, die in der LPC-Domäne arbeitet.
3 zeigt ein vereinfachtes Modell einer akustischen Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung, die in der LPC-Domäne arbeitet.
4 zeigt die bevorzugte gerätemäßige Ausgestaltung einer in der LPC-Domäne arbeitenden Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung.
Beschreibung der bevorzugten Ausführungsformen
1 zeigt die Standard-Realisierung einer akustischen Echo-Kompensationseinrichtung in einem Sprach-Kommunikationssystem. Diese Konfiguration kann beispielsweise eine akustische Umgebung 5 darstellen, die einen Freisprech-Telefonapparat enthält, der mit einem Vollduplex-Kommunikationsnetzwerk verbunden ist. Ein LPC-Decodierer (LPC^–1) 2 synthetisiert das Sprachsignal am fernen Ende, f, das über einen Lautsprecher 3 in dem Telefonapparat wiedergegeben wird. Ein Mikrofon 4 in dem Telefonapparat erfasst ein Sprachsignal des nahen Endes, s, von einem sich am nahen Ende befindenden Benutzer 9, zusätzlich zu einem akustischen Echosignal, e, um ein zusammengesetztes Mikrofonsignal e+s zu erzeugen. Der Ausgang des LPC-Decodierers 2 wird weiterhin in eine akustische Echo-Kompensationseinrichtung (AEC) 6 eingespeist, die ein adaptives digitales Filter (ADF) 8 zur Erzeugung eines Schätzwertes des Echosignals ê einschließt. Der Schätzwert des Echosignals ê wird dann von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, so dass ein Signal ŝ verbleibt, das dem Sprachsignal am nahen Ende ohne das Echo angenähert ist. Die Annäherung des Sprachsignals ŝ am nahen Ende wird in einen LPC-Codierer 10 eingespeist, dessen Ausgang zu dem Ziel am fernen Ende ausgesandt werden kann.
In der Praxis kann das zusammengesetzte Mikrofonsignal e+s weiterhin ein Sprachsignal-Echo des nahen Endes (Nachhall) und ein Umgebungs-Störsignal des nahen Endes einschließen. Für die Zwecke der vorliegenden Erfindung werden der Nachhall und die Umgebungsstörungen am nahen Ende ignoriert, weil sie die Realisierung der Erfindung nicht beeinflussen.
Der Eingang des LPC-Decodierers 2 geht von dem fernen Ende des Netzwerkes aus und ist ein übertragener Bitstrom, der aus einer Folge von Datenrahmen besteht. Jeder Datenrahmen besteht aus einem Satz von LPC-Parametern, die von einem LPC-Codierer an dem fernen Ende des Netzwerkes extrahiert werden. Umgekehrt extrahiert der LPC-Codierer 10 LPC-Parameter von der Annäherung des Sprachsignals am nahen Ende, ŝ, die dann zu der Seite des fernen Benutzers des Netzwerkes ausgesandt werden können. In jedem Fall können die Parameter für einen vorgegebenen Rahmen der Sprache einen Satz von Prädiktor- Koeffizienten, ein Sprache/nicht-Sprache-Anzeigebit, einen Verstärkungsfaktor und einen Wert für die Klangperiode einschließen (wenn das Signal gesprochen wird).
Die Aussendung des Sprache/nicht-Sprache-Anzeigebits wird bei älteren Verfahren der LPC häufiger verwendet. In derartigen Fällen würde eine Erregungsfolge an dem empfangenden Ende auf der Grundlage der Sprache/nicht-Sprache-Entscheidung und der Klangperiode erzeugt. Wenn beispielsweise festgestellt wurde, dass das Sprachsegment nicht gesprochen wurde, so würde ein bandbegrenztes weißes Rauschen als die Erregungsfolge verwendet. Wenn festgestellt würde, dass das Sprachsegment gesprochen wurde, würde eine Folge von Impulsen mit der Klangperiode erzeugt. Neuere Versionen der LPC leiten jedoch entweder die Erregungssequenz direkt (in Form eines Erregungsvektors) weiter, oder sie leiten eine Index-Nummer weiter, wobei am empfangenden Ende ein Codebuch (das heißt eine Gruppe von Erregungsvektoren, die jeweils auf eine eindeutige Indexnummer bezogen sind) verwendet würde, um die gewünschte Erregungssequenz zu gewinnen. [R. Steele (Ed.), „Mobile Radio Communications", IEEE Press, New York, 1992, 1994, 1995, Kapitel 3.5.3 – Code-Excited Linear Prediction (CELP)]. In der nachfolgenden Beschreibung wird die neuere Version von LPC betrachtet, wobei sich Xf auf den Erregungsvektor bezieht. Es sollte jedoch verständlich sein, dass die hier beschriebenen Techniken auf verschiedene andere Verfahren der LPC durch den Fachmann angewandt werden können.
Die akustische Umgebung 5 kann ein Konferenzraum sein, der einen Benutzer am nahen Ende enthält. Aufgrund von Reflexionen in der akustischen Umgebung 5 und der engen Kopplung zwischen dem Lautsprecher 3 und dem Mikrofon 4 wird ein Teil des Sprachsignals vom fernen Ende, f, in Form eines Echosignals, e, von dem Mikrofon 4 des Gerätes zusätzlich zu dem Sprachsignal des nahen Endes, s, aufgefangen. Das Mikrofon 4 fängt daher unvermeidbar ein zusammengesetztes Signal e+s auf, das das Sprachsignal des nahen Endes plus dem Echosignal umfasst.
Das adaptive digitale Filter (ADF) 8 nimmt üblicherweise die Form eines sehr großen Transversalfilters an, das die Impulsantwort simuliert, die zwischen dem Lautsprecher 3 und dem Mikrofon 4 gekoppelt ist. In dieser Hinsicht wird eine adaptive Filterung angewandt, um die sich ändernde Impulsantwort der akustischen Umgebung 5 zu modellieren. In einfachen Ausdrücken heißt dies, dass das ADF 8 die Auswirkung der akustischen Umgebung 5 auf das Sprachsignal am fernen Ende, f, modelliert, um einen Schätzwert des wahren Echosignals, ê, zu liefern. Auf diese Weise kann eine Annäherung des Sprachsignals am nahen Ende, ŝ, isoliert und an das am entfernten Ende angeordnete Ziel frei von Echoeffekten ausgesandt werden.
2 zeigt die Betriebsweise einer akustischen Echo-Kompensationseinrichtung (AEC) in der LPC-Domäne gemäß der vorliegenden Erfindung. Bei dieser Realisierung werden LPC-Parameter des Sprachsignals des fernen Endes, die einen Erregungsvektor des fernen Endes, Xf, und einen Satz von LP-Koeffizienten des fernen Endes, wf, umfassen, über eine Datenverbindungsstrecke 20 zu einem ersten LPC-Decodierer (LPC^–1) 22 übertragen, der ein Sprachsignal, f, vom fernen Ende synthetisiert. Das Sprachsignal f vom entfernten Ende reagiert mit der Lautsprecher-Raummikrofon-Übertragungsfunktion 26, um ein zusammengesetztes Signal e+s zu erzeugen, das aus einem Echosignal e besteht, das zu einem Sprachsignal am nahen Ende, s, hinzuaddiert wird, um ein zusammengesetztes Signal e+s zu erzeugen. Der Ausgang des LPC-Decodierers (LPC^–1) 22 wird als ein Eingang an eine Echo-Abschätzeinheit 21 zurückgespeist, die einen ersten (H1) und einen zweiten (H2) Funktionsblock 27 bzw. 28 umfasst. Die LP-Koeffizienten, wf, des fernen Endes, der Erregungsvektor Xf des fernen Endes, und das Sprachsignal f des fernen Endes werden als Eingangssignale dem ersten Funktionsblock (H1) 27 zugeführt, der einen Schätzwert für den Echo-Erregungsvektor X ^e aus den Eingängen Xf, wf und f erzeugt. In ähnlicher Weise erzeugt der zweite Funktionsblock (H2) 28 einen Schätzwert der Echo-LP-Koeffizienten ŵe aus den Eingängen Xf, wf und f. Die Schätzwerte für den Echo-Erregungsvektor X ^e und die Echo-LP-Koeffiziente ŵe werden einem zweiten LPC-Decodierer (LPC^–1) 29 zugeführt, der einen Schätzwert des Echosignals ê synthetisiert. Der Schätzwert des Echosignals ê wird dann von dem zusammengesetzten Signal e+s subtrahiert, so dass lediglich eine Annäherung des Sprachsignals ŝ am nahen Ende verbleibt.
In 2 ist der LPC-Decodierer 22 so gezeigt, als ob er zwei getrennte Eingangsparameter Xf und wf hat. Diese Parameter werden tatsächlich als ein einzelner Bitstrom entlang der Datenverbindungsstrecke 20 übertragen, wie dies in
1 durch den Eingang des LPC-Decodierers 2 dargestellt ist. Die Lautsprecher-Raum-Mikrofon-Übertragungsfunktion 26 stellt die akustische Umgebung 5 nach 1 dar. Die Struktur der LPC-Decodierer 22, 29 ergibt sich direkt aus dem LPC-Prozess. Beispielsweise kann der LPC-Decodierer 22 aus einer ein flaches Spektrum aufweisenden Erregungsquelle und einem Spektral-Formungsfilter bestehen. Der LPC-Decodierer 22 verwendet den Erregungsvektor am fernen Ende, Xf, und die LP-Koeffizienten wf des fernen Endes, um eine Wiedergabe des Sprachsignals f am fernen Ende zu synthesisieren. Die Parameter, die die Erregungsquelle und das spektrale Formungsfilter des Decodierers definieren, werden periodisch aktualisiert, wodurch eine Anpassung an irgendwelche Änderungen erfolgt, die in der LPC-Analysestufe beobachtet werden. Auf diese Weise definiert die Beschreibung des Codierers auch den Decodierer. In ähnlicher Weise synthetisiert der LPC-Decodierer 29 einen Schätzwert des Echosignals ê auf der Grundlage der Eingänge X ^e und ŵe. Für den Rest der Beschreibung können die LPC-Decodierer einfach als „schwarze Kästen" betrachtet werden, die akustische Sprachsignale aus entsprechenden LPC-Parametern synthesisieren.
Im Gegensatz zu der verallgemeinerten Struktur nach 1 zeigt 3 eine vereinfachte Realisierung, bei der die LP-Koeffizienten des fernen Endes, wf, direkt als ein Schätzwert für die Echo-LP-Koeffizienten ŵe verwendet werden. Das heißt, dass die Komponenten in 3 identisch in ihrer Struktur und Funktion zu denen in 2 sind, jedoch mit der Ausnahme, dass der Funktionsblock (H2) nun fortgelassen ist. Der Ausgang einer Echo-Abschätzeinheit 31, nämlich der Echo-Erregungsvektor, X ^e, und die Echo-LP-Koeffizienten ŵe werden wiederum als ein Eingang einem LPC-Decodierer (LPC^–1) 39 zugeführt, der einen Schätzwert des Echosignals ê synthetisiert. Das abgeschätzte Echosignal wird dann von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, um eine Annäherung des Sprachsignals ŝ am nahen Ende zu liefern.
Die Funktionsblöcke 27 und 28 nach 2 und der Funktionsblock 37 nach 3 modellieren die Effekte des akustischen Echopfades auf die LPC-Parameter des fernen Endes und das Sprachsignal, um einen Schätzwert der entsprechenden Echo-LPC-Parameter zu erzeugen. Ausgehend von der verallgemeinerten Struktur nach 2 für den Fall, bei dem f stationär ist (das heißt wf ändert sich nicht über die Zeit) liefert der Funktionsblock (H1) 27 einen Schätzwert des Echo- Erregungsvektors X ^e in Ausdrücken von Xf, wf und f. Das Echosignal kann selbstverständlich als die Faltung des Sprachsignals des fernen Endes mit der Raum-Impulsantwort dargestellt werden. Einsetzen der entsprechenden LPC-Ausdrücke für das Echo und das Sprachsignal des fernen Endes in dieses Modell ergibt daher einen Schätzwert für den Echo-Erregungsvektor X ^e.
Speziell kann das Echo durch die Faltungssumme dargestellt werden:
worin h(j) für 0 ≤ j < L die Anzapfungen der Impulsantwort des akustischen Lautsprecher-Raum-Mikrofon-Pfades sind, L die Länge der Impulsantwort des akustischen Pfades ist, und f(n – j) das Sprachsignal des fernen Endes verzögert um j Abtastproben ist.
Das Sprachsignal f des fernen Endes kann in üblicher LPC-Form wie folgt ausgedrückt werden:
worin w_f(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Sprachsignals am fernen Ende sind, wobei M die Anzahl der Prädiktor-Koeffizienten, f(n – 1) das verzögerte Sprachsignal vom fernen Ende, und Xf(n) der Sprachsignal-Erregungsvektor des fernen Endes zum Zeitpunkt n ist. In ähnlicher Weise kann das Echosignal e in LPC-Form wie folgt dargestellt werden:
worin w_θ(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Echosignals, e(n – i) das um i Abtastproben verzögerte Echosignal und X_θ(n) der Erregungsvektor des Echosignals zu Zeit n ist.
Das Einsetzen der Gleichungen (2) und (3) in die Gleichung (1) und die Auflösung nach X_θ(n) ergibt einen Schätzwert für den Echo-Erregungsvektor X ^e. Das heißt:
In dem vereinfachten Modell nach 3 ist wf = ŵe, und es ist ersichtlich, dass sich die Gleichung (4) wie folgt reduziert:
Für ein nicht stationäres Sprachsignal am fernen Ende, f, (beispielsweise wf Änderungen alle 5 ms) ist eine rigorosere Analyse erforderlich. In jedem Fall wird der folgende Schätzwert für den Echo-Erregungsvektor gewonnen:
worin alle Ausdrücke mit Ausnahme von Y(n) in den Gleichungen (1) bis (3) definiert wurden, und worin:
ist, worin P die Blockgröße ist (beispielsweise ein 5 ms-Analyseblock mit einer 8 kHz-Abtastrate würde P = 8000·0,005 = 40) ergeben), S die Gesamtzahl der vorhergehenden erforderlichen Blöcke ist und durch S = floor[L – 1/P] definiert ist, worin floor[·] die Ganzzahl-Trunkierung auf die nächste ganze Zahl anzeigt, die kleiner oder gleich dem Ausdruck in Klammern ist L die Länge der Impulsantwort des akustischen Pfades ist, und worin w –s / f(i) für 1 ≤ i ≤ M die Prädiktions-Koeffizientenblöcke s des Sprachsignals am fernen Ende in der Vergangenheit anzeigt, wobei w –o / f(i) = w_f(i) ist.
In der vorstehenden Analyse wird lediglich ein Schätzwert des Echo-Erregungsvektors X ^e als eine Funktion von Xf, wf und f abgeleitet, weil die LP-Koeffizienten, wf, des fernen Endes direkt als ein Schätzwert für die Echo-LP-Koeffizienten ŵe verwendet werden können. Es sei jedoch bemerkt, dass eine Beziehung auch für einen Schätzwert eines Autokorrelationsvektors r ^e abgeleitet werden, von dem ein Schätzwert der LP-Koeffizienten, ŵe, durch eine Levinson-Durbin-Rekursion gewonnen werden kann. Der Funktionsblock (H2) 28, der in der Echo-Abschätzeinheit 21 nach 2 enthalten ist, stellt diesen Prozess dar.
In jedem Fall werden, sobald X ^e und ŵe gewonnen wurden, sie in einem LPC-Decodierer 29 oder 39 eingespeist, der einen Schätzwert des Echosignals ê synthetisiert. Dieser wird von dem zusammengesetzten Mikrofonsignal, e+s, subtrahiert, so dass eine Näherung des Sprachsignals, ŝ am nahen Ende verbleibt, wodurch der Echo-Kompensationsprozess abgeschlossen wird. Die Näherung des Sprachsignals ŝ am nahen Ende, das frei von Echoeffekten ist, kann dann analysiert werden, um entsprechende LPC-Parameter zur Aussendung an die Benutzerseite am entfernten Ende des Sprachnetzwerkes abzuleiten.
Es sei bemerkt, dass die Antwort des akustischen Echopfades, h(j) sich als solche dauernd beispielsweise aufgrund einer Bewegung des Benutzers am nahen Ende, ändern kann. In den meisten praktischen Systemen kann dann der akustische Echopfad dynamisch unter Verwendung irgendwelcher geeigneter adaptiver Filteralgorithmen modelliert werden. Wie dies weiter oben angegeben wurde, ist die traditionelle Lösung der Algorithmus der normalisierten kleinsten Fehlerquadrate (NLMS), und zwar aufgrund seiner Einfachheit und seiner niedrigen Rechenanforderungen.
Die 2 und 3 zeigen Ausgestaltungen der Erfindung, die lediglich eine Kurzzeit-Prädiktionsanalyse wiedergeben, die in der Codierstufe ausgeführt wurde. Allgemein wird jedoch eine Langzeit-Prädiktion in die LPC-Analyse eingefügt, um eine Periodizität aus dem Erregungsvektor zu beseitigen (die auf die Klangperiode des ursprünglichen Sprachsignals bezogen ist). In diesem Fall können die LPC-Decodierer aus einem Kurzzeit-Prädiktor-Synthesefilter in Kaskade mit einem Langzeit-Prädiktor-Synthesefilter bestehen. Dieses Kurzzeit-Synthesefilter modelliert die Kurzzeit-Korrelationen in dem Sprachsignal. In ähnlicher Weise modelliert das Langzeit-Prädiktorfilter die Langzeit-Korrelationen in dem Sprachsignal. Seine Parameter sind eine Verzögerung und ein Verstärkungsfaktor. Für periodische Signale entspricht die Verzögerung der Klangperiode; für nichtperiodische Signale ist die Verzögerung zufällig.
Bei diesem vollständigen Modell der Spracherzeugung kann das Sprachsignal des entfernten Endes durch die folgende allgemeine Funktion dargestellt werden:
worin f(n) die Sprache am fernen Ende zur Zeit n ist, w_f(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des fernen Endes sind, X_f(n) die Erregungssequenz am fernen Ende zur Zeit n ist, G_f der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende ist, und a_f die Langzeit-Prädiktor-Verzögerung des fernen Endes ist.
Entsprechend zeigt 4 die bevorzugte Ausgestaltung der Erfindung, die eine derartige Langzeit-Prädiktions-Analyse berücksichtigt. Tatsächlich ist die Ausgestaltung nach 4 nahezu identisch zu der nach 3, mit der Ausnahme, dass zusätzliche LPC-Parameter in der Form einer Verzögerung af und eines Verstärkungsfaktors Gf für das Langzeit-Prädiktorfilter eingefügt wurden. In diesem Fall werden wf, af, Gf, Xf entlang einer Datenverbindungsstrecke 40 zu einem LPC-Decodierer (LPC^–1) 42 ausgesandt, der ein Sprachsignal f des entfernten Endes rekonstruiert. Die Parameter wf, af, Gf, Xf und das Sprachsignal f des entfernten Endes werden in einen Funktionsblock (H4) 47 einer Echo-Abschätzeinheit 41 eingegeben, der die Wirkung des akustischen Echopfades auf diese modelliert, um einen Schätzwert des Echo-Erregungsvektors X ^e zu erzeugen. Der Schätzwert des Echo-Erregungsvektors kann durch Ausführen einer ähnlichen Analyse wie vorstehend sowohl für den stationären als auch den nicht, stationären Fall gewonnen werden.
Für den stationären Fall kann der Funktionsblock (H4) wie folgt vereinfacht werden:
Dies bedeutet, dass der Erregungsvektor des Echosignals durch einfaches Falten des Erregungsvektors der Sprache am entfernten Ende mit der Raum-Impulsantwort zurückgewonnen werden kann, und dass er nicht mehr auf die LPC-Parameter des Sprachsignals bezogen ist. Unglücklicherweise ist die bei der Ableitung der Gleichung (9) verwendete Vereinfachung lediglich für den stationären Fall gültig. Die Durchführung einer ausführlichen Analyse für den nicht stationären Fall ergibt Folgendes:
worin
die partielle Ableitung des Schätzwertes des Erregungsvektors des chosignals zur Zeit n bezüglich der j-ten Anzaptung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
worin G_f der Langzeit-Prädiktor-Verstärkungsfaktor des fernen Endes ist, a_f die Langzeit-Prädiktor-Verzögerung des fernen Endes (Klangperiode) ist, c = floor[a_f – n/P] und w –c–1 / f(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Sprachsignals am fernen Ende für c-1 Blöcke in der Vergangenheit sind.
Wie zuvor wird das Echosignal gezwungen, mit einem LPC-Modell übereinzustimmen, bei dem dessen LP-Koeffizienten direkt von den Sprachparametern am fernen Ende gewonnen werden (das heißt wf wird als Näherung für ŵe verwendet). In ähnlicher Weise werden die Verzögerung af und der Verstärkungsfaktor Gf des Langzeit-Prädiktor-Synthesefilters des entfernten Endes als direkte Schätzwerte für eine Echo-Langzeit-Prädiktor-Verzögerung, âe bzw. einen Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe verwendet. Die Schätzwerte des Echo-Erregungsvektors X ^e, die Echo-LP-Koeffizienten ŵe, der Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe und die Echo-Langzeit-Prädiktor- Verzögerung âe werden in einen LPC-Decodierer (LPC^–1) 49 eingespeist, der einen Schätzwert des Echosignals ê synthetisiert. Wie zuvor wird der Schätzwert des Echosignals ê von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, um den Echo-Kompensationsprozess abzuschließen, wodurch lediglich ein Schätzwert des Sprachsignals ŝ am nahen Ende verbleibt.
Im Allgemeinen gibt es eine Anzahl von theoretischen Möglichkeiten zur Erzielung einer Näherung des Sprachsignals am nahen Ende, die anders sind, als das einfache Subtrahieren des Schätzwertes des Echosignals von dem zusammengesetzten Mikrofonsignal. Beispielsweise besteht eine Alternative einer derartigen Zeitdomänen-Manipulation darin, den Echoschätzwert und das zusammengesetzte Mikrofonsignal in eine andere Domäne (beispielsweise die Frequenzdomäne) zu transformieren, die Signale in der gewählten Domäne zu manipulieren und dann das resultierende Signal zurück zur Zeitdomäne zurückzutransformieren. In ähnlicher Weise können auch andere Verfahren verwendet werden. Es sei bemerkt, dass obwohl das Ziel der Erfindung die weitestgehende Beseitigung des akustischen Echos am nahen Ende ist, das von dem Signal vom fernen Ende abgeleitet wird, in manchen Fällen die Wirkung einfach eine Verringerung des übertragenen akustischen Echos ist.
Der Betrieb einer akustischen Echo-Kompensationseinrichtung in der LPC-Domäne, das heißt der Betrieb mit den Filterkoeffizienten und der Erregungsfolge, bietet die Möglichkeit einer verbesserten Betriebsleistung aus mehreren Gründen. Erstens verbessert der Fortfall der Signalkorrelation über den LPC-Prozess die Konvergenzeigenschaften von adaptiven Filtern, die einfache Anpassungsalgorithmen verwenden, wie z. B. den Algorithmus mit den kleinsten Fehlerquadraten (LMS). Dies heißt mit anderen Worten, dass der LPC-Prozess eine rauschartige Erregungsfolge verwendet, die bei ihrer Verwendung als ein Eingang an einen NMLS-Algorithmus die Konvergenzrate beschleunigt. Zusätzlich können der AEC- und LPC-Codierer einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen. Das heißt, dass die Transformation in die Filterdomäne bereits als Teil des Codierprozesses durchgeführt wird und dies daher die Verarbeitungslast des Echo-Kompensationsprozesses verringert. Weitere mögliche Vorteile einer derartigen Lösung sind weiterhin zu erkennen.
Beispielsweise wurde die Durchführung der Echo-Kompensation in der Zeitdomäne und in geringerem Ausmaß in der Frequenzdomäne in großem Umfang durch Forscher in den letzten wenigen Jahren studiert. Die Betriebsleistung, die bis zum heutigen Tag erreicht wurde, ist das Ergebnis mehrerer Jahre von Forschung und Optimierung. Diese Erfindung stellt eine neue und unterschiedliche Weise der Betrachtung des Problems dar, die stärker an die Sprachcharakteristik angepasst ist. Es wird erwartet, dass dann die Betriebsleistung von AEC's gemäß der Erfindung in ähnlicher Weise verbessert werden kann, wenn derartige Anstrengungen ihrer Optimierung gewidmet werden.
Die Informationskompression in der LPC-Domäne ist das Ergebnis der Beseitigung von Informationen, die nicht mit Sprachmerkmale übereinstimmen. Die vorgeschlagene Erfindung versucht, das gleiche mit der Echo-Kompensationseinrichtung durchzuführen. Dies heißt mit anderen Worten, dass keine Notwendigkeit besteht, die Übertragungsfunktion in Bereichen zu modellieren, die für die Sprache nicht relevant sind und daher die Sprachqualität nicht beeinflussen.
Die Hauptvorteile dieser Erfindung liegen in dem Gebiet der Netzwerk- und akustischen Echo-Kompensation. Allgemein ist die Netzwerk-Echokompensation ähnlich der akustischen Echo-Kompensation, mit der Ausnahme, dass die Netzwerk-Echopfad-Charakteristiken nach der Herstellung einer Verbindung dazu neigen, stabiler zu sein, als für einen akustischen Echopfad. Netzwerk-Echokompensationseinrichtungen können daher am stärksten von dieser Lösung profitieren.
Weiterhin ist, obwohl die Erfindung hauptsächlich zur Verwendung mit einem Endgerät in einer Freisprechbetriebsart bestimmt ist, die Erfindung auch in einigen Endgeräten verwendbar, die keine Freisprechbetriebsart aufweisen, die jedoch eine unerwünschte akustische Kopplung zwischen dem Kopfhörer und dem Mikrofon ergeben können.
Schließlich können adaptive Filtertechniken unter Verwendung verschiedener Messungen der Betriebsleistung verglichen werden, von denen zwei die Echodämpfungs-Verbesserung (ERLE) und die Systementfernung (D) sind. ERLE definiert den Unterschied der mittleren Leistung zwischen dem primären Signal und dem Fehlersignal. Derzeit den Stand der Technik darstellende AEC's scheinen auf einen eingeschwungenen Wert von ERLE von 25 dB beschränkt zu sein, obwohl mehr als 40 dB in der Praxis erwünscht ist. Der Systemabstand andererseits ist als die Differenz der kleinsten Quadrate zwischen der geschätzten Raum-Übertragungsfunktion und der tatsächlichen Raum-Übertragungsfunktion definiert. Die hier beschriebene Technik weist eine beträchtliche Verbesserung sowohl hinsichtlich der Konvergenztiefe als auch der Rate gegenüber der traditionellen NLMS-Lösung auf. Beispielsweise haben Simulationen eine Verbesserung von mehr als 14 dB in dem Systemabstand (D) und mehr als 8 dB hinsichtlich der ERLE verglichen mit NLMS-Techniken nach dem Stand der Technik erwiesen. Als ein Betriebsleistungmaß wird der Systemabstand üblicherweise gegenüber ERLE bevorzugt, weil er nicht von der Eingangs-Sprachcharakteristik abhängt und daher eine genauere Messung der Konvergenzrate ergibt.
Obwohl bevorzugte Ausführungsformen der Erfindung beschrieben und gezeigt wurden, ist es für den Fachmann verständlich, dass vielfältige Modifikationen, Abänderungen und Anpassungen durchgeführt werden können, ohne von dem Schutzumfang der Ansprüche abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims

Verfahren zur Kompensation eines Echosignals, das in einem zusammengesetzten Sprachsignal vorliegt, das das Echosignal und das Sprachsignal am nahen Ende enthält, zur Verwendung in einem Sprach-Kommunikationssystem, wobei sich das Echosignal aus einem Sprachsignal am fernen Ende ergibt, das sich entlang eines akustischen Echopfades auf einer Benutzerseite des nahen Endes des Systems ausbreitet, wobei das Sprachsignal am fernen Ende aus einem ersten Satz von Sprachsynthese-Parametern synthetisiert ist, wobei das Verfahren Folgendes umfasst: Hindurchleiten des ersten Satzes von Sprachsynthese-Parametern und des Sprachsignals am fernen Ende durch eine Echo-Abschätzeinheit, um hierdurch einen zweiten Satz von Sprachsynthese-Parametern zu erzeugen; Synthetisieren eines abgeschätzten Echosignals aus dem zweiten Satz von Sprachsynthese-Parametern; und zumindest Verringern der Größe des in dem zusammengesetzten Sprachsignal enthaltenen Echosignals unter Verwendung des abgeschätzten Echosignals.
Verfahren nach Anspruch 1, bei dem der erste Satz von Sprachsynthese-Parametern lineare prädiktive Codier- (LPC-) Parameter sind, die von einer Quelle am fernen Ende ausgesandt werden.
Verfahren nach Anspruch 2, bei dem die LPC-Parameter einen Erregungsvektor vom fernen Ende und einen Satz von linearen prädiktiven (LP-) Koeffizienten am fernen Ende umfassen.
Verfahren nach Anspruch 2, bei dem die LPC-Parameter einen Erregungsvektor am fernen Ende, einen Satz von LP-Koeffizienten des fernen Endes, einen Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende und eine Langzeit-Prädiktor-Verzögerung am fernen Ende umfassen.
Verfahren nach Anspruch 1, bei dem die zumindest Verringerung der Größe des Echosignals die Subtraktion des abgeschätzten Echosignals von dem zusammengesetzten Sprachsignal umfasst.
Verfahren nach Anspruch 3, bei dem die Echoabschätzeinheit einen abgeschätzten Satz von Echo-LP-Koeffizienten aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und einen geschätzten Echo-Erregungsvektor aus dem Erregungsvektor am entfernten Ende, dem Satz von LP-Koeffizienten am entfernten Ende und dem Sprachsignal am entfernten Ende erzeugt, wobei der abgeschätzte Satz von Echo-LP-Koeffizienten und der abgeschätzte Echo-Erregungsvektor der zweite Satz von Sprachsynthese-Parametern sind.
Verfahren nach Anspruch 3, bei dem die Echo-Abschätzeinheit einen abgeschätzten Echo-Erregungsvektor aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und den Satz von LP-Koeffizienten am fernen Ende direkt als einen abgeschätzten Satz von Echo-LP-Koeffizienten verwendet, wobei der abgeschätzte Satz von Echo-LP-Koeffizienten und der abgeschätzte Echo-Erregungsvektor der zweite Satz von Sprachsynthese-Parametern sind.
Verfahren nach Anspruch 4, bei dem die Echo-Abschätzeinheit einen abgeschätzten Echo-Erregungsvektor aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende, dem Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, der Langzeit-Prädiktor-Verzögerung am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und den Satz von LP-Koeffizienten am fernen Ende, den Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende und die Langzeit-Prädiktor-Verzögerung am fernen Ende direkt als einen abgeschätzten Satz von Echo-LP-Koeffizienten, einen abgeschätzten Echo-Langzeit-Prädiktor-Verstärkungsfaktor bzw. eine abgeschätzte Echo-Langzeit-Prädiktor-Verzögerung verwendet, wobei der abgeschätzte Echo-Erregungsvektor, die abgeschätzten Echo-LP-Koeffizienten, der abgeschätzte Echo-Langzeit-Prädiktor-Verstärkungsfaktor und die abgeschätzte Echo-Langzeit-Prädiktor-Verzögerung der zweite Satz von Sprachsynthese-Parametern sind.
Verfahren nach Anspruch 8, bei dem die Echo-Abschätzeinheit den abgeschätzten Echo-Erregungsvektor auf der Grundlage der folgenden Gleichung erzeugt:
worin
die partielle Ableitung des Abschätzwertes des Erregungsvektors es Echosignals zur Zeit n bezüglich der j-ten Anzapfung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
worin G^f der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, a^f die Langzeit-Prädiktor-Verzögerung am fernen Ende (Klangperiode), c = floor[a_f – n/P] und w –c–1 / f(i) für die 1 ≤ i ≤ M die linearen Prädiktor-Koeffizientenblöcke c-1 in der Vergangenheit des Sprachsignals am fernen Ende sind.
Echo-Kompensator zur Verbindung mit einem Telefon-Endgerät, das einen Lautsprecher, der ein Sprachsignal vom fernen Ende wiedergibt, ein Mikrofon, das ein zusammengesetztes Mikrofonsignal auffängt, das aus einem Sprachsignal am nahen Ende und einem Echo des Sprachsignals am fernen Ende besteht, und einen ersten Decodierer umfasst, der das Sprachsignal des fernen Endes aus einem ersten Satz von Sprachsynthese-Parametern synthetisiert, wobei die Echo-Kompensation eine Echo-Abschätzeinheit zur Verbindung mit einer Eingangsseite und einer Ausgangsseite des ersten Decoders, die so ausgebildet ist, dass sie einen zweiten Satz von Sprachsynthese-Parametern aus dem ersten Satz von Sprachsynthese-Parametern und dem Sprachsignal am fernen Ende erzeugt, einen zweiten Decoder, der mit einer Ausgangsseite der Echo-Abschätzeinheit verbunden und so ausgebildet ist, dass er ein abgeschätztes Echosignal aus dem zweiten Satz von Sprachsynthese-Parametern synthetisiert, und Einrichtungen umfasst, die mit einer Ausgangsseite des zweiten Decoders zumindest zur Verringerung der Größe des Echosignals verbunden sind, das in dem zusammengesetzten Mikrofonsignal enthalten ist, unter Verwendung des abgeschätzten Echosignals.
Freisprech-Telefonendgerät mit einer Echo-Kompensation nach Anspruch 10.
Endgerät nach Anspruch 11, bei dem der erste Satz von Sprachsynthese-Parametern lineare prädiktive Codier- (LPC-) Parameter sind, die von einer Quelle am fernen Ende ausgesandt werden.
Endgerät nach Anspruch 12, bei dem die LPC-Parameter einen Erregungsvektor des fernen Endes unter einem Satz von linearen prädiktiven (LP-) Koeffizienten des fernen Endes umfassen.
Endgerät nach Anspruch 12, bei dem die LPC-Parameter einen Erregungsvektor des fernen Endes, einen Satz von LP-Koeffizienten des fernen Endes, einen Langzeit-Prädiktor-Verstärkungsfaktor des fernen Endes und eine Langzeit-Prädiktor-Verzögerung des fernen Endes umfassen.
Endgerät nach Anspruch 10, bei dem die ersten und zweiten Decodieren identisch sind.
Endgerät nach Anspruch 15, bei dem die ersten und zweiten Decodierer ein Kurzzeit-Prädiktor-Synthesefilter in Kaskade mit einem Langzeit-Prädiktor-Synthesefilter umfassen.
Endgerät nach Anspruch 13, bei dem die Echo-Abschätzeinheit einen ersten Funktionsblock und einen zweiten Funktionsblock umfasst, wobei der erste Funktionsblock eine Eingangsseite, die zum Empfang des Erregungsvektors vom fernen Ende, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals am fernen Ende von der Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der erste Funktionsblock zur Erzeugung eines abgeschätzten Satzes von Echo-LP-Koeffizienten an seiner Ausgangsseite ausgebildet ist und wobei der zweite Funktionsblock eine Eingangsseite aufweist, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals des fernen Endes von der Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der zweite Funktionsblock zur Erzeugung eines abgeschätzten Echo-Erregungsvektors an seiner Ausgangsseite ausgebildet ist.
Endgerät nach Anspruch 13, bei dem die Echo-Abschätzeinheit einen Funktionsblock umfasst, der eine Eingangsseite, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals des fernen Endes von der Ausgangsseite des ersten Decoders angeschaltet ist, und eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der Funktionsblock so ausgebildet ist, dass er an seiner Ausgangsseite einen abgeschätzten Echo-Erregungsvektor erzeugt, und wobei die Ausgangsseite der Echo-Abschätzeinheit direkt zum Empfang des Satzes von LP-Koeffizienten des fernen Endes angeschaltet ist, der als ein abgeschätzter Satz von Echo-LP-Koeffizienten dient.
Endgerät nach Anspruch 14, bei dem die Echo-Abschätzeinheit einen Funktionsblock umfasst, der eine Eingangsseite, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes, des Langzeit-Prädiktor-Verstärkungsfaktors des fernen Endes, der Langzeit-Prädiktor-Verzögerung des fernen Endes und des Sprachsignals am fernen Ende von einer Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit einer Eingangsseite des zweiten Decoders verbunden ist, wobei der Funktionsblock zur Erzeugung, an seiner Ausgangsseite, eines abgeschätzten Echo-Erregungsvektors ausgebildet ist, und wobei die Ausgangsseite der Echo-Abschätzeinheit direkt zum Empfang des Satzes von LP-Koeffizienten des fernen Endes, des Langzeit-Prädiktor-Verstärkungsfaktors des fernen Endes und der Langzeit-Prädiktor-Verzögerung des fernen Endes angeschaltet ist, die als ein abgeschätzter Satz von Echo-LP-Koeffizienten, abgeschätzten Echo-Langzeit-Prädiktor-Verstärkungsfaktoren bzw. abgeschätzten Echo-Langzeit-Prädiktor-Verzögerungen dienen.
Endgerät nach Anspruch 19, bei dem der Funktionsblock den abgeschätzten Echo-Erregungsvektor auf der Grundlage der folgenden Gleichung erzeugt:
worin
die partielle Ableitung des Abschätzwertes des Erregungsvektors des Echosignals zur Zeit n bezüglich der j-ten Anzapfung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
worin G_f der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, a_f die Langzeit-Prädiktor-Verzögerung am fernen Ende (Klangperiode), c = floor[a_f – n/P] und w –c–1 / f(i) für die 1 ≤ i ≤ M die linearen Prädiktor-Koeffizientenblöcke c-1 in der Vergangenheit des Sprachsignals am fernen Ende sind.
Telefon-Handapparat mit einem Echo-Kompensator nach Anspruch 10.