DE60021049T2 - Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung - Google Patents

Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung Download PDF

Info

Publication number
DE60021049T2
DE60021049T2 DE60021049T DE60021049T DE60021049T2 DE 60021049 T2 DE60021049 T2 DE 60021049T2 DE 60021049 T DE60021049 T DE 60021049T DE 60021049 T DE60021049 T DE 60021049T DE 60021049 T2 DE60021049 T2 DE 60021049T2
Authority
DE
Germany
Prior art keywords
echo
far
far end
signal
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60021049T
Other languages
English (en)
Other versions
DE60021049D1 (de
Inventor
Andre J. Van Schyndel
Jeff Ottawa Lariviere
Rafik Ottawa Goubran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Nortel Networks Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nortel Networks Ltd filed Critical Nortel Networks Ltd
Application granted granted Critical
Publication of DE60021049D1 publication Critical patent/DE60021049D1/de
Publication of DE60021049T2 publication Critical patent/DE60021049T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Description

  • Gebiet der Erfindung
  • Diese Erfindung bezieht sich auf die Echokompensation und insbesondere auf ein verbessertes Verfahren zur Durchführung einer akustischen Echokompensation in Sprachkommunikationsnetzwerken.
  • Hintergrund der Erfindung
  • In Sprachkommunikationsnetzwerken wird das digitale Sprachsignal abschließend von einer Quelle zu einem Ziel ausgesandt. Ein Hauptziel bei der Entwicklung von Sprachcodierern besteht in der weitestgehenden Verringerung der Anzahl von Bits, die erforderlich sind, um das Sprachsignal darzustellen, während gleichzeitig die Lesbarkeit der Sprache aufrechterhalten wird. Dieses Ziel hat zu der Entwicklung einer Klasse von eine niedrige Bitrate aufweisenden Vocodern (das heißt Sprachcodierern) geführt, die auf der Konstruktion eines Modells der Sprachquelle und der Aussendung der Modellparameter beruhen.
  • Auf dem Gebiet der Mobilkommunikationen beruhen die meisten Sprachcodierverfahren auf irgendeiner Variante der linearen prädiktiven Codierung (LPC), deren Hauptzweck darin besteht, die Menge an Bits zu verringern, die über einen Kanal ausgesandt werden. Ein linearer prädiktiver Codierer ist ein üblicher Vocoder, der wahrnehmungsmäßig bedeutsame Merkmale der Sprache direkt aus einer Zeit-Schwingungsform anstatt aus Frequenzspektren ableitet, wie dies Kanal- und Formanten-Vocoder tun.
  • Grundlegend analysiert ein LPC-Codierer eine Sprach-Schwingungsform, um ein sich zeitlich änderndes Modell der Stimmkanal-Erregung und der Übertragungsfunktion zu erzeugen. Ein Synthesizer in dem empfangenden Endgerät stellt die Sprache dadurch wieder her, dass die angegebene Erregung durch ein mathematisches Modell des Stimmkanals geleitet wird. Durch periodisches Aktualisieren der Parameter des Modells und der Spezifikation der Erregung passt sich der Synthesizer an Änderungen in jedem dieser Punkte an. Während irgendeines Spezifikations-Intervalls wird jedoch angenommen, dass der Stimmkanal einen linearen zeitlich unveränderlichen Prozess darstellt. Weil lediglich eine Handvoll von Parametern übertragen wird, ist die Sprach-Datenrate niedrig.
  • Diese Art der Sprachcodierung kann bei Anwendungen mit begrenzter Bandbreite verwendet werden, bei denen andere Techniken nicht verwendbar sind. Zusätzlich ergibt die LPC eine natürlicher klingende Sprache als rein Frequenzdomänenbasierte Vocoder.
  • Im Allgemeinen erzeugt der LPC-Codierer auf der Seite des Sprechers verschiedene Teile der Information, die zur Seite des Hörers ausgesandt werden, wo sie zur Rekonstruktion des ursprünglichen Sprachsignals verwendet werden. Diese Information besteht aus (a) der Art der Erregung, das heißt gesprochen oder nicht gesprochen, (b) Klangperiode (für gesprochene Erregung), (c) Verstärkungsfaktor und (d) Prädiktor-Koeffizienten (Parameter des Stimmkanal-Modells).
  • Auf dem Gebiet moderner Telekommunikationen ist die Freisprech-Telefonie immer mehr ein zunehmend wünschenwertes Merkmal. Freisprechtelefone sind in einer Vielzahl von Anwendungen wünschenwert, von Telefonkonferenz-Systemen zu Mobil-Zellulartelefonen und Multimedia-Endgeräten. Eine eine hohe Qualität aufweisende Vollduplex-Freisprechkommunikation ist jedoch schwierig zu erzielen. Bei diesen Systemen befinden sich der Lautsprecher und das Mikrofon typischerweise an einer von den Benutzern entfernten Stelle, so dass große Signalverstärkungen erforderlich sind, um bequeme Lautstärkepegel aufrechtzuerhalten. Diese großen festen Verstärkungen können zu einer elektroakustischen Instabilität führen. Bei manchen Freisprechsystemen sind das Mikrofon und der Lautsprecher in der gleichen akustischen Umhüllung angeordnet, um die Freisprecheinrichtung als eine einzige Tischaufsatz-Einheit zu vermarkten. In diesem Fall ergibt die große Verstärkung in Verbindung mit der engen Lautsprecher-Mikrofon-Kopplung einen großen Echopfad zurück zu dem Sprecher, der sich mit dem Freisprech-Endgerät unterhält. Derzeit wird großer Wert auf Kommunikationen auf der Grundlage von Sprache über das Internet-Protokoll (VoIP) gelegt, und bei dieser Umgebung können die Paket-Netzwerke eine erhebliche Verzögerung in dem Echopfad einführen (beispielsweise >>40 ms). Das verzögerte Echo kann in schwerwiegender Weise Konversationen beeinträchtigen.
  • Ein Beispiel einer bekannten Echounterdrückungs-Vorrichtung, die Echo von LPCcodierten Sprachsignalen ohne Synthetisieren eines Sprachsignals unterdrückt, ist in der WO-A-98/59431 beschrieben.
  • Es wurde eine Anzahl von Lösungen vorgeschlagen und gerätemäßig realisiert, um die Freisprech-Telefonie zu einer brauchbaren Technologie zu machen. Traditionell wurde angenommen, dass zwei Sprecher sich nicht gleichzeitig unterhalten, und damit erzielten anfängliche Freisprech-Endgeräte einen echofreien Betrieb dadurch, dass manuelle oder automatische geschaltete Verluste aufweisende Funktionen in den nicht verwendeten Sprachpfad eingeführt wurden. Dieses Verfahren erfordert irgendeine Art von Schalt-Entscheidungsmechanismus, um festzustellen, wer der am stärksten gewünschte Sprecher ist, und erfordert eine endliche Größe der Schaltzeit. Dieses Schalten kann als solches eine gewisse Beeinträchtigung hervorrufen, wobei in besonders merkbarer Weise Worte oder Sätze abgeschnitten oder zerhackt werden. Die Tatsache, dass lediglich ein Sprachpfad zu irgendeiner Zeit zur Verfügung steht, definiert diese Art von System als Halbduplex. Eine echte Vollduplex-Freisprech-Telefonie kann möglich sein, jedoch mit einer „Echokompensations"-Technologie. Echokompensatoren modellieren die Impulsantwort des akustischen Echopfades und synthesisieren eine Wiedergabe des tatsächlichen Echosignals zur Kompensation.
  • Echokompensatoren gibt es in zwei Arten. Leitungs- oder Hybrid- (Gabel-) Echokompensatoren kompensieren die Echos, die durch nicht perfekte Gabelschaltungseinrichtungen auf der Leitung hindurchlecken. Akustische Echokompensatoren (AEC's) kompensieren jedoch das akustische Echo, das an dem Mikrofon von dem Lautsprecher empfangen wird. Eine akustische Echokompensation ist ein schwierigeres und komplizierteres Problem als eine elektrische Gabelschaltungs-Echokompensation, und zwar aus verschiedenen Gründen: (a) der akustische Echopfad wird durch jede Bewegung innerhalb seiner akustischen Umgebungen beeinflusst, (b) die Länge der erforderlichen Kompensation ist sehr lang, (c) das Vorhandensein von Hintergrund-Schallstörungen in dem Raum, und (d) der akustische Echopfad weist in vielen Fällen nicht lineare Komponenten auf, von denen ein Beispiel der Lautsprecher sein kann. Diese Nichtlinearitäten können so weit bedeutsam sein, dass sie das Betriebsverhalten der modernsten Echokompensationsschemas beschränken.
  • AEC's verwenden allgemein adaptive Filter, um die von dem Lautsprecher gekoppelte Komponente von dem Mikrofonsignal mathematisch zu modellieren und zu beseitigen. Ein adaptives Filter wird zur Schaffung eines linearen Modells verwendet, das die beste Anpassung an den unbekannten Impulsgang des akustischen Echopfades darstellt. In der gesamten Geschichte der AEC-Realisierung hat der Algorithmus der kleinsten mittleren Quadrate (LMS) oder der Algorithmus der normalisierten kleinsten mittleren Quadrate (NLMS) in vielen Fällen das Verfahren der Wahl dargestellt, und zwar aufgrund seiner Einfachheit und der geringen Rechenanforderungen. In den letzten Jahren, in denen die verfügbare Verarbeitungsleistung angestiegen ist, wurden Algorithmen, die ein besseres Betriebsverhalten, wenn auch bei höherem Rechenaufwand bieten, stärker wünschenswert.
  • Ein derartiger Algorithmus, der ein besseres Betriebsverhalten bietet, ist das verallgemeinerte frequenzdomänenadaptive Mehrfachverzögerungs-Filter (GMDF). Weil der Algorithmus in der Frequenzdomäne arbeitet, ist eine getrennte Domänen-Transformationsstufe erforderlich. Daher ist eine gewisse Blockverarbeitung immer erforderlich, bevor die Filterung erfolgen kann. Dies führt Durchsatzverzögerungen ein, was unerwünscht ist, insbesondere in den Fällen, in denen die Kommunikationsverbindungsstrecke bereits eine Verzögerung einführt. Eine Verzögerung während der Konversationen verringert die Menge des von der Wahrnehmung her tolerierbaren Echos, wodurch dann die Betriebsleistungsanforderungen an die akustische Echo-Kompensationseinrichtung vergrößert werden.
  • Grundlegend für die Akzeptanz von Freisprechsystemen durch den Benutzer ist die Betriebsleistung der Algorithmen für die akustische Echokompensation und die Störunterdrückung. Aus diesen und anderen Gründen sind akustische Echokompensatoren ein Gebiet, das weiterhin von großem Interesse ist. Insbesondere sind Fragen bezüglich der Stabilität und der Konvergenzrate dieser Algorithmen der Gegenstand einer fortlaufenden Forschung. Die Konvergenzgeschwindigkeit ist die Zeit, die erforderlich ist, um eine eingeschwungene Fehlervarianz mittlerer Quadrate aus der Algorithmus-Initialisierung zu erreichen. Eine Vergrößerung der Konvergenztiefe und der Rate der Echokompensatoren sind Faktoren, die dazu beitragen, dass die maximal erzielbare Kompensation vergrößert wird.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung, wie sie in den beigefügten Ansprüchen beansprucht ist, stellt eine innovative Möglichkeit zur Durchführung einer akustischen Echokompensation in Telefon-Endgeräten, insbesondere in der Freisprech-Betriebsart dar, die zu einer verbesserten Betriebsleistung und einer verringerten Verarbeitungslast führt. Die meisten Sprachcodierungs-Algorithmen beruhen auf irgendeiner Variante der linearen prädiktiven Codierung (LPC), und Daten, die diese Transformation durchlaufen haben, weisen eine Form auf, die besser für die Echokompensation geeignet ist. Anstatt der Durchführung der Echokompensation in der Zeitdomäne wird der Echokompensator in der LPC-Domäne betrieben, was zu einem Prozess führt, der besser an die Sprachcharakteristiken angepasst ist.
  • Speziell werden ein Sprachsignal vom fernen Ende und die LPC-Parameter, aus denen es konstruiert ist, in Verbindung mit einem adaptiven Modell des akustischen Echopfades zwischen dem Lautsprecher und dem Mikrofon verwendet, um Schätzwerte der entsprechenden Echo-LPC-Parameter zu erzeugen. Die Echo-LPC-Parameter werden dann in einen üblichen LPC-Decodierer eingespeist, der einen Echtzeit-Schätzwert des Echosignals synthetisiert. Dieser Schätzwert des Echosignals wird von dem Mikrofonsignal subtrahiert, um die örtliche Sprache (am nahen Ende) zu isolieren. Auf diese Weise wird der akustische Echopfad nicht unnötigerweise in Bereichen modelliert, die für die Sprache nicht von Bedeutung sind und daher nicht zu der Sprachqualität beitragen.
  • Der Betrieb einer akustischen Echokompensation (AEC) auf der Grundlage der LPC-Parameter am Empfänger vor der Decodierungsstufe bietet einige wichtige Vorteile. Zunächst erzeugt der Sprachcodierungsprozess eine rauschartige „Erregungssequenz", die bei Verwendung als ein Eingang an einen NLMS-Algorithmus die Konvergenzrate beschleunigt. Zweitens können der akustische Echokompensator (AEC) und der LPC-Codierer einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen, weil die Domänentransformation (von den Zeit- zu den LPC-Parametern) bereits Teil der Codierungsstufe bildet. Zusätzlich kann ein Echo-Codebuch dazu verwendet werden, die erforderliche Erregungsfolge für den Echokompensationsprozess zu speichern, wodurch der adaptive Filterprozess auf ein einfaches Tabellen-Nachschlageverfahren reduziert wird.
  • Weiterhin haben die LPC-Transformationsdaten weniger Parameter und damit weniger Anzapfungen, und sie können daher aufgrund der direkten Verringerung der Bitrate wirkungsvoller sein. Außerdem beruhen die LPC-Raum-Koordinaten auf Spracheigenschaften. Der Spracheingang an die LPC-Transformation ist daher spektral breit, wodurch die LPC-Koordinaten mit einer Dichte stimuliert werden, die gleichförmiger ist, als in einer Fourier-Transformation oder in direkten Zeitfilter-Modellen. Dies führt zu einer schnelleren und gleichförmigeren Konvergenz des LPC-Echomodells. Schließlich ist die Betriebsleistung, die heute für Stör- und Echokompensatoren, die in der Zeitdomäne arbeiten verfügbar ist, das Ergebnis vieler Jahre von Forschung und Optimierung. Wenn diese Anstrengungen auf die vorliegende Erfindung angewandt werden, kann eine weiter verbesserte Betriebsleistung sicherlich in der Zukunft erreicht werden.
  • Weitere Gesichtspunkte und Merkmale der vorliegenden Erfindung werden für den Fachmann aus einer Betrachtung der folgenden Beschreibung spezieller Ausführungsformen der Erfindung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine Darstellung eines physikalischen Systems, das eine übliche akustische Echo-Kompensationseinrichtung beinhaltet.
  • 2 zeigt ein verallgemeinertes Modell einer akustischen Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung, die in der LPC-Domäne arbeitet.
  • 3 zeigt ein vereinfachtes Modell einer akustischen Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung, die in der LPC-Domäne arbeitet.
  • 4 zeigt die bevorzugte gerätemäßige Ausgestaltung einer in der LPC-Domäne arbeitenden Echo-Kompensationseinrichtung gemäß der vorliegenden Erfindung.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 zeigt die Standard-Realisierung einer akustischen Echo-Kompensationseinrichtung in einem Sprach-Kommunikationssystem. Diese Konfiguration kann beispielsweise eine akustische Umgebung 5 darstellen, die einen Freisprech-Telefonapparat enthält, der mit einem Vollduplex-Kommunikationsnetzwerk verbunden ist. Ein LPC-Decodierer (LPC–1) 2 synthetisiert das Sprachsignal am fernen Ende, f, das über einen Lautsprecher 3 in dem Telefonapparat wiedergegeben wird. Ein Mikrofon 4 in dem Telefonapparat erfasst ein Sprachsignal des nahen Endes, s, von einem sich am nahen Ende befindenden Benutzer 9, zusätzlich zu einem akustischen Echosignal, e, um ein zusammengesetztes Mikrofonsignal e+s zu erzeugen. Der Ausgang des LPC-Decodierers 2 wird weiterhin in eine akustische Echo-Kompensationseinrichtung (AEC) 6 eingespeist, die ein adaptives digitales Filter (ADF) 8 zur Erzeugung eines Schätzwertes des Echosignals ê einschließt. Der Schätzwert des Echosignals ê wird dann von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, so dass ein Signal ŝ verbleibt, das dem Sprachsignal am nahen Ende ohne das Echo angenähert ist. Die Annäherung des Sprachsignals ŝ am nahen Ende wird in einen LPC-Codierer 10 eingespeist, dessen Ausgang zu dem Ziel am fernen Ende ausgesandt werden kann.
  • In der Praxis kann das zusammengesetzte Mikrofonsignal e+s weiterhin ein Sprachsignal-Echo des nahen Endes (Nachhall) und ein Umgebungs-Störsignal des nahen Endes einschließen. Für die Zwecke der vorliegenden Erfindung werden der Nachhall und die Umgebungsstörungen am nahen Ende ignoriert, weil sie die Realisierung der Erfindung nicht beeinflussen.
  • Der Eingang des LPC-Decodierers 2 geht von dem fernen Ende des Netzwerkes aus und ist ein übertragener Bitstrom, der aus einer Folge von Datenrahmen besteht. Jeder Datenrahmen besteht aus einem Satz von LPC-Parametern, die von einem LPC-Codierer an dem fernen Ende des Netzwerkes extrahiert werden. Umgekehrt extrahiert der LPC-Codierer 10 LPC-Parameter von der Annäherung des Sprachsignals am nahen Ende, ŝ, die dann zu der Seite des fernen Benutzers des Netzwerkes ausgesandt werden können. In jedem Fall können die Parameter für einen vorgegebenen Rahmen der Sprache einen Satz von Prädiktor- Koeffizienten, ein Sprache/nicht-Sprache-Anzeigebit, einen Verstärkungsfaktor und einen Wert für die Klangperiode einschließen (wenn das Signal gesprochen wird).
  • Die Aussendung des Sprache/nicht-Sprache-Anzeigebits wird bei älteren Verfahren der LPC häufiger verwendet. In derartigen Fällen würde eine Erregungsfolge an dem empfangenden Ende auf der Grundlage der Sprache/nicht-Sprache-Entscheidung und der Klangperiode erzeugt. Wenn beispielsweise festgestellt wurde, dass das Sprachsegment nicht gesprochen wurde, so würde ein bandbegrenztes weißes Rauschen als die Erregungsfolge verwendet. Wenn festgestellt würde, dass das Sprachsegment gesprochen wurde, würde eine Folge von Impulsen mit der Klangperiode erzeugt. Neuere Versionen der LPC leiten jedoch entweder die Erregungssequenz direkt (in Form eines Erregungsvektors) weiter, oder sie leiten eine Index-Nummer weiter, wobei am empfangenden Ende ein Codebuch (das heißt eine Gruppe von Erregungsvektoren, die jeweils auf eine eindeutige Indexnummer bezogen sind) verwendet würde, um die gewünschte Erregungssequenz zu gewinnen. [R. Steele (Ed.), „Mobile Radio Communications", IEEE Press, New York, 1992, 1994, 1995, Kapitel 3.5.3 – Code-Excited Linear Prediction (CELP)]. In der nachfolgenden Beschreibung wird die neuere Version von LPC betrachtet, wobei sich Xf auf den Erregungsvektor bezieht. Es sollte jedoch verständlich sein, dass die hier beschriebenen Techniken auf verschiedene andere Verfahren der LPC durch den Fachmann angewandt werden können.
  • Die akustische Umgebung 5 kann ein Konferenzraum sein, der einen Benutzer am nahen Ende enthält. Aufgrund von Reflexionen in der akustischen Umgebung 5 und der engen Kopplung zwischen dem Lautsprecher 3 und dem Mikrofon 4 wird ein Teil des Sprachsignals vom fernen Ende, f, in Form eines Echosignals, e, von dem Mikrofon 4 des Gerätes zusätzlich zu dem Sprachsignal des nahen Endes, s, aufgefangen. Das Mikrofon 4 fängt daher unvermeidbar ein zusammengesetztes Signal e+s auf, das das Sprachsignal des nahen Endes plus dem Echosignal umfasst.
  • Das adaptive digitale Filter (ADF) 8 nimmt üblicherweise die Form eines sehr großen Transversalfilters an, das die Impulsantwort simuliert, die zwischen dem Lautsprecher 3 und dem Mikrofon 4 gekoppelt ist. In dieser Hinsicht wird eine adaptive Filterung angewandt, um die sich ändernde Impulsantwort der akustischen Umgebung 5 zu modellieren. In einfachen Ausdrücken heißt dies, dass das ADF 8 die Auswirkung der akustischen Umgebung 5 auf das Sprachsignal am fernen Ende, f, modelliert, um einen Schätzwert des wahren Echosignals, ê, zu liefern. Auf diese Weise kann eine Annäherung des Sprachsignals am nahen Ende, ŝ, isoliert und an das am entfernten Ende angeordnete Ziel frei von Echoeffekten ausgesandt werden.
  • 2 zeigt die Betriebsweise einer akustischen Echo-Kompensationseinrichtung (AEC) in der LPC-Domäne gemäß der vorliegenden Erfindung. Bei dieser Realisierung werden LPC-Parameter des Sprachsignals des fernen Endes, die einen Erregungsvektor des fernen Endes, Xf, und einen Satz von LP-Koeffizienten des fernen Endes, wf, umfassen, über eine Datenverbindungsstrecke 20 zu einem ersten LPC-Decodierer (LPC–1) 22 übertragen, der ein Sprachsignal, f, vom fernen Ende synthetisiert. Das Sprachsignal f vom entfernten Ende reagiert mit der Lautsprecher-Raummikrofon-Übertragungsfunktion 26, um ein zusammengesetztes Signal e+s zu erzeugen, das aus einem Echosignal e besteht, das zu einem Sprachsignal am nahen Ende, s, hinzuaddiert wird, um ein zusammengesetztes Signal e+s zu erzeugen. Der Ausgang des LPC-Decodierers (LPC–1) 22 wird als ein Eingang an eine Echo-Abschätzeinheit 21 zurückgespeist, die einen ersten (H1) und einen zweiten (H2) Funktionsblock 27 bzw. 28 umfasst. Die LP-Koeffizienten, wf, des fernen Endes, der Erregungsvektor Xf des fernen Endes, und das Sprachsignal f des fernen Endes werden als Eingangssignale dem ersten Funktionsblock (H1) 27 zugeführt, der einen Schätzwert für den Echo-Erregungsvektor X ^e aus den Eingängen Xf, wf und f erzeugt. In ähnlicher Weise erzeugt der zweite Funktionsblock (H2) 28 einen Schätzwert der Echo-LP-Koeffizienten ŵe aus den Eingängen Xf, wf und f. Die Schätzwerte für den Echo-Erregungsvektor X ^e und die Echo-LP-Koeffiziente ŵe werden einem zweiten LPC-Decodierer (LPC–1) 29 zugeführt, der einen Schätzwert des Echosignals ê synthetisiert. Der Schätzwert des Echosignals ê wird dann von dem zusammengesetzten Signal e+s subtrahiert, so dass lediglich eine Annäherung des Sprachsignals ŝ am nahen Ende verbleibt.
  • In 2 ist der LPC-Decodierer 22 so gezeigt, als ob er zwei getrennte Eingangsparameter Xf und wf hat. Diese Parameter werden tatsächlich als ein einzelner Bitstrom entlang der Datenverbindungsstrecke 20 übertragen, wie dies in
  • 1 durch den Eingang des LPC-Decodierers 2 dargestellt ist. Die Lautsprecher-Raum-Mikrofon-Übertragungsfunktion 26 stellt die akustische Umgebung 5 nach 1 dar. Die Struktur der LPC-Decodierer 22, 29 ergibt sich direkt aus dem LPC-Prozess. Beispielsweise kann der LPC-Decodierer 22 aus einer ein flaches Spektrum aufweisenden Erregungsquelle und einem Spektral-Formungsfilter bestehen. Der LPC-Decodierer 22 verwendet den Erregungsvektor am fernen Ende, Xf, und die LP-Koeffizienten wf des fernen Endes, um eine Wiedergabe des Sprachsignals f am fernen Ende zu synthesisieren. Die Parameter, die die Erregungsquelle und das spektrale Formungsfilter des Decodierers definieren, werden periodisch aktualisiert, wodurch eine Anpassung an irgendwelche Änderungen erfolgt, die in der LPC-Analysestufe beobachtet werden. Auf diese Weise definiert die Beschreibung des Codierers auch den Decodierer. In ähnlicher Weise synthetisiert der LPC-Decodierer 29 einen Schätzwert des Echosignals ê auf der Grundlage der Eingänge X ^e und ŵe. Für den Rest der Beschreibung können die LPC-Decodierer einfach als „schwarze Kästen" betrachtet werden, die akustische Sprachsignale aus entsprechenden LPC-Parametern synthesisieren.
  • Im Gegensatz zu der verallgemeinerten Struktur nach 1 zeigt 3 eine vereinfachte Realisierung, bei der die LP-Koeffizienten des fernen Endes, wf, direkt als ein Schätzwert für die Echo-LP-Koeffizienten ŵe verwendet werden. Das heißt, dass die Komponenten in 3 identisch in ihrer Struktur und Funktion zu denen in 2 sind, jedoch mit der Ausnahme, dass der Funktionsblock (H2) nun fortgelassen ist. Der Ausgang einer Echo-Abschätzeinheit 31, nämlich der Echo-Erregungsvektor, X ^e, und die Echo-LP-Koeffizienten ŵe werden wiederum als ein Eingang einem LPC-Decodierer (LPC–1) 39 zugeführt, der einen Schätzwert des Echosignals ê synthetisiert. Das abgeschätzte Echosignal wird dann von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, um eine Annäherung des Sprachsignals ŝ am nahen Ende zu liefern.
  • Die Funktionsblöcke 27 und 28 nach 2 und der Funktionsblock 37 nach 3 modellieren die Effekte des akustischen Echopfades auf die LPC-Parameter des fernen Endes und das Sprachsignal, um einen Schätzwert der entsprechenden Echo-LPC-Parameter zu erzeugen. Ausgehend von der verallgemeinerten Struktur nach 2 für den Fall, bei dem f stationär ist (das heißt wf ändert sich nicht über die Zeit) liefert der Funktionsblock (H1) 27 einen Schätzwert des Echo- Erregungsvektors X ^e in Ausdrücken von Xf, wf und f. Das Echosignal kann selbstverständlich als die Faltung des Sprachsignals des fernen Endes mit der Raum-Impulsantwort dargestellt werden. Einsetzen der entsprechenden LPC-Ausdrücke für das Echo und das Sprachsignal des fernen Endes in dieses Modell ergibt daher einen Schätzwert für den Echo-Erregungsvektor X ^e.
  • Speziell kann das Echo durch die Faltungssumme dargestellt werden:
    Figure 00110001
    worin h(j) für 0 ≤ j < L die Anzapfungen der Impulsantwort des akustischen Lautsprecher-Raum-Mikrofon-Pfades sind, L die Länge der Impulsantwort des akustischen Pfades ist, und f(n – j) das Sprachsignal des fernen Endes verzögert um j Abtastproben ist.
  • Das Sprachsignal f des fernen Endes kann in üblicher LPC-Form wie folgt ausgedrückt werden:
    Figure 00110002
    worin wf(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Sprachsignals am fernen Ende sind, wobei M die Anzahl der Prädiktor-Koeffizienten, f(n – 1) das verzögerte Sprachsignal vom fernen Ende, und Xf(n) der Sprachsignal-Erregungsvektor des fernen Endes zum Zeitpunkt n ist. In ähnlicher Weise kann das Echosignal e in LPC-Form wie folgt dargestellt werden:
    Figure 00110003
    worin wθ(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Echosignals, e(n – i) das um i Abtastproben verzögerte Echosignal und Xθ(n) der Erregungsvektor des Echosignals zu Zeit n ist.
  • Das Einsetzen der Gleichungen (2) und (3) in die Gleichung (1) und die Auflösung nach Xθ(n) ergibt einen Schätzwert für den Echo-Erregungsvektor X ^e. Das heißt:
    Figure 00120001
  • In dem vereinfachten Modell nach 3 ist wf = ŵe, und es ist ersichtlich, dass sich die Gleichung (4) wie folgt reduziert:
    Figure 00120002
  • Für ein nicht stationäres Sprachsignal am fernen Ende, f, (beispielsweise wf Änderungen alle 5 ms) ist eine rigorosere Analyse erforderlich. In jedem Fall wird der folgende Schätzwert für den Echo-Erregungsvektor gewonnen:
    Figure 00120003
    worin alle Ausdrücke mit Ausnahme von Y(n) in den Gleichungen (1) bis (3) definiert wurden, und worin:
    Figure 00120004
    ist, worin P die Blockgröße ist (beispielsweise ein 5 ms-Analyseblock mit einer 8 kHz-Abtastrate würde P = 8000·0,005 = 40) ergeben), S die Gesamtzahl der vorhergehenden erforderlichen Blöcke ist und durch S = floor[L – 1/P] definiert ist, worin floor[·] die Ganzzahl-Trunkierung auf die nächste ganze Zahl anzeigt, die kleiner oder gleich dem Ausdruck in Klammern ist L die Länge der Impulsantwort des akustischen Pfades ist, und worin w –s / f(i) für 1 ≤ i ≤ M die Prädiktions-Koeffizientenblöcke s des Sprachsignals am fernen Ende in der Vergangenheit anzeigt, wobei w –o / f(i) = wf(i) ist.
  • In der vorstehenden Analyse wird lediglich ein Schätzwert des Echo-Erregungsvektors X ^e als eine Funktion von Xf, wf und f abgeleitet, weil die LP-Koeffizienten, wf, des fernen Endes direkt als ein Schätzwert für die Echo-LP-Koeffizienten ŵe verwendet werden können. Es sei jedoch bemerkt, dass eine Beziehung auch für einen Schätzwert eines Autokorrelationsvektors r ^e abgeleitet werden, von dem ein Schätzwert der LP-Koeffizienten, ŵe, durch eine Levinson-Durbin-Rekursion gewonnen werden kann. Der Funktionsblock (H2) 28, der in der Echo-Abschätzeinheit 21 nach 2 enthalten ist, stellt diesen Prozess dar.
  • In jedem Fall werden, sobald X ^e und ŵe gewonnen wurden, sie in einem LPC-Decodierer 29 oder 39 eingespeist, der einen Schätzwert des Echosignals ê synthetisiert. Dieser wird von dem zusammengesetzten Mikrofonsignal, e+s, subtrahiert, so dass eine Näherung des Sprachsignals, ŝ am nahen Ende verbleibt, wodurch der Echo-Kompensationsprozess abgeschlossen wird. Die Näherung des Sprachsignals ŝ am nahen Ende, das frei von Echoeffekten ist, kann dann analysiert werden, um entsprechende LPC-Parameter zur Aussendung an die Benutzerseite am entfernten Ende des Sprachnetzwerkes abzuleiten.
  • Es sei bemerkt, dass die Antwort des akustischen Echopfades, h(j) sich als solche dauernd beispielsweise aufgrund einer Bewegung des Benutzers am nahen Ende, ändern kann. In den meisten praktischen Systemen kann dann der akustische Echopfad dynamisch unter Verwendung irgendwelcher geeigneter adaptiver Filteralgorithmen modelliert werden. Wie dies weiter oben angegeben wurde, ist die traditionelle Lösung der Algorithmus der normalisierten kleinsten Fehlerquadrate (NLMS), und zwar aufgrund seiner Einfachheit und seiner niedrigen Rechenanforderungen.
  • Die 2 und 3 zeigen Ausgestaltungen der Erfindung, die lediglich eine Kurzzeit-Prädiktionsanalyse wiedergeben, die in der Codierstufe ausgeführt wurde. Allgemein wird jedoch eine Langzeit-Prädiktion in die LPC-Analyse eingefügt, um eine Periodizität aus dem Erregungsvektor zu beseitigen (die auf die Klangperiode des ursprünglichen Sprachsignals bezogen ist). In diesem Fall können die LPC-Decodierer aus einem Kurzzeit-Prädiktor-Synthesefilter in Kaskade mit einem Langzeit-Prädiktor-Synthesefilter bestehen. Dieses Kurzzeit-Synthesefilter modelliert die Kurzzeit-Korrelationen in dem Sprachsignal. In ähnlicher Weise modelliert das Langzeit-Prädiktorfilter die Langzeit-Korrelationen in dem Sprachsignal. Seine Parameter sind eine Verzögerung und ein Verstärkungsfaktor. Für periodische Signale entspricht die Verzögerung der Klangperiode; für nichtperiodische Signale ist die Verzögerung zufällig.
  • Bei diesem vollständigen Modell der Spracherzeugung kann das Sprachsignal des entfernten Endes durch die folgende allgemeine Funktion dargestellt werden:
    Figure 00140001
    worin f(n) die Sprache am fernen Ende zur Zeit n ist, wf(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des fernen Endes sind, Xf(n) die Erregungssequenz am fernen Ende zur Zeit n ist, Gf der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende ist, und af die Langzeit-Prädiktor-Verzögerung des fernen Endes ist.
  • Entsprechend zeigt 4 die bevorzugte Ausgestaltung der Erfindung, die eine derartige Langzeit-Prädiktions-Analyse berücksichtigt. Tatsächlich ist die Ausgestaltung nach 4 nahezu identisch zu der nach 3, mit der Ausnahme, dass zusätzliche LPC-Parameter in der Form einer Verzögerung af und eines Verstärkungsfaktors Gf für das Langzeit-Prädiktorfilter eingefügt wurden. In diesem Fall werden wf, af, Gf, Xf entlang einer Datenverbindungsstrecke 40 zu einem LPC-Decodierer (LPC–1) 42 ausgesandt, der ein Sprachsignal f des entfernten Endes rekonstruiert. Die Parameter wf, af, Gf, Xf und das Sprachsignal f des entfernten Endes werden in einen Funktionsblock (H4) 47 einer Echo-Abschätzeinheit 41 eingegeben, der die Wirkung des akustischen Echopfades auf diese modelliert, um einen Schätzwert des Echo-Erregungsvektors X ^e zu erzeugen. Der Schätzwert des Echo-Erregungsvektors kann durch Ausführen einer ähnlichen Analyse wie vorstehend sowohl für den stationären als auch den nicht, stationären Fall gewonnen werden.
  • Für den stationären Fall kann der Funktionsblock (H4) wie folgt vereinfacht werden:
    Figure 00140002
  • Dies bedeutet, dass der Erregungsvektor des Echosignals durch einfaches Falten des Erregungsvektors der Sprache am entfernten Ende mit der Raum-Impulsantwort zurückgewonnen werden kann, und dass er nicht mehr auf die LPC-Parameter des Sprachsignals bezogen ist. Unglücklicherweise ist die bei der Ableitung der Gleichung (9) verwendete Vereinfachung lediglich für den stationären Fall gültig. Die Durchführung einer ausführlichen Analyse für den nicht stationären Fall ergibt Folgendes:
    Figure 00150001
    worin
    Figure 00150002
    die partielle Ableitung des Schätzwertes des Erregungsvektors des chosignals zur Zeit n bezüglich der j-ten Anzaptung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
    Figure 00150003
    worin Gf der Langzeit-Prädiktor-Verstärkungsfaktor des fernen Endes ist, af die Langzeit-Prädiktor-Verzögerung des fernen Endes (Klangperiode) ist, c = floor[af – n/P] und w –c–1 / f(i) für 1 ≤ i ≤ M die linearen Prädiktor-Koeffizienten des Sprachsignals am fernen Ende für c-1 Blöcke in der Vergangenheit sind.
  • Wie zuvor wird das Echosignal gezwungen, mit einem LPC-Modell übereinzustimmen, bei dem dessen LP-Koeffizienten direkt von den Sprachparametern am fernen Ende gewonnen werden (das heißt wf wird als Näherung für ŵe verwendet). In ähnlicher Weise werden die Verzögerung af und der Verstärkungsfaktor Gf des Langzeit-Prädiktor-Synthesefilters des entfernten Endes als direkte Schätzwerte für eine Echo-Langzeit-Prädiktor-Verzögerung, âe bzw. einen Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe verwendet. Die Schätzwerte des Echo-Erregungsvektors X ^e, die Echo-LP-Koeffizienten ŵe, der Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe und die Echo-Langzeit-Prädiktor- Verzögerung âe werden in einen LPC-Decodierer (LPC–1) 49 eingespeist, der einen Schätzwert des Echosignals ê synthetisiert. Wie zuvor wird der Schätzwert des Echosignals ê von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, um den Echo-Kompensationsprozess abzuschließen, wodurch lediglich ein Schätzwert des Sprachsignals ŝ am nahen Ende verbleibt.
  • Im Allgemeinen gibt es eine Anzahl von theoretischen Möglichkeiten zur Erzielung einer Näherung des Sprachsignals am nahen Ende, die anders sind, als das einfache Subtrahieren des Schätzwertes des Echosignals von dem zusammengesetzten Mikrofonsignal. Beispielsweise besteht eine Alternative einer derartigen Zeitdomänen-Manipulation darin, den Echoschätzwert und das zusammengesetzte Mikrofonsignal in eine andere Domäne (beispielsweise die Frequenzdomäne) zu transformieren, die Signale in der gewählten Domäne zu manipulieren und dann das resultierende Signal zurück zur Zeitdomäne zurückzutransformieren. In ähnlicher Weise können auch andere Verfahren verwendet werden. Es sei bemerkt, dass obwohl das Ziel der Erfindung die weitestgehende Beseitigung des akustischen Echos am nahen Ende ist, das von dem Signal vom fernen Ende abgeleitet wird, in manchen Fällen die Wirkung einfach eine Verringerung des übertragenen akustischen Echos ist.
  • Der Betrieb einer akustischen Echo-Kompensationseinrichtung in der LPC-Domäne, das heißt der Betrieb mit den Filterkoeffizienten und der Erregungsfolge, bietet die Möglichkeit einer verbesserten Betriebsleistung aus mehreren Gründen. Erstens verbessert der Fortfall der Signalkorrelation über den LPC-Prozess die Konvergenzeigenschaften von adaptiven Filtern, die einfache Anpassungsalgorithmen verwenden, wie z. B. den Algorithmus mit den kleinsten Fehlerquadraten (LMS). Dies heißt mit anderen Worten, dass der LPC-Prozess eine rauschartige Erregungsfolge verwendet, die bei ihrer Verwendung als ein Eingang an einen NMLS-Algorithmus die Konvergenzrate beschleunigt. Zusätzlich können der AEC- und LPC-Codierer einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen. Das heißt, dass die Transformation in die Filterdomäne bereits als Teil des Codierprozesses durchgeführt wird und dies daher die Verarbeitungslast des Echo-Kompensationsprozesses verringert. Weitere mögliche Vorteile einer derartigen Lösung sind weiterhin zu erkennen.
  • Beispielsweise wurde die Durchführung der Echo-Kompensation in der Zeitdomäne und in geringerem Ausmaß in der Frequenzdomäne in großem Umfang durch Forscher in den letzten wenigen Jahren studiert. Die Betriebsleistung, die bis zum heutigen Tag erreicht wurde, ist das Ergebnis mehrerer Jahre von Forschung und Optimierung. Diese Erfindung stellt eine neue und unterschiedliche Weise der Betrachtung des Problems dar, die stärker an die Sprachcharakteristik angepasst ist. Es wird erwartet, dass dann die Betriebsleistung von AEC's gemäß der Erfindung in ähnlicher Weise verbessert werden kann, wenn derartige Anstrengungen ihrer Optimierung gewidmet werden.
  • Die Informationskompression in der LPC-Domäne ist das Ergebnis der Beseitigung von Informationen, die nicht mit Sprachmerkmale übereinstimmen. Die vorgeschlagene Erfindung versucht, das gleiche mit der Echo-Kompensationseinrichtung durchzuführen. Dies heißt mit anderen Worten, dass keine Notwendigkeit besteht, die Übertragungsfunktion in Bereichen zu modellieren, die für die Sprache nicht relevant sind und daher die Sprachqualität nicht beeinflussen.
  • Die Hauptvorteile dieser Erfindung liegen in dem Gebiet der Netzwerk- und akustischen Echo-Kompensation. Allgemein ist die Netzwerk-Echokompensation ähnlich der akustischen Echo-Kompensation, mit der Ausnahme, dass die Netzwerk-Echopfad-Charakteristiken nach der Herstellung einer Verbindung dazu neigen, stabiler zu sein, als für einen akustischen Echopfad. Netzwerk-Echokompensationseinrichtungen können daher am stärksten von dieser Lösung profitieren.
  • Weiterhin ist, obwohl die Erfindung hauptsächlich zur Verwendung mit einem Endgerät in einer Freisprechbetriebsart bestimmt ist, die Erfindung auch in einigen Endgeräten verwendbar, die keine Freisprechbetriebsart aufweisen, die jedoch eine unerwünschte akustische Kopplung zwischen dem Kopfhörer und dem Mikrofon ergeben können.
  • Schließlich können adaptive Filtertechniken unter Verwendung verschiedener Messungen der Betriebsleistung verglichen werden, von denen zwei die Echodämpfungs-Verbesserung (ERLE) und die Systementfernung (D) sind. ERLE definiert den Unterschied der mittleren Leistung zwischen dem primären Signal und dem Fehlersignal. Derzeit den Stand der Technik darstellende AEC's scheinen auf einen eingeschwungenen Wert von ERLE von 25 dB beschränkt zu sein, obwohl mehr als 40 dB in der Praxis erwünscht ist. Der Systemabstand andererseits ist als die Differenz der kleinsten Quadrate zwischen der geschätzten Raum-Übertragungsfunktion und der tatsächlichen Raum-Übertragungsfunktion definiert. Die hier beschriebene Technik weist eine beträchtliche Verbesserung sowohl hinsichtlich der Konvergenztiefe als auch der Rate gegenüber der traditionellen NLMS-Lösung auf. Beispielsweise haben Simulationen eine Verbesserung von mehr als 14 dB in dem Systemabstand (D) und mehr als 8 dB hinsichtlich der ERLE verglichen mit NLMS-Techniken nach dem Stand der Technik erwiesen. Als ein Betriebsleistungmaß wird der Systemabstand üblicherweise gegenüber ERLE bevorzugt, weil er nicht von der Eingangs-Sprachcharakteristik abhängt und daher eine genauere Messung der Konvergenzrate ergibt.
  • Obwohl bevorzugte Ausführungsformen der Erfindung beschrieben und gezeigt wurden, ist es für den Fachmann verständlich, dass vielfältige Modifikationen, Abänderungen und Anpassungen durchgeführt werden können, ohne von dem Schutzumfang der Ansprüche abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (21)

  1. Verfahren zur Kompensation eines Echosignals, das in einem zusammengesetzten Sprachsignal vorliegt, das das Echosignal und das Sprachsignal am nahen Ende enthält, zur Verwendung in einem Sprach-Kommunikationssystem, wobei sich das Echosignal aus einem Sprachsignal am fernen Ende ergibt, das sich entlang eines akustischen Echopfades auf einer Benutzerseite des nahen Endes des Systems ausbreitet, wobei das Sprachsignal am fernen Ende aus einem ersten Satz von Sprachsynthese-Parametern synthetisiert ist, wobei das Verfahren Folgendes umfasst: Hindurchleiten des ersten Satzes von Sprachsynthese-Parametern und des Sprachsignals am fernen Ende durch eine Echo-Abschätzeinheit, um hierdurch einen zweiten Satz von Sprachsynthese-Parametern zu erzeugen; Synthetisieren eines abgeschätzten Echosignals aus dem zweiten Satz von Sprachsynthese-Parametern; und zumindest Verringern der Größe des in dem zusammengesetzten Sprachsignal enthaltenen Echosignals unter Verwendung des abgeschätzten Echosignals.
  2. Verfahren nach Anspruch 1, bei dem der erste Satz von Sprachsynthese-Parametern lineare prädiktive Codier- (LPC-) Parameter sind, die von einer Quelle am fernen Ende ausgesandt werden.
  3. Verfahren nach Anspruch 2, bei dem die LPC-Parameter einen Erregungsvektor vom fernen Ende und einen Satz von linearen prädiktiven (LP-) Koeffizienten am fernen Ende umfassen.
  4. Verfahren nach Anspruch 2, bei dem die LPC-Parameter einen Erregungsvektor am fernen Ende, einen Satz von LP-Koeffizienten des fernen Endes, einen Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende und eine Langzeit-Prädiktor-Verzögerung am fernen Ende umfassen.
  5. Verfahren nach Anspruch 1, bei dem die zumindest Verringerung der Größe des Echosignals die Subtraktion des abgeschätzten Echosignals von dem zusammengesetzten Sprachsignal umfasst.
  6. Verfahren nach Anspruch 3, bei dem die Echoabschätzeinheit einen abgeschätzten Satz von Echo-LP-Koeffizienten aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und einen geschätzten Echo-Erregungsvektor aus dem Erregungsvektor am entfernten Ende, dem Satz von LP-Koeffizienten am entfernten Ende und dem Sprachsignal am entfernten Ende erzeugt, wobei der abgeschätzte Satz von Echo-LP-Koeffizienten und der abgeschätzte Echo-Erregungsvektor der zweite Satz von Sprachsynthese-Parametern sind.
  7. Verfahren nach Anspruch 3, bei dem die Echo-Abschätzeinheit einen abgeschätzten Echo-Erregungsvektor aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und den Satz von LP-Koeffizienten am fernen Ende direkt als einen abgeschätzten Satz von Echo-LP-Koeffizienten verwendet, wobei der abgeschätzte Satz von Echo-LP-Koeffizienten und der abgeschätzte Echo-Erregungsvektor der zweite Satz von Sprachsynthese-Parametern sind.
  8. Verfahren nach Anspruch 4, bei dem die Echo-Abschätzeinheit einen abgeschätzten Echo-Erregungsvektor aus dem Erregungsvektor am fernen Ende, dem Satz von LP-Koeffizienten am fernen Ende, dem Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, der Langzeit-Prädiktor-Verzögerung am fernen Ende und dem Sprachsignal am fernen Ende erzeugt und den Satz von LP-Koeffizienten am fernen Ende, den Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende und die Langzeit-Prädiktor-Verzögerung am fernen Ende direkt als einen abgeschätzten Satz von Echo-LP-Koeffizienten, einen abgeschätzten Echo-Langzeit-Prädiktor-Verstärkungsfaktor bzw. eine abgeschätzte Echo-Langzeit-Prädiktor-Verzögerung verwendet, wobei der abgeschätzte Echo-Erregungsvektor, die abgeschätzten Echo-LP-Koeffizienten, der abgeschätzte Echo-Langzeit-Prädiktor-Verstärkungsfaktor und die abgeschätzte Echo-Langzeit-Prädiktor-Verzögerung der zweite Satz von Sprachsynthese-Parametern sind.
  9. Verfahren nach Anspruch 8, bei dem die Echo-Abschätzeinheit den abgeschätzten Echo-Erregungsvektor auf der Grundlage der folgenden Gleichung erzeugt:
    Figure 00210001
    worin
    Figure 00210002
    die partielle Ableitung des Abschätzwertes des Erregungsvektors es Echosignals zur Zeit n bezüglich der j-ten Anzapfung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
    Figure 00210003
    worin Gf der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, af die Langzeit-Prädiktor-Verzögerung am fernen Ende (Klangperiode), c = floor[af – n/P] und w –c–1 / f(i) für die 1 ≤ i ≤ M die linearen Prädiktor-Koeffizientenblöcke c-1 in der Vergangenheit des Sprachsignals am fernen Ende sind.
  10. Echo-Kompensator zur Verbindung mit einem Telefon-Endgerät, das einen Lautsprecher, der ein Sprachsignal vom fernen Ende wiedergibt, ein Mikrofon, das ein zusammengesetztes Mikrofonsignal auffängt, das aus einem Sprachsignal am nahen Ende und einem Echo des Sprachsignals am fernen Ende besteht, und einen ersten Decodierer umfasst, der das Sprachsignal des fernen Endes aus einem ersten Satz von Sprachsynthese-Parametern synthetisiert, wobei die Echo-Kompensation eine Echo-Abschätzeinheit zur Verbindung mit einer Eingangsseite und einer Ausgangsseite des ersten Decoders, die so ausgebildet ist, dass sie einen zweiten Satz von Sprachsynthese-Parametern aus dem ersten Satz von Sprachsynthese-Parametern und dem Sprachsignal am fernen Ende erzeugt, einen zweiten Decoder, der mit einer Ausgangsseite der Echo-Abschätzeinheit verbunden und so ausgebildet ist, dass er ein abgeschätztes Echosignal aus dem zweiten Satz von Sprachsynthese-Parametern synthetisiert, und Einrichtungen umfasst, die mit einer Ausgangsseite des zweiten Decoders zumindest zur Verringerung der Größe des Echosignals verbunden sind, das in dem zusammengesetzten Mikrofonsignal enthalten ist, unter Verwendung des abgeschätzten Echosignals.
  11. Freisprech-Telefonendgerät mit einer Echo-Kompensation nach Anspruch 10.
  12. Endgerät nach Anspruch 11, bei dem der erste Satz von Sprachsynthese-Parametern lineare prädiktive Codier- (LPC-) Parameter sind, die von einer Quelle am fernen Ende ausgesandt werden.
  13. Endgerät nach Anspruch 12, bei dem die LPC-Parameter einen Erregungsvektor des fernen Endes unter einem Satz von linearen prädiktiven (LP-) Koeffizienten des fernen Endes umfassen.
  14. Endgerät nach Anspruch 12, bei dem die LPC-Parameter einen Erregungsvektor des fernen Endes, einen Satz von LP-Koeffizienten des fernen Endes, einen Langzeit-Prädiktor-Verstärkungsfaktor des fernen Endes und eine Langzeit-Prädiktor-Verzögerung des fernen Endes umfassen.
  15. Endgerät nach Anspruch 10, bei dem die ersten und zweiten Decodieren identisch sind.
  16. Endgerät nach Anspruch 15, bei dem die ersten und zweiten Decodierer ein Kurzzeit-Prädiktor-Synthesefilter in Kaskade mit einem Langzeit-Prädiktor-Synthesefilter umfassen.
  17. Endgerät nach Anspruch 13, bei dem die Echo-Abschätzeinheit einen ersten Funktionsblock und einen zweiten Funktionsblock umfasst, wobei der erste Funktionsblock eine Eingangsseite, die zum Empfang des Erregungsvektors vom fernen Ende, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals am fernen Ende von der Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der erste Funktionsblock zur Erzeugung eines abgeschätzten Satzes von Echo-LP-Koeffizienten an seiner Ausgangsseite ausgebildet ist und wobei der zweite Funktionsblock eine Eingangsseite aufweist, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals des fernen Endes von der Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der zweite Funktionsblock zur Erzeugung eines abgeschätzten Echo-Erregungsvektors an seiner Ausgangsseite ausgebildet ist.
  18. Endgerät nach Anspruch 13, bei dem die Echo-Abschätzeinheit einen Funktionsblock umfasst, der eine Eingangsseite, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes und des Sprachsignals des fernen Endes von der Ausgangsseite des ersten Decoders angeschaltet ist, und eine Ausgangsseite aufweist, die mit der Eingangsseite des zweiten Decoders verbunden ist, wobei der Funktionsblock so ausgebildet ist, dass er an seiner Ausgangsseite einen abgeschätzten Echo-Erregungsvektor erzeugt, und wobei die Ausgangsseite der Echo-Abschätzeinheit direkt zum Empfang des Satzes von LP-Koeffizienten des fernen Endes angeschaltet ist, der als ein abgeschätzter Satz von Echo-LP-Koeffizienten dient.
  19. Endgerät nach Anspruch 14, bei dem die Echo-Abschätzeinheit einen Funktionsblock umfasst, der eine Eingangsseite, die zum Empfang des Erregungsvektors des fernen Endes, des Satzes von LP-Koeffizienten des fernen Endes, des Langzeit-Prädiktor-Verstärkungsfaktors des fernen Endes, der Langzeit-Prädiktor-Verzögerung des fernen Endes und des Sprachsignals am fernen Ende von einer Ausgangsseite des ersten Decoders angeschaltet ist, sowie eine Ausgangsseite aufweist, die mit einer Eingangsseite des zweiten Decoders verbunden ist, wobei der Funktionsblock zur Erzeugung, an seiner Ausgangsseite, eines abgeschätzten Echo-Erregungsvektors ausgebildet ist, und wobei die Ausgangsseite der Echo-Abschätzeinheit direkt zum Empfang des Satzes von LP-Koeffizienten des fernen Endes, des Langzeit-Prädiktor-Verstärkungsfaktors des fernen Endes und der Langzeit-Prädiktor-Verzögerung des fernen Endes angeschaltet ist, die als ein abgeschätzter Satz von Echo-LP-Koeffizienten, abgeschätzten Echo-Langzeit-Prädiktor-Verstärkungsfaktoren bzw. abgeschätzten Echo-Langzeit-Prädiktor-Verzögerungen dienen.
  20. Endgerät nach Anspruch 19, bei dem der Funktionsblock den abgeschätzten Echo-Erregungsvektor auf der Grundlage der folgenden Gleichung erzeugt:
    Figure 00240001
    worin
    Figure 00240002
    die partielle Ableitung des Abschätzwertes des Erregungsvektors des Echosignals zur Zeit n bezüglich der j-ten Anzapfung der Impulsantwort des akustischen Pfades ist und wie folgt definiert ist:
    Figure 00240003
    worin Gf der Langzeit-Prädiktor-Verstärkungsfaktor am fernen Ende, af die Langzeit-Prädiktor-Verzögerung am fernen Ende (Klangperiode), c = floor[af – n/P] und w –c–1 / f(i) für die 1 ≤ i ≤ M die linearen Prädiktor-Koeffizientenblöcke c-1 in der Vergangenheit des Sprachsignals am fernen Ende sind.
  21. Telefon-Handapparat mit einem Echo-Kompensator nach Anspruch 10.
DE60021049T 1999-12-15 2000-12-15 Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung Expired - Lifetime DE60021049T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US461023 1990-01-04
US09/461,023 US6718036B1 (en) 1999-12-15 1999-12-15 Linear predictive coding based acoustic echo cancellation

Publications (2)

Publication Number Publication Date
DE60021049D1 DE60021049D1 (de) 2005-08-04
DE60021049T2 true DE60021049T2 (de) 2006-05-04

Family

ID=23830932

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60021049T Expired - Lifetime DE60021049T2 (de) 1999-12-15 2000-12-15 Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung

Country Status (4)

Country Link
US (1) US6718036B1 (de)
EP (1) EP1109154B1 (de)
CA (1) CA2328006C (de)
DE (1) DE60021049T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1301018A1 (de) * 2001-10-02 2003-04-09 Alcatel Verfahren und Vorrichtung zum Ändern eines digitalen Signals im Kodebereich
EP1472905A2 (de) * 2002-01-17 2004-11-03 Koninklijke Philips Electronics N.V. Vielkanal-echokompensator mit aktiver audiomatrixkoeffizienten
EP1521240A1 (de) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Verfahren zur Sprachkodierung mit Echounterdrückung durch Modifizierung der Kodebuchverstärkung
EP1619793B1 (de) 2004-07-20 2015-06-17 Harman Becker Automotive Systems GmbH Audioverbesserungssystem und -verfahren
US8170221B2 (en) * 2005-03-21 2012-05-01 Harman Becker Automotive Systems Gmbh Audio enhancement system and method
US8457614B2 (en) 2005-04-07 2013-06-04 Clearone Communications, Inc. Wireless multi-unit conference phone
US7764634B2 (en) * 2005-12-29 2010-07-27 Microsoft Corporation Suppression of acoustic feedback in voice communications
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
WO2007100137A1 (ja) 2006-03-03 2007-09-07 Nippon Telegraph And Telephone Corporation 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems
US8199927B1 (en) 2007-10-31 2012-06-12 ClearOnce Communications, Inc. Conferencing system implementing echo cancellation and push-to-talk microphone detection using two-stage frequency filter
US8050398B1 (en) 2007-10-31 2011-11-01 Clearone Communications, Inc. Adaptive conferencing pod sidetone compensator connecting to a telephonic device having intermittent sidetone
US8718275B2 (en) * 2011-12-22 2014-05-06 Google Inc. Low complex and robust delay estimation
CN103327201B (zh) * 2012-03-20 2016-04-20 联芯科技有限公司 残留回声消除方法及系统
CN105096960A (zh) * 2014-05-12 2015-11-25 阿尔卡特朗讯 实现宽带分组语音的基于分组的声学回声消除方法与设备
CN114531611B (zh) * 2020-11-23 2024-04-02 深圳Tcl数字技术有限公司 一种音量调节方法、存储介质及终端设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
US4697261A (en) * 1986-09-05 1987-09-29 M/A-Com Government Systems, Inc. Linear predictive echo canceller integrated with RELP vocoder
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US6205124B1 (en) * 1996-12-31 2001-03-20 Compaq Computer Corporation Multipoint digital simultaneous voice and data system
CA2262691C (en) 1997-06-24 2002-10-01 Northern Telecom Limited Methods and apparatus for echo suppression
US5857167A (en) 1997-07-10 1999-01-05 Coherant Communications Systems Corp. Combined speech coder and echo canceler

Also Published As

Publication number Publication date
CA2328006A1 (en) 2001-06-15
EP1109154A2 (de) 2001-06-20
CA2328006C (en) 2009-11-24
US6718036B1 (en) 2004-04-06
EP1109154A3 (de) 2002-02-27
DE60021049D1 (de) 2005-08-04
EP1109154B1 (de) 2005-06-29

Similar Documents

Publication Publication Date Title
DE60021049T2 (de) Akustischer Echokompensator unter Verwendung von linearer Prädiktionskodierung
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE60029453T2 (de) Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
US7742592B2 (en) Method and device for removing echo in an audio signal
DE69839260T2 (de) Verfahren und gerät zum gebrauchen von zustandsbestimmung zum steuern von funktionsteilen in digitalen telefonsystemen
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE69735097T2 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität in tandem-sprachkodierern
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE60226003T2 (de) Steuerung der rückhörunterdrückung in einem telekommunikationsinstrument
DE19681070C2 (de) Verfahren und Vorrichtung zum Betreiben eines Kommunikationssystems mit Rauschunterdrückung
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
US20080170706A1 (en) Method And Device For Removing Echo In A Multi-Channel Audio Signal
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE60030137T2 (de) Verfahren und vorrichtung zur leistungsverbesserung eines adaptiven filters mittels nicht hörbarer information
DE60311754T2 (de) Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
DE60032047T2 (de) Verfahren und Vorrichtung zur adaptiven Identifikation und entsprechender adaptiver Echokompensator
WO2021147237A1 (zh) 语音信号处理方法、装置、电子设备及存储介质
DE10000009A1 (de) Verfahren zur koordinierten Echo- und/oder Geräuschabsenkung
DE69932598T2 (de) Echokompensator
DE19709203C2 (de) Verfahren zum Erzeugen von Meßsignalen für Meßsysteme zum Messen der Übertragungseigenschaften von sich gegenseitig durch Übersprechen beeinflussenden Übertragungsstrecken in elektrischen Nachrichtensystemen, insbesondere von Freisprecheinrichtungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition