-
Gebiet der Erfindung
-
Diese
Erfindung bezieht sich auf die Echokompensation und insbesondere
auf ein verbessertes Verfahren zur Durchführung einer akustischen Echokompensation
in Sprachkommunikationsnetzwerken.
-
Hintergrund der Erfindung
-
In
Sprachkommunikationsnetzwerken wird das digitale Sprachsignal abschließend von
einer Quelle zu einem Ziel ausgesandt. Ein Hauptziel bei der Entwicklung
von Sprachcodierern besteht in der weitestgehenden Verringerung
der Anzahl von Bits, die erforderlich sind, um das Sprachsignal
darzustellen, während
gleichzeitig die Lesbarkeit der Sprache aufrechterhalten wird. Dieses
Ziel hat zu der Entwicklung einer Klasse von eine niedrige Bitrate
aufweisenden Vocodern (das heißt
Sprachcodierern) geführt,
die auf der Konstruktion eines Modells der Sprachquelle und der
Aussendung der Modellparameter beruhen.
-
Auf
dem Gebiet der Mobilkommunikationen beruhen die meisten Sprachcodierverfahren
auf irgendeiner Variante der linearen prädiktiven Codierung (LPC), deren
Hauptzweck darin besteht, die Menge an Bits zu verringern, die über einen
Kanal ausgesandt werden. Ein linearer prädiktiver Codierer ist ein üblicher
Vocoder, der wahrnehmungsmäßig bedeutsame
Merkmale der Sprache direkt aus einer Zeit-Schwingungsform anstatt aus Frequenzspektren
ableitet, wie dies Kanal- und Formanten-Vocoder tun.
-
Grundlegend
analysiert ein LPC-Codierer eine Sprach-Schwingungsform, um ein
sich zeitlich änderndes
Modell der Stimmkanal-Erregung und der Übertragungsfunktion zu erzeugen.
Ein Synthesizer in dem empfangenden Endgerät stellt die Sprache dadurch
wieder her, dass die angegebene Erregung durch ein mathematisches
Modell des Stimmkanals geleitet wird. Durch periodisches Aktualisieren
der Parameter des Modells und der Spezifikation der Erregung passt
sich der Synthesizer an Änderungen
in jedem dieser Punkte an. Während
irgendeines Spezifikations-Intervalls wird jedoch angenommen, dass
der Stimmkanal einen linearen zeitlich unveränderlichen Prozess darstellt.
Weil lediglich eine Handvoll von Parametern übertragen wird, ist die Sprach-Datenrate
niedrig.
-
Diese
Art der Sprachcodierung kann bei Anwendungen mit begrenzter Bandbreite
verwendet werden, bei denen andere Techniken nicht verwendbar sind.
Zusätzlich
ergibt die LPC eine natürlicher
klingende Sprache als rein Frequenzdomänenbasierte Vocoder.
-
Im
Allgemeinen erzeugt der LPC-Codierer auf der Seite des Sprechers
verschiedene Teile der Information, die zur Seite des Hörers ausgesandt
werden, wo sie zur Rekonstruktion des ursprünglichen Sprachsignals verwendet
werden. Diese Information besteht aus (a) der Art der Erregung,
das heißt
gesprochen oder nicht gesprochen, (b) Klangperiode (für gesprochene
Erregung), (c) Verstärkungsfaktor
und (d) Prädiktor-Koeffizienten
(Parameter des Stimmkanal-Modells).
-
Auf
dem Gebiet moderner Telekommunikationen ist die Freisprech-Telefonie
immer mehr ein zunehmend wünschenwertes
Merkmal. Freisprechtelefone sind in einer Vielzahl von Anwendungen
wünschenwert, von
Telefonkonferenz-Systemen zu Mobil-Zellulartelefonen und Multimedia-Endgeräten. Eine
eine hohe Qualität
aufweisende Vollduplex-Freisprechkommunikation ist jedoch schwierig
zu erzielen. Bei diesen Systemen befinden sich der Lautsprecher
und das Mikrofon typischerweise an einer von den Benutzern entfernten
Stelle, so dass große
Signalverstärkungen
erforderlich sind, um bequeme Lautstärkepegel aufrechtzuerhalten.
Diese großen
festen Verstärkungen
können
zu einer elektroakustischen Instabilität führen. Bei manchen Freisprechsystemen
sind das Mikrofon und der Lautsprecher in der gleichen akustischen
Umhüllung
angeordnet, um die Freisprecheinrichtung als eine einzige Tischaufsatz-Einheit
zu vermarkten. In diesem Fall ergibt die große Verstärkung in Verbindung mit der
engen Lautsprecher-Mikrofon-Kopplung einen großen Echopfad zurück zu dem Sprecher,
der sich mit dem Freisprech-Endgerät unterhält. Derzeit wird großer Wert
auf Kommunikationen auf der Grundlage von Sprache über das
Internet-Protokoll (VoIP) gelegt, und bei dieser Umgebung können die Paket-Netzwerke
eine erhebliche Verzögerung
in dem Echopfad einführen
(beispielsweise >>40 ms). Das verzögerte Echo
kann in schwerwiegender Weise Konversationen beeinträchtigen.
-
Ein
Beispiel einer bekannten Echounterdrückungs-Vorrichtung, die Echo
von LPCcodierten Sprachsignalen ohne Synthetisieren eines Sprachsignals
unterdrückt,
ist in der WO-A-98/59431 beschrieben.
-
Es
wurde eine Anzahl von Lösungen
vorgeschlagen und gerätemäßig realisiert,
um die Freisprech-Telefonie zu einer brauchbaren Technologie zu
machen. Traditionell wurde angenommen, dass zwei Sprecher sich nicht
gleichzeitig unterhalten, und damit erzielten anfängliche
Freisprech-Endgeräte
einen echofreien Betrieb dadurch, dass manuelle oder automatische
geschaltete Verluste aufweisende Funktionen in den nicht verwendeten
Sprachpfad eingeführt
wurden. Dieses Verfahren erfordert irgendeine Art von Schalt-Entscheidungsmechanismus,
um festzustellen, wer der am stärksten
gewünschte
Sprecher ist, und erfordert eine endliche Größe der Schaltzeit. Dieses Schalten
kann als solches eine gewisse Beeinträchtigung hervorrufen, wobei
in besonders merkbarer Weise Worte oder Sätze abgeschnitten oder zerhackt
werden. Die Tatsache, dass lediglich ein Sprachpfad zu irgendeiner
Zeit zur Verfügung
steht, definiert diese Art von System als Halbduplex. Eine echte
Vollduplex-Freisprech-Telefonie kann möglich sein, jedoch mit einer „Echokompensations"-Technologie. Echokompensatoren
modellieren die Impulsantwort des akustischen Echopfades und synthesisieren eine
Wiedergabe des tatsächlichen
Echosignals zur Kompensation.
-
Echokompensatoren
gibt es in zwei Arten. Leitungs- oder Hybrid- (Gabel-) Echokompensatoren
kompensieren die Echos, die durch nicht perfekte Gabelschaltungseinrichtungen
auf der Leitung hindurchlecken. Akustische Echokompensatoren (AEC's) kompensieren jedoch
das akustische Echo, das an dem Mikrofon von dem Lautsprecher empfangen
wird. Eine akustische Echokompensation ist ein schwierigeres und
komplizierteres Problem als eine elektrische Gabelschaltungs-Echokompensation,
und zwar aus verschiedenen Gründen:
(a) der akustische Echopfad wird durch jede Bewegung innerhalb seiner
akustischen Umgebungen beeinflusst, (b) die Länge der erforderlichen Kompensation
ist sehr lang, (c) das Vorhandensein von Hintergrund-Schallstörungen in
dem Raum, und (d) der akustische Echopfad weist in vielen Fällen nicht
lineare Komponenten auf, von denen ein Beispiel der Lautsprecher
sein kann. Diese Nichtlinearitäten
können
so weit bedeutsam sein, dass sie das Betriebsverhalten der modernsten
Echokompensationsschemas beschränken.
-
AEC's verwenden allgemein
adaptive Filter, um die von dem Lautsprecher gekoppelte Komponente von
dem Mikrofonsignal mathematisch zu modellieren und zu beseitigen.
Ein adaptives Filter wird zur Schaffung eines linearen Modells verwendet,
das die beste Anpassung an den unbekannten Impulsgang des akustischen
Echopfades darstellt. In der gesamten Geschichte der AEC-Realisierung hat
der Algorithmus der kleinsten mittleren Quadrate (LMS) oder der
Algorithmus der normalisierten kleinsten mittleren Quadrate (NLMS)
in vielen Fällen
das Verfahren der Wahl dargestellt, und zwar aufgrund seiner Einfachheit
und der geringen Rechenanforderungen. In den letzten Jahren, in
denen die verfügbare
Verarbeitungsleistung angestiegen ist, wurden Algorithmen, die ein
besseres Betriebsverhalten, wenn auch bei höherem Rechenaufwand bieten,
stärker
wünschenswert.
-
Ein
derartiger Algorithmus, der ein besseres Betriebsverhalten bietet,
ist das verallgemeinerte frequenzdomänenadaptive Mehrfachverzögerungs-Filter
(GMDF). Weil der Algorithmus in der Frequenzdomäne arbeitet, ist eine getrennte
Domänen-Transformationsstufe
erforderlich. Daher ist eine gewisse Blockverarbeitung immer erforderlich,
bevor die Filterung erfolgen kann. Dies führt Durchsatzverzögerungen
ein, was unerwünscht
ist, insbesondere in den Fällen,
in denen die Kommunikationsverbindungsstrecke bereits eine Verzögerung einführt. Eine
Verzögerung
während
der Konversationen verringert die Menge des von der Wahrnehmung
her tolerierbaren Echos, wodurch dann die Betriebsleistungsanforderungen
an die akustische Echo-Kompensationseinrichtung vergrößert werden.
-
Grundlegend
für die
Akzeptanz von Freisprechsystemen durch den Benutzer ist die Betriebsleistung der
Algorithmen für
die akustische Echokompensation und die Störunterdrückung. Aus diesen und anderen Gründen sind
akustische Echokompensatoren ein Gebiet, das weiterhin von großem Interesse
ist. Insbesondere sind Fragen bezüglich der Stabilität und der
Konvergenzrate dieser Algorithmen der Gegenstand einer fortlaufenden
Forschung. Die Konvergenzgeschwindigkeit ist die Zeit, die erforderlich
ist, um eine eingeschwungene Fehlervarianz mittlerer Quadrate aus
der Algorithmus-Initialisierung
zu erreichen. Eine Vergrößerung der
Konvergenztiefe und der Rate der Echokompensatoren sind Faktoren,
die dazu beitragen, dass die maximal erzielbare Kompensation vergrößert wird.
-
Zusammenfassung der Erfindung
-
Die
vorliegende Erfindung, wie sie in den beigefügten Ansprüchen beansprucht ist, stellt
eine innovative Möglichkeit
zur Durchführung
einer akustischen Echokompensation in Telefon-Endgeräten, insbesondere in
der Freisprech-Betriebsart
dar, die zu einer verbesserten Betriebsleistung und einer verringerten
Verarbeitungslast führt.
Die meisten Sprachcodierungs-Algorithmen beruhen auf irgendeiner
Variante der linearen prädiktiven
Codierung (LPC), und Daten, die diese Transformation durchlaufen
haben, weisen eine Form auf, die besser für die Echokompensation geeignet
ist. Anstatt der Durchführung
der Echokompensation in der Zeitdomäne wird der Echokompensator
in der LPC-Domäne
betrieben, was zu einem Prozess führt, der besser an die Sprachcharakteristiken
angepasst ist.
-
Speziell
werden ein Sprachsignal vom fernen Ende und die LPC-Parameter, aus
denen es konstruiert ist, in Verbindung mit einem adaptiven Modell
des akustischen Echopfades zwischen dem Lautsprecher und dem Mikrofon
verwendet, um Schätzwerte
der entsprechenden Echo-LPC-Parameter zu erzeugen. Die Echo-LPC-Parameter werden
dann in einen üblichen
LPC-Decodierer eingespeist, der einen Echtzeit-Schätzwert des
Echosignals synthetisiert. Dieser Schätzwert des Echosignals wird
von dem Mikrofonsignal subtrahiert, um die örtliche Sprache (am nahen Ende)
zu isolieren. Auf diese Weise wird der akustische Echopfad nicht
unnötigerweise
in Bereichen modelliert, die für
die Sprache nicht von Bedeutung sind und daher nicht zu der Sprachqualität beitragen.
-
Der
Betrieb einer akustischen Echokompensation (AEC) auf der Grundlage
der LPC-Parameter am Empfänger
vor der Decodierungsstufe bietet einige wichtige Vorteile. Zunächst erzeugt
der Sprachcodierungsprozess eine rauschartige „Erregungssequenz", die bei Verwendung
als ein Eingang an einen NLMS-Algorithmus
die Konvergenzrate beschleunigt. Zweitens können der akustische Echokompensator
(AEC) und der LPC-Codierer einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen,
weil die Domänentransformation (von
den Zeit- zu den LPC-Parametern) bereits Teil der Codierungsstufe
bildet. Zusätzlich
kann ein Echo-Codebuch dazu verwendet werden, die erforderliche
Erregungsfolge für
den Echokompensationsprozess zu speichern, wodurch der adaptive
Filterprozess auf ein einfaches Tabellen-Nachschlageverfahren reduziert
wird.
-
Weiterhin
haben die LPC-Transformationsdaten weniger Parameter und damit weniger
Anzapfungen, und sie können
daher aufgrund der direkten Verringerung der Bitrate wirkungsvoller
sein. Außerdem
beruhen die LPC-Raum-Koordinaten auf Spracheigenschaften. Der Spracheingang
an die LPC-Transformation ist daher spektral breit, wodurch die
LPC-Koordinaten mit einer Dichte stimuliert werden, die gleichförmiger ist,
als in einer Fourier-Transformation oder in direkten Zeitfilter-Modellen. Dies führt zu einer
schnelleren und gleichförmigeren
Konvergenz des LPC-Echomodells. Schließlich ist die Betriebsleistung,
die heute für
Stör- und Echokompensatoren,
die in der Zeitdomäne
arbeiten verfügbar
ist, das Ergebnis vieler Jahre von Forschung und Optimierung. Wenn
diese Anstrengungen auf die vorliegende Erfindung angewandt werden,
kann eine weiter verbesserte Betriebsleistung sicherlich in der
Zukunft erreicht werden.
-
Weitere
Gesichtspunkte und Merkmale der vorliegenden Erfindung werden für den Fachmann
aus einer Betrachtung der folgenden Beschreibung spezieller Ausführungsformen
der Erfindung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
eine Darstellung eines physikalischen Systems, das eine übliche akustische
Echo-Kompensationseinrichtung beinhaltet.
-
2 zeigt
ein verallgemeinertes Modell einer akustischen Echo-Kompensationseinrichtung
gemäß der vorliegenden
Erfindung, die in der LPC-Domäne arbeitet.
-
3 zeigt
ein vereinfachtes Modell einer akustischen Echo-Kompensationseinrichtung gemäß der vorliegenden
Erfindung, die in der LPC-Domäne arbeitet.
-
4 zeigt
die bevorzugte gerätemäßige Ausgestaltung
einer in der LPC-Domäne arbeitenden Echo-Kompensationseinrichtung
gemäß der vorliegenden
Erfindung.
-
Beschreibung der bevorzugten
Ausführungsformen
-
1 zeigt
die Standard-Realisierung einer akustischen Echo-Kompensationseinrichtung
in einem Sprach-Kommunikationssystem. Diese Konfiguration kann beispielsweise
eine akustische Umgebung 5 darstellen, die einen Freisprech-Telefonapparat enthält, der
mit einem Vollduplex-Kommunikationsnetzwerk verbunden ist. Ein LPC-Decodierer
(LPC–1) 2 synthetisiert
das Sprachsignal am fernen Ende, f, das über einen Lautsprecher 3 in
dem Telefonapparat wiedergegeben wird. Ein Mikrofon 4 in
dem Telefonapparat erfasst ein Sprachsignal des nahen Endes, s,
von einem sich am nahen Ende befindenden Benutzer 9, zusätzlich zu
einem akustischen Echosignal, e, um ein zusammengesetztes Mikrofonsignal
e+s zu erzeugen. Der Ausgang des LPC-Decodierers 2 wird
weiterhin in eine akustische Echo-Kompensationseinrichtung (AEC) 6 eingespeist,
die ein adaptives digitales Filter (ADF) 8 zur Erzeugung
eines Schätzwertes
des Echosignals ê einschließt. Der
Schätzwert
des Echosignals ê wird
dann von dem zusammengesetzten Mikrofonsignal e+s subtrahiert, so
dass ein Signal ŝ verbleibt,
das dem Sprachsignal am nahen Ende ohne das Echo angenähert ist. Die
Annäherung
des Sprachsignals ŝ am
nahen Ende wird in einen LPC-Codierer 10 eingespeist, dessen
Ausgang zu dem Ziel am fernen Ende ausgesandt werden kann.
-
In
der Praxis kann das zusammengesetzte Mikrofonsignal e+s weiterhin
ein Sprachsignal-Echo des nahen Endes (Nachhall) und ein Umgebungs-Störsignal
des nahen Endes einschließen.
Für die
Zwecke der vorliegenden Erfindung werden der Nachhall und die Umgebungsstörungen am
nahen Ende ignoriert, weil sie die Realisierung der Erfindung nicht
beeinflussen.
-
Der
Eingang des LPC-Decodierers 2 geht von dem fernen Ende
des Netzwerkes aus und ist ein übertragener
Bitstrom, der aus einer Folge von Datenrahmen besteht. Jeder Datenrahmen
besteht aus einem Satz von LPC-Parametern, die von einem LPC-Codierer
an dem fernen Ende des Netzwerkes extrahiert werden. Umgekehrt extrahiert
der LPC-Codierer 10 LPC-Parameter von der Annäherung des
Sprachsignals am nahen Ende, ŝ,
die dann zu der Seite des fernen Benutzers des Netzwerkes ausgesandt
werden können.
In jedem Fall können
die Parameter für
einen vorgegebenen Rahmen der Sprache einen Satz von Prädiktor- Koeffizienten, ein
Sprache/nicht-Sprache-Anzeigebit, einen Verstärkungsfaktor und einen Wert
für die
Klangperiode einschließen
(wenn das Signal gesprochen wird).
-
Die
Aussendung des Sprache/nicht-Sprache-Anzeigebits wird bei älteren Verfahren
der LPC häufiger verwendet.
In derartigen Fällen
würde eine
Erregungsfolge an dem empfangenden Ende auf der Grundlage der Sprache/nicht-Sprache-Entscheidung und
der Klangperiode erzeugt. Wenn beispielsweise festgestellt wurde,
dass das Sprachsegment nicht gesprochen wurde, so würde ein
bandbegrenztes weißes
Rauschen als die Erregungsfolge verwendet. Wenn festgestellt würde, dass
das Sprachsegment gesprochen wurde, würde eine Folge von Impulsen
mit der Klangperiode erzeugt. Neuere Versionen der LPC leiten jedoch
entweder die Erregungssequenz direkt (in Form eines Erregungsvektors)
weiter, oder sie leiten eine Index-Nummer weiter, wobei am empfangenden
Ende ein Codebuch (das heißt
eine Gruppe von Erregungsvektoren, die jeweils auf eine eindeutige
Indexnummer bezogen sind) verwendet würde, um die gewünschte Erregungssequenz
zu gewinnen. [R. Steele (Ed.), „Mobile Radio Communications", IEEE Press, New
York, 1992, 1994, 1995, Kapitel 3.5.3 – Code-Excited Linear Prediction
(CELP)]. In der nachfolgenden Beschreibung wird die neuere Version von
LPC betrachtet, wobei sich Xf auf den Erregungsvektor bezieht. Es
sollte jedoch verständlich
sein, dass die hier beschriebenen Techniken auf verschiedene andere
Verfahren der LPC durch den Fachmann angewandt werden können.
-
Die
akustische Umgebung 5 kann ein Konferenzraum sein, der
einen Benutzer am nahen Ende enthält. Aufgrund von Reflexionen
in der akustischen Umgebung 5 und der engen Kopplung zwischen
dem Lautsprecher 3 und dem Mikrofon 4 wird ein
Teil des Sprachsignals vom fernen Ende, f, in Form eines Echosignals, e,
von dem Mikrofon 4 des Gerätes zusätzlich zu dem Sprachsignal
des nahen Endes, s, aufgefangen. Das Mikrofon 4 fängt daher
unvermeidbar ein zusammengesetztes Signal e+s auf, das das Sprachsignal
des nahen Endes plus dem Echosignal umfasst.
-
Das
adaptive digitale Filter (ADF) 8 nimmt üblicherweise die Form eines
sehr großen
Transversalfilters an, das die Impulsantwort simuliert, die zwischen
dem Lautsprecher 3 und dem Mikrofon 4 gekoppelt
ist. In dieser Hinsicht wird eine adaptive Filterung angewandt,
um die sich ändernde
Impulsantwort der akustischen Umgebung 5 zu modellieren.
In einfachen Ausdrücken
heißt
dies, dass das ADF 8 die Auswirkung der akustischen Umgebung 5 auf
das Sprachsignal am fernen Ende, f, modelliert, um einen Schätzwert des
wahren Echosignals, ê,
zu liefern. Auf diese Weise kann eine Annäherung des Sprachsignals am
nahen Ende, ŝ,
isoliert und an das am entfernten Ende angeordnete Ziel frei von
Echoeffekten ausgesandt werden.
-
2 zeigt
die Betriebsweise einer akustischen Echo-Kompensationseinrichtung
(AEC) in der LPC-Domäne
gemäß der vorliegenden
Erfindung. Bei dieser Realisierung werden LPC-Parameter des Sprachsignals
des fernen Endes, die einen Erregungsvektor des fernen Endes, Xf,
und einen Satz von LP-Koeffizienten des fernen Endes, wf, umfassen, über eine
Datenverbindungsstrecke 20 zu einem ersten LPC-Decodierer
(LPC–1) 22 übertragen,
der ein Sprachsignal, f, vom fernen Ende synthetisiert. Das Sprachsignal
f vom entfernten Ende reagiert mit der Lautsprecher-Raummikrofon-Übertragungsfunktion 26,
um ein zusammengesetztes Signal e+s zu erzeugen, das aus einem Echosignal
e besteht, das zu einem Sprachsignal am nahen Ende, s, hinzuaddiert
wird, um ein zusammengesetztes Signal e+s zu erzeugen. Der Ausgang
des LPC-Decodierers (LPC–1) 22 wird
als ein Eingang an eine Echo-Abschätzeinheit 21 zurückgespeist,
die einen ersten (H1) und einen zweiten (H2) Funktionsblock 27 bzw. 28 umfasst.
Die LP-Koeffizienten, wf, des fernen Endes, der Erregungsvektor
Xf des fernen Endes, und das Sprachsignal f des fernen Endes werden
als Eingangssignale dem ersten Funktionsblock (H1) 27 zugeführt, der
einen Schätzwert
für den
Echo-Erregungsvektor X ^e
aus den Eingängen
Xf, wf und f erzeugt. In ähnlicher
Weise erzeugt der zweite Funktionsblock (H2) 28 einen Schätzwert der
Echo-LP-Koeffizienten ŵe aus den
Eingängen
Xf, wf und f. Die Schätzwerte
für den
Echo-Erregungsvektor X ^e
und die Echo-LP-Koeffiziente ŵe
werden einem zweiten LPC-Decodierer
(LPC–1) 29 zugeführt, der
einen Schätzwert
des Echosignals ê synthetisiert.
Der Schätzwert
des Echosignals ê wird
dann von dem zusammengesetzten Signal e+s subtrahiert, so dass lediglich
eine Annäherung
des Sprachsignals ŝ am nahen
Ende verbleibt.
-
In 2 ist
der LPC-Decodierer 22 so gezeigt, als ob er zwei getrennte
Eingangsparameter Xf und wf hat. Diese Parameter werden tatsächlich als
ein einzelner Bitstrom entlang der Datenverbindungsstrecke 20 übertragen,
wie dies in
-
1 durch
den Eingang des LPC-Decodierers 2 dargestellt ist. Die
Lautsprecher-Raum-Mikrofon-Übertragungsfunktion 26 stellt
die akustische Umgebung 5 nach 1 dar. Die
Struktur der LPC-Decodierer 22, 29 ergibt sich
direkt aus dem LPC-Prozess.
Beispielsweise kann der LPC-Decodierer 22 aus einer ein flaches
Spektrum aufweisenden Erregungsquelle und einem Spektral-Formungsfilter
bestehen. Der LPC-Decodierer 22 verwendet den Erregungsvektor
am fernen Ende, Xf, und die LP-Koeffizienten wf des fernen Endes,
um eine Wiedergabe des Sprachsignals f am fernen Ende zu synthesisieren.
Die Parameter, die die Erregungsquelle und das spektrale Formungsfilter
des Decodierers definieren, werden periodisch aktualisiert, wodurch
eine Anpassung an irgendwelche Änderungen
erfolgt, die in der LPC-Analysestufe beobachtet werden. Auf diese
Weise definiert die Beschreibung des Codierers auch den Decodierer.
In ähnlicher
Weise synthetisiert der LPC-Decodierer 29 einen Schätzwert des
Echosignals ê auf
der Grundlage der Eingänge X ^e
und ŵe.
Für den
Rest der Beschreibung können
die LPC-Decodierer einfach als „schwarze Kästen" betrachtet werden,
die akustische Sprachsignale aus entsprechenden LPC-Parametern synthesisieren.
-
Im
Gegensatz zu der verallgemeinerten Struktur nach 1 zeigt 3 eine
vereinfachte Realisierung, bei der die LP-Koeffizienten des fernen
Endes, wf, direkt als ein Schätzwert
für die
Echo-LP-Koeffizienten ŵe
verwendet werden. Das heißt,
dass die Komponenten in 3 identisch in ihrer Struktur
und Funktion zu denen in 2 sind, jedoch mit der Ausnahme,
dass der Funktionsblock (H2) nun fortgelassen ist. Der Ausgang einer
Echo-Abschätzeinheit 31,
nämlich
der Echo-Erregungsvektor, X ^e,
und die Echo-LP-Koeffizienten ŵe
werden wiederum als ein Eingang einem LPC-Decodierer (LPC–1) 39 zugeführt, der
einen Schätzwert
des Echosignals ê synthetisiert.
Das abgeschätzte
Echosignal wird dann von dem zusammengesetzten Mikrofonsignal e+s
subtrahiert, um eine Annäherung
des Sprachsignals ŝ am
nahen Ende zu liefern.
-
Die
Funktionsblöcke 27 und 28 nach 2 und
der Funktionsblock 37 nach 3 modellieren
die Effekte des akustischen Echopfades auf die LPC-Parameter des
fernen Endes und das Sprachsignal, um einen Schätzwert der entsprechenden Echo-LPC-Parameter
zu erzeugen. Ausgehend von der verallgemeinerten Struktur nach 2 für den Fall,
bei dem f stationär
ist (das heißt
wf ändert
sich nicht über
die Zeit) liefert der Funktionsblock (H1) 27 einen Schätzwert des
Echo- Erregungsvektors X ^e
in Ausdrücken
von Xf, wf und f. Das Echosignal kann selbstverständlich als
die Faltung des Sprachsignals des fernen Endes mit der Raum-Impulsantwort
dargestellt werden. Einsetzen der entsprechenden LPC-Ausdrücke für das Echo
und das Sprachsignal des fernen Endes in dieses Modell ergibt daher
einen Schätzwert
für den
Echo-Erregungsvektor X ^e.
-
Speziell
kann das Echo durch die Faltungssumme dargestellt werden:
worin
h(j) für
0 ≤ j < L die Anzapfungen
der Impulsantwort des akustischen Lautsprecher-Raum-Mikrofon-Pfades
sind, L die Länge
der Impulsantwort des akustischen Pfades ist, und f(n – j) das
Sprachsignal des fernen Endes verzögert um j Abtastproben ist.
-
Das
Sprachsignal f des fernen Endes kann in üblicher LPC-Form wie folgt
ausgedrückt
werden:
worin
w
f(i) für
1 ≤ i ≤ M die linearen
Prädiktor-Koeffizienten
des Sprachsignals am fernen Ende sind, wobei M die Anzahl der Prädiktor-Koeffizienten,
f(n – 1)
das verzögerte
Sprachsignal vom fernen Ende, und Xf(n) der Sprachsignal-Erregungsvektor
des fernen Endes zum Zeitpunkt n ist. In ähnlicher Weise kann das Echosignal e
in LPC-Form wie folgt dargestellt werden:
worin
w
θ(i)
für 1 ≤ i ≤ M die linearen
Prädiktor-Koeffizienten
des Echosignals, e(n – i)
das um i Abtastproben verzögerte
Echosignal und X
θ(n) der Erregungsvektor
des Echosignals zu Zeit n ist.
-
Das
Einsetzen der Gleichungen (2) und (3) in die Gleichung (1) und die
Auflösung
nach X
θ(n)
ergibt einen Schätzwert
für den
Echo-Erregungsvektor X ^e. Das heißt:
-
In
dem vereinfachten Modell nach
3 ist wf
= ŵe,
und es ist ersichtlich, dass sich die Gleichung (4) wie folgt reduziert:
-
Für ein nicht
stationäres
Sprachsignal am fernen Ende, f, (beispielsweise wf Änderungen
alle 5 ms) ist eine rigorosere Analyse erforderlich. In jedem Fall
wird der folgende Schätzwert
für den
Echo-Erregungsvektor gewonnen:
worin
alle Ausdrücke
mit Ausnahme von Y(n) in den Gleichungen (1) bis (3) definiert wurden,
und worin:
ist, worin
P die Blockgröße ist (beispielsweise
ein 5 ms-Analyseblock mit einer 8 kHz-Abtastrate würde P = 8000·0,005
= 40) ergeben), S die Gesamtzahl der vorhergehenden erforderlichen
Blöcke
ist und durch S = floor[L – 1/P]
definiert ist, worin floor[·]
die Ganzzahl-Trunkierung auf die nächste ganze Zahl anzeigt, die
kleiner oder gleich dem Ausdruck in Klammern ist L die Länge der
Impulsantwort des akustischen Pfades ist, und worin w –s / f(i) für 1 ≤ i ≤ M die Prädiktions-Koeffizientenblöcke s des
Sprachsignals am fernen Ende in der Vergangenheit anzeigt, wobei
w –o / f(i) = w
f(i) ist.
-
In
der vorstehenden Analyse wird lediglich ein Schätzwert des Echo-Erregungsvektors X ^e
als eine Funktion von Xf, wf und f abgeleitet, weil die LP-Koeffizienten,
wf, des fernen Endes direkt als ein Schätzwert für die Echo-LP-Koeffizienten ŵe verwendet
werden können.
Es sei jedoch bemerkt, dass eine Beziehung auch für einen
Schätzwert
eines Autokorrelationsvektors r ^e abgeleitet werden, von dem ein Schätzwert der LP-Koeffizienten, ŵe, durch
eine Levinson-Durbin-Rekursion gewonnen werden kann. Der Funktionsblock (H2) 28,
der in der Echo-Abschätzeinheit 21 nach 2 enthalten
ist, stellt diesen Prozess dar.
-
In
jedem Fall werden, sobald X ^e und ŵe gewonnen wurden, sie in
einem LPC-Decodierer 29 oder 39 eingespeist,
der einen Schätzwert
des Echosignals ê synthetisiert.
Dieser wird von dem zusammengesetzten Mikrofonsignal, e+s, subtrahiert,
so dass eine Näherung
des Sprachsignals, ŝ am
nahen Ende verbleibt, wodurch der Echo-Kompensationsprozess abgeschlossen
wird. Die Näherung
des Sprachsignals ŝ am
nahen Ende, das frei von Echoeffekten ist, kann dann analysiert
werden, um entsprechende LPC-Parameter zur Aussendung an die Benutzerseite
am entfernten Ende des Sprachnetzwerkes abzuleiten.
-
Es
sei bemerkt, dass die Antwort des akustischen Echopfades, h(j) sich
als solche dauernd beispielsweise aufgrund einer Bewegung des Benutzers
am nahen Ende, ändern
kann. In den meisten praktischen Systemen kann dann der akustische
Echopfad dynamisch unter Verwendung irgendwelcher geeigneter adaptiver Filteralgorithmen
modelliert werden. Wie dies weiter oben angegeben wurde, ist die
traditionelle Lösung
der Algorithmus der normalisierten kleinsten Fehlerquadrate (NLMS),
und zwar aufgrund seiner Einfachheit und seiner niedrigen Rechenanforderungen.
-
Die 2 und 3 zeigen
Ausgestaltungen der Erfindung, die lediglich eine Kurzzeit-Prädiktionsanalyse
wiedergeben, die in der Codierstufe ausgeführt wurde. Allgemein wird jedoch
eine Langzeit-Prädiktion in
die LPC-Analyse eingefügt,
um eine Periodizität
aus dem Erregungsvektor zu beseitigen (die auf die Klangperiode
des ursprünglichen
Sprachsignals bezogen ist). In diesem Fall können die LPC-Decodierer aus einem Kurzzeit-Prädiktor-Synthesefilter
in Kaskade mit einem Langzeit-Prädiktor-Synthesefilter
bestehen. Dieses Kurzzeit-Synthesefilter modelliert die Kurzzeit-Korrelationen
in dem Sprachsignal. In ähnlicher
Weise modelliert das Langzeit-Prädiktorfilter
die Langzeit-Korrelationen in dem Sprachsignal. Seine Parameter
sind eine Verzögerung
und ein Verstärkungsfaktor.
Für periodische
Signale entspricht die Verzögerung
der Klangperiode; für
nichtperiodische Signale ist die Verzögerung zufällig.
-
Bei
diesem vollständigen
Modell der Spracherzeugung kann das Sprachsignal des entfernten
Endes durch die folgende allgemeine Funktion dargestellt werden:
worin
f(n) die Sprache am fernen Ende zur Zeit n ist, w
f(i)
für 1 ≤ i ≤ M die linearen
Prädiktor-Koeffizienten
des fernen Endes sind, X
f(n) die Erregungssequenz
am fernen Ende zur Zeit n ist, G
f der Langzeit-Prädiktor-Verstärkungsfaktor
am fernen Ende ist, und a
f die Langzeit-Prädiktor-Verzögerung des
fernen Endes ist.
-
Entsprechend
zeigt 4 die bevorzugte Ausgestaltung der Erfindung,
die eine derartige Langzeit-Prädiktions-Analyse
berücksichtigt.
Tatsächlich
ist die Ausgestaltung nach 4 nahezu
identisch zu der nach 3, mit der Ausnahme, dass zusätzliche
LPC-Parameter in der Form einer Verzögerung af und eines Verstärkungsfaktors
Gf für
das Langzeit-Prädiktorfilter
eingefügt
wurden. In diesem Fall werden wf, af, Gf, Xf entlang einer Datenverbindungsstrecke 40 zu
einem LPC-Decodierer (LPC–1) 42 ausgesandt,
der ein Sprachsignal f des entfernten Endes rekonstruiert. Die Parameter
wf, af, Gf, Xf und das Sprachsignal f des entfernten Endes werden
in einen Funktionsblock (H4) 47 einer Echo-Abschätzeinheit 41 eingegeben,
der die Wirkung des akustischen Echopfades auf diese modelliert,
um einen Schätzwert
des Echo-Erregungsvektors X ^e zu erzeugen. Der Schätzwert des Echo-Erregungsvektors
kann durch Ausführen
einer ähnlichen
Analyse wie vorstehend sowohl für
den stationären
als auch den nicht, stationären
Fall gewonnen werden.
-
Für den stationären Fall
kann der Funktionsblock (H4) wie folgt vereinfacht werden:
-
Dies
bedeutet, dass der Erregungsvektor des Echosignals durch einfaches
Falten des Erregungsvektors der Sprache am entfernten Ende mit der
Raum-Impulsantwort
zurückgewonnen
werden kann, und dass er nicht mehr auf die LPC-Parameter des Sprachsignals bezogen
ist. Unglücklicherweise
ist die bei der Ableitung der Gleichung (
9) verwendete
Vereinfachung lediglich für
den stationären
Fall gültig.
Die Durchführung einer
ausführlichen
Analyse für
den nicht stationären
Fall ergibt Folgendes:
worin
die partielle Ableitung des
Schätzwertes
des Erregungsvektors des chosignals zur Zeit n bezüglich der
j-ten Anzaptung der Impulsantwort des akustischen Pfades ist und
wie folgt definiert ist:
worin
G
f der Langzeit-Prädiktor-Verstärkungsfaktor
des fernen Endes ist, a
f die Langzeit-Prädiktor-Verzögerung des
fernen Endes (Klangperiode) ist, c = floor[a
f – n/P] und
w –c–1 / f(i) für
1 ≤ i ≤ M die linearen
Prädiktor-Koeffizienten
des Sprachsignals am fernen Ende für c-1 Blöcke in der Vergangenheit sind.
-
Wie
zuvor wird das Echosignal gezwungen, mit einem LPC-Modell übereinzustimmen,
bei dem dessen LP-Koeffizienten direkt von den Sprachparametern
am fernen Ende gewonnen werden (das heißt wf wird als Näherung für ŵe verwendet).
In ähnlicher
Weise werden die Verzögerung
af und der Verstärkungsfaktor
Gf des Langzeit-Prädiktor-Synthesefilters
des entfernten Endes als direkte Schätzwerte für eine Echo-Langzeit-Prädiktor-Verzögerung, âe bzw.
einen Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe verwendet.
Die Schätzwerte
des Echo-Erregungsvektors X ^e, die Echo-LP-Koeffizienten ŵe, der
Echo-Langzeit-Prädiktor-Verstärkungsfaktor Ĝe und die
Echo-Langzeit-Prädiktor- Verzögerung âe werden
in einen LPC-Decodierer (LPC–1) 49 eingespeist,
der einen Schätzwert
des Echosignals ê synthetisiert.
Wie zuvor wird der Schätzwert
des Echosignals ê von
dem zusammengesetzten Mikrofonsignal e+s subtrahiert, um den Echo-Kompensationsprozess abzuschließen, wodurch
lediglich ein Schätzwert
des Sprachsignals ŝ am
nahen Ende verbleibt.
-
Im
Allgemeinen gibt es eine Anzahl von theoretischen Möglichkeiten
zur Erzielung einer Näherung
des Sprachsignals am nahen Ende, die anders sind, als das einfache
Subtrahieren des Schätzwertes
des Echosignals von dem zusammengesetzten Mikrofonsignal. Beispielsweise
besteht eine Alternative einer derartigen Zeitdomänen-Manipulation
darin, den Echoschätzwert
und das zusammengesetzte Mikrofonsignal in eine andere Domäne (beispielsweise
die Frequenzdomäne)
zu transformieren, die Signale in der gewählten Domäne zu manipulieren und dann
das resultierende Signal zurück
zur Zeitdomäne
zurückzutransformieren.
In ähnlicher
Weise können
auch andere Verfahren verwendet werden. Es sei bemerkt, dass obwohl
das Ziel der Erfindung die weitestgehende Beseitigung des akustischen
Echos am nahen Ende ist, das von dem Signal vom fernen Ende abgeleitet
wird, in manchen Fällen
die Wirkung einfach eine Verringerung des übertragenen akustischen Echos
ist.
-
Der
Betrieb einer akustischen Echo-Kompensationseinrichtung in der LPC-Domäne, das
heißt
der Betrieb mit den Filterkoeffizienten und der Erregungsfolge,
bietet die Möglichkeit
einer verbesserten Betriebsleistung aus mehreren Gründen. Erstens
verbessert der Fortfall der Signalkorrelation über den LPC-Prozess die Konvergenzeigenschaften
von adaptiven Filtern, die einfache Anpassungsalgorithmen verwenden,
wie z. B. den Algorithmus mit den kleinsten Fehlerquadraten (LMS).
Dies heißt
mit anderen Worten, dass der LPC-Prozess eine rauschartige Erregungsfolge
verwendet, die bei ihrer Verwendung als ein Eingang an einen NMLS-Algorithmus
die Konvergenzrate beschleunigt. Zusätzlich können der AEC- und LPC-Codierer
einen Teil der Rechen-Verarbeitungslast gemeinsam nutzen. Das heißt, dass
die Transformation in die Filterdomäne bereits als Teil des Codierprozesses
durchgeführt
wird und dies daher die Verarbeitungslast des Echo-Kompensationsprozesses
verringert. Weitere mögliche
Vorteile einer derartigen Lösung
sind weiterhin zu erkennen.
-
Beispielsweise
wurde die Durchführung
der Echo-Kompensation in der Zeitdomäne und in geringerem Ausmaß in der
Frequenzdomäne
in großem
Umfang durch Forscher in den letzten wenigen Jahren studiert. Die
Betriebsleistung, die bis zum heutigen Tag erreicht wurde, ist das
Ergebnis mehrerer Jahre von Forschung und Optimierung. Diese Erfindung
stellt eine neue und unterschiedliche Weise der Betrachtung des
Problems dar, die stärker
an die Sprachcharakteristik angepasst ist. Es wird erwartet, dass
dann die Betriebsleistung von AEC's gemäß der Erfindung in ähnlicher
Weise verbessert werden kann, wenn derartige Anstrengungen ihrer Optimierung
gewidmet werden.
-
Die
Informationskompression in der LPC-Domäne ist das Ergebnis der Beseitigung
von Informationen, die nicht mit Sprachmerkmale übereinstimmen. Die vorgeschlagene
Erfindung versucht, das gleiche mit der Echo-Kompensationseinrichtung
durchzuführen.
Dies heißt
mit anderen Worten, dass keine Notwendigkeit besteht, die Übertragungsfunktion
in Bereichen zu modellieren, die für die Sprache nicht relevant
sind und daher die Sprachqualität
nicht beeinflussen.
-
Die
Hauptvorteile dieser Erfindung liegen in dem Gebiet der Netzwerk-
und akustischen Echo-Kompensation. Allgemein ist die Netzwerk-Echokompensation ähnlich der
akustischen Echo-Kompensation, mit der Ausnahme, dass die Netzwerk-Echopfad-Charakteristiken
nach der Herstellung einer Verbindung dazu neigen, stabiler zu sein,
als für
einen akustischen Echopfad. Netzwerk-Echokompensationseinrichtungen können daher
am stärksten
von dieser Lösung
profitieren.
-
Weiterhin
ist, obwohl die Erfindung hauptsächlich
zur Verwendung mit einem Endgerät
in einer Freisprechbetriebsart bestimmt ist, die Erfindung auch
in einigen Endgeräten
verwendbar, die keine Freisprechbetriebsart aufweisen, die jedoch
eine unerwünschte
akustische Kopplung zwischen dem Kopfhörer und dem Mikrofon ergeben
können.
-
Schließlich können adaptive
Filtertechniken unter Verwendung verschiedener Messungen der Betriebsleistung
verglichen werden, von denen zwei die Echodämpfungs-Verbesserung (ERLE)
und die Systementfernung (D) sind. ERLE definiert den Unterschied
der mittleren Leistung zwischen dem primären Signal und dem Fehlersignal.
Derzeit den Stand der Technik darstellende AEC's scheinen auf einen eingeschwungenen
Wert von ERLE von 25 dB beschränkt
zu sein, obwohl mehr als 40 dB in der Praxis erwünscht ist. Der Systemabstand
andererseits ist als die Differenz der kleinsten Quadrate zwischen
der geschätzten Raum-Übertragungsfunktion und der
tatsächlichen
Raum-Übertragungsfunktion
definiert. Die hier beschriebene Technik weist eine beträchtliche
Verbesserung sowohl hinsichtlich der Konvergenztiefe als auch der
Rate gegenüber
der traditionellen NLMS-Lösung
auf. Beispielsweise haben Simulationen eine Verbesserung von mehr
als 14 dB in dem Systemabstand (D) und mehr als 8 dB hinsichtlich
der ERLE verglichen mit NLMS-Techniken nach dem Stand der Technik
erwiesen. Als ein Betriebsleistungmaß wird der Systemabstand üblicherweise
gegenüber
ERLE bevorzugt, weil er nicht von der Eingangs-Sprachcharakteristik
abhängt
und daher eine genauere Messung der Konvergenzrate ergibt.
-
Obwohl
bevorzugte Ausführungsformen
der Erfindung beschrieben und gezeigt wurden, ist es für den Fachmann
verständlich,
dass vielfältige
Modifikationen, Abänderungen
und Anpassungen durchgeführt
werden können,
ohne von dem Schutzumfang der Ansprüche abzuweichen, wie er in
den beigefügten
Ansprüchen definiert
ist.