DE69932598T2

DE69932598T2 - Echokompensator

Info

Publication number: DE69932598T2
Application number: DE69932598T
Authority: DE
Inventors: Tönu TRUMP; Anders Eriksson
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-02-13
Filing date: 1999-02-02
Publication date: 2007-10-25
Anticipated expiration: 2019-02-03
Also published as: EP1055292A1; WO1999041848A1; KR100566452B1; KR20010040850A; EP1055292B1; JP2002503910A; JP4417553B2; DE69932598D1; AU2648599A

Description

Die vorliegende Erfindung bezieht sich auf Kommunikationssysteme und insbesondere auf Echoaufhebung in bidirektionalen Kommunikationsverbindungen.
Signalecho ist ein wohlbekanntes Phänomen, durch welches Energie in einem übertragenen Signal in Richtung zur Quelle des Signals zurück reflektiert wird. Im Kontext von Netzwerktelefonie kann ein Signalecho beispielsweise von Reflexionen an den hybriden Schaltkreisen herrühren, die vier-drahtige Netzwerkverbindungen mit zwei-drahtigen lokalen Verbindungen verbinden (beispielsweise in einer Teilnehmerschleife). Ein beachtliches Echo wird ebenfalls erzeugt, wenn ein Telefongerät in dem so genannten Freihand-Modus benutzt wird (beispielsweise in Systemen für Telekonferenzen und in Anwendungen für Automobiltelefonie). Im Freihand-Kontext rührt Echo von der akustischen Kopplung zwischen einem Telefonie-Lautsprecher und nahe gelegenen Telefonie-Mikrofonen her.
Derartiges Signalecho ist typischerweise kein zu beachtendes Besorgnis, wenn die dem Echo zugeordnete Verzögerung für einen Rundlauf (Englisch: Round Trip Delay) klein ist. Wenn jedoch die Rundlaufverzögerung länger ist (beispielsweise von der Größenordnung von Hunderten Millisekunden) kann das Signalecho für einen menschlichen Telefoniebenutzer störend oder sogar nicht mehr tolerierbar werden. In der Praxis kann die Rundlaufverzögerung eine physikalische Verzögerung sein, die von einem langen Übertragungsweg (beispielsweise wenn eine Satellitenverbindung benutzt wird) oder von einer durch Netzwerkgeräte (beispielsweise digitale Sprachcodierer oder Decodierer) verursachten Verarbeitungsverzögerung verursacht worden ist.
Das Echoproblem kann mit Verweis auf 1 verstanden werden, in der eine bidirektionale Kommunikationsverbindung zwischen einem Benutzer an einem entfernten bzw. fernen Ende und einem Benutzer an einem nahen Ende in Kombination mit einem beispielhaften Echounterdrückungssystem 100, in dem die Lehren der vorliegenden Erfindung implementiert werden können, dargestellt ist. Wie gezeigt, enthält das beispielhafte Echounterdrückungssystem 100 ein Echoaufhebungsgerät 110 umfassend ein adaptives Filter 105, einen Doppelsprechdetektor 115, eine Summationsvorrichtung 125 und eine nicht-lineare Verarbeitungseinheit 135.
In 1 wird ein Eingangssignal x(t) (beispielsweise ein Audiosignal im Kontext von Netzwerktelefonie) an einem fernen Ende mit einem Referenzeingang des adaptiven Filters 105 und mit einem ersten Referenzeingang des Doppelsprechdetektors 115 gekoppelt. Zusätzlich ist ein Echoabschätzungsausgang s ^(t) des adaptiven Filters 105 mit einem Subtraktionseingang der Summationsvorrichtung 125 gekoppelt und ein beobachtetes Signal y(t) eines nahen Endes ist gekoppelt an den zusätzlichen Eingang der Summationsvorrichtung 125 und einem zweiten Referenzeingang des Doppelsprechdetektors 115 gekoppelt und die Detektionsausgabe des Doppelsprechdetektors 115 ist mit einem Steuereingang des adaptiven Filters 105 verbunden und eine Fehlersignalausgabe e(t) der Summationsvorrichtung 125 ist mit einem Eingang der nicht-linearen Verarbeitungseinheit 135 gekoppelt. Ein Ausgang der nichtlinearen Verarbeitungseinheit 135 dient als eine Signalausgabe eines fernen Endes für die Echoaufhebungsvorrichtung 110.
Im Betrieb wird das Signal x(t) des fernen Endes dem Benutzer am nahen Ende bereitgestellt und wird gleichzeitig verändert und durch den Echopfad H am nahen Ende zu dem Benutzer am fernen Ende zurückreflektiert. Wie oben beschrieben rührt der Echopfad H am nahen Ende beispielsweise von einer Hybridfehlanpassung in einem Telefonienetzwerk her und/oder einem nicht blockierten akustischen Pfad zwischen einem Lautsprecher am nahen Ende und einem Mikrofon am nahen Ende. Der Echopfad H am nahen Ende kann durch seine Impulsantwort h charakterisiert werden und wird in 1 konzeptuell dargestellt als ein Filter 150 mit endlicher Impulsantwort (FIR, Englisch: Finite Impulse Response).
Wie gezeigt, kombiniert sich das resultierende Echosignal s(t) dann mit einem Eingangssignal v(t) am nahen Ende, um das beobachtete Signal y(t) am Eingang der Echoaufhebungsvorrichtung 110 zu erhalten. Das Signal v(t) am nahen Ende enthält beispielsweise Stimmsignale des nahen Endes (Englisch: Near-End Voice) und/oder Hintergrundrauschen des nahen Endes. Das Mischen des Signals v(t) am nahen Ende und des Echosignals s(t) wird in dem System 100 der 1 durch eine zweite Summiervorrichtung 155 dargestellt. Der Fachmann wird jedoch einsehen, dass die zweite Summiervorrichtung 155 in ihrer Art konzeptuell ist und dass in einem praktischen System tatsächlich kein derartiges Gerät enthalten ist. Stattdessen ist das Mischen des Signals v(t) am nahen Ende und das Echosignal s(t) in dem Systemaufbau inhärent vorhanden (wenn beispielsweise ein Mikrofon am nahen Ende gleichzeitig ein Stimmsignal des nahen Endes und Geräusch und ebenso ein Echo von einem Lautsprecher am nahen Ende aufnimmt).
Um zu verhindern, dass das Echosignal s(t) den Benutzer am fernen Ende erreicht, stellt die Echoaufhebungsvorrichtung 110 die Impulsantwort des adaptiven Filters 105 dynamisch ein, um diejenige des Echopfads H am nahen Ende anzupassen, und subtrahiert die resultierende Abschätzung s(t) des Echos von dem beobachteten Signal y(t) am nahen Ende, um den vom Echo befreiten Fehler oder das residuale Signal e(t) zu erzielen. Weil jedoch das adaptive Filter 105 typischerweise keine perfekte Anpassung bereitstellen kann (beispielsweise aufgrund von Nichtlinearitäten in der Netzwerkapparatur und/oder dynamischen Veränderungen in dem Echopfad am nahen Ende), benutzt die Echoaufhebungsvorrichtung auch den nicht-linearen Prozessor oder die Unterdrückungseinheit 135 für das residuale Echo, um je nach Erfordernis eine zusätzliche Echounterdrückung bereitzustellen. Weil die in einem Telefonanruf involvierten Signale in ihrer Natur nicht stationär sind, benutzt die Echoaufhebungsvorrichtung 110 typischerweise auch zusätzlich den Doppelsprechdetektor 115, um die Filteranpassung zu verhindern, wenn eine Messung des Verhältnisses Echosignals zum Signal am nahen Ende anzeigt, dass die Verbesserung der Echopfadabschätzung nicht durch fortsetztes Anpassen des Filters 105 erreicht werden kann.
In den meisten herkömmlichen Systemen verwendet die Echoaufhebungsvorrichtung 110 einen adaptiven Algorithmus der kleinsten mittleren Quadrate (LMS, Englisch: Least Mean Squares) oder einen adaptiven Algorithmus der normalisierten geringsten mittleren Quadrate (NLMS, Englisch: Normalized Least Mean Squares), um das Filter 105 zu aktualisieren. Derartige Algorithmen sind attraktiv für den Einsatz in praktischen Systemen, weil sie ziemlich robust sind und niedrige Berechnungskomplexität bieten. Andere herkömmliche Systeme haben den wohlbekannten adaptiven Algorithmus der affinen Projektion eingesetzt (siehe beispielsweise US Patent Nr. 5,428,562 an Gay, erteilt am 27. Juni 1995) und verschiedene Algorithmen im Frequenzbereich (siehe beispielsweise J.J. Shynk, "Frequency-Domain and Multirate Adaptive Filtering," IEEE Signal Processing Magazine, Januar 1992, Seiten 14-37 sowie J. Soo und K.K. Pang, "Multidelay Block Frequency Domain Adaptive Filter," IEEE Trans. Acoustics, Speech and Signal Processing, Ausgabe 38, Nr. 2, Februar 1990, Seiten 373-376).
Die Druckschrift US 5,570,423 offenbart eine weitere Echoaufhebungsvorrichtung, die einen NLMS Algorithmus einsetzt.
Die meisten der oben beschriebenen herkömmlichen adaptiven Algorithmen sind entwickelt, um in einem gewissen Sinne die Fehlersignalleistung E[e²(t)] oder bestimmte Abschätzungen derselben zu minimalisieren und nimmt daher implizit an, dass die Rauschkomponente des Eingangssignals v(t) am nahen Ende entweder nicht vorhanden oder weiß (Anmerkung des Übersetzers: vom Typ des weißen Rauschens) ist. Während eine derartige Annahme in Fällen genau ist, wo die Rauschkomponente primär vom thermischen Rauschen oder vom Quantisierungsrauschen herrührt, ist sie oft in praktischen Situationen fehlerhaft, wo die Rauschkomponente stattdessen vielmehr aus Hintergrundgeräuschen der Umgebung am nahen Ende besteht.
Folglicherweise arbeiten herkömmliche Echoaufhebungssysteme häufig beim Vorhandensein eines wesentlichen Bestandteils von gefärbtem Rauschen am nahen Ende schlecht, und daher besteht eine Notwendigkeit für verbesserte Verfahren und Vorrichtungen zum Anpassen von Echoaufhebungsfiltern.
Zusammenfassung der Erfindung
Nach einem Aspekt der vorliegenden Erfindung wird eine Echoaufhebungsvorrichtung bereitgestellt, konfiguriert zum Unterdrücken einer Echokomponente eines beobachteten Signals, wobei die Echokomponente vom Koppeln eines Quellensignals durch einen Echopfad herrührt, wobei das Echoaufhebungsgerät umfasst: ein adaptives Filter konfiguriert zum Annähern bzw. Abschätzen des Echopfads und zum Bereitstellen einer Abschätzung der Echokomponente dabei, wobei das adaptive Filter zum Einsetzen einer Abschätzung der Rauschkomponente des beobachteten Signals konfiguriert ist und gekennzeichnet ist durch: Mittel zum Subtrahieren der Abschätzung der Echokomponente von dem beobachteten Signal, um ein Restsignal mit aufgehobenem Echo bereitzustellen; Mittel zum Aktualisieren einer Abschätzung einer Impulsantwort des Echopfads, wenn eine Messung der Leistung in einem Block von Proben des Quellensignals oberhalb eines Schwellwerts ist; Mitte 1 zum Aktualisieren der Abschätzung der Rauschkomponente des beobachteten Signals in anderen Fällen, wobei die Mittel zum Aktualisieren der Abschätzung der Impulsantwort des Echopfads ferner Mittel umfassen zum Abschätzen der Rauschkomponente des beobachteten Signals auf der Grundlage einer Abschätzung eines Leistungsspektrums des Restsignals mit aufgehobenem Echo.
Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Aufheben einer Echokomponente eines beobachteten Signals, wobei die Echokomponente vom Koppeln eines Quellensignals durch einen Echopfad herrührt, wobei das Verfahren die folgenden Schritte umfasst: Abtasten des Quellensignals, um einen Block von Quellensignalproben bereitzustellen; Berechnen einer diskreten Fouriertransformation des Blocks der Quellensignalproben, um eine Darstellung im des Quellensignals Frequenzbereich bereitzustellen; Multiplizieren der Darstellung des Quellensignals im Frequenzbereich mit einer Abschätzung einer Impulsantwort des Echopfads im Frequenzbereich, um eine Abschätzung des Echos im Frequenzbereich bereitzustellen; Berechnen einer inversen diskreten Fouriertransformation der Echoabschätzung im Frequenzbereich, um ein Echoabschätzungssignal im Zeitbereich bereitzustellen; Subtrahieren des Echoabschätzungssignals im Zeitbereich von dem beobachteten Signal, um ein Restsignal mit aufgehobenem Echo bereitzustellen; Berechnen einer diskreten Fouriertransformation von einem Block von Proben des Restsignals mit aufgehobenem Echo, um eine Frequenzbereichdarstellung des Restsignals mit aufgehobenem Echo bereitzustellen; Anpassen der Abschätzung der Impulsantwort des Echopfads im Frequenzbereich, basierend auf der Darstellung des Restsignals mit aufgehobenem Echo im Frequenzbereich und auf der Grundlage der Darstellung des Quellensignals im Frequenzbereich, wobei der Schritt des Anpassens der Abschätzung der Impulsantwort Frequenzbereich eine Abschätzung einer Rauschkomponente des beobachteten Signals enthält, und wobei der Schritt des Anpassens der Abschätzung der Impulsantwort Frequenzbereich die Schritte umfasst: Aktualisieren der Abschätzung der Impulsantwort im Frequenzbereich, wenn eine Messung der Leistung in dem Block der Quellensignal-Proben oberhalb eines Schwellwerts ist; und Aktualisieren der Abschätzung der Rauschkomponente des beobachteten Signals in anderen Fällen, wobei die aktualisierte Abschätzung der Rauschkomponente in einer nachfolgenden Aktualisierung der Abschätzung der Impulsantwort im Frequenzbereich als eine entsprechende Rauschkomponente verwendet wird.
Diese und andere Merkmale und Vorteile der vorliegenden Erfindung werden im Folgenden in größerer Ausführlichkeit und mit Verweis auf die veranschaulichenden Beispiele, die in den beigefügten Zeichnungen gezeigt sind, erläutert. Der Fachmann in dem technischen Fachgebiet wird einsehen, dass die beschriebenen Ausführungsformen zum Zweck der Veranschaulichung und des Verständnisses bereitgestellt sind, und dass hierin vielfältige äquivalente Ausführungsformen mit umfasst sind.
Zum besseren Verständnis der Erfindung und um zu zeigen, wie diese in der Praxis ausgeführt werden kann, wird nun beispielhaft auf die beigefügten Zeichnungen verwiesen, für die gilt:
1 zeigt ein beispielhaftes Echoaufhebungssystem, in dem Ausführungsformen der Erfindung implementiert werden können;
2 zeigt einen beispielhaften adaptiven Algorithmus nach der Erfindung;
die 3-5 zeigen Ergebnisse von Computersimulationen, die die Effizienz der Ausführungsformen der Erfindung zeigen; und
die 6 und 7 zeigen einen alternativen adaptiven Algorithmus nach der Erfindung.
Die vorliegende Erfindung stellt Verfahren und Vorrichtungen bereit zum Einarbeiten einer teilweisen Kenntnis des Systemmessrauschens in einem adaptiven Filteralgorithmus. Beispielhafte Algorithmen werden erhalten, in dem eine Kriteriumsfunktion mit einer ein stochastisches Gradientenverfahren einsetzenden, besten, linearen, erwartungstreuen Abschätzung (BLUE, Englisch: Best Linear Unbiased Estimate) minimalisiert und dann in den Frequenzbereich umgewandelt wird, um die Berechnungskomplexität zu verringern. In vorteilhafter Weise werden die Kennlinien des Systemrauschens während natürlicher Pausen beim Sprechen eines Benutzers gemessen, und dann während der Filteranpassung berücksichtigt. So kann, im Vergleich zu herkömmlichen Vorrichtungen, eine Echoaufhebungsvorrichtung nach der Erfindung aufgebaut werden, um bessere Echoaufhebung in Situationen bereitzustellen, wo es ein ansehnliches Hintergrundrauschen gibt.
In vorteilhafter Weise können Messungen der Rauschkomponenten des beobachteten Signals in Echtzeit ausgeführt werden, während der natürlichen Pausen in einer oder mehrerer Sprachkomponenten des beobachteten Signals. In einer beispielhaften Ausführungsform werden solche Pausen auf der Grundlage einer Messung der Leistung in einem Block von Proben in dem Echoquellensignal bestimmt.
Nach den Ausführungsformen wird die abgeschätzte Impulsantwort des adaptiven Filters auf der Grundlage einer gewichteten Summe der residualen Signalleistungsspektrumsabschätzung und der Abschätzung für die Echoquelle des Leistungsspektrums berechnet. Beispielsweise kann eine gewichtete Summe berechnet werden durch Addieren des Leistungsspektrums des Echos der Quelle zu einem Produkt der Abschätzung des residualen Signalleistungsspektrums und einem Rauschanpassungsparameter. In vorteilhafter Weise kann der Rauschanpassungsparameter dynamisch auf der Grundlage von Proben bzw. Abtastwerten des residualen Signals und Proben bzw. Abtastwerten des Echoquellensignals eingestellt werden.
Der Schritt des Aktualisierens der Abschätzung der Impulsantwort im Frequenzbereich kann die Schritte umfassen: Aktualisieren einer Abschätzung eines Signalleistungsspektrums des Quellensignals, Berechnen einer gewichteten Summe der Abschätzung des Leistungsspektrums des Rauschens und der Abschätzung des Leistungsspektrums des Signals und Berechnen einer Aktualisierung der Abschätzung im Frequenzbereich auf der Grundlage der gewichteten Summe. In vorteilhafter Weise kann die gewichtete Summe durch Addieren der Abschätzung des Leistungsspektrums des Signals zu einem Produkt der Abschätzung des Leistungsspektrums des Rauschens und einem Rauschanpassungsparameter berechnet werden. In Ausführungsformen wird der Rauschabschätzungsparameter auf der Grundlage von Proben des Echoquellensignals und des Restsignals mit aufgehobenem Echo dynamisch eingeregelt.
Nach der Erfindung wird bei der Entwicklung eines adaptiven Filteralgorithmus zur Verwendung in Echoaufhebungssystemen eine Kriteriumsfunktion nach einer besten linearen, erwartungstreuen Abschätzung (BLUE, Englisch: Best Linear Unbiased Estimate) als eine Zielfunktion verwendet. In vorteilhafter Weise ermöglicht eine derartige Zielfunktion, dass die daraus resultierenden Algorithmen Nuancen bzw. Farbe (Englisch: Color) berücksichtigen, die in dem gemessenen Rauschen von praktischen Echoaufhebungssystemen vorhanden sein können. Folglich stellen die resultierenden Algorithmen eine verbesserte Leistungsfähigkeit bei der Echoaufhebung im Vergleich zu herkömmlichen Algorithmen bereit.
In der folgenden rigorosen Entwicklung der adaptiven Algorithmen der vorliegenden Erfindung werden kursive Buchstaben, fettgedruckte kleine Buchstaben und fettgedruckte große Buchstaben verwendet, um Skalare, Spaltenvektoren bzw. Matrizen darzustellen. Zusätzlich werden hochgestellte T, H bzw. t verwendet zum Bezeichnen der transponierten, der hermitisch transponierten bzw. der Moore-Penrose pseudoinversen Operationen. Ferner wird das Symbol 2 verwendet zum Darstellen der Einheitsmatrix, und das Symbol 0 wird verwendet zum Darstellen einer Matrix gefüllt mit allen Nullen.
Unter der Annahme, dass der Echopfad H in einem Echoaufhebungssystem als ein Filter mit finiter Impulsantwort mit N Anzapfungen (Englisch: Taps) oder Filterkoeffizienten modelliert werden kann, und unter der weiteren Annahme, dass die Korrelationseigenschaften des Eingabesignals x(t) des Systems am nahen Ende unter Verwendung von L Korrelationsverzögerungen (Englisch: Correlation Lag) wohl modelliert werden können, dann kann eine alternative Kriteriumsfunktion V vom Typ einer besten, linearen, erwartungstreuen Abschätzung definiert werden als: V = (Xh – y)T(γRV + XXT)✝(Xh – y), (1)wobei h der N Vektor der unbekannten Filterkoeffizienten (d.h. die Impulsantwort des Echopfads H), γ eine positive Konstante und X eine M × N Matrix von Eingabesignalproben ist, die definiert sind als X = [x(t)...x(t – N + 1)], wobei x(t) = [x_t-M+1, ..., x₁]^T. Zusätzlich ist der Vektor y = Xh + v der M Vektor der beobachteten Signalproben und v ist der M Vektor der gemessenen Rauschproben mit symmetrischer Toeplitz Kovarianz-Matrix R_v. Es ist zu beachten, dass obwohl die oben bereitgestellte Definition der Matrix X der Eingabeproben in bestimmten Kontexten möglicherweise nicht die konsequenteste Definition ist, so stellt sie doch in vorteilhafter Weise Algorithmen im Frequenzbereich bereit, die starke Ähnlichkeiten mit dem klassischen, überlagerungs-sicheren adaptiven Filter im Frequenzbereich (FDAF, Englisch: Frequency Domain Adaptive Filter) Algorithmen sind, die beispielsweise beschrieben sind in G.A. Clark, S.R. Parker und S.K. Mitra, "A Unified Approach to Time- and Frequency-Domain Realization of FIR Adaptive Digital Filters", IEEE Trans. Acoustics, Speech and Signal Processing, Ausgabe 31, Seiten 1073-1083, Oktober 1983; S. Haykin, "Adaptive Filter Theory", Dritte Ausgabe, Prentice Hall, 1996; und den oben zitierten Artikel von J.J. Shynk, "Frequency-Domain and Multirate Adaptive Filtering", IEEE Signal Processing Magazine, Januar 1992, Seiten 14-37).
Mit der gegebenen Definition der Kriteriumsfunktion nach der Gleichung (1) kann die Ableitung der Kriteriumsfunktion V in Bezug auf den unbekannten Koeffizientenvektor h geschrieben werden als
wobei e = y – Xh, entsprechend der Proben bzw. Abtastpunkte des oben beschriebenen Fehlersignals e(t). Eine Abschätzung des Koeffizientenvektors h kann also geschrieben werden als h ^ = (XT(γRv + XXT)✝X)–1XT(γRv + XXT)✝y. (3)In vorteilhafter Weise kann gezeigt werden, dass Gleichung (3) die beste, lineare erwartungstreue Abschätzung des Koeffizientenvektors h ist für den Fall einer möglichen singulären R_v. Des weiteren wird in T. Söderström und P. Stoica, "System Identification," Prentice Hall, 1988, Seiten 89-90, argumentiert, dass diese Abschätzung, zumindest für den Fall γ = 1, bessere numerische Eigenschaften aufweist als die traditionellere, beste, lineare, erwartungstreue Abschätzung, die vom Minimalisieren von (Xh – y)^TR_v ^–1(Xh – y) herrührt (siehe beispielsweise K.C. Ho, "A Minimum Misadjustment Adaptive FIR Filter," IEEE Trans. Signal Processing, Ausgabe 44, Seiten 577-585, März 1996).
Nach der Erfindung kann dann ein Gradientenalgorithmus zum Abschätzen des Koeffizientenvektors h so definiert werden, dass die Gleichung (1) minimalisiert wird. Insbesondere wird ein Gradientenalgorithmus nach der Erfindung definiert als e(t) = y(t) – X(t)h ^(t) (4) h ^(t + 1) = h ^(t) + μX1(t)(γRv + X(t)XT(t))✝e(t). (5)
Es ist zu beachten, dass in den obigen Gleichungen die Länge M des gesamten Signals ersetzt worden ist durch eine Blocklänge L < M in allen entsprechenden Matrixdimensionen.
Es ist auch zu beachten, dass in dem Fall von weißem Rauschen v(t) der Gradientenalgorithmus der Erfindung übereinstimmt mit der relaxierten und regularisierten Form des affinen Projektionsalgorithmus, wobei der Regularisierungsparameter proportional zu der gemessenen Rauschvarianz ist (siehe beispielsweise S.L. Gay und S. Tavathia, "The Fast Affine Projection Algorithm," Proc. ICASSP'95, Detroit, Vol. 5, Seiten 3023-3026, Mai 1995).
Nach der Erfindung werden die obigen Gleichungen jedoch verwendet zum Entwickeln eines Algorithmuses im Frequenzbereich. Um dies auszuführen, wird eine (N + L) × (N + L) zyklisch ausgeweitete bzw. erweiterte Eingabesignalmatrix definiert als
Es ist zu beachten, dass dies nur eine bestimmte zyklische Erweiterung von mehreren möglichen ist. Der Vorteil dieser zyklischen Erweiterung ist, dass er zu intuitiv wohl zu verstehenden Algorithmen führt. Eine ähnliche Erweiterung wird beispielsweise verwendet in der oben zitierten Veröffentlichung Paper von G.A. Clark, S.R. Parker und S.K. Mitra, "A Unified Approach to Time- and Frequency-Domain Realization of FIR Adaptive Digital Filters," IEEE Trans. Acoustics, Speech and Signal Processing, Ausgabe 31, Seiten 1073-1083, Oktober 1983.
Die ursprüngliche Eingabesignalmatrix X(t) erscheint in der oberen linken Ecke der zyklisch erweiterten Eingabesignalmatrix X_c(t) und folglich kann die Matrix der Eingabesignale X(t) geschrieben werden als
Die erweiterte Matrix X_c(t) ist aufgrund ihrer Konstruktion rechtszyklisch und das gilt auch für ihre transponierte X T / C (t). Die Eigen-Zerlegung bzw. Eigen-Dekomposition einer rechtszyklischen Matrix ist gegeben durch (siehe beispielsweise S.L. Marple, Jr., "Digital Spectral Analysis with Applications", Prentice Hall, 1987): XTC = FΛFH, (7)wobei das Symbol F die diskrete (N + L) × (N + L) Fouriertransformationsmatrix darstellt, die die Elemente
aufweist, und wo das Symbol Λ eine diagonale Matrix darstellt, die mit der diskreten Fouriertransformation der ersten Zeile der erweiterten transponierten Matrix X T / C gebildet worden ist. Insbesondere ist die diagonale Matrix Λ definiert als

Λ: = diag(DFT([x_t-N-L+1...x_t])).

Im Fall von Signalen mit reelen Werten sind die Transponierte von X_c und die hermitisch Transponierte von X_c dieselben und folglich X T / C = FΛF^x = F^HΛ^HF und X_c = FΛ^HF^H = F^HΛF.
So kann durch Ersetzen der Gleichungen (6) und (7) in die Gleichungen (4) und (5) der adaptive Algorithmus der Erfindung ausgedrückt werden als:
Ferner kann, durch Definieren eines Frequenzantwortvektors für das unbekannte System gemäß:
und durch Definieren eines Zwischenvektors g(t) gemäß:
der adaptive Algorithmus der Erfindung ausgedrückt werden als
Nach einer ersten beispielhaften Ausführungsform wird der Ausdruck γR_v + X(t)X^T(t) angenährt durch eine Toeplitz-Matrix, und ein rekursiver Algorithmus, wie etwa der wohlbekannte Levinson-Algorithmus (siehe beispielsweise den oben zitierten Text von S.L. Marple, Jr., "Digital Spectral Analysis with Application", Prentice Hall, 1987) wird verwendet, um den Ausdruck (γR_v + X(t)X^T(t))^✝e(t) zu finden. Diese erste Ausführungsform wird im Folgenden als ALGO1 bezeichnet.
Für den Fall, dass L << N ist, liefert die erste Ausführungsform ALGO1 zufrieden stellende Berechnungskomplexität in der Größenordnung von (O((N + L)log₂(N + L)) + O(L²)). Weil jedoch die Komplexität des Levinson-Algorithmus nicht in allen praktischen Situationen akzeptabel ist, verwendet die vorliegende Erfindung mehrere vereinfachende Annäherungen, um einen alternativen, besser gestrafften (Englisch: Streamlined) Algorithmus bereitzustellen. In vorteilhafter Weise wurde die oben beschriebene erste Ausführungsform ALGO1 in Computersimulationen verwendet, um die zum Ableiten des Algorithmus mit niedrigerer Komplexität verwendeten Annäherungen zu bestätigen. Ergebnisse der Computersimulationen werden unten mit Verweis auf die 3 bis 5 ausführlich beschrieben.
Um den Algorithmus mit niedrigerer Komplexität abzuleiten, wird der Zwischenvektor g(t) alternativ ausgedrückt als
Um einzusehen, dass dies möglich ist, wird die Gleichung Rz = e betrachtet, wobei R = γR_v + XX^T eine nicht negative, definitive L × L Matrix und z und e jeweils L Vektoren sind. Der letztere Teil der Gleichung ist äquivalent zu
das umgeschrieben werden kann als
Auf diese Weise kann durch die Gleichung (11) der Vektor g(t) ausgedrückt werden als
was äquivalent ist zu dem Ausdruck für g(t), der in Gleichung (14) bereitgestellt ist.
Nach der Erfindung wird die Korrelationsmatrix der Eingabesignale dann durch eine Toeplitz-Matrix R_x ≈ X(t)X^T(t) angenährt, und es wird eine zyklische Erweiterung R_c der Summe der Korrelationsmatrizen wird so definiert, dass folgender Ausdruck erfüllt ist:
Unter der Annahme dass L = N + 1, nimmt dann die erste Zeile der Erweiterung R_c sogar DFT Symmetrie an, und infolge dessen kann sie zerlegt werden als Rc = FHDF = FDFH, (15)wobei D die Diagonale mit einer diskreten, fouriertransformierten, ersten Zeile von R auf der Hauptdiagonalen ist. Die Hauptdiagonale von D ist folglich aufgrund ihrer Konstruktion real und symmetrisch. Dementsprechend kann die Gleichung (14) nun umgeschrieben werden als
als eine Fenstermatrix angesehen werden kann. Genauer gesagt ist die Matrix K eine rechtszyklische Matrix, wobei die Elemente der ersten Reihe gegeben sind durch
was einem rechteckförmigen Fenster im Zeitbereich entspricht.
Es ist anzumerken, dass wenn die Gleichung (16) in Gleichung (13) verwendet wird, immer noch ein Algorithmus mit relativ hoher Berechnungskomplexität die Folge ist. In vorteilhafter Weise stellt jedoch die vorliegende Erfindung einen Algorithmus mit sehr niedriger Komplexität bereit, in dem die Matrix K durch eine Einheitsmatrix angenähert wird. Interessanterweise führt eine derartige Annäherung zu einem Algorithmus, der sehr ähnlich zu dem selbst-orthogonalisierenden adaptiven Filter im Frequenzbereich ist (siehe beispielsweise den oben zitierten Artikel von J.J. Shynk, "Frequency-Domain and Multirate Adaptive Filtering", IEEE Signal Processing Magazine, Januar 1992, Seiten 14-37), wobei die Signalleistung in den Frequenzabschnitten (die zum Normalisieren der Schrittgrößen auf entsprechenden Frequenzen verwendet werden) mit der gewichteten Summe von Signalen und gemessenen Rauschleistungen ersetzt worden sind.
In der vorhergehenden Besprechung ist angenommen worden, dass die gemessene Rauschkorrelationsmatrix R_v bekannt ist. In der Praxis ist jedoch R_v häufig nicht bekannt und wird abgeschätzt. Beispielsweise ist es in Anwendungen der Sprachecho-Aufhebung gebräuchlich, die Abschätzung mit σ_v ²I zu initialisieren, wobei σ² eine erwartete Rauschleistung ist. Weiterhin ist es in bestimmten Anwendungen möglich, während der Initialisierungsphase des Algorithmus eine bessere anfängliche Abschätzung zu erhalten. Die Abschätzung kann dann während natürlicher Sprachpausen aufgefrischt werden (beispielsweise wenn Tr(ΛΛ^H) oberhalb eines vorbestimmten Schwellwerts th ist. In vorteilhafter Weise hat die Ausführung dieses Schritts keinen signifikanten Einfluss auf die Berechnungskomplexität des Algorithmus, weil die Koeffizienten nicht aktualisiert werden sollten, wenn die Eingangssignalleistung sowieso niedrig ist (siehe beispielsweise T. Petillon, A. Gilloire und S. Theodoridis, "The Fast Newton Transversal Filter: An Efficient Scheme for Acoustic Echo Cancellation in Mobile Radio," IEEE Trans. Signal Processing, Ausgabe 42, Seiten 509-517, März 1994).
Der daraus folgende Algorithmus mit niedriger Komplexität nach der Erfindung, der im Folgenden als ALGO2 bezeichnet wird, wird so arithmetisch wie folgt beschrieben:
ADAPTIVER ALGORITHMUS ALGO2
INITIALISIERE ABSCHÄTZUNG WIE FOLGT:

f ^(t = 0) = 0(N+L)x1
Px(t = 0) = σ2x IN+L
Pv(t = 0) = σ2v IN+L

DANN BERECHNE FÜR JEDEN NEUEN BLOCK VON L EINGABEPROBEN:
UND, FALLS TR (ΛΛ^H) > TH, DANN BERECHNE:
ANDERNFALLS BERECHNE:

Pv = βPv + (1 – β)diag(c)diag(c)H

Es ist zu beachten, dass die Gleichungen des Algorithmus ALGO2 mit niedriger Komplexität für jede Probe oder einmal für jeden Block von Proben angewendet werden kann. Die Anwendung der Gleichungen einmal auf jeden Block von L Proben verringert die Berechnungskomplexität auf Kosten der Erzeugung einer Verzögerung für L Proben und des Bereitstellens einer etwas langsameren anfänglichen Konvergenz. Es ist auch zu beachten, dass die Matrix D direkt im Frequenzbereich aktualisiert werden kann, anstatt dass zuerst die Matrix R_c aktualisiert und dann die DFT berechnet wird.
Ein Ablaufdiagramm entsprechend des oben beschriebenen Algorithmus mit niedriger Komplexität ALGO2 ist in 2 dargestellt. Wie gezeigt, ist das Eingabesignal x(t) mit einem Eingang des ersten Probenahme- bzw. Abtastblocks 205 gekoppelt, und eine Ausgabe des ersten Probenahmeblocks ist mit einem Eingang eines ersten FFT Blocks 210 gekoppelt. Ein Ausgang z(t) des ersten FFT Blocks 210 ist mit einem ersten Eingang eines ersten Multiplizierers 215 gekoppelt, und ein Ausgang des ersten Multiplizierers 215 ist mit einem Eingang eines ersten IFFT Blocks 220 gekoppelt. Ein Ausgang des ersten IFFT Blocks 220 ist mit einem Eingang eines zweiten Probenahme- bzw. Abtastblocks 225 gekoppelt, und ein Ausgang des zweiten Probenahmeblocks 225 ist mit einem subtraktiven Eingang einer ersten Summierungsvorrichtung 230 gekoppelt. Das beobachtete Eingabesignal y(t) des nahen Endes ist mit einem additiven Eingang der ersten Summierungsvorrichtung 230 gekoppelt, und ein Ausgang der ersten Summierungsvorrichtung 230 dient als das residuale oder Fehlersignal e(t).
Das Fehlersignal e(t) ist mit einem Eingang eines ersten, Nullen auffüllenden Block 235 gekoppelt, und ein Ausgang des ersten, Nullen auffüllenden Blocks 235 ist mit einem Eingang eines zweiten FFT Blocks 240 verbunden. Ein Ausgang c(t) des zweiten FFT Blocks 240 ist mit einem Eingang eines Blocks 245 zum Aktualisieren des Rauschleistungsspektrums und mit einem ersten Eingang eines zweiten Multiplizierers 255 gekoppelt. Der zweite Multiplizierer 255 empfängt einen zusätzlichen Eingang von einem Konjugationsblock 250 und der Konjugationsblock 250 wiederum empfängt den Ausgang z(t) des ersten FFT Blocks 210 als Eingabe. Der Ausgang z(t) des ersten FFT Blocks 210 und ein Ausgang des Konjugationsblocks 250 werden ebenfalls mit den ersten und zweiten Eingängen eines Blocks 260 zum Aktualisieren des Signalleistungsspektrums gekoppelt. Ein Ausgang des Blocks 260 zum Aktualisieren des Signalleistungsspektrums und ein Ausgang des zweiten Multiplizierers 255 werden dann mit den ersten und zweiten Eingängen eines Normalisierungsblocks 265 gekoppelt. Zusätzlich ist ein Ausgang des Blocks 245 zum Aktualisieren des Rauschleistungsspektrums mit einem dritten Eingang des Normalisierungsblocks 265 gekoppelt.
Ein Ausgang g(t) des Normalisierungsblocks 265 ist mit einem Eingang eines zweiten IFFT Blocks 270 gekoppelt, und ein Ausgang des zweiten IFFT Blocks 270 ist mit einem Eingang eines zweiten, Nullen auffüllenden Blocks 275 gekoppelt. Ein Ausgang des zweiten, Nullen auffüllenden Blocks 275 ist mit einem Eingang eines dritten FFT Blocks 280 gekoppelt, und ein Ausgang des dritten FFT Blocks 280 ist mit einem ersten additiven Eingang einer zweiten Summationsvorrichtung 285 gekoppelt. Ein Ausgang f ^(t + 1) der zweiten Summiervorrichtung 285 ist mit einem Eingang eines Einproben-Verzögerungsblocks 290 gekoppelt, und ein Ausgang f ^(t) des Einproben-Verzögerungsblocks 290 ist mit einem zweiten Eingang des ersten Multiplizierers 215 und mit einem zweiten zusätzlichen Eingang der zweiten Summationsvorrichtung 285 gekoppelt.
Im Betrieb bildet der erste Probenahmeblock 205 einen Block von L neuen und N alten Proben des Eingangssignals x(t). Der erste FFT Block 210 berechnet dann die diskrete Fouriertransformierte des resultierenden Eingangsprobenblocks (vorzugsweise unter Verwendung eines Algorithmus für eine schnelle Fouriertransformation, um den Probenvektor z(t) im Frequenzbereich bereitzustellen. Der erste Multiplizierer 215 multipliziert dann den Vektor z(t) elementweise mit dem Ausgang f ^(t) des Verzögerungsblocks (der die Abschätzung der Impulsantwort h im Frequenzbereich darstellt), um eine Echoabschätzung in dem Frequenzbereich auszubilden. Danach berechnet der erste IFFT Block 220 die inverse, diskrete Fouriertransformierte der resultierenden Echoabschätzung im Frequenzbereich, und der zweite Probenahmeblock 225 extrahiert die letzten L Proben, um eine Echoabschätzung im Zeitbereich (d.h., s ^(t)) bereitzustellen. Die erste Summationsvorrichtung 230 subtrahiert dann die resultierende Echoabschätzung im Zeitbereich von dem beobachteten Signal y(t) am nahen Ende, um wie gewünscht einen Probenblock des residualen Signals e(t) zu bilden.
Wie gezeigt, wird das residuale Signal e(t) in Kombination mit dem Probenvektor z(t) im Frequenzbereich benutzt, um die Abschätzung f ^(t) der Impulsantwort im Frequenzbereich zu berechnen. Insbesondere ergänzt bzw. komplementiert der erste, Nullen auffüllende Block 235 den Block der residualen Signalprobe mit N führenden Nullen, und der zweite FFT Block berechnet die diskrete Fouriertransformierte des erhaltenen, mit Nullen aufgefüllten Probenblocks, um die Darstellung des residualen Signals (d.h., c(t)) im Frequenzbereich auszubilden. Danach wird eine Bestimmung darüber ausgeführt, ob das Leistungsniveau des Eingabesignals groß genug ist, um eine signifikante Echomenge zu erzeugen. Insbesondere wird die Abschätzung der Kurzzeitleistung (d.h. auf der Grundlage des derzeitigen Blocks von Proben des Eingabesignals z(t) im Frequenzbereich) wie oben beschrieben mit dem vorbestimmten Schwellwert th verglichen. Wenn die Eingangssignalleistung oberhalb des Schwellwerts th ist, dann schreitet der Algorithmus fort, um die Abschätzung der Impulsantwort im Frequenzbereich zu aktualisieren, wie durch die schwach schattiert gezeichnete Box 202 in 2 angedeutet. Andernfalls aktualisiert der Algorithmus die Abschätzung des Rauschleistungsspektrums, wie in der stark schattiert gezeichneten Box 201 in 2 angedeutet. Selbstverständlich kann die Anpassung auch unter Verwendung des Ausgangs eines Doppelsprechdetektors, wie oben mit Verweis auf 1 beschrieben, qualifiziert werden.
Wenn die Abschätzung der Impulsantwort zu aktualisieren ist, dann berechnet der Aktualisierungsblock 260 für das Signalleistungsspektrum zunächst eine neue Abschätzung des Leistungsspektrums p_x des Eingabesignals (entsprechend der Elemente auf der Hauptdiagonalen der oben beschriebenen Signalleistungsmatrix P_x.) In beispielhaften Ausführungsformen wird die Abschätzung des Signalspektrums berechnet, indem der Eingabevektor z(t) im Frequenzbereich elementweise multipliziert wird mit seiner komplex Konjugierten (d.h. dem Ausgang des Konjugationsblocks 250) und dann beispielsweise unter Verwendung eines exponentiellen Fensters ein Mittelwert gebildet wird. Der zweite Multiplizierer 255 multipliziert dann das residuale Signal c(t) im Frequenzbereich elementweise mit dem komplex Konjugierten des Vektors z(t), und der Normalisierungsblock 265 normalisiert (d.h. dividiert elementweise) das Ergebnis unter Verwendung einer gewichteten Summe des Eingangs- und Rauschleistungsspektrums (d.h., p_x + γp_v), um den Zwischenvektor g(t) auszubilden. Die Auswahl des Gewichtsparameters γ, der im folgenden als Rauschanpassungsparameter bezeichnet wird, wird unten ausführlich beschrieben.
Wenn der Zwischenvektor g(t) einmal bestimmt ist, berechnet der zweite IFFT Block 270 die inverse, diskrete Fouriertransformation des Vektors g(t), und der zweite Nullen auffüllende Block 257 setzt die letzten L Elemente des resultierenden Vektors auf Null. Danach berechnet der dritte FFT Block 280 die diskrete Fouriertransformation des Ausgangs des zweiten Nullen auffüllenden Blocks 275, und der resultierende Vektor wird mit der Schrittgröße multipliziert, oder die Verstärkung μ wird aktualisiert und (in der zweiten Summiervorrichtung 285) addiert auf die Abschätzung f ^(t + 1) der Impulsantwort im Frequenzbereich, um wie gewünscht eine aktualisierte Abschätzung f ^(t) der Impulsantwort im Frequenzbereich bereitzustellen.
Wenn die Abschätzung der Impulsantwort nicht zu aktualisieren ist (d.h., wenn die Eingangssignalleistung nicht oberhalb des Schwellwerts th ist, was andeutet, dass, eine Pause in der Sprache bzw. Stimme des Benutzers vorliegt), dann wird die Abschätzung des Rauschleistungsspektrums p_v (entsprechend der Elemente auf der Hauptdiagonalen der Rauschleistungsmatrix P_v wie oben beschrieben) auf der Grundlage der Darstellung des residualen Signals c(t) im Frequenzbereich aktualisiert. In beispielhaften Ausführungsformen wird die Abschätzung des Rauschspektrums p_v berechnet, indem die Darstellung des residualen Signals c(t) im Frequenzbereich elementweise mit ihrer komplex Konjugierten multipliziert und dann unter Verwendung, beispielsweise, eines exponentiellen Fensters, Bemittelt wird. Indem die Rauschleistungsabschätzung auf diese Art und Weise periodisch aktualisiert wird, kann jede in dem Rauschsignal vorhandene Nuance bzw. Farbe berücksichtigt werden, wenn die Abschätzung der Impulsantwort angepasst wird.
So zeigt das Ablaufdiagramm der 2 eine praktische Implementierung des Algorithmus mit niedriger Komplexität ALGO2 nach der Erfindung. Der Fachmann wird erkennen, dass eine direkte Korrespondenz besteht zwischen den Blöcken der 2 und den Elementen der oben benutzten Gleichungen zum Definieren des beispielhaften Algorithmus ALGO2. Der Fachmann wird auch erkennen, dass die Funktionsblöcke bzw. die operationellen Blöcke der 2 in der Praxis unter Verwendung von, beispielsweise, digitalen Standardsignalverarbeitungsvorrichtungen, anwendungsspezifischen integrierten Schaltkreisen oder allgemeinen digitalen Computern, implementiert werden können.
Es wurden Computersimulationen ausgeführt, um die Leistungsfähigkeit des Algorithmus mit niedriger Komplexität ALGO2 zu vergleichen mit der des ersten Referenzalgorithmus ALGO1 und mit der des adaptiven Filters im Frequenzbereich, der in dem oben zitierten Artikel von J.J. Shynk, "Frequency-Domain and Multirate Adaptive Filtering", IEEE Signal Processing Magazine, Januar 1992, Seiten 14-37 beschrieben worden ist. Die Computersimulationen testeten auch die relative Leistungsfähigkeit aller drei Algorithmen in Bezug auf tatsächliche Sprachsignale.
Zunächst wurden stationäre Signale benutzt, um die Gültigkeit der gemachten Annäherungen auszuwerten, wenn der gestraffte (Englisch: Streamlined) Algorithmus ALGO2 aus dem Referenzalgorithmus ALGO1 abgeleitet wurde. Stationäre Signale wurden auch verwendet, um die Leistungsfähigkeit der beispielhaften Algorithmen ALGO1 und ALGO2 direkt zu vergleichen mit der Leistungsfähigkeit des oben zitierten adaptiven Filters im Frequenzbereich. Für die Zwecke dieser Simulationen sind stationäre Signale solche, für die die Signalstatistik für t > 0 nicht von der Zeit abhängt.
Ein typisches Simulationsergebnis wird in 3 gezeigt, wobei eine erste grafische Darstellung 310 die Lernkurven (d.h. E[(e(t) – v(t))²]) für alle drei Algorithmen zeigt, und eine zweite grafische Darstellung 320 die entsprechenden Gewichtsfaktoren
zeigt. Die Kurven stellen Mittelwerte des Ensembles dar, die über 200 unabhängige Versuche genommen worden sind. Für die in 3 gezeigten Simulationen ist das Eingangssignal x(t) ein autoregressiver Vorgang, der erzeugt worden ist durch
und das gemessene Rauschen ist ebenfalls ein autoregressiver Vorgang, der erzeugt worden ist durch
Zusätzlich wird das SNR (Englisch: Signal to Noise Ratio) zu 0dB angenähert, und die wahre Impulsantwort ist ein FIR Filter mit 64 Ansatzstücken mit flacher Frequenzantwort und gleichförmig verteilten Koeffizienten im Intervall [–1/128, 1/128]. Die Entwurfsparameter wurden wie folgt gewählt: N = 64, L = 64, μ = 0,04, β = 0,99 und γ = 128. Weil die simulierten Signale stationär sind, wird das gemessene Rauschspektrum zunächst abgeschätzt (diese Zeit ist nicht in 3 gezeigt) und dann in dem adaptiven Algorithmus verwendet.
In 3 ist zu beachten, dass die Kurven, die dem ersten Algorithmus ALGO1 (d.h. die Kurven 312, 322) entsprechen, nicht unterscheidbar sind von denjenigen, die dem Algorithmus mit niedrigerer Komplexität ALGO2 (d.h. den Kurven 313, 323) entsprechen. In vorteilhafter Weise deutet dies darauf hin, dass die aufgeführten Annäherungen beim Entwickeln des Algorithmus mit niedrigerer Komplexität ALGO2 zumindest einigermaßen gut sind. Ferner ist in 3 zu beachten, dass sowohl der beispielhafte Algorithmus ALGO1 als auch der ALGO2 das adaptive Filter in dem Frequenzbereich (Kurven 311, 321) überbieten.
Es wurden zusätzliche Computersimulationen ausgeführt, um die Leistungsfähigkeit des gestrafften Algorithmus ALGO2 in einer Anwendung zum Beseitigen von akustischem Echo zu studieren (insbesondere in Anwendungen von Freihandtelefonie in Automobilen). 4 zeigt die Lernkurven (die in der Zeit unter Verwendung eines exponentiellen Fensters gemittelt worden sind) einer typischen Simulation. Für diese Simulationen waren die Entwurfs- bzw. Designparameter N = 256 (entsprechend einer Echoimpulsantwort mit 256 Ansatzstücken, die in einem Volvo 940 mit zwei auf den Vordersitzen sitzenden Menschen identifiziert wurden), L = 256, μ = 0,04, β = 0,99, und γ = 128. Das Rauschleistungsspektrum P_v wurde online abgeschätzt. Für das beobachtete Eingabesignal y(t) erzeugt ein weiblicher Sprecher das Echo und das Echo wird dann durch ein in einem sich bewegenden Automobil aufgenommenes Geräusch korrumpiert. Die Abtastrate beträgt 8000 Hz und die Kurven in 4 entsprechen einem Zeitintervall von 1 Minute.
Wie in der ersten grafischen Darstellung 410 der 4 gezeigt, ist während der meisten Zeit die Echoleistung niedriger als die Rauschleistung. Weil jedoch die Signale in verschiedenen Frequenzbändern konzentriert sind, ist das Echo vor der adaptiven Verarbeitung deutlich hörbar. Obwohl das adaptive Filter im Frequenzbereich die Situation nicht verbessert, bleibt das Echo selbst nach der in der zweiten grafischen Darstellung 420 der 4 gezeigten Verarbeitung hörbar. Im Gegensatz dazu macht der erfindungsgemäße Algorithmus mit niedriger Komplexität ALGO2 das verbleibende Echo in dem Rauschen (nach einer anfänglichen Konvergenzperiode) kaum hörbar, wie in der dritten grafischen Darstellung 430 der 4 gezeigt.
5 zeigt das Leistungsspektrum, das unter Benutzung der Abtastpunkte 394000 bis 410000 aus den Kurven der 4 berechnet worden ist. Es ist aus der ersten grafischen Darstellung 510 zu ersehen, dass die Echosignalleistung bei den meisten Frequenzen über der gemessenen Rauschleistung ist. Wie in der zweiten grafischen Darstellung 520 gezeigt, schwächt die Verarbeitung mit dem adaptiven Filter das Echo im Frequenzbereich ab, jedoch verbleibt die residuale Echoleistung auf einigen Frequenzen oberhalb der gemessenen Signalleistung. Im Gegensatz dazu zeigt die dritte grafische Darstellung 530, dass die Verarbeitung mit dem Algorithmus mit niedriger Komplexität ALGO2 die residuale Echoleistung auf allen Frequenzen unterhalb der gemessenen Rauschleistung verringert und daher machen die verschleiernden Effekte der menschlichen Wahrnehmung das Echo nicht hörbar.
Es ist zu beachten, dass der Algorithmus mit niedriger Komplexität ALGO2 eine Verzögerung um L Abtastpunkte in den Signalverarbeitungspfad einführt. Weil es normalerweise wünschenswert ist, L näherungsweise gleich zu wählen wie die Länge N der Impulsantwort, um die Berechnungskomplexität zu verringern, kann eine solche Verzögerung für lange Impulsantworten eines Echopfads unakzeptabel sein.
In vorteilhafter Weise verringern jedoch weitere Ausführungsformen der Erfindung die Verzögerung der Signalverarbeitung, ohne die Berechnungskomplexität dramatisch zu erhöhen. Insbesondere unterteilen die alternativen Ausführungsformen die Impulsantwort h des Echopfads in Abschnitte der Länge K und behandeln das adaptive Filter als eine Serienverbindung des resultierenden, in Abschnitte unterteilten Filters. Ein analoger Ansatz ist beispielsweise in dem oben genannten Artikel von J. Soo und K.K. Pang, "Multidelay Block Frequency Domain Adaptive Filter," IEEE Trans. Acousti cs, Speech and Signal Processing, Ausgabe 38, Nr. 2, Februar 1990, Seiten 373-376 beschrieben.
Nach den zusätzlichen Ausführungsformen ist es vorteilhaft, die Abschnittslänge K näherungsweise gleich der Blocklänge L zu setzen. Wenn K << N, wird die Verzögerung verringert. In vielen Anwendungen wird die Echoaufhebungsvorrichtung gefolgt von einem Sprachcodierer, der auf Blöcken von Signalproben operiert und eine Verzögerung einführt, die größer ist als seine Blocklänge. Der Hauptbeitrag zu dieser Verzögerung kommt vom Sammeln der Eingangssignalproben. In diesen Anwendungen ist es wünschenswert, L gleich einzustellen wie die Blocklänge des Sprachcodec oder wie ein ganzzahliger Bruchteil davon. Dann kann der Ausgangsblock der Echoaufhebungsvorrichtung an den Sprachcodierer abgegeben werden anstatt einer Sequenz von Proben, und die gesamte Verzögerung wird nur wenig vergrößert. Der resultierende Algorithmus, der im Folgenden mit ALGO3 bezeichnet wird, ist wie folgt:
ADAPTIVER ALGORITHMUS ALGO3
INITIALISIERE DIE ABSCHÄTZUNGEN WIE FOLGT:

f ^k(t = 0) = 0(K+L)x1,∀/k
Px(t = 0) = σ2χ IK+L
Pv(t = 0) = σ2v IK+L

DANN BERECHNE FÜR JEDEN NEUEN BLOCK VON K EINGABEPROBEN:
ANDERNFALLS BERECHNE:

Pv = βPv + (1 - β)diag(c)diag(c)H

Ein Flussdiagramm entsprechend dem oben beschriebenen Algorithmus ALGO3 wird in den 6 und 7 dargestellt. Der Fachmann wird erkennen, dass genauso wie die Funktions- bzw. Operationsblöcke der 2 den Elementen der verwendeten Gleichungen zum Definieren des Algorithmus mit niedriger Komplexität ALGO2 entsprechen, auch die Funktionsblöcke der 6 und 7 den Elementen der Gleichungen, die zum Definieren des alternativen Algorithmus ALGO3 verwendet worden sind, entsprechen. Wie die operationellen Blöcke der 2 können auch diejenigen der 6 und 7 in der Praxis unter Verwendung von beispielsweise digitalen Standardsignalverarbeitungsvorrichtungen, anwendungsspezifischen integrierten Schaltkreisen oder einem digitalen Computer für allgemeine Zwecke implementiert werden.
Es ist zu beachten, dass jeder der beispielhaften Algorithmen ALGO1, ALGO2, ALGO3 mehrere Design- bzw. Entwurfsparameter enthält, die eingestellt werden, bevor der Algorithmus implementiert wird. In vorteilhafter Weise stellt die Erfindung eine Richtlinie zum richtigen Einstellen dieser Designparameter in der Praxis bereit.
Beispielsweise kann die Filterlänge N auf der Grundlage der gerade vorliegenden, besonderen Anwendung eingestellt werden. In Anwendungen der Aufhebung von Netzwerkecho und akustischer Echoaufhebung für handfreie Automobilanwendungen liefert eine Filterlänge oder Modellordnung im Bereich von 256 bis 512 Anzapfpunkten typischerweise Qualitätsergebnisse. Andererseits liefert in Telekonferenzanwendungen, bei denen die Impulsantwort eines gesamten Konferenzraums modelliert wird, eine Filterlänge von der Größenordnung von mehreren Tausend Anzapfpunkten typischerweise bessere Ergebnisse.
Die Abschnittslänge K der Impulsantwort, die in dem alternativen Algorithmus ALGO3 benutzt wird, begründet die Verarbeitungsverzögerung des Algorithmus und sollte daher relativ klein gemacht werden. Andererseits steigt die Gesamtberechnungskomplexität des Algorithmus an, wenn K abnimmt, und ein geeigneter Kompromiss wird daher auf der Grundlage der verfügbaren Rechenleistung begründet. In Anwendungen, bei denen ein Echoaufhebungsgerät von einem Sprachcodierer gefolgt wird, ist es typischerweise vorteilhaft, K gleich einzustellen, wie die Blocklänge des Sprachcodierers oder einen ganzzahligen Bruchteil davon. Zusätzlich wird K typischerweise so ausgewählt, dass die Anzahl der Filterabschnitte (d.h. N/K) eine ganze Zahl ist.
Die am wenigsten berechnungsintensiven Implementierungen resultieren vom Einstellen der Blocklänge L ungefähr gleich wie die Filterlänge N in der ersten Ausführungsform mit niedriger Komplexität ALGO2 und ungefähr gleich wie die Abschnittslänge K in der alternativen Ausführungsform mit dieser Komplexität ALGO3. Es ist ebenfalls vorteilhaft, N + L oder K + L gleich einzustellen, wie eine ganzzahlige Potenz von Zwei in der ersten und zweiten Ausführungsform mit niedriger Komplexität ALGO2 und ALGO3.
Der Parameter β bestimmt die Speicherlänge der Leistungsspektrumsabschätzungen und wird positiv gemacht oder weniger als 1. Die Auswahl von β in dem Intervall [0.9, 0.995] hat sich so erwiesen, dass sie Qualitätsresultate liefert.
Die Schrittgröße μ wird positiv gemacht und klein genug, um die Stabilität des adaptiven Algorithmus zu garantieren. Das zu kleine Einstellen der Schrittgröße verlangsamt jedoch die Anpassung, insbesondere in Kombination mit langen Impulsantworten. Das Einstellen der Schrittgröße in dem Bereich von 0.1/R bis 0.5/R, wobei R = √N + L für die erste Ausführungsform mit niedriger Komplexität ALGO2 und R = √K + L für die alternative Ausführungsform mit niedriger Komplexität ALGO3 hat gezeigt, dass sie gut funktioniert.
Wie oben angemerkt, wichtet der Rauschanpassungsparameter γ das normalisierende Leistungsspektrum des Eingabesignals und das gemessene Rauschen und wird nicht negativ gemacht. Das Zu-Groß-Einstellen des Rauschanpassungsparameters wird bewirken, dass das gemessene Rauschen zu schwer gewichtet wird und wird daher die Konvergenz des Algorithmus signifikant verlangsamen. Andererseits wird das Zu-Klein-Einstellen des Rauschanpassungsparameters bewirken, dass das gemessene Rauschen zu leicht gewichtet wird und wird daher eine relativ schnelle Anpassung bereitstellen auf Kosten einer höheren residualen Echoleistung im stationären Zustand. In einem solchen Fall wird die Form des residualen Echospektrums nahe an dem ursprünglichen Echospektrum sein, mit einem gewissen Grad der Abschwächung (d.h. ungefähr dieselbe Echoabschwächung wird über das gesamte Frequenzband erzielt). Im Gegensatz dazu werden vernünftig hoch gewählte Werte für γ in dem Sinne zu einer verbesserten Leistungsfähigkeit im stationären Zustand führen, dass das residuale Echospektrum in der Nähe der Frequenzen, wo es oberhalb des gemessenen Rauschspektrums ist, weiter abgeschwächt werden wird (d.h. der verschleiernde Effekt der menschlichen Wahrnehmung neigt dazu, das Echo nicht hörbar zu machen, wenn das gesamte residuale Echospektrum unterhalb des Rauschspektrums liegt). Der Preis für eine derartige Verbesserung kann eine ein wenig langsamere, anfängliche Konvergenz des Algorithmus sein. Jedoch kann dieser Effekt nach der Erfindung überwunden werden, indem der Parameter γ zeitabhängig gemacht wird.
Beispielsweise kann der Rauschanpassungsparameter γ berechnet werden als
wobei E[] den mathematischen Erwartungswert bezeichnet. Dieser Ansatz liefert ein relativ kleines γ, wenn das residuale Echo viel stärker als das Rauschen ist und stellt daher eine relativ schnelle Anpassung bereit. Wenn sich jedoch die residuale Echoleistung der Rauschleistung annähert, dann wird γ groß und der Algorithmus beginnt, das residuale Echospektrum einzufärben, wie oben beschrieben. In der Praxis sind die mathematischen Erwartungswerte nicht bekannt und werden abgeschätzt. Ein Beispiel einer derartigen Abschätzung ist eine Summe der Quadrate über einen Block, der die Darstellung des korrespondierenden Signals im Frequenzbereich enthält. Mit anderen Worten kann der rauscharme Anpassungsparameter berechnet werden als
wobei c_v ein Block ist, der die Darstellung des gemessenen Rauschens im Frequenzbereich enthält, und coast eine kleine positive Konstante ist, die in der Anwesenheit von Abschätzungsfehlern ein positives γ sicherstellt.
In der Summe stellt die vorliegende Erfindung eine Anzahl von adaptiven Algorithmen bereit, die beispielsweise in Anwendungen zur Echoaufhebung verwendet werden können. Die beispielhaften Algorithmen werden durch Minimalisieren einer Kriteriumsfunktion entsprechend einer besten, linearen, erwartungstreuen Abschätzung und unter Verwendung von Eigen-Eigenschaften von zyklischen Matrizen abgeleitet. Unter mehreren möglichen zyklischen Erweiterungen von Signalmatrizen wird eine zyklische Erweiterung verwendet, die zu adaptiven Algorithmen ähnlich zu dem klassischen, adaptiven Filter im Frequenzbereich führt. Weil die beispielhaften Algorithmen die Kenntnis des gemessenen Rauschens einarbeiten, arbeiten sie im Vergleich zu den herkömmlichen Ansätzen besser in geräuschvollen Umgebungen. Die bessere Leistungsfähigkeit der offenbarten Algorithmen in rauschbehafteten Umgebungen ist mittels Computersimulation demonstriert worden.
Es ist zu beachten, dass die beispielhaften Algorithmen der Erfindung sich von früheren Ansätzen dadurch unterscheiden, dass sie eine beste, lineare, erwartungstreue Abschätzung verwenden. Beispielsweise wird in dem oben zitierten Artikel von K.C. Ho, "A Minimum Misadjustment Adaptive FIR Filter", IEEE Trans. Signal Processing, Ausgabe 44, Seiten 577-585, März 1996 und in A.C. Orgren, S. Dasgupta, C.E. Rohrs und N.R. Malik, "Noise Cancellation with Improved Residuals," IEEE Trans. Signal Processing, Ausgabe 39, Seiten 2629-2639, Dezember 1991, das gemessene Rauschen angenommen als autoregressiver Vorgang und auf das residuale Signal wird ein weiß machendes bzw. ein Weißfilter angewendet, bevor es zu den Aktualisierungen der Koeffizienten zurückgeführt wird. In dem Paper von Orgren, Dasgupta, Rohrs und Malik wird angenommen, dass das geeignete Weißfilter a priori bekannt ist, während ein adaptives Weißmachen in dem Artikel von Ho betrachtet wird.
Im Gegensatz dazu nehmen die Algorithmen der Erfindung kein bestimmtes Modell für das gemessene Rauschen an (obwohl es angenommen wird, dass eine Korrelationsmatrix mit vernünftiger Größe die Rauscheigenschaften angemessen beschreibt). Zusätzlich stellt die Erfindung Algorithmen im Frequenzbereich bereit und minimalisiert eine Variante des Kriteriums der besten, linearen, erwartungsfreien Abschätzung, die für ihre guten numerischen Eigenschaften bekannt ist. Weiter wird nach der Erfindung die Rauschkorrelation während natürlicher Sprachpausen abgeschätzt.
Der Fachmann wird erkennen, dass die vorliegende Erfindung nicht auf die spezifischen beispielhaften Ausführungsformen, die hierin zum Zwecke der Veranschaulichung beschrieben worden sind, beschränkt sind. Der Umfang der Erfindung ist daher anstelle der vorhergehenden Beschreibung durch die Patentansprüche definiert, die im Folgenden angeheftet sind.

Claims

Ein Echoaufhebungsgerät (110), konfiguriert zum Unterdrücken einer Echokomponente (s(t)) eines beobachteten Signals (y(t)), wobei die Echokomponente (s(t)) vom Koppeln eines Quellensignals (x(t)) durch einen Echopfad herrührt, das Echoaufhebungsgerät umfassend: ein adaptives Filter (205, 210, 215, 220, 225, 202, 201) konfiguriert zum Annähern des Echopfads und zum Bereitstellen einer Abschätzung (s(t)) der Echokomponente (s(t)) dabei, wobei das adaptive Filter konfiguriert ist zum Einsetzen einer Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)), und gekennzeichnet ist durch: Mittel (230) zum Subtrahieren der Abschätzung (s(t)) der Echokomponente (s(t)) von dem beobachteten Signal (y(t)), um ein Restsignal (e(t)) mit aufgehobenem Echo bereitzustellen; Mittel (202) zum Aktualisieren einer Abschätzung der Impulsantwort des Echopfads, wenn eine Messung der Leistung in einem Block von Proben des Quellensignals (x(t)) oberhalb eines Schwellwerts ist; Mittel (201) zum Aktualisieren der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)) in anderen Fällen, wobei die Mittel (202) zum Aktualisieren der Abschätzung der Impulsantwort des Echopfads ferner Mittel zum Abschätzen der Rauschkomponente (p_v) des beobachteten Signals (y(t)) auf der Grundlage einer Abschätzung eines Leistungsspektrums des Restsignals (e(t)) mit aufgehobenem Echo umfassen.
Das Echoaufhebungsgerät nach Anspruch 1, wobei das beobachtete Signal (y(t)) mindestens eine intermittierende Sprachkomponente enthält, und die Mittel zum Abschätzen der Rauschkomponente (p_v) des beobachteten Signals (y(t)) dazu angepasst sind, während Pausen in der mindestens einen Sprachkomponente des beobachteten Signals in Echtzeit zu operieren.
Das Echoaufhebungsgerät nach Anspruch 2, enthaltend Mittel zum Bestimmen der Pausen in der mindestens einen Sprachkomponente des beobachteten Signals (y(t)), auf der Grundlage einer Messung der Leistung in einem Block von Proben des Quellensignals (x(t)).
Das Echoaufhebungsgerät nach Anspruch 1, wobei die Mittel (202) zum Aktualisieren einer Abschätzung der Impulsantwort des Echopfads ferner Mittel (260) zum Aktualisieren einer Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)) und Mittel (265) zum Kombinieren der aktualisierten Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)), der Abschätzung der Geräuschkomponente (p_v) des beobachteten Signals (y(t)) und einer Frequenz-Domänendarstellung des vom Echo aufgehobenen Restsignals (e(t)) umfassen.
Das Echoaufhebungsgerät nach Anspruch 4, wobei das Mittel zum Kombinieren (265) konfiguriert ist, um die Kombination auf einer gewichteten Summe der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals und der aktualisierten Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)) auszuführen.
Das Echoaufhebungsgerät nach Anspruch 5, wobei das Mittel zum Kombinieren (265) dazu angepasst ist, die gewichtete Summe auszuführen durch Addieren der aktualisierten Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)) zu einem Produkt der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)) und einem Rauschanpassungsparameter (γ).
Das Echoaufhebungsgerät nach Anspruch 6, umfassend Mittel, dazu angepasst den Rauschanpassungsparameter (γ) auf der Grundlage von Proben des Restsignals (e(t)) mit aufgehobenem Echo und Proben des Quellensignals (x(t)) dynamisch einzuregeln.
Ein Verfahren zum Aufheben einer Echokomponente eines beobachteten Signals (y(t)), wobei die Echokomponente vom Koppeln eines Quellensignals (x(t)) durch einen Echopfad herrührt, das Verfahren umfassend die Schritte: Abtasten (205) des Quellensignals, um einen Block von Quellensignalproben bereitzustellen; Berechnen (210) einer diskreten Fouriertransformation des Blocks der Quellensignalproben, um eine Frequenzdomänen-Darstellung (z(t)) des Quellensignals (x(t)) bereitzustellen; Multiplizieren (215) der Frequenzdomänendarstellung (z(t)) des Quellensignals (x(t)) mit einer Frequenzdomänenabschätzung einer Impulsantwort des Echopfads, um eine Abschätzung des Frequenzdomänenechos bereitzustellen; Berechnen einer inversen diskreten Fouriertransformation (220) der Frequenzdomänen- Echoabschätzung, um ein Echoabschätzungssignal in der Zeitdomäne (s(t)) bereitzustellen; Subtrahieren (230) des Echoabschätzungssignals in der Zeitdomänen (s(t)) von dem beobachteten Signal (y(t)), um ein Restsignal (e(t)) mit aufgehobenem Echo bereitzustellen; Berechnen einer diskreten Fouriertransformation (240) von einem Block von Proben Restsignals mit aufgehobenem Echo, um eine Frequenzdomänendarstellung des Restsignals mit aufgehobenem Echo bereitzustellen; Anpassen (200) der Frequenzdomänenabschätzung der Impulsantwort des Echopfads, basiert auf der Frequenzdomänendarstellung des Restsignals (e(t)) mit aufgehobenem Echo und auf der Grundlage der Frequenzdomänendarstellung (z(t)) des Quellensignals (x(t)), wobei der Schritt des Anpassens (200) der Frequenzdomänenabschätzung der Impulsantwort eine Abschätzung einer Rauschkomponente (p_v) des beobachteten Signals (y(t)) enthält, und wobei der Schritt des Anpassens der Frequenzdomänenabschätzung der Impulsantwort die Schritte umfasst: Aktualisieren (202) der Frequenzdomänenabschätzung der Impulsantwort, wenn eine Messung der Leistung in dem Block der Quellensignal (x(t))-Proben oberhalb eines Schwellwerts ist; und Aktualisieren (201; 245) der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)) in anderen Fällen, wobei die aktualisierte Abschätzung der Rauschkomponente (p_v) in einer nachfolgenden Aktualisierung der Frequenzdomänenabschätzung der Impulsantwort als eine entsprechende Rauschkomponente verwendet wird.
Das Verfahren nach Anspruch 8, wobei der Schritt des Aktualisierens (200) der Frequenzdomänenabschätzung von jeder Impulsantwort die Schritte umfasst: Aktualisieren (260) einer Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)); Berechnen einer gewichteten Summe der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)) und der aktualisierten Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)); und Berechnen (202) einer Aktualisierung der Frequenzdomänenabschätzung der Impulsantwort auf der Grundlage der gewichteten Summe.
Das Verfahren nach Anspruch 9, umfassend die Schritte: Addieren der aktualisierten Abschätzung der Leistungsspektrumskomponente (p_x) des Quellensignals (x(t)) zu einem Produkt der Abschätzung der Rauschkomponente (p_v) des beobachteten Signals (y(t)) und einem Rauschanpassungsparameter (γ), um die gewichtete Summe bereitzustellen.
Das Verfahren nach Anspruch 10, umfassend die Schritte: dynamisch Einstellen des Rauschanpassungsparameters (γ) auf der Grundlage von Proben des Quellensignals (x(t)) und des Restsignals (e(t)) mit aufgehobenem Echo.