DE19806015C2

DE19806015C2 - Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen

Info

Publication number: DE19806015C2
Application number: DE19806015A
Authority: DE
Inventors: Gerhard Schmidt
Original assignee: Siemens AG
Current assignee: Intel Germany Holding GmbH
Priority date: 1998-02-13
Filing date: 1998-02-13
Publication date: 1999-12-23
Anticipated expiration: 2018-02-14
Also published as: WO1999041897A3; JP2002503923A; WO1999041897A2; EP1055318A2; DE19806015A1; US6834108B1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verbesse rung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage, einer frequenzselektiven, steuerbaren Echokompensation mit Teilbandverarbeitung und einer Restfehler nachfilterung.

Bei Freisprecheinrichtungen ist es unbedingt erforderlich, die vom Lautsprecher ausgesandten und damit vom Mikrofon wieder aufgenommenen Signale des entfernten Teilnehmers zu unterdrüc ken, da sonst unangenehme Echos die Verbindung stören. Bisher wurde zur Unterdrückung dieser Echos, also zur akustischen Rückhördämpfung, üblicherweise eine Pegelwaage vorgesehen, die abhängig von der Gesprächssituation den Sende- oder den Emp fangspfad stark dämpft. Dadurch wird jedoch ein Gegensprechen (Voll-Duplex-Betrieb) praktisch unmöglich.

Mit der bisherigen Technik wurde bereits versucht, eine ausrei chende Rückhördämpfung trotz akzeptabler Gegensprechbetriebsei genschaften zur Verfügung zu stellen. Hierzu wurde zusätzlich zu der Pegelwaage eine frequenzselektive, steuerbare Echokom pensation vorgesehen. Diesbezüglich wird auf die noch unveröf fentlichte Patentanmeldung DE 197 14 966 der Anmelderin verwie sen. Andere Verfahren sind beispielsweise dem Werbeprospekt der Firma NEC "RefleXion^TM Acoustic Echo Canceller on the µPD7701x Family", 1996, oder aus der Beschreibung des Motorola DSP5600x Digitalprozessors (M. Knox, P. Abbot, Cyox: A Highly Integrated H320 Audiosubsystem using the Motorola DSP5600x Digitalprozes sor" beschrieben. Auch diese Verfahren können jedoch bei den langen Signallaufzeiten von Videokonferenzverbindungen bzw. bei GSM-Verbindungen keine ausreichende Echounterdrückung bieten, wenn gleichzeitig ein Gegensprechen möglich sein soll.

Es wurde daher bereits vorgeschlagen, eine zusätzliche Nachfil terung nach der frequenzselektiven Echokompensation mit Teil bandverarbeitung vorzusehen. Eine solche Nachfilterung ist bei spielsweise in dem Artikel "V. Turbin, A. Gilloire, P. Scalart: Comparison Of Three Post-Filtering Algorithmus For Residual Acoustic Echo Reduction" ICASSP97, International Workshop on Acoustic Speech and Signal Processing, München 1997, oder aus dem Artikel von R. Martin "An improved Echo-shape Algorithm for Acoustic Echo Control", EUSIPCO96, 8th European Signal Proces sing Conference, Triest, Italien, 1996, bekannt. Diese Konzepte ließen sich bisher nur schwer verwirklichen, da ja sowohl für die Echokompensation mit Teilbandverarbeitung als auch für die Nachfilterung eine digitale Signalverarbeitung vorzusehen ist, und die dafür erforderlichen Rechenleistungen vor den derzeit verfügbaren Prozessoren nicht mit angemessenem Aufwand erbracht werden können.

Es ist daher Aufgabe der Erfindung, ein Verfahren zur Verbesse rung der akustischen Rückhördämpfung in Freisprecheinrichtungen anzugeben, bei dem der Rechenaufwand so minimiert ist, daß so wohl eine frequenzselektive Echokompensation mit Teilbandverar beitung als auch die erforderliche Nachfilterung auf gebräuch lichen "Consumer-Prozessoren" verwirklicht werden können. Diese Aufgabe wird gelöst mit einem Verfahren mit den Merkmalen von Patentanspruch 1. Vorteilhafte Ausgestaltungen diese Verfahrens sind in den Unteransprüchen angegeben.

Nach der Erfindung wird daher lediglich eine einzige Steuergrö ße, nämlich der Schrittweitenvektor, sowohl für die Steuerung der frequenzselektiven Echokompensation, als auch für die Steuerung des weiteren Filters verwendet. Vorzugsweise können dabei mehrere unterschiedliche Abtastraten verwendet werden. Dadurch kann der Rechenaufwand weiter verringert werden.

Ebenso ist es bevorzugt, sowohl für die Echokompensation als auch für das weitere Filter adaptive Filter zu verwenden.

Die Echokompensation wird vorzugsweise mittels einer Filterbank in Frequenzteilbändern implementiert.

Vorzugsweise werden für die Adaptions- bzw. die Schrittweitent steuerung sowohl leistungsbasierende Schätzungen als auch kor relationsbasierende Analysen verwendet.

Ebenso ist es bevorzugt, zur Schrittweitenbestimmung Leistungs übertragungsfaktoren in Teilbändern zu schätzen.

Ebenso ist es bevorzugt, daß sowohl die Echokompensatoren als auch die Restfehlernachfilterung die Schätzwerte für die durch sie eingebrachte Echodämpfung liefern, da diese Schätzwerte be vorzugt zur Steuerung der Dämpfung der Pegelwaage verwendet werden können. Dadurch kann die von der Pegelwaage einzubrin gende Dämpfung weiter reduziert und damit die Gesprächsqualität beim Gegensprechen weiter verbessert werden.

Zusätzlich ist es bevorzugt, die gleichzeitige Aktivität beider Gesprächsteilnehmer (Gegensprechen) zu detektieren. Es ist dann beispielsweise möglich, die Gesamtdämpfung der Pegelwaage im Gegensprechfall zu reduzieren, um die Gegensprechfähigkeit (Full-Duplex-Betrieb) der Freisprecheinrichtung weiter zu ver bessern.

Die vorliegende Erfindung wird im folgenden anhand des in den beigefügten Zeichnungen dargestellten Ausführungsbeispiels nä her beschrieben. Es zeigt:

Fig. 1 ein vereinfachtes Modell einer Freisprecheinrichtung mit Anschluß an eine digitale Verbindung;

Fig. 2 ein Blockschaltbild der erfindungsgemäßen Frei sprecheinrichtung;

Fig. 3 Kurven für die Dämpfungsanforderungen an die Frei sprecheinrichtung in Abhängigkeit von der Echolauf zeit;

Fig. 4 eine Übersichtsdarstellung des erfindungsgemäßen Ver fahrens;

Fig. 5 die Struktur der Adaption der Teilbandechokompensato ren;

Fig. 6 eine Modellvorstellung für die Leistungsübertragungs faktoren;

Fig. 7 eine Darstellung der Signale des fernen und des loka len Teilnehmers anhand derer im folgenden das erfin dungsgemäße Verfahren erläutert wird;

Fig. 8 die daraus resultierende Anregung und der gestörte Fehler im Band 1;

Fig. 9 den geschätzten Leistungsübertragungsfaktor unter den Bedingungen gem. Fig. 7 und 8 im Band 1;

Fig. 10 die von der Schrittweitensteuerung gewählte Schritt weite im Band 1 unter den Bedingungen gem. Fig. 7 und 8;

Fig. 11 die erfindungsgemäße Glättung der Dämpfungsabsenkung;

Fig. 12 eine Detaildarstellung der Nachfilterung des Fehler signals;

Fig. 13 die erfindungsgemäße Glättung der Schrittweiten (Teil A für gleiche Zeitkonstanten, Teil B für unterschied liche Zeitkonstanten);

Fig. 14 ein weiteres Beispiel für die Signale des fernen und des lokalen Teilnehmers, die in den weiteren Figuren der Verarbeitung zugrunde liegen;

Fig. 15 den Abgleichverlauf und die Dämpfung durch das weite re Filter im Band 1;

Fig. 16 die Dämpfung durch das weitere Filter in Band 1;

Fig. 17 die Übergabe der Dämpfungswerte an die Pegelwaage; und

Fig. 18 die Anregungs- und Fehlerleistung im Gesamtband (jeweils für den Eingangssignalverlauf gem. Fig. 14).

In Fig. 1 ist ein vereinfachtes Modell einer Freisprecheinrich tung 10 mit Anschluß an eine digitale Verbindung 12 darge stellt. Die im europäischen ISDN-Netz verwendete A-Law- Codierung bzw. Decodierung ist in den beiden linken Blöcken 14, 16 dargestellt. Auf der rechten Seite ist das Lautsprecher- Raum-Mikrophonsystem 18 (LRM-System) mit dem lokalen Gespräch steilnehmer 20, dem Benutzer der Freisprecheinrichtung, skiz ziert.

Durch die akustische Kopplung zwischen Lautsprecher und Mikro phon kommt es zum Übersprechen über das LRM-System. Dieses Übersprechen wird vom fernen Teilnehmer als störendes Echo wahrgenommen. Akustische Wellen treten dabei aus dem Lautspre cher aus und breiten sich im Raum aus. Durch Reflexion an den Wänden und anderen sich im Raum befindlichen Gegenständen ent stehen mehrere Ausbreitungspfade, durch die unterschiedliche Laufzeiten des Lautsprechersignals entstehen. Das Echosignal am Mikrophon besteht somit aus der Überlagerung einer Vielzahl von Echoanteilen und ggf. dem Nutzsignal n(t): dem lokalen Spre cher.

Auch die Verbindung zwischen den Teilnehmern kann an Übergängen zwischen verschiedenen Übertragungssystemen Echos erzeugen. Die Netzbetreiber versuchen jedoch, direkt an den kritischen Stel len besondere Maßnahmen gegen derartige Echoquellen zu treffen, so daß diese Echos hier außer Acht gelassen werden können. Auch Gabelechos, die in Telefonen mit analogem Interface durch Fehlanpassung der Leitungsnachbildung an die Leitungsimpedanz entstehen, können durch die Verwendung von digitalen Verbindun gen außer Betracht gelassen werden.

In Fig. 2 ist eine Übersicht der erfindungsgemäßen Frei sprecheinrichtung dargestellt. Zentrales Element ist eine Pe gelwaage 22, welche im linken Teil der Fig. 2 dargestellt ist. Optional können zwei Verstärkungssteuerungen 24, 26 (Automatic Gain Control = AGC) in den Sende- und den Empfangspfad einge schaltet werden. Die Pegelwaage 22 garantiert die durch die ITU- bzw. ETSI-Empfehlungen vorgeschriebenen Mindestdämpfungen, in dem sie abhängig von der Gesprächssituation Dämpfungen in den Sende- und/oder den Empfangspfad einfügt. Bei Aktivität des fernen Teilnehmers wird der Empfangspfad freigeschaltet und das Signal des fernen Teilnehmers wird ungedämpft auf dem Lautspre cher ausgegeben. Die bei abgeschalteten oder schlecht abgegli chenen Kompensatoren entstehenden Echos werden durch die in den Sendepfad eingefügte Dämpfung stark verringert. Bei Aktivität des lokalen Sprechers kehrt sich die Situation um. Während der Empfangspfad stark bedämpft wird, fügt die Pegelwaage 22 in den Sendepfad keine Dämpfung ein und das Signal des lokalen Spre chers wird ungedämpft übertragen. Schwieriger wird die Steue rung der Pegelwaage im Gegensprechfall. Hier erhalten beide Pfade (und damit auch die Teilnehmersignale) jeweils die Hälfte der einzufügenden Dämpfung oder bei nicht optimaler Steuerung wird zumindest einer der beiden Signalpfade gedämpft. Gegen sprechen ist damit nicht oder nur eingeschränkt möglich.

Abhilfe schafft hier der Einsatz von adaptiven Echokompensato ren 28 - dargestellt im rechten Teil der Fig. 2. Diese versu chen das LRM-System digital nachzubilden, um dann den Echoan teil des fernen Teilnehmers aus dem Mikrophonsignal herauszu rechnen. Je nachdem, wie gut die Kompensatoren dies bewerkstel ligen, kann die durch die Pegelwaage einzufügende Gesamtdämp fung reduziert werden.

Die Echokomponsation wurde in Frequenzteilbändern implemen tiert, wobei die Breite der einzelnen Bänder vorzugsweise zwi schen 250 Hz und 500 Hz bei 8 kHz Abtastrate bzw. zwischen 500 Hz und 1000 Hz bei 16 kHz Abtastrate liegt. Der Einsatz einer frequenzselektiven Echokompensation hat mehrere Vorteile. Zum einen kann durch Verwendung von Unter- und Überabtastung das System als Multiratensystem betrieben werden, wodurch sich der Berechnungsaufwand verringert. Zum anderen kann durch die Teil bandzerlegung die "Kompensationsleistung" unterschiedlich auf die einzelnen Frequenzbereiche verteilt werden und somit eine effektive Anpassung der "Kompensationsleistung" an Sprachsigna le erreicht werden. Weiter hat die Teilbandverarbeitung eine dekorrelierende Wirkung, wenn die Gesamtbandverarbeitung mit den einzelnen Teilbandsystemen verglichen wird. Für Sprachsi gnale bedeutet dies eine Erhöhung der Konvergenzgeschwindigkeit der adaptiven Filter. Neben diesen Vorteilen darf der Nachteil einer Teilbandverarbeitung nicht außer Acht gelassen werden. Die Zerlegung eines Signals in einzelne Frequenzbereiche be wirkt stets eine Laufzeit - im vorliegenden bevorzugten Verfah ren 32 ms bei 8 kHz Abtastrate bzw. 16 ms bei 16 kHz Abtastra te. Da das Verfahren jedoch für Videokonferenzen bzw. in GSM- Mobiltelephonen eingesetzt wird, sind solche Laufzeiten zuläs sig.

In Videokonferenzsystemen wird die Laufzeit hauptsächlich von der bildverarbeitenden Komponente bestimmt. Da im allgemeinen versucht wird, dem lokalen Teilnehmer Bild und Ton des fernen Teilnehmers lippensynchron auszugeben, kann sich die Laufzeit der akustischen Echos auf mehrere hundert Millisekunden erhö hen. In Fig. 3 sind die Ergebnisse einer Studie dargestellt, in der versucht wurde, herauszufinden, welche Echodämpfung abhän gig von der Laufzeit dieses Echos notwendig ist, damit 90, 70 bzw. 50 Prozent der Befragten mit der Gesprächsqualität zufrie den waren.

Basierend auf dieser Studie sind bei der reinen Audiolaufzeit von 30-40 ms (bei 8 kHz Abtastrate) lediglich 35 dB Echodämp fung notwendig. Bei lippensynchroner Ausstrahlung von Bild und Ton und einer damit verbundenen Laufzeit von beispielsweise 300 ms erhöht sich die Anforderung auf 53 dB. Auch in GSM- Verbindungen kann die Laufzeit mehr als 100 ms betragen. Die Anforderungen, die an Echokompensationsverfahren in Videokonfe renz- und GSM-Systemen gestellt werden, sind somit höher als die Anforderungen an herkömmliche Freisprechtelefone.

Da die Echokompensatoren in ihrer Leistungsfähigkeit begrenzt sind und derart hohe Echodämpfungen mit der zur Verfügung ste henden Hardware nicht erreichen können, wurde ein sog. Postfil ter 30 eingeführt. Dieses wertet die Schrittweiten der einzel nen Teilbänder zusammen mit den anderen Detektorergebnissen aus und filtert das Synthesefilterausgangssignal nochmals frequenz selektiv. Da der Einstellalgorithmus des Filters 30 gemäß einem Wiener-Ansatz entworfen wurde, wird diese Postfilterung im fol genden auch mit Wiener-Filterung bezeichnet.

Die Steuerung der Echokompensatoren erfolgt in mehreren Stufen. Alle leistungsbasierenden Steuereinheiten 32 arbeiten für jeden Kompensator autonom, also unabhängig von den restlichen Fre quenzbereichen. In Fig. 2 ist daher für jeden Kompensator eine eigene Adaptions- und Steuereinheit 32 skizziert. Die auf Kor relationsanalysen des Lautsprecher- und des Mikrophonsignals basierende Stufe der Steuerung wird zur Gegensprechdetektion verwendet und daher in allen Frequenzbereichen gleichermaßen ausgewertet. Eine weitere Stufe trägt der durch die Festkommaa rithmetik begrenzten Genauigkeit Rechnung und steuert die Adap tion in Abhängigkeit der Aussteuerung.

Die endgültige Gegensprecherkennung erfolgt ebenfalls gesondert mit einer eigenen Einheit, die sich sowohl auf die Detektoren der Pegelwaage als auch auf die der Echokompensatoren stützt. Diese Einheit veranlaßt die Pegelwaage in Gegensprechsituatio nen die einzufügende Gesamtdämpfung nochmals (gemäß der ITU- Empfehlung G. 167) zu reduzieren.

In Fig. 4 ist eine Übersichtsdarstellung des oben beschriebenen Zusammenhangs wiedergegeben. Zentrales Element ist hierbei die Berechnung des Schrittweitenvektors (k). Dieser wird sowohl zur Steuerung der Teilbandechokompensatoren als auch zur Be rechnung der Koeffizienten des Postfilters verwendet. Die bei den Teilverfahren berechnen jeweils die durch sie hervorgerufe ne Echodämpfung und teilen diese Informationen der Pegelwaage 22 mit. Die Waage 22 reduziert dann die vom Benutzer einge stellte Gesamtdämpfung und fügt nur noch die restliche Dämpfung in den Sende- bzw. den Empfangspfad ein.

Da sich die vorliegende Erfindung auf die Kombination der oben erwähnten Wiener-Filterung und der Adaptionssteuerung der Teil bandechokompensatoren bezieht, werden beide Verfahren in eige nen Kapiteln detailliert beschrieben. Neu an dem vorgestellten Ansatz ist die Verwendung einer einzigen Steuergröße - dem Schrittweitenvektor (k) - für beide Verfahren. Durch den hier durch verringerten Rechenaufwand (weniger 100 Zyklen/Abtasttakt für die Postfilterung) wird es ermöglicht, beide Verfahren auf preiswerten "Consumer"-Signalprozessoren zu implementieren und damit die Qualität der Freisprecheinrichtung zu erhöhen.

Bisherige Ansätze zur Fehlernachfilterung verwenden zunächst eine (aufwendige) FFT-Analyse bzw. andere rechenleistungsinten sive Berechnungsverfahren und betrachten die Steuerung der Postfilterung stets getrennt von der Steuerung der Echokompen sation.

Die für die Teilbandverarbeitung notwendige Frequenzbandanalyse und -synthese ist als Polyphasenfilterbank implementiert.

Zuerst wird - zunächst unabhängig von der späteren Verwendung innerhalb der Wiener-Filterung - eine Schrittweitensteuerung beschrieben, welche eine schnelle und stabile Adaption der Teilbandechokompensatoren gewährleistet. Zusätzlich werden Ver fahren vorgestellt, welche die erreichte Echodämpfung schätzen. Die Pegelwaage 22 kann somit - basierend auf diesen Schätzwer ten - die Gesamtdämpfung reduzieren. Für die Dämpfungsschätzung ist es dabei unerheblich, ob die Dämpfung von gut abgeglichenen Echokompensatoren, durch die akustische Anordnung von Lautspre cher und Mikrophon oder durch eine entsprechende Wahl der ana logen Verstärkungen erreicht wird.

Die Adaption der Teilbandechokompensatoren wird mittels eines auf den verwendeten Signalprozessor angepaßten NLMS-Verfahrens durchgeführt. Um die Notation der folgenden Beschreibung zu er läutern, ist in Fig. 5 eine Strukturdarstellung des Adaptions prozesses wiedergegeben.

Durch Faltung der geschätzten Teilbandimpulsantworten (k_r) mit den Teilbandanregungssignalen des fernen Teilnehmers (k_r) werden die geschätzten Mikrophonsignale (k_r) gebildet:

Der Index µ soll dabei die Teilbandnummer anzeigen. Durch Dif ferenzbildung zwischen dem geschätzten und dem gemessenen Mi krophonsignal wird der Adaptionsfehler (k_r) berechnet:

Dieser Fehler setzt sich aus einem sog. ungestörten Fehler (k_r) und den durch den lokalen Sprecher hervorgerufene Anteil (k_r) zusammen:

Die Adaption erfolgt mittels einer Näherung des NLMS- Algorithmus

wobei mit F(χ) die bereits angesprochene Näherungsfunktion be zeichnet ist.

Die Koeffizienten der Teilbandechokompensatoren werden während des Betriebs der Freisprecheinrichtung mit den Adaptionsverfah ren laufend an die Teilbandimpulsantworten des LRM-Systems an gepaßt. Damit kann auch nach Systemänderungen eine Reduktion der akustischen Echos erreicht werden. Das Einstellkriterium für das verwendete Adaptionsverfahren ist die Minimierung des mittleren quadratischen Fehlers. Gemäß der Rechenvorschrift des NLMS-Algorithmus erfahren die Koeffizienten eine starke Ände rung, wenn die Abtastwerte des kompensierten Signals (k_r) des µ-ten Teilbandes groß sind. Andauernd große Werte (k_r) können auf zwei Ursachen zurückgeführt werden:

1. Nach Änderungen im LRM-System sind die adaptiven Filter schlecht an die Raum-Impulsantwort angepaßt. Es findet dann keine oder eine nur geringe Reduktion der akustischen Echos statt - die unkompensierten Echoanteile bewirken eine Vergröße rung der Signale (k_r). Die Kompensatoren sollten in solchen Situationen möglichst schnell angeglichen werden.
2. Eine Erhöhung des lokalen Anteils n(k) - beispielsweise bei Aktivität des lokalen Sprechers - bewirkt ebenfalls eine Ver größerung der Signal (k_r). Dieser Anteil ist für die Frei sprecheinrichtung das zu übertragende Nutzsignal, für die adap tiven Filter stellt er jedoch ein Störung dar, die zu einer Fehleinstellung der Koeffizienten führen kann. In solchen Si tuationen sollten die Kompensatoren nicht oder nur wenig ver stellt werden, damit der bereits erreichte Abgleich nicht wie der verschlechtert wird.

Es wurde bereits eine Schrittweitensteuerung vorgestellt, wel che die beiden beschriebenen Gesprächssituationen bzw. Zustände der Kompensatoren berücksichtigt und die gestellten Forderungen an die Adaptionssteuerung erfüllt. Die Schrittweite im µ-ten Teilband sollte gemäß

eingestellt werden. Das gestörte Fehlersigna (k_r) im Nenner der Gleichung 3.5 ist direkt meßbar - der Erwartungswert davon kann durch

abgeschätzt werden. Die rechte Seite der Näherung 3.6 soll da bei eine rekursive Glättung erster Ordnung bezeichnen:

Für die Abschätzung des Zählers wird ein Leistungsübertragungs faktor (r)|µ(k_r) eingeführt. Dabei wird die Parallelschaltung aus LRM-System und Echokompensator einschließlich der Subtraktions stelle in erster Näherung als einfaches Dämpfungsglied model liert.

Die Größe dieser Dämpfung (Verhältnis von Anregungs- zu Fehler leistung) wird durch den Leistungsübertragungsfaktor im Teil band

abgeschätzt. Das Modell setzt hierbei voraus, daß im LRM-System keine zusätzlichen Störungssignale - wie z. B. Aktivität des lokalen Sprechers - vorhanden sind. In Gleichung 3.8 wurde aus diesem Grund die Menge K_ES,FT eingeführt. Diese Menge soll die Zeitpunkte, in welchen sich die Freisprecheinrichtung im Zu stand Einzelsprechen des fernen Teilnehmers befindet, beinhal ten.

Das in Gleichung 3.8 verwendete, geglättete quadratische Anre gungssignal wird dabei analog zur geschätzten Fehlerleistung bestimmt:

In Zuständen ohne Raumänderung wird sich der Leistungsübertra gungsfaktor im Vergleich zu den (Kurzzeit-) Anregungsleistungen nur sehr langsam ändern. Zur Verbesserung der Varianz der obi gen Schätzung können damit rekursive Glättungen mit großen Zeitkonstanten verwendet werden. Die Bezeichnung groß ist dabei im Verhältnis zu den Zeitkonstanten bei den Leistungsschätzun gen zu sehen.

Bei Aktivität des lokalen Teilnehmers wird die Schätzung des Restechos stark gestört. In solchen Fällen sollte die Erneue rung der Schätzung des Leistungsübertragungsfaktors nicht vor genommen werden - die zuletzt berechneten (r)|µ(k_r) werden beibe halten. Durch diese Maßnahme können Raumänderungen bei Aktivi tät des lokalen Sprechers nicht detektiert werden. Erst nach dem erneuten Erreichen des Zustands Einzelsprechen des fernen Teilnehmers werden die Leistungsübertragungsfaktoren in solchen Fällen angeglichen. Die Bestimmungsgleichung für die geglätte ten Leistungsübertragungsfaktoren kann damit gemäß

angegeben werden. Die Schrittweiten α (r)|µ(k_r) können wie folgt an genähert werden:

Aus den bisherigen Überlegungen folgt, daß die Bestimmung der Leistungsübertragungsfaktoren in zwei Teile untergliedert wer den kann. Zum einen muß eine effektive Berechnung der beiden Leistungsschätzungen bzw. der Divisionen dieser beiden Größen auf der zur Verfügung stehenden Hardware gefunden werden. Zum anderen müssen die Zeitpunkte, welche in der Menge K_ES,FT enthal ten sind, detektiert werden.

Für das erste Teilproblem wurden nichtlineare, rekursive Glät tungen verwendet. Als Eingangssignale dieser Filter wurde die Summe aus dem Betrag des Realteils und dem Betrag des Imaginär teils der Teilbandsignale gewählt. Zur Vermeidung der Division wurden die Leistungsfaktoren logarithmisch berechnet - die Di vision kann somit durch eine Subtraktion ersetzt werden.

Für das zweite Teilproblem wurde ein sog. Korrelationsmaß ξ(k_r)eingesetzt. Hierbei wird eine normierte Kreuzkorrelationsa nalyse des Anregungssignals des fernen Teilnehmers und des Mi krophonsignals durchgeführt. Bei Einzelsprechen des fernen Teilnehmers sind die beiden Signale stark korreliert und das Korrelationsmaß liefert Werte ξ(k_r) ≈ 1. Bei Aktivität des loka len Gesprächsteilnehmers verringert sich die Korrelation und es werden Werte ξ(k_r) < 1 detektiert.

Zur Verdeutlichung der hier folgenden Überlegungen wurde die Steuerung mit den in Fig. 7 dargestellten Eingangssignalen des fernen und des lokalen Gesprächsteilnehmers getestet.

Für beide Signale wurde in den Aktivitätsphasen weißes, gauß verteiltes Rauschen gewählt. Zu Beginn der Sequenz liegt "Einzelsprechen" des fernen Teilnehmers vor (Phase A₁). Die ad aptiven Echokompensatoren können in dieser Phase abgleichen und erreichen nach etwa 3 bis 4 Sekunden ihren Endabgleich. Nach 7.5 Sekunden beginnt der lokale Teilnehmer den fernen zu unter brechen (Gegensprechen, Bereich B₁) und übernimmt dann die Rol le des "Alleinsprechenden" (Bereich C). Nach 10,75 Sekunden kehrt sich die Situation um. Der ferne Teilnehmer unterbricht den lokalen (Gegensprechen, Bereich B₂) und "redet" schließlich allein weiter (Phase A₂).

Das Mikrophonsignal wird durch Faltung des Anregungssignals mit der bereits vorgestellten Impulsantwort eines Büroraumes (Länge 2044 Koeffizienten bei 8 kHz Abtrastrate) und anschließender Addition des Signals des lokalen Sprechers gebildet.

In Fig. 8 sind die mittleren Leistungen des Anregungs- und des Fehlersignals dargestellt. Die Adaption wurde mit der im fol genden beschriebenen Schrittweitensteuerung durchgeführt, wobei davon ausgegangen wird, daß die Korrelationsauswertungen nur in den Bereichen A₁ und A₂ Freigaben liefern. In der Abbildung ist deutlich zu erkennen, daß der im Laufe der Phase A₁ erreichte Abgleich von etwa 25 dB über die Bereiche des Gegensprechens und des Einzelsprechens des lokalen Teilnehmers gehalten werden kann.

Zur Bestimmung des Leistungsübertragungsfaktors im µ-ten Teil band müssen gemäß Gleichung 3.8 die mittleren Leistungen des Anregungssignals und des ungestörten Fehlersignals geschätzt werden. Um das Problem von Grenzzyklen zu vermeiden, wäre bei direkter Ausführung der Glättung wie sie in Gleichung 3.7 bzw. in Gleichung 3.9 vorgeschlagen wurde, eine Rechnung in Doppel wort-Genauigkeit (32 Bit) notwendig. Um den damit verbundenen Speicherbedarf bzw. die benötigte Rechenleistung zu reduzieren, werden lediglich Betragsglättungen durchgeführt:

Damit der kritische Fall der Aktivität des lokalen Teilnehmers bei Gegensprechen möglichst schnell erkannt werden kann, wurden bei der Glättung des Fehlersignals zwei unterschiedliche Zeit konstanten (β_er und β_ef) für steigende und fallende Flanken eingeführt. Die Zeitkonstante β_e wird gemäß

gebildet. Die so erhaltene Schätzung verliert durch die Wahl von zwei unterschiedlichen Zeitkonstanten ihre Erwartungstreue. Aus diesem Grund werden im Stand der Technik Korrekturfaktoren eingeführt. Hier soll ein anderer Weg eingeschlagen werden. Die Schätzung der Anregungsleistung erfolgt mit den gleichen Zeit konstanten wie die Schätzung der Fehlerleistung:

Durch die anschließende Division der beiden Größen kann auf den Korrekturfaktor verzichtet werden. Die Betragsbildungen wurden durch die aufwandgünstigeren Abschätzungen

angenähert. Auch hier kann wieder ein Korrekturterm durch die Divisionsbildung weggelassen werden. Wie bereits im vorigen Ab schnitt erwähnt, werden die Leistungsübertragungsfaktoren nur logarithmisch bestimmt - die Division wird dadurch auf zwei Logarithmierungen und eine Subtraktion zurückgeführt. Die Lei stungsübertragungsfaktoren werden somit gemäß

und

geschätzt. Mit LOG {...} wird dabei die Logarithmierung be zeichnet. Die Zeitkonstante β_p, wurde ebenfalls unterschiedlich für steigende und fallende Flanken gewählt. Hiermit soll dem nicht kompensierbaren Teil der Systemlaufzeit (künstliche Ver zögerung des Mikrophonsignals) gerecht werden. Durch diese Laufzeit fällt die Signalleistung des Anregungssignals früher ab als die des Fehlersignals - ohne Korrektur dieses Vorgangs würde die Schätzung eine Absenkung des Schätzwertes nach jeder Anregungsphase durchführen. Zusätzlich werden bei Detektion von Gegensprechen die Zeitkonstanten erhöht. Der verwendete Gegen sprechdetektor ist weiter unten beschrieben. Die Bestimmungs gleichung für die Zeitkonstante β_p lautet:

Mit K_GS sollen dabei die Zeitpunkte, in welchen der oben be schriebene Detektor Gegensprechen erkennt, bezeichnet werden. Die Menge K_ES,FT bezeichnet die Zeitpunkte, in welchen das Korre lationsmaß Einzelsprechen des fernen Teilnehmers erkennt.

Vergleiche zwischen diesen Näherungen und der exakten Berech nung nach Gleichung 3.10 ergaben Abweichungen bei Sprachanre gung von weniger als 2 dB. Für die Verwendung innerhalb der Schrittweitensteuerung reicht dies aus, somit wurde dieses Schätzverfahren für den Leistungsübertragungsfaktor verwendet.

In Fig. 9 ist der geschätzte Leistungsübertragungsfaktor im er sten Band dargestellt. Seine Schätzung wird in den Be reichen B₁, C und B₂ nicht erneuert, da hier vom Korrelationsmaß keine Freigaben geliefert werden. Im Vergleich mit Fig. 8 ist eine gute Übereinstimmung des Soll- und des Schätzwertes zu er kennen. Als Sollwert ist hierbei die Leistungsdifferenz zwi schen Anregung und Fehler zu sehen. Sowohl der Verlauf als auch der auf Fig. 8 zu erkennende Endwert von etwa 26-30 dB wird in der Schätzung gut nachgebildet.

Aus den bisher berechneten Größen können die Schrittweiten α (r)|µ(k_r) in den einzelnen Bändern gemäß

mit

bestimmt werden. Mit LIN {...} ist dabei die Linearisierung be zeichnet. Falls die Anregungsleistung eine Grenze |χ|_min,µ unter schreitet, wird davon ausgegangen, daß die Anregung lediglich aus Hintergrundgeräusch besteht und die Adaption wird angehal ten.

In Fig. 10 ist die Schrittweite im ersten Teilband logarith misch dargestellt. In Phasen des Einzelsprechens des fernen Teilnehmers (A₁ und A₂) ist die Schrittweite etwa 1 - in Phasen des Einzelsprechens des lokalen Teilnehmers (B₁ und B₂) kann aus Fig. 8 eine Differenz von gestörter zu ungestörter Fehlerlei stung von etwa 26 bis 30 dB ermittelt werden. Die Schrittweite liegt demnach auch in den Gegensprechphasen im erwarteten Be reich (ca. -27 dB).

Für die oben vorgestellte Schrittweitensteuerung wird eine Schätzung des Leistungsübertragungsfaktors benötigt. Diese Schätzung sollte nur bei Einzelsprechen des fernen Teilnehmers erneuert werden. In Gleichung 3.19 wurde aus diesem Grund die Menge K_ES,FT eingeführt, welche die Zeitpunkte beinhalten soll, in denen das gewünschte Einzelsprechen vorliegt. Durch die starke rekursive Glättung führen kurzzeitige Fehlentscheidungen bei der Auswahl der Zeitpunkte zu keinen großen Fehlschätzungen der Übertragungsfaktoren.

Der angestrebte Detektor sollte zwischen Einzelsprechen und Ge gensprechen unabhängig von Raumänderungen und auch unabhängig von der Leistung der Eingangssignale entscheiden können. Es wird ein Korrelationsmaß verwendet - ein Detektor, welcher die obigen Anforderungen erfüllt. Hierbei wird die Kreuzkorrelation zwischen dem Lautsprechersignal und dem Mikrophonsignal in ei ner normierten Form ausgewertet.

Für die Auswertung werden die beiden Signale mit Schätzfenstern (Rechteckfunktionen) der Länge L₁ multipliziert. Die so erhaltenen endlichen Signalfolgen werden gemäß

ausgewertet. Bei stark korrelierten Signalen wird ein Maximum der oben beschriebenen Auswertung erreicht, wenn die Schätzfen ster gerade um die Laufzeit des LRM-Systems zueinander verscho ben sind. Da diese Laufzeit unbekannt und auch veränderlich ist (z. B. durch Verschieben des Lautsprechers oder des Mikrophons), wird das Maximum aus einer Folge von L₂ Auswertungen weiterver arbeitet. Die einzelnen Auswertungen verwenden dann ein um l Takte verzögertes Anregungssignal x(k - l). Die Bestimmungsglei chung erweitert sich zu:

Die Zähler und Nenner der obigen Gleichung müssen dabei in Dop pelwort-Genauigkeit (32 Bit) ausgewertet werden. Um den Rechen aufwand zu verringern, werden die einzelnen Korrelationsmaße (k, l) rekursiv berechnet:

Eine Freigabe wird dann gesetzt, wenn das Maximum aus den be stimmten Korrelationsmaßen größer als ein Grenzwert ξ₀ ist. Um eine Division von zwei 32-Bit-Werten zu vermeiden, wird der Grenzwert ξ₀ durch eine endliche Summe aus nichtpositiven Zwei erpotenzen

angenähert. Der Schwellwertvergleich kann dann auf eine Summa tion von rechtsverschobenen Nennerwerten und einen Vergleich zurückgeführt werden:

Um den Rechenaufwand weiter zu reduzieren, wurden die Auswer tungen nur im leistungsstärksten, ersten Teilband und dort auch nur mit den Realteilen der komplexwertigen Signale durchge führt. In diesem Band ist bei Sprachanregung mit dem größten Signal-Geräusch-Abstand zu rechnen, was die Zuverlässigkeit der Detektorergebnisse verbessern sollte. Durch diese Maßnahme wer den durch die Unterabtastung die Berechnungen nur alle r Ab tasttakte durchgeführt werden. Der Zeitpunkt k_r wird dann in die Menge K_ES,FT aufgenommen, falls einer der L₂ Vergleiche ein Korrelationsmaß größer als ξ₀ ergibt.

Entsprechend der ITU-Empfehlung G. 167 kann die durch die Frei sprecheinrichtung zu erbringende Echodämpfung in Gegensprechsi tuationen um 15 dB verringert werden. Aus diesem Grund wurde ein Gegensprechdetektor gemäß den folgenden Überlegungen ent wickelt. Gleichzeitig kann dieser Detektor dazu verwendet wer den, die Schätzungen in der Schrittweitensteuerung bei auftre tendem Gegensprechen "vorsichtiger" einzustellen.

Die Detektion von Gegensprechen wird in zwei Schritten durchge führt. In einer ersten Stufe wird überprüft, ob der ferne Spre cher aktiv ist. Hierzu wird zum einen das betragsgeglättete An regungssignal des fernen Teilnehmers mit einer Schwelle |x|₁ ver glichen - zum anderen wird überprüft, ob der Pegelwaagenalgo rithmus Anregung des fernen Teilnehmers erkannt hat. Der zweite Vergleich ist immer dann notwendig, wenn die Pegelwaage große Dämpfungswerte einbringt (z. B. nach Raumänderungen). In sol chen Situationen kann der Empfangspfad stark bedämpft sein. Hier würde der Vergleich mit dem geglätteten Eingangssignal kein zuverlässiges Ergebnis liefern. Anregung des fernen Teil nehmers (A_fe = 1) wird demnach immer dann angenommen, wenn ent weder der Leistungsvergleich oder der Pegelwaagendetektor (Variable SR = 1) dies erkennen:

Das betragsgeglättete Anregungssignal wird dabei analog zu den in der Schrittweitensteuerung beschriebenen rekursiven, nicht linearen Glättungen berechnet. Zu beachten ist hier allerdings, daß durch die höhere Abtastrate größere Zeitkonstanten verwen det werden müssen und dadurch Grenzzyklen auftreten können. Ei ne Rechnung in Doppelwort-Genauigkeit (32 Bit) ist deshalb er forderlich:

Die Zeitkonstante β_xg wird dabei wie folgt gewählt:

Die Verzögerung von N Takten wurde eingeführt, um bei den Ver gleichen in der zweiten Detektorstufe die Laufzeit des Analyse- Synthese-Systems wieder auszugleichen. Es ist hierzu kein zu sätzlicher Speicher notwendig, da das Analysefilter ohnehin die letzten N Signalwerte des Eingangssignals speichert.

In einer zweiten Stufe wird festgestellt, ob auch der lokale Gesprächsteilnehmer aktiv ist. Hierzu wird ein Vergleich zwi schen der Leistung des geschätzten, ungestörten Fehlers und des meßbaren, gestörten Fehlers durchgeführt. Die Leistungsschät zungen werden wieder auf Betragsglättungen bzw. die Bestimmung eines Leistungsübertragungsfaktors zurückgeführt. Die Glättung des Fehlersignals wird gemäß

durchgeführt. Die Zeitkonstante β_eg wird wie folgt gewählt:

Für die Schätzung der ungestörten Fehlerleistung wird ein (Gesamtband-) Leistungsübertragungsfaktor p_EK(k)bestimmt:

Um die Varianz der Schätzung zu verbessern, wird auch diese Größe rekursiv geglättet. Da die Bestimmung des Übertragungs faktors lediglich aus geglätteten Größen besteht, wird sie nur unterabgetastet ausgeführt:

Zur Detektion der Anregung des lokalen Teilnehmers (A_lo = 1) wird die Differenz aus der gemessenen und der geschätzten Feh lerleistung bestimmt. Um Fehlentscheidung zu vermeiden wurde eine zusätzliche Sicherheitsschwelle p_GS eingeführt. Der Detek tor erkennt Anregung des lokalen Teilnehmers, wenn die gemesse ne Fehlerleistung um mindestens p_GS dB größer ist als die aus der Anregungsleistung und dem Leistungsübertragungsfaktor ge schätzte Fehlerleistung. Auch dieser Vergleich wird unterabge tastet ausgeführt:

Der Detektor erkennt Gegensprechen, wenn die UND-Verknüpfung der Variablen A_fe und A_lo den Wert eins ergibt. In diesen Fällen kann die Restdämpfung, welche durch die Pegelwaage eingebracht wird, um p_GSmax = 15 dB verringert werden. Die Verringerung der Dämpfungsanforderung erfolgt tiefpaßgeglättet. Die Zeitkonstan te für die steigende Flanke ß_Gsr sollte möglichst klein sein, um den Beginn einer Sprachpassage nicht abzuschneiden. Die Zeit konstante für die fallende Flanke ß_Gsf sollte größer als die An stiegskonstante gewählt werden, damit die Dämpfungsabsenkung in kurzen Sprachpausen nicht vollständig zurückgenommen wird. In Fig. 11 ist dieser Zusammenhang dargestellt. Die ge glättete Dämpfungsabsenkung wird wie folgt bestimmt:

Der Zeitpunkt k_r wird in die Menge K_gs aufgenommen, falls die Dämpfungsabsenkung über einem vorbestimmten Wert liegt. Ein beispielhafter Verlauf der Dämpfungsabsenkung ist in Fig. 11 dargestellt.

Die Gesamtdämpfung der Pegelwaage, welche durch die ITU-T- Empfehlung G. 167 vorgeschrieben ist, kann um die Dämpfung des Gesamtsystems aus Raum und Echokompensator abgesenkt werden. Selbst im Falle abgeschalteter Echokompensation erfolgt durch die beschriebene Steuerung eine Schätzung des Übertragungsfak tors der akustischen Strecke vom Lautsprecher zum Mikrophon einschließlich der analogen Verstärkungen. Hierdurch kann auf unterschiedliche Lautsprecher- bzw. verschiedene (analoge) Mi krophonverstärkungen reagiert und die Gesamtdämpfung entspre chend den geforderten Werten (digital) angepaßt werden. Im Ge gensprechfall kann die Gesamtdämpfung ebenfalls gemäß der ITU- T-Empfehlung G. 167 auf einen geringeren Wert gesetzt werden. Auch hierfür wurde ein Detektor und eine entsprechende Überga begröße vorgestellt bzw. definiert. Die Pegelwaagengesamtdämp fung D_PW(k) wird damit (zunächst noch ohne Berücksichtigung der Postfilterung) nach folgendem Verfahren gesteuert:

D_PW(k) = D₀ - D_EK(k) - D_GS(k). (3.37)

Alle Größen der obigen Gleichung liegen entsprechend den Anfor derungen des ARCOFI-Pegelwaagen-Verfahrens in logarithmischer Form vor. D₀ ist dabei die geforderte Maximaldämpfung (z. B. 45 dB). Die Dämpfung des Echokompensators D_EK(k) wird durch die Be rechnungsform

bestimmt. Analog dazu kann die Gegensprechabsenkung D_GS(k) mit

angegeben werden.

In der Echtzeitrealisierung des Echokompensationsverfahrens zeigt sich, daß die adaptiven Filter den Anteil des fernen Sprechers niemals vollständig aus dem Mikrophonsignal heraus rechnen können. Dies kann viele verschiedene Ursachen haben, drei davon sind hier exemplarisch angeführt:

a) Die Raumimpulsantworten sind im allgemeinen länger als die Echokompensatoren, wodurch ein Restfehler übrig bleibt.
b) Die Festkommaarithmetik des verwendeten DSP's wirkt sich be grenzend auf den Endabgleich der Filter aus.
c) Bei Raumänderungen führt der NLMS-Algorithmus die adaptiven Filter nur mit einer endlichen Geschwindigkeit nach - bis zum erneuten Erreichen des Endabgleichs sind Echos wieder stärker wahrnehmbar.

Das Fehlersignal e(k) enthält somit neben dem Anteil des loka len Sprechers n(k) auch noch den nicht kompensierten Anteil des fernen Sprechers, der bereits in den vorherigen Teilen dieser Beschreibung als "ungestörter" Fehler ε(k) bezeichnet wurde. Für den fernen Teilnehmer ist das Signal n(k) der Nutzanteil des Signals e(k) - das Signal ε(k) ist aus dieser Sicht die Störung.

Im folgenden wird gezeigt, wie eine Nachfilterung des Signals e(k) - zur Dämpfung der "Störung" ε(k) - basierend auf einem Wiener-Filter-Ansatz mit der Schrittweitensteuerung für die Teilbandechokompensatoren verknüpft werden kann. Hierzu wird ein Transversalfilter der Ordnung M - 1 im Anschluß an die Syn thesefilterung eingefügt. Der Parameter M ist dabei gleichzei tig die Bandanzahl der Filterbank. Die Koeffizienten werden in der Teilbandebene bestimmt und mit einer inversen DFT in den Zeitbereich transformiert. Die Koeffizientenbestimmung ist durch mehrere Glättungen mit einer Trägheit und damit einer Laufzeit behaftet. Durch die zwischen der Koeffizientenbestim mung und -verwendung liegende, maximalphasig entworfene Synthe sefilterung kann diese Laufzeit zumindest zum Teil wieder aus geglichen werden. Die Nachfilterung erfolgt hierbei im Zeitbe reich und frequenzselektiv.

Bei der Herleitung ergeben sich einfache Steuergrößen, mit de nen der "Einfluß" des Wiener-Filters abhängig von der Kompensa tionsleistung der adaptiven Filter gesteuert werden kann. Auch die durch diese Maßnahme eingefügte Dämpfung kann mit geringem Aufwand geschätzt und der Pegelwaage "mitgeteilt" werden.

Im folgenden wird sich zeigen, daß die Bestimmung der Koeffizi enten des Wiener-Filters sich auf die Berechnung von M/2 + 1 Sub traktionen, einer (vereinfachten) inversen Fourier- Transformation der Länge M und einigen rekursiven Glättungen zurückführen läßt. Sowohl die Subtraktionen als auch die inver se FFT und die Glättungen sind dabei nur alle r Abtastwerte auszuführen. Der Berechnungsaufwand ist damit im Vergleich zu den übrigen Komponenten der Freisprecheinrichtung sehr gering!

Gemäß Fig. 12 wird das Filter (k) 30 hinter der Synthese pla ziert. Die Ordnung des Filters betrage M - 1, es müssen also M Koeffizienten eingestellt werden. Das Filter 30 soll gemäß dem Wiener-Ansatz das "gestörte" Signal e(k) optimal von der "Störung" ε(k) befreien. Der Frequenzgang eines solchen Filters lautet:

Für das Signal e(k) gilt:

e(k) = ε(k) + n(k).

Der Filterfrequenzgang kann damit zu

umgeformt werden. Die Signale des fernen und des lokalen Teil nehmers (n(k) bzw. ε(k)) werden als unkorreliert vorausgesetzt. Bedingt durch die Hochpaßfilterung des Leitungseingang- und des Mikrophonsignals wird weiter Mittelwertfreiheit der Signale n(k) und ε(k) angenommen. Der Frequenzgang vereinfacht sich da durch zu:

Da das Filter (k) die Ordnung M - 1 haben und durch inverse Fourier-Transformation aus dem Frequenzgang G_opt(Ω) bestimmt werden soll, müssen M Stützstellen des Frequenzgangs bestimmt werden. Für die Frequenzen

ergibt sich:

Die Frequenzen Ω_µ stellen aber neben den Stützstellen im Fre quenzbereich auch gleichzeitig die Bandmitten der zuvor be schriebenen Bandpässe bei der Teilbandzerlegung dar. Bei der Schätzung der Größe S_εε(Ω_µ)/S_ee(Ω_µ) kann somit auf entsprechende Größen in den einzelnen Teilbändern zurückgegriffen werden. G_opt(Ω_µ) kann durch

angenähert werden. Da bei der Herleitung des Wiener-Filters Stationarität der Eingangssignale vorausgesetzt wurde, dies aber bei Sprache nur für kurze Passagen angenommen werden kann, sollten die Leistungsdichtesprektren durch entsprechende Kurz zeitleistungsschätzwerte im jeweiligen Frequenzbereich ersetzt werden. Somit gelten für die Schätzung der Quotienten

die gleichen Voraussetzungen wie für die Schätzung der Schritt weiten in den jeweiligen Bändern. Die DFT-Transformierte des Filters (k) könnte daher gemäß

bestimmt werden. Die hochgestellten "(r)" sollen dabei auf die Unterabtastebene hinweisen. (k) bzw. ₍₁₎ ^(r)(k) ändern sich somit nur alle r Abtastschritte. Im bevorzugten Ausführungsbeispiel wurde r = 13 gewählt. Es wurde gezeigt, daß die komplexen Bän der nur für µ = 1 ... M/2 - 1 berechnet werden müssen - die Bänder µ = M/2 - 1 ... M - 1 können durch komplexe Konjugation ermittelt wer den. Da die Schrittweiten αber reellwertig sind, kann der Vek tor (k) wie folgt gebildet werden

Da die Teilbandzerlegung den Bereich des letzten Teilbandes (bei 8 kHz Abtastrate 3750 Hz - 4000 Hz) herausfiltert, soll dieser Bereich im verwendeten Wiener-Filter ebenfalls undurch lässig sein, wodurch sich die Wahl von G (r)|8(k) = 0 bzw. α (r)|8(k) = 1 ergibt.

In der praktischen Anwendung dieses Verfahrens zeigt sich, daß ein leicht modifizierter Ansatz zu besseren Ergebnissen führt. Analog zu bekannten Verfahren der Geräuschreduktion werden die geschätzten Stützstellen des Filterfrequenzganges zeitlich ge glättet, sowie mit einem sog. Überschätzungsfaktor β und einer Maximaldämpfung G_min(k) versehen. Die zeitliche Glättung wird auf die Schrittweiten angewendet und erfolgt mit einem IIR- Filter erster Ordnung mit zwei verschiedenen Zeitkonstanten für steigende (γ_r) und fallenden (γ_f) Flanken:

Bei einer linearen Glättung (γ_r = γ_f) würde die Dämpfung bei Be ginn einer Sprachpassage des fernen Teilnehmers zunächst lang sam und dann immer schneller eingebracht. Am Ende der Sprach passage würde die Dämpfung dann zunächst schnell und dann immer langsamer reduziert. Um diesen Zusammenhang zu verdeutlichen, ist in Fig. 13 ein beispielhafter Verlauf des Terms (1 - α(k)) in einem der Teilbänder dargestellt. Zu Beginn soll eine Sprachpause des fernen Sprechers vorliegen, der Term (1 - α(k)) ist dementsprechend gleich Eins. Mit dem Einsetzen der Sprach passage werde die Schrittweite α(k) auf einen Wert nahe bei Eins gesetzt - zur Vereinfachung bleibe die Schrittweite bis zum Ende der Sprachsequenz auf diesem Wert, anschließend wird die Schrittweite wieder auf Null gesetzt. Zur Verdeutlichung der Größe der eingefügten Dämpfung (es wird vereinfachend davon ausgegangen, daß in allen Bändern der gleiche Verlauf vorliegt) sind die Stellen, an denen die Kurve mit der geglätteten Schrittweite die Werte (1 - 1/2), (1 - 1/4) und (1 - 1/8) erreicht, gekenn zeichnet. Diese Werte entsprechen dann einer Dämpfung von 6 dB, 12 dB bzw. 18 dB. Im unteren Teil der Fig. 13 ist der mit zwei unterschiedlichen Zeitkonstanten geglättete Term α(k) darge stellt. Zu Beginn der Sprachpassage wird die Dämpfung hier schnell eingefügt - am Ende erfolgt eine langsamere Reduktion der eingebrachten Dämpfung.

Der in der Implementierung verwendete Vektor ^(r)(k) setzt sich somit aus den geglätteten Schrittweiten zusammen:

Der Filterfrequenzgang wird dann gemäß

geschätzt. Der Überschätzungsfaktor β beschleunigt bei einer Wahl größer als eins das Einbringen der Dämpfung und er vergrö ßert die Dämpfung. Für β wird vorzugsweise ein Wert zwischen 1.0 und 3.0 gewählt.

Durch den Parameter G_min(k) können die Spektralschätzwerte des Filters nach unten begrenzt werden. Wird dieser Parameter bei spielsweise zu Null gewählt, so könnte durch das Filter das Ausgangssignal zu Null gesetzt werden. Wird G_min(k) = 1 gesetzt, so erfährt das Ausgangssignal keine Änderung. Mit dem Parameter G_min(k) kann somit der "Einfluß" des Wiener-Filters gesteuert werden. In Echtzeitversuchen zeigte sich, daß es sinnvoll ist, die Steuerung dieses Parameters mit dem Abgleichzustand der Echokompensatoren zu verknüpfen. Zu Beginn eines Abgleichvor gangs ist die Dämpfung, welche durch die Echokompensatoren er reicht wird, noch sehr gering. Hier sollte das Wiener-Filter stark eingreifen und große Dämpfungen (z. B. bis zu 45 dB gemäß den ITU-Empfehlungen) einbringen können. Ist in dem Raum, in dem sich die Freisprecheinrichtung befindet, starkes Hinter grundgeräusch vorhanden, so werden durch das Wiener-Filter die Echos zwar unterdrückt, der ferne Teilnehmer nimmt dann aber eine Art Modulation des Hintergrundgeräusches wahr. In seinen Sprachpausen wird das Geräusch ungedämpft übertragen, während er spricht, erfährt es eine (z. B. 45 dB große) Dämpfung.

Zu Beginn eines Abgleichvorgangs sind solche "Effekte" tolera bel, zumal "herkömmliche" Verfahren wie die Pegelwaage ähnli ches bewirken. Mit zunehmendem Abgleich der Kompensatoren soll te dieser Effekt aber verringert werden. Auch hier liefert die Schrittweitensteuerung eine geeignete Steuergröße - den ge schätzten Leistungsübertragungsfaktor D_EK(k). Die Einstellung des Parameter G_min(k) erfolgt daher gemäß:

G_min(k) = LIN {Max {0, (G_max,log - D_EK(k) - D_GS(k))}}. (4.2)

Mit "LIN" wird dabei die bereits in der Schrittweitensteuerung verwendete Linearisierung von logarithmischen Größen bezeich net. Mit dem Parameter G_max,log kann die maximale Einfügedämpfung (z. B. 45 dB) eingestellt werden. Dieser Festwert wird dann um die Dämpfung D_EK(k), welche die Echokompensatoren im Mittel lei sten, sowie um die Gegensprechabsenkung D_GS(k) reduziert. Die Größen D_EK(k) und D_GS(k) liegen dabei in der gleichen logarith mischen Form wie die Konstante G_max,log vor. Die Begrenzung der errechneten Größe auf 0 dB dient der Anpassung an die Lineari sierung.

Damit sind alle Steuergrößen zur Einstellung des Wiener-Filters und die Filterkoeffizienten im Teilbandbereich bestimmt. Die so erhaltenen Spektralschätzwerte des Filters werden mit Hilfe ei ner inversen DFT so in den Zeitbereich transformiert, daß ein phasenlineares Filter entsteht. Hierbei kann von der Tatsache, daß die Systemfunktion sowohl reellwertig als auch symmetrisch ist, Gebrauch gemacht werden und der Aufwand der IDFT auf etwa ein Viertel reduziert werden.

Die Dämpfung D_W(k) des Signals e(k) durch das Wiener-Filter wird analog zur Dämpfung der Echokompensatoren und der Dämp fungsreduktion bei Gegensprechen über eine Schittstelle der Pe gelwaage mitgeteilt. Die Dämpfung wird dabei durch den Mittel wert über alle zu übertragenden Frequenzbereiche angenähert:

Mit "LOG" wird dabei die bereits in der Schrittweitensteuerung verwendete Normierung bzw. Logarithmierung bezeichnet. Sie sorgt für die schnittstellenspezifische Kommunikation mit der Pegelwaage. Die Division durch 8 wird durch Rechtsschieben um 3 Bit erreicht. Bevor die Dämpfung dann endgültig an die Pegel waage übergeben wird, erfolgt eine rekursive, nichtlineare Glättung:

Die Verwendung von unterschiedlichen Zeitkonstanten für stei gende und fallende Flanken bewirkt, daß die Schätzung "vorsichtiger" wird. Wird durch das Wiener-Filter Dämpfung ein gefügt, so verringert die Pegelwaage ihre Dämpfung langsamer. Kurzzeitig wird das Fehlersignal damit mehr als die geforderten 45 dB gedämpft. Verringert das Wiener-Filter umgekehrt seine Dämpfung, fügt die Pegelwaage sehr schnell die restliche Dämp fung ein. Durch die zeitliche Verzögerung durch die Synthese filterung kann es auch hier zu einer kurzzeitigen Gesamtdämp fung von mehr als der eingestellten Obergrenze (z. B. 45 dB) kommen.

Zur Verdeutlichung der bisherigen Überlegungen wurde die im Ab schnitt der Schrittweitensteuerung beschriebene Simulation wie derholt - diesmal aber erweitert mit dem oben vorgestellten Wiener-Filter. Als Raumimpulsantwort wurde die gemessene Rau mimpulsantwort eines Büroraumes mit etwa 300 ms Nachhallzeit verwendet. Als Anregungen wurde sowohl auf der fernen als auch auf der lokalen Teilnehmerseite weißes Rauschen gemäß Fig. 14 eingespeist.

Um den Einfluß des Wiener-Filters deutlich darzustellen, wurde die Maximaldämpfung G_max,log zu 60 dB gewählt. Im Bereich A₁ fin det der Anfangsabgleichvorgang der Kompensatoren statt. Zu Be ginn dieses Bereiches sind die Kompensatoren noch nicht abge glichen - am Ende wurde in allen Bändern der Endabgleichszu stand erreicht. Da in dieser Phase kein Gegensprechen stattfin det, sollte das Wiener-Filter die Differenz zwischen 60 dB und der Dämpfung, welche durch die Echokompensatoren erreicht wird, einfügen. Hierzu ist im Bereich A₁ der Koeffizient

im Teilband 1 (250-750 Hz bei 8 kHz Abtastrate) zusammen mit dem Anregungs- und Fehlersignal vor dem Wiener-Filter in Fig. 15 dargestellt. Zu erkennen ist hierbei zunächst der Ein schwingvorgang des Wiener-Filters. Bedingt durch die Trägheit der Tießpaßglättungen wird die Dämpfung nicht sofort eingefügt - dieser Effekt wird durch die Transformation in den Zeitbe reich und die dazwischenliegende Synthesefilterung zum Teil wieder ausgeglichen. Im Gesamtbandsignal (s. Fig. 18) werden dadurch immerhin schon zu Beginn der Aktivität des fernen Spre chers 25 dB Dämpfung eingefügt. Nach etwa 200 ms hat sich die Dämpfung dann bereits auf ihren Endwert von 60 dB erhöht. Mit zunehmendem Abgleichen des Kompensators verringert sich die Dämpfung durch das Wiener-Filter im Band 1 und erreicht erwar tungsgemäß einen Endwert von etwa 30 dB (60 dB Maximalbegren zung - 30 dB Echodämpfung durch den Kompensator). Da das Wie ner-Filter erst nach der Synthese eingefügt wurde, können die Verläufe der Anregung, des Fehlers, der Schrittweite und des Leistungsübertragungsfaktors im Band 1 aus den Fig. 9 und 10 entnommen werden.

Für den Fall des Einzelsprechens des fernen Gesprächsteilneh mers (Bereich A₁ und A₂) ist somit die Maximalgrenze der einzu fügenden Dämpfung G_min(k) die bestimmende Größe. Entsprechend dem Ansatz des Filters soll das Gesamtsignal e(k) von seiner Störung ε(k) getrennt werden. Da der lokale Teilnehmer - das Nutzsignal in e(k) - jedoch nicht aktiv ist, besteht das Ge samtsignal lediglich aus der Störung. Würde die Begrenzung bei der Bestimmung der Koeffizienten G (r)|1(k)weggelassen, so würden diese Koeffizienten zu Null gesetzt und die Störung damit eli miniert.

In Fig. 16 ist zur Verdeutlichung dieses Zusammenhangs die Dämpfung, welche durch das Wiener-Filter eingefügt wird, im Band 1 dargestellt. Der anfängliche Wert von etwa 60 dB wird durch die eingestellte Maximaldämpfung G_max,log bestimmt. Die zu Beginn der Simulation mit Nullvektoren initialisierten Kompen satoren gleichen im Verlauf der Phase A₁ ab und reduzieren da mit die Obergrenze der einzufügenden Dämpfung auf etwa 30 dB. In der nun folgenden Gegensprechphase B₁ wird diese Obergrenze durch den Gegensprechdetektor nochmals um 15 dB auf nun noch etwa 15 dB verringert. Da die Leistung des lokalen Sprechers aber deutlich über der des Restechos liegt, wird diese Grenze nicht erreicht. Gemäß dem gewählten Einstellalgorithmus wird somit in der Gegensprechphase B₁ fast keine Dämpfung eingefügt. Die bestimmende Größe in der Gegensprechphase ist das Lei stungsverhältnis des Signals des lokalen Sprechers und des Re stechos des fernen Sprechers. Die Leistung des Restechos hängt zum einen von der Anregungsleistung des fernen Teilnehmers und zum anderen vom Abgleichzustand der Kompensatoren ab. Je besser diese abgeglichen sind, um so geringer wird der Einfluß des Wiener-Filters in diesen Passagen sein.

In der folgenden Gesprächssituation C hat der lokale Teilnehmer das Wort übernommen. Die Schrittweiten werden in diesen Situa tionen zu Null gesetzt, wodurch das Wiener-Filter zu einer Durchschaltung wird. Die Passagen B₂ und A₂ sind analog zu den eben beschriebenen Phasen zu sehen.

Da die Schätzung der Dämpfung, welche durch das Wiener-Filter eingefügt wird, mit unterschiedlichen Zeitkonstanten ausgeführt wird, kommt es in bestimmten Phasen zu einer zu "vorsichtigen" Schätzung. Um diesen Sachverhalt zu verdeutlichen sind in Fig. 17 die Verläufe der Schätzung der Dämpfungen durch die Echokom pensatoren und durch das Wiener-Filter, sowie die Absenkung im Gegensprechfall aufgetragen. Die Summe dieser drei Größen wird der Pegelwaage übergeben und ist im unteren Teil der Fig. 17 dargestellt. Diese Schätzung kann mit den wirklichen Signalver läufen der Anregung und des Fehlers im Gesamtband in Fig. 18 verglichen werden. In den Bereichen B₁ und B₂ erkennt der Gegen sprechdetektor die Aktivität der beiden Teilnehmerseiten und erhöht die Dämpfungsübergabe um 15 dB. Diese Erhöhung wird mit einer kurzen Zeitkonstante eingefügt und am Ende der Gegen sprechphase langsam wieder herausgenommen. Diese Maßnahme wurde zur Überbrückung kurzer Sprachpausen eingeführt. Gleichzeitig wird mit dem Einsetzen des Gegensprechens die Schrittweite re duziert und das Wiener-Filter verringert seine Dämpfung. In den Passagen ohne Anregung (Bereich C) des fernen Teilnehmers wird die Schrittweite zu Null gesetzt - das Wiener-Filter wirkt dadurch lediglich als Verzögerungsglied.

Das bisher vorgestellte Verfahren wurde für die endgültige Im plementierung allerdings noch einmal leicht modifiziert - hier durch konnte der Rechenaufwand noch einmal gesenkt werden, ohne merkliche Qualitätseinbußen zu erhalten.

Nach einer schrittweitenabhängigen Bestimmung der Filterkoeffi zienten im Teilbandbereich, wurde gemäß Gleichung 4.1 eine Obergrenze der Dämpfung bestimmt. Diese Obergrenze wurde in Ab hängigkeit von der bereits erreichten Dämpfung, welche durch die Leistungsübertragungsfaktoren im jeweiligen Band bzw. durch die Gegensprechdämpfung gegeben ist, bestimmt. Beide Größen wurden in der Schrittweitenberechnung lediglich in logarithmi scher Darstellung berechnet und gespeichert. Um die Größen in der Begrenzungsfunktion verwenden zu können, sind demnach acht Linearisierungen notwendig. Die Bestimmung der Maximalwerte würde damit mehr Rechenleistung benötigen als die gesamte rest liche Koeffizientenberechnung. Aus diesem Grund wurde für alle Bänder eine einheitliche Obergrenze eingeführt. Diese wird ebenfalls gemäß Gleichung 4.1 berechnet, allerdings mit den Ge samtbandgrößen. Der Resourcenbedarf der so erhaltenen Nachfil terung liegt bei deutlich unter 1 MIPS bei Verwendung von 16- Bit-Festkomma-Signalprozessoren.

Bei eingeschaltetem Wiener-Filter 30 kann die Gesamtdämpfung zusätzlich um die Dämpfung des Wiener-Filters 30 abgeschwächt werden. Der Maximalhub der Pegelwaage kann damit durch

D_PW(k) = D₀ - D_EK(k) - D_GS(k) - D_W(k) (4.3)

angegeben werden. Die Größe D_W(k) wird dabei gemäß

bestimmt.

Claims

1. Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen mit einer Pegelwaage (22) und ei ner frequenzselektiven steuerbaren Echokompensation (28) mit Teilbandverarbeitung, wobei das abgehende Signal nach der frequenzselektiven Echokompensation (28) einer Nachfilterung in einem weiteren frequenzselektiven Filter (30) mit Ein stellalgorithmus gemäß einem Wiener-Ansatz unterworfen wird (Wiener-Filterung), dadurch gekennzeichnet, daß eine einzige Steuergröße (Schrittweitenvektor (k) sowohl für die Steue rung der frequenzselektiven Echokompensation, als auch für die Steuerung des weiteren Filters (30) verwendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mehrere unterschiedliche Abtastraten verwendet werden.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekenn zeichnet, daß sowohl bei der Echokompensation (28) als auch für das weitere Filter (30) adaptive Filter verwendet werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch ge kennzeichnet, daß die Echokompensation (28) mittels einer Filterbank in Frequenzteilbändern implementiert wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch ge kennzeichnet, daß zur Steuerung der Adaption und der Schritt weite sowohl leistungsbasierende Schätzungen als auch korre lationsbasierende Analysen verwendet werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch ge kennzeichnet, daß zur Schrittweitenbestimmung Leistungsüber tragungsfaktoren in Teilbändern geschätzt werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch ge kennzeichnet, daß sowohl die Echokompensation (28) als auch der weitere Filter (30) Schätzwerte für die durch sie einge brachte Echodämpfung liefern.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Schätzwerte für die Dämpfung zur Steuerung der Dämpfung der Pegelwaage (22) verwendet werden.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch ge kennzeichnet, daß die gleichzeitige Aktivität beider Ge sprächsteilnehmer (Gegensprechen) detektiert wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Gesamtdämpfung der Pegelwaage im Gegensprechfall redu ziert wird.