EP1202253A2

EP1202253A2 - Adaptiver Geräuschpegelschätzer

Info

Publication number: EP1202253A2
Application number: EP01440295A
Authority: EP
Inventors: Michael Walker
Original assignee: Alcatel SA; Nokia Inc
Current assignee: Alcatel Lucent SAS; Nokia Inc
Priority date: 2000-10-24
Filing date: 2001-09-12
Publication date: 2002-05-02
Anticipated expiration: 2021-09-12
Also published as: EP1202253B1; DE50105947D1; ATE293828T1; EP1202253A3; JP2002198918A; US20020064288A1; US6842526B2; DE10052626A1

Abstract

Ein Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines einem akustischen Nutzsignal überlagerten Hintergrundgeräusches ist dadurch gekennzeichnet, dass der Schätzwert n(x) für ein abgetastetes Eingangssignal x(k) als ein Wert n1 (x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls ts ≥ 1ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird; dass der Wert n1 (x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen Schwellwert ε unterschreiten; und dass anderenfalls der im vorhergehenden Schritt ermittelte Schätzwert ungeändert als neuer Schätzwert n(x) übernommen wird. Damit kann eine äußerst exakte Ermittlung des aktuellen Geräuschpegels mit sehr schnellen Adaptionszeiten erreicht werden, die erheblich geringer sind als bei bekannten Verfahren, wobei nur ein relativ geringer Rechenaufwand erforderlich ist.

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines Hintergrundgeräusches, das einem über ein Telekommunikations (=TK)-System übertragenen akustischen Nutzsignal, insbesondere einem menschlichen Sprachsignal überlagert ist. Weiter betrifft die Erfindung auch Computerprogramme und Vorrichtungen zur Unterstützung und Durchführung eines derartigen Verfahrens, insbesondere geeignete Servereinheiten, Signalisierungseinrichtungen, Prozessorbaugruppen und programmierbare Gate-Array-Baugruppen.

Verfahren zur Geräuscheinschätzung von Hintergrundgeräuschen sind bekannt. Beispielsweise werden Geräuschschätzer verwendet, bei denen für die Schätzung des Geräuschpegels eines Signals der in einem Kurzzeitintervall gemittelte Wert des Signals (SAM = short average magnitude) verwendet wird.

Bei anderen Verfahren wird in längeren Zeitintervallen der sogenannte MAM(= medium average magnitude)-Wert eines Eingangssignales gemessen. Um ein verlässliches Resultat der Schätzung zu erreichen, sind Messzeiten bis zu 500 ms erforderlich. Oft spiegelt auch der MAM-Wert einen zu hohen Geräuschpegel im Vergleich mit dem tatsächlichen Geräuschpegel vor.

Allgemein ist der Wert des Geräuschpegels eines Signals für viele Allgorithmen zur Signalbearbeitung als Schwellenwert oder Steuerwert von großer Bedeutung. Die Zuverlässigkeit und das zeitliche Verhalten eines Geräuschschätzers haben einen großen Einfluss auf die erreichbare Qualität eines Signalbearbeitungs-Allgorithmus. Dies gilt insbesondere auf dem Gebiet der Spracherkennung, um die Erkennungsrate zu verbessern, auf dem Gebiet der Echounterdrückung und für die Geräuschreduktion. Anwendungsgebiete für Geräuschschätzer sind beispielsweise Vermittlungsanlagen, Konferenzeinrichtungen, aber auch herkömmliche Telefone oder Handys.

Nachteilig bei bekannten Schätzverfahren ist das relativ langsame Verhalten bei der Mittelung im Geräuschschätzer. Gerade bei Sprachaktivität mit nur kurzen Sprachpausen in Zeiträumen von < 100 ms reicht oftmals die Zeit nicht aus, um den "Geräuschboden" zu erfassen.

Nach der ITU-T-Richtlinie G.168 werden sogenannte "composite signals" verwendet, die aus einer Folge von Signalbursts mit einer Pausenzeit von ca. 100 ms bestehen. Auch hier ist mit den bisher bekannten Verfahren keine exakte Geräuschschätzung möglich.

Ein weiteres Problem der Geräuschschwelle ist die bei erfolgreicher Sprachpegelschätzung durchgeführte Geräuschaktualisierung bei zeitlich sich ändernden Umweltbedingungen. Der geschätzte Geräuschwert schwankt somit in gewissen, manchmal relativ großen Grenzen.

Aufgabe der vorliegenden Erfindung ist es demgegenüber, ein Verfahren der eingangs beschriebenen Art mit möglichst einfachen Mitteln dahingehend weiterzubilden, dass eine möglichst exakte Ermittlung des aktuellen Geräuschpegels mit möglichst schnellen Adaptionszeiten erreicht wird, die erheblich geringer sind als bei bekannten Verfahren, und dass dazu ein möglichst geringer Rechenaufwand erforderlich ist.

Erfindungsgemäß wird diese Aufgabe auf ebenso überraschend einfache wie wirkungsvolle Art und Weise dadurch gelöst,
dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert n(x) für einen aktuellen Geräuschpegel n angenommen wird;
dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1 ms, vorzugsweise ts ≥ 3ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε unterschreiten; und
dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.

Mit dem erfindungsgemäßen Verfahren wird also jeweils in einem Kurzzeitintervall der Länge ts ein Maximumwert aus den Abtastwerten des Eingangssignals x(k) bestimmt und für die Abschätzung des aktuellen Geräuschpegels aus der Menge mehrerer hintereinander gefundener Maximumwerte jeweils das Minimum n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n herangezogen. Um bereits vor der ersten Messperiode einen Schätzwert n(x) bereitzustellen, wird ein Initialisierungswert n0 vorgegeben.

Falls die dynamischen Variationen des Eingangssignals, insbesondere hervorgerufen durch große Änderungen im Geräuschhintergrund, wie beispielsweise das Zuschlagen einer Tür, das Vorbeifahren eines Lastwagens etc. einen gewissen vorgebbaren Schwellwert ε überschreiten, wird das Schätzverfahren gewissermaßen "angehalten" und jeweils der letzte Schätzwert übernommen, bei dem die Dynamik des Eingangssignals x(k) unterhalb des vorgegebenen Schwellenwerts ε lag. Damit wird verhindert, dass erratische Schätzwerte auf Grund schneller Schwankungen im Signal zustandekommen. Das erfindungsgemäße Verfahren erreicht nämlich eine äußerst schnelle Adaption auf den aktuellen Geräuschpegel in Zeiträumen von etwa 10 ms, im Gegensatz zu den oben erwähnten bekannten Verfahren, die dazu Zeiten in der Größenordnung von 500 ms benötigen.

Es zeigt sich, dass mit dem erfindungsgemäßen Verfahren insbesondere auch eine korrekte Berechnung bei Anwendung der oben erwähnten G168 "composite signals" mit exakter Ermittlung des Geräuschpegels und sehr schnellen Adaptionszeiten bei äußerst geringem Rechenaufwand ermöglicht wird.

Besonders bevorzugt ist eine Ausführungsform des erfindungsgemäßen Verfahrens, bei der das Zeitintervall ts = 1/fug gewählt wird, wobei fug die untere Grenzfrequenz des übertragenden TK-Systems ist. Damit kann dem Hüllkurvenverlauf der Eingangssignale optimal gefolgt werden.

Insbesondere sollte die zeitliche Länge ts jeweils so gewählt werden, dass eine Adaption von niederfrequenten Signalen im Bereich < 100 Hz ausgeschlossen wird. Üblicherweise liegen die unteren Grenzfrequenzen in einem Bereich fug ≤ 500 Hz. Bei üblichen Telefoniesystemen beispielsweise beträgt die untere Grenzfrequenz 330 Hz. Ein Wert von etwa 10 Hz als Untergrenze für die untere Grenzfrequenz fug entspricht dem Wert eines üblichen HiFi-Verstärkers und ist von daher vernünftig.

Vorteilhaft für die Durchführung des erfindungsgemäßen Verfahrens ist eine Variante, bei der als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems für die Signalübertragung innerhalb des TK-Systems gewählt wird.

Eine weitere vorteilhafte Variante des erfindungsgemäßen Verfahrens zeichnet sich dadurch aus, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen unteren Grenzwert n_min gesetzt wird, falls ein Wert n1(x) < n_min ermittelt wird. Dadurch werden Fehleinschätzungen auf einfache Weise zuverlässig verhindert und somit eine höhere Genauigkeit des Schätzwerts auf Grund der Bereichseinschränkung erzielt.

Dies gilt auch im Hinblick auf eine Obergrenze, die eingeführt werden sollte, um eine verzerrungsfreie Signalübertragung zu gewährleisten. Entsprechend ist bei einer weiteren Variante des erfindungsgemäßen Verfahrens vorgesehen, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen oberen Grenzwert n_max gesetzt wird, falls ein Wert n1(x) > n_max ermittelt wird.

Besonders bevorzugt ist eine Weiterbildung dieser Verfahrensvariante, bei der der obere Grenzwert n_max kleiner oder gleich dem Initialisierungswert n0 gewählt wird, vorzugsweise n_max ≤ n0 - 16dB. Für eine lineare, verzerrungsfreie Signalübertragung im betreffenden TK-System ist dieser obere Grenzwert durch die statistisch ermittelte Sprachdynamik menschlicher Sprache vorgegeben.

Eine weitere vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens sieht vor, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x) eingehen. Die Mehrzahl der tatsächlichen Pegelwerte liegt nämlich tatsächlich unterhalb des jeweils ermittelten Maximumwerts innerhalb des betreffenden Kurzzeitintervalls.

Wird der Skalierungsfaktor S ≅ 0,5 gewählt, so entspricht dies in etwa der Lage des Maximalwerts einer statistischen Verteilung, beispielsweise einer Gauß-Verteilung der Abtastwerte im Verhältnis zur Lage des gefundenen maximalen Pegelwerts. Dadurch wird der wirkliche aktuelle Geräuschpegel n im Mittel erheblich besser getroffen als durch die Verwendung des unskalierten Maximumwertes.

Für Anwendungen des erfindungsgemäßen Verfahrens zur sicheren Sprach-Pausen-Detektion ist es vorteilhaft, wenn der Schätzwert n(x) als Maß für einen aktuell abgeschätzten Geräuschpegel mit einem Faktor D > 1 skaliert wird.

Durch Simulation wurden als günstigste Werte für den Faktor D anwendungsabhängig Werte im Bereich 2 ≤ D ≤ 5, vorzugsweise 3 ≤ D ≤ 4 gefunden. Damit ergibt sich übrigens ein Abstand von ca. 6 dB zwischen dem Sprachsignal und dem statistisch gemittelten Geräuschsignal, was allgemein als akzeptabler Störabstand gilt.

Besonders bevorzugt ist auch eine Ausführungsform des erfindungsgemäßen Verfahrens, bei der ein fester Schwellwert ε = const. eingestellt wird, vorzugsweise ε ≈ 12dB. Mit diesem durch Simulationen gewonnenen Wert lassen sich die meisten praktischen Anwendungsfälle gut abdecken.

Alternativ zur Einführung eines festen Schwellwertes ε kann bei einer anderen vorteilhaften Verfahrensvariante der Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels des Eingangssignals x(k) verändert werden. Damit lässt sich eine optimale und äußerst schnelle Aktualisierung und Anpassung des geschätzten Pegelwertes an die tatsächlichen Geräuschverhältnisse erreichen.

Vorteilhafterweise kann bei einer Weiterbildung dieser Verfahrensvariante für den adaptiv zu ermittelnden Schwellwert ε(x) ein Startwert ε0 = 12dB gewählt werden, wie er bei der oben beschriebenen alternativen Verfahrensvariante als unveränderlicher Festwert vorgeschlagen wird.

In den Rahmen der vorliegenden Erfindung fällt auch eine Servereineit, eine Prozessor-Baugruppe sowie eine Gate-Array-Baugruppe zur Unterstützung des oben beschriebenen erfindungsgemäßen Verfahrens sowie ein Computerprogramm zur Durchführung des Verfahrens. Das Verfahren kann sowohl als Hardwareschaltung, als auch in Form eines Computerprogramms realisiert werden. Heutzutage wird eine Software-Programmierung für leistungsstarke DSP's bevorzugt, da neue Erkenntnisse und Zusatzfunktionen leichter durch eine Veränderung der Software auf bestehender Hardwarebasis implementierbar sind. Verfahren können aber auch als Hardwarebausteine beispielsweise in IP- oder TK-Endgeräten oder herkömmlichen Telefonanlagen implementiert werden.

Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der Zeichnung. Ebenso können die vorstehend genannten und die noch weiter aufgeführten Merkmale erfindungsgemäß jeweils einzeln für sich oder zu mehreren in beliebigen Kombinationen Verwendung finden. Die gezeigten und beschriebenen Ausführungsformen sind nicht als abschließende Aufzählung zu verstehen, sondern haben vielmehr beispielhaften Charakter für die Schilderung der Erfindung.

Die Erfindung ist in der Zeichnung dargestellt und wird anhand von Ausführungsbeispielen näher erläutert.

Die Figur zeigt ein stark schematisiertes Prinzipbild der Funktionsweise einer Schätzeinrichtung zur Durchführung des erfindungsgemäßen Verfahrens.

Ausgehend von einem Initialisierungswert n0 wird in einem ersten Kurzzeitintervall der zeitlichen Länge ts ≥ 1 ms aus einem abgetasteten Eingangssignal x(k) ein erster geschätzter Wert n1(x) für den Geräuschpegel n, der aus einem Nutzsignal im Eingangssignal x(k) überlagerten Hintergrundgeräusches gemäß folgender Gleichung berechnet:

Dabei ist K = fs/fug der Quotient aus der Abtastfrequenz des abgetasteten Eingangssignales x(k) und der unteren Grenzfrequenz fug des übertragenden TK-Systems. Die Länge des Kurzzeitintervalls ergibt sich zu ts = 1/fug. Damit wird über den Laufindex k das kleinste Zeitintervall dargestellt, das beobachtet werden muss, um nicht auf niederfrequente Signale zu adaptieren.

Der Wert n1(x) wird also aus dem Minimum eines vorhergehenden Wertes n1(x) bzw. einem Initialisierungswert n0 und des Maximumwertes der mit einem Skalierungsfaktor S ≈ 0,5 skalierten Beträge des Eingangssignals x(k) im Intervall k = 0 bis k = K gewonnen.

Für den Fall, dass Sprachaktivität im Eingangssignal x(k) vorliegt, wird als Wert n1(x) ein vom Sprachpegel abhängiger Wert angenommen, da ja der Sprachpegel lauter ist als das Geräusch. Akzeptabel ist beispielsweise ein Störabstand von 6 dB.

Der so gefundene Wert n1(x) ändert sich zwar noch mit der Sprache, reagiert aber auf Geräuschreduktion und während Sprachpausen mit extrem kurzer Adaptionszeit.

Als eigentlicher Schätzwert n(x) für den aktuellen Geräuschpegel n wird der oben beschriebene Wert n1(x) nur dann übernommen, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellenwert ε unterschreiten, wenn also gilt, dx(i) ... dx(i-ts) < ε

Diese Bedingung kontrolliert dynamische Pegelschwankungen des zu untersuchenden Signals. Beispielsweise mit einem Wert ε = 12 dB wird eine Aktualisierung des Geräuschsignals bei Pegelschwankungen > 12 dB verhindert. In diesem Falle wird einfach der vorhergehende Schätzwert unverändert für den aktuellen Geräuschpegel n übernommen. Dies ist beispielsweise dann der Fall, wenn sich das Hintergrundgeräusch schlagartig erhöht oder absenkt, so dass der Sprachpegelschätzer aktiv werden muss. Damit kann ausgeschlossen werden, dass Geräusch- oder Sprachspitzen den Schätzwert n(x) in erratischer Weise in kurzen Zeitabständen verändern.

Die oben beschriebenen dynamischen Pegelschwankungen dx(i) können beispielsweise aus der Differenz sukzessive aufeinanderfolgender Kurzzeitmittelwerte sam(i) ermittelt werden gemäß dx(i) = sam(i) - sam(i-1)

Falls nun die Hüllkurve der eingehenden Eingangssignale x(i) "stabil" ist, also mit an Sicherheit grenzender Wahrscheinlichkeit keine Sprachsignale vorliegen, können die aktuellen Pegelwerte direkt dem Hintergrundgeräusch zugeordnet werden. Andernfalls, wenn die Hüllkurve "wackelt", liegt mit großer Wahrscheinlichkeit Sprache, also überwiegendes Nutzsignal im Eingangssignal x(i) vor, so dass die Spitzen des Eingangssignals nicht für die Abschätzung des Geräuschhintergrunds verwendet werden können. In diesem Fall muss dann, wie oben beschrieben, aus dem Sprachsignal selbst ein skalierter Geräuschwert gewonnen werden.

Die Zeichnung zeigt nun diesen Vorgang in schematisierter Weise, insbesondere die Maximumbildung aus dem Eingangssignal x(k), die Skalierung mit einem Skalierungsfaktor S und die Minimumbildung zur Gewinnung des Wertes n1(x), die Übernahme dieses Wertes in Abhängigkeit von einem Sprach-Pausen-Detektor (SPD), dessen Ausgangswert gegebenenfalls mit einem anwendungsabhängigen Faktor D skaliert wird, sowie die Schwellwertabschätzung der dynamischen Variationen des Eingangssignals x(k), die im dargestellten Beispiel aus der zeitlichen Änderung des Kurzzeitmittelwerts dsam(x)/dt gewonnen werden.

Als Ausgangssignal dieses Verfahrens ergibt sich dann der gewünschte aktualisierte Schätzwert n(x) für einen tatsächlichen Geräuschpegel n.

Claims

Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines Hintergrundgeräusches, das einem über ein Telekommunikations (=TK)-System übertragenen akustischen Nutzsignal, insbesondere einem menschlichen Sprachsignal überlagert ist,
dadurch gekennzeichnet, dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert n(x) für einen aktuellen Geräuschpegel n angenommen wird;
dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1ms, vorzugsweise ts ≥ 3ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε unterschreiten;
und dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ts = 1/fug, wobei fug die untere Grenzfrequenz des übertragenden TK-Systems ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass fug ≤ 500Hz, vorzugsweise fug ≤ 330Hz und fug ≥ 10Hz.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems für die Signalübertragung innerhalb des TK-Systems gewählt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen unteren Grenzwert n_min gesetzt wird, falls ein Wert n1(x) < n_min ermittelt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen oberen Grenzwert n_max gesetzt wird, falls ein Wert n1(x) > n_max ermittelt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x) eingehen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels des Eingangssignals x(k) verändert wird.
Prozessorbaugruppe, insbesondere digitaler Signalprozessor (=DSP) zur Unterstützung des Verfahrens nach einem der vorhergehenden Ansprüche.
Programmierbare Gate-Array-Baugruppe zur Unterstützung des Verfahrens nach einem der Ansprüche 1 bis 8.