EP1202253A2 - Adaptiver Geräuschpegelschätzer - Google Patents

Adaptiver Geräuschpegelschätzer Download PDF

Info

Publication number
EP1202253A2
EP1202253A2 EP01440295A EP01440295A EP1202253A2 EP 1202253 A2 EP1202253 A2 EP 1202253A2 EP 01440295 A EP01440295 A EP 01440295A EP 01440295 A EP01440295 A EP 01440295A EP 1202253 A2 EP1202253 A2 EP 1202253A2
Authority
EP
European Patent Office
Prior art keywords
value
input signal
noise level
determined
estimate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP01440295A
Other languages
English (en)
French (fr)
Other versions
EP1202253B1 (de
EP1202253A3 (de
Inventor
Michael Walker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Nokia Inc
Original Assignee
Alcatel SA
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel SA, Nokia Inc filed Critical Alcatel SA
Publication of EP1202253A2 publication Critical patent/EP1202253A2/de
Publication of EP1202253A3 publication Critical patent/EP1202253A3/de
Application granted granted Critical
Publication of EP1202253B1 publication Critical patent/EP1202253B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the MAM value often also reflects a too high one Noise level compared to the actual noise level.
  • noise estimators In general, the value of a signal's noise level is common to many all algorithms of great importance for signal processing as a threshold or control value. The reliability and temporal behavior of a noise estimator have a great influence on the achievable quality of a signal processing algorithm. This is especially true in the field of speech recognition, to improve the detection rate in the field of echo cancellation and for noise reduction. Areas of application for noise estimators are, for example, switching systems, conference facilities, but also conventional telephones or cell phones.
  • a disadvantage of known estimation methods is the relatively slow behavior the averaging in the noise estimator. Especially with speech activity with only short ones Speech breaks in periods of ⁇ 100 ms are often not enough time to to capture the "noise floor”.
  • noise threshold Another problem with the noise threshold is that of successful speech level estimation performed noise update in the event of changes in time Environmental conditions.
  • the estimated noise level thus fluctuates in certain, sometimes relatively large limits.
  • the object of the present invention is a method of kind described above with the simplest possible means to further develop the most exact possible determination of the current noise level is achieved with the fastest possible adaptation times, which is considerable are lower than in known methods, and in addition that is as low as possible Computational effort is required.
  • a short-term interval length ts is a maximum value from the samples of the input signal x (k) determined and for the estimation of the current noise level from the set of several maximum values found one after the other Minimum n1 (x) is used as an estimate n (x) for the current noise level n.
  • an initialization value n0 is specified.
  • the time length ts should in each case be chosen such that a Adaptation of low-frequency signals in the range ⁇ 100 Hz excluded becomes.
  • the lower limit frequencies are usually in a range fug ⁇ 500 Hz.
  • the lower is Cutoff frequency 330 Hz.
  • a value of around 10 Hz as the lower limit for the lower Cut-off frequency fug corresponds to the value of a conventional hi-fi amplifier and is therefore reasonable.
  • n1 (x) is set to a predeterminable or fixed lower limit value n min for determining the estimated value n (x) if a value n1 (x) ⁇ n min is determined.
  • the value n1 (x) is set to a predefinable or fixed upper limit value n max for determining the estimated value n (x) if a value n1 (x)> n max is determined becomes.
  • n max is chosen to be less than or equal to the initialization value n0, preferably n max n n0 -16dB.
  • this upper limit is predetermined by the statistically determined speech dynamics of human speech.
  • Another advantageous embodiment of the method according to the invention provides that the maximum values found within the short-term intervals of the input signal x (k) multiplied by a scaling factor S ⁇ 1 in the Determine the value n1 (x). The majority of the actual level values is actually below the maximum value determined in each case within the relevant short-term interval.
  • the scaling factor S ⁇ 0.5 corresponds approximately to the position the maximum value of a statistical distribution, for example a Gaussian distribution of the samples in relation to the location of the maximum found Level value. This will average the actual current noise level n hit much better than by using the unscaled Maximum value.
  • n (x) is a measure of one currently estimated noise level is scaled by a factor D> 1.
  • ⁇ (x) adaptive with the Roughness of the level of the input signal x (k) can be changed. With that leaves an optimal and extremely fast update and adjustment of the reach the estimated level value to the actual noise conditions.
  • a server unit also falls within the scope of the present invention Processor assembly and a gate array assembly to support the The inventive method described above and a computer program to carry out the procedure.
  • the method can be used as a hardware circuit, as well as in the form of a computer program.
  • software programming for powerful DSP's preferred because new insights and additional functions are easier through a Software changes can be implemented on existing hardware basis are.
  • methods can also be used as hardware modules, for example in IP or TK terminals or conventional telephone systems implemented become.
  • the invention is shown in the drawing and is based on exemplary embodiments explained in more detail.
  • the figure shows a highly schematic principle diagram of how a Estimating device for carrying out the method according to the invention.
  • a sampled input signal x (k) becomes a first estimated value n1 (x) for the noise level n, the background noise superimposed on a useful signal in the input signal x (k), in a first short-term interval of time length ts ⁇ 1 ms calculated according to the following equation:
  • K fs / fug is the quotient of the sampling frequency of the sampled input signal x (k) and the lower cut-off frequency of the transmitting telecommunications system.
  • n1 (x) assumes a value dependent on the speech level, since the Speech level is louder than the noise. For example, a is acceptable S / N ratio of 6 dB.
  • n1 (x) found in this way still changes with the language, responds but on noise reduction and during speech breaks with extremely short Adaptation time.
  • n1 (x) is only adopted as the actual estimate n (x) for the current noise level n if the dynamic variations of the input signal x (k) fall below a predeterminable threshold value ⁇ , that is if dx (i) ... dx (i-ts) ⁇
  • the envelope of the incoming input signals x (i) is now "stable", that is with a probability bordering on certainty that there are no speech signals, can assign the current level values directly to the background noise become. Otherwise, if the envelope "wobbles", there is a high probability Speech, i.e. predominant useful signal in the input signal x (i) before, see above that the peaks of the input signal are not for the estimation of the background noise can be used. In this case, as above described, a scaled noise value is obtained from the speech signal itself become.
  • the drawing now shows this process in a schematic manner, in particular the maximum formation from the input signal x (k), the scaling with a Scaling factor S and the minimum formation for obtaining the value n1 (x), the acceptance of this value depending on a speech pause detector (SPD), the initial value of which may be based on an application-specific Factor D is scaled, as well as the threshold value estimation of the dynamic Variations of the input signal x (k) that in the example shown the temporal change in the short-term mean value dsam (x) / dt.
  • SPD speech pause detector

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Telephone Function (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

Ein Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines einem akustischen Nutzsignal überlagerten Hintergrundgeräusches ist dadurch gekennzeichnet, dass der Schätzwert n(x) für ein abgetastetes Eingangssignal x(k) als ein Wert n1 (x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls ts ≥ 1ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird; dass der Wert n1 (x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen Schwellwert ε unterschreiten; und dass anderenfalls der im vorhergehenden Schritt ermittelte Schätzwert ungeändert als neuer Schätzwert n(x) übernommen wird. Damit kann eine äußerst exakte Ermittlung des aktuellen Geräuschpegels mit sehr schnellen Adaptionszeiten erreicht werden, die erheblich geringer sind als bei bekannten Verfahren, wobei nur ein relativ geringer Rechenaufwand erforderlich ist.

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines Hintergrundgeräusches, das einem über ein Telekommunikations (=TK)-System übertragenen akustischen Nutzsignal, insbesondere einem menschlichen Sprachsignal überlagert ist. Weiter betrifft die Erfindung auch Computerprogramme und Vorrichtungen zur Unterstützung und Durchführung eines derartigen Verfahrens, insbesondere geeignete Servereinheiten, Signalisierungseinrichtungen, Prozessorbaugruppen und programmierbare Gate-Array-Baugruppen.
Verfahren zur Geräuscheinschätzung von Hintergrundgeräuschen sind bekannt. Beispielsweise werden Geräuschschätzer verwendet, bei denen für die Schätzung des Geräuschpegels eines Signals der in einem Kurzzeitintervall gemittelte Wert des Signals (SAM = short average magnitude) verwendet wird.
Bei anderen Verfahren wird in längeren Zeitintervallen der sogenannte MAM(= medium average magnitude)-Wert eines Eingangssignales gemessen. Um ein verlässliches Resultat der Schätzung zu erreichen, sind Messzeiten bis zu 500 ms erforderlich. Oft spiegelt auch der MAM-Wert einen zu hohen Geräuschpegel im Vergleich mit dem tatsächlichen Geräuschpegel vor.
Allgemein ist der Wert des Geräuschpegels eines Signals für viele Allgorithmen zur Signalbearbeitung als Schwellenwert oder Steuerwert von großer Bedeutung. Die Zuverlässigkeit und das zeitliche Verhalten eines Geräuschschätzers haben einen großen Einfluss auf die erreichbare Qualität eines Signalbearbeitungs-Allgorithmus. Dies gilt insbesondere auf dem Gebiet der Spracherkennung, um die Erkennungsrate zu verbessern, auf dem Gebiet der Echounterdrückung und für die Geräuschreduktion. Anwendungsgebiete für Geräuschschätzer sind beispielsweise Vermittlungsanlagen, Konferenzeinrichtungen, aber auch herkömmliche Telefone oder Handys.
Nachteilig bei bekannten Schätzverfahren ist das relativ langsame Verhalten bei der Mittelung im Geräuschschätzer. Gerade bei Sprachaktivität mit nur kurzen Sprachpausen in Zeiträumen von < 100 ms reicht oftmals die Zeit nicht aus, um den "Geräuschboden" zu erfassen.
Nach der ITU-T-Richtlinie G.168 werden sogenannte "composite signals" verwendet, die aus einer Folge von Signalbursts mit einer Pausenzeit von ca. 100 ms bestehen. Auch hier ist mit den bisher bekannten Verfahren keine exakte Geräuschschätzung möglich.
Ein weiteres Problem der Geräuschschwelle ist die bei erfolgreicher Sprachpegelschätzung durchgeführte Geräuschaktualisierung bei zeitlich sich ändernden Umweltbedingungen. Der geschätzte Geräuschwert schwankt somit in gewissen, manchmal relativ großen Grenzen.
Aufgabe der vorliegenden Erfindung ist es demgegenüber, ein Verfahren der eingangs beschriebenen Art mit möglichst einfachen Mitteln dahingehend weiterzubilden, dass eine möglichst exakte Ermittlung des aktuellen Geräuschpegels mit möglichst schnellen Adaptionszeiten erreicht wird, die erheblich geringer sind als bei bekannten Verfahren, und dass dazu ein möglichst geringer Rechenaufwand erforderlich ist.
Erfindungsgemäß wird diese Aufgabe auf ebenso überraschend einfache wie wirkungsvolle Art und Weise dadurch gelöst,
dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert n(x) für einen aktuellen Geräuschpegel n angenommen wird;
dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1 ms, vorzugsweise ts ≥ 3ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε unterschreiten; und
dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.
Mit dem erfindungsgemäßen Verfahren wird also jeweils in einem Kurzzeitintervall der Länge ts ein Maximumwert aus den Abtastwerten des Eingangssignals x(k) bestimmt und für die Abschätzung des aktuellen Geräuschpegels aus der Menge mehrerer hintereinander gefundener Maximumwerte jeweils das Minimum n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n herangezogen. Um bereits vor der ersten Messperiode einen Schätzwert n(x) bereitzustellen, wird ein Initialisierungswert n0 vorgegeben.
Falls die dynamischen Variationen des Eingangssignals, insbesondere hervorgerufen durch große Änderungen im Geräuschhintergrund, wie beispielsweise das Zuschlagen einer Tür, das Vorbeifahren eines Lastwagens etc. einen gewissen vorgebbaren Schwellwert ε überschreiten, wird das Schätzverfahren gewissermaßen "angehalten" und jeweils der letzte Schätzwert übernommen, bei dem die Dynamik des Eingangssignals x(k) unterhalb des vorgegebenen Schwellenwerts ε lag. Damit wird verhindert, dass erratische Schätzwerte auf Grund schneller Schwankungen im Signal zustandekommen. Das erfindungsgemäße Verfahren erreicht nämlich eine äußerst schnelle Adaption auf den aktuellen Geräuschpegel in Zeiträumen von etwa 10 ms, im Gegensatz zu den oben erwähnten bekannten Verfahren, die dazu Zeiten in der Größenordnung von 500 ms benötigen.
Es zeigt sich, dass mit dem erfindungsgemäßen Verfahren insbesondere auch eine korrekte Berechnung bei Anwendung der oben erwähnten G168 "composite signals" mit exakter Ermittlung des Geräuschpegels und sehr schnellen Adaptionszeiten bei äußerst geringem Rechenaufwand ermöglicht wird.
Besonders bevorzugt ist eine Ausführungsform des erfindungsgemäßen Verfahrens, bei der das Zeitintervall ts = 1/fug gewählt wird, wobei fug die untere Grenzfrequenz des übertragenden TK-Systems ist. Damit kann dem Hüllkurvenverlauf der Eingangssignale optimal gefolgt werden.
Insbesondere sollte die zeitliche Länge ts jeweils so gewählt werden, dass eine Adaption von niederfrequenten Signalen im Bereich < 100 Hz ausgeschlossen wird. Üblicherweise liegen die unteren Grenzfrequenzen in einem Bereich fug ≤ 500 Hz. Bei üblichen Telefoniesystemen beispielsweise beträgt die untere Grenzfrequenz 330 Hz. Ein Wert von etwa 10 Hz als Untergrenze für die untere Grenzfrequenz fug entspricht dem Wert eines üblichen HiFi-Verstärkers und ist von daher vernünftig.
Vorteilhaft für die Durchführung des erfindungsgemäßen Verfahrens ist eine Variante, bei der als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems für die Signalübertragung innerhalb des TK-Systems gewählt wird.
Eine weitere vorteilhafte Variante des erfindungsgemäßen Verfahrens zeichnet sich dadurch aus, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen unteren Grenzwert nmin gesetzt wird, falls ein Wert n1(x) < nmin ermittelt wird. Dadurch werden Fehleinschätzungen auf einfache Weise zuverlässig verhindert und somit eine höhere Genauigkeit des Schätzwerts auf Grund der Bereichseinschränkung erzielt.
Dies gilt auch im Hinblick auf eine Obergrenze, die eingeführt werden sollte, um eine verzerrungsfreie Signalübertragung zu gewährleisten. Entsprechend ist bei einer weiteren Variante des erfindungsgemäßen Verfahrens vorgesehen, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen oberen Grenzwert nmax gesetzt wird, falls ein Wert n1(x) > nmax ermittelt wird.
Besonders bevorzugt ist eine Weiterbildung dieser Verfahrensvariante, bei der der obere Grenzwert nmax kleiner oder gleich dem Initialisierungswert n0 gewählt wird, vorzugsweise nmax ≤ n0 - 16dB. Für eine lineare, verzerrungsfreie Signalübertragung im betreffenden TK-System ist dieser obere Grenzwert durch die statistisch ermittelte Sprachdynamik menschlicher Sprache vorgegeben.
Eine weitere vorteilhafte Ausführungsform des erfindungsgemäßen Verfahrens sieht vor, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x) eingehen. Die Mehrzahl der tatsächlichen Pegelwerte liegt nämlich tatsächlich unterhalb des jeweils ermittelten Maximumwerts innerhalb des betreffenden Kurzzeitintervalls.
Wird der Skalierungsfaktor S ≅ 0,5 gewählt, so entspricht dies in etwa der Lage des Maximalwerts einer statistischen Verteilung, beispielsweise einer Gauß-Verteilung der Abtastwerte im Verhältnis zur Lage des gefundenen maximalen Pegelwerts. Dadurch wird der wirkliche aktuelle Geräuschpegel n im Mittel erheblich besser getroffen als durch die Verwendung des unskalierten Maximumwertes.
Für Anwendungen des erfindungsgemäßen Verfahrens zur sicheren Sprach-Pausen-Detektion ist es vorteilhaft, wenn der Schätzwert n(x) als Maß für einen aktuell abgeschätzten Geräuschpegel mit einem Faktor D > 1 skaliert wird.
Durch Simulation wurden als günstigste Werte für den Faktor D anwendungsabhängig Werte im Bereich 2 ≤ D ≤ 5, vorzugsweise 3 ≤ D ≤ 4 gefunden. Damit ergibt sich übrigens ein Abstand von ca. 6 dB zwischen dem Sprachsignal und dem statistisch gemittelten Geräuschsignal, was allgemein als akzeptabler Störabstand gilt.
Besonders bevorzugt ist auch eine Ausführungsform des erfindungsgemäßen Verfahrens, bei der ein fester Schwellwert ε = const. eingestellt wird, vorzugsweise ε ≈ 12dB. Mit diesem durch Simulationen gewonnenen Wert lassen sich die meisten praktischen Anwendungsfälle gut abdecken.
Alternativ zur Einführung eines festen Schwellwertes ε kann bei einer anderen vorteilhaften Verfahrensvariante der Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels des Eingangssignals x(k) verändert werden. Damit lässt sich eine optimale und äußerst schnelle Aktualisierung und Anpassung des geschätzten Pegelwertes an die tatsächlichen Geräuschverhältnisse erreichen.
Vorteilhafterweise kann bei einer Weiterbildung dieser Verfahrensvariante für den adaptiv zu ermittelnden Schwellwert ε(x) ein Startwert ε0 = 12dB gewählt werden, wie er bei der oben beschriebenen alternativen Verfahrensvariante als unveränderlicher Festwert vorgeschlagen wird.
In den Rahmen der vorliegenden Erfindung fällt auch eine Servereineit, eine Prozessor-Baugruppe sowie eine Gate-Array-Baugruppe zur Unterstützung des oben beschriebenen erfindungsgemäßen Verfahrens sowie ein Computerprogramm zur Durchführung des Verfahrens. Das Verfahren kann sowohl als Hardwareschaltung, als auch in Form eines Computerprogramms realisiert werden. Heutzutage wird eine Software-Programmierung für leistungsstarke DSP's bevorzugt, da neue Erkenntnisse und Zusatzfunktionen leichter durch eine Veränderung der Software auf bestehender Hardwarebasis implementierbar sind. Verfahren können aber auch als Hardwarebausteine beispielsweise in IP- oder TK-Endgeräten oder herkömmlichen Telefonanlagen implementiert werden.
Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der Zeichnung. Ebenso können die vorstehend genannten und die noch weiter aufgeführten Merkmale erfindungsgemäß jeweils einzeln für sich oder zu mehreren in beliebigen Kombinationen Verwendung finden. Die gezeigten und beschriebenen Ausführungsformen sind nicht als abschließende Aufzählung zu verstehen, sondern haben vielmehr beispielhaften Charakter für die Schilderung der Erfindung.
Die Erfindung ist in der Zeichnung dargestellt und wird anhand von Ausführungsbeispielen näher erläutert.
Die Figur zeigt ein stark schematisiertes Prinzipbild der Funktionsweise einer Schätzeinrichtung zur Durchführung des erfindungsgemäßen Verfahrens.
Ausgehend von einem Initialisierungswert n0 wird in einem ersten Kurzzeitintervall der zeitlichen Länge ts ≥ 1 ms aus einem abgetasteten Eingangssignal x(k) ein erster geschätzter Wert n1(x) für den Geräuschpegel n, der aus einem Nutzsignal im Eingangssignal x(k) überlagerten Hintergrundgeräusches gemäß folgender Gleichung berechnet:
Figure 00080001
Dabei ist K = fs/fug der Quotient aus der Abtastfrequenz des abgetasteten Eingangssignales x(k) und der unteren Grenzfrequenz fug des übertragenden TK-Systems. Die Länge des Kurzzeitintervalls ergibt sich zu ts = 1/fug. Damit wird über den Laufindex k das kleinste Zeitintervall dargestellt, das beobachtet werden muss, um nicht auf niederfrequente Signale zu adaptieren.
Der Wert n1(x) wird also aus dem Minimum eines vorhergehenden Wertes n1(x) bzw. einem Initialisierungswert n0 und des Maximumwertes der mit einem Skalierungsfaktor S ≈ 0,5 skalierten Beträge des Eingangssignals x(k) im Intervall k = 0 bis k = K gewonnen.
Für den Fall, dass Sprachaktivität im Eingangssignal x(k) vorliegt, wird als Wert n1(x) ein vom Sprachpegel abhängiger Wert angenommen, da ja der Sprachpegel lauter ist als das Geräusch. Akzeptabel ist beispielsweise ein Störabstand von 6 dB.
Der so gefundene Wert n1(x) ändert sich zwar noch mit der Sprache, reagiert aber auf Geräuschreduktion und während Sprachpausen mit extrem kurzer Adaptionszeit.
Als eigentlicher Schätzwert n(x) für den aktuellen Geräuschpegel n wird der oben beschriebene Wert n1(x) nur dann übernommen, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellenwert ε unterschreiten, wenn also gilt, dx(i) ... dx(i-ts) < ε
Diese Bedingung kontrolliert dynamische Pegelschwankungen des zu untersuchenden Signals. Beispielsweise mit einem Wert ε = 12 dB wird eine Aktualisierung des Geräuschsignals bei Pegelschwankungen > 12 dB verhindert. In diesem Falle wird einfach der vorhergehende Schätzwert unverändert für den aktuellen Geräuschpegel n übernommen. Dies ist beispielsweise dann der Fall, wenn sich das Hintergrundgeräusch schlagartig erhöht oder absenkt, so dass der Sprachpegelschätzer aktiv werden muss. Damit kann ausgeschlossen werden, dass Geräusch- oder Sprachspitzen den Schätzwert n(x) in erratischer Weise in kurzen Zeitabständen verändern.
Die oben beschriebenen dynamischen Pegelschwankungen dx(i) können beispielsweise aus der Differenz sukzessive aufeinanderfolgender Kurzzeitmittelwerte sam(i) ermittelt werden gemäß dx(i) = sam(i) - sam(i-1)
Falls nun die Hüllkurve der eingehenden Eingangssignale x(i) "stabil" ist, also mit an Sicherheit grenzender Wahrscheinlichkeit keine Sprachsignale vorliegen, können die aktuellen Pegelwerte direkt dem Hintergrundgeräusch zugeordnet werden. Andernfalls, wenn die Hüllkurve "wackelt", liegt mit großer Wahrscheinlichkeit Sprache, also überwiegendes Nutzsignal im Eingangssignal x(i) vor, so dass die Spitzen des Eingangssignals nicht für die Abschätzung des Geräuschhintergrunds verwendet werden können. In diesem Fall muss dann, wie oben beschrieben, aus dem Sprachsignal selbst ein skalierter Geräuschwert gewonnen werden.
Die Zeichnung zeigt nun diesen Vorgang in schematisierter Weise, insbesondere die Maximumbildung aus dem Eingangssignal x(k), die Skalierung mit einem Skalierungsfaktor S und die Minimumbildung zur Gewinnung des Wertes n1(x), die Übernahme dieses Wertes in Abhängigkeit von einem Sprach-Pausen-Detektor (SPD), dessen Ausgangswert gegebenenfalls mit einem anwendungsabhängigen Faktor D skaliert wird, sowie die Schwellwertabschätzung der dynamischen Variationen des Eingangssignals x(k), die im dargestellten Beispiel aus der zeitlichen Änderung des Kurzzeitmittelwerts dsam(x)/dt gewonnen werden.
Als Ausgangssignal dieses Verfahrens ergibt sich dann der gewünschte aktualisierte Schätzwert n(x) für einen tatsächlichen Geräuschpegel n.

Claims (10)

  1. Verfahren zur Ermittlung eines Schätzwerts für den Geräuschpegel n eines Hintergrundgeräusches, das einem über ein Telekommunikations (=TK)-System übertragenen akustischen Nutzsignal, insbesondere einem menschlichen Sprachsignal überlagert ist,
    dadurch gekennzeichnet, dass in einem ersten Schritt ein vorgebbarer Initialisierungswert n0 als Schätzwert n(x) für einen aktuellen Geräuschpegel n angenommen wird;
    dass im nächsten und ggf. in weiteren Schritten der Schätzwert n(x) des Geräuschpegels n für ein in vorzugsweise äquidistanten Zeitschritten T jeweils zu Zeitpunkten k mit einer Abtastfrequenz fs = 1/T abgetastetes Eingangssignal x(k) als ein Wert n1(x) bestimmt wird, der durch den Minimalwert aus der Menge aller sukzessive jeweils innerhalb eines Kurzzeitintervalls mit einer zeitlichen Länge ts ≥ 1ms, vorzugsweise ts ≥ 3ms gefundenen Maximumwerte des Eingangssignals x(k) ermittelt wird;
    dass der Wert n1(x) als Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε unterschreiten;
    und dass der im vorhergehenden Schritt ermittelte Schätzwert n(x) ungeändert als neuer Schätzwert n(x) für den aktuellen Geräuschpegel n übernommen wird, wenn die dynamischen Variationen des Eingangssignals x(k) einen vorgebbaren Schwellwert ε überschreiten.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ts = 1/fug, wobei fug die untere Grenzfrequenz des übertragenden TK-Systems ist.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass fug ≤ 500Hz, vorzugsweise fug ≤ 330Hz und fug ≥ 10Hz.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Initialisierungswert n0 der maximal darstellbare Wert des Zielsystems für die Signalübertragung innerhalb des TK-Systems gewählt wird.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen unteren Grenzwert nmin gesetzt wird, falls ein Wert n1(x) < nmin ermittelt wird.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Bestimmung des Schätzwerts n(x) der Wert n1(x) auf einen vorgebbaren oder festen oberen Grenzwert nmax gesetzt wird, falls ein Wert n1(x) > nmax ermittelt wird.
  7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die innerhalb der Kurzzeitintervalle gefundenen Maximumwerte des Eingangssignals x(k) mit einem Skalierungsfaktor S < 1 multipliziert in die Ermittlung des Werts n1(x) eingehen.
  8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Schwellwert ε = ε(x) adaptiv mit der Rauhigkeit des Pegels des Eingangssignals x(k) verändert wird.
  9. Prozessorbaugruppe, insbesondere digitaler Signalprozessor (=DSP) zur Unterstützung des Verfahrens nach einem der vorhergehenden Ansprüche.
  10. Programmierbare Gate-Array-Baugruppe zur Unterstützung des Verfahrens nach einem der Ansprüche 1 bis 8.
EP01440295A 2000-10-24 2001-09-12 Adaptiver Geräuschpegelschätzer Expired - Lifetime EP1202253B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10052626A DE10052626A1 (de) 2000-10-24 2000-10-24 Adaptiver Geräuschpegelschätzer
DE10052626 2000-10-24

Publications (3)

Publication Number Publication Date
EP1202253A2 true EP1202253A2 (de) 2002-05-02
EP1202253A3 EP1202253A3 (de) 2004-01-02
EP1202253B1 EP1202253B1 (de) 2005-04-20

Family

ID=7660840

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01440295A Expired - Lifetime EP1202253B1 (de) 2000-10-24 2001-09-12 Adaptiver Geräuschpegelschätzer

Country Status (5)

Country Link
US (1) US6842526B2 (de)
EP (1) EP1202253B1 (de)
JP (1) JP2002198918A (de)
AT (1) ATE293828T1 (de)
DE (2) DE10052626A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220319532A1 (en) * 2019-08-30 2022-10-06 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
US20050226442A1 (en) * 2004-04-12 2005-10-13 Landon Michael D Method and apparatus for achieving temporal volume control
JP4551817B2 (ja) * 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
US8275153B2 (en) * 2007-04-16 2012-09-25 Evertz Microsystems Ltd. System and method for generating an audio gain control signal
US8894316B2 (en) * 2009-07-22 2014-11-25 Music Express, Llc Adjustable joint for microphone
CN103238180A (zh) * 2010-11-25 2013-08-07 日本电气株式会社 信号处理设备、信号处理方法及信号处理程序
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3855423A (en) * 1973-05-03 1974-12-17 Bell Telephone Labor Inc Noise spectrum equalizer
US4000369A (en) * 1974-12-05 1976-12-28 Rockwell International Corporation Analog signal channel equalization with signal-in-noise embodiment
DE3243232A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
WO1989008910A1 (en) * 1988-03-11 1989-09-21 British Telecommunications Public Limited Company Voice activity detection
WO1992015986A1 (en) * 1991-03-05 1992-09-17 Picturetel Corporation Variable bit rate speech encoder
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220319532A1 (en) * 2019-08-30 2022-10-06 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception
US12080317B2 (en) * 2019-08-30 2024-09-03 Dolby Laboratories Licensing Corporation Pre-conditioning audio for echo cancellation in machine perception

Also Published As

Publication number Publication date
EP1202253B1 (de) 2005-04-20
DE50105947D1 (de) 2005-05-25
ATE293828T1 (de) 2005-05-15
EP1202253A3 (de) 2004-01-02
JP2002198918A (ja) 2002-07-12
US20020064288A1 (en) 2002-05-30
US6842526B2 (en) 2005-01-11
DE10052626A1 (de) 2002-05-02

Similar Documents

Publication Publication Date Title
EP0742664B1 (de) Freisprechverfahren für ein mehrkanaliges Übertragungssystem
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
EP0698986A2 (de) Verfahren zur adaptiven Echokompensation
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE69937613T2 (de) Verfahren und vorrichtung zur adaptiven signalverstärkungssteuerung in kommunikationssystemen
DE19939102C1 (de) Verfahren und Anordnung zum Erkennen von Sprache
EP1202253B1 (de) Adaptiver Geräuschpegelschätzer
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
EP3588498B1 (de) Verfahren zur unterdrückung eines akustischen nachhalls in einem audiosignal
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
EP1101390A1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
EP1382034A1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
EP1453355B1 (de) Signalverarbeitung in einem Hörgerät
EP1351550B1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
EP1005016A2 (de) Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
DE102022201943B4 (de) Verfahren zur Unterdrückung eines akustischen Nachhalls in einem Audiosignal
EP1104096A2 (de) An den aktuellen Geräuschpegel adaptierte Geräuschunterdrückung
DE10030926A1 (de) Störsignalabhängige adaptive Echounterdrückung
EP0334023A2 (de) Verfahren zur Erkennung von Sprachsignalen
DE10356063B4 (de) Verfahren zur Entstörung von Audiosignalen
EP0902416B1 (de) Verfahren und Einrichtung zum Erkennen einer Spracheingabe während einer Ansage

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

17P Request for examination filed

Effective date: 20031211

17Q First examination report despatched

Effective date: 20040302

AKX Designation fees paid

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20050420

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050420

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050420

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050420

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050420

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050420

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REF Corresponds to:

Ref document number: 50105947

Country of ref document: DE

Date of ref document: 20050525

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050720

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050720

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050720

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050731

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050912

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050912

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050920

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050930

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050930

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050930

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050930

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050930

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20060123

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20070921

Year of fee payment: 7

BERE Be: lapsed

Owner name: ALCATEL

Effective date: 20050930

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20070914

Year of fee payment: 7

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20070914

Year of fee payment: 7

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20080912

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20090529

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20090401

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080912