DE10016620A1 - Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present - Google Patents

Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present

Info

Publication number
DE10016620A1
DE10016620A1 DE2000116620 DE10016620A DE10016620A1 DE 10016620 A1 DE10016620 A1 DE 10016620A1 DE 2000116620 DE2000116620 DE 2000116620 DE 10016620 A DE10016620 A DE 10016620A DE 10016620 A1 DE10016620 A1 DE 10016620A1
Authority
DE
Germany
Prior art keywords
noise
component
weight factor
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2000116620
Other languages
German (de)
Inventor
Rainer Zelinski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE2000116620 priority Critical patent/DE10016620A1/en
Publication of DE10016620A1 publication Critical patent/DE10016620A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6008Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The method involves using an adaptive filter which is regulated by an electrical interference estimated value derived depending on the noise components. The interference estimated value is composed of estimated noise component multiplied by a weight factor. The weight factor is smaller when the voice component is present in the electrical signal.

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbe­ griff des Anspruchs 1.The invention relates to a method according to the Oberbe handle of claim 1.

In der Sprachkommunikation kann das vom Mikrofon auf­ genommene Sprachsignal durch ein akustisch überlager­ tes Geräuschsignal aus der Umgebung des Sprechers ge­ stört sein. Dies kann zu erheblichen Beeinträchtigun­ gen in der Sprachkommunikation führen, insbesondere wenn eine sehr laute Geräuschquelle vorliegt oder wenn Freisprecheinrichtungen eingesetzt werden. Wün­ schenswert ist ein Verfahren zur Geräuschreduktion, das aus dem gestörten Sprachsignal mittels einer adaptiven Geräuschfilterung ein gefiltertes Sprachsi­ gnal aufbereitet, das erheblich weniger Geräuschkom­ ponenten enthält.In voice communication, this can be done from the microphone voice signal taken by an acoustically superimposed tes noise signal from the surroundings of the speaker be bothered. This can have a significant adverse effect lead in voice communication, in particular if there is a very loud noise source or if hands-free devices are used. Wu a method for noise reduction is worthwhile, that from the disturbed speech signal by means of a adaptive noise filtering a filtered speech gnal processed, the considerably less noise contains components.

In der Literatur gibt es eine Reihe von Vorschlägen zu Geräuschreduktionsverfahren; eine Übersicht hierzu findet man beispielsweise in "Signalverarbeitungsver­ fahren zur Verbesserung der Sprachkommunikation über Freisprecheinrichtungen - Teil 3: Verfahren zur Ge­ räuschreduktion" von R. Wehrmann, R. Poltmann, H. Schütze und R. Zelinski, Der Fernmelde-Ingenieur, Heft 2, 1995. Diese Verfahren lassen sich grob in einkanalige (nur 1 Mikrofon) oder mehrkanalige (2 oder mehr Mikrofone) unterteilen. Aus Gründen des technischen Aufwandes sollen im Folgenden nur einka­ nalige Verfahren betrachtet werden. Solche Verfahren sind einsetzbar, wenn das Umgebungsgeräusch stationär oder nur langsam veränderlich ist (z. B. Lüfterge­ räusch oder Straßenverkehrslärm).There are a number of suggestions in the literature  on noise reduction procedures; an overview of this can be found, for example, in "Signal Processing drive over to improve voice communication Hands-free systems - Part 3: Procedure for ge Noise Reduction "by R. Wehrmann, R. Poltmann, H. Schütze and R. Zelinski, The Telecommunications Engineer, Issue 2, 1995. These procedures can be roughly described in single-channel (only 1 microphone) or multi-channel (2 or more microphones). For the sake of technical effort should only include in the following nal procedures are considered. Such procedures can be used when the ambient noise is stationary or changes only slowly (e.g. fan noise or traffic noise).

Fig. 1 zeigt in den ausgezogen dargestellten Teilen die typische Struktur eines einkanaligen Geräuschre­ duktionsverfahrens. Von einem Mikrofon 1 wird das ge­ störte Eingangssignal x = s + n aufgenommen, das aus dem Sprachsignal s und dem überlagerten Störsignal n be­ steht. In einer Geräuschanteil-Schätzstufe 2 wird während der Sprachpausen der Geräuschanteil ge­ schätzt, z. B. in der Form des von der Frequenz f ab­ hängigen Kurzzeit-Leistungsdichtespektrums PG(f) des Geräuschsignals. Der Geräuschanteil könnte jedoch auch gleichwertig in Form der Kurzzeit- Autokorrelationsfunktion dargestellt werden. Der mit einem Faktor g gewichtete Geräuschanteil, d. h. gPG(f), wird in einer Begrenzungsstufe 3 mit dem Eingangssignal x Verglichen. Dieses liegt in Form des Kurzzeit-Leistungsdichtespektrums Px(f) des aktuellen Zeitsignalausschnitts aus x vor. Der gewichtete Ge­ räuschanteil wird in der Begrenzungsstufe 3 so be­ grenzt, daß stets gPG(f) ≦ Px(f) ist. Diese Begrenzung ist notwendig, da die wahre Störleistungsdichte nie größer als die Leistungsdichte des Eingangssignals sein kann. Durch Auswertung des Eingangssignals x und des leistungsbegrenzten Geräuschanteils (Störschätz­ wert) wird die Übertragungsfunktion eines adaptiven Geräuschfilters 4 berechnet und fortlaufend dem va­ riablen Kurzzeit-Leistungsdichtespektrum des Sprach­ signals angepaßt. Das Geräuschfilter 4 kann bei­ spielsweise als Wiener-Schätzfilter oder nach dem Prinzip der spektralen Subtraktion realisiert werden. Die Filterung des Signals x durch das Geräuschfilter 4 ergibt das geräuschreduzierte rekonstruierte Sprachsignal , das zu einem fernen Teilnehmer über­ tragen wird. Fig. 1 shows in the parts shown in stripped lines the typical structure of a single-channel noise reduction process. From a microphone 1 , the disturbed input signal x = s + n is recorded, which consists of the speech signal s and the superimposed interference signal n be. In a noise component estimation stage 2 , the noise component is estimated during the pauses in speech, e.g. B. in the form of the frequency f dependent short-term power density spectrum P G (f) of the noise signal. However, the noise component could also be represented in the form of the short-term autocorrelation function. The noise component weighted by a factor g, ie gP G (f), is compared in a limiting stage 3 with the input signal x. This is in the form of the short-term power density spectrum P x (f) of the current time signal section from x. The weighted Ge noise component is limited in the limitation level 3 so that gP G (f) ≦ P x (f) is always. This limitation is necessary because the true interference power density can never be greater than the power density of the input signal. By evaluating the input signal x and the power-limited noise component (interference estimate value), the transfer function of an adaptive noise filter 4 is calculated and continuously adapted to the variable short-term power density spectrum of the voice signal. The noise filter 4 can, for example, be implemented as a Wiener estimation filter or according to the principle of spectral subtraction. The filtering of the signal x by the noise filter 4 results in the noise-reduced, reconstructed speech signal which will be transmitted to a distant subscriber.

Problematisch bei diesem bekannten Geräuschredukti­ onssystem ist die Wahl des Wertes des Gewichtsfaktors g. Bei idealer erwartungstreuer Schätzung des Ge­ räuschanteils wäre der optimale Gewichtsfaktor g = 1. Da aber wegen des instationären Verhaltens des Sprachsignals nur Kurzzeit-Leistungsdichtesprektren ausgewertet werden können, treten Restfehler in den Schätzungen auf, die sich oftmals als tonale auffäl­ lige Nebengeräusche (Artefakte oder "musical tones") im ausgegebenen Sprachsignal bemerkbar machen. Üb­ licherweise wird deshalb ein Wert g < 1 gewählt. Zusam­ men mit der Leistungsbegrenzung in der Begrenzerstufe 3 bewirkt dies, daß im sprachfreien Fall gPG(f) und Px(f) einander sehr viel ähnlicher werden als bei g = 1, so daß das Ruhegeräusch in den Sprachpausen we­ sentlich weniger Artefakte enthält. Nachteilig bei der Wahl von g < 1 ist jedoch, dass leise Sprachlaute und insbesondere energiearme Frequenzanteile daraus relativ stark gedämpft werden.The problem with this known noise reduction system is the choice of the value of the weight factor g. The ideal weighting factor would be g = 1 if the noise component were ideally expected to be expected. However, since only short-term power density spectra can be evaluated due to the transient behavior of the speech signal, residual errors occur in the estimates, which can often be identified as tonal abnormal noises (artifacts or " musical tones ") in the output speech signal. A value of g <1 is therefore usually chosen. Together with the power limitation in limiter stage 3 , this means that in speech-free cases gP G (f) and P x (f) become much more similar to each other than at g = 1, so that the quiet noise in the speech pauses contains considerably fewer artifacts . A disadvantage of choosing g <1, however, is that quiet speech sounds and in particular low-energy frequency components are attenuated relatively strongly.

Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Herabsetzung von Geräuschkomponen­ ten in aus Sprachkomponenten und den Geräuschkomponenten bestehenden elektrischen Signalen, die mittels eines elektroakustischen Wandlers aus aus Sprachkom­ ponenten und Geräuschkomponenten bestehenden akusti­ schen Signalen erzeugt wurden, unter Verwendung eines adaptiven Filters, das von einem in Abhängigkeit von den Geräuschkomponenten abgeleiteten elektrischen Störschätzwert gesteuert wird, der aus einem ge­ schätzten, mit einem Gewichtsfaktor multiplizierten Geräuschanteil gebildet wird, anzugeben, bei dem ei­ nerseits in Sprachpausen ein natürliches Restgeräusch ohne Artefakte auftritt, andererseits aber bei Vor­ liegen von Sprachsignalen energiearme Anteile in die­ sen nur gering gedämpft werden.It is therefore the object of the present invention a method of reducing noise components ten from speech components and the noise components  existing electrical signals by means of an electroacoustic transducer from Sprachkom components and sound components of existing acousti signals were generated using a adaptive filter that depends on one the electrical components derived from the noise Noise estimate is controlled, which from a ge estimated, multiplied by a weight factor Noise component is formed, to indicate at which egg on the other hand, a natural residual noise during pauses in speech occurs without artifacts, but on the other hand with Vor are low-energy parts of the speech signals in the be steamed only slightly.

Diese Aufgabe wird erfindungsgemäß gelöst durch das im kennzeichnenden Teil des Anspruchs 1 angegebene Merkmal. Vorteilhafte Weiterbildungen des erfindungs­ gemäßen Verfahrens ergeben sich aus den Unteransprü­ chen.This object is achieved by the specified in the characterizing part of claim 1 Characteristic. Advantageous further developments of the invention according to the procedure result from the dependent claims chen.

Dadurch, daß der Gewichtsfaktor so bestimmt wird, daß er bei Vorhandensein einer Sprachkomponente im elek­ trischen Signal kleiner als bei Abwesenheit einer Sprachkomponente ist, wird die Übertragungsfunktion des Geräuschfilters 4 unterschiedlich gesteuert in Abhängigkeit davon, ob ein Sprachsignal vorhanden ist oder nicht. Dies führt dazu, daß, obwohl durch die Begrenzung in der Begrenzerstufe 3 Restfehler in der Schätzung des Geräuschanteils weitgehend verhindert werden können, energiearme Sprachsignale nur unwe­ sentlich gedämpft werden.Characterized in that the weight factor is determined so that it is smaller in the presence of a speech component in the electrical signal than in the absence of a speech component, the transfer function of the noise filter 4 is controlled differently depending on whether a speech signal is present or not. This means that although residual errors in the estimation of the noise component can largely be prevented by the limitation in the limiter stage 3 , low-energy speech signals are only insignificantly damped.

Die Erfindung wird im Folgenden anhand eines in den Figuren dargestellten Ausführungsbeispiels näher er­ läutert. Es zeigen: The invention is described below with reference to one of the Figures illustrated embodiment he closer purifies. Show it:  

Fig. 1 das Blockschaltbild einer Vorrichtung zur Durchführung des erfindungsgemäßen Verfah­ rens, wobei die der Erfindung entsprechenden Teile gestrichelt dargestellt sind, Fig. 1 is a block diagram of an apparatus for carrying out the procedural invention proceedings, wherein the corresponding parts of the invention are illustrated by dashed lines,

Fig. 2 ein Blockschaltbild der in Fig. 1 darge­ stellten Gewichtsfaktor-Berechnungsstufe, und Fig. 2 is a block diagram of the weight factor calculation stage shown in Fig. 1, and

Fig. 3 ein Diagramm, das die Abhängigkeit des Ge­ wichtsfaktors von der Größe des Abstandes zwischen dem Eingangssignal und dem ge­ schätzten Geräuschanteil in diesem wieder­ gibt. Fig. 3 is a diagram showing the dependence of the Ge weight factor on the size of the distance between the input signal and the ge estimated noise component in this again.

Die Steuerung des Gewichtsfaktors wird in der in Fig. 1 gestrichelt dargestellten Gewichtsfaktor- Berechnungsstufe 5 realisiert. In dieser erfolgen ei­ ne Analyse und ein Vergleich des Eingangssignals x mit den Eigenschaften des geschätzten Geräuschanteils PG(f). Je ähnlicher die Eigenschaften des Eingangs­ signals x und des Geräuschanteils PG(f) sind - dies legt die Vermutung nahe, daß das Geräusch dominiert oder eine Sprachpause vorliegt -, desto größer wird der Wert des Gewichtsfaktors g eingestellt. Dadurch wird ein natürlich klingendes Restgeräusch in den sprachfreien Intervallen erzielt. Besteht dagegen nur wenig Ähnlichkeit in den Eigenschaften von x und PG(f) - also wenn vermutlich ein Sprachsignal vor­ liegt -, dann wird für g ein Wert g < 1 eingestellt, um leise Sprachanteile nicht so stark zu dämpfen.The control of the weight factor is implemented in the weight factor calculation stage 5 shown in dashed lines in FIG. 1. This is followed by an analysis and a comparison of the input signal x with the properties of the estimated noise component P G (f). The more similar the properties of the input signal x and the noise component P G (f) are - this suggests that the noise dominates or there is a pause in speech - the greater the value of the weight factor g is set. This creates a natural sounding residual noise in the speech-free intervals. If, on the other hand, there is little similarity in the properties of x and P G (f) - i.e. if there is probably a speech signal - then a value of g <1 is set in order not to dampen soft speech components so much.

Der Aufbau der Gewichtsfaktor-Berechnungsstufe 5 ist in Fig. 2 dargestellt. Aus einem zeitlichen Aus­ schnitt des Signals x wird in einer Merkmalsberech­ nungsstufe 6 ein Satz von Merkmalen berechnet, der im Folgenden als Merkmalsvektor m x bezeichnet wird. Die­ ser Vektor soll die charakteristischen Eigenschaften der spektralen Verteilung des Signalausschnitts mög­ lichst gut beschreiben. Geeignet hierfür sind bei­ spielsweise Probenwerte des normierten Kurzzeit- Leistungsdichtespektrums (äquidistante Abtastung im Frequenzbereich). In gleicher Weise geeignet sind je­ doch auch die partiellen Autokorrelationskoeffizien­ ten (PARCOR-Koeffizienten) oder die Cepstral- Koeffizienten (Cepstrum), die aus der Autokorrelati­ onsfunktion bzw. dem Kurzzeit-Leistungsdichtespektrum ermittelt werden können. Aus dem Geräuschanteil PG(f) wird in einer Merkmalsberechnungsstufe 7 in entspre­ chender Weise ein Merkmalsvektor m G berechnet, der die spektrale Verteilung des Geräuschanteils be­ schreibt.The structure of the weight factor calculation stage 5 is shown in FIG. 2. From a temporal section of the signal x, a set of features is calculated in a feature calculation stage 6 , which is referred to below as feature vector m x . This vector is intended to describe the characteristic properties of the spectral distribution of the signal section as well as possible. Sample values of the standardized short-term power density spectrum (equidistant sampling in the frequency range) are suitable for this. The partial autocorrelation coefficients (PARCOR coefficients) or the cepstral coefficients (cepstrum), which can be determined from the autocorrelation function or the short-term power density spectrum, are also equally suitable. From the noise component P G (f), a feature vector m G is calculated in a feature calculation stage 7 , which describes the spectral distribution of the noise component.

Die beiden Merkmalsvektoren werden einer Abstandsbe­ rechnungsstufe 8 zugeführt, in welcher ein Abstand AXG ermittelt wird, der den Unterschied in den spek­ tralen Eigenschaften von Eingangssignal x und ge­ schätztem Geräuschanteil wie folgt wiedergibt:
The two feature vectors are fed to a distance calculation stage 8 , in which a distance A XG is determined, which represents the difference in the spectral properties of the input signal x and the estimated noise component as follows:

AXG = |m x - m G|2 (1)A XG = | m x - m G | 2 (1)

In einer weiteren Abstandsberechnungsstufe 9 erfolgt ebenfalls eine Abstandsberechnung, die sich hier je­ doch auf den Unterschied zwischen dem aktuellen Aus­ schnitt des Eingangssignals und dem um eine Zeitver­ zögerung τ zurückliegenden Ausschnitt des Eingangs­ signals bezieht. Dem verzögerten Ausschnitt des Ein­ gangssignals ist hier der Merkmalsvektor m x,τ zugeord­ net, so daß sich als Abstand ergibt:
In a further distance calculation stage 9 there is also a distance calculation, which here, however, relates in each case to the difference between the current section of the input signal and the section of the input signal that was delayed by a time delay τ. The delayed section of the input signal here is assigned the feature vector m x, τ , so that the distance is:

axx = |m x - m x,τ|2 (2)a xx = | m x - m x, τ | 2 (2)

Der Wert von τ sollte möglichst klein gewählt werden, jedoch nicht kleiner als die Hälfte der durchschnitt­ lichen Silbenlänge, z. B. τ ≧ 100 ms. Mit dieser Bedin­ gung wirkt die Abstandsberechnungsstufe 9 wie ein zu­ sätzlicher Sprachdetektor. Liegt ein gleichmäßiges Geräusch ohne Sprache vor, so werden kleine Werte von axx ermittelt. Liegt jedoch ein Sprachsignal vor, so variiert das Kurzzeit-Leistungsdichtespektrum zeit­ lich sehr stark und es treten große Werte von axx auf. In einer der Abstandsberechnungsstufe 9 nachge­ schalteten Glättungsstufe 10 erfolgt eine zeitliche Glättung der Werte axx über die Dauer von etwa einer Sekunde, wodurch ein Ausgangswert Axx erhalten wird.The value of τ should be chosen to be as small as possible, but not less than half the average syllable length, e.g. B. τ ≧ 100 ms. With this condition, the distance calculation stage 9 acts like an additional speech detector. If there is a uniform sound without speech, small values of a xx are determined. However, if there is a voice signal, the short-term power density spectrum varies very much in time and large values of a xx occur. In a smoothing stage 10 downstream of the distance calculation stage 9 , the values a xx are temporally smoothed over a period of about one second, whereby an initial value A xx is obtained.

Die berechneten Abstände AXG und Axx ergänzen einan­ der: AXG kennzeichnet als Momentan-Ergebnis den Un­ terschied zwischen den Eigenschaften von aktuellem Eingangssignal und Geräuschsignal. Der Abstand Axx hingegen dient zur Langzeit-Sprachdetektion; große Werte von Axx treten nur dann auf, wenn schon mehrere Silben Sprache vorliegen.The calculated distances A XG and A xx complement each other: A XG marks the instantaneous result as the difference between the properties of the current input signal and noise signal. The distance A xx, on the other hand, is used for long-term speech detection; large values of A xx only occur if there are already several syllables of speech.

In einer Abstandsauswertungsstufe 11 schließlich wird der Gewichtsfaktor g festgelegt durch Auswertung der Abstände AXG und Axx. Fig. 3 zeigt eine zweckmäßige Ausgestaltung der Funktion g(Axx, AXG). Prinzipiell werden mit wachsendem Abstand AXG (und damit zuneh­ mender Wahrscheinlichkeit, daß momentan ein Sprachsi­ gnal vorliegt) kleinere Werte von g eingesetzt, um leise Sprachlaute weniger zu dämpfen. Die Steuerung g(AXG) wird zusätzlich unterstützt durch Auswertung von Axx: ist Axx groß, so liegt bereits seit längerer Zeit ein Sprachsignal vor und die Wahrscheinlichkeit ist groß, daß es auch jetzt noch vorliegt; es sollten daher generell kleinere Werte für g gewählt werden (Kurve II in Fig. 3). Ist Axx dagegen klein, so war bisher noch kein Sprachsignal detektierbar und g sollte generell etwas größer gewählt werden (Kurve I in Fig. 3). Die Umschaltung in der Steuerung von g(Axx, AXG) zwischen den Kurven I und II kann durch eine Schwellwertabfrage von Axx geschehen. Es ist statt dessen aber auch möglich, in Abhängigkeit von dem Wert von Axx einen kontinuierlichen Übergang von Kurve I nach Kurve II vorzusehen (schraffierter Be­ reich in Fig. 3). Zusammenfassend ist festzustellen, daß die adaptive Steuerung des Gewichtsfaktors g be­ wirkt, daß in Sprachpausen ein natürliches Restge­ räusch ohne Artefakte auftritt und gleichzeitig aber bei Vorliegen eines Sprachlauts energiearme Anteile in diesem weniger gedämpft werden als bei konstant gehaltenem Gewichtsfaktor g.Finally, in a distance evaluation stage 11 , the weight factor g is determined by evaluating the distances A XG and A xx . Fig. 3 shows an expedient embodiment of the function g (A xx , A XG ). In principle, with increasing distance A XG (and thus increasing probability that a speech signal is currently present), smaller values of g are used in order to attenuate quiet speech sounds less. The control g (A XG ) is additionally supported by evaluating A xx : if A xx is large, a voice signal has been present for a long time and the probability is high that it is still present; Therefore, generally smaller values for g should be chosen (curve II in FIG. 3). On the other hand, if A xx is small, no speech signal has yet been detectable and g should generally be chosen to be somewhat larger (curve I in FIG. 3). Switching in the control of g (A xx , A XG ) between curves I and II can be done by querying the threshold value of A xx . Instead, it is also possible, depending on the value of A xx, to provide a continuous transition from curve I to curve II (hatched area in FIG. 3). In summary, it can be stated that the adaptive control of the weight factor g acts, that a natural Restge noise occurs without artifacts during speech pauses and, at the same time, when there is a speech sound, low-energy components are damped less than with a constant weight factor g.

Werden die Merkmale der Signale wie beschrieben als Probenwerte des normierten Kurzzeit- Leistungsdichtespektrums, PARCOR-Koeffizienten oder Cepstral-Koeffizienten festgelegt, so sind diese Merkmale unabhängig von dem Pegel des Geräuschsi­ gnals. Änderungen des Geräuschpegels allein bleiben daher folgenlos und führen nicht zu einer Fehlmel­ dung, d. h. die Abstände AXG und Axx bleiben im sprach­ freien Fall weiterhin klein. Damit arbeitet diese Art der Sprachdetektion robuster im Vergleich zu Detekti­ onsverfahren, die lediglich den Zeitverlauf von Si­ gnalpegeln auswerten.If the characteristics of the signals as described are defined as sample values of the standardized short-term power density spectrum, PARCOR coefficients or cepstral coefficients, then these characteristics are independent of the level of the noise signal. Changes in the noise level alone therefore have no consequences and do not lead to an incorrect message, ie the distances A XG and A xx remain small in speech-free fall. This makes this type of speech detection more robust compared to detection methods that only evaluate the time curve of signal levels.

Die Steuerung des Gewichtsfaktors g beruht nicht al­ lein auf dem Momentan-Abstand AXG, sondern wird zu­ sätzlich unterstützt durch Auswertung des geglätteten Abstandsgröße Axx, die auch zurückliegende Signalab­ schnitte in Form einer Sprachdetektion berücksich­ tigt. Diese erweiterte Signalauswertung führt zu ei­ ner robusteren Steuerung des Gewichtsfaktors g. The control of the weight factor g is not based solely on the instantaneous distance A XG , but is additionally supported by evaluating the smoothed distance variable A xx , which also takes previous signal sections into account in the form of voice detection. This extended signal evaluation leads to a more robust control of the weight factor g.

Die Abstandsberechnungsstufe 9 und die Glättungsstufe 10 mit dem Abstandsmaß Axx wirken wie ein Langzeit- Sprachdetektor. Wird die Verzögerungszeit τ genügend klein gewählt (τ|100 ms), dann darf das Geräuschsi­ gnal bezüglich des Leistungsdichtespektrums sogar leicht instationär sein, ohne daß der Abstand Axx merklich ansteigen und damit fälschlicherweise das Vorliegen eines Sprachsignals anzeigen würde.The distance calculation level 9 and the smoothing level 10 with the distance dimension A xx act like a long-term speech detector. If the delay time τ is chosen to be sufficiently short (τ | 100 ms), then the noise signal may even be slightly unsteady with regard to the power density spectrum without the distance A xx increasing appreciably and thus incorrectly indicating the presence of a voice signal.

Claims (11)

1. Verfahren zur Herabsetzung von Geräuschkomponen­ ten in aus Sprachkomponenten und den Geräusch­ komponenten bestehenden elektrischen Signalen, die mittels eines elektroakustischen Wandlers aus aus Sprachkomponenten und Geräuschkomponen­ ten bestehenden akustischen Signalen erzeugt wurden, unter Verwendung eines adaptiven Fil­ ters, das von einem in Abhängigkeit von den Ge­ räuschkomponenten abgeleiteten elektrischen Störschätzwert gesteuert wird, der aus einem ge­ schätzten, mit einem Gewichtsfaktor multipli­ zierten Geräuschanteil gebildet wird, dadurch gekennzeichnet, daß der Gewichtsfaktor so bestimmt wird, daß er bei Vorhandensein einer Sprachkomponente im elektrischen Signal kleiner als bei Abwesenheit einer Sprachkomponente ist.1. A method for reducing noise components in electrical signals consisting of speech components and the noise components, which were generated by means of an electroacoustic transducer from acoustic signals consisting of speech components and noise components, using an adaptive filter which is dependent on one depending on the Ge noise components derived electrical noise estimate is controlled, which is formed from a ge estimated, multiplied by a weight factor noise component, characterized in that the weight factor is determined so that it is smaller in the presence of a speech component in the electrical signal than in the absence of a speech component. 2. Verfahren nach Anspruch 1, dadurch gekennzeich­ net, daß das adaptive Filter ein Wiener-Filter oder ein Filter nach dem Prinzip der spektralen Subtraktion ist.2. The method according to claim 1, characterized in net that the adaptive filter is a Wiener filter or a filter based on the principle of spectral Subtraction is. 3. Verfahren nach Anspruch 1 oder 2, dadurch ge­ kennzeichnet, daß der Gewichtsfaktor bei Vorhan­ densein einer Sprachkomponente auf 1 oder klei­ ner als 1 eingestellt wird.3. The method according to claim 1 or 2, characterized ge indicates that the weight factor is available a language component is 1 or small is set to less than 1. 4. Verfahren nach einem der Ansprüche 1 bis 3, da­ durch gekennzeichnet, daß Merkmalsvektoren be­ treffend die spektrale Verteilung eines Kurz­ zeitspektrums jeweils des elektrischen Signals und des geschätzten Geräuschanteils gebildet und miteinander verglichen werden, um das Vorhanden­ sein einer Sprachkomponente festzustellen.4. The method according to any one of claims 1 to 3, because characterized in that feature vectors be aptly the spectral distribution of a short time spectrum of the electrical signal and the estimated noise component and  are compared with each other to determine the existence its to determine a language component. 5. Verfahren nach einem der Ansprüche 1 bis 3, da­ durch gekennzeichnet, daß ein Merkmalsvektor be­ treffend die spektrale Verteilung eines Kurz­ zeitspektrums des elektrischen Signals gebildet wird und ein unverzögertes Signal sowie ein ver­ zögertes Signal jeweils dieses Merkmalsvektors miteinander verglichen werden, um das Vorhanden­ sein einer Sprachkomponente festzustellen.5. The method according to any one of claims 1 to 3, because characterized in that a feature vector be aptly the spectral distribution of a short time spectrum of the electrical signal formed is and an undelayed signal and a ver delayed signal of this feature vector are compared with each other to determine the existence its to determine a language component. 6. Verfahren nach Anspruch 5, dadurch gekennzeich­ net, daß die zeitliche Differenz zwischen dem unverzögerten und dem verzögerten Signal mög­ lichst kurz ist, jedoch nicht unter 100 ms.6. The method according to claim 5, characterized in net that the time difference between the undelayed and the delayed signal possible is as short as possible, but not less than 100 ms. 7. Verfahren nach Anspruch 5 oder 6, dadurch ge­ kennzeichnet, daß das durch den Vergleich erhal­ tene Signal geglättet wird.7. The method according to claim 5 or 6, characterized ge indicates that this is obtained through the comparison signal is smoothed. 8. Verfahren nach Anspruch 4 und 5, dadurch gekenn­ zeichnet, daß der Gewichtsfaktor in Abhängigkeit von der Kombination der Vergleichsergebnisse der beiden unterschiedlichen Verfahren zur Feststel­ lung des Vorhandenseins der Sprachkomponente be­ stimmt wird.8. The method according to claim 4 and 5, characterized records that the weight factor is dependent from the combination of the comparison results of two different methods of determining the presence of the language component be is true. 9. Verfahren nach einem der Ansprüche 4 bis 8, da­ durch gekennzeichnet, daß die Merkmalsvektoren aus einem normierten Kurzzeit- Leistungsdichtespektrum jeweils des elektrischen Signals und des geschätzten Geräuschanteils er­ mittelt werden.9. The method according to any one of claims 4 to 8, there characterized in that the feature vectors from a standardized short-term Power density spectrum of each of the electrical Signal and the estimated noise component be averaged. 10. Verfahren nach einem der Ansprüche 4 bis 8, da­ durch gekennzeichnet, daß die Merkmalsvektoren aus partiellen Autokorellationskoeffizienten (PARCOR-Koeffizienten) oder aus Cepstral- Koeffizienten, die aus der Autokorrelationsfunk­ tion bzw. dem Kurzzeit-Leistungsdichtespektrum ermittelt werden, bestimmt werden.10. The method according to any one of claims 4 to 8, there characterized in that the feature vectors from partial auto-correlation coefficients  (PARCOR coefficients) or from cepstral Coefficients resulting from the autocorrelation radio tion or the short-term power density spectrum to be determined, to be determined. 11. Verfahren nach einem der Ansprüche 1 bis 10, da­ durch gekennzeichnet, daß der Störschätzwert des Geräuschanteils auf den entsprechenden Kennwert des elektrischen Signals beschränkt wird, wenn er nicht kleiner als dieser ist.11. The method according to any one of claims 1 to 10, there characterized in that the interference estimate of the Noise component to the corresponding characteristic value of the electrical signal is limited if it is not smaller than this.
DE2000116620 2000-03-28 2000-03-28 Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present Withdrawn DE10016620A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2000116620 DE10016620A1 (en) 2000-03-28 2000-03-28 Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2000116620 DE10016620A1 (en) 2000-03-28 2000-03-28 Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present

Publications (1)

Publication Number Publication Date
DE10016620A1 true DE10016620A1 (en) 2001-12-20

Family

ID=7637482

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000116620 Withdrawn DE10016620A1 (en) 2000-03-28 2000-03-28 Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present

Country Status (1)

Country Link
DE (1) DE10016620A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9913051B2 (en) 2011-11-21 2018-03-06 Sivantos Pte. Ltd. Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9913051B2 (en) 2011-11-21 2018-03-06 Sivantos Pte. Ltd. Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise
US10966032B2 (en) 2011-11-21 2021-03-30 Sivantos Pte. Ltd. Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise

Similar Documents

Publication Publication Date Title
DE112009000805B4 (en) noise reduction
DE69913262T2 (en) DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT
DE69535709T2 (en) Method and apparatus for selecting the coding rate in a variable rate vocoder
DE60027438T2 (en) IMPROVING A HARMFUL AUDIBLE SIGNAL
EP1143416B1 (en) Time domain noise reduction
DE10041512B4 (en) Method and device for artificially expanding the bandwidth of speech signals
DE60125219T2 (en) SPECIAL FEATURES REPLACEMENT OF FRAME ERRORS IN A LANGUAGE DECODER
DE69926851T2 (en) Method and apparatus for voice activity detection
EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
DE69830017T2 (en) Method and device for speech recognition
DE112017007005B4 (en) ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING METHOD AND HANDS-FREE COMMUNICATION DEVICE
EP0747880B1 (en) System for speech recognition
EP1103956B1 (en) Exponential reduction of echo and noise during speech pauses
DE69635141T2 (en) Method for generating speech feature signals and apparatus for carrying it out
DE60212617T2 (en) DEVICE FOR LANGUAGE IMPROVEMENT
DE69918635T2 (en) Apparatus and method for speech processing
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
EP2080197B1 (en) Apparatus for noise suppression in an audio signal
EP3065417A1 (en) Method for suppressing interference noise in an acoustic system
DE10137348A1 (en) Noise filtering method in voice communication apparatus, involves controlling overestimation factor and background noise variable in transfer function of wiener filter based on ratio of speech and noise signal
DE10016620A1 (en) Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present
EP1005016A2 (en) Method and circuit arrangement for measuring speech level in a speech processing system
DE3875894T2 (en) ADAPTIVE MULTIVARIABLE ANALYSIS DEVICE.
KR100741355B1 (en) A preprocessing method using a perceptual weighting filter
DE10030926A1 (en) Interference-dependent adaptive echo cancellation

Legal Events

Date Code Title Description
OR8 Request for search as to paragraph 43 lit. 1 sentence 1 patent law
8105 Search report available
8141 Disposal/no request for examination