DE10016620A1 - Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present - Google Patents
Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is presentInfo
- Publication number
- DE10016620A1 DE10016620A1 DE2000116620 DE10016620A DE10016620A1 DE 10016620 A1 DE10016620 A1 DE 10016620A1 DE 2000116620 DE2000116620 DE 2000116620 DE 10016620 A DE10016620 A DE 10016620A DE 10016620 A1 DE10016620 A1 DE 10016620A1
- Authority
- DE
- Germany
- Prior art keywords
- noise
- component
- weight factor
- speech
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001105 regulatory effect Effects 0.000 title abstract 2
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000003111 delayed effect Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000036961 partial effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101150087426 Gnal gene Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6008—Substation equipment, e.g. for use by subscribers including speech amplifiers in the transmitter circuit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H21/00—Adaptive networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren nach dem Oberbe griff des Anspruchs 1.The invention relates to a method according to the Oberbe handle of claim 1.
In der Sprachkommunikation kann das vom Mikrofon auf genommene Sprachsignal durch ein akustisch überlager tes Geräuschsignal aus der Umgebung des Sprechers ge stört sein. Dies kann zu erheblichen Beeinträchtigun gen in der Sprachkommunikation führen, insbesondere wenn eine sehr laute Geräuschquelle vorliegt oder wenn Freisprecheinrichtungen eingesetzt werden. Wün schenswert ist ein Verfahren zur Geräuschreduktion, das aus dem gestörten Sprachsignal mittels einer adaptiven Geräuschfilterung ein gefiltertes Sprachsi gnal aufbereitet, das erheblich weniger Geräuschkom ponenten enthält.In voice communication, this can be done from the microphone voice signal taken by an acoustically superimposed tes noise signal from the surroundings of the speaker be bothered. This can have a significant adverse effect lead in voice communication, in particular if there is a very loud noise source or if hands-free devices are used. Wu a method for noise reduction is worthwhile, that from the disturbed speech signal by means of a adaptive noise filtering a filtered speech gnal processed, the considerably less noise contains components.
In der Literatur gibt es eine Reihe von Vorschlägen zu Geräuschreduktionsverfahren; eine Übersicht hierzu findet man beispielsweise in "Signalverarbeitungsver fahren zur Verbesserung der Sprachkommunikation über Freisprecheinrichtungen - Teil 3: Verfahren zur Ge räuschreduktion" von R. Wehrmann, R. Poltmann, H. Schütze und R. Zelinski, Der Fernmelde-Ingenieur, Heft 2, 1995. Diese Verfahren lassen sich grob in einkanalige (nur 1 Mikrofon) oder mehrkanalige (2 oder mehr Mikrofone) unterteilen. Aus Gründen des technischen Aufwandes sollen im Folgenden nur einka nalige Verfahren betrachtet werden. Solche Verfahren sind einsetzbar, wenn das Umgebungsgeräusch stationär oder nur langsam veränderlich ist (z. B. Lüfterge räusch oder Straßenverkehrslärm).There are a number of suggestions in the literature on noise reduction procedures; an overview of this can be found, for example, in "Signal Processing drive over to improve voice communication Hands-free systems - Part 3: Procedure for ge Noise Reduction "by R. Wehrmann, R. Poltmann, H. Schütze and R. Zelinski, The Telecommunications Engineer, Issue 2, 1995. These procedures can be roughly described in single-channel (only 1 microphone) or multi-channel (2 or more microphones). For the sake of technical effort should only include in the following nal procedures are considered. Such procedures can be used when the ambient noise is stationary or changes only slowly (e.g. fan noise or traffic noise).
Fig. 1 zeigt in den ausgezogen dargestellten Teilen die typische Struktur eines einkanaligen Geräuschre duktionsverfahrens. Von einem Mikrofon 1 wird das ge störte Eingangssignal x = s + n aufgenommen, das aus dem Sprachsignal s und dem überlagerten Störsignal n be steht. In einer Geräuschanteil-Schätzstufe 2 wird während der Sprachpausen der Geräuschanteil ge schätzt, z. B. in der Form des von der Frequenz f ab hängigen Kurzzeit-Leistungsdichtespektrums PG(f) des Geräuschsignals. Der Geräuschanteil könnte jedoch auch gleichwertig in Form der Kurzzeit- Autokorrelationsfunktion dargestellt werden. Der mit einem Faktor g gewichtete Geräuschanteil, d. h. gPG(f), wird in einer Begrenzungsstufe 3 mit dem Eingangssignal x Verglichen. Dieses liegt in Form des Kurzzeit-Leistungsdichtespektrums Px(f) des aktuellen Zeitsignalausschnitts aus x vor. Der gewichtete Ge räuschanteil wird in der Begrenzungsstufe 3 so be grenzt, daß stets gPG(f) ≦ Px(f) ist. Diese Begrenzung ist notwendig, da die wahre Störleistungsdichte nie größer als die Leistungsdichte des Eingangssignals sein kann. Durch Auswertung des Eingangssignals x und des leistungsbegrenzten Geräuschanteils (Störschätz wert) wird die Übertragungsfunktion eines adaptiven Geräuschfilters 4 berechnet und fortlaufend dem va riablen Kurzzeit-Leistungsdichtespektrum des Sprach signals angepaßt. Das Geräuschfilter 4 kann bei spielsweise als Wiener-Schätzfilter oder nach dem Prinzip der spektralen Subtraktion realisiert werden. Die Filterung des Signals x durch das Geräuschfilter 4 ergibt das geräuschreduzierte rekonstruierte Sprachsignal , das zu einem fernen Teilnehmer über tragen wird. Fig. 1 shows in the parts shown in stripped lines the typical structure of a single-channel noise reduction process. From a microphone 1 , the disturbed input signal x = s + n is recorded, which consists of the speech signal s and the superimposed interference signal n be. In a noise component estimation stage 2 , the noise component is estimated during the pauses in speech, e.g. B. in the form of the frequency f dependent short-term power density spectrum P G (f) of the noise signal. However, the noise component could also be represented in the form of the short-term autocorrelation function. The noise component weighted by a factor g, ie gP G (f), is compared in a limiting stage 3 with the input signal x. This is in the form of the short-term power density spectrum P x (f) of the current time signal section from x. The weighted Ge noise component is limited in the limitation level 3 so that gP G (f) ≦ P x (f) is always. This limitation is necessary because the true interference power density can never be greater than the power density of the input signal. By evaluating the input signal x and the power-limited noise component (interference estimate value), the transfer function of an adaptive noise filter 4 is calculated and continuously adapted to the variable short-term power density spectrum of the voice signal. The noise filter 4 can, for example, be implemented as a Wiener estimation filter or according to the principle of spectral subtraction. The filtering of the signal x by the noise filter 4 results in the noise-reduced, reconstructed speech signal which will be transmitted to a distant subscriber.
Problematisch bei diesem bekannten Geräuschredukti onssystem ist die Wahl des Wertes des Gewichtsfaktors g. Bei idealer erwartungstreuer Schätzung des Ge räuschanteils wäre der optimale Gewichtsfaktor g = 1. Da aber wegen des instationären Verhaltens des Sprachsignals nur Kurzzeit-Leistungsdichtesprektren ausgewertet werden können, treten Restfehler in den Schätzungen auf, die sich oftmals als tonale auffäl lige Nebengeräusche (Artefakte oder "musical tones") im ausgegebenen Sprachsignal bemerkbar machen. Üb licherweise wird deshalb ein Wert g < 1 gewählt. Zusam men mit der Leistungsbegrenzung in der Begrenzerstufe 3 bewirkt dies, daß im sprachfreien Fall gPG(f) und Px(f) einander sehr viel ähnlicher werden als bei g = 1, so daß das Ruhegeräusch in den Sprachpausen we sentlich weniger Artefakte enthält. Nachteilig bei der Wahl von g < 1 ist jedoch, dass leise Sprachlaute und insbesondere energiearme Frequenzanteile daraus relativ stark gedämpft werden.The problem with this known noise reduction system is the choice of the value of the weight factor g. The ideal weighting factor would be g = 1 if the noise component were ideally expected to be expected. However, since only short-term power density spectra can be evaluated due to the transient behavior of the speech signal, residual errors occur in the estimates, which can often be identified as tonal abnormal noises (artifacts or " musical tones ") in the output speech signal. A value of g <1 is therefore usually chosen. Together with the power limitation in limiter stage 3 , this means that in speech-free cases gP G (f) and P x (f) become much more similar to each other than at g = 1, so that the quiet noise in the speech pauses contains considerably fewer artifacts . A disadvantage of choosing g <1, however, is that quiet speech sounds and in particular low-energy frequency components are attenuated relatively strongly.
Es ist daher die Aufgabe der vorliegenden Erfindung, ein Verfahren zur Herabsetzung von Geräuschkomponen ten in aus Sprachkomponenten und den Geräuschkomponenten bestehenden elektrischen Signalen, die mittels eines elektroakustischen Wandlers aus aus Sprachkom ponenten und Geräuschkomponenten bestehenden akusti schen Signalen erzeugt wurden, unter Verwendung eines adaptiven Filters, das von einem in Abhängigkeit von den Geräuschkomponenten abgeleiteten elektrischen Störschätzwert gesteuert wird, der aus einem ge schätzten, mit einem Gewichtsfaktor multiplizierten Geräuschanteil gebildet wird, anzugeben, bei dem ei nerseits in Sprachpausen ein natürliches Restgeräusch ohne Artefakte auftritt, andererseits aber bei Vor liegen von Sprachsignalen energiearme Anteile in die sen nur gering gedämpft werden.It is therefore the object of the present invention a method of reducing noise components ten from speech components and the noise components existing electrical signals by means of an electroacoustic transducer from Sprachkom components and sound components of existing acousti signals were generated using a adaptive filter that depends on one the electrical components derived from the noise Noise estimate is controlled, which from a ge estimated, multiplied by a weight factor Noise component is formed, to indicate at which egg on the other hand, a natural residual noise during pauses in speech occurs without artifacts, but on the other hand with Vor are low-energy parts of the speech signals in the be steamed only slightly.
Diese Aufgabe wird erfindungsgemäß gelöst durch das im kennzeichnenden Teil des Anspruchs 1 angegebene Merkmal. Vorteilhafte Weiterbildungen des erfindungs gemäßen Verfahrens ergeben sich aus den Unteransprü chen.This object is achieved by the specified in the characterizing part of claim 1 Characteristic. Advantageous further developments of the invention according to the procedure result from the dependent claims chen.
Dadurch, daß der Gewichtsfaktor so bestimmt wird, daß er bei Vorhandensein einer Sprachkomponente im elek trischen Signal kleiner als bei Abwesenheit einer Sprachkomponente ist, wird die Übertragungsfunktion des Geräuschfilters 4 unterschiedlich gesteuert in Abhängigkeit davon, ob ein Sprachsignal vorhanden ist oder nicht. Dies führt dazu, daß, obwohl durch die Begrenzung in der Begrenzerstufe 3 Restfehler in der Schätzung des Geräuschanteils weitgehend verhindert werden können, energiearme Sprachsignale nur unwe sentlich gedämpft werden.Characterized in that the weight factor is determined so that it is smaller in the presence of a speech component in the electrical signal than in the absence of a speech component, the transfer function of the noise filter 4 is controlled differently depending on whether a speech signal is present or not. This means that although residual errors in the estimation of the noise component can largely be prevented by the limitation in the limiter stage 3 , low-energy speech signals are only insignificantly damped.
Die Erfindung wird im Folgenden anhand eines in den Figuren dargestellten Ausführungsbeispiels näher er läutert. Es zeigen: The invention is described below with reference to one of the Figures illustrated embodiment he closer purifies. Show it:
Fig. 1 das Blockschaltbild einer Vorrichtung zur Durchführung des erfindungsgemäßen Verfah rens, wobei die der Erfindung entsprechenden Teile gestrichelt dargestellt sind, Fig. 1 is a block diagram of an apparatus for carrying out the procedural invention proceedings, wherein the corresponding parts of the invention are illustrated by dashed lines,
Fig. 2 ein Blockschaltbild der in Fig. 1 darge stellten Gewichtsfaktor-Berechnungsstufe, und Fig. 2 is a block diagram of the weight factor calculation stage shown in Fig. 1, and
Fig. 3 ein Diagramm, das die Abhängigkeit des Ge wichtsfaktors von der Größe des Abstandes zwischen dem Eingangssignal und dem ge schätzten Geräuschanteil in diesem wieder gibt. Fig. 3 is a diagram showing the dependence of the Ge weight factor on the size of the distance between the input signal and the ge estimated noise component in this again.
Die Steuerung des Gewichtsfaktors wird in der in Fig. 1 gestrichelt dargestellten Gewichtsfaktor- Berechnungsstufe 5 realisiert. In dieser erfolgen ei ne Analyse und ein Vergleich des Eingangssignals x mit den Eigenschaften des geschätzten Geräuschanteils PG(f). Je ähnlicher die Eigenschaften des Eingangs signals x und des Geräuschanteils PG(f) sind - dies legt die Vermutung nahe, daß das Geräusch dominiert oder eine Sprachpause vorliegt -, desto größer wird der Wert des Gewichtsfaktors g eingestellt. Dadurch wird ein natürlich klingendes Restgeräusch in den sprachfreien Intervallen erzielt. Besteht dagegen nur wenig Ähnlichkeit in den Eigenschaften von x und PG(f) - also wenn vermutlich ein Sprachsignal vor liegt -, dann wird für g ein Wert g < 1 eingestellt, um leise Sprachanteile nicht so stark zu dämpfen.The control of the weight factor is implemented in the weight factor calculation stage 5 shown in dashed lines in FIG. 1. This is followed by an analysis and a comparison of the input signal x with the properties of the estimated noise component P G (f). The more similar the properties of the input signal x and the noise component P G (f) are - this suggests that the noise dominates or there is a pause in speech - the greater the value of the weight factor g is set. This creates a natural sounding residual noise in the speech-free intervals. If, on the other hand, there is little similarity in the properties of x and P G (f) - i.e. if there is probably a speech signal - then a value of g <1 is set in order not to dampen soft speech components so much.
Der Aufbau der Gewichtsfaktor-Berechnungsstufe 5 ist in Fig. 2 dargestellt. Aus einem zeitlichen Aus schnitt des Signals x wird in einer Merkmalsberech nungsstufe 6 ein Satz von Merkmalen berechnet, der im Folgenden als Merkmalsvektor m x bezeichnet wird. Die ser Vektor soll die charakteristischen Eigenschaften der spektralen Verteilung des Signalausschnitts mög lichst gut beschreiben. Geeignet hierfür sind bei spielsweise Probenwerte des normierten Kurzzeit- Leistungsdichtespektrums (äquidistante Abtastung im Frequenzbereich). In gleicher Weise geeignet sind je doch auch die partiellen Autokorrelationskoeffizien ten (PARCOR-Koeffizienten) oder die Cepstral- Koeffizienten (Cepstrum), die aus der Autokorrelati onsfunktion bzw. dem Kurzzeit-Leistungsdichtespektrum ermittelt werden können. Aus dem Geräuschanteil PG(f) wird in einer Merkmalsberechnungsstufe 7 in entspre chender Weise ein Merkmalsvektor m G berechnet, der die spektrale Verteilung des Geräuschanteils be schreibt.The structure of the weight factor calculation stage 5 is shown in FIG. 2. From a temporal section of the signal x, a set of features is calculated in a feature calculation stage 6 , which is referred to below as feature vector m x . This vector is intended to describe the characteristic properties of the spectral distribution of the signal section as well as possible. Sample values of the standardized short-term power density spectrum (equidistant sampling in the frequency range) are suitable for this. The partial autocorrelation coefficients (PARCOR coefficients) or the cepstral coefficients (cepstrum), which can be determined from the autocorrelation function or the short-term power density spectrum, are also equally suitable. From the noise component P G (f), a feature vector m G is calculated in a feature calculation stage 7 , which describes the spectral distribution of the noise component.
Die beiden Merkmalsvektoren werden einer Abstandsbe
rechnungsstufe 8 zugeführt, in welcher ein Abstand
AXG ermittelt wird, der den Unterschied in den spek
tralen Eigenschaften von Eingangssignal x und ge
schätztem Geräuschanteil wie folgt wiedergibt:
The two feature vectors are fed to a distance calculation stage 8 , in which a distance A XG is determined, which represents the difference in the spectral properties of the input signal x and the estimated noise component as follows:
AXG = |m x - m G|2 (1)A XG = | m x - m G | 2 (1)
In einer weiteren Abstandsberechnungsstufe 9 erfolgt
ebenfalls eine Abstandsberechnung, die sich hier je
doch auf den Unterschied zwischen dem aktuellen Aus
schnitt des Eingangssignals und dem um eine Zeitver
zögerung τ zurückliegenden Ausschnitt des Eingangs
signals bezieht. Dem verzögerten Ausschnitt des Ein
gangssignals ist hier der Merkmalsvektor m x,τ zugeord
net, so daß sich als Abstand ergibt:
In a further distance calculation stage 9 there is also a distance calculation, which here, however, relates in each case to the difference between the current section of the input signal and the section of the input signal that was delayed by a time delay τ. The delayed section of the input signal here is assigned the feature vector m x, τ , so that the distance is:
axx = |m x - m x,τ|2 (2)a xx = | m x - m x, τ | 2 (2)
Der Wert von τ sollte möglichst klein gewählt werden, jedoch nicht kleiner als die Hälfte der durchschnitt lichen Silbenlänge, z. B. τ ≧ 100 ms. Mit dieser Bedin gung wirkt die Abstandsberechnungsstufe 9 wie ein zu sätzlicher Sprachdetektor. Liegt ein gleichmäßiges Geräusch ohne Sprache vor, so werden kleine Werte von axx ermittelt. Liegt jedoch ein Sprachsignal vor, so variiert das Kurzzeit-Leistungsdichtespektrum zeit lich sehr stark und es treten große Werte von axx auf. In einer der Abstandsberechnungsstufe 9 nachge schalteten Glättungsstufe 10 erfolgt eine zeitliche Glättung der Werte axx über die Dauer von etwa einer Sekunde, wodurch ein Ausgangswert Axx erhalten wird.The value of τ should be chosen to be as small as possible, but not less than half the average syllable length, e.g. B. τ ≧ 100 ms. With this condition, the distance calculation stage 9 acts like an additional speech detector. If there is a uniform sound without speech, small values of a xx are determined. However, if there is a voice signal, the short-term power density spectrum varies very much in time and large values of a xx occur. In a smoothing stage 10 downstream of the distance calculation stage 9 , the values a xx are temporally smoothed over a period of about one second, whereby an initial value A xx is obtained.
Die berechneten Abstände AXG und Axx ergänzen einan der: AXG kennzeichnet als Momentan-Ergebnis den Un terschied zwischen den Eigenschaften von aktuellem Eingangssignal und Geräuschsignal. Der Abstand Axx hingegen dient zur Langzeit-Sprachdetektion; große Werte von Axx treten nur dann auf, wenn schon mehrere Silben Sprache vorliegen.The calculated distances A XG and A xx complement each other: A XG marks the instantaneous result as the difference between the properties of the current input signal and noise signal. The distance A xx, on the other hand, is used for long-term speech detection; large values of A xx only occur if there are already several syllables of speech.
In einer Abstandsauswertungsstufe 11 schließlich wird der Gewichtsfaktor g festgelegt durch Auswertung der Abstände AXG und Axx. Fig. 3 zeigt eine zweckmäßige Ausgestaltung der Funktion g(Axx, AXG). Prinzipiell werden mit wachsendem Abstand AXG (und damit zuneh mender Wahrscheinlichkeit, daß momentan ein Sprachsi gnal vorliegt) kleinere Werte von g eingesetzt, um leise Sprachlaute weniger zu dämpfen. Die Steuerung g(AXG) wird zusätzlich unterstützt durch Auswertung von Axx: ist Axx groß, so liegt bereits seit längerer Zeit ein Sprachsignal vor und die Wahrscheinlichkeit ist groß, daß es auch jetzt noch vorliegt; es sollten daher generell kleinere Werte für g gewählt werden (Kurve II in Fig. 3). Ist Axx dagegen klein, so war bisher noch kein Sprachsignal detektierbar und g sollte generell etwas größer gewählt werden (Kurve I in Fig. 3). Die Umschaltung in der Steuerung von g(Axx, AXG) zwischen den Kurven I und II kann durch eine Schwellwertabfrage von Axx geschehen. Es ist statt dessen aber auch möglich, in Abhängigkeit von dem Wert von Axx einen kontinuierlichen Übergang von Kurve I nach Kurve II vorzusehen (schraffierter Be reich in Fig. 3). Zusammenfassend ist festzustellen, daß die adaptive Steuerung des Gewichtsfaktors g be wirkt, daß in Sprachpausen ein natürliches Restge räusch ohne Artefakte auftritt und gleichzeitig aber bei Vorliegen eines Sprachlauts energiearme Anteile in diesem weniger gedämpft werden als bei konstant gehaltenem Gewichtsfaktor g.Finally, in a distance evaluation stage 11 , the weight factor g is determined by evaluating the distances A XG and A xx . Fig. 3 shows an expedient embodiment of the function g (A xx , A XG ). In principle, with increasing distance A XG (and thus increasing probability that a speech signal is currently present), smaller values of g are used in order to attenuate quiet speech sounds less. The control g (A XG ) is additionally supported by evaluating A xx : if A xx is large, a voice signal has been present for a long time and the probability is high that it is still present; Therefore, generally smaller values for g should be chosen (curve II in FIG. 3). On the other hand, if A xx is small, no speech signal has yet been detectable and g should generally be chosen to be somewhat larger (curve I in FIG. 3). Switching in the control of g (A xx , A XG ) between curves I and II can be done by querying the threshold value of A xx . Instead, it is also possible, depending on the value of A xx, to provide a continuous transition from curve I to curve II (hatched area in FIG. 3). In summary, it can be stated that the adaptive control of the weight factor g acts, that a natural Restge noise occurs without artifacts during speech pauses and, at the same time, when there is a speech sound, low-energy components are damped less than with a constant weight factor g.
Werden die Merkmale der Signale wie beschrieben als Probenwerte des normierten Kurzzeit- Leistungsdichtespektrums, PARCOR-Koeffizienten oder Cepstral-Koeffizienten festgelegt, so sind diese Merkmale unabhängig von dem Pegel des Geräuschsi gnals. Änderungen des Geräuschpegels allein bleiben daher folgenlos und führen nicht zu einer Fehlmel dung, d. h. die Abstände AXG und Axx bleiben im sprach freien Fall weiterhin klein. Damit arbeitet diese Art der Sprachdetektion robuster im Vergleich zu Detekti onsverfahren, die lediglich den Zeitverlauf von Si gnalpegeln auswerten.If the characteristics of the signals as described are defined as sample values of the standardized short-term power density spectrum, PARCOR coefficients or cepstral coefficients, then these characteristics are independent of the level of the noise signal. Changes in the noise level alone therefore have no consequences and do not lead to an incorrect message, ie the distances A XG and A xx remain small in speech-free fall. This makes this type of speech detection more robust compared to detection methods that only evaluate the time curve of signal levels.
Die Steuerung des Gewichtsfaktors g beruht nicht al lein auf dem Momentan-Abstand AXG, sondern wird zu sätzlich unterstützt durch Auswertung des geglätteten Abstandsgröße Axx, die auch zurückliegende Signalab schnitte in Form einer Sprachdetektion berücksich tigt. Diese erweiterte Signalauswertung führt zu ei ner robusteren Steuerung des Gewichtsfaktors g. The control of the weight factor g is not based solely on the instantaneous distance A XG , but is additionally supported by evaluating the smoothed distance variable A xx , which also takes previous signal sections into account in the form of voice detection. This extended signal evaluation leads to a more robust control of the weight factor g.
Die Abstandsberechnungsstufe 9 und die Glättungsstufe 10 mit dem Abstandsmaß Axx wirken wie ein Langzeit- Sprachdetektor. Wird die Verzögerungszeit τ genügend klein gewählt (τ|100 ms), dann darf das Geräuschsi gnal bezüglich des Leistungsdichtespektrums sogar leicht instationär sein, ohne daß der Abstand Axx merklich ansteigen und damit fälschlicherweise das Vorliegen eines Sprachsignals anzeigen würde.The distance calculation level 9 and the smoothing level 10 with the distance dimension A xx act like a long-term speech detector. If the delay time τ is chosen to be sufficiently short (τ | 100 ms), then the noise signal may even be slightly unsteady with regard to the power density spectrum without the distance A xx increasing appreciably and thus incorrectly indicating the presence of a voice signal.
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000116620 DE10016620A1 (en) | 2000-03-28 | 2000-03-28 | Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000116620 DE10016620A1 (en) | 2000-03-28 | 2000-03-28 | Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10016620A1 true DE10016620A1 (en) | 2001-12-20 |
Family
ID=7637482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000116620 Withdrawn DE10016620A1 (en) | 2000-03-28 | 2000-03-28 | Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10016620A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9913051B2 (en) | 2011-11-21 | 2018-03-06 | Sivantos Pte. Ltd. | Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise |
-
2000
- 2000-03-28 DE DE2000116620 patent/DE10016620A1/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9913051B2 (en) | 2011-11-21 | 2018-03-06 | Sivantos Pte. Ltd. | Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise |
US10966032B2 (en) | 2011-11-21 | 2021-03-30 | Sivantos Pte. Ltd. | Hearing apparatus with a facility for reducing a microphone noise and method for reducing microphone noise |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112009000805B4 (en) | noise reduction | |
DE69913262T2 (en) | DEVICE AND METHOD FOR ADJUSTING THE NOISE THRESHOLD FOR DETECTING VOICE ACTIVITY IN A NON-STATIONARY NOISE ENVIRONMENT | |
DE69535709T2 (en) | Method and apparatus for selecting the coding rate in a variable rate vocoder | |
DE60027438T2 (en) | IMPROVING A HARMFUL AUDIBLE SIGNAL | |
EP1143416B1 (en) | Time domain noise reduction | |
DE10041512B4 (en) | Method and device for artificially expanding the bandwidth of speech signals | |
DE60125219T2 (en) | SPECIAL FEATURES REPLACEMENT OF FRAME ERRORS IN A LANGUAGE DECODER | |
DE69926851T2 (en) | Method and apparatus for voice activity detection | |
EP1386307B2 (en) | Method and device for determining a quality measure for an audio signal | |
DE69830017T2 (en) | Method and device for speech recognition | |
DE112017007005B4 (en) | ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING METHOD AND HANDS-FREE COMMUNICATION DEVICE | |
EP0747880B1 (en) | System for speech recognition | |
EP1103956B1 (en) | Exponential reduction of echo and noise during speech pauses | |
DE69635141T2 (en) | Method for generating speech feature signals and apparatus for carrying it out | |
DE60212617T2 (en) | DEVICE FOR LANGUAGE IMPROVEMENT | |
DE69918635T2 (en) | Apparatus and method for speech processing | |
EP1995722B1 (en) | Method for processing an acoustic input signal to provide an output signal with reduced noise | |
EP2080197B1 (en) | Apparatus for noise suppression in an audio signal | |
EP3065417A1 (en) | Method for suppressing interference noise in an acoustic system | |
DE10137348A1 (en) | Noise filtering method in voice communication apparatus, involves controlling overestimation factor and background noise variable in transfer function of wiener filter based on ratio of speech and noise signal | |
DE10016620A1 (en) | Lowering method for noise components, involves using filter regulated by estimated value composed of estimated noise component multiplied by weight factor which is smaller when voice component is present | |
EP1005016A2 (en) | Method and circuit arrangement for measuring speech level in a speech processing system | |
DE3875894T2 (en) | ADAPTIVE MULTIVARIABLE ANALYSIS DEVICE. | |
KR100741355B1 (en) | A preprocessing method using a perceptual weighting filter | |
DE10030926A1 (en) | Interference-dependent adaptive echo cancellation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OR8 | Request for search as to paragraph 43 lit. 1 sentence 1 patent law | ||
8105 | Search report available | ||
8141 | Disposal/no request for examination |