EP0669606A2 - Verfahren zur Geräuschreduktion eines gestörten Sprachsignals - Google Patents
Verfahren zur Geräuschreduktion eines gestörten Sprachsignals Download PDFInfo
- Publication number
- EP0669606A2 EP0669606A2 EP95101977A EP95101977A EP0669606A2 EP 0669606 A2 EP0669606 A2 EP 0669606A2 EP 95101977 A EP95101977 A EP 95101977A EP 95101977 A EP95101977 A EP 95101977A EP 0669606 A2 EP0669606 A2 EP 0669606A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- speech
- median
- median filtering
- signal
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009467 reduction Effects 0.000 title claims description 10
- 238000001914 filtration Methods 0.000 claims abstract description 44
- 230000003595 spectral effect Effects 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 238000012546 transfer Methods 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013016 damping Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Definitions
- the invention relates to a method for noise reduction of a disturbed speech signal with the aid of spectral subtraction.
- the noise reduction using the spectral subtraction method is used in automatic speech recognition or in hands-free systems to improve speech quality, e.g. when calling from the motor vehicle.
- the noise reduction by spectral subtraction is characterized in that relatively stationary interference can typically be reduced by approximately 10 dB without additional information about the interference being required. Only the disturbed voice channel is required.
- the speech signal is divided into short overlapping time segments and processed segment by segment.
- an estimate of the interference is determined in the speech pauses, and this estimate is subtracted in terms of amount in the spectral range.
- the spectral subtraction can be implemented in different ways, but is usually implemented as a multiplicative filter in the frequency domain. This spectral subtraction shows the undesirable side effect of a residual musical noise, the "musical tones" and a speech distortion.
- “Musical tones” are usually suppressed by excessive damping.
- the excessive damping can be done by overestimating the interference with an overestimating factor or by choosing a special transmission characteristic.
- the values of the current transfer function are determined for each frequency from the transfer characteristic. It is common to implement a magnitude characteristic in the spectral subtraction filter that has a higher attenuation than e.g. a characteristic curve based on the quadratic error criterion. Specially designed characteristic curves are also possible. Depending on the characteristic used, an overestimation of the disturbance by a factor of 1 to 3 is common.
- the excessive damping due to the characteristic curve and the overestimation factor gives the desired effect of suppressing "musical tones", but it also has the side effect of a partly. considerable language distortion.
- Median filtering has proven to be an advantageous method for further substantially improving the spectral subtraction method for reducing the noise of a disturbed speech signal.
- the median filtering can be applied both to the magnitude spectrum of the disturbed input signal or the noise-reduced output signal after spectral subtraction and to the transfer function determined from the application of a transfer characteristic and can be carried out in the time direction or in the frequency direction.
- the magnitude spectrum of the speech signal is composed of a sequence of segment spectra in accordance with the segmentation of the speech time signal.
- the transfer function is represented by the time and frequency discrete values K i , 1 (eg equation (3)). A combination of different of these procedures can also be advantageous.
- a preferred method provides, in speech pauses by using median filtering, preferably in the temporal direction, to preserve the natural impression of a weak background noise on the transmission function, and during speech activity by applying median filtering to the spectrum of magnitude of the speech signal to strongly suppress the "musical tones" to reach.
- the separate detection of speech pauses and speech activity is provided and known in any case for determining an average noise signal during speech pauses, so that no special effort is required for this.
- the methods according to the invention are easy to implement.
- Median filtering is also already known for processing speech signals.
- a median filter for successive short-term mean values which represent a measure of the average power of speech signal sections, is used as a smoothing filter. Speech pauses are recognized by comparing the smoothed sequence of values with a threshold value. A This does not result in interference-free speech signals.
- FIG. 1 shows an example of an input signal E and an output signal A filtered with a median filter of length 3.
- the median filter first sorts the values within the data window F and then outputs the mean value med.
- the median filter hides short signal peaks, but receives the remaining signal edges.
- the following noise example was used: vehicle interior noise at 140 km / h, 12 kHz sampling frequency, segment length 512 values, the last 256 values of each segment are set to zero, the first 256 values of each segment are multiplied by the Hanning window, segments are half overlapped, i.e. a new segment every 10.67ms.
- FIG. 2 shows first the frequency (linear 0 to 6 kHz) the spectrum for 4 successive segments (time interval 10.67 ms, index I) and then the time (0 to 2.5 seconds) the signal curve for 4 successive discrete frequencies (index i ), representative of all 256 frequencies. It is shown as a typical property of the "musical tones" that the course over the frequency has relatively extensive disturbances (broad impulses), whereas the course over time has a strong impulsive character (narrow impulses). It is precisely the pulse-like character in the temporal direction that makes median filtering particularly effective. A pulse-like fault is deleted. A longer window length of the median filter is required for pulse-like disturbances with wider pulses.
- the median filter can also be carried out on the input signal before the spectral subtraction. Ideally, this does not result in the creation of "musical tones" that would otherwise be solved by post-filtering with the median filter.
- the median filtering on the input signal can then be advantageous if "musical tones” influence the various processing steps implemented in the spectral subtraction filter (apart from the characteristic function). It shouldn't go on possible advantages or disadvantages of median filtering on the input or output signal are discussed. In principle, both options are available and, apart from special cases of implementation, are equivalent.
- the median filter can also be carried out on the transfer function K instead of on the magnitude spectrum of a speech signal.
- FIG. 4 shows the transfer function K over time and over frequency. The same section is shown as in FIG. 2.
- the transfer function shows a similar behavior as the output signal in FIG. 2nd
- FIG. 5 shows the transfer function filtered in time with the 3-fold median. The same section is shown as in FIG. 3.
- the median filtering in the temporal direction is extremely effective for the same reasons as for the output signal.
- the pulse-suppressing property of median filtering has a particularly significant effect on the increased impulse disturbance and thus on the "musical tones".
- Median filtering has a repairing effect on the pulse-like disturbance.
- the median filtering on the magnitude spectrum of the input or output signal results in the higher gain in the suppression of impulse-like disturbances, but can also lead to changes which are particularly noticeable during speech pauses, while the median filtering of the transmission values in speech pauses essentially increases a pure attenuation of the signal, which makes it sound quieter but natural. Ideally, there are no "musical tones".
- a preferred embodiment of the invention takes advantage of this by performing the median filtering in the case of speech activity on the magnitude spectrum and in speech pauses on the transmission values. The required speech-pause decision is available anyway with the spectral subtraction, since the formation of the noise estimate is only carried out during the speech pauses.
- a median filtering in the frequency direction can also be carried out in accordance with equation (6).
- the detailed explanations given apply analogously to filtering in the frequency direction. It can be seen that as the number of samples within a time segment decreases, the median filtering in the frequency direction gains advantages over the filtering in the time direction and vice versa.
- the window length is equal to the minimum median window length 3.
- larger window lengths lead to a further suppression of the "musical tones", but under certain circumstances also to a leveling of the speech signal which is perceived as unnatural.
- the preferred window length is therefore 3 as indicated by way of example.
- a larger window length can be appropriate for median filtering.
- the time interval covered by the median temporal filtering window should not exceed 50 ms ten.
- the window length of the median filter is based on the data segment length.
- the data segment length should be less than 64, the median filter not greater than 5.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
Abstract
Description
- Die Erfindung betrifft ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion.
- Die Geräuschreduktion mit der Methode der spektralen Subtraktion findet Anwendung bei der automatischen Spracherkennung oder bei Freisprechanlagen zur Verbesserung der Sprachqualität, z.B. beim Telefonieren aus dem Kraftfahrzeug.
- Die Geräuschreduktion durch spektrale Subtraktion zeichnet sich dadurch aus, daß relativ stationäre Störungen typischerweise um ca. 10dB reduziert werden können, ohne daß zusätzliche Information über die Störung benötigt wird. Es wird nur der gestörte Sprachkanal benötigt. Das Sprachsignal wird in kurze überlappende Zeitsegmente unterteilt und segmentweise bearbeitet. Bei der spektralen Subtraktion wird in den Sprachpausen ein Schätzwert der Störung ermittelt, und dieser Schätzwert wird im Spektralbereich betragsmäßig subtrahiert. Die spektrale Subtraktion ist auf verschiedene Arten realisierbar, wird aber in der Regel als multiplikatives Filter im Frequenzbereich implementiert. Diese spektrale Subtraktion zeigt den unerwünschten Nebeneffekt eines musikalischen Restgeräuschs, der "musical tones" und einer Sprachverzerrung.
- Üblicherweise werden "musical tones" durch eine überhöhte Dämpfung unterdrückt. Die überhöhte Dämpfung kann durch ein Überschätzen der Störung mit einem Überschätzfaktor erfolgen oder durch die Wahl einer speziellen Übertragungskennlinie. Aus der Übertragungskennlinie werden für jede Frequenz die Werte der aktuellen Übertragungsfunktion bestimmt. Es ist üblich im spektralen Subtraktionsfilter eine Betragskennlinie zu implementieren, die eine höhere Dämpfung aufweist als z.B. ein Kennlinie nach dem quadratischen Fehlerkriterium. Speziell entworfene Kennlinien sind ebenfalls möglich. Abhängig von der verwendeten Kennlinie ist eine Überschätzung der Störung um den Faktor 1 bis 3 üblich. Die überhöhte Dämpfung durch die Kennlinie und den Überschätzfaktor ergibt zwar den gewünschten Effekt der Unterdrückung von "musical tones", hat aber auch den Nebeneffekt einer z.T. erheblichen Verzerrung der Sprache.
- Eine weitere übliche Methode "musical tones" zu unterdrücken, ist die Maskierung durch Zulassen eines bestimmten Anteils (z.B. 20%) des ursprünglichen Geräuschs als Hintergrundgeräusch ("spectral floor"). "musical tones" werden dadurch weniger hörbar, das Geräusch wird aber auch nicht mehr vollständig unterdrückt.
-
- S: geschätztes Ausgangssignal
- K: Übertragungsfunktion
- Y: gestörtes Sprachsignal
- S: Sprachsignal
- N: Störgeräusch
- b: Hintergrundrestgeräusch (spectral floor)
- a: Überschätzfaktor (overestimate)
- N 2: in Sprachpausen geschätzte Störung
- i: Frequenzindex
- I: Zeitindex des Segments
- Boll, S.: Suppression of Noise in Speech Using the SABER Method, Proc. IEEE Int. Conf. on ASSP, 1978, pp. 600-609.
- Boll, S.: Suppression of Acoustic Noise in Speech Using Spectral Substraction, IEEE Trans. on ASSP, Vol. ASSP-27, No. 2, April 79, pp. 113-120.
- Berouti, M.; Schwartz, R.; Makhoul, J.: Enhancement of Speech Corrupted by Acoustic Noise, Proc. Int. Conf. on ASSP, 1979, pp. 208-211.
- Vary, P.: Noise Suppression by Spectral Magnitude Estimation - Mechanism and Theoretical Limits-, Signal Processing, Vol. 8, No. 4, 1986, pp. 387-400.
- Xie, F.; Compernolle.: Speech Enhancement by Nonlinear Spectral Estimation - A Unifying Approach, Int. Conf. Eurospeech, 1993, pp. 617-620.
- Über die oben angesprochenen Methoden hinaus, sind weitere spezielle Methoden bekannt, die ebenfalls zur Reduzierung der "musical tones" verwendet werden: Die Amplitudenwerte zeitlich aufeinanderfolgender gestörter Sprachspektren werden gemittelt (z.B. bei Boll "magnitude averaging"). Dadurch werden zwar Rauschanteile gedämpft aber da Sprache stark instationär ist, tritt schon bei kurzen Mittelungslängen eine zeitliche Verschmierung des Sprachsignals auf (echoartiger Effekt). Bei Boll wird weiterhin ein "magnitude plus bandwith measurement test " beschrieben, nachdem spektrale Bereiche mit einer Bandbreite unter 300Hz und einer Amplitude, kleiner als eine vorgegebene Schwelle, als "residual noise" erkannt werden. Diese Bereiche werden dann zusätzlich gedämpft. Es wird von Boll vorgeschlagen, den "residual noise" dadurch zu reduzieren, daß aus drei zeitlich aufeinanderfolgenden Spektren des gefilterten Signals jeweils der minimale Wert als Ausgangssignal verwendet wird. Die Ausgabe der minimalen Spektrallinie von drei zeitlich benachbarten Linien führt zwar zu einer deutlichen Reduzierung des Restgeräuschs und damit der "musical tones", gelegentlich treten jedoch in unregelmäßigen Abständen plötzliche kurze "Geräuschbündel" auf.
- Ein weiteres Verfahren verwendet eine sogenannte nichtlineare spektrale Subtraktion. Der Überschätzfaktor wird hier abhängig vom Pausengeräusch und dem aktuell anliegenden Signal errechnet. Die optimale Einstellung dieser Regelung ist jedoch schwierig. (Lockwood, P.; Boudy, J.: Experiments with a Nonlinear Spectral Subtraction (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars, Speech Communication, No. 11, 1992, p. 215-228).
- Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals anzugeben, welches bei hoher Sprachqualität des Ausgangssignals eine starke Reduktion der Geräusche, insbesondere auch der "musical tones" ermöglicht.
- Erfindungsgemäße Lösungen dieser Aufgabe sowie vorteilhafte Ausführungen und Weiterbildungen sind in den Patentansprüchen beschrieben.
- Die Medianfilterung erweist sich als vorteilhaftes Verfahren zur weiteren wesentlichen Verbesserung des Verfahrens der spektralen Subtraktion für die Geräuschreduktion eines gestörten Sprachsignals. Die Medianfilterung kann dabei sowohl auf das Betragsspektrum des gestörten Eingangssignals oder des nach der spektralen Subtraktion geräuschreduzierten Ausgangssignals als auch auf die aus der Anwendung einer Übertragungskennlinie bestimmten Übertragungsfunktion angewandt und in Zeitrichtung oder in Frequenzrichtung durchgeführt werden. Das Betragsspektrum des Sprachsignals setzt sich entsprechend der Segmentierung des Sprachzeitsignals aus einer Folge von Segmentspektren zusammen. Die Übertragungsfunktion ist repräsentiert durch die zeit- und frequenzdiskreten Werte Ki,1 (z.B. Gleichung (3)). Auch eine Kombination verschiedener dieser Vorgehensweisen kann vorteilhaft sein. So sieht ein bevorzugtes Verfahren vor, in Sprachpausen durch Anwendung der Medianfilterung bevorzugt in zeitlicher Richtung, auf die Übertragungsfunktion den natürlichen Eindruck eines schwachen Hintergrundgeräusches zu bewahren und während Sprachaktivität durch Anwendung der Medianfilterung auf das Betragsspektrum des Sprachsignals eine starke Unterdrückung der "musical tones" zu erreichen. Die getrennte Erkennung von Sprachpausen und Sprachaktivität ist zur Ermittlung eines mittleren Geräuschsignals während Sprachpausen ohnehin vorgesehen und bekannt, so daß hierfür kein gesonderter Aufwand erforderlich ist. Die erfindungsgemäßen Verfahren sind einfach implementierbar.
- Das Prinzip der Medianfilterung an sich ist allgemein bekannt (z.B. Mitra, S.K.: Handbook for Digital Signal Processing, John Wiley & Sons, 1993).
- Die Medianfilterung ist auch zur Verarbeitung von Sprachsignalen bereits bekannt. So wird beispielsweise in DE 32 43 231 A1 und DE 32 43 232 A1 ein Medianfilter auf aufeinanderfolgende Kurzzeitmittelwerte, die ein Maß für die mittlere Leistung von Sprachsignalabschnitten darstellen, als Glättungsfilter angewandt. Durch Vergleich der geglätteten Wertefolge mit einem Schwellwert werden Sprachpausen erkannt. Eine Störbefreiung des Sprachsignals findet dadurch nicht statt.
- In IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-23, No. 6, Dec. 1975, S. 552-557 ist die Anwendung eines Medianfilters im Kombination mit einem linearen Glättungsfilter auf Abtastwerte der Intensität eines Sprachsignals beschrieben. Eine Signalverarbeitung im Spektralbereich ist nicht vorgesehen und es kann nur eine geringe Störüberlagerung bewältigt werden.
- FIG. 1 zeigt ein Beispiel für ein Eingangssignal E und ein mit einem Medianfilter der Länge 3 gefiltertes Ausgangssignal A. Das Medianfilter sortiert zuerst die Werte innerhalb des Datenfensters F und gibt dann den mittleren Wert med aus. Das Medianfilter blendet kurze Signalspitzen aus, erhält aber die übrigen Signalflanken.
-
- Die Wirkung der Medianfilterung auf die Verringerung der "musical tones" ist veranschaulicht anhand von Darstellungen eines typischen zeitlichen und spektralen Verlaufs solcher "musical tones". Dargestellt ist das Betragsspektrum eines in einer Sprachpause gewonnenen und mit Hilfe der spektralen Subtraktion geschätzten Ausgangssignals. Da in der Sprachpause keine Sprachanteile vorliegen treten vor allem die "musical tones" deutlich in Erscheinung.
- Als Beispiel der spektralen Subtraktion wurde verwendet: Standardverfahren mit Betragskennlinie, 20% Hintergrundgeräusch (b = 0,2), ohne Überschätzfaktor (a = 1,0).
- Als Geräusch-Beispiel wurde verwendet: Fahrzeuginnengeräusch bei 140km/h, 12kHz Abtastfrequenz, Segmentlänge 512 Werte, die letzten 256 Werte jedes Segments werden zu Null gesetzt, die ersten 256 Werte jedes Segments werden mit Hanning-Fenster multipliziert, Segmente sind halb überlappt, d.h. alle 10,67ms ein neues Segment.
- FIG. 2 zeigt zunächst über der Frequenz (linear 0 bis 6kHz) das Spektrum für 4 zeitlich aufeinanderfolgende Segmente (Zeitabstand 10,67ms, Index I) und dann über der Zeit (0 bis 2,5sec) den Signalverlauf für 4 aufeinanderfolgende diskrete Frequenzen (Index i), stellvertretend für alle 256 Frequenzen. Es zeigt sich als typische Eigenschaft der "musical tones", daß der Verlauf über der Frequenz relativ ausgedehnte Störungen (breite Impulse) aufweist, wogegen der Verlauf über der Zeit einen starken impulsartigen Charakter (schmale Impulse) hat. Genau der impulsartige Charakter in zeitlicher Richtung macht die Medianfilterung hier besonders effektiv. Eine impulsartige Störung wird gelöscht. Für impulsartige Störungen mit breiteren Impulsen ist eine größere Fensterlänge des Medianfilters erforderlich. Im Gegensatz zu linearen Filterungsverfahren (Glättungsfilter, "linear smoother") findet keine Verschmierung des Signalverlaufs statt. Die Darstellung der in zeitlicher Richtung mit dem 3-er Median gefilterten Signale in FIG. 3 verdeutlicht diese Eigenschaft. Das gefilterte Signal zeigt im Zeitverlauf deutlich einen glatteren Verlauf. Im Frequenzverlauf sind einige der (breiteren) Impulse durch die Filterung in Zeitrichtung ebenfalls gelöscht.
- Bei Sprachaktivität führt die Anwendung des Medianfilters in zeitlicher Richtung der einzelnen Spektrallinien zu einer Verbesserung der Sprachqualität, da impulsartige Störungen des Sprachspektrums "repariert" werden. Das Sprachsignal selbst wird nur sehr gering verändert. Eine Erhöhung der Fensterlänge von 3 auf 5 (in Zeitrichtung) ergibt zwar eine noch bessere Auslöschung der "musical tones", es wird aber bereits ein schwacher echoartiger Charakter der Sprache hörbar.
- Das Medianfilter kann anstatt am Ausgangssignal auch am Eingangssignal, vor der spektralen Subtraktion, durchgeführt werden. Im Idealfall können dadurch keine "musical tones" entstehen, die sonst alternativ durch die Nachfilterung mit dem Medianfilter gelöst werden. Die Medianfilterung am Eingangssignal kann dann vorteilhaft sein, wenn "musical tones" die verschiedenen implementierten Verarbeitungsschritte im spektralen Substraktionsfilter (außer der Kennlinienfunktion) beeinflussen. Es soll im weiteren nicht auf mögliche Vor- oder Nachteile einer Medianfilterung am Ein- oder Ausgangssignal eingegangen werden. Im Prinzip sind beide Möglichkeiten gegeben und von speziellen Fällen der Implementierung abgesehen gleichwertig.
- Das Medianfilter kann anstatt am Betragsspektrum eines Sprachsignals auch an der Übertragungsfunktion K ausgeführt werden.
-
- FIG. 5 zeigt die in zeitlicher Richtung mit dem 3-er Median gefilterte Übertragungsfunktion. Dargestellt ist der gleiche Ausschnitt wie in FIG. 3. Auch hier ist die Medianfilterung in zeitlicher Richtung aus den gleichen Gründen wie beim Ausgangssignal äußerst effektiv.
- Die effektive Unterdrückung der "musical tones" durch die Medianfilterung kann wie folgt erklärt werden:
- Ein Eingangssignal mit einer impulsartigen Störung verursacht die entsprechende impulsartige Änderung der Übertragungsfunktion. Im ursprünglichen Geräusch gehört dieser lokale Impuls zum natürlichen Geräusch und wird deshalb nicht als besonders störend empfunden. Das Spektrum des Eingangssignals wird mit der Übertragungsfunktion multipliziert. Die impulsartige Störung wird dadurch zusätzlich verstärkt ist jetzt als "musical tone" hörbar.
- Die impulsunterdrückende Eigenschaft der Medianfilterung wirkt sich besonders deutlich auf die verstärkte Impulsstörung und somit auf die "musical tones" aus. Die Medianfilterung wirkt reparierend auf die impulsartige Störung.
- Die Medianfilterung am Betragsspektrum des Eingangs- oder Ausgangssignals ergibt gegenüber der Medianfilterung an den Übertragungswerten den höheren Gewinn an der Unterdrückung von impulsartigen Störungen, kann aber auch zu besonders in Sprachpausen auffallenden als unnatürlich empfundenen Veränderungen führen, während die Medianfilterung der Übertragungswerte in Sprachpausen im wesentlichen zu einer reinen Dämpfung des Signals führt, das dadurch leiser aber natürlich klingt. Im Idealfall entstehen keine "musical tones". Eine bevorzugte Ausführungsform der Erfindung macht sich dies zunutze, indem die Medianfilterung bei Sprachaktivität am Betragsspektrum und in Sprachpausen an den Übertragungswerten durchgeführt wird. Die erforderliche Sprach-Pausen-Entscheidung steht bei der spektralen Subtraktion ohnehin zur Verfügung, da die Bildung des Geräuschschätzwertes nur in den Sprachpausen durchgeführt wird.
- Anstelle der Medianfilterung in Zeitrichtung wie beschrieben kann auch eine Medianfilterung in Frequenzrichtung gemäß Gleichung (6) durchgeführt werden. Die gegebenen ausführlichen Darlegungen gelten für die Filterung in Frequenzrichtung analog. Es zeigt sich, daS mit abnehmender Zahl der Abtastwerte innerhalb eines Zeitsegments die Medianfilterung in Frequenzrichtung an Vorteilen gewinnt gegenüber der Filterung in Zeitrichtung und umgekehrt.
- Bei den gebräuchlichen Werten für die Segmentlänge nach Zeit- und Abtastwerten ist die Anwendung der Medianfilterung in Zeitrichtung besonders vorteilhaft.
- Bei der beschriebenen Anwendung einer Medianfilterung in zeitlicher Richtung mit den beispielhaft angegebenen Werten für Abtastrate und Fensterlänge ist die Fensterlänge wie im Beispiel angegeben gleich der minimalen Medianfensterlänge 3. Größere Fensterlängen führen in diesem Falle zwar zu einer weiteren Unterdrückung der "musical tones", u.U. aber auch zu einer als unnatürlich empfundenen Einebnung des Sprachsignals. Die bevorzugte Fensterlänge ist daher 3 wie beispielhaft angegeben. Für zeitlich kürzere Segmente kann eine größere Fensterlänge bei der Medianfilterung angemessen sein. Der von dem Fenster der zeitlichen Medianfilterung abgedeckte Zeitintervall sollte aber 50ms nicht überschreiten.
- Für die Filterung in Frequenzrichtung orientiert sich die Fensterlänge des Medianfilters an der Datensegmentlänge. Die Datensegmentlänge sollte im zahlenmäßig beschriebenen Beispiel kleiner als 64 sein, das Medianfilter nicht größer als 5.
Methoden zur Unterdrückung der "musical tones", durch Kennlinie, "overestimation" und "spectral floor", sind in vielfältiger Variation durch zahlreiche Veröffentlichungen bekannt, z.B.:
Claims (11)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4405723A DE4405723A1 (de) | 1994-02-23 | 1994-02-23 | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals |
DE4405723 | 1994-02-23 |
Publications (3)
Publication Number | Publication Date |
---|---|
EP0669606A2 true EP0669606A2 (de) | 1995-08-30 |
EP0669606A3 EP0669606A3 (de) | 1995-10-25 |
EP0669606B1 EP0669606B1 (de) | 1999-09-22 |
Family
ID=6510930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP95101977A Expired - Lifetime EP0669606B1 (de) | 1994-02-23 | 1995-02-14 | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0669606B1 (de) |
AT (1) | ATE185014T1 (de) |
DE (2) | DE4405723A1 (de) |
ES (1) | ES2138669T3 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998003965A1 (de) * | 1996-07-19 | 1998-01-29 | Daimler-Benz Ag | Verfahren zur verringerung von störungen eines sprachsignals |
EP1065656A2 (de) * | 1994-05-13 | 2001-01-03 | Sony Corporation | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL206300B1 (pl) | 2001-03-07 | 2010-07-30 | T Mobile Deutschland Gmbht Mobile Deutschland Gmbh | Sposób poprawy jakości mowy na przezroczystych kodowo trasach telekomunikacyjnych oraz układ do stosowania tego sposobu |
DE10136491B4 (de) * | 2001-03-07 | 2004-11-25 | T-Mobile Deutschland Gmbh | Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen |
DE10311587A1 (de) * | 2003-03-14 | 2004-09-23 | Volkswagen Ag | Verfahren und Vorrichtung zum Freisprechen in einem Kraftfahrzeug |
DE102011002976A1 (de) | 2011-01-21 | 2012-07-26 | Behr Gmbh & Co. Kg | Kältemittelkondensatorbaugruppe |
EP2673778B1 (de) * | 2011-02-10 | 2018-10-10 | Dolby Laboratories Licensing Corporation | Nachbearbeitung mit medianfilterung von rauschunterdrückungsverstärkungen |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0110467A1 (de) * | 1982-11-23 | 1984-06-13 | Philips Kommunikations Industrie AG | Anordnung zur Erkennung von Sprachpausen |
US4837828A (en) * | 1982-05-12 | 1989-06-06 | Nec Corporation | Pattern feature extracting system |
DE4229577A1 (de) * | 1992-09-04 | 1994-03-10 | Daimler Benz Ag | Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
US4682230A (en) * | 1986-03-21 | 1987-07-21 | Rca Corporation | Adaptive median filter system |
-
1994
- 1994-02-23 DE DE4405723A patent/DE4405723A1/de not_active Withdrawn
-
1995
- 1995-02-14 DE DE59506864T patent/DE59506864D1/de not_active Expired - Lifetime
- 1995-02-14 AT AT95101977T patent/ATE185014T1/de active
- 1995-02-14 EP EP95101977A patent/EP0669606B1/de not_active Expired - Lifetime
- 1995-02-14 ES ES95101977T patent/ES2138669T3/es not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837828A (en) * | 1982-05-12 | 1989-06-06 | Nec Corporation | Pattern feature extracting system |
EP0110467A1 (de) * | 1982-11-23 | 1984-06-13 | Philips Kommunikations Industrie AG | Anordnung zur Erkennung von Sprachpausen |
DE4229577A1 (de) * | 1992-09-04 | 1994-03-10 | Daimler Benz Ag | Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird |
Non-Patent Citations (1)
Title |
---|
ICASSP 81, Bd.1, 30. M{rz 1981, ATLANTA Seiten 1086 - 1088 T.L.PETERSEN ET AL. 'Acoustic suppression in the context of a perceptual model' * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1065656A2 (de) * | 1994-05-13 | 2001-01-03 | Sony Corporation | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen |
EP1065656A3 (de) * | 1994-05-13 | 2001-01-10 | Sony Corporation | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen |
WO1998003965A1 (de) * | 1996-07-19 | 1998-01-29 | Daimler-Benz Ag | Verfahren zur verringerung von störungen eines sprachsignals |
US6687669B1 (en) | 1996-07-19 | 2004-02-03 | Schroegmeier Peter | Method of reducing voice signal interference |
Also Published As
Publication number | Publication date |
---|---|
DE59506864D1 (de) | 1999-10-28 |
ATE185014T1 (de) | 1999-10-15 |
EP0669606B1 (de) | 1999-09-22 |
ES2138669T3 (es) | 2000-01-16 |
EP0669606A3 (de) | 1995-10-25 |
DE4405723A1 (de) | 1995-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19747885B4 (de) | Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion | |
EP0912974B1 (de) | Verfahren zur verringerung von störungen eines sprachsignals | |
DE60131639T2 (de) | Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem | |
DE69627580T2 (de) | Verfahren zur Rauschverminderung in einem Sprachsignal | |
DE69420027T2 (de) | Rauschverminderung | |
DE602005000539T2 (de) | Verstärkungsgesteuerte Geräuschunterdrückung | |
DE69428119T2 (de) | Verringerung des hintergrundrauschens zur sprachverbesserung | |
DE69131739T2 (de) | Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
DE3689035T2 (de) | Rauschminderungssystem. | |
DE112011104737B4 (de) | Geräuschunterdrückungsvorrichtung | |
DE69124005T2 (de) | Sprachsignalverarbeitungsvorrichtung | |
EP1088300B1 (de) | Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen | |
EP1386307B1 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE112017007005B4 (de) | Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE4243831A1 (de) | Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen | |
DE112011106045B4 (de) | Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren | |
WO1995007597A1 (de) | Mobilfunkgerät mit freisprecheinrichtung | |
DE112007003625T5 (de) | Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm | |
DE69130687T2 (de) | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal | |
EP0669606B1 (de) | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals | |
DE102013011761A1 (de) | Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen | |
EP2080197B1 (de) | Vorrichtung zur geräuschunterdrückung bei einem audiosignal | |
EP0623995A1 (de) | Anordnung zur geräuschabhängigen Regelung der Lautstärke eines Autoradios | |
DE10157535B4 (de) | Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT CH DE ES FR GB IT LI NL |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT CH DE ES FR GB IT LI NL |
|
17P | Request for examination filed |
Effective date: 19951117 |
|
GRAG | Despatch of communication of intention to grant |
Free format text: ORIGINAL CODE: EPIDOS AGRA |
|
17Q | First examination report despatched |
Effective date: 19981112 |
|
GRAG | Despatch of communication of intention to grant |
Free format text: ORIGINAL CODE: EPIDOS AGRA |
|
GRAG | Despatch of communication of intention to grant |
Free format text: ORIGINAL CODE: EPIDOS AGRA |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: DAIMLERCHRYSLER AG |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT CH DE ES FR GB IT LI NL |
|
REF | Corresponds to: |
Ref document number: 185014 Country of ref document: AT Date of ref document: 19991015 Kind code of ref document: T |
|
ITF | It: translation for a ep patent filed | ||
REG | Reference to a national code |
Ref country code: CH Ref legal event code: NV Representative=s name: KIRKER & CIE SA Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 59506864 Country of ref document: DE Date of ref document: 19991028 |
|
ET | Fr: translation filed | ||
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2138669 Country of ref document: ES Kind code of ref document: T3 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed | ||
REG | Reference to a national code |
Ref country code: GB Ref legal event code: IF02 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PUE Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH Free format text: DAIMLERCHRYSLER AG#EPPLESTRASSE 225#70567 STUTTGART (DE) -TRANSFER TO- HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH#BECKER-GOERING-STRASSE 16#76307 KARLSBAD (DE) |
|
NLS | Nl: assignments of ep-patents |
Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH Effective date: 20050630 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20110228 Year of fee payment: 17 Ref country code: CH Payment date: 20110223 Year of fee payment: 17 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59506864 Country of ref document: DE Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59506864 Country of ref document: DE Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE Effective date: 20120411 Ref country code: DE Ref legal event code: R081 Ref document number: 59506864 Country of ref document: DE Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE Effective date: 20120411 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: V1 Effective date: 20120901 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP Owner name: NUANCE COMMUNICATIONS, INC., US Effective date: 20120924 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120229 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120229 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20120901 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: ES Payment date: 20140113 Year of fee payment: 20 Ref country code: IT Payment date: 20140213 Year of fee payment: 20 Ref country code: FR Payment date: 20140211 Year of fee payment: 20 Ref country code: AT Payment date: 20140128 Year of fee payment: 20 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20140212 Year of fee payment: 20 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20140417 Year of fee payment: 20 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R071 Ref document number: 59506864 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: PE20 Expiry date: 20150213 |
|
REG | Reference to a national code |
Ref country code: AT Ref legal event code: MK07 Ref document number: 185014 Country of ref document: AT Kind code of ref document: T Effective date: 20150214 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION Effective date: 20150213 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20150826 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION Effective date: 20150215 |