EP0669606A2 - Verfahren zur Geräuschreduktion eines gestörten Sprachsignals - Google Patents

Verfahren zur Geräuschreduktion eines gestörten Sprachsignals Download PDF

Info

Publication number
EP0669606A2
EP0669606A2 EP95101977A EP95101977A EP0669606A2 EP 0669606 A2 EP0669606 A2 EP 0669606A2 EP 95101977 A EP95101977 A EP 95101977A EP 95101977 A EP95101977 A EP 95101977A EP 0669606 A2 EP0669606 A2 EP 0669606A2
Authority
EP
European Patent Office
Prior art keywords
speech
median
median filtering
signal
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP95101977A
Other languages
English (en)
French (fr)
Other versions
EP0669606B1 (de
EP0669606A3 (de
Inventor
Klaus Dr.-Ing. Linhard
Heinz Klemm
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman Becker Automotive Systems GmbH
Original Assignee
Daimler Benz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler Benz AG filed Critical Daimler Benz AG
Publication of EP0669606A2 publication Critical patent/EP0669606A2/de
Publication of EP0669606A3 publication Critical patent/EP0669606A3/de
Application granted granted Critical
Publication of EP0669606B1 publication Critical patent/EP0669606B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Definitions

  • the invention relates to a method for noise reduction of a disturbed speech signal with the aid of spectral subtraction.
  • the noise reduction using the spectral subtraction method is used in automatic speech recognition or in hands-free systems to improve speech quality, e.g. when calling from the motor vehicle.
  • the noise reduction by spectral subtraction is characterized in that relatively stationary interference can typically be reduced by approximately 10 dB without additional information about the interference being required. Only the disturbed voice channel is required.
  • the speech signal is divided into short overlapping time segments and processed segment by segment.
  • an estimate of the interference is determined in the speech pauses, and this estimate is subtracted in terms of amount in the spectral range.
  • the spectral subtraction can be implemented in different ways, but is usually implemented as a multiplicative filter in the frequency domain. This spectral subtraction shows the undesirable side effect of a residual musical noise, the "musical tones" and a speech distortion.
  • “Musical tones” are usually suppressed by excessive damping.
  • the excessive damping can be done by overestimating the interference with an overestimating factor or by choosing a special transmission characteristic.
  • the values of the current transfer function are determined for each frequency from the transfer characteristic. It is common to implement a magnitude characteristic in the spectral subtraction filter that has a higher attenuation than e.g. a characteristic curve based on the quadratic error criterion. Specially designed characteristic curves are also possible. Depending on the characteristic used, an overestimation of the disturbance by a factor of 1 to 3 is common.
  • the excessive damping due to the characteristic curve and the overestimation factor gives the desired effect of suppressing "musical tones", but it also has the side effect of a partly. considerable language distortion.
  • Median filtering has proven to be an advantageous method for further substantially improving the spectral subtraction method for reducing the noise of a disturbed speech signal.
  • the median filtering can be applied both to the magnitude spectrum of the disturbed input signal or the noise-reduced output signal after spectral subtraction and to the transfer function determined from the application of a transfer characteristic and can be carried out in the time direction or in the frequency direction.
  • the magnitude spectrum of the speech signal is composed of a sequence of segment spectra in accordance with the segmentation of the speech time signal.
  • the transfer function is represented by the time and frequency discrete values K i , 1 (eg equation (3)). A combination of different of these procedures can also be advantageous.
  • a preferred method provides, in speech pauses by using median filtering, preferably in the temporal direction, to preserve the natural impression of a weak background noise on the transmission function, and during speech activity by applying median filtering to the spectrum of magnitude of the speech signal to strongly suppress the "musical tones" to reach.
  • the separate detection of speech pauses and speech activity is provided and known in any case for determining an average noise signal during speech pauses, so that no special effort is required for this.
  • the methods according to the invention are easy to implement.
  • Median filtering is also already known for processing speech signals.
  • a median filter for successive short-term mean values which represent a measure of the average power of speech signal sections, is used as a smoothing filter. Speech pauses are recognized by comparing the smoothed sequence of values with a threshold value. A This does not result in interference-free speech signals.
  • FIG. 1 shows an example of an input signal E and an output signal A filtered with a median filter of length 3.
  • the median filter first sorts the values within the data window F and then outputs the mean value med.
  • the median filter hides short signal peaks, but receives the remaining signal edges.
  • the following noise example was used: vehicle interior noise at 140 km / h, 12 kHz sampling frequency, segment length 512 values, the last 256 values of each segment are set to zero, the first 256 values of each segment are multiplied by the Hanning window, segments are half overlapped, i.e. a new segment every 10.67ms.
  • FIG. 2 shows first the frequency (linear 0 to 6 kHz) the spectrum for 4 successive segments (time interval 10.67 ms, index I) and then the time (0 to 2.5 seconds) the signal curve for 4 successive discrete frequencies (index i ), representative of all 256 frequencies. It is shown as a typical property of the "musical tones" that the course over the frequency has relatively extensive disturbances (broad impulses), whereas the course over time has a strong impulsive character (narrow impulses). It is precisely the pulse-like character in the temporal direction that makes median filtering particularly effective. A pulse-like fault is deleted. A longer window length of the median filter is required for pulse-like disturbances with wider pulses.
  • the median filter can also be carried out on the input signal before the spectral subtraction. Ideally, this does not result in the creation of "musical tones" that would otherwise be solved by post-filtering with the median filter.
  • the median filtering on the input signal can then be advantageous if "musical tones” influence the various processing steps implemented in the spectral subtraction filter (apart from the characteristic function). It shouldn't go on possible advantages or disadvantages of median filtering on the input or output signal are discussed. In principle, both options are available and, apart from special cases of implementation, are equivalent.
  • the median filter can also be carried out on the transfer function K instead of on the magnitude spectrum of a speech signal.
  • FIG. 4 shows the transfer function K over time and over frequency. The same section is shown as in FIG. 2.
  • the transfer function shows a similar behavior as the output signal in FIG. 2nd
  • FIG. 5 shows the transfer function filtered in time with the 3-fold median. The same section is shown as in FIG. 3.
  • the median filtering in the temporal direction is extremely effective for the same reasons as for the output signal.
  • the pulse-suppressing property of median filtering has a particularly significant effect on the increased impulse disturbance and thus on the "musical tones".
  • Median filtering has a repairing effect on the pulse-like disturbance.
  • the median filtering on the magnitude spectrum of the input or output signal results in the higher gain in the suppression of impulse-like disturbances, but can also lead to changes which are particularly noticeable during speech pauses, while the median filtering of the transmission values in speech pauses essentially increases a pure attenuation of the signal, which makes it sound quieter but natural. Ideally, there are no "musical tones".
  • a preferred embodiment of the invention takes advantage of this by performing the median filtering in the case of speech activity on the magnitude spectrum and in speech pauses on the transmission values. The required speech-pause decision is available anyway with the spectral subtraction, since the formation of the noise estimate is only carried out during the speech pauses.
  • a median filtering in the frequency direction can also be carried out in accordance with equation (6).
  • the detailed explanations given apply analogously to filtering in the frequency direction. It can be seen that as the number of samples within a time segment decreases, the median filtering in the frequency direction gains advantages over the filtering in the time direction and vice versa.
  • the window length is equal to the minimum median window length 3.
  • larger window lengths lead to a further suppression of the "musical tones", but under certain circumstances also to a leveling of the speech signal which is perceived as unnatural.
  • the preferred window length is therefore 3 as indicated by way of example.
  • a larger window length can be appropriate for median filtering.
  • the time interval covered by the median temporal filtering window should not exceed 50 ms ten.
  • the window length of the median filter is based on the data segment length.
  • the data segment length should be less than 64, the median filter not greater than 5.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

Durch Verfahren zur Geräuschreduktion soll ein gestörtes Sprachsignal möglichst gut von den Störanteilen befreit werden. Das vorliegende Verfahren basiert auf dem Prinzip der spektralen Subtraktion, welche durch eine Medianfilterung ergänzt wird. Die Medianfilterung kann an dem Betragsspektrum des gestörten Eingangssignals oder des Ausgangssignals der spektralen Subtraktion oder an der Übertragungsfunktion der spektralen Subtraktion in Zeitrichtung oder in Frequenzrichtung vorgenommen werden. Die Medianfilterung unterdrückt oder vermeidet insbesondere die als "musical tones" bekannten, bei der spektralen Subtraktion entstehenden Störungen. <IMAGE>

Description

  • Die Erfindung betrifft ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion.
  • Die Geräuschreduktion mit der Methode der spektralen Subtraktion findet Anwendung bei der automatischen Spracherkennung oder bei Freisprechanlagen zur Verbesserung der Sprachqualität, z.B. beim Telefonieren aus dem Kraftfahrzeug.
  • Die Geräuschreduktion durch spektrale Subtraktion zeichnet sich dadurch aus, daß relativ stationäre Störungen typischerweise um ca. 10dB reduziert werden können, ohne daß zusätzliche Information über die Störung benötigt wird. Es wird nur der gestörte Sprachkanal benötigt. Das Sprachsignal wird in kurze überlappende Zeitsegmente unterteilt und segmentweise bearbeitet. Bei der spektralen Subtraktion wird in den Sprachpausen ein Schätzwert der Störung ermittelt, und dieser Schätzwert wird im Spektralbereich betragsmäßig subtrahiert. Die spektrale Subtraktion ist auf verschiedene Arten realisierbar, wird aber in der Regel als multiplikatives Filter im Frequenzbereich implementiert. Diese spektrale Subtraktion zeigt den unerwünschten Nebeneffekt eines musikalischen Restgeräuschs, der "musical tones" und einer Sprachverzerrung.
  • Üblicherweise werden "musical tones" durch eine überhöhte Dämpfung unterdrückt. Die überhöhte Dämpfung kann durch ein Überschätzen der Störung mit einem Überschätzfaktor erfolgen oder durch die Wahl einer speziellen Übertragungskennlinie. Aus der Übertragungskennlinie werden für jede Frequenz die Werte der aktuellen Übertragungsfunktion bestimmt. Es ist üblich im spektralen Subtraktionsfilter eine Betragskennlinie zu implementieren, die eine höhere Dämpfung aufweist als z.B. ein Kennlinie nach dem quadratischen Fehlerkriterium. Speziell entworfene Kennlinien sind ebenfalls möglich. Abhängig von der verwendeten Kennlinie ist eine Überschätzung der Störung um den Faktor 1 bis 3 üblich. Die überhöhte Dämpfung durch die Kennlinie und den Überschätzfaktor ergibt zwar den gewünschten Effekt der Unterdrückung von "musical tones", hat aber auch den Nebeneffekt einer z.T. erheblichen Verzerrung der Sprache.
  • Eine weitere übliche Methode "musical tones" zu unterdrücken, ist die Maskierung durch Zulassen eines bestimmten Anteils (z.B. 20%) des ursprünglichen Geräuschs als Hintergrundgeräusch ("spectral floor"). "musical tones" werden dadurch weniger hörbar, das Geräusch wird aber auch nicht mehr vollständig unterdrückt.
  • Es gilt bei der spektralen Subtraktion
    Figure imgb0001
    mit
    Figure imgb0002
    und für das Beispiel einer sogenannten Betragskennlinie als Übertragungskennlinie
    Figure imgb0003
    sowie beispielsweise die Auswahl eines minimalen Übertragungswertes für den spectral floor
    Figure imgb0004
    Mit den Größen:
    • S: geschätztes Ausgangssignal
    • K: Übertragungsfunktion
    • Y: gestörtes Sprachsignal
    • S: Sprachsignal
    • N: Störgeräusch
    • b: Hintergrundrestgeräusch (spectral floor)
    • a: Überschätzfaktor (overestimate)
    • N 2: in Sprachpausen geschätzte Störung
    • i: Frequenzindex
    • I: Zeitindex des Segments

    Methoden zur Unterdrückung der "musical tones", durch Kennlinie, "overestimation" und "spectral floor", sind in vielfältiger Variation durch zahlreiche Veröffentlichungen bekannt, z.B.:
    • Boll, S.: Suppression of Noise in Speech Using the SABER Method, Proc. IEEE Int. Conf. on ASSP, 1978, pp. 600-609.
    • Boll, S.: Suppression of Acoustic Noise in Speech Using Spectral Substraction, IEEE Trans. on ASSP, Vol. ASSP-27, No. 2, April 79, pp. 113-120.
    • Berouti, M.; Schwartz, R.; Makhoul, J.: Enhancement of Speech Corrupted by Acoustic Noise, Proc. Int. Conf. on ASSP, 1979, pp. 208-211.
    • Vary, P.: Noise Suppression by Spectral Magnitude Estimation - Mechanism and Theoretical Limits-, Signal Processing, Vol. 8, No. 4, 1986, pp. 387-400.
    • Xie, F.; Compernolle.: Speech Enhancement by Nonlinear Spectral Estimation - A Unifying Approach, Int. Conf. Eurospeech, 1993, pp. 617-620.
  • Über die oben angesprochenen Methoden hinaus, sind weitere spezielle Methoden bekannt, die ebenfalls zur Reduzierung der "musical tones" verwendet werden: Die Amplitudenwerte zeitlich aufeinanderfolgender gestörter Sprachspektren werden gemittelt (z.B. bei Boll "magnitude averaging"). Dadurch werden zwar Rauschanteile gedämpft aber da Sprache stark instationär ist, tritt schon bei kurzen Mittelungslängen eine zeitliche Verschmierung des Sprachsignals auf (echoartiger Effekt). Bei Boll wird weiterhin ein "magnitude plus bandwith measurement test " beschrieben, nachdem spektrale Bereiche mit einer Bandbreite unter 300Hz und einer Amplitude, kleiner als eine vorgegebene Schwelle, als "residual noise" erkannt werden. Diese Bereiche werden dann zusätzlich gedämpft. Es wird von Boll vorgeschlagen, den "residual noise" dadurch zu reduzieren, daß aus drei zeitlich aufeinanderfolgenden Spektren des gefilterten Signals jeweils der minimale Wert als Ausgangssignal verwendet wird. Die Ausgabe der minimalen Spektrallinie von drei zeitlich benachbarten Linien führt zwar zu einer deutlichen Reduzierung des Restgeräuschs und damit der "musical tones", gelegentlich treten jedoch in unregelmäßigen Abständen plötzliche kurze "Geräuschbündel" auf.
  • Ein weiteres Verfahren verwendet eine sogenannte nichtlineare spektrale Subtraktion. Der Überschätzfaktor wird hier abhängig vom Pausengeräusch und dem aktuell anliegenden Signal errechnet. Die optimale Einstellung dieser Regelung ist jedoch schwierig. (Lockwood, P.; Boudy, J.: Experiments with a Nonlinear Spectral Subtraction (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars, Speech Communication, No. 11, 1992, p. 215-228).
  • Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Geräuschreduktion eines gestörten Sprachsignals anzugeben, welches bei hoher Sprachqualität des Ausgangssignals eine starke Reduktion der Geräusche, insbesondere auch der "musical tones" ermöglicht.
  • Erfindungsgemäße Lösungen dieser Aufgabe sowie vorteilhafte Ausführungen und Weiterbildungen sind in den Patentansprüchen beschrieben.
  • Die Medianfilterung erweist sich als vorteilhaftes Verfahren zur weiteren wesentlichen Verbesserung des Verfahrens der spektralen Subtraktion für die Geräuschreduktion eines gestörten Sprachsignals. Die Medianfilterung kann dabei sowohl auf das Betragsspektrum des gestörten Eingangssignals oder des nach der spektralen Subtraktion geräuschreduzierten Ausgangssignals als auch auf die aus der Anwendung einer Übertragungskennlinie bestimmten Übertragungsfunktion angewandt und in Zeitrichtung oder in Frequenzrichtung durchgeführt werden. Das Betragsspektrum des Sprachsignals setzt sich entsprechend der Segmentierung des Sprachzeitsignals aus einer Folge von Segmentspektren zusammen. Die Übertragungsfunktion ist repräsentiert durch die zeit- und frequenzdiskreten Werte Ki,1 (z.B. Gleichung (3)). Auch eine Kombination verschiedener dieser Vorgehensweisen kann vorteilhaft sein. So sieht ein bevorzugtes Verfahren vor, in Sprachpausen durch Anwendung der Medianfilterung bevorzugt in zeitlicher Richtung, auf die Übertragungsfunktion den natürlichen Eindruck eines schwachen Hintergrundgeräusches zu bewahren und während Sprachaktivität durch Anwendung der Medianfilterung auf das Betragsspektrum des Sprachsignals eine starke Unterdrückung der "musical tones" zu erreichen. Die getrennte Erkennung von Sprachpausen und Sprachaktivität ist zur Ermittlung eines mittleren Geräuschsignals während Sprachpausen ohnehin vorgesehen und bekannt, so daß hierfür kein gesonderter Aufwand erforderlich ist. Die erfindungsgemäßen Verfahren sind einfach implementierbar.
  • Das Prinzip der Medianfilterung an sich ist allgemein bekannt (z.B. Mitra, S.K.: Handbook for Digital Signal Processing, John Wiley & Sons, 1993).
  • Die Medianfilterung ist auch zur Verarbeitung von Sprachsignalen bereits bekannt. So wird beispielsweise in DE 32 43 231 A1 und DE 32 43 232 A1 ein Medianfilter auf aufeinanderfolgende Kurzzeitmittelwerte, die ein Maß für die mittlere Leistung von Sprachsignalabschnitten darstellen, als Glättungsfilter angewandt. Durch Vergleich der geglätteten Wertefolge mit einem Schwellwert werden Sprachpausen erkannt. Eine Störbefreiung des Sprachsignals findet dadurch nicht statt.
  • In IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-23, No. 6, Dec. 1975, S. 552-557 ist die Anwendung eines Medianfilters im Kombination mit einem linearen Glättungsfilter auf Abtastwerte der Intensität eines Sprachsignals beschrieben. Eine Signalverarbeitung im Spektralbereich ist nicht vorgesehen und es kann nur eine geringe Störüberlagerung bewältigt werden.
  • FIG. 1 zeigt ein Beispiel für ein Eingangssignal E und ein mit einem Medianfilter der Länge 3 gefiltertes Ausgangssignal A. Das Medianfilter sortiert zuerst die Werte innerhalb des Datenfensters F und gibt dann den mittleren Wert med aus. Das Medianfilter blendet kurze Signalspitzen aus, erhält aber die übrigen Signalflanken.
  • Für das Beispiel der Anwendung eines Medianfilters der Länge 3 auf ein geräuschreduziertes Betragsspektrum eines Sprachsignals gilt bei zeitlicher Filterung
    Figure imgb0005
    oder bei Filterung in Frequenzrichtung
    Figure imgb0006
    Der Filterung am Betrag ist die Filterung am Betragsquadrat im Prinzip gleichwertig.
  • Die Wirkung der Medianfilterung auf die Verringerung der "musical tones" ist veranschaulicht anhand von Darstellungen eines typischen zeitlichen und spektralen Verlaufs solcher "musical tones". Dargestellt ist das Betragsspektrum eines in einer Sprachpause gewonnenen und mit Hilfe der spektralen Subtraktion geschätzten Ausgangssignals. Da in der Sprachpause keine Sprachanteile vorliegen treten vor allem die "musical tones" deutlich in Erscheinung.
  • Als Beispiel der spektralen Subtraktion wurde verwendet: Standardverfahren mit Betragskennlinie, 20% Hintergrundgeräusch (b = 0,2), ohne Überschätzfaktor (a = 1,0).
  • Als Geräusch-Beispiel wurde verwendet: Fahrzeuginnengeräusch bei 140km/h, 12kHz Abtastfrequenz, Segmentlänge 512 Werte, die letzten 256 Werte jedes Segments werden zu Null gesetzt, die ersten 256 Werte jedes Segments werden mit Hanning-Fenster multipliziert, Segmente sind halb überlappt, d.h. alle 10,67ms ein neues Segment.
  • FIG. 2 zeigt zunächst über der Frequenz (linear 0 bis 6kHz) das Spektrum für 4 zeitlich aufeinanderfolgende Segmente (Zeitabstand 10,67ms, Index I) und dann über der Zeit (0 bis 2,5sec) den Signalverlauf für 4 aufeinanderfolgende diskrete Frequenzen (Index i), stellvertretend für alle 256 Frequenzen. Es zeigt sich als typische Eigenschaft der "musical tones", daß der Verlauf über der Frequenz relativ ausgedehnte Störungen (breite Impulse) aufweist, wogegen der Verlauf über der Zeit einen starken impulsartigen Charakter (schmale Impulse) hat. Genau der impulsartige Charakter in zeitlicher Richtung macht die Medianfilterung hier besonders effektiv. Eine impulsartige Störung wird gelöscht. Für impulsartige Störungen mit breiteren Impulsen ist eine größere Fensterlänge des Medianfilters erforderlich. Im Gegensatz zu linearen Filterungsverfahren (Glättungsfilter, "linear smoother") findet keine Verschmierung des Signalverlaufs statt. Die Darstellung der in zeitlicher Richtung mit dem 3-er Median gefilterten Signale in FIG. 3 verdeutlicht diese Eigenschaft. Das gefilterte Signal zeigt im Zeitverlauf deutlich einen glatteren Verlauf. Im Frequenzverlauf sind einige der (breiteren) Impulse durch die Filterung in Zeitrichtung ebenfalls gelöscht.
  • Bei Sprachaktivität führt die Anwendung des Medianfilters in zeitlicher Richtung der einzelnen Spektrallinien zu einer Verbesserung der Sprachqualität, da impulsartige Störungen des Sprachspektrums "repariert" werden. Das Sprachsignal selbst wird nur sehr gering verändert. Eine Erhöhung der Fensterlänge von 3 auf 5 (in Zeitrichtung) ergibt zwar eine noch bessere Auslöschung der "musical tones", es wird aber bereits ein schwacher echoartiger Charakter der Sprache hörbar.
  • Das Medianfilter kann anstatt am Ausgangssignal auch am Eingangssignal, vor der spektralen Subtraktion, durchgeführt werden. Im Idealfall können dadurch keine "musical tones" entstehen, die sonst alternativ durch die Nachfilterung mit dem Medianfilter gelöst werden. Die Medianfilterung am Eingangssignal kann dann vorteilhaft sein, wenn "musical tones" die verschiedenen implementierten Verarbeitungsschritte im spektralen Substraktionsfilter (außer der Kennlinienfunktion) beeinflussen. Es soll im weiteren nicht auf mögliche Vor- oder Nachteile einer Medianfilterung am Ein- oder Ausgangssignal eingegangen werden. Im Prinzip sind beide Möglichkeiten gegeben und von speziellen Fällen der Implementierung abgesehen gleichwertig.
  • Das Medianfilter kann anstatt am Betragsspektrum eines Sprachsignals auch an der Übertragungsfunktion K ausgeführt werden.
  • Es gilt für den 3-er Median:
    Figure imgb0007
    oder
    Figure imgb0008
    FIG. 4 zeigt die Übertragungsfunktion K über der Zeit und über der Frequenz. Dargestellt ist der gleiche Ausschnitt wie in FIG. 2. Die Übertragungsfunktion zeigt ein ähnliches Verhalten wie das Ausgangssignal in FIG. 2.
  • FIG. 5 zeigt die in zeitlicher Richtung mit dem 3-er Median gefilterte Übertragungsfunktion. Dargestellt ist der gleiche Ausschnitt wie in FIG. 3. Auch hier ist die Medianfilterung in zeitlicher Richtung aus den gleichen Gründen wie beim Ausgangssignal äußerst effektiv.
  • Die effektive Unterdrückung der "musical tones" durch die Medianfilterung kann wie folgt erklärt werden:
    • Ein Eingangssignal mit einer impulsartigen Störung verursacht die entsprechende impulsartige Änderung der Übertragungsfunktion. Im ursprünglichen Geräusch gehört dieser lokale Impuls zum natürlichen Geräusch und wird deshalb nicht als besonders störend empfunden. Das Spektrum des Eingangssignals wird mit der Übertragungsfunktion multipliziert. Die impulsartige Störung wird dadurch zusätzlich verstärkt ist jetzt als "musical tone" hörbar.
  • Die impulsunterdrückende Eigenschaft der Medianfilterung wirkt sich besonders deutlich auf die verstärkte Impulsstörung und somit auf die "musical tones" aus. Die Medianfilterung wirkt reparierend auf die impulsartige Störung.
  • Die Medianfilterung am Betragsspektrum des Eingangs- oder Ausgangssignals ergibt gegenüber der Medianfilterung an den Übertragungswerten den höheren Gewinn an der Unterdrückung von impulsartigen Störungen, kann aber auch zu besonders in Sprachpausen auffallenden als unnatürlich empfundenen Veränderungen führen, während die Medianfilterung der Übertragungswerte in Sprachpausen im wesentlichen zu einer reinen Dämpfung des Signals führt, das dadurch leiser aber natürlich klingt. Im Idealfall entstehen keine "musical tones". Eine bevorzugte Ausführungsform der Erfindung macht sich dies zunutze, indem die Medianfilterung bei Sprachaktivität am Betragsspektrum und in Sprachpausen an den Übertragungswerten durchgeführt wird. Die erforderliche Sprach-Pausen-Entscheidung steht bei der spektralen Subtraktion ohnehin zur Verfügung, da die Bildung des Geräuschschätzwertes nur in den Sprachpausen durchgeführt wird.
  • Anstelle der Medianfilterung in Zeitrichtung wie beschrieben kann auch eine Medianfilterung in Frequenzrichtung gemäß Gleichung (6) durchgeführt werden. Die gegebenen ausführlichen Darlegungen gelten für die Filterung in Frequenzrichtung analog. Es zeigt sich, daS mit abnehmender Zahl der Abtastwerte innerhalb eines Zeitsegments die Medianfilterung in Frequenzrichtung an Vorteilen gewinnt gegenüber der Filterung in Zeitrichtung und umgekehrt.
  • Bei den gebräuchlichen Werten für die Segmentlänge nach Zeit- und Abtastwerten ist die Anwendung der Medianfilterung in Zeitrichtung besonders vorteilhaft.
  • Bei der beschriebenen Anwendung einer Medianfilterung in zeitlicher Richtung mit den beispielhaft angegebenen Werten für Abtastrate und Fensterlänge ist die Fensterlänge wie im Beispiel angegeben gleich der minimalen Medianfensterlänge 3. Größere Fensterlängen führen in diesem Falle zwar zu einer weiteren Unterdrückung der "musical tones", u.U. aber auch zu einer als unnatürlich empfundenen Einebnung des Sprachsignals. Die bevorzugte Fensterlänge ist daher 3 wie beispielhaft angegeben. Für zeitlich kürzere Segmente kann eine größere Fensterlänge bei der Medianfilterung angemessen sein. Der von dem Fenster der zeitlichen Medianfilterung abgedeckte Zeitintervall sollte aber 50ms nicht überschreiten.
  • Für die Filterung in Frequenzrichtung orientiert sich die Fensterlänge des Medianfilters an der Datensegmentlänge. Die Datensegmentlänge sollte im zahlenmäßig beschriebenen Beispiel kleiner als 64 sein, das Medianfilter nicht größer als 5.

Claims (11)

1. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion, dadurch gekennzeichnet, daß das Betragsspektrum des Sprachsignals einer Medianfilterung unterzogen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Medianfilterung auf das Betragsspektrum des gestörten Eingangssignals angewandt wird.
3. Verfahren nach einem der Ansprüche 1 und 2, dadurch gekennzeichnet, daß die Medianfilterung auf das Betragsspektrum des Ausgangssignals der spektralen Subtraktion angewandt wird.
4. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit Hilfe der spektralen Subtraktion, wobei aus einer vorgebbaren Übertragungskennlinie eine Übertragungsfunktion für die spektrale Subtraktion bestimmt wird, dadurch gekennzeichnet, daß die Übertragungsfunktion einer Medianfilterung unterzogen werden.
5. Verfahren zur Geräuschreduktion eines gestörten Sprachsignals mit einer Kombination vorhergehender Ansprüche.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Medianfilterung in Sprachpausen auf die Übertragungswerte und bei Sprachaktivität auf das Betragsspektrum des Sprachsignals angewandt wird.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Medianfilterung in zeitlicher Richtung angewandt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters drei aufeinanderfolgende Zeitsegmente umfaßt.
9. Verfahren nach Anspruch 7 oder Anspruch 8, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters kleiner als 50ms ist.
10. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Medianfilterung in Frequenzrichtung angewandt wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die Fensterlänge des Medianfilters nicht mehr als 5 Frequenzwerte umfaßt.
EP95101977A 1994-02-23 1995-02-14 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals Expired - Lifetime EP0669606B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4405723A DE4405723A1 (de) 1994-02-23 1994-02-23 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
DE4405723 1994-02-23

Publications (3)

Publication Number Publication Date
EP0669606A2 true EP0669606A2 (de) 1995-08-30
EP0669606A3 EP0669606A3 (de) 1995-10-25
EP0669606B1 EP0669606B1 (de) 1999-09-22

Family

ID=6510930

Family Applications (1)

Application Number Title Priority Date Filing Date
EP95101977A Expired - Lifetime EP0669606B1 (de) 1994-02-23 1995-02-14 Verfahren zur Geräuschreduktion eines gestörten Sprachsignals

Country Status (4)

Country Link
EP (1) EP0669606B1 (de)
AT (1) ATE185014T1 (de)
DE (2) DE4405723A1 (de)
ES (1) ES2138669T3 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998003965A1 (de) * 1996-07-19 1998-01-29 Daimler-Benz Ag Verfahren zur verringerung von störungen eines sprachsignals
EP1065656A2 (de) * 1994-05-13 2001-01-03 Sony Corporation Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL206300B1 (pl) 2001-03-07 2010-07-30 T Mobile Deutschland Gmbht Mobile Deutschland Gmbh Sposób poprawy jakości mowy na przezroczystych kodowo trasach telekomunikacyjnych oraz układ do stosowania tego sposobu
DE10136491B4 (de) * 2001-03-07 2004-11-25 T-Mobile Deutschland Gmbh Verfahren und Vorrichtung zur Verbesserung der Sprachqualität auf transparenten Telekommunikations-Übertragungswegen
DE10311587A1 (de) * 2003-03-14 2004-09-23 Volkswagen Ag Verfahren und Vorrichtung zum Freisprechen in einem Kraftfahrzeug
DE102011002976A1 (de) 2011-01-21 2012-07-26 Behr Gmbh & Co. Kg Kältemittelkondensatorbaugruppe
EP2673778B1 (de) * 2011-02-10 2018-10-10 Dolby Laboratories Licensing Corporation Nachbearbeitung mit medianfilterung von rauschunterdrückungsverstärkungen
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0110467A1 (de) * 1982-11-23 1984-06-13 Philips Kommunikations Industrie AG Anordnung zur Erkennung von Sprachpausen
US4837828A (en) * 1982-05-12 1989-06-06 Nec Corporation Pattern feature extracting system
DE4229577A1 (de) * 1992-09-04 1994-03-10 Daimler Benz Ag Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3243232A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
US4682230A (en) * 1986-03-21 1987-07-21 Rca Corporation Adaptive median filter system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837828A (en) * 1982-05-12 1989-06-06 Nec Corporation Pattern feature extracting system
EP0110467A1 (de) * 1982-11-23 1984-06-13 Philips Kommunikations Industrie AG Anordnung zur Erkennung von Sprachpausen
DE4229577A1 (de) * 1992-09-04 1994-03-10 Daimler Benz Ag Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ICASSP 81, Bd.1, 30. M{rz 1981, ATLANTA Seiten 1086 - 1088 T.L.PETERSEN ET AL. 'Acoustic suppression in the context of a perceptual model' *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1065656A2 (de) * 1994-05-13 2001-01-03 Sony Corporation Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
EP1065656A3 (de) * 1994-05-13 2001-01-10 Sony Corporation Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
WO1998003965A1 (de) * 1996-07-19 1998-01-29 Daimler-Benz Ag Verfahren zur verringerung von störungen eines sprachsignals
US6687669B1 (en) 1996-07-19 2004-02-03 Schroegmeier Peter Method of reducing voice signal interference

Also Published As

Publication number Publication date
DE59506864D1 (de) 1999-10-28
ATE185014T1 (de) 1999-10-15
EP0669606B1 (de) 1999-09-22
ES2138669T3 (es) 2000-01-16
EP0669606A3 (de) 1995-10-25
DE4405723A1 (de) 1995-08-24

Similar Documents

Publication Publication Date Title
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE69420027T2 (de) Rauschverminderung
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
DE69131739T2 (de) Einrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
DE3689035T2 (de) Rauschminderungssystem.
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE69124005T2 (de) Sprachsignalverarbeitungsvorrichtung
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE4243831A1 (de) Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
WO1995007597A1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
EP0669606B1 (de) Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
DE102013011761A1 (de) Kraftfahrzeug mit einer Freisprecheinrichtung und Verfahren zur Erzeugung eines Frequenzganges für Freisprecheinrichtungen
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
EP0623995A1 (de) Anordnung zur geräuschabhängigen Regelung der Lautstärke eines Autoradios
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT CH DE ES FR GB IT LI NL

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT CH DE ES FR GB IT LI NL

17P Request for examination filed

Effective date: 19951117

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 19981112

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: DAIMLERCHRYSLER AG

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE ES FR GB IT LI NL

REF Corresponds to:

Ref document number: 185014

Country of ref document: AT

Date of ref document: 19991015

Kind code of ref document: T

ITF It: translation for a ep patent filed
REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: KIRKER & CIE SA

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 59506864

Country of ref document: DE

Date of ref document: 19991028

ET Fr: translation filed
REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2138669

Country of ref document: ES

Kind code of ref document: T3

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

REG Reference to a national code

Ref country code: CH

Ref legal event code: PUE

Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH

Free format text: DAIMLERCHRYSLER AG#EPPLESTRASSE 225#70567 STUTTGART (DE) -TRANSFER TO- HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH#BECKER-GOERING-STRASSE 16#76307 KARLSBAD (DE)

NLS Nl: assignments of ep-patents

Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH

Effective date: 20050630

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20110228

Year of fee payment: 17

Ref country code: CH

Payment date: 20110223

Year of fee payment: 17

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59506864

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59506864

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

Effective date: 20120411

Ref country code: DE

Ref legal event code: R081

Ref document number: 59506864

Country of ref document: DE

Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US

Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE

Effective date: 20120411

REG Reference to a national code

Ref country code: NL

Ref legal event code: V1

Effective date: 20120901

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: NUANCE COMMUNICATIONS, INC., US

Effective date: 20120924

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120229

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120229

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120901

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20140113

Year of fee payment: 20

Ref country code: IT

Payment date: 20140213

Year of fee payment: 20

Ref country code: FR

Payment date: 20140211

Year of fee payment: 20

Ref country code: AT

Payment date: 20140128

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20140212

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20140417

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59506864

Country of ref document: DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20150213

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK07

Ref document number: 185014

Country of ref document: AT

Kind code of ref document: T

Effective date: 20150214

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20150213

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20150826

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20150215