EP1212751A1 - Verfahren zur unterdrückung von störrauschen in einem signalfeld - Google Patents

Verfahren zur unterdrückung von störrauschen in einem signalfeld

Info

Publication number
EP1212751A1
EP1212751A1 EP00958032A EP00958032A EP1212751A1 EP 1212751 A1 EP1212751 A1 EP 1212751A1 EP 00958032 A EP00958032 A EP 00958032A EP 00958032 A EP00958032 A EP 00958032A EP 1212751 A1 EP1212751 A1 EP 1212751A1
Authority
EP
European Patent Office
Prior art keywords
signal
level
distribution function
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP00958032A
Other languages
English (en)
French (fr)
Other versions
EP1212751B1 (de
Inventor
Wolfgang Tschirk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG Oesterreich
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG Oesterreich filed Critical Siemens AG Oesterreich
Priority to AT00958032T priority Critical patent/ATE280990T1/de
Publication of EP1212751A1 publication Critical patent/EP1212751A1/de
Application granted granted Critical
Publication of EP1212751B1 publication Critical patent/EP1212751B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the invention relates to a method for suppressing noise in a signal field containing a plurality of signal components, each of which takes on a value of a signal level and can be applied over an ordinate range, in which a distribution function is determined from the signal field, which function as a function of the signal level to each of them possible signal level argument values indicates the proportion of those signal components whose signal level is lower than the argument value.
  • Signal fields to which the method according to the invention relates are used, for example, in pattern recognition systems to describe the patterns to be recognized.
  • the process involved in recognizing a pattern can usually be roughly divided into the following steps: acquisition of the pattern, preprocessing and classification.
  • the first step is used to convert the original pattern, e.g. a spoken utterance by a user or a document written with text, in a format suitable for processing, e.g. in the form of an electronic signal, which can be coded analog or digital, or a file of a predetermined format.
  • a signal / file format e.g. a raster image recording in a format suitable for further processing.
  • speech recognition for example, the utterance spoken by the user is made via an acoustic input, such as a microphone, recorded, possibly pre-amplified and converted into an electrical voice signal in analog or digitized form.
  • the pattern recorded in this way is fed to the preprocessing, which achieves a reduction in the data to be processed and better distinguishability of the patterns to be determined.
  • the result of the preprocessing is a signal field, in the example of speech recognition a spectrum of the utterance that can be fed to the classification system.
  • an essential step of the preprocessing is a signal analysis of the pattern signal, for example, for the electrical voice signal of the user utterance, a signal analysis in the form of a division into time frames (discretization) and a subsequent Fourier transformation, each carried out within a time frame, with a breakdown into frequency bands , from which a time-frequency spectrum is obtained.
  • this involves a - generally considerable - data reduction.
  • the signal field comprises a large number of signal components, each of which takes on its own value of the same type, referred to here as signal level.
  • the signal components are naturally arranged within the signal field, this order being expressed with the help of one or more ordinate parameters.
  • a signal field realized as a time-frequency spectrum consists of many spectral components, each of which has its own energy level; the spectral components are sorted by time frame and frequency band.
  • Each signal component can thus be assigned its own area element of the ordinate area in the ordinate area over which the signal field extends, so that the area elements as a whole cover the ordinate area of the signal field.
  • the ordinate range can be one, two or more dimensions; accordingly, the area elements are line, area or ( ⁇ -dimensional) volume elements.
  • the signal field obtained by the preprocessing is fed to the classification system. This determines which recognition class - i.e. in the case of speech recognition, a word of a given vocabulary or a word string - a match is given.
  • the recognition result is then output, for example on a display, or used for further processing, e.g. when entering a command from a language-oriented institution.
  • the execution of a pattern recognition is often made more difficult by noise that overlaps the patterns to be recognized.
  • the performance of a speech recognition system can be greatly reduced or completely thwarted by acoustic background noise.
  • the reference noise signal E r is simulated on the basis of predefined or estimated noise parameters.
  • the subtraction of the energy levels can in this case, for example, with reference to the linear energy levels are carried out or “convolutively” in the logarithmic range, ie in the formula mentioned the corresponding logarithms log E, etc. are used instead of the energy levels E, E r , E 1 .
  • EP 0 062519 AI teaches the elimination of interference in radar signals, the distribution of the interference being known, although arbitrary, in contrast to previously known methods which require a Rayleigh or Weibull-based interference. Knowledge of the distribution or at least the associated probability density from which it can be derived is a necessary prerequisite for the application of the procedure in this document. Without knowledge of such a distribution, troubleshooting cannot be carried out using this method.
  • EP 0 548527 A2 teaches a method for generating a level scale transformation of a digital radiographic image, e.g. X-ray image in which a cumulative distribution function of the image is used to modify the level distribution of the image to be substantially linear in the area of interest.
  • the task on which this method is based namely a representation of the image in a form suitable for further investigation by viewing the image, is of course significantly different from that of the invention.
  • EP 0 720358 A2 relates to the compression of video signal data.
  • the level distribution of an image is modified so that each input level range is assigned a larger output level range, the more input levels fall within the former range, the total output level range being limited.
  • the task namely a more uniform signal compression, is significantly different from that of the invention. Accordingly, a target distribution is not aimed at in the compression according to this document; rather, the compression rule only uses parameters derived from the input signal. None of the documents mentioned shows the use of a reference distribution function obtained from training or reference data.
  • a distribution function is determined from the signal field which, as a function of the signal level, specifies for each of its possible signal level argument values how large the proportion of those signal components whose signal level is lower than that Is the argument value, and then, based on a comparison of the distribution function with a predetermined reference distribution function, the signal level values of the signal field are modified, the sequence of the signal components with respect to their energy levels remaining unchanged, and the same modified signal levels are assigned to signal components whose original signal levels are the same, one being used as the reference distribution function function obtained from a distribution function determined for a set of reference patterns.
  • This solution enables noise suppression for additive or convolutive background noise as well as for mixed forms or even more complicated disturbances.
  • the effect of the interference on the signal parameters of the signal field can be considerably reduced by the method according to the invention, even without more detailed knowledge of noise parameters.
  • sequence of the signal components with regard to their energy levels means that for any (any) pair of signal components for which the original level of the first component is smaller than that of the second, after the modified levels have been assigned to the signal components of the modified level of the first component is not greater than (ie equal to or less than) the modified level of the second component.
  • the reference distribution function can be determined in advance, for example with the aid of experiments. If there is a training or comparison set of patterns, these or a selected part of these patterns can be used to generate the reference distribution function. A function obtained from a distribution function that has been determined for a set of reference patterns can then advantageously be used as the reference distribution function.
  • the distribution function of the reference pattern set itself can be used as a reference distribution function, or a level function obtained from it, for example by simplifying the course of the curve.
  • the signal level values are favorably modified by starting from a division of the value range into a number of level ranges for each level range
  • a second level is selected for which the value of the distribution function comes as close as possible to the mentioned value of the reference distribution function
  • a particularly expedient implementation of the invention is carried out for a signal field implemented as a time and / or frequency-dependent spectrum of an acoustic signal.
  • FIG. 2 shows the energy distribution function for the spectrogram of FIG. 1
  • FIG. 5 and 6 show a spectrogram and the associated energy distribution function, which result from spectral subtraction from the spectrogram of FIG. 3;
  • Figure 7 shows a reference distribution function for applying the invention
  • Speech signals that are generated against a background of noise e.g. that are spoken in the interior of a motor vehicle is affected by noise from various sources, e.g. the vehicle engine, other vehicles, wind, etc., and often represent a mixture of high-energy sound components with unpredictable statistics regarding their timing and frequency.
  • the performance of speech recognition systems therefore quickly decreases as the background noise increases, for example because the vehicle speed is increasing.
  • the embodiment of the invention shown below relates to the recognition of the English words' zero ', one', 'two', etc. to 'nine' for the digits 0 to 9 by means of a speech recognition system in a car of the small car type.
  • the time axis covers a time period of 0.992 s, which is divided into 31 frames T of the same duration (so-called 'frames').
  • the spectral energy is represented logarithmically in all figures as energy level E, with the unit dB and with reference to a basic level common to all figures.
  • FIG. 2 shows the energy distribution function P1 (E) for the spectrum S shown in FIG. 1.
  • An energy distribution function P (E) assigned to a spectrum S indicates, as a function of the energy level E, how many of the spectral components S (T, F) of the spectrum S in question have an energy level which is lower than the specified energy level E, this number being Value between 0 and 1 is expressed based on the total number of spectral components.
  • the energy distribution function Pl has a value of 0.6 at 48 dB, because 60% of the energy levels of the spectrum S1 are below 48 dB.
  • a large (small) slope in the energy distribution function P (E) corresponds to an energy level whose value occurs in a large (small) number of components of the associated spectrum S.
  • An energy distribution function can also be determined for a large number of spectra and then indicates the proportion of the components of all spectra with an energy level below the specified level E, divided by the total number of components of all these spectra.
  • FIG. 3 shows the spectrogram S2 for uttering the word by the same speaker at a car speed of 113 km / h (70 mph).
  • the background energy level increases from approximately 25 dB to approximately 65 dB, the peaks of the utterance are at 85 dB, the speech components below 70 dB are lost in the background noise.
  • the associated energy distribution function P2 (E) is shown in FIG. 4.
  • the energy distribution functions Pl and P2 show that the spectral distribution of the noise-free signal S1 is significantly different from that of the noisy signal S2, in which the background energy is approximately 40 dB higher than in the case of the noise-free signal.
  • a noise reduction of the noisy signal can be achieved by means of the spectral subtraction according to SV Vaseghi and BP Milner mentioned at the beginning.
  • the spectrum S is transformed using a reference noise signal S r in that in each spectral component S (T, F) the corresponding component S r (T, F) of the reference noise according to the expression
  • the spectral subtraction achieves a reduction in the noise level only on individual components of the resulting spectrum S3. Because depending on the relative phase position of the reference noise and the actual background, only a part of the components of the spectrum are canceled out, the noise component of the component in question, in other components the level remains approximately the same, in some there is even an amplification (albeit whose effect is mitigated due to the logarithmic representation of the energy level). This can be seen in FIG. 5, in particular, from the low level components starting from time frame 20.
  • the noise suppression for the present speech signal S2 is carried out using a predefined “template function”, namely an energy distribution function serving as a reference.
  • template function namely an energy distribution function serving as a reference.
  • the energy distribution function of the sum of those spectra that are used for training the speech recognition system for the word in question would be used as the template function; since the word to be recognized is naturally not known in advance to the speech recognition system, this is not possible.
  • an energy distribution function is selected as the template function, which is expedient in relation to the totality of the words of the vocabulary to be recognized.
  • that energy distribution function can be used as template function PO, which was derived from the spectra of the entire training vocabulary.
  • the fitting function is monotonic due to the monotony condition (2), ie R (E ⁇ ) ⁇ R (E 2 ) if E ⁇ E.
  • Table 1 shows an exemplary program pseudo code by means of which the adaptation of a spectrum according to the invention takes place.
  • the spectrum S to be adjusted is stored in the field variable S, which over the intervals Tmin. , Tmax and Fmin. , Fmax of the time-frequency space is defined.
  • the energy levels of the spectrum can take discrete values in the range of values between the energy levels Emin and Emax.
  • a reference energy distribution function is specified as a reference function in the field variable PO.
  • the energy distribution functions are as fields over the given interval Emin. , Emax defines.
  • the associated energy distribution function is determined and stored in the field variable PS.
  • an energy level EO + dE assigned to the level value E0 is determined. This is done by incrementing the distance dE of this level starting from the value 0 (while loop) until the value of the energy distribution function at the assigned level PS [EO + dE] becomes the value of the template function at the given level value P0 [E0] am next comes.
  • the abs function is used to determine the absolute amount.
  • the decrementing step dec (dE) that takes place after the while loop is used to correct the value for which the condition mentioned actually applies.
  • the level value E0 represents the modified level to the energy level EO + dE. It is then checked whether the level difference dE is positive (greater than 0); in this case all components S [T, F] of the spectrum, whose energy level falls in the interval between EO and EO + dE, are set to the energy level EO.
  • the field S contains the noise-suppressed spectrum S 'according to the invention.
  • FIG. 7 shows the template function P0 (E0) used in the exemplary embodiment, namely the energy distribution function for the abovementioned training vocabulary, i.e. the English numerals 'zero' to 'nine'.
  • the noise suppression according to the invention with the aid of the aforementioned reference function PO results in the spectrum shown as spectrogram S4 in FIG. 8; the associated energy distribution function P4 is shown in FIG. 9.
  • a level range of the original spectrum can be treated together in such a way that the associated spectral components are assigned a uniformly modified level.
  • This modified level is compared with a representative level value of the relevant level range, e.g. the mean value of the level range or the median of the levels via the components found in the level range as described above, for example by means of the adaptation function.
  • the method according to the invention was tested and at the same time compared with the method of spectral subtraction.
  • the utterances to be recognized were spoken under various background noise conditions, namely driving at 80 km / h (50 mph) and at 113 km / h (70 mph).
  • the events in which the speech recognition system incorrectly recognized the utterance were counted, with only substitution errors being taken into account.
  • 30% of the utterances were recognized incorrectly.
  • the proportion of incorrect detections decreased to 23.3%.
  • the proportion of errors decreased to 13.3%, that is to say a reduction in the error rate by almost half in comparison to the known method.
  • the method according to the invention is particularly suitable for suppressing superimposed interference which does not or only slightly disturb the monotonous relation of the spectral components of the utterance.
  • Such disturbances include, for example, white noise, a linear or non-linear amplification or attenuation of the entire spectrum and various phenomena of the Lombard effect, which is known to change the Stiinme and the pronunciation depending on the mental state of the speaker, such as stress.
  • an artifact can be seen around time frame 16 in the upper frequency bands, which is not contained in the actual utterance (FIG. 1) and has not been eliminated by the method according to the invention.
  • Such artifacts can be found in most cases e.g. with the help of median filtering downstream of the noise suppression.
  • the method of noise suppression according to the invention changes the signal to be processed even in the absence of noise, since the submission function PO is generally different from the energy distribution function of the undisturbed utterance. This may result in a queue for detection errors in the noiseless case.
  • the training of the speech recognition system can be carried out, for example, with the aid of spectra which have already been adapted to the template function used with the method according to the invention.
  • the training vocabulary can contain these spectra instead of or together with the original spectra.
  • Another approach is to use the method according to the invention only when the presence of noise is determined, e.g. in the period shortly before the utterance; otherwise the speech signal is fed to speech recognition without noise suppression. This approach does not require a noise estimate that goes beyond the mere detection of noise.
  • the adaptation of the spectrum can be significantly simplified in that only a fixed number of parameters of the template function are used, and the adaptation takes place with reference to these parameters.
  • the mean and spread of the distribution of the template function could be used.
  • the mean value and scatter of the distribution of the energy distribution function are also determined, and a linear transformation for the energy level of the spectrum is determined from the comparison of these parameters with those of the reference function. The application of this linear transformation results in a modified spectrum in which the disturbing effect of the background noise is significantly reduced.
  • a higher-order transformation can be used, for example, which is determined by comparing a corresponding number of parameters of the energy distribution function and the reference function, for example higher moments of the distributions.
  • the method according to the invention is not only suitable for reducing interference for acoustic signals, such as voice signals; rather, it can also be used for patterns of a different type, which can be described by a feature size plotted over a one-dimensional or multidimensional field. Possible areas of application are accordingly, for example, character recognition in written text or the like, reconstruction and / or evaluation of images, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Abstract

Zur Unterdrückung von Störrauschen in einem Signalfeld (S2), z.B. einem Spektrum eines Sprachsignals, enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich (T, F) auftragbar sind, wird zunächst die Verteilungsfunktion (P2(E)) des Signalfelds bestimmt. Diese gibt als Funktion des Signalpegels an, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als ihr Argumentwert (E) ist. Sodann werden aufgrund eines Vergleiches der Verteilungsfunktion (P2(E)) mit einer Referenzverteilungsfunktion, welche aus einer für einen Satz von Referenzmustern bestimmten Verteilungsfunktion gewonnen wurde, die Signalpegelwerte des Signalfeldes modifiziert, wobei die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngliche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden.

Description

VERFAHREN ZUR UNTERDRÜCKUNG VON STÖRRAUSCHEN IN EINEM SIGNALFELD
Die Erfindung betrifft ein Verfahren zur Unterdrückung von Störrauschen in einem Signalfeld enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich auftragbar sind, bei welchem aus dem Signalfeld eine Verteilungsfunktion bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel-Argumentwerte angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert ist.
Signalfelder, auf die das erfindungsgemäße Verfahren sich bezieht, werden beispielsweise in Mustererkennungssystemen zur Beschreibung der zu erkennenden Muster verwendet. Der bei der Erkennung eines Musters ablaufende Vorgang kann gewöhnlich grob in die folgenden Schritte aufgeteilt werden: Erfassung des Musters, Vorverarbeitung und Klassifizierung.
Der erste Schritt, die Mustererfassung, dient der Umwandlung des originalen Musters, z.B. eine gesprochene Äußerung eines Benutzers oder ein mit Text beschriebenes Schriftstück, in ein für die Verarbeitung geeignetes Format, z.B. in Form eines elektronischen Signals, das analog oder digital codiert sein kann, oder einer Datei vorgegebenen Formats. Hierher gehört auch die Umwandlung eines Signal/ Dateiformats, z.B. einer Rasterbildaufnahme, in ein für die weitere Verarbeitung geeignetes Format. Im Falle einer Spracherkennung beispielsweise wird die vom Benutzer gesprochene Äußerung über eine akustische Eingabe, wie z.B. ein Mikrophon, aufgenommen, gegebenenfalls vorverstärkt und in ein elektrisches Sprachsignal in analoger oder digitalisierter Form umgesetzt.
Das so erfasste Muster wird der Vorverarbeitung zugeführt, die eine Reduktion der zu verarbeitenden Daten sowie eine bessere Unterscheidbarkeit der zu bestimmenden Muster erreicht. Ergebnis der Vorverarbeitung ist ein Signalfeld, im Beispiel der Spracherkennung ein Spektrum der Äußerung, das dem Klassifizierungssystem zugeführt werden kann. Häufig ist ein wesentlicher Schritt der Vorverarbeitung eine Signalanalyse des Mustersignals, z.B. kann für das elektrische Sprachsignal der Benutzer-Äußerung eine Signalanalyse in Form einer Aufteilung in Zeitrahmen (Diskretisierung) und einer nachfolgenden, jeweils innerhalb eines Zeitrahmens durchgeführten Fourier-Transformation mit Zerlegung in Frequenzbänder erfolgen, aus der ein Zeit-Frequenz-Spektrum gewonnen wird. Damit ist zugleich eine - im allgemeinen beträchtliche - Datenreduktion verbunden. Ein weiterer, unter Umständen wesentlicher Schritt der Vorverarbeitung ist die Verringerung von Störrauschen in dem Mustersignal bzw. dem daraus gewonnen Signalfeld. Das Signalfeld umfasst eine Vielzahl von Signalkomponenten, die jeweils einen eigenen, hier als Signalpegel bezeichneten Wert gleichen Typs annehmen. Die Signalkomponenten sind naturgemäß innerhalb des Signalfelds geordnet, wobei diese Ordnung mit Hilfe eines oder mehrerer Ordinatenparameter ausgedrückt ist. Beispielsweise besteht ein als Zeit-Frequenz- Spektrum realisiertes Signalfeld aus vielen Spektralkomponenten, die jeweils einen eigenen Energiepegel annehmen; die Spektralkomponenten sind nach Zeitrahmen und Frequenzband geordnet. Jeder Signalkomponente kann somit in dem Ordinatenbereich, über den sich das Signalfeld erstreckt, ein eigener Bereichselement des Ordinatenbereichs zugeordnet werden, sodass die Bereichselemente insgesamt den Ordinatenbereich des Signalfeld abdecken. In Abhängigkeit von der Anzahl der Ordinatenparameter kann der Ordinatenbereich ein-, zwei- oder mehrdimensional sein; dementsprechend sind die Bereichselemente Linien-, Flächen- oder (π-dimensionale) Volumselemente.
Das durch die Vorverarbeitung erhaltene Signalfeld wird dem Klassifizierungssystem zugeführt. Dieses ermittelt, zu welcher Erkennungsklasse - d.i. im Falle der Spracherkennung ein Wort eines vorgegebenen Wortschatzes oder eine Wortkette - eine Übereinstimmung gegeben ist. Das Erkennungsresultat wird dann Ausgabe zugeführt, beispielsweise auf einer Anzeige, oder zur weiteren Verarbeitung genutzt, z.B. bei einer Befehlseingabe einer sprachorientierten Einrichtung.
Die Ausführung einer Mustererkennung wird oftmals durch Störrauschen erschwert, das die zu erkennenden Muster überlagert. Beispielsweise kann die Leistungsfähigkeit eines Sprach- erkennungssystems durch akustischen Hintergrundlärm stark herabgesetzt oder ganz vereitelt werden.
Bei bekannten Verfahren zur Rauschunterdrückung wird in der Vorverarbeitung eine Abschätzung der dem Signal unterliegenden Rauschparameter durchgeführt und aufgrund dieser Abschätzung ein Referenzrauschsignal abgezogen wird. Derartige Verfahren der spektrale Subtraktion für Sprachsignale werden von S. V. Vaseghi und B. P. Milner in 'Noise Compensation Models for Hidden Markov Model Speech Recognition in Adverse Environments', IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 1, Januar 1997, S. 11- 21 beschrieben. Hierbei wird von dem Energiepegel E jeweils einer Spektralkomponente des Spektrums die entsprechende Komponente eines Referenzrauschsignals Er gemäß dem Ausdruck
F = ss( E, Er ) = ( Eb - α Er b )1 b
„subtrahiert". Das Referenzrauschsignal Er wird aufgrund vorgegebener oder abgeschätzter Rauschparameter simuliert. Die Subtraktion der Energiepegel kann hierbei z.B. in Bezug auf die linearen Energiepegel durchgeführt werden oder „konvolutiv" im logarithmischen Bereich, d.h. in der genannten Formel stehen anstelle der Energiepegel E, Er, E1 die entsprechenden Logarithmen log E, etc.
Der Subtraktionsansatz hat jedoch den Mangel, dass die zur Beschreibung des Rauschens notwendigen Parameter nicht mit der erforderHchen Genauigkeit und Vollständigkeit bekannt sein können. Beispielsweise ist für eine korrekte Rauschkompensation nicht nur die Kenntnis der Rauschamplituden, sondern auch der Phasenbeziehungen erforderlich, was - wenn überhaupt - nur mit sehr großem Aufwand möglich ist. Störungen, die keine additive oder konvolutive Überlagerung darstellen, wie z.B. Mischformen aus additiven und konvo- lutiven Störungen, sind noch schwieriger zu behandeln.
Die EP 0 062519 AI lehrt die Beseitigung von Störungen in Radarsignalen, wobei die Verteilung der Störungen bekannt, wenn auch beliebig ist, im Gegensatz zu vorher bekannten Verfahren, die eine Rayleigh- oder Weibull-verteüte Störung verlangen. Die Kenntnis der Verteilung oder zumindest der zugehörenden Wahrscheinlichkeitsdichte, aus der man sie ableiten kann, ist notwendige Voraussetzung für die Anwendung des Verfahrens dieses Dokuments. Ohne Kenntnis einer solchen Verteilung ist eine Störungsbeseitigung nach diesem Verfahren somit nicht durchführbar.
Die EP 0 548527 A2 lehrt ein Verfahren zur Erzeugung einer Transformation der Pegelskala eines digitalen radiographischen Bildes, z.B. Röntgenbildes, in welchem eine kumulative Verteilungsfunktion des Bildes verwendet wird, um die Pegelverteilung des Bildes dahingehend zu modifizieren, dass sie im interessierenden Bereich im wesentlichen linear ist. Die diesem Verfahren zugrundeliegende Aufgabenstellung, nämlich eine Darstellung des Bildes in einer für die weitere Untersuchung durch Betrachtung des Bildes geeigneten Form, unterscheidet sich freilich wesentlich von jener der Erfindung.
Die EP 0 720358 A2 betrifft die Kompression von Videosignaldaten. Dabei wird die Pegelverteilung eines Bildes so modifiziert, dass jedem Eingangspegelbereich ein um so größerer Ausgangspegelbereich zugeordnet wird, je mehr Eingangspegel in ersteren Bereich fallen, wobei der gesamte Ausgangspegelbereich begrenzt ist. Auch in diesem Fall ist die Aufgabenstellung, nämlich eine gleichmäßigere Signalkompression, von jener der Erfindung wesentlich verschieden. Dem entsprechend wird bei der Kompression nach dieser Schrift eine Zielverteilung nicht angestrebt; vielmehr verwendet die Kompressionsvorschrift lediglich aus dem Eingangssignal abgeleitete Parameter. Aus keinen der genannten Dokumente geht die Verwendung einer aus Trainings- oder Referenzdaten gewonnenen Referenzverteilungsfunktion hervor.
Es ist daher Aufgabe der Erfindung, ein Verfahren zur Rauschunterdrückung aufzuzeigen, das die Beeinträchtigung des Signalfelds durch das Störrauschen hinsichtlich der nachfolgenden Auswertung, insbesondere einer Klassifizierung, zuverlässig verringert. Weiters soll die Rauschunterdrückung ohne nähere Kenntnis der Eigenschaften des Rauschens und ohne eine Simulation eines Hintergrundrauschens durchführbar sein.
Die Aufgabe wird von einem Verfahren der eingangs genannten Art gelöst, bei welchem erfindungsgemäß aus dem Signalfeld eine Verteilungsfunktion bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel- Argumentwerte angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert ist, und sodann aufgrund eines Vergleiches der Verteilungsfunktion mit einer vorbestimmten Referenzverteilungsfunktion die Signalpegelwerte des Signalfeldes modifiziert werden, wobei die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngliche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden, wobei als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet wird.
Diese Lösung ermöglicht eine Rauschunterdrückung sowohl für additiven bzw. konvoluti- ven Rauschhintergrund als auch für Mischformen oder noch kompliziertere Störungen. Durch das erfindungsgemäße Verfahren kann die Auswirkung der Störung auf die Signalparameter des Signalfelds beträchtlich reduziert werden, auch ohne nähere Kenntnis von Rauschparametern.
Die Forderung, dass die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt, bedeutet, dass für jedes (beliebige) Paar von Signalkomponenten, für welche der ursprüngliche Pegel der ersten Komponente kleiner als jener der zweiten ist, nach der Zuweisung modifizierter Pegel zu den Signalkomponenten der modifizierte Pegel der ersten Komponente nicht größer (also gleich oder kleiner) als der modifizierte Pegel der zweiten Komponente ist.
Es sei darauf hingewiesen, dass sich aus den oben genannten Schriften keinerlei Hinweise entnehmen lassen, dass eine Modifikation anhand einer Referenzverteilungsfunktion ohne Berücksichtigung der Art des Störrauschens erfolgreich sein könnte. Der für das erfindungsgemäße Verfahren wesentliche Parameter, die Referenzverteilungsfunktion, kann im vorhinein z.B. mit Hilfe von Versuchen bestimmt werden. Wenn ein Trainings- oder Vergleichssatz von Mustern vorliegt, können diese oder eine ausgewählter Teil dieser Muster zur Erzeugung der Referenzverteilungsfunktion dienen. Vorteilhafterweise kann dann als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet werden. Dabei kann die Verteilungsfunktion des Referenzmustersatzes selbst als Referenzverteilungsfunktion genutzt werden, oder eine aus ihr, z.B. durch Vereinfachung des Kurvenverlaufs, gewonnene Funktion des Pegels.
Günstigerweise erfolgt die Modifizierung der Signalpegelwerte dadurch, dass ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich
- zu einem diesen Pegelbereich repräsentierenden, ersten Pegel unter Anwendung der Verteilungsfunktion und des Werts der Referenzverteilungsfunktion an dem ersten Pegel ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion dem genannten Wert der Referenzverteilungsfunktion möglichst nahe kommt, und
- jenen Signalkomponenten, deren Signalpegel zwischen dem ersten und dem zweiten Pegel fällt, der Wert des ersten Pegels zugewiesen wird.
Dies erlaubt eine möglichst weitgehende Anpassung des Signals an die Referenzverteilungsfunktion. Im einfachsten Falle der Aufteilung des Signalpegel- Wertebereichs in Pegelbereiche wird für jeden auftretenden Signalpegel ein eigener Bereich zugeordnet, sodass jeder Pegelbereich mit dem zugehörenden Signalpegel identifiziert werden kann.
Des weiteren wird eine besonders zweckmäßige Realisierung der Erfindung für ein als zeit- und/oder frequenzabhängiges Spektrum eines akustischen Signals realisiertes Signalfeld ausgeführt.
Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels erläutert, das die Spracherkennung eines gesprochenen Wortes in einem Kraftfahrzeugwagen betrifft. Dabei werden die beigefügten Figuren herangezogen, welche zeigen:
Fig. 1 ein Spektrogramm einer Äußerung unter geräuschfreien Bedingungen;
Fig. 2 die Energieverteilungsfunktion zu dem Spektrogramm der Fig. 1;
Fig. 3 und 4 ein Spektrogramm und die zugehörende Energieverteilungsfunktion einer Äußerung mit Geräuschhintergrund;
Fig. 5 und 6 ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich durch spektrale Subtraktion aus dem Spektrogramm der Fig. 3 ergeben; Fig. 7 eine Referenzverteilungsfunktion zur Anwendung der Erfindung;
Fig. 8 und 9 ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich aus dem Spektrogramm der Fig. 3 mittels der erfindungsgemäßen Rauschreduktion anhand der Referenzverteilungsfunktion der Fig. 7 ergeben.
Sprachsignale, welche vor einem Geräuschhintergrund, wie z.B. jenem im Inneren eines Kraftfahrzeugwagens in Betrieb, gesprochen werden, werden durch Geräusche beeinträchtigt, die von verschiedenen Quellen, z.B. dem Fahrzeugmotor, anderen Fahrzeugen, Wind usw., stammen können und oftmals eine Mischung von Schallkomponenten hoher Energie mit nicht vorhersehbarer Statistik hinsichtlich ihres Zeitablaufs und ihrer Frequenz darstellen. Die Leistungsfähigkeit von Spracherkennungssystemen nimmt daher schnell ab, wenn der Geräuschhintergrund zunimmt, beispielsweise weil die Fahrzeuggeschwindigkeit größer wird. Das im folgenden dargestellte Ausführungsbeispiel der Erfindung betrifft die Erkennung der englischen Wörter 'zero', One', 'two', usw. bis 'nine' für die Ziffern 0 bis 9 mittels eines Spracher kennungssystems in einem Wagen vom KFZ-Kleinwagentyp.
Fig. 1 zeigt ein Spektrogramm Sl eines Spektrums zu einer Äußerung des englischen Wortes 'seven', gesprochen von einem männlichen Sprecher in dem Wagen unter geräuschfreien Bedingungen.
In den in dem Ausführungsbeispiel behandelten Spektren erfasst die Zeitachse einen Zeitraum von 0.992 s, die in 31 Rahmen T gleicher Zeitdauer (sogenannte 'frames') aufgeteilt ist. Der Frequenzbereich erstreckt sich von f = 200 Hz bis 3.4 kHz und ist in 9 Bänder F mit ungefähr logarithmisch abgestufter Bandbreite und -abstand aufgeteilt. Die spektrale Energie ist in allen Figuren logarithmisch als Energiepegel E, mit der Einheit dB und bezogen auf einen allen Figuren gemeinsamen Grundpegel, dargestellt.
Spektren dieser Art wurden in Spracherkennungsversuchen der Anmelderin für Äußerungen über den genannten Wortschatz verwendet. In dem verwendeten Spracherkennungs- system erfolgt nach einer Vorverarbeitung des zu erkennenden Äußerung mittels einer Rauschunterdrückung wie weiter unten näher erläutert eine Klassifizierung, bei welcher ein geschichtetes neuronales Netzwerk, welches mit einem Trainingswortschatz trainiert worden war, als Mustererkennungssystem dient. Für den Trainingswortschatz wurde der Wortschatz von einer Anzahl von Sprechern - vorteilhafterweise sowohl männliche als auch weibliche Personen - in einer Umgebung, die der Sprechumgebung des Wagens entspricht, gesprochen, und zwar für jedes Wort jeweils mehrere Male unter rauschfreien Bedingungen des Rauschhintergrunds (Ruhe des Wagens). Fig. 2 zeigt die Energieverteilungsfunktion P1(E) zu dem in Fig. 1 dargestellten Spektrum S . Eine einem Spektrum S zugeordnete Energieverteilungsfunktion P(E) gibt als Funktion des Energiepegels E an, wie viele der spektralen Komponenten S(T,F) des betreffenden Spektrums S einen Energiepegel aufweisen, der niedriger als der angegebene Energiepegel E ist, wobei diese Zahl als Wert zwischen 0 und 1 bezogen auf die Gesamtzahl der spektralen Komponenten ausgedrückt ist. Beispielsweise hat die Energieverteilungsfunktion Pl bei 48 dB den Wert 0.6, denn 60 % der Energiepegel des Spektrums Sl liegen unter 48 dB. Eine große (kleine) Steigung in der Energieverteilungsfunktion P(E) entspricht einem Energiepegel, dessen Wert in einer großen (kleinen) Anzahl von Komponenten des zugehörenden Spektrums S auftritt. Eine Energieverteilungsfunktion kann auch für eine Vielzahl von Spektren bestimmt werden und gibt dann den Anteil der Komponenten sämtUcher Spektren mit Energiepegel unter dem angegeben Pegel E, geteilt durch die Gesamtzahl der Komponenten aller dieser Spektren, an.
Fig. 3 zeigt das Spektrogramm S2 zu einer Äußerung des Wortes von demselben Sprecher bei einer Wagengeschwindigkeit von 113 km/h (70 mph). Wie aus dem Vergleich der Spektrogramme Sl und S2 (Fig. 1 bzw. 3) ersichtlich, bleiben lediglich die Sprachanteile hoher Energie wenig beeinträchtigt, während die übrigen Anteile von den Geräuschen maskiert sind. Der Hintergrund-Energiepegel steigt von ungefähr 25 dB auf ungefähr 65 dB, die Spitzen der Äußerung sind bei 85 dB, die Sprachanteile unterhalb 70 dB gehen im Geräuschhintergrund unter. Die zugehörende Energieverteilungsfunktion P2(E) ist in Fig. 4 dargestellt.
Die Energieverteilungsfunktionen Pl und P2 (Fig. 2 bzw. 4) zeigen, dass die spektrale Verteilung des rauschfreien Signals Sl deutlich verschieden von jener des geräuschbehafteten Signals S2 ist, in dem die Hintergrundenergie um ungefähr 40 dB höher liegen als im Falle des rauschfreien Signals.
Mittels der eingangs erwähnten spektralen Subtraktion nach S. V. Vaseghi und B. P. Milner ist eine Rauschreduktion des verrauschten Signals erreichbar. Entsprechend dem weiter oben Gesagten, wird das Spektrum S unter Verwendung eines Referenzrauschsignals Sr dadurch transformiert, dass in jeder Spektralkomponente S(T,F) die jeweils entsprechende Komponente Sr(T,F) des Referenzrauschens gemäß dem Ausdruck
S'(T,F) = E0 = ss( E, Er ) = ( Eb - α Er b )1/b , wobei E = S(T,F) und
Er - Sr(T,F)
„subtrahiert" wird. Die Rauschreduktion nach der spektralen Subtraktion wurde im Rahmen der weiter unten beschriebenen Versuche der Anmelderin für das Spektrum S2 durchge- führt. In Fig. 5 und 6 sind das Spektrum S3 = ss( S2, Sr ), das sich bei der Anwendung der spektralen Subtraktion auf das Spektrogramm S2 ergibt, und die zugehörende Energieverteilungsfunktion P3 dargestellt; dabei wurden jene Parameter b und α verwendet, bei denen die Ergebnisse von durchgeführten Spracherkennungstests für verschiedene Parameter b und am besten waren, sowie ein aus der Aufnahme der Äußerung S2 gewonnenes Referenzrauschen Sr. Wie aus Fig. 5 und 6 ersichtlich ist, ist das Hintergrundrauschen ist um ca. 10 dB niedriger als im unbehandelten Signal S2, jedoch ist ein beträchtlicher Anteil der Sprachanteile niedriger Energie immer noch vom restlichen Rauschen verdeckt. Daher verbessert sich die Erfolgsquote bei der Spracherkennung nur geringfügig.
Da das als Referenzrauschsignal Sr verwendete Signal nur statistisch mit dem Rauschen übereinstimmt, welches als Hintergrund des verrauschten Signals S2 vorliegt, erzielt die spektrale Subtraktion eine Reduktion des Rauschpegels nur an einzelnen Komponenten des sich ergebenden Spektrums S3. Denn in Abhängigkeit von der relativen Phasenlage des Referenzrauschens und des tatsächlichen Hintergrunds kommt es nur für einen Teil der Komponenten des Spektrums zu einer Auslöschung des Rauschanteils der betreffenden Komponente, in anderen Komponenten bleibt der Pegel ungefähr gleich, in manchen ergibt sich sogar eine Verstärkung (wenngleich deren Auswirkung aufgrund der logarithrrύschen Darstellung der Energiepegel gemildert ist). Dies ist in Fig. 5 besonders an den Niedrigpegel- Anteilen ca. ab Zeitrahmen 20 zu erkennen.
Gemäß der Erfindung erfolgt die Rauschunterdrückung für das vorliegende Sprachsignal S2 unter Verwendung einer vorgegebenen „Vorlagefunktion", nämlich einer als Referenz dienenden Energieverteilungsfunktion. Vorteilhafterweise geschieht dies derart, dass die Pegel der Spektralkomponenten des Sprachsignal-Spektrums S2 an die Vorlagefunktion ange- passt werden. Die Energieverteilungsfunktion des sich ergebenden Spektrums stimmt dann im wesentlichen mit der Vorlagefunktion überein.
Idealerweise würde als Vorlagefunktion die Energieverteilungsfunktion der Summe jener Spektren verwendet werden, welche beim Training des Spracherkennungssystems für das betreffende Wort (hier 'seven') verwendet werden; da das zu erkennende Wort dem Sprach- erkennungssystem naturgemäß nicht im vorhinein bekannt ist, ist dies nicht möglich. Es wird stattdessen eine Energieverteilungsfunktion als Vorlagefunktion gewählt, welche in Bezug auf die Gesamtheit der Worte des zu erkennenden Wortschatzes zweckmäßig ist. Beispielsweise kann jene Energieverteilungsfunktion als Vorlagefunktion PO verwendet werden, welche aus den Spektren des gesamten Trainingswortschatzes abgeleitet wurde. Die erfindungsgemäße Rauschunterdrückung durch Anpassung der Pegel an eine Vorlagefunktion erfolgt derart, dass Spektralkomponenten, deren Pegel E = S(T,F) ursprünglich gleich ist, auch nach der Anpassung einen gemeinsamen Pegel E0 = S'(T,F) aufweisen, d.h. für alle Spektralkomponenten gilt die Anpassungsbedingung
S,(Tι,Fι) = S,(T2,F2) wenn S(Tι,F,) = S(T2,F2) . (1)
De weiteren soll die Abfolge der Komponenten hinsichtlich ihrer Energiepegel nicht geändert werden, d.h.
S'(Tι,Fι) < S'(T2,F2) wenn S(Tι,Fι) < S(T2,F2) ; (2) diese Monotoniebedingung bewahrt bei der Rauschunterdrückung des Spektrums S in ein modifiziertes Spektrum S' die Strukturen des Spektrums zumindest in qualitativer Hinsicht.
Die Rauschunterdrückung kann als Konsequenz der Anpassungsbedingung (1) durch eine Anpassungsfunktion R(E) vollständig beschrieben werden, die jedem ursprünglichen Pegel E einen modifizierten Pegel E0 = R(E) zuordnet, auf welchen jene Spektralkomponenten gesenkt (oder gehoben) werden, die ursprünglich den Pegel E aufwiesen. Die Anpassungsfunktion ist wegen der Monotoniebedingung (2) monoton, d.h. R(E}) < R(E2) wenn E < E . Erfindungsgemäß erfolgt dies Anpassung des Spektrums derart, dass für die zugeordnete Energie Verteilungsfunktion gilt P0(E0) = P(E). Daher ist die Anpassungsfunktion R(E) eindeutig durch den Vergleich der Energieverteilungsfunktion P2 des vorliegenden Signals mit der Vorlagefunktion PO bestimmt. Da die Energieverteilungsfunktionen P,P0 gleichfalls monoton wachsende Funktionen sind, kann formal daraus die Anpassungsfunktion mittels Umkehrung der Vorlagefunktion PO ermittelt werden.
Tabelle 1 zeigt einen beispielhaften Programm-Pseudocode, durch den die erfindungsgemäße Anpassung eines Spektrums erfolgt. Das anzupassende Spektrum S ist hierbei in der Feldvariablen S gespeichert, das über die Intervalle Tmin . . Tmax sowie Fmin . . Fmax des Zeit-Frequenz-Raumes definiert ist. Die Energiepegel des Spektrums können diskrete Werte in dem Wertebereich zwischen den Energiepegeln Emin und Emax annehmen. In der Feldvariablen PO ist eine Referenz-Energieverteilungsfunktion als Vorlagefunktion vorgegeben. Die Energieverteilungsfunktionen sind als Felder über das genannte Intervall Emin . . Emax definiert.
Zunächst (ab der Marke PS/S) wird die zugehörende Energie Verteilungsfunktion ermittelt und in der Feldvariablen PS abgelegt. Hierzu wird für jede Komponente S [ T , F ] des Spektrums der Pegelwert ermittelt, und sämtliche Komponenten der Energieverteilungsfunktion { PS/S } for E = Emin to Emax :
PS[E] = 0; end for; for T = Tmin to Tmax : for F = Fmin to Fmax : for E = S[T,F] to Emax : inc(PS[E]); end for; end for; end for;
{ RED/S } for E0 = Emin to Emax : if P0[E0] > PS[E0] : dE = 0; while E0+dE<=Emax and abs( P0[E0] -PS[E0+dE] )<=abs( P0[E0] -PS[E0+dE-1 ] ) : inc(dE) ; end while; dec(dE); if dE > 0 : for T = Tmin to Tmax : for F = Fmin to Fmax : if S[T , F] > E0 and S [T , F ] <= EO+dE :
S [T , F] = E0 ; end if ; end for ; end for ; end if ; end if ; end for ;
Tabelle 1
PS, deren zugeordneter Energiepegel über diesem Pegel wert liegt, werden inkrementiert. Hierbei bezeichnet ine die Inkrementierfunktion.
Sodann (ab der Marke RED/S) wird in einer for-Schleife für jeden der diskreten Werte E0, sofern an diesem Pegel die Energie Verteilungsfunktion PS [ E0 ] kleiner als die Vorlagefunktion P0 [ E0 ] ist, die folgenden Schritte ausgeführt: Es wird zunächst ein dem Pegelwert E0 zugeordneter Energiepegel EO+dE bestimmt. Dies geschieht dadurch, dass der Abstand dE dieser Pegel ausgehend von dem Wert 0 solange inkrementiert wird (while-Schleife), bis der Wert der Energieverteilungsfunktion am zugeordneten Pegel PS [ EO+dE ] dem Wert der Vorlagefunktion am gegebenen Pegelwert P0 [ E0 ] am nächsten kommt. Hierzu wird die Funktion abs zur Ermittlung des Absolutbetrages verwendet. Der nach der while-Schleife stattfindende Dekrementierschritt dec ( dE ) dient der Korrektur auf jenen Wert, für welchen die genannte Bedingung tatsächlich zutrifft. Nun stellt der Pegelwert E0 den modifizierten Pegel zu dem Energiepegel EO+dE dar. Sodann wird geprüft, ob der Pegelabstand dE positiv (größer als 0) ist; in diesem Fall werden sämtliche Komponenten S [ T , F ] des Spektrums, deren Energiepegel in das Intervall zwischen EO und EO+dE fällt, auf den Energiepegel EO gestellt. Nach dem letzten Durchlauf der äußeren for-Schleife enthält das Feld S das erfindungsgemäß rauschunterdrückte Spektrum S'.
Fig. 7 zeigt die in dem Ausführungsbeispiel verwendete Vorlagefunktion P0(E0), nämlich die Energieverteilungsfunktion für den oben genannten Trainingswortschatz, d.s. die englischen Zahlwörter 'zero' bis 'nine'. Für die verrauschte Äußerung S2 ergibt die erfindungsgemäße Rauschunterdrückung mit Hilfe der genannten Vorlagefu ktion PO das als Spektrogramm S4 in Fig. 8 gezeigte Spektrum; die zugehörende Energieverteilungsfunktion P4 ist in Fig. 9 wiedergegeben.
Zur Verringerung des Aufwands bei der Durchführung des erfindungsgemäßen Verfahrens kann jeweils ein Pegelbereich des ursprüngUchen Spektrums derart gemeinsam behandelt werden, dass den zugehörenden Spektralkomponenten ein einheitUcher modifizierter Pegel zugewiesen wird. Dieser modifizierte Pegel wird in Bezug auf einen respräsentativen Pegelwert des betreffenden Pegelbereichs, z.B. den Mittelwert des Pegelbereichs oder den Mediän der Pegel über die in den in den Pegelbereich f aUenden Komponenten, wie oben beschrieben bestimmt, beispielsweise mittels der Anpassungsfunktion.
Bei von der Anmelderin durchgeführten ersten Spracherkennungsversuchen mit dem oben beschriebenen Spracherkennungssystem wurde das erfindungsgemäße Verfahren getestet und zugleich mit dem Verfahren der spektralen Subtraktion vergUchen. Die zu erkennenden Äußerungen wurden unter verschiedenen Bedingungen des Rauschhintergrunds gesprochen, nämlich Fahrt bei 80 km/h (50 mph) und bei 113 km/h (70 mph). Es wurden hierbei die Ereignisse gezählt, bei denen das Spracherkennungssystem die Äußerung falsch erkannt hat, wobei nur Substitutionsfehler berücksichtigt wurden. Bei einer Kontrollreihe, in der die Signale ohne Rauschreduktion der Mustererkennung zugeführt wurden, wurden 30 % der Äußerungen falsch erkannt. Bei Einsatz der spektralen Subtraktion als Rauschreduktionsverfahren ging der Anteil der fehlerhaften Erkennungen auf 23.3 % zurück. Mit dem erfindungsgemäßen Verfahren verringerte sich der Fehleranteil auf 13.3 %, also eine Reduktion der Fehlerrate um fast die Hälfte im Vergleich zum bekannten Verfahren.
Das erfindungsgemäße Verfahren eignet sich insbesondere zur Unterdrückung überlagernder Störungen, welche die Monotonierelation der Spektralkomponenten der Äußerung nicht oder nur geringfügig stören. Zu derartigen Störungen gehören z.B. weißes Rauschen, eine lineare oder nichtlineare Verstärkung oder Abschwächung des gesamten Spektrums sowie verschiedene Phänomene des Lombard-Effekts, der bekanntermaßen eine Änderung der Stiinme und der Aussprache in Abhängigkeit von dem psychischen Zustand des Sprechers, z.B. Stress, beschreibt.
In dem Spektrogramm S4 der Fig. 8 ist um Zeitrahmen 16 bei den oberen Frequenzbändern ein Artefakt erkennbar, welches in der eigentlichen Äußerung (Fig. 1) nicht enthalten ist und von dem erfindungsgemäßen Verfahren nicht beseitigt wurde. Derartige Artefakte können in den meisten FäUen z.B. mit Hilfe einer der Rauschunterdrückung nachgeschalteten Medianfilterung elirniniert werden.
Das erfindungsgemäße Verfahren der Rauschunterdrückung verändert das zu verarbeitende Signal auch bei Abwesenheit von Rauschen, da die Vorlagefunktion PO im aUgemeinen von der Energieverteilungsfunktion der ungestörten Äußerung verschieden ist. Hierdurch kann unter Umständen eine QueUe für Erkennungsfehler im rauschfreien Fall entstehen. Um dies zu vermeiden, kann beispielsweise das Training des Spracherkennungssystems mit Hilfe von Spektren durchgeführt werden, die bereits mit dem erfindungsgemäßen Verfahren an die verwendete Vorlagefunktion angepasst worden sind. Der Trainingswortschatz kann diese Spektren anstelle von oder gemeinsam mit den ursprüngUchen Spektren enthalten.
Ein anderer Ansatz besteht darin, das erfindungsgemäße Verfahren nur dann einzusetzen, wenn das VorUegen von Rauschen festgesteUt wird, z.B. im Zeitraum kurz vor der Äußerung; anderenfalls wird das Sprachsignal der Spracherkennung ohne Rauschunterdrückung zugeführt. Dieser Ansatz benötigt keine Abschätzung des Rauschens, die über die bloße Detektion von Rauschen hinausginge.
In einer vereinfachten Variante des erfindungsgemäßen Verfahrens kann die Anpassung des Spektrums dadurch deutlich vereinfacht werden, dass nur eine festgelegte Anzahl von Parametern der Vorlagefunktion verwendet werden, und die Anpassung im HinbUck auf diese Parameter erfolgt. Beispielsweise könnten Mittelwert und Streuung der Verteilung der Vorlagefunktion verwendet werden. Zur Anpassung werden gleichfalls Mittelwert und Streuung der Verteilung der Energieverteilungsfunktion ermittelt, und aus dem Vergleich dieser Parameter mit denen der Vorlagefunktion wird eine lineare Transformation für die Energiepegel des Spektrums bestimmt. Durch die Anwendung dieser linearen Transformation ergibt sich ein modifiziertes Spektrum, in welchem der störende Effekt des Hintergrundrauschens deutlich verringert ist. Sofern die Anwendung einer linearen Transformation nicht genügt, kann z.B. eine Transformation höherer Ordnung verwendet werden, die aus dem Vergleich einer entsprechenden Anzahl von Parametern der Energieverteilungsfunktion und der Vorlagefunktion, z.B. höherer Momente der Verteilungen, bestimmt wird. Das erfindungsgemäße Verfahren eignet sich nicht nur für die Störungsverringerung für akustische Signale, wie z.B. Sprachsignale; vielmehr kann es ebenso für Muster anderer Art verwendet werden, welches sich durch eine über einem ein- oder mehrdimensionalen Feld aufgetragene Merkmalsgröße beschreiben läßt. MögUche Einsatzgebiete sind demgemäß z.B. die Zeichenerkennung in geschriebenem Text od.dgl., Rekonstruktion und/ oder Auswertung von Bildern usf.

Claims

PATENTANSPRÜCHE
1. Verfahren zur Unterdrückung von Störrauschen in einem Signalfeld (S2) enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich (T,F) auf tragbar sind, bei welchem aus dem Signalfeld (S2) eine Verteilungsfunktion (P2(E)) bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel-Argumentwerte (E) angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert (E) ist, dadurch gekennzeichnet, dass aufgrund eines Vergleiches der Verteilungsfunktion (P2(E)) mit einer vorbestimmten Referenzverteilungsfunktion (P0(E)) die Signalpegelwerte des Signalfeldes modifiziert werden, wobei die Abfolge der Signalkomponenten hinsichtUch ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngUche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden, wobei als Referenzverteilungsfunktion (PO) eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Modifizierung der Signalpegelwerte ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich
- zu einem diesen Pegelbereich repräsentierenden, ersten Pegel (EO) unter Anwendung der Verteilungsfunktion (P2) und des Werts der Referenzverteilungsfunktion an dem ersten Pegel (P0(E0)) ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion (P2(E)) dem genannten Wert der Referenzverteilungsfunktion (P0(E0)) mögUchst nahe kommt, und
- jenen Signalkomponenten, deren Signalpegel zwischen dem ersten und dem zweiten Pegel fällt, der Wert des ersten Pegels (EO) zugewiesen wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass es für ein als zeit- und/oder frequenzabhängiges Spektrum eines akustischen Signals reaUsiertes Signalfeld ausgeführt wird.
EP20000958032 1999-09-10 2000-08-28 Verfahren zur unterdrückung von störrauschen in einem signalfeld Expired - Lifetime EP1212751B1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AT00958032T ATE280990T1 (de) 1999-09-10 2000-08-28 Verfahren zur unterdrückung von störrauschen in einem signalfeld

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT0155999A AT408286B (de) 1999-09-10 1999-09-10 Verfahren zur unterdrückung von störrauschen in einem signalfeld
AT155999 1999-09-10
PCT/AT2000/000230 WO2001020598A1 (de) 1999-09-10 2000-08-28 Verfahren zur unterdrückung von störrauschen in einem signalfeld

Publications (2)

Publication Number Publication Date
EP1212751A1 true EP1212751A1 (de) 2002-06-12
EP1212751B1 EP1212751B1 (de) 2004-10-27

Family

ID=3516023

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20000958032 Expired - Lifetime EP1212751B1 (de) 1999-09-10 2000-08-28 Verfahren zur unterdrückung von störrauschen in einem signalfeld

Country Status (6)

Country Link
US (1) US20020173276A1 (de)
EP (1) EP1212751B1 (de)
JP (1) JP2003509730A (de)
AT (1) AT408286B (de)
DE (1) DE50008440D1 (de)
WO (1) WO2001020598A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
US7676046B1 (en) 2005-06-09 2010-03-09 The United States Of America As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal
US7492814B1 (en) 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
CA3087814C (en) * 2017-11-13 2023-06-13 Loon Llc Beamforming calibration
US11176642B2 (en) * 2019-07-09 2021-11-16 GE Precision Healthcare LLC System and method for processing data acquired utilizing multi-energy computed tomography imaging

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4102301A (en) * 1971-03-26 1978-07-25 Imperial Chemical Industries Limited Apparatus for coating plastic film
US3718117A (en) * 1971-04-26 1973-02-27 Armstrong Cork Co Grooved rod coater
US4354449A (en) * 1978-07-03 1982-10-19 The Black Clawson Company Two sided coater
US4490691A (en) * 1980-06-30 1984-12-25 Dolby Ray Milton Compressor-expander circuits and, circuit arrangements for modifying dynamic range, for suppressing mid-frequency modulation effects and for reducing media overload
JPS57165774A (en) * 1981-04-03 1982-10-12 Nec Corp General purpose control device for rate of erroneously issued alarm
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US5164993A (en) * 1991-11-25 1992-11-17 Eastman Kodak Company Method and apparatus for automatic tonescale generation in digital radiographic images
JP3444449B2 (ja) * 1994-12-26 2003-09-08 ソニー株式会社 映像信号処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0120598A1 *

Also Published As

Publication number Publication date
US20020173276A1 (en) 2002-11-21
ATA155999A (de) 2001-02-15
EP1212751B1 (de) 2004-10-27
AT408286B (de) 2001-10-25
WO2001020598A1 (de) 2001-03-22
JP2003509730A (ja) 2003-03-11
DE50008440D1 (de) 2004-12-02

Similar Documents

Publication Publication Date Title
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
EP1145227B1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE69624383T2 (de) Verfahren zum kodieren und dekodieren von audiosignalen
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69420183T2 (de) Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
EP1214703A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE4010028C2 (de) Spracherkennungsverfahren
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
AT408286B (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
DE60105576T3 (de) Verfahren und vorrichtung zur spektralen anreicherung
DE10157535B4 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE69801674T2 (de) Beschleunigte konvolutionsrauschunterdrückung
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
EP1462779A1 (de) Verfahren und Vorrichtung zur Verarbeitung von Signalen, insbesondere von Motorgeräuschen
EP3403260B1 (de) Verfahren und vorrichtung zur aufbereitung eines verlustbehaftet komprimierten audiosignals
DE69416442T2 (de) Verfahren zur Spracherkennung mit Lernphase
EP1062659B1 (de) Verfahren und vorrichtung zur bearbeitung eines tonsignals
DE69423703T2 (de) Rauschunterdrückungseinrichtung zur Vorverarbeitung und/oder Nachbearbeitung von Sprachsignalen
DE4445983C2 (de) Verfahren zur Rauschunterdrückung und Vorrichtungen zur Durchführung der Verfahren

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20020330

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: SIEMENS AKTIENGESELLSCHAFT

17Q First examination report despatched

Effective date: 20030604

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20041027

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20041027

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20041027

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20041027

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: GERMAN

REF Corresponds to:

Ref document number: 50008440

Country of ref document: DE

Date of ref document: 20041202

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050127

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050127

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050127

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050207

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20050207

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050828

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20050828

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050831

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050831

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050831

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050831

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050831

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

ET Fr: translation filed
26N No opposition filed

Effective date: 20050728

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20051021

Year of fee payment: 6

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20060808

Year of fee payment: 7

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20060809

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20070301

BERE Be: lapsed

Owner name: *SIEMENS A.G.

Effective date: 20050831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050327

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20070828

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20080430

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20070831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20070828