EP1212751B1 - Method for suppressing spurious noise in a signal field - Google Patents

Method for suppressing spurious noise in a signal field Download PDF

Info

Publication number
EP1212751B1
EP1212751B1 EP20000958032 EP00958032A EP1212751B1 EP 1212751 B1 EP1212751 B1 EP 1212751B1 EP 20000958032 EP20000958032 EP 20000958032 EP 00958032 A EP00958032 A EP 00958032A EP 1212751 B1 EP1212751 B1 EP 1212751B1
Authority
EP
European Patent Office
Prior art keywords
signal
level
distribution function
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP20000958032
Other languages
German (de)
French (fr)
Other versions
EP1212751A1 (en
Inventor
Wolfgang Tschirk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to AT00958032T priority Critical patent/ATE280990T1/en
Publication of EP1212751A1 publication Critical patent/EP1212751A1/en
Application granted granted Critical
Publication of EP1212751B1 publication Critical patent/EP1212751B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the invention relates to a method for suppressing noise in a signal field containing a plurality of signal components, each of which has a value of Accept signal levels and can be applied over an ordinate range from which a distribution function is determined in the signal field, which is a function of the signal level for each of its possible signal level argument values indicates how large the portion is those signal components whose signal level is lower than the argument value that Signal level values of the signal field are modified so that the distribution function of the modified signal field is equal to a predetermined reference distribution, the Sequence of signal components regarding their energy level remains unchanged as well Signal components whose original signal levels are the same, modified the same Signal levels are assigned, and as a reference distribution function one from a distribution function, which has been determined for a set of reference patterns Function is used.
  • Signal fields to which the method according to the invention relates are, for example, in Pattern recognition systems used to describe the patterns to be recognized.
  • the process of recognizing a pattern can usually be roughly as follows Steps to be split: capturing the pattern, preprocessing and classification.
  • the first step, the pattern acquisition is used to convert the original pattern, e.g. a spoken utterance by a user or a document written with text, in a format suitable for processing, e.g. in the form of an electronic signal that can be coded analog or digital, or a file of a predetermined format.
  • a signal / file format e.g. a raster image recording
  • speech recognition for example the utterance spoken by the user via an acoustic input, such as. a microphone, recorded, possibly pre-amplified and in an electrical Voice signal implemented in analog or digitized form.
  • the pattern captured in this way is fed to the preprocessing, which is a reduction in the processing data and a better differentiation of the samples to be determined reached.
  • the result of the preprocessing is a signal field, in the example of speech recognition a spectrum of utterance that can be fed into the classification system.
  • An essential step of preprocessing is often a signal analysis of the pattern signal, e.g. a signal analysis can be carried out for the electrical voice signal of the user utterance Form of a division into time frames (discretization) and a subsequent one Fourier transformation carried out within a time frame with decomposition into Frequency bands occur from which a time-frequency spectrum is obtained. So that is at the same time a - generally considerable - data reduction.
  • Another, Under certain circumstances, an essential step of the preprocessing is the reduction of interference noise in the pattern signal or the signal field obtained therefrom.
  • the signal field comprises a large number of signal components, each of which takes on its own value, here referred to as signal level, of the same type.
  • the signal components are naturally arranged within the signal field, this order being expressed with the help of one or more ordinate parameters.
  • a signal field realized as a time-frequency spectrum consists of many spectral components, each of which has its own energy level; the spectral components are sorted by time frame and frequency band.
  • Each signal component can thus be assigned its own area element of the ordinate area in the ordinate area over which the signal field extends, so that the area elements as a whole cover the ordinate area of the signal field.
  • the ordinate range can be one, two or more dimensions; accordingly, the area elements are line, area or ( n- dimensional) volume elements.
  • the signal field obtained by the preprocessing becomes the classification system fed. This determines which recognition class - i.e. in the case of speech recognition a word of a given vocabulary or a word string - a match given is.
  • the recognition result is then output, for example on an advertisement, or used for further processing, e.g. when entering a command language-oriented facility.
  • the reference noise signal Er is simulated on the basis of predefined or estimated noise parameters.
  • the subtraction of the energy levels can be carried out, for example, in relation to the linear energy levels or “convolutively” in the logarithmic range, ie in the formula mentioned the corresponding logarithms log E, etc. are used instead of the energy levels E, E r , E '.
  • EP 0 062 519 A1 teaches the elimination of interference in radar signals, the distribution the disturbances are known, although arbitrary, in contrast to previously known ones Procedures that require a Rayleigh or Weibull distributed disorder. Knowing the Distribution or at least the associated probability density from which you can get them can derive is a necessary prerequisite for the application of the procedure this Document. Without knowledge of such a distribution, troubleshooting is possible this method is therefore not feasible.
  • EP 0 548 527 A2 teaches a method for generating a level scale transformation a digital radiographic image, e.g. X-ray image in which a cumulative Distribution function of the image is used to measure the level distribution of the image to modify it to be substantially linear in the area of interest.
  • the task underlying this method namely a representation of the image in a form suitable for further investigation by viewing the image, differs significantly from that of the invention.
  • EP 0 720 358 A2 relates to the compression of video signal data.
  • the level distribution of an image modified so that each input level range is larger Output level range is assigned, the more input levels fall in the former range, the entire output level range being limited.
  • the task is namely, more uniform signal compression, from that of the invention significantly different. Accordingly, the compression according to this document a goal distribution not aimed; rather, the compression rule only uses parameters derived from the input signal.
  • the object is achieved by a method of the type mentioned at the outset, in which according to the invention for the modification of the signal level values based on a division the range of values of the signal levels into a number of level ranges for each level range to a first level representing this level range using the Distribution function and the value of the reference distribution function at the first level second level is selected for which the value of the distribution function is the same Value as close as possible to the reference distribution function, and those signal components, whose signal level falls between the first and the second level, the value of the first level is assigned.
  • sequence of signal components in terms of their energy levels remains unchanged, means that for each (any) pair of signal components, for which is the original level of the first component less than that of the second, after the assignment of modified levels to the signal components, the modified level the first component is not greater than (or equal to or less than) the modified level of the second component.
  • the parameter essential for the method according to the invention can be e.g. be determined with the help of experiments.
  • these or a selected one Part of these patterns are used to generate the reference distribution function.
  • advantageously, can then be used as a reference distribution function from a distribution function that for function has been determined using a set of reference patterns become.
  • the distribution function of the reference pattern set itself can function as a reference distribution function be used, or one of them, e.g. by simplifying the course of the curve, won function of the level.
  • Speech signals which are generated against a background of noise, e.g. that inside one Motor vehicle vehicles in operation, are spoken by noise, from various sources, e.g. the vehicle engine, other vehicles, wind etc., and often a mixture of sound components of high energy with unpredictable statistics regarding their timing and frequency.
  • the performance of speech recognition systems therefore quickly decreases when the background noise increases, for example because the vehicle speed is higher becomes.
  • the exemplary embodiment of the invention shown below relates to detection the English words 'zero', 'one', 'two', etc. to 'nine' for the digits 0 to 9 using of a speech recognition system in a car of the small car type.
  • the time axis records a time period of 0.992 s, which is divided into 31 frames T of the same duration (so-called 'frames').
  • the spectral energy is logarithmic in all figures as energy level E, with the unit dB and related to a basic level common to all figures.
  • Spectra of this type were used in the applicant's speech recognition attempts for utterances used about the vocabulary mentioned.
  • speech recognition system used takes place after preprocessing the utterance to be recognized by means of a Noise suppression as explained in more detail below is a classification in which a layered neural network, which has been trained with a training vocabulary was used as a pattern recognition system.
  • the Vocabulary of a number of speakers - advantageously both male and female female persons - in an environment that corresponds to the speaking environment of the car, spoken, for each word several times under noise-free conditions of the background noise (rest of the car).
  • FIG. 2 shows the energy distribution function P1 (E) for the spectrum S1 shown in FIG. 1
  • An energy distribution function P (E) assigned to a spectrum S gives as a function of Energy level E on how many of the spectral components S (T, F) of the spectrum in question S have an energy level which is lower than the specified energy level E, this number as a value between 0 and 1 based on the total number of spectral Components is expressed.
  • the energy distribution function has P1 at 48 dB the value 0.6, because 60% of the energy levels of spectrum S1 are below 48 dB.
  • a large (small) slope in the energy distribution function P (E) corresponds to an energy level, whose value in a large (small) number of components of the associated Spectrum S occurs.
  • An energy distribution function can also be used for a large number of Spectra are determined and then gives the proportion of the components of all spectra with energy level below the specified level E divided by the total number of components of all of these spectra.
  • FIG. 3 shows the spectrogram S2 for an utterance of the word by the same speaker at a car speed of 113 km / h (70 mph).
  • Spectrograms S1 and S2 Fig. 1 and 3
  • the background energy level increases from about 25 dB to about 65 dB, the peaks of the utterance are at 85 dB, the speech components below 70 dB go in the noise background under.
  • the associated power distribution function P2 (E) is in FIG. 4 shown.
  • the energy distribution functions P1 and P2 show that the spectral distribution of the noise-free signal S1 is significantly different from that of the noisy one Signal S2 is in which the background energy is approximately 40 dB higher than in the case of the noise-free signal.
  • the spectral subtraction achieves a reduction in the noise level only on individual components of the resulting spectrum S3.
  • the noise component of the component in question in other components the level remains approximately the same, in some cases there is even an amplification (albeit whose effect is mitigated due to the logarithmic representation of the energy level). This can be seen in FIG. 5 in particular from the low-level components starting from time frame 20.
  • the noise suppression takes place for the present speech signal S2 using a given "template function", namely one as a reference serving power distribution function.
  • template function namely one as a reference serving power distribution function.
  • the energy distribution function would be the sum of those as a reference function Spectra are used which are used in training the speech recognition system for the the relevant word (here 'seven') can be used; because the word to be recognized is the speech recognition system is naturally not known in advance, this is not possible. It Instead, an energy distribution function is selected as a template function, which in Relative to the entirety of the words of the vocabulary to be recognized is appropriate. For example, that energy distribution function can be used as template function P0 which have been derived from the spectra of the entire training vocabulary.
  • sequence of the components should not be changed with regard to their energy levels, ie S '(T 1 , F 1 ) ⁇ S '(T 2 , F 2 ) if S (T 1 , F 1 ) ⁇ S (T 2 , F 2 ); this monotonous condition preserves the structures of the spectrum, at least qualitatively, when the spectrum S is suppressed into a modified spectrum S '.
  • the fitting function is monotonic due to the monotony condition (2), ie R (E 1 ) ⁇ R (E 2 ) if E 1 ⁇ E 2 .
  • the adaptation function R (E) is therefore clearly determined by comparing the energy distribution function P2 of the present signal with the reference function P0. Since the energy distribution functions P, P0 are also monotonically increasing functions, the adaptation function can be formally determined from this by reversing the reference function P0.
  • Table 1 shows an exemplary program pseudo code through which the invention Adaptation of a spectrum takes place.
  • the spectrum S to be adjusted is here in the Field variables S stored, which over the intervals Tmin .. Tmax and Fmin .. Fmax des Time-frequency space is defined.
  • the energy levels of the spectrum can be discrete values assume in the range of values between the energy levels Emin and Emax.
  • a reference energy distribution function is specified as a reference function P0.
  • the energy distribution functions are as fields over the given interval Emin. , Emax Are defined.
  • the associated power distribution function is determined and stored in the field variable PS.
  • the level value is determined for each component S [T, F] of the spectrum, and all components of the energy distribution function PS whose assigned energy level is above this level value are incremented.
  • inc denotes the increment function.
  • the level value E0 represents the modified one Level to the energy level E0 + dE. Then it is checked whether the level difference dE is positive (greater than 0); in this case all components S [T, F] of the spectrum, whose energy level falls in the interval between E0 and E0 + dE, to the energy level E0 posed. After the last run through the outer for loop, the field S contains the invention noise suppressed spectrum S '.
  • FIG. 7 shows the template function P0 (E0) used in the exemplary embodiment, namely the Energy distribution function for the above training vocabulary, d.s. the English Numerals 'zero' to 'nine'.
  • the result according to the invention Noise suppression with the aid of the mentioned template function P0 as the spectrogram S4 8 shown spectrum; the associated energy distribution function P4 is in FIG. 9 played.
  • a level range of the original spectrum can be treated together in this way be that the associated spectral components have a uniform modified level is assigned.
  • This modified level is related to a representative level value the relevant level range, e.g. the mean of the level range or the median the level across the components falling within the level range as described above determined, for example by means of the adaptation function.
  • the method according to the invention is particularly suitable for suppressing superimposed ones Disorders that the monotonic relation of the spectral components of the utterance do not or interfere only slightly.
  • Such disturbances include e.g. white noise, one linear or nonlinear amplification or attenuation of the entire spectrum as well various phenomena of the Lombard effect, which is known to change the Voice and pronunciation depending on the mental state of the speaker, e.g. Stress, describes.
  • the method of noise suppression according to the invention changes what is to be processed Signal even in the absence of noise, since the template function P0 generally from the energy distribution function of the undisturbed utterance is different. This can may create a source of noise-free detection errors. To do this To avoid, for example, training the speech recognition system with the help of spectra that are already performed with the method according to the invention the template function used has been adjusted. The training vocabulary can contain these spectra instead of or together with the original spectra.
  • Another approach is to use the method according to the invention only if if the presence of noise is detected, e.g. in the period shortly before the statement; otherwise, the speech signal of speech recognition without noise suppression fed. This approach does not require an estimate of the noise beyond that Detection of noise would go out.
  • the adaptation of the Spectrum can be significantly simplified by the fact that only a fixed number of Parameters of the template function are used, and the adjustment with regard to these parameters are done.
  • the mean and the spread of the distribution of the Template function can be used.
  • the mean and Scattering the distribution of the energy distribution function is determined, and from the comparison this parameter with those of the template function becomes a linear transformation for the Energy level of the spectrum determined.
  • this linear transformation there is a modified spectrum in which the disturbing effect of the background noise is significantly reduced.
  • a linear transformation is not is sufficient, e.g. a higher order transformation can be used which results from the Comparison of a corresponding number of parameters of the energy distribution function and the template function, e.g. higher moments of the distributions.
  • the method according to the invention is not only suitable for reducing interference for acoustic signals, e.g. Speech signals; rather, it can also be used for other types of patterns be used, which is characterized by a one-dimensional or multi-dimensional field applied feature size can be described. Accordingly, possible areas of application are e.g. character recognition in written, text or the like, reconstruction and / or evaluation of pictures etc.

Description

Die Erfindung betrifft ein Verfahren zur Unterdrückung von Störrauschen in einem Signalfeld enthaltend eine Vielzahl von Signalkomponenten, welche jeweils einen Wert eines Signalpegels annehmen und über einem Ordinatenbereich auftragbar sind, bei welchem aus dem Signalfeld eine Verteilungsfunktion bestimmt wird, welche als Funktion des Signalpegels zu jedem seiner möglichen Signalpegel-Argumentwerte angibt, wie groß der Anteil jener Signalkomponenten ist, deren Signalpegel niedriger als der Argumentwert ist, die Signalpegelwerte des Signalfeldes so modifiziert werden, dass die Verteilungsfunktion des modifizierten Signalfeldes gleich einer vorbestimmten Referenzverteilung ist, wobei die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt sowie Signalkomponenten, deren ursprüngliche Signalpegel gleich sind, gleiche modifizierte Signalpegel zugewiesen werden, und als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustem bestimmt worden ist, gewonnene Funktion verwendet wird.The invention relates to a method for suppressing noise in a signal field containing a plurality of signal components, each of which has a value of Accept signal levels and can be applied over an ordinate range from which a distribution function is determined in the signal field, which is a function of the signal level for each of its possible signal level argument values indicates how large the portion is those signal components whose signal level is lower than the argument value that Signal level values of the signal field are modified so that the distribution function of the modified signal field is equal to a predetermined reference distribution, the Sequence of signal components regarding their energy level remains unchanged as well Signal components whose original signal levels are the same, modified the same Signal levels are assigned, and as a reference distribution function one from a distribution function, which has been determined for a set of reference patterns Function is used.

Signalfelder, auf die das erfindungsgemäße Verfahren sich bezieht, werden beispielsweise in Mustererkennungssystemen zur Beschreibung der zu erkennenden Muster verwendet. Der bei der Erkennung eines Musters ablaufende Vorgang kann gewöhnlich grob in die folgenden Schritte aufgeteilt werden: Erfassung des Musters, Vorverarbeitung und Klassifizierung.Signal fields to which the method according to the invention relates are, for example, in Pattern recognition systems used to describe the patterns to be recognized. The The process of recognizing a pattern can usually be roughly as follows Steps to be split: capturing the pattern, preprocessing and classification.

Der erste Schritt, die Mustererfassung, dient der Umwandlung des originalen Musters, z.B. eine gesprochene Äußerung eines Benutzers oder ein mit Text beschriebenes Schriftstück, in ein für die Verarbeitung geeignetes Format, z.B. in Form eines elektronischen Signals, das analog oder digital codiert sein kann, oder einer Datei vorgegebenen Formats. Hierher gehört auch die Umwandlung eines Signal/Dateiformats, z.B. einer Rasterbildaufnahme, in ein für die weitere Verarbeitung geeignetes Format. Im Falle einer Spracherkennung beispielsweise wird die vom Benutzer gesprochene Äußerung über eine akustische Eingabe, wie z.B. ein Mikrophon, aufgenommen, gegebenenfalls vorverstärkt und in ein elektrisches Sprachsignal in analoger oder digitalisierter Form umgesetzt.The first step, the pattern acquisition, is used to convert the original pattern, e.g. a spoken utterance by a user or a document written with text, in a format suitable for processing, e.g. in the form of an electronic signal that can be coded analog or digital, or a file of a predetermined format. Here also includes the conversion of a signal / file format, e.g. a raster image recording, in a format suitable for further processing. In the case of speech recognition, for example the utterance spoken by the user via an acoustic input, such as. a microphone, recorded, possibly pre-amplified and in an electrical Voice signal implemented in analog or digitized form.

Das so erfasste Muster wird der Vorverarbeitung zugeführt, die eine Reduktion der zu verarbeitenden Daten sowie eine bessere Unterscheidbarkeit der zu bestimmenden Muster erreicht. Ergebnis der Vorverarbeitung ist ein Signalfeld, im Beispiel der Spracherkennung ein Spektrum der Äußerung, das dem Klassifizierungssystem zugeführt werden kann. Häufig ist ein wesentlicher Schritt der Vorverarbeitung eine Signalanalyse des Mustersignals, z.B. kann für das elektrische Sprachsignal der Benutzer-Äußerung eine Signalanalyse in Form einer Aufteilung in Zeitrahmen (Diskretisierung) und einer nachfolgenden, jeweils innerhalb eines Zeitrahmens durchgeführten Fourier-Transformation mit Zerlegung in Frequenzbänder erfolgen, aus der ein Zeit-Frequenz-Spektrum gewonnen wird. Damit ist zugleich eine - im allgemeinen beträchtliche - Datenreduktion verbunden. Ein weiterer, unter Umständen wesentlicher Schritt der Vorverarbeitung ist die Verringerung von Störrauschen in dem Mustersignal bzw. dem daraus gewonnen Signalfeld.The pattern captured in this way is fed to the preprocessing, which is a reduction in the processing data and a better differentiation of the samples to be determined reached. The result of the preprocessing is a signal field, in the example of speech recognition a spectrum of utterance that can be fed into the classification system. An essential step of preprocessing is often a signal analysis of the pattern signal, e.g. a signal analysis can be carried out for the electrical voice signal of the user utterance Form of a division into time frames (discretization) and a subsequent one Fourier transformation carried out within a time frame with decomposition into Frequency bands occur from which a time-frequency spectrum is obtained. So that is at the same time a - generally considerable - data reduction. Another, Under certain circumstances, an essential step of the preprocessing is the reduction of interference noise in the pattern signal or the signal field obtained therefrom.

Das Signalfeld umfasst eine Vielzahl von Signalkomponenten, die jeweils einen eigenen, hier als Signalpegel bezeichneten Wert gleichen Typs annehmen. Die Signalkomponenten sind naturgemäß innerhalb des Signalfelds geordnet, wobei diese Ordnung mit Hilfe eines oder mehrerer Ordinatenparameter ausgedrückt ist. Beispielsweise besteht ein als Zeit-Frequenz-Spektrum realisiertes Signalfeld aus vielen Spektralkomponenten, die jeweils einen eigenen Energiepegel annehmen; die Spektralkomponenten sind nach Zeitrahmen und Frequenzband geordnet. Jeder Signalkomponente kann somit in dem Ordinatenbereich, über den sich das Signalfeld erstreckt, ein eigener Bereichselement des Ordinatenbereichs zugeordnet werden, sodass die Bereichselemente insgesamt den Ordinatenbereich des Signalfeld abdecken. In Abhängigkeit von der Anzahl der Ordinatenparameter kann der Ordinatenbereich ein-, zwei- oder mehrdimensional sein; dementsprechend sind die Bereichselemente Linien-, Flächen- oder (n-dimensionale) Volumselemente.The signal field comprises a large number of signal components, each of which takes on its own value, here referred to as signal level, of the same type. The signal components are naturally arranged within the signal field, this order being expressed with the help of one or more ordinate parameters. For example, a signal field realized as a time-frequency spectrum consists of many spectral components, each of which has its own energy level; the spectral components are sorted by time frame and frequency band. Each signal component can thus be assigned its own area element of the ordinate area in the ordinate area over which the signal field extends, so that the area elements as a whole cover the ordinate area of the signal field. Depending on the number of ordinate parameters, the ordinate range can be one, two or more dimensions; accordingly, the area elements are line, area or ( n- dimensional) volume elements.

Das durch die Vorverarbeitung erhaltene Signalfeld wird dem Klassifizierungssystem zugeführt. Dieses ermittelt, zu welcher Erkennungsklasse - d.i. im Falle der Spracherkennung ein Wort eines vorgegebenen Wortschatzes oder eine Wortkette - eine Übereinstimmung gegeben ist. Das Erkennungsresultat wird dann Ausgabe zugeführt, beispielsweise auf einer Anzeige, oder zur weiteren Verarbeitung genutzt, z.B. bei einer Befehlseingabe einer sprachorientierten Einrichtung.The signal field obtained by the preprocessing becomes the classification system fed. This determines which recognition class - i.e. in the case of speech recognition a word of a given vocabulary or a word string - a match given is. The recognition result is then output, for example on an advertisement, or used for further processing, e.g. when entering a command language-oriented facility.

Die Ausführung einer Mustererkennung wird oftmals durch Störrauschen erschwert, das die zu erkennenden Muster überlagert. Beispielsweise kann die Leistungsfähigkeit eines Spracherkennungssystems durch akustischen Hintergrundlärm stark herabgesetzt oder ganz vereitelt werden.The execution of a pattern recognition is often made more difficult by noise, which the overlapping patterns to be recognized. For example, the performance of a speech recognition system greatly reduced or completely by acoustic background noise be thwarted.

Bei bekannten Verfahren zur Rauschunterdrückung wird in der Vorverarbeitung eine Abschätzung der dem Signal unterliegenden Rauschparameter durchgeführt und aufgrund dieser Abschätzung ein Referenzrauschsignal abgezogen wird. Derartige Verfahren der spektrale Subtraktion für Sprachsignale werden von S. V. Vaseghi und B. P. Milner in 'Noise Compensation Models for Hidden Markov Model Speech Recognition in Adverse Environments', IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 1, Januar 1997, S. 11-21 beschrieben. Hierbei wird von dem Energiepegel E jeweils einer Spektralkomponente des Spektrums die entsprechende Komponente eines Referenzrauschsignals Er gemäß dem Ausdruck E' = ss(E, Er) = (Eb - α Erb)1/b "subtrahiert". Das Referenzrauschsignal Er wird aufgrund vorgegebener oder abgeschätzter Rauschparameter simuliert. Die Subtraktion der Energiepegel kann hierbei z.B. in Bezug auf die linearen Energiepegel durchgeführt werden oder "konvolutiv" im logarithmischen Bereich, d.h. in der genannten Formel stehen anstelle der Energiepegel E, Er, E' die entsprechenden Logarithmen log E, etc.In known methods for noise suppression, an estimation of the noise parameters underlying the signal is carried out in the preprocessing and a reference noise signal is subtracted on the basis of this estimate. Such methods of spectral subtraction for speech signals are described by SV Vaseghi and BP Milner in 'Noise Compensation Models for Hidden Markov Model Speech Recognition in Adverse Environments', IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 1, January 1997, pp. 11-21. From the energy level E, a spectral component of the spectrum becomes the corresponding component of a reference noise signal Er according to the expression E '= s s (E, E r ) = (E b - α E r b ) 1 / b "Subtracted". The reference noise signal Er is simulated on the basis of predefined or estimated noise parameters. The subtraction of the energy levels can be carried out, for example, in relation to the linear energy levels or “convolutively” in the logarithmic range, ie in the formula mentioned the corresponding logarithms log E, etc. are used instead of the energy levels E, E r , E '.

Der Subtraktionsansatz hat jedoch den Mangel, dass die zur Beschreibung des Rauschens notwendigen Parameter nicht mit der erforderlichen Genauigkeit und Vollständigkeit bekannt sein können. Beispielsweise ist für eine korrekte Rauschkompensation nicht nur die Kenntnis der Rauschamplituden, sondern auch der Phasenbeziehungen erforderlich, was - wenn überhaupt - nur mit sehr großem Aufwand möglich ist. Störungen, die keine additive oder konvolutive Überlagerung darstellen, wie z.B. Mischformen aus additiven und konvolutiven Störungen, sind noch schwieriger zu behandeln.The subtraction approach, however, has the shortcoming that is used to describe the noise necessary parameters not with the required accuracy and completeness can be known. For example, for correct noise compensation it is not just that Knowledge of the noise amplitudes but also the phase relationships required what - if at all - only possible with great effort. Disorders that are not additive or represent a convolutive overlay, e.g. Mixed forms of additive and convolutive Disorders are even more difficult to deal with.

Die EP 0 062 519 A1 lehrt die Beseitigung von Störungen in Radarsignalen, wobei die Verteilung der Störungen bekannt, wenn auch beliebig ist, im Gegensatz zu vorher bekannten Verfahren, die eine Rayleigh- oder Weibull-verteilte Störung verlangen. Die Kenntnis der Verteilung oder zumindest der zugehörenden Wahrscheinlichkeitsdichte, aus der man sie ableiten kann, ist notwendige Voraussetzung für die Anwendung des Verfahrens dieses Dokuments. Ohne Kenntnis einer solchen Verteilung ist eine Störungsbeseitigung nach diesem Verfahren somit nicht durchführbar.EP 0 062 519 A1 teaches the elimination of interference in radar signals, the distribution the disturbances are known, although arbitrary, in contrast to previously known ones Procedures that require a Rayleigh or Weibull distributed disorder. Knowing the Distribution or at least the associated probability density from which you can get them can derive is a necessary prerequisite for the application of the procedure this Document. Without knowledge of such a distribution, troubleshooting is possible this method is therefore not feasible.

Die EP 0 548 527 A2 lehrt ein Verfahren zur Erzeugung einer Transformation der Pegelskala eines digitalen radiographischen Bildes, z.B. Röntgenbildes, in welchem eine kumulative Verteilungsfunktion des Bildes verwendet wird, um die Pegelverteilung des Bildes dahingehend zu modifizieren, dass sie im interessierenden Bereich im wesentlichen linear ist. Die diesem Verfahren zugrundeliegende Aufgabenstellung, nämlich eine Darstellung des Bildes in einer für die weitere Untersuchung durch Betrachtung des Bildes geeigneten Form, unterscheidet sich freilich wesentlich von jener der Erfindung.EP 0 548 527 A2 teaches a method for generating a level scale transformation a digital radiographic image, e.g. X-ray image in which a cumulative Distribution function of the image is used to measure the level distribution of the image to modify it to be substantially linear in the area of interest. The The task underlying this method, namely a representation of the image in a form suitable for further investigation by viewing the image, differs significantly from that of the invention.

Die EP 0 720 358 A2 betrifft die Kompression von Videosignaldaten. Dabei wird die Pegelverteilung eines Bildes so modifiziert, dass jedem Eingangspegelbereich ein um so größerer Ausgangspegelbereich zugeordnet wird, je mehr Eingangspegel in ersteren Bereich fallen, wobei der gesamte Ausgangspegelbereich begrenzt ist. Auch in diesem Fall ist die Aufgabenstellung, nämlich eine gleichmäßigere Signalkompression, von jener der Erfindung wesentlich verschieden. Dem entsprechend wird bei der Kompression nach dieser Schrift eine Zielverteilung nicht angestrebt; vielmehr verwendet die Kompressionsvorschrift lediglich aus dem Eingangssignal abgeleitete Parameter.EP 0 720 358 A2 relates to the compression of video signal data. The level distribution of an image modified so that each input level range is larger Output level range is assigned, the more input levels fall in the former range, the entire output level range being limited. In this case too, the task is namely, more uniform signal compression, from that of the invention significantly different. Accordingly, the compression according to this document a goal distribution not aimed; rather, the compression rule only uses parameters derived from the input signal.

Aus keinen der genannten Dokumente geht die Verwendung einer aus Trainings- oder Referenzdaten gewonnenen Referenzverteilungsfunktion hervor.None of the documents mentioned use a training or Reference data obtained reference distribution function.

Das Dokument WHITE SA: "Restoration of non linearly distorted audio by histogram equalization"n JOURNAL OF THE AUDIO ENGINEERING SOOETY, Nov. 1982, USA, Bd 30, Nr. 11, Seiten 828-832, welches zur Bildung des Oberbegriffs des Anspruchs 1 herangezogen wurde, offenbart ein Verfahren zur Unterdrückung von Störrauschen, bei welchem die Amplitudenverteilung eines ungestörten Signals zu Hilfe genommen wird. Allerdings wird dabei eine komplexe Modellierung des logarithmischen Histogramms vorausgesetzt.The document WHITE SA: "Restoration of non linearly distorted audio by histogram equalization" n JOURNAL OF THE AUDIO ENGINEERING SOOETY, Nov. 1982, USA, Vol 30, No. 11, pages 828-832, which is used to form the preamble of claim 1 discloses a noise suppression method in which the Amplitude distribution of an undisturbed signal is used as an aid. However assuming a complex modeling of the logarithmic histogram.

Es ist daher Aufgabe der Erfindung, ein Verfahren zur Rauschunterdrückung aufzuzeigen, das die Beeinträchtigung des Signalfelds durch das Störrauschen hinsichtlich der nachfolgenden Auswertung, insbesondere einer Klassifizierung, zuverlässig verringert. Weiters soll die Rauschunterdrückung ohne nähere Kenntnis der Eigenschaften des Rauschens und ohne eine Simulation eines Hintergrundrauschens durchführbar sein.It is therefore an object of the invention to demonstrate a method for noise suppression, that the impairment of the signal field by the noise with regard to the following Evaluation, especially a classification, reliably reduced. Furthermore should the noise suppression without further knowledge of the properties of the noise and without a simulation of background noise can be carried out.

Die Aufgabe wird von einem Verfahren der eingangs genannten Art gelöst, bei welchem erfindungsgemäß für die Modifizierung der Signalpegelwerte ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich zu einem diesen Pegelbereich repräsentierenden, ersten Pegel unter Anwendung der Verteilungsfunktion und des Werts der Referenzverteilungsfunktion an dem ersten Pegel ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion dem genannten Wert der Referenzverteilungsfunktion möglichst nahe kommt, und jenen Signalkomponenten, deren Signalpegel zwischen den ersten und den zweiten Pegel fällt, der Wert des ersten Pegels zugewiesen wird.The object is achieved by a method of the type mentioned at the outset, in which according to the invention for the modification of the signal level values based on a division the range of values of the signal levels into a number of level ranges for each level range to a first level representing this level range using the Distribution function and the value of the reference distribution function at the first level second level is selected for which the value of the distribution function is the same Value as close as possible to the reference distribution function, and those signal components, whose signal level falls between the first and the second level, the value of the first level is assigned.

Diese Lösung ermöglicht eine Rauschunterdrückung sowohl für additiven bzw. konvolutiven Rauschhintergrund als auch für Mischformen oder noch kompliziertere Störungen. Durch das erfindungsgemäße Verfahren kann die Auswirkung der Störung auf die Signalparameter des Signalfelds beträchtlich reduziert werden, auch ohne nähere Kenntnis von Rauschparametem. This solution enables noise suppression for both additive and convolutive Noise background as well as for mixed forms or more complicated disturbances. The effect of the disturbance on the signal parameters can be achieved by the method according to the invention of the signal field can be considerably reduced, even without further knowledge of Rauschparametem.

Die Forderung, dass die Abfolge der Signalkomponenten hinsichtlich ihrer Energiepegel ungeändert bleibt, bedeutet, dass für jedes (beliebige) Paar von Signalkomponenten, für welche der ursprüngliche Pegel der ersten Komponente kleiner als jener der zweiten ist, nach der Zuweisung modifizierter Pegel zu den Signalkomponenten der modifizierte Pegel der ersten Komponente nicht größer (also gleich oder kleiner) als der modifizierte Pegel der zweiten Komponente ist.The requirement that the sequence of signal components in terms of their energy levels remains unchanged, means that for each (any) pair of signal components, for which is the original level of the first component less than that of the second, after the assignment of modified levels to the signal components, the modified level the first component is not greater than (or equal to or less than) the modified level of the second component.

Es sei darauf hingewiesen, dass sich aus den oben genannten Schriften keinerlei Hinweise entnehmen lassen, dass eine Modifikation anhand einer Referenzverteilungsfunktion ohne Berücksichtigung der Art des Störrauschens erfolgreich sein könnte. It should be noted that there are no indications from the above writings indicate that a modification based on a reference distribution function without Considering the nature of the noise could be successful.

Der für das erfindungsgemäße Verfahren wesentliche Parameter, die Referenzverteilungsfunktion, kann im vorhinein z.B. mit Hilfe von Versuchen bestimmt werden. Wenn ein Trainings- oder Vergleichssatz von Mustern vorliegt, können diese oder eine ausgewählter Teil dieser Muster zur Erzeugung der Referenzverteilungsfunktion dienen. Vorteilhafterweise kann dann als Referenzverteilungsfunktion eine aus einer Verteilungsfunktion, die für einen Satz von Referenzmustern bestimmt worden ist, gewonnene Funktion verwendet werden. Dabei kann die Verteilungsfunktion des Referenzmustersatzes selbst als Referenzverteilungsfunktion genutzt werden, oder eine aus ihr, z.B. durch Vereinfachung des Kurvenverlaufs, gewonnene Funktion des Pegels.The parameter essential for the method according to the invention, the reference distribution function, can be e.g. be determined with the help of experiments. When a Training or comparison set of patterns is available, these or a selected one Part of these patterns are used to generate the reference distribution function. advantageously, can then be used as a reference distribution function from a distribution function that for function has been determined using a set of reference patterns become. The distribution function of the reference pattern set itself can function as a reference distribution function be used, or one of them, e.g. by simplifying the course of the curve, won function of the level.

Günstigerweise erfolgt die Modifizierung der Signalpegelwerte dadurch, dass ausgehend von einer Aufteilung des Wertebereichs der Signalpegel in eine Anzahl von Pegelbereichen für jeden Pegelbereich

  • zu einem diesen Pegelbereich repräsentierenden, ersten Pegel unter Anwendung der Verteilungsfunktion und des Werts der Referenzverteilungsfunktion an dem ersten Pegel ein zweiter Pegel ausgewählt wird, für welchen der Wert der Verteilungsfunktion dem genannten Wert der Referenzverteilungsfunktion möglichst nahe kommt, und
  • jenen Signalkomponenten, deren Signalpegel zwischen dem ersten und dem zweiten Pegel fällt, der Wert des ersten Pegels zugewiesen wird.
Dies erlaubt eine möglichst weitgehende Anpassung des Signals an die Referenzverteilungsfunktion. Im einfachsten Falle der Aufteilung des Signalpegel-Wertebereichs in Pegelbereiche wird für jeden auftretenden Signalpegel ein eigener Bereich zugeordnet, sodass jeder Pegelbereich mit dem zugehörenden Signalpegel identifiziert werden kann.The signal level values are advantageously modified by starting from a division of the value range into a number of level ranges for each level range
  • for a first level representing this level range, using the distribution function and the value of the reference distribution function at the first level, a second level is selected for which the value of the distribution function comes as close as possible to the mentioned value of the reference distribution function, and
  • those signal components whose signal level falls between the first and the second level are assigned the value of the first level.
This allows the signal to be adapted as far as possible to the reference distribution function. In the simplest case of dividing the signal level value range into level ranges, a separate range is assigned for each signal level that occurs, so that each level range can be identified with the associated signal level.

Des weiteren wird eine besonders zweckmäßige Realisierung der Erfindung für ein als zeitund/oder frequenzabhängiges Spektrum eines akustischen Signals realisiertes Signalfeld ausgeführt.Furthermore, a particularly expedient implementation of the invention for a time and / or frequency-dependent spectrum of an acoustic signal realized signal field executed.

Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels erläutert, das die Spracherkennung eines gesprochenen Wortes in einem Kraftfahrzeugwagen betrifft. Dabei werden die beigefügten Figuren herangezogen, welche zeigen:

Fig. 1
ein Spektrogramm einer Äußerung unter geräuschfreien Bedingungen;
Fig. 2
die Energieverteilungsfunktion zu dem Spektrogramm der Fig. 1;
Fig. 3 und 4
ein Spektrogramm und die zugehörende Energieverteilungsfunktion einer Äußerung mit Geräuschhintergrund;
Fig. 5 und 6
ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich durch spektrale Subtraktion aus dem Spektrogramm der Fig. 3 ergeben;
Fig. 7
eine Referenzverteilungsfunktion zur Anwendung der Erfindung;
Fig. 8 und 9
ein Spektrogramm und die zugehörende Energieverteilungsfunktion, welche sich aus dem Spektrogramm der Fig. 3 mittels der erfindungsgemäßen Rauschreduktion anhand der Referenzverteilungsfunktion der Fig. 7 ergeben.
The invention is explained below using an exemplary embodiment which relates to the speech recognition of a spoken word in a motor vehicle. The attached figures are used, which show:
Fig. 1
a spectrogram of an utterance in silent conditions;
Fig. 2
the energy distribution function to the spectrogram of Fig. 1;
3 and 4
a spectrogram and the associated energy distribution function of an utterance with a noise background;
5 and 6
a spectrogram and the associated energy distribution function, which result from spectral subtraction from the spectrogram of FIG. 3;
Fig. 7
a reference distribution function for applying the invention;
8 and 9
a spectrogram and the associated energy distribution function, which result from the spectrogram of FIG. 3 by means of the noise reduction according to the invention using the reference distribution function of FIG. 7.

Sprachsignale, welche vor einem Geräuschhintergrund, wie z.B. jenem im Inneren eines Kraftfahrzeugwagens in Betrieb, gesprochen werden, werden durch Geräusche beeinträchtigt, die von verschiedenen Quellen, z.B. dem Fahrzeugmotor, anderen Fahrzeugen, Wind usw., stammen können und oftmals eine Mischung von Schallkomponenten hoher Energie mit nicht vorhersehbarer Statistik hinsichtlich ihres Zeitablaufs und ihrer Frequenz darstellen. Die Leistungsfähigkeit von Spracherkennungssystemen nimmt daher schnell ab, wenn der Geräuschhintergrund zunimmt, beispielsweise weil die Fahrzeuggeschwindigkeit größer wird. Das im folgenden dargestellte Ausführungsbeispiel der Erfindung betrifft die Erkennung der englischen Wörter 'zero', 'one', 'two', usw. bis 'nine' für die Ziffern 0 bis 9 mittels eines Spracherkennungssystems in einem Wagen vom KFZ-Kleinwagentyp.Speech signals which are generated against a background of noise, e.g. that inside one Motor vehicle vehicles in operation, are spoken by noise, from various sources, e.g. the vehicle engine, other vehicles, wind etc., and often a mixture of sound components of high energy with unpredictable statistics regarding their timing and frequency. The performance of speech recognition systems therefore quickly decreases when the background noise increases, for example because the vehicle speed is higher becomes. The exemplary embodiment of the invention shown below relates to detection the English words 'zero', 'one', 'two', etc. to 'nine' for the digits 0 to 9 using of a speech recognition system in a car of the small car type.

Fig. 1 zeigt ein Spektrogramm S1 eines Spektrums zu einer Äußerung des englischen Wortes 'seven', gesprochen von einem männlichen Sprecher in dem Wagen unter geräuschfreien Bedingungen.1 shows a spectrogram S1 of a spectrum for an utterance of the English word 'seven', spoken by a male speaker in the car under noiseless Conditions.

In den in dem Ausführungsbeispiel behandelten Spektren erfasst die Zeitachse einen Zeitraum von 0.992 s, die in 31 Rahmen T gleicher Zeitdauer (sogenannte 'frames') aufgeteilt ist. Der Frequenzbereich erstreckt sich von f = 200 Hz bis 3.4 kHz und ist in 9 Bänder F mit ungefähr logarithmisch abgestufter Bandbreite und -abstand aufgeteilt. Die spektrale Energie ist in allen Figuren logarithmisch als Energiepegel E, mit der Einheit dB und bezogen auf einen allen Figuren gemeinsamen Grundpegel, dargestellt.In the spectra treated in the exemplary embodiment, the time axis records a time period of 0.992 s, which is divided into 31 frames T of the same duration (so-called 'frames'). The frequency range extends from f = 200 Hz to 3.4 kHz and is in 9 bands F with roughly logarithmically graded bandwidth and spacing. The spectral energy is logarithmic in all figures as energy level E, with the unit dB and related to a basic level common to all figures.

Spektren dieser Art wurden in Spracherkennungsversuchen der Anmelderin für Äußerungen über den genannten Wortschatz verwendet. In dem verwendeten Spracherkennungssystem erfolgt nach einer Vorverarbeitung des zu erkennenden Äußerung mittels einer Rauschunterdrückung wie weiter unten näher erläutert eine Klassifizierung, bei welcher ein geschichtetes neuronales Netzwerk, welches mit einem Trainingswortschatz trainiert worden war, als Mustererkennungssystem dient. Für den Trainingswortschatz wurde der Wortschatz von einer Anzahl von Sprechern - vorteilhafterweise sowohl männliche als auch weibliche Personen - in einer Umgebung, die der Sprechumgebung des Wagens entspricht, gesprochen, und zwar für jedes Wort jeweils mehrere Male unter rauschfreien Bedingungen des Rauschhintergrunds (Ruhe des Wagens). Spectra of this type were used in the applicant's speech recognition attempts for utterances used about the vocabulary mentioned. In the speech recognition system used takes place after preprocessing the utterance to be recognized by means of a Noise suppression as explained in more detail below is a classification in which a layered neural network, which has been trained with a training vocabulary was used as a pattern recognition system. For the training vocabulary the Vocabulary of a number of speakers - advantageously both male and female female persons - in an environment that corresponds to the speaking environment of the car, spoken, for each word several times under noise-free conditions of the background noise (rest of the car).

Fig. 2 zeigt die Energieverteilungsfunktion P1(E) zu dem in Fig. 1 dargestellten Spektrum S1 . Eine einem Spektrum S zugeordnete Energieverteilungsfunktion P(E) gibt als Funktion des Energiepegels E an, wie viele der spektralen Komponenten S(T,F) des betreffenden Spektrums S einen Energiepegel aufweisen, der niedriger als der angegebene Energiepegel E ist, wobei diese Zahl als Wert zwischen 0 und 1 bezogen auf die Gesamtzahl der spektralen Komponenten ausgedrückt ist. Beispielsweise hat die Energieverteilungsfunktion P1 bei 48 dB den Wert 0.6, denn 60 % der Energiepegel des Spektrums S1 liegen unter 48 dB. Eine große (kleine) Steigung in der Energieverteilungsfunktion P(E) entspricht einem Energiepegel, dessen Wert in einer großen (kleinen) Anzahl von Komponenten des zugehörenden Spektrums S auftritt. Eine Energieverteilungsfunktion kann auch für eine Vielzahl von Spektren bestimmt werden und gibt dann den Anteil der Komponenten sämtlicher Spektren mit Energiepegel unter dem angegeben Pegel E, geteilt durch die Gesamtzahl der Komponenten aller dieser Spektren, an.FIG. 2 shows the energy distribution function P1 (E) for the spectrum S1 shown in FIG. 1 , An energy distribution function P (E) assigned to a spectrum S gives as a function of Energy level E on how many of the spectral components S (T, F) of the spectrum in question S have an energy level which is lower than the specified energy level E, this number as a value between 0 and 1 based on the total number of spectral Components is expressed. For example, the energy distribution function has P1 at 48 dB the value 0.6, because 60% of the energy levels of spectrum S1 are below 48 dB. A large (small) slope in the energy distribution function P (E) corresponds to an energy level, whose value in a large (small) number of components of the associated Spectrum S occurs. An energy distribution function can also be used for a large number of Spectra are determined and then gives the proportion of the components of all spectra with energy level below the specified level E divided by the total number of components of all of these spectra.

Fig. 3 zeigt das Spektrogramm S2 zu einer Äußerung des Wortes von demselben Sprecher bei einer Wagengeschwindigkeit von 113 km/h (70 mph). Wie aus dem Vergleich der Spektrogramme S1 und S2 (Fig. 1 bzw. 3) ersichtlich, bleiben lediglich die Sprachanteile hoher Energie wenig beeinträchtigt, während die übrigen Anteile von den Geräuschen maskiert sind. Der Hintergrund-Energiepegel steigt von ungefähr 25 dB auf ungefähr 65 dB, die Spitzen der Äußerung sind bei 85 dB, die Sprachanteile unterhalb 70 dB gehen im Geräuschhintergrund unter. Die zugehörende Energieverteilungsfunktion P2(E) ist in Fig. 4 dargestellt.3 shows the spectrogram S2 for an utterance of the word by the same speaker at a car speed of 113 km / h (70 mph). As from the comparison of the Spectrograms S1 and S2 (Fig. 1 and 3) visible, only the speech components remain high energy little affected, while the rest of the noise are masked. The background energy level increases from about 25 dB to about 65 dB, the peaks of the utterance are at 85 dB, the speech components below 70 dB go in the noise background under. The associated power distribution function P2 (E) is in FIG. 4 shown.

Die Energieverteilungsfunktionen P1 und P2 (Fig. 2 bzw. 4) zeigen, dass die spektrale Verteilung des rauschfreien Signals S1 deutlich verschieden von jener des geräuschbehafteten Signals S2 ist, in dem die Hintergrundenergie um ungefähr 40 dB höher liegen als im Falle des rauschfreien Signals.The energy distribution functions P1 and P2 (Fig. 2 and 4, respectively) show that the spectral distribution of the noise-free signal S1 is significantly different from that of the noisy one Signal S2 is in which the background energy is approximately 40 dB higher than in the case of the noise-free signal.

Mittels der eingangs erwähnten spektralen Subtraktion nach S. V. Vaseghi und B. P. Milner ist eine Rauschreduktion des verrauschten Signals erreichbar. Entsprechend dem weiter oben Gesagten, wird das Spektrum S unter Verwendung eines Referenzrauschsignals Sr dadurch transformiert, dass in jeder Spektralkomponente S(T,F) die jeweils entsprechende Komponente Sr(T,F) des Referenzrauschens gemäß dem Ausdruck S'(T,F) = E0 = ss(E, Er) = (Eb - α Erb)1/b, wobei

  • E = S(T,F) und
  • Er = Sr(T,F)
  • "subtrahiert" wird. Die Rauschreduktion nach der spektralen Subtraktion wurde im Rahmen der weiter unten beschriebenen Versuche der Anmelderin für das Spektrum S2 durchgeführt. In Fig. 5 und 6 sind das Spektrum S3 = ss( S2, Sr ), das sich bei der Anwendung der spektralen Subtraktion auf das Spektrogramm S2 ergibt, und die zugehörende Energieverteilungsfunktion P3 dargestellt; dabei wurden jene Parameter b und α verwendet, bei denen die Ergebnisse von durchgeführten Spracherkennungstests für verschiedene Parameter b und α am besten waren, sowie ein aus der Aufnahme der Äußerung S2 gewonnenes Referenzrauschen Sr. Wie aus Fig. 5 und 6 ersichtlich ist, ist das Hintergrundrauschen um ca. 10 dB niedriger als im unbehandelten Signal S2, jedoch ist ein beträchtlicher Anteil der Sprachanteile niedriger Energie immer noch vom restlichen Rauschen verdeckt. Daher verbessert sich die Erfolgsquote bei der Spracherkennung nur geringfügig.A noise reduction of the noisy signal can be achieved by means of the spectral subtraction according to SV Vaseghi and BP Milner mentioned at the beginning. According to what has been said above, the spectrum S is transformed using a reference noise signal S r in that in each spectral component S (T, F) the corresponding component S r (T, F) of the reference noise according to the expression S '(T, F) = E0 = s s (E, E r ) = (E b - α E r b ) 1 / b . in which
  • E = S (T, F) and
  • E r = S r (T, F)
  • is "subtracted". The noise reduction after spectral subtraction was carried out for the spectrum S2 in the course of the applicant's experiments described below. 5 and 6 show the spectrum S3 = s s (S2, S r ), which results when the spectral subtraction is applied to the spectrogram S2, and the associated energy distribution function P3; those parameters b and α were used for which the results of the speech recognition tests performed were best for various parameters b and α, and a reference noise S r obtained from the recording of the expression S2. As can be seen from FIGS. 5 and 6, the background noise is approximately 10 dB lower than in the untreated signal S2, but a considerable proportion of the speech components of low energy are still covered by the remaining noise. Therefore, the success rate in speech recognition only improves slightly.

    Da das als Referenzrauschsignal Sr verwendete Signal nur statistisch mit dem Rauschen übereinstimmt, welches als Hintergrund des verrauschten Signals S2 vorliegt, erzielt die spektrale Subtraktion eine Reduktion des Rauschpegels nur an einzelnen Komponenten des sich ergebenden Spektrums S3. Denn in Abhängigkeit von der relativen Phasenlage des Referenzrauschens und des tatsächlichen Hintergrunds kommt es nur für einen Teil der Komponenten des Spektrums zu einer Auslöschung des Rauschanteils der betreffenden Komponente, in anderen Komponenten bleibt der Pegel ungefähr gleich, in manchen ergibt sich sogar eine Verstärkung (wenngleich deren Auswirkung aufgrund der logarithmischen Darstellung der Energiepegel gemildert ist). Dies ist in Fig. 5 besonders an den Niedrigpegel-Anteilen ca. ab Zeitrahmen 20 zu erkennen.Since the signal used as the reference noise signal S r only statistically matches the noise which is present as the background of the noisy signal S2, the spectral subtraction achieves a reduction in the noise level only on individual components of the resulting spectrum S3. Depending on the relative phase position of the reference noise and the actual background, only a part of the components of the spectrum is canceled out, the noise component of the component in question, in other components the level remains approximately the same, in some cases there is even an amplification (albeit whose effect is mitigated due to the logarithmic representation of the energy level). This can be seen in FIG. 5 in particular from the low-level components starting from time frame 20.

    Gemäß der Erfindung erfolgt die Rauschunterdrückung für das vorliegende Sprachsignal S2 unter Verwendung einer vorgegebenen "Vorlagefunktion", nämlich einer als Referenz dienenden Energieverteilungsfunktion. Vorteilhafterweise geschieht dies derart, dass die Pegel der Spektralkomponenten des Sprachsignal-Spektrums S2 an die Vorlagefunktion angepasst werden. Die Energieverteilungsfunktion des sich ergebenden Spektrums stimmt dann im wesentlichen mit der Vorlagefunktion überein.According to the invention, the noise suppression takes place for the present speech signal S2 using a given "template function", namely one as a reference serving power distribution function. This is advantageously done in such a way that the level of the spectral components of the speech signal spectrum S2 adapted to the template function become. The energy distribution function of the resulting spectrum is then correct essentially match the template function.

    Idealerweise würde als Vorlagefunktion die Energieverteilungsfunktion der Summe jener Spektren verwendet werden, welche beim Training des Spracherkennungssystems für das betreffende Wort (hier 'seven') verwendet werden; da das zu erkennende Wort dem Spracherkennungssystem naturgemäß nicht im vorhinein bekannt ist, ist dies nicht möglich. Es wird stattdessen eine Energieverteilungsfunktion als Vorlagefunktion gewählt, welche in Bezug auf die Gesamtheit der Worte des zu erkennenden Wortschatzes zweckmäßig ist. Beispielsweise kann jene Energieverteilungsfunktion als Vorlagefunktion P0 verwendet werden, welche aus den Spektren des gesamten Trainingswortschatzes abgeleitet wurde. Ideally, the energy distribution function would be the sum of those as a reference function Spectra are used which are used in training the speech recognition system for the the relevant word (here 'seven') can be used; because the word to be recognized is the speech recognition system is naturally not known in advance, this is not possible. It Instead, an energy distribution function is selected as a template function, which in Relative to the entirety of the words of the vocabulary to be recognized is appropriate. For example, that energy distribution function can be used as template function P0 which have been derived from the spectra of the entire training vocabulary.

    Die erfindungsgemäße Rauschunterdrückung durch Anpassung der Pegel an eine Vorlagefunktion erfolgt derart, dass Spektralkomponenten, deren Pegel E = S(T,F) ursprünglich gleich ist, auch nach der Anpassung einen gemeinsamen Pegel E0 = S'(T,F) aufweisen, d.h. für alle Spektralkomponenten gilt die Anpassungsbedingung S'(T1,F1) = S'(T2,F2)   wenn   S(T1,F1) = S(T2,F2). The noise suppression according to the invention by adapting the levels to a template function is carried out in such a way that spectral components whose level E = S (T, F) is originally the same have a common level E0 = S '(T, F) even after the adaptation, ie for the adaptation condition applies to all spectral components S '(T 1 , F 1 ) = S '(T 2 , F 2 ) if S (T 1 , F 1 ) = S (T 2 , F 2 ).

    Des weiteren soll die Abfolge der Komponenten hinsichtlich ihrer Energiepegel nicht geändert werden, d.h. S'(T1,F1) ≤ S'(T2,F2)   wenn   S(T1,F1) < S(T2,F2); diese Monotoniebedingung bewahrt bei der Rauschunterdrückung des Spektrums S in ein modifiziertes Spektrum S' die Strukturen des Spektrums zumindest in qualitativer Hinsicht.Furthermore, the sequence of the components should not be changed with regard to their energy levels, ie S '(T 1 , F 1 ) ≤ S '(T 2 , F 2 ) if S (T 1 , F 1 ) <S (T 2 , F 2 ); this monotonous condition preserves the structures of the spectrum, at least qualitatively, when the spectrum S is suppressed into a modified spectrum S '.

    Die Rauschunterdrückung kann als Konsequenz der Anpassungsbedingung (1) durch eine Anpassungsfunktion R(E) vollständig beschrieben werden, die jedem ursprünglichen Pegel E einen modifizierten Pegel E0 = R(E) zuordnet, auf welchen jene Spektralkomponenten gesenkt (oder gehoben) werden, die ursprünglich den Pegel E aufwiesen. Die Anpassungsfunktion ist wegen der Monotoniebedingung (2) monoton, d.h. R(E1) ≤ R(E2) wenn E1 < E2. Erfindungsgemäß erfolgt dies Anpassung des Spektrums derart, dass für die zugeordnete Energieverteilungsfunktion gilt P0(E0) = P(E). Daher ist die Anpassungsfunktion R(E) eindeutig durch den Vergleich der Energieverteilungsfunktion P2 des vorliegenden Signals mit der Vorlagefunktion P0 bestimmt. Da die Energieverteilungsfunktionen P,P0 gleichfalls monoton wachsende Funktionen sind, kann formal daraus die Anpassungsfunktion mittels Umkehrung der Vorlagefunktion P0 ermittelt werden.The noise suppression can be fully described as a consequence of the adaptation condition (1) by an adaptation function R (E) which assigns a modified level E0 = R (E) to each original level E, to which those spectral components are reduced (or increased) that were originally had the level E. The fitting function is monotonic due to the monotony condition (2), ie R (E 1 ) ≤ R (E 2 ) if E 1 <E 2 . According to the invention, this adaptation of the spectrum takes place in such a way that P0 (E0) = P (E) applies to the assigned energy distribution function. The adaptation function R (E) is therefore clearly determined by comparing the energy distribution function P2 of the present signal with the reference function P0. Since the energy distribution functions P, P0 are also monotonically increasing functions, the adaptation function can be formally determined from this by reversing the reference function P0.

    Tabelle 1 zeigt einen beispielhaften Programm-Pseudocode, durch den die erfindungsgemäße Anpassung eines Spektrums erfolgt. Das anzupassende Spektrum S ist hierbei in der Feldvariablen S gespeichert, das über die Intervalle Tmin.. Tmax sowie Fmin.. Fmax des Zeit-Frequenz-Raumes definiert ist. Die Energiepegel des Spektrums können diskrete Werte in dem Wertebereich zwischen den Energiepegeln Emin und Emax annehmen. In der Feldvariablen P0 ist eine Referenz-Energieverteilungsfunktion als Vorlagefunktion vorgegeben. Die Energieverteilungsfunktionen sind als Felder über das genannte Intervall Emin. . Emax definiert.Table 1 shows an exemplary program pseudo code through which the invention Adaptation of a spectrum takes place. The spectrum S to be adjusted is here in the Field variables S stored, which over the intervals Tmin .. Tmax and Fmin .. Fmax des Time-frequency space is defined. The energy levels of the spectrum can be discrete values assume in the range of values between the energy levels Emin and Emax. In the field variable A reference energy distribution function is specified as a reference function P0. The energy distribution functions are as fields over the given interval Emin. , Emax Are defined.

    Zunächst (ab der Marke PS/S) wird die zugehörende Energieverteilungsfunktion ermittelt und in der Feldvariablen PS abgelegt. Hierzu wird für jede Komponente S[T, F] des Spektrums der Pegelwert ermittelt, und sämtliche Komponenten der Energieverteilungsfunktion

    Figure 00110001
    PS, deren zugeordneter Energiepegel über diesem Pegelwert liegt, werden inkrementiert. Hierbei bezeichnet inc die Inkrementierfunktion.First (from the brand PS / S) the associated power distribution function is determined and stored in the field variable PS. For this purpose, the level value is determined for each component S [T, F] of the spectrum, and all components of the energy distribution function
    Figure 00110001
    PS whose assigned energy level is above this level value are incremented. Here inc denotes the increment function.

    Sodann (ab der Marke RED/S) wird in einer for-Schleife für jeden der diskreten Werte E0, sofern an diesem Pegel die Energieverteilungsfunktion PS [E0] kleiner als die Vorlagefunktion P0[E0] ist, die folgenden Schritte ausgeführt: Es wird zunächst ein dem Pegelwert E0 zugeordneter Energiepegel E0+dE bestimmt. Dies geschieht dadurch, dass der Abstand dE dieser Pegel ausgehend von dem Wert 0 solange inkrementiert wird (while-Schleife), bis der Wert der Energieverteilungsfunktion am zugeordneten Pegel PS [E0+dE] dem Wert der Vorlagefunktion am gegebenen Pegelwert P0[E0] am nächsten kommt. Hierzu wird die Funktion abs zur Ermittlung des Absolutbetrages verwendet. Der nach der while-Schleife stattfindende Dekrementierschritt dec (dE) dient der Korrektur auf jenen Wert, für welchen die genannte Bedingung tatsächlich zutrifft. Nun stellt der Pegelwert E0 den modifizierten Pegel zu dem Energiepegel E0+dE dar. Sodann wird geprüft, ob der Pegelabstand dE positiv (größer als 0) ist; in diesem Fall werden sämtliche Komponenten S[T, F] des Spektrums, deren Energiepegel in das Intervall zwischen E0 und E0+dE fällt, auf den Energiepegel E0 gestellt. Nach dem letzten Durchlauf der äußeren for-Schleife enthält das Feld S das erfindungsgemäß rauschunterdrückte Spektrum S'.Then (from the brand RED / S) is in a for loop for each of the discrete values E0, provided that at this level the energy distribution function PS [E0] is smaller than the template function P0 [E0], the following steps are carried out: First the level value E0 assigned energy level E0 + dE determined. This happens because the distance dE this level is incremented from the value 0 (while loop) until the Value of the energy distribution function at the assigned level PS [E0 + dE] the value of the Template function comes closest to the given level value P0 [E0]. For this, the Function abs used to determine the absolute amount. The one after the while loop Decrementing step dec (dE) is used to correct the value for which the condition mentioned actually applies. Now the level value E0 represents the modified one Level to the energy level E0 + dE. Then it is checked whether the level difference dE is positive (greater than 0); in this case all components S [T, F] of the spectrum, whose energy level falls in the interval between E0 and E0 + dE, to the energy level E0 posed. After the last run through the outer for loop, the field S contains the invention noise suppressed spectrum S '.

    Fig. 7 zeigt die in dem Ausführungsbeispiel verwendete Vorlagefunktion P0(E0), nämlich die Energieverteilungsfunktion für den oben genannten Trainingswortschatz, d.s. die englischen Zahlwörter 'zero' bis 'nine'. Für die verrauschte Äußerung S2 ergibt die erfindungsgemäße Rauschunterdrückung mit Hilfe der genannten Vorlagefunktion P0 das als Spektrogramm S4 in Fig. 8 gezeigte Spektrum; die zugehörende Energieverteilungsfunktion P4 ist in Fig. 9 wiedergegeben.7 shows the template function P0 (E0) used in the exemplary embodiment, namely the Energy distribution function for the above training vocabulary, d.s. the English Numerals 'zero' to 'nine'. For the noisy utterance S2, the result according to the invention Noise suppression with the aid of the mentioned template function P0 as the spectrogram S4 8 shown spectrum; the associated energy distribution function P4 is in FIG. 9 played.

    Zur Verringerung des Aufwands bei der Durchführung des erfindungsgemäßen Verfahrens kann jeweils ein Pegelbereich des ursprünglichen Spektrums derart gemeinsam behandelt werden, dass den zugehörenden Spektralkomponenten ein einheitlicher modifizierter Pegel zugewiesen wird. Dieser modifizierte Pegel wird in Bezug auf einen respräsentativen Pegelwert des betreffenden Pegelbereichs, z.B. den Mittelwert des Pegelbereichs oder den Median der Pegel über die in den in den Pegelbereich fallenden Komponenten, wie oben beschrieben bestimmt, beispielsweise mittels der Anpassungsfunktion.To reduce the effort involved in carrying out the method according to the invention A level range of the original spectrum can be treated together in this way be that the associated spectral components have a uniform modified level is assigned. This modified level is related to a representative level value the relevant level range, e.g. the mean of the level range or the median the level across the components falling within the level range as described above determined, for example by means of the adaptation function.

    Bei von der Anmelderin durchgeführten ersten Spracherkennungsversuchen mit dem oben beschriebenen Spracherkennungssystem wurde das erfindungsgemäße Verfahren getestet und zugleich mit dem Verfahren der spektralen Subtraktion verglichen. Die zu erkennenden Äußerungen wurden unter verschiedenen Bedingungen des Rauschhintergrunds gesprochen, nämlich Fahrt bei 80 km/h (50 mph) und bei 113 km/h (70 mph). Es wurden hierbei die Ereignisse gezählt, bei denen das Spracherkennungssystem die Äußerung falsch erkannt hat, wobei nur Substitutionsfehler berücksichtigt wurden. Bei einer Kontrollreihe, in der die Signale ohne Rauschreduktion der Mustererkennung zugeführt wurden, wurden 30 % der Äußerungen falsch erkannt. Bei Einsatz der spektralen Subtraktion als Rauschreduktionsverfahren ging der Anteil der fehlerhaften Erkennungen auf 23.3 % zurück. Mit dem erfindungsgemäßen Verfahren verringerte sich der Fehleranteil auf 13.3 %, also eine Reduktion der Fehlerrate um fast die Hälfte im Vergleich zum bekannten Verfahren.During the first speech recognition attempts carried out by the applicant with the above described speech recognition system, the inventive method was tested and at the same time compared with the method of spectral subtraction. The ones to be recognized Utterances were spoken under different background noise conditions, namely driving at 80 km / h (50 mph) and at 113 km / h (70 mph). It was here counted the events in which the speech recognition system misrecognized the utterance has, whereby only substitution errors were taken into account. In a control series in which the Signals without noise reduction were fed to the pattern recognition, 30% of the Expressions misrecognized. When using spectral subtraction as a noise reduction method The proportion of incorrect detections decreased to 23.3%. With the invention Procedures, the percentage of errors decreased to 13.3%, i.e. a reduction the error rate by almost half compared to the known method.

    Das erfindungsgemäße Verfahren eignet sich insbesondere zur Unterdrückung überlagernder Störungen, welche die Monotonierelation der Spektralkomponenten der Äußerung nicht oder nur geringfügig stören. Zu derartigen Störungen gehören z.B. weißes Rauschen, eine lineare oder nichtlineare Verstärkung oder Abschwächung des gesamten Spektrums sowie verschiedene Phänomene des Lombard-Effekts, der bekanntermaßen eine Änderung der Stimme und der Aussprache in Abhängigkeit von dem psychischen Zustand des Sprechers, z.B. Stress, beschreibt.The method according to the invention is particularly suitable for suppressing superimposed ones Disorders that the monotonic relation of the spectral components of the utterance do not or interfere only slightly. Such disturbances include e.g. white noise, one linear or nonlinear amplification or attenuation of the entire spectrum as well various phenomena of the Lombard effect, which is known to change the Voice and pronunciation depending on the mental state of the speaker, e.g. Stress, describes.

    In dem Spektrogramm S4 der Fig. 8 ist um Zeitrahmen 16 bei den oberen Frequenzbändern ein Artefakt erkennbar, welches in der eigentlichen Äußerung (Fig. 1) nicht enthalten ist und von dem erfindungsgemäßen Verfahren nicht beseitigt wurde. Derartige Artefakte können in den meisten Fällen z.B. mit Hilfe einer der Rauschunterdrückung nachgeschalteten Medianfilterung eliminiert werden.8 is around time frame 16 in the upper frequency bands an artifact recognizable which is not contained in the actual utterance (FIG. 1) and was not eliminated by the method according to the invention. Such artifacts can be found in in most cases e.g. with the help of a median filter following the noise suppression be eliminated.

    Das erfindungsgemäße Verfahren der Rauschunterdrückung verändert das zu verarbeitende Signal auch bei Abwesenheit von Rauschen, da die Vorlagefunktion P0 im allgemeinen von der Energieverteilungsfunktion der ungestörten Äußerung verschieden ist. Hierdurch kann unter Umständen eine Quelle für Erkennungsfehler im rauschfreien Fall entstehen. Um dies zu vermeiden, kann beispielsweise das Training des Spracherkennungssystems mit Hilfe von Spektren durchgeführt werden, die bereits mit dem erfindungsgemäßen Verfahren an die verwendete Vorlagefunktion angepasst worden sind. Der Trainingswortschatz kann diese Spektren anstelle von oder gemeinsam mit den ursprünglichen Spektren enthalten.The method of noise suppression according to the invention changes what is to be processed Signal even in the absence of noise, since the template function P0 generally from the energy distribution function of the undisturbed utterance is different. This can may create a source of noise-free detection errors. To do this To avoid, for example, training the speech recognition system with the help of spectra that are already performed with the method according to the invention the template function used has been adjusted. The training vocabulary can contain these spectra instead of or together with the original spectra.

    Ein anderer Ansatz besteht darin, das erfindungsgemäße Verfahren nur dann einzusetzen, wenn das Vorliegen von Rauschen festgestellt wird, z.B. im Zeitraum kurz vor der Äußerung; anderenfalls wird das Sprachsignal der Spracherkennung ohne Rauschunterdrückung zugeführt. Dieser Ansatz benötigt keine Abschätzung des Rauschens, die über die bloße Detektion von Rauschen hinausginge.Another approach is to use the method according to the invention only if if the presence of noise is detected, e.g. in the period shortly before the statement; otherwise, the speech signal of speech recognition without noise suppression fed. This approach does not require an estimate of the noise beyond that Detection of noise would go out.

    In einer vereinfachten Variante des erfindungsgemäßen Verfahrens kann die Anpassung des Spektrums dadurch deutlich vereinfacht werden, dass nur eine festgelegte Anzahl von Parametern der Vorlagefunktion verwendet werden, und die Anpassung im Hinblick auf diese Parameter erfolgt. Beispielsweise könnten Mittelwert und Streuung der Verteilung der Vorlagefunktion verwendet werden. Zur Anpassung werden gleichfalls Mittelwert und Streuung der Verteilung der Energieverteilungsfunktion ermittelt, und aus dem Vergleich dieser Parameter mit denen der Vorlagefunktion wird eine lineare Transformation für die Energiepegel des Spektrums bestimmt. Durch die Anwendung dieser linearen Transformation ergibt sich ein modifiziertes Spektrum, in welchem der störende Effekt des Hintergrundrauschens deutlich verringert ist. Sofern die Anwendung einer linearen Transformation nicht genügt, kann z.B. eine Transformation höherer Ordnung verwendet werden, die aus dem Vergleich einer entsprechenden Anzahl von Parametern der Energieverteilungsfunktion und der Vorlagefunktion, z.B. höherer Momente der Verteilungen, bestimmt wird. In a simplified variant of the method according to the invention, the adaptation of the Spectrum can be significantly simplified by the fact that only a fixed number of Parameters of the template function are used, and the adjustment with regard to these parameters are done. For example, the mean and the spread of the distribution of the Template function can be used. The mean and Scattering the distribution of the energy distribution function is determined, and from the comparison this parameter with those of the template function becomes a linear transformation for the Energy level of the spectrum determined. By applying this linear transformation there is a modified spectrum in which the disturbing effect of the background noise is significantly reduced. Unless the application of a linear transformation is not is sufficient, e.g. a higher order transformation can be used which results from the Comparison of a corresponding number of parameters of the energy distribution function and the template function, e.g. higher moments of the distributions.

    Das erfindungsgemäße Verfahren eignet sich nicht nur für die Störungsverringerung für akustische Signale, wie z.B. Sprachsignale; vielmehr kann es ebenso für Muster anderer Art verwendet werden, welches sich durch eine über einem ein- oder mehrdimensionalen Feld aufgetragene Merkmalsgröße beschreiben läßt. Mögliche Einsatzgebiete sind demgemäß z.B. die Zeichenerkennung in geschriebenem,Text od.dgl., Rekonstruktion und/oder Auswertung von Bildern usf.The method according to the invention is not only suitable for reducing interference for acoustic signals, e.g. Speech signals; rather, it can also be used for other types of patterns be used, which is characterized by a one-dimensional or multi-dimensional field applied feature size can be described. Accordingly, possible areas of application are e.g. character recognition in written, text or the like, reconstruction and / or evaluation of pictures etc.

    Claims (2)

    1. A method for suppressing spurious noise in a signal field (S2) containing a plurality of signal components which each adopt a value of a signal level and may be assigned to an ordinate range, where from the signal field (S2) a distribution function (P2(E)) is determined, which, as a function of the signal level, indicates for each of its possible argument values of signal level (E), the size of the fraction of those signal components whose signal level is lower than the argument value
      the signal level values of the signal field (S2) are modified in such a manner that the distribution function (P4(E)) of the modified signal field (S4) equals a predetermined reference distribution (P0(E)), wherein the sequence of the signal components remain unchanged with regard to their energy level and signal components, whose original signal levels are identical, are assigned the same modified signal levels, and a function obtained from a distribution function that was determined for a set of reference models is used as reference distribution function (P0),
      characterized in that
      to modify the signal level values, starting from a division of the value range of the signal levels into a number of level ranges, for each level range
      to a first level (E0) representing the respective level range, using the distribution function (P2) and the value of the reference distribution function at the first level (P0(E0)), a second level is selected for which the value of the distribution function (P2(E)) is as close as possible to the said value of the reference distribution function (P0(E0)), and
      those signal components, whose signal levels fall between the first and the second level, are assigned the value of the first level (E0).
    2. The method of claim 1, characterized in that it is carried out for a signal field realized as a time and/or frequency dependent spectrum of an acoustic signal.
    EP20000958032 1999-09-10 2000-08-28 Method for suppressing spurious noise in a signal field Expired - Lifetime EP1212751B1 (en)

    Priority Applications (1)

    Application Number Priority Date Filing Date Title
    AT00958032T ATE280990T1 (en) 1999-09-10 2000-08-28 METHOD FOR SUPPRESSING INTERFERENCE NOISE IN A SIGNAL FIELD

    Applications Claiming Priority (3)

    Application Number Priority Date Filing Date Title
    AT0155999A AT408286B (en) 1999-09-10 1999-09-10 METHOD FOR SUPPRESSING NOISE IN A SIGNAL FIELD
    AT155999 1999-09-10
    PCT/AT2000/000230 WO2001020598A1 (en) 1999-09-10 2000-08-28 Method for suppressing spurious noise in a signal field

    Publications (2)

    Publication Number Publication Date
    EP1212751A1 EP1212751A1 (en) 2002-06-12
    EP1212751B1 true EP1212751B1 (en) 2004-10-27

    Family

    ID=3516023

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP20000958032 Expired - Lifetime EP1212751B1 (en) 1999-09-10 2000-08-28 Method for suppressing spurious noise in a signal field

    Country Status (6)

    Country Link
    US (1) US20020173276A1 (en)
    EP (1) EP1212751B1 (en)
    JP (1) JP2003509730A (en)
    AT (1) AT408286B (en)
    DE (1) DE50008440D1 (en)
    WO (1) WO2001020598A1 (en)

    Cited By (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    CN111344966A (en) * 2017-11-13 2020-06-26 洛昂有限责任公司 Beamforming calibration

    Families Citing this family (5)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US6718316B1 (en) * 2000-10-04 2004-04-06 The United States Of America As Represented By The Secretary Of The Navy Neural network noise anomaly recognition system and method
    US7676046B1 (en) 2005-06-09 2010-03-09 The United States Of America As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal
    US7492814B1 (en) 2005-06-09 2009-02-17 The U.S. Government As Represented By The Director Of The National Security Agency Method of removing noise and interference from signal using peak picking
    KR100745977B1 (en) * 2005-09-26 2007-08-06 삼성전자주식회사 Apparatus and method for voice activity detection
    US11176642B2 (en) * 2019-07-09 2021-11-16 GE Precision Healthcare LLC System and method for processing data acquired utilizing multi-energy computed tomography imaging

    Family Cites Families (8)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US4102301A (en) * 1971-03-26 1978-07-25 Imperial Chemical Industries Limited Apparatus for coating plastic film
    US3718117A (en) * 1971-04-26 1973-02-27 Armstrong Cork Co Grooved rod coater
    US4354449A (en) * 1978-07-03 1982-10-19 The Black Clawson Company Two sided coater
    US4490691A (en) * 1980-06-30 1984-12-25 Dolby Ray Milton Compressor-expander circuits and, circuit arrangements for modifying dynamic range, for suppressing mid-frequency modulation effects and for reducing media overload
    JPS57165774A (en) * 1981-04-03 1982-10-12 Nec Corp General purpose control device for rate of erroneously issued alarm
    US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
    US5164993A (en) * 1991-11-25 1992-11-17 Eastman Kodak Company Method and apparatus for automatic tonescale generation in digital radiographic images
    JP3444449B2 (en) * 1994-12-26 2003-09-08 ソニー株式会社 Video signal processing device

    Cited By (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    CN111344966A (en) * 2017-11-13 2020-06-26 洛昂有限责任公司 Beamforming calibration

    Also Published As

    Publication number Publication date
    US20020173276A1 (en) 2002-11-21
    WO2001020598A1 (en) 2001-03-22
    ATA155999A (en) 2001-02-15
    EP1212751A1 (en) 2002-06-12
    DE50008440D1 (en) 2004-12-02
    AT408286B (en) 2001-10-25
    JP2003509730A (en) 2003-03-11

    Similar Documents

    Publication Publication Date Title
    DE69726526T2 (en) Scheme and model adaptation for pattern recognition based on Taylor expansion
    DE19747885B4 (en) Method for reducing interference of acoustic signals by means of the adaptive filter method of spectral subtraction
    EP1741039B1 (en) Information signal processing by carrying out modification in the spectral/modulation spectral region representation
    EP2158588B1 (en) Spectral smoothing method for noisy signals
    EP1869671B1 (en) Noise suppression process and device
    EP0277613B1 (en) Audio signal transmission method
    EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
    EP1143416A2 (en) Time domain noise reduction
    WO2004013839A1 (en) Arrangement and method for the generation of a complex spectral representation of a time-discrete signal
    DE102008023915A1 (en) Filtering control variable setting method for noise reduction in medical image in X-ray diagnostic facility, involves comparing standard noise deviation and standard structure deviation and setting control variable as function of comparison
    EP1014340A2 (en) Method and device for processing noisy audio signals
    EP1212751B1 (en) Method for suppressing spurious noise in a signal field
    DE4010028C2 (en) Speech recognition method
    EP3065417B1 (en) Method for suppressing interference noise in an acoustic system
    DE10157535B4 (en) Method and apparatus for reducing random, continuous, transient disturbances in audio signals
    EP1462779B1 (en) Method and device for the analysis of engine noise
    EP1755110A2 (en) Method and device for adaptive reduction of noise signals and background signals in a speech processing system
    EP3403260B1 (en) Method and apparatus for conditioning an audio signal subjected to lossy compression
    EP1062659B1 (en) Method and device for processing a sound signal
    DE4445983C2 (en) Noise reduction methods and apparatus for performing the methods
    DE102004008225B4 (en) Method and device for determining feature vectors from a signal for pattern recognition, method and device for pattern recognition and computer-readable storage media
    EP1130577B1 (en) Method for the reconstruction of low speech frequencies from mid-range frequencies
    EP0231490B1 (en) Method for speech recognition in a noisy environment
    DE3642591A1 (en) Method for voice recognition in a noisy environment
    DE3645119C2 (en) Speech or sound recognition device - has speech-sound models superimposed to reduce background hiss effects

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20020330

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    RAP1 Party data changed (applicant data changed or rights of an application transferred)

    Owner name: SIEMENS AKTIENGESELLSCHAFT

    17Q First examination report despatched

    Effective date: 20030604

    GRAP Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOSNIGR1

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

    Effective date: 20041027

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20041027

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20041027

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20041027

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    REF Corresponds to:

    Ref document number: 50008440

    Country of ref document: DE

    Date of ref document: 20041202

    Kind code of ref document: P

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050127

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050127

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050127

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050207

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20050207

    NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050828

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20050828

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050831

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050831

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050831

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050831

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050831

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    ET Fr: translation filed
    26N No opposition filed

    Effective date: 20050728

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20051021

    Year of fee payment: 6

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20060808

    Year of fee payment: 7

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20060809

    Year of fee payment: 7

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20070301

    BERE Be: lapsed

    Owner name: *SIEMENS A.G.

    Effective date: 20050831

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20050327

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20070828

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20080430

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20070831

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20070828