EP1062659A1 - Method and device for processing a sound signal - Google Patents

Method and device for processing a sound signal

Info

Publication number
EP1062659A1
EP1062659A1 EP99917771A EP99917771A EP1062659A1 EP 1062659 A1 EP1062659 A1 EP 1062659A1 EP 99917771 A EP99917771 A EP 99917771A EP 99917771 A EP99917771 A EP 99917771A EP 1062659 A1 EP1062659 A1 EP 1062659A1
Authority
EP
European Patent Office
Prior art keywords
segments
signal
determined
envelope
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP99917771A
Other languages
German (de)
French (fr)
Other versions
EP1062659B1 (en
Inventor
Tobias Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1062659A1 publication Critical patent/EP1062659A1/en
Application granted granted Critical
Publication of EP1062659B1 publication Critical patent/EP1062659B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the invention relates to a method and a device for processing a sound signal.
  • a wavelet transformation is known from [2].
  • a wavelet transformation is preferably carried out in a plurality of transformation stages, a transformation stage dividing a pattern into a high-pass and a low-pass component.
  • the respective high-pass or low-pass portion preferably has a reduced resolution compared to the pattern (technical term: subsampling, i.e. reduced sampling rate, thus reduced resolution). From the high pass and the
  • the wavelet transformation can be one-dimensional, two-dimensional or multidimensional.
  • a sound signal comprises a useful signal and a disturbance signal, the strength of the disturbance signal depending on the environment. It is essential for further processing of the audio signal
  • the object of the invention is to provide a method and a device which ensures the processing of a sound signal in such a way that the disadvantage described above is avoided.
  • FFT frequency transform
  • a wavelet transformation or any other transformation can also be used to map the time range m the frequency range.
  • a method for processing an audio signal in which the audio signal is transformed into a frequency range. For at least one predetermined frequency of the audio signal, an envelope of the audio signal transformed over the frequency range is determined over time. The envelope is subdivided into a set of segments, which segments are each determined by a predetermined duration. A maximum of the envelope is determined for each segment of the set of segments. The smallest maximum is determined for a predetermined number of segments of the set of segments. The audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal.
  • the smallest maximum is thus advantageously specified, which is determined over a predetermined duration for the respective frequency, the envelope of which is determined over time, the smallest maximum preferably detecting an interference signal, which comprises a useful signal and an interference signal, the interference signal.
  • an interference signal which comprises a useful signal and an interference signal, the interference signal.
  • the multiple segments include a dynamic course of the interference signal over time.
  • the disturbance signal can be an engine noise in a motor vehicle which continuously accelerates the motor vehicle over a period of time.
  • the disturbance signal in the motor vehicle thus increases over time (during acceleration). Since the smallest maximum is determined in each case for the number of segments, the smallest maximum is (re) determined over time for each number of segments, so that the dynamic development of the fault signal can also be taken into account.
  • a further development of the invention consists in that a minimum is determined for a further number of segments of the set of segments, and that the audio signal is processed by subtracting the minimum maximum combined with the minimum from the audio signal.
  • the minimum which is determined for a further number of segments, proves to be extremely advantageous for adapting the interference signal, which is to be subtracted from the audio signal in order to obtain the useful signal.
  • the minimum characterizes the interference signal and is therefore subtracted from the sound signal.
  • the coefficients are to be specified in such a way that the interference signal is reduced favorably for the application.
  • An advantageous development consists in that an update is carried out each time the number or the further number of segments has elapsed, in such a way that an updated fault signal is subtracted from the sound signal.
  • the sound signal is a speech signal, preferably naturally spoken speech.
  • the processed audio signal is used for speech recognition.
  • a clear useful signal if possible without a disturbance signal component, is an advantageous requirement, especially for a system for speech recognition.
  • the speech recognition system recognizes the spoken language the better, the clearer the useful signal is.
  • the useful signal can also be output. 5
  • a device for processing a sound signal which has a processor unit which is set up in such a way that the sound signal m can be transformed over a frequency range. For at least one predetermined frequency, an envelope of the tone signal transformed over the frequency range can be determined over time.
  • the envelope can be subdivided into a set of segments, each of which is determined by a predetermined duration. A maximum of the envelope is determined for each segment of the set of segments. For a number of segments of the
  • the smallest maximum is determined for the number of segments.
  • the audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal.
  • a possible development of the device for processing a sound signal is that the processor unit is set up in such a way that a minimum is determined for a further number of segments, and that the sound signal is processed by combining the smallest maximum with the minimum of is deducted from the sound signal.
  • the device is particularly suitable for carrying out the method according to the invention or a further development described above.
  • FIG.l is a block diagram showing steps of a method for processing a sound signal; 6 FIG. 2 shows a profile of an envelope f (t) of a frequency £ _ over the time t;
  • Fig.l shows a block diagram which has steps of a method for processing a sound signal. Two variants for processing the sound signal are shown below using Fig.la and Fig.lb.
  • the sound signal m is transformed at least one frequency range (see step 101).
  • This transformation is preferably a Fast Fourier Transformation (FFT).
  • FFT Fast Fourier Transformation
  • the transformation is carried out at specific points in time t ⁇ and thus a course of at least one frequency is determined over the points in time t x .
  • An envelope is determined in a step 102 via this time-dependent course of the frequency. This is carried out for at least one frequency, in particular for several significant frequencies of the audio signal.
  • the respective envelope m is subdivided into a set of segments, which segments preferably have the same duration. A maximum is determined for each segment in the course of the envelope (cf. step 104).
  • the smallest maximum of a predetermined number of segments is determined in a step 105 and this smallest maximum, in particular weighted by a factor, is subtracted from the audio signal in order to reduce the interference signal and to ensure the strongest possible useful signal (cf. step 106).
  • the smallest maximum is determined for a certain number of previous segments, with an update being carried out again after a predefined time for the smallest maximum, taking into account the number predefined at this new time 7 past segments.
  • the smallest maximum for the envelope of the respective frequency is dynamically adjusted over time at all times given by the number N of previous segments.
  • the disturbance signal is an accelerating vehicle in which an engine noise increases over time in accordance with the acceleration.
  • the disturbance signal corresponding to the increasing engine noise is adapted by updating the smallest maximum at predetermined times for the envelope of predetermined frequencies in order to obtain a high-quality useful signal from the audio signal.
  • Fig.lb shows the blocks 101, 102, 103, 104 and 105 corresponding to Fig.la.
  • step 103 in addition to the determination of the maximum (104 and 105), a minimum over a predetermined time of the envelope of the particular examined Frequency determined (see step 107).
  • the (smallest) minimum of a predetermined number of previous segments is of interest, that is to say the minimum that results from the envelope from a current point in time for a duration to be taken into account.
  • both the smallest maximum and the minimum are linked to one another in order to obtain a disturbance signal to be subtracted from the audio signal and thus decisively improve the quality of the useful signal.
  • a denotes a first predetermined coefficient
  • b a second predetermined coefficient
  • max the smallest maximum
  • mm the minimum
  • N denotes a noise estimate or a value strongly correlated with the noise.
  • This link also takes into account the temporal variation of the fault signal. If a constant interference signal is superimposed on the useful signal, exactly this interference signal or a proportion proportional to it is eliminated.
  • the time interval T to be taken into account to determine the minimum and possibly also the smallest maximum, which characterizes the duration of the number of past segments, is chosen in particular so that this time interval T is longer than the spoken word (the sound signal corresponds to naturally spoken language).
  • Amplitude Af of the frequency f and on the abscissa is the
  • the time axis t is divided into segments SEG X , 1 representing a time variable.
  • the segments SEG1, SEG2, ..., SEG6 are shown in FIG. 2 as an example.
  • a maximum Max x is determined, which represents em maximum of the envelope f (t) of the frequency f x over time t related to the respective segment SEG X.
  • the maxima Maxl, Max2, ..., Max 6 result.
  • the smallest of the maxima, in the example Maximum Max ⁇ from segment SEG ⁇ is determined.
  • the minimum Mm of the segments SEG L shown is m segment SEG2.
  • the smallest maximum Max ⁇ and the minimum Mm determined in this way are linked to one another in the manner described above and by the sound signal, that is to say the frequency f 1; subtracted to improve the useful signal (again based on the frequency f).
  • a weighted average of the smallest maximum and minimum is subtracted from the audio signal (based on the frequency f x to be taken into account in each case).
  • the smallest maximum and the minimum at a time t a ] t are determined taking into account a predetermined number N of segments before this time t k.
  • the smallest maximum and the minimum are again determined at different times t a kt, linked to one another and subtracted from the useful signal (based on the respective frequency f).
  • FIG. 2 shows an example of the envelope f H (t) for a predetermined frequency i x .
  • transformation for example after carrying out an FFT
  • the sound signal x (t) into the frequency range exactly one value of an amplitude Af at the respective time t is obtained for each frequency f x .
  • the course of the frequency f ⁇ _ (t) over time t results from transformations into the frequency range carried out at different times t. In this way, the time course of a predetermined frequency f x (t) is obtained.
  • the envelope f (t) is determined via this time course of the frequency f ⁇ (t).
  • This envelope f (t) is shown in Fig.2.
  • an envelope f (t) is determined for several frequencies f x , so that the
  • Invention is applied to a plurality of envelopes f (t), which represent the course of a plurality of frequencies f x over time, and thus a significant improvement in the sound signal is achieved by subtracting the determined interference signal from a sound signal containing information.
  • the processor unit PRZE comprises a processor CPU, a memory SPE and an input / output interface IOS, which is used in different ways via an interface IFC: an output is visible on a monitor MON and / or on a printer via a graphic interface PRT issued. An entry is made using a mouse MAS or a keyboard TAST.
  • the processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS. Additional components can also be connected to the data bus BUS, e.g. additional memory, data storage (hard disk) or scanner.
  • Fig. Shows em speech recognition system.
  • a prerequisite for recognizing naturally spoken language is a suitable formalism for representing knowledge.
  • a complete speech recognition system comprises several levels of processing. These are in particular acoustic phonetics, intonation, syntax, semantics and pragmatics.
  • Fig. 4 shows the processing levels during recognition (see [1]) - 11
  • the natural speech signal SPRS reaches the speech recognition system.
  • a feature extraction is carried out there in a component MEX.
  • MEX acoustic-phonetic units
  • SPLE acoustic-phonetic units
  • This is the calculation of acoustic distance parameters.
  • the lexical decoding takes place in a block LDK with the aid of the pronunciation model or word lexicon WOLX and then a syntax analysis SYAL with the help of the language model which includes the grammar, GRSML.
  • the word recognition LDK and the syntax analysis SYAL represent the search for a correspondence for the speech signal.
  • a semantic postprocessing is carried out in a block SENB, taking into account context knowledge and pragmatics KWPM and finally the language recognized by the speech recognition system ERSPR.

Abstract

The invention relates to a method and device for processing a sound signal comprising a useful signal and an interfering signal. The sound signal is transformed in the frequency range and a modification in the shape of the signal is represented by an envelope for at least one frequency over a given time period. By segmenting the envelope it is possible to obtain a maximum for each segment. The lowest maximum is weighted by a factor and is extracted from the sound signal. It is also possible to take the minimum into account in order to reduce the interfering signal.

Description

1 Beschreibung 1 description
Verfahren und Vorrichtung zur Bearbeitung eines TonsignalsMethod and device for processing a sound signal
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Bearbeitung eines Tonsignals.The invention relates to a method and a device for processing a sound signal.
Ein System zur Spracherkennung ist aus [1] bekannt. Dort finden sich auch eine grundlegende Einfuhrung m Komponenten des Systems zur Spracherkennung sowie wichtiger, bei der Spracherkennung üblicher Techniken.A system for speech recognition is known from [1]. There you will also find a basic introduction to the components of the system for speech recognition and important techniques common in speech recognition.
Eine Wavelet-Transfor ation ist aus [2] bekannt. Eine Wavelet-Transformation erfolgt bevorzugt m mehreren Transformationsstufen, wobei eine Transformationsstufe ein Muster m einen Hochpaß- und einen Tiefpaßanteil unterteilt. Der jeweilige Hochpaß- bzw. Tiefpaßanteil weist vorzugsweise eine gegenüber dem Muster reduzierte Auflosung auf (engl. Fachbegriff: Subsampling, d.h. verminderte Abtastrate, dadurch reduzierte Auflosung) . Aus dem Hochpaß- und demA wavelet transformation is known from [2]. A wavelet transformation is preferably carried out in a plurality of transformation stages, a transformation stage dividing a pattern into a high-pass and a low-pass component. The respective high-pass or low-pass portion preferably has a reduced resolution compared to the pattern (technical term: subsampling, i.e. reduced sampling rate, thus reduced resolution). From the high pass and the
Tiefpaßanteil kann das Muster rekonstruiert werden. Dies wird insbesondere durch die spezielle Form der bei der Transformation verwendeten Transformationsfllter gewährleistet. Die Wavelet-Transformation kann eindimensional, zweidimensional oder mehrdimensional erfolgen.Low pass portion of the pattern can be reconstructed. This is ensured in particular by the special shape of the transformation filters used in the transformation. The wavelet transformation can be one-dimensional, two-dimensional or multidimensional.
Ein Tonsignal umfaßt ein Nutzsignal und ein Storsignal, wobei die Starke des Storsignals von der Umgebung abhangt. Für eine Weiterverarbeitung des Tonsignals ist es eine wesentlicheA sound signal comprises a useful signal and a disturbance signal, the strength of the disturbance signal depending on the environment. It is essential for further processing of the audio signal
Voraussetzung, das Nutzsignal von dem Storsignal zu trennen.Requirement to separate the useful signal from the disturbance signal.
Es sind Verfahren bekannt, die unterschiedliche Bereiche eines Frequenzspektrums des Tonsignals mehr oder minder stark unterdrucken. Dabei ist es von Nachteil, daß eine dynamische Entwicklung des Storsignals nicht berücksichtigt wird. 2 Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Vorrichtung anzugeben, das bzw. die eine Bearbeitung eines Tonsignals derart gewährleistet, daß der oben beschriebene Nachteil vermieden wird.Methods are known which more or less strongly suppress different areas of a frequency spectrum of the audio signal. It is disadvantageous that a dynamic development of the disturbance signal is not taken into account. 2 The object of the invention is to provide a method and a device which ensures the processing of a sound signal in such a way that the disadvantage described above is avoided.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelost.This object is achieved according to the features of the independent claims.
Mit einer Transformation eines Zeitsignais m einen Frequenzbereich, z.B. mittels Fast-Fourier-TransformationWith a transformation of a time signal m a frequency range, e.g. using Fast Fourier transform
(FFT) , wird ein Bereich des Zeitsignais, der eine vorgegebene Anzahl von Abtastwerten umfaßt, m den Frequenzbereich transformiert. Dieser Vorgang erfolgt für unterschiedliche Zeitpunkte, so daß mit fortschreitender Zeit im Frequenzbereich die einzelnen Frequenzen unterschiedliche, von dem jeweiligen transformierten Bereich des Zeitsignais abhangig, Werte entstehen. Auf diese Art kann der Verlauf einer Frequenz über die Zeit dargestellt werden.(FFT), an area of the time signal comprising a predetermined number of samples is transformed into the frequency area. This process takes place for different points in time, so that as time progresses in the frequency range, the individual frequencies result in different values depending on the respective transformed range of the time signal. In this way, the course of a frequency over time can be displayed.
Neben der FFT ist auch eine Wavelet-Transformation oder jede andere Transformation für die Abbildung des Zeitbereichs m den Frequenzbereich anwendbar.In addition to the FFT, a wavelet transformation or any other transformation can also be used to map the time range m the frequency range.
Es wird ein Verfahren angegeben zur Bearbeitung eines Tonsignals, bei dem das Tonsignal in einen Frequenzbereich transformiert wird. Für mindestens eine vorgegebene Frequenz des Tonsignals wird eine Einhüllende des m den Frequenzbereich transformierten Tonsignals über die Zeit bestimmt. Die Einhüllende wird m eine Menge von Segmenten, welche Segmente jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt. Für jedes Segment der Menge von Segmenten wird ein Maximum der Einhüllenden ermittelt. Für eine vorgegebene Anzahl der Segmente der Menge von Segmenten wird das kleinste Maximum ermittelt. Das Tonsignal wird bearbeitet, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird. 3 Vorteilhaft wird somit das kleinste Maximum, das über eine vorgegebene Dauer für die jeweilige Frequenz, deren Einhüllende über die Zeit bestimmt wird, angegeben, wobei das kleinste Maximum vorzugsweise m einem Tonsignal, das ein Nutzsignal und ein Storsignal umfaßt, das Storsignal erfaßt. Insbesondere kommt dies zum Ausdruck, wenn das Tonsignal nat rlich gesprochene Sprache ist. Dabei umfaßt die Sprache mehrere Worter, die, auch bei fließender Aussprache, Stellen mit spektralen Minima (insbesondere Pausen zwischen den einzelnen Wortern) beinhalten. In solchen Stellen spektraler Minima ist das Nutzsignal nahezu nicht vorhanden, wohingegen das Storsignal dominiert.A method is specified for processing an audio signal, in which the audio signal is transformed into a frequency range. For at least one predetermined frequency of the audio signal, an envelope of the audio signal transformed over the frequency range is determined over time. The envelope is subdivided into a set of segments, which segments are each determined by a predetermined duration. A maximum of the envelope is determined for each segment of the set of segments. The smallest maximum is determined for a predetermined number of segments of the set of segments. The audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal. 3 The smallest maximum is thus advantageously specified, which is determined over a predetermined duration for the respective frequency, the envelope of which is determined over time, the smallest maximum preferably detecting an interference signal, which comprises a useful signal and an interference signal, the interference signal. This is particularly evident when the sound signal is naturally spoken language. The language comprises several words which, even with fluent pronunciation, contain places with spectral minima (in particular pauses between the individual words). In such places of spectral minima, the useful signal is almost non-existent, whereas the interference signal dominates.
Ein anderer Vorteil besteht darin, daß für die Anzahl der Segmente das kleinste Maximum ermittelt wird. Dabei umfassen die mehreren Segmente einen dynamischen Verlauf des Storsignals über die Zeit. So kann das Storsignal ein Motorgerausch in einem Kraftfahrzeug sein, welches Kraftfahrzeug über einen Zeitraum standig beschleunigt. Das Storsignal in dem Kraftfahrzeug nimmt somit ber die Zeit (wahrend der Beschleunigung) zu. Da jeweils für die Anzahl der Segmente das kleinste Maximum ermittelt wird, erfolgt über die Zeit für jede Anzahl der Segmente eine (erneute) Bestimmung des kleinsten Maximums, so daß die dynamische Entwicklung des Storsignals mitberucksichtigt werden kann.Another advantage is that the smallest maximum is determined for the number of segments. The multiple segments include a dynamic course of the interference signal over time. For example, the disturbance signal can be an engine noise in a motor vehicle which continuously accelerates the motor vehicle over a period of time. The disturbance signal in the motor vehicle thus increases over time (during acceleration). Since the smallest maximum is determined in each case for the number of segments, the smallest maximum is (re) determined over time for each number of segments, so that the dynamic development of the fault signal can also be taken into account.
Eine Weiterbildung der Erfindung besteht darin, daß für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird, und daß das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird.A further development of the invention consists in that a minimum is determined for a further number of segments of the set of segments, and that the audio signal is processed by subtracting the minimum maximum combined with the minimum from the audio signal.
Die Miteinbeziehung des Minimums, das für eine weitere Anzahl der Segmente ermittelt wird, erweist sich zur Adaption des Storsignals, das von dem Tonsignal abzuziehen ist, um das Nutzsignal zu erhalten, als äußerst vorteilhaft. Sofern 4 gerade kein Nutzsignal vorliegt, kennzeichnet das Minimum das Storsignal und ist wird daher von dem Tonsignal abgezogen.The inclusion of the minimum, which is determined for a further number of segments, proves to be extremely advantageous for adapting the interference signal, which is to be subtracted from the audio signal in order to obtain the useful signal. Provided 4 there is currently no useful signal, the minimum characterizes the interference signal and is therefore subtracted from the sound signal.
Eine andere Weiterbildung besteht darin, daß das Minimum und das kleinste Maximum gemäß der BeziehungAnother development is that the minimum and the smallest maximum according to the relationship
max a + b mm wobei a einen ersten vorgegebenen Koeffizienten, b einen zweiten vorgegebenen Koeffizienten, max das kleinste Maximum und mm das Minimum bezeichnen, verknüpft sind.max a + b mm, where a denotes a first predetermined coefficient, b a second predetermined coefficient, max the smallest maximum and mm the minimum.
Die Koeffizienten sind dabei derart vorzugeben, daß eine für den Anwendungsfall gunstige Reduzierung des Storsignals erfolgt .The coefficients are to be specified in such a way that the interference signal is reduced favorably for the application.
Eine vorteilhafte Weiterbildung besteht darin, daß jeweils nach Ablauf der Anzahl bzw. der weiteren Anzahl von Segmenten eine Aktualisierung durchgeführt wird derart, daß von dem Tonsignal ein aktualisiertes Storsignal abgezogen wird.An advantageous development consists in that an update is carried out each time the number or the further number of segments has elapsed, in such a way that an updated fault signal is subtracted from the sound signal.
Im Rahmen einer zusätzlichen Weiterbildung ist es vorteilhaft, wenn das Tonsignal ein Sprachsignal, vorzugsweise natürlich gesprochene Sprache, ist.As part of an additional development, it is advantageous if the sound signal is a speech signal, preferably naturally spoken speech.
Auch ist es eine Weiterbildung, daß das bearbeitete Tonsignal zur Spracherkennung verwendet wird. Gerade für e n System zur Spracherkennung ist ein klares Nutzsignal, möglichst ohne Storsignalanteil, eine vorteilhafte Voraussetzung. So erkennt das System zur Spracherkennung die gesprochene Sprache um so besser, e klarer das Nutzsignal ist. Ferner kann auch das Nutzsignal ausgegeben werden. 5 Ferner wird eine Vorrichtung zur Bearbeitung eines Tonsignals angegeben, die eine Prozessoreinheit aufweist, die derart eingerichtet ist, daß das Tonsignal m einen Frequenzbereich transformierbar ist. Für mindestens eine vorgegebene Frequenz ist eine Einhüllende des m den Frequenzbereich transformierten Tonsignals über die Zeit bestimmbar. Die Einhüllende ist m eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilbar. Für jedes Segment der Menge von Segmenten wird ein Maximum der Einhüllenden ermittelt. Für eine Anzahl der Segmente derIt is also a further development that the processed audio signal is used for speech recognition. A clear useful signal, if possible without a disturbance signal component, is an advantageous requirement, especially for a system for speech recognition. The speech recognition system recognizes the spoken language the better, the clearer the useful signal is. The useful signal can also be output. 5 Furthermore, a device for processing a sound signal is specified which has a processor unit which is set up in such a way that the sound signal m can be transformed over a frequency range. For at least one predetermined frequency, an envelope of the tone signal transformed over the frequency range can be determined over time. The envelope can be subdivided into a set of segments, each of which is determined by a predetermined duration. A maximum of the envelope is determined for each segment of the set of segments. For a number of segments of the
Menge von Segmenten wird das kleinste Maximum ermittelt. Das Tonsignal wird bearbeitet, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird.The smallest maximum is determined for the number of segments. The audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal.
Eine mögliche Weiterbildung der Vorrichtung zur Bearbeitung eines Tonsignals besteht darin, daß die Prozessoreinheit derart eingerichtet ist, daß für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird und daß das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird.A possible development of the device for processing a sound signal is that the processor unit is set up in such a way that a minimum is determined for a further number of segments, and that the sound signal is processed by combining the smallest maximum with the minimum of is deducted from the sound signal.
Die Vorrichtung ist insbesondere geeignet zur Durchfuhrung des erfmdungsgemaßen Verfahrens oder einer semer vorstehend erläuterten Weiterbildungen.The device is particularly suitable for carrying out the method according to the invention or a further development described above.
Weiterbildungen ergeben sich auch aus den abhangigen Ansprüchen.Further developments also result from the dependent claims.
Anhand der folgenden Figuren werden Ausfuhrungsbeispiele der Erfindung naher dargestellt.Exemplary embodiments of the invention are illustrated in more detail with the aid of the following figures.
Es zeigenShow it
Fig.l ein Blockdiagramm, das Schritte eines Verfahrens zur Bearbeitung eines Tonsignals aufweist; 6 Fig.2 einen Verlauf einer Einhüllenden f (t) einer Frequenz £_ über die Zeit t;Fig.l is a block diagram showing steps of a method for processing a sound signal; 6 FIG. 2 shows a profile of an envelope f (t) of a frequency £ _ over the time t;
Fig.3 eine Prozessoreinheit;3 shows a processor unit;
Fig.4 ein System zur Spracherkennung.4 shows a system for speech recognition.
Fig.l zeigt ein Blockdiagramm, das Schritte eines Verfahrens zur Bearbeitung eines Tonsignals aufweist. Es werden nachfolgend zwei Varianten zur Bearbeitung des Tonsignals anhand Fig.la und Fig.lb dargestellt.Fig.l shows a block diagram which has steps of a method for processing a sound signal. Two variants for processing the sound signal are shown below using Fig.la and Fig.lb.
In Fig.la wird das Tonsignal m mindestens einen Frequenzbereich transformiert (vgl. Schritt 101).In Fig.la the sound signal m is transformed at least one frequency range (see step 101).
Vorzugsweise ist diese Transformation eine Fast-Fourier- Transformation (FFT) . Dabei wird die Transformation zu bestimmten Zeitpunkten tλ durchgef hrt und somit ein Verlauf mindestens einer Frequenz über die Zeitpunkte tx ermittelt. Über diesen zeitabhängigen Verlauf der Frequenz wird eine Einhüllende m einem Schritt 102 bestimmt. Dies wird für mindestens eine Frequenz, insbesondere f r mehrere signifikante Frequenzen des Tonsignals, durchgeführt. In einem Schritt 103 wird die die jeweilige Frequenz Einhüllende m eine Menge von Segmenten, welche Segmente vorzugsweise gleiche Dauer aufweisen, unterteilt. Für jedes Segment wird ein Maximum im Verlauf der Einhüllenden ermittelt (vgl. Schritt 104) . In einem Schritt 105 wird das kleinste Maximum einer vorgegebenen Anzahl von Segmenten bestimmt und dieses kleinste Maximum, insbesondere gewichtet mit einem Faktor, vom Tonsignal abgezogen, um so das Storsignal zu reduzieren und ein möglichst starkes Nutzsignal zu gewährleisten (vgl. Schritt 106) . Das kleinste Maximum wird dabei für eine bestimmte Anzahl zurückliegender Segmente ermittelt, wobei eine Aktualisierung nach einer vorgegebenen Zeit für das kleinste Maximum erneut durchgeführt wird unter Berücksichtigung der zu dieser neuen Zeit vorgegebenen Anzahl 7 zurückliegender Segmente. Somit erfolgt eine dynamische Anpassung des kleinsten Maximums für die Einhüllende der jeweiligen Frequenz über die Zeit zu allen durch die Anzahl N zurückliegender Segmente gegebenen Zeitpunkten. Ein Beispiel, das die Notwendigkeit einer dynamischen Anpassung desThis transformation is preferably a Fast Fourier Transformation (FFT). The transformation is carried out at specific points in time t λ and thus a course of at least one frequency is determined over the points in time t x . An envelope is determined in a step 102 via this time-dependent course of the frequency. This is carried out for at least one frequency, in particular for several significant frequencies of the audio signal. In a step 103, the respective envelope m is subdivided into a set of segments, which segments preferably have the same duration. A maximum is determined for each segment in the course of the envelope (cf. step 104). The smallest maximum of a predetermined number of segments is determined in a step 105 and this smallest maximum, in particular weighted by a factor, is subtracted from the audio signal in order to reduce the interference signal and to ensure the strongest possible useful signal (cf. step 106). The smallest maximum is determined for a certain number of previous segments, with an update being carried out again after a predefined time for the smallest maximum, taking into account the number predefined at this new time 7 past segments. Thus, the smallest maximum for the envelope of the respective frequency is dynamically adjusted over time at all times given by the number N of previous segments. An example that illustrates the need for dynamic adjustment of the
Storsignals veranschaulicht, ist das Storsignal einem beschleunigenden Fahrzeug, bei dem ein Motorgerausch entsprechend der Beschleunigung über die Zeit zunimmt. Das dem zunehmenden Motorgerausch entsprechende Storsignal wird durch Aktualisierung des kleinsten Maximums zu vorgegebenen Zeitpunkten für die Einhüllende vorgegebener Frequenzen angepaßt, um ein qualitativ hochwertiges Nutzsignal aus dem Tonsignal zu erhalten.Illustrated disturbance signal, the disturbance signal is an accelerating vehicle in which an engine noise increases over time in accordance with the acceleration. The disturbance signal corresponding to the increasing engine noise is adapted by updating the smallest maximum at predetermined times for the envelope of predetermined frequencies in order to obtain a high-quality useful signal from the audio signal.
Fig.lb zeigt entsprechend Fig.la die Blocke 101, 102, 103, 104 und 105. Dabei wird nach dem Schritt 103, neben der Bestimmung des Maximums (104 und 105), auch ein Minimum über eine vorgegebene Zeit der Einhüllenden der jeweils untersuchten Frequenz ermittelt (vgl. Schritt 107). Insbesondere interessiert dabei das (kleinste) Minimum über eine vorgegebene Anzahl zurückliegender Segmente, also das von einem momentanen Zeitpunkt an für eine zu berücksichtigende Dauer aus der Einhüllenden hervorgehende Minimum. Schließlich werden einem Schritt 108 sowohl das kleinste Maximum als auch das Minimum miteinander verknüpft, um ein von dem Tonsignal abzuziehendes Storsignal zu erhalten und somit die Qualltat des Nutzsignals entscheidend zu verbessern.Fig.lb shows the blocks 101, 102, 103, 104 and 105 corresponding to Fig.la. After step 103, in addition to the determination of the maximum (104 and 105), a minimum over a predetermined time of the envelope of the particular examined Frequency determined (see step 107). In particular, the (smallest) minimum of a predetermined number of previous segments is of interest, that is to say the minimum that results from the envelope from a current point in time for a duration to be taken into account. Finally, in step 108, both the smallest maximum and the minimum are linked to one another in order to obtain a disturbance signal to be subtracted from the audio signal and thus decisively improve the quality of the useful signal.
Das Minimum wird mit dem kleinsten Maximum gemäß der BeziehungThe minimum becomes the smallest maximum according to the relationship
max a + b • mmmax a + b • mm
verknüpft, wobei a einen ersten vorgegebenen Koeffizienten, b einen zweiten vorgegebenen Koeffizienten, max das kleinste Maximum und mm das Minimum bezeichnen.linked, where a denotes a first predetermined coefficient, b a second predetermined coefficient, max the smallest maximum and mm the minimum.
Daraufhin wird bevorzugtThen it is preferred
max imax i
X - | a + b N nun/X - | a + b N now /
berechnet, wobeicalculated where
S das neue (entstörte) Tonsignal,S the new (suppressed) sound signal,
X das gestörte Tonsignal,X the disturbed sound signal,
N einen Gerauschschatzwert oder einen mit dem Geräusch stark korrelierten Wert bezeichnen.N denotes a noise estimate or a value strongly correlated with the noise.
Diese Verknüpfung berücksichtigt auch die zeitliche Variation des Storsignals. Ist dem Nutzsignal em konstantes Storsignal überlagert, wird genau dieses Storsignal bzw. em dazu proportionaler Anteil eliminiert.This link also takes into account the temporal variation of the fault signal. If a constant interference signal is superimposed on the useful signal, exactly this interference signal or a proportion proportional to it is eliminated.
Das zur Festlegung des Minimums und gegebenenfalls auch kleinsten Maximums zur berücksichtigende Zeitmtervall T, das die Dauer der Anzahl zurückliegender Segmente kennzeichnet, wird insbesondere so gewählt, daß dieses Zeitmtervall T langer als em gesprochenes Wort ist (das Tonsignal entspricht hierbei naturlich gesprochener Sprache) . Die Aktualisierung des Minimums bzw. des kleinsten Maximums erfolgt zu Zeitpunkten t=n*T, also alle n Zeitintervalle T.The time interval T to be taken into account to determine the minimum and possibly also the smallest maximum, which characterizes the duration of the number of past segments, is chosen in particular so that this time interval T is longer than the spoken word (the sound signal corresponds to naturally spoken language). The minimum or the smallest maximum is updated at times t = n * T, that is to say every n time intervals T.
Fig.2 zeigt einen Verlauf einer Einhüllenden f (t) einer Frequenz fx über der Zeit t. Auf der Ordinate ist eine2 shows a profile of an envelope f (t) of a frequency f x over time t. There is one on the ordinate
Amplitude Af der Frequenz f und auf der Abszisse ist dieAmplitude Af of the frequency f and on the abscissa is the
Zeit t angetragen. Weiterhin ist em Verlauf der Einhüllenden 9 f (t) über die Zeit t dargestellt. Die Zeitachse t wird m Segmente SEGX, wobei 1 eine Zeitvariable darstellt, unterteilt. In Fig.2 sind beispielhaft die Segmente SEG1, SEG2, ... , SEG6 angetragen. Für jedes Segment SEGX wird em Maximum Maxx ermittelt, das jeweils em auf das jeweilige Segment SEGX bezogene Maximum der Einhüllenden f (t) der Frequenz fx über der Zeit t darstellt. Es ergeben sich die Maxima Maxl,Max2, ... ,Max 6. Nun wird das kleinste der Maxima, im Beispiel Maximum Maxβ aus Segment SEGβ, bestimmt. Das Minimum Mm der dargestellten Segmente SEGL liegt m Segment SEG2. Das auf diese Art bestimmte kleinste Maximum Maxβ und das Minimum Mm werden auf oben beschriebene Art und Weise miteinander verknüpft und von dem Tonsignal, also der Frequenz f1; abgezogen, um das Nutzsignal (wieder bezogen auf die Frequenz f ) zu verbessern.Time t plotted. There is also an envelope 9 f (t) over time t. The time axis t is divided into segments SEG X , 1 representing a time variable. The segments SEG1, SEG2, ..., SEG6 are shown in FIG. 2 as an example. For each segment SEG X , a maximum Max x is determined, which represents em maximum of the envelope f (t) of the frequency f x over time t related to the respective segment SEG X. The maxima Maxl, Max2, ..., Max 6 result. Now the smallest of the maxima, in the example Maximum Maxβ from segment SEGβ, is determined. The minimum Mm of the segments SEG L shown is m segment SEG2. The smallest maximum Maxβ and the minimum Mm determined in this way are linked to one another in the manner described above and by the sound signal, that is to say the frequency f 1; subtracted to improve the useful signal (again based on the frequency f).
Insbesondere wird ein gewichteter Mittelwert aus kleinstem Maximum und Minimum von dem Tonsignal (bezogen auf die jeweils zu berücksichtigte Frequenz fx ) abgezogen.In particular, a weighted average of the smallest maximum and minimum is subtracted from the audio signal (based on the frequency f x to be taken into account in each case).
Ferner werden das kleinste Maximum und das Minimum zu einem Zeitpunkt ta]t unter Berücksichtigung einer vorgegebenen Anzahl N von Segmenten vor diesem Zeitpunkt t k ermittelt. Durch Anpassung des von dem Tonsignal abzuziehenden Storsignals werden zu unterschiedlichen Zeitpunkten takt erneut das kleinste Maximum und das Minimum (über die zurückliegenden N Segmente) ermittelt, miteinander verknüpft und von dem Nutzsignal (bezogen auf die jeweilige Frequenz f ) abgezogen.Furthermore, the smallest maximum and the minimum at a time t a ] t are determined taking into account a predetermined number N of segments before this time t k. By adapting the interference signal to be subtracted from the sound signal, the smallest maximum and the minimum (over the past N segments) are again determined at different times t a kt, linked to one another and subtracted from the useful signal (based on the respective frequency f).
Fig.2 zeigt beispielhaft die Einhüllende f H(t) für eine vorgegebene Frequenz ix . Nach Transformation (z.B. nach Durchfuhrung einer FFT) des Tonsignals x(t) in den Frequenzbereich erhalt man für ede Frequenz fx genau einen Wert einer Amplitude Af zu dem jeweiligen Zeitpunkt t. Der 10 Verlauf der Frequenz fτ_(t) über die Zeit t ergibt sich durch zu verschiedenen Zeitpunkten t durchgeführte Transformationen in den Frequenzbereich. Auf diese Art und Weise erhalt man den zeitlichen Verlauf einer vorgegebenen Frequenz fx (t) . Über diesen zeitlichen Verlauf der Frequenz fχ(t) wird die Einhüllende f (t) bestimmt. Diese Einhüllende f (t) ist m Fig.2 dargestellt. Insbesondere werden für mehrere Frequenzen fx jeweils eine Einhüllende f (t) bestimmt, so daß die2 shows an example of the envelope f H (t) for a predetermined frequency i x . After transformation (for example after carrying out an FFT) of the sound signal x (t) into the frequency range, exactly one value of an amplitude Af at the respective time t is obtained for each frequency f x . The The course of the frequency fτ_ (t) over time t results from transformations into the frequency range carried out at different times t. In this way, the time course of a predetermined frequency f x (t) is obtained. The envelope f (t) is determined via this time course of the frequency fχ (t). This envelope f (t) is shown in Fig.2. In particular, an envelope f (t) is determined for several frequencies f x , so that the
Erfindung auf mehrere Einhüllende f (t) , die den Verlauf mehrerer Frequenzen fx über die Zeit darstellen, angewandt wird und so eine deutliche Verbesserung des Tonsignals erreicht wird, indem das ermittelte Storsignal von einem eine Information enthaltenen Tonsignal abgezogen wird.Invention is applied to a plurality of envelopes f (t), which represent the course of a plurality of frequencies f x over time, and thus a significant improvement in the sound signal is achieved by subtracting the determined interference signal from a sound signal containing information.
In Fig.3 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen Speicher SPE und eine Input/Output-Schnittstelle IOS, die über em Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfugt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusatzliche Komponenten anschließbar, z.B. zusatzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.A processor unit PRZE is shown in FIG. The processor unit PRZE comprises a processor CPU, a memory SPE and an input / output interface IOS, which is used in different ways via an interface IFC: an output is visible on a monitor MON and / or on a printer via a graphic interface PRT issued. An entry is made using a mouse MAS or a keyboard TAST. The processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS. Additional components can also be connected to the data bus BUS, e.g. additional memory, data storage (hard disk) or scanner.
Fig. zeigt em System zur Spracherkennung. Voraussetzung für die Erkennung natürlich gesprochener Sprache ist em geeigneter Formalismus zur Wissensreprasentation. Em vollständiges Spracherkennungssystem umfaßt mehrere Verarbeitungsebenen. Dies sind insbesondere Akustik-Phonetik, Intonation, Syntax, Semantik und Pragmatik. In Fig.4 werden die Verarbeitungsebenen bei der Erkennung aufgezeigt (vgl. [1]) - 11Fig. Shows em speech recognition system. A prerequisite for recognizing naturally spoken language is a suitable formalism for representing knowledge. A complete speech recognition system comprises several levels of processing. These are in particular acoustic phonetics, intonation, syntax, semantics and pragmatics. Fig. 4 shows the processing levels during recognition (see [1]) - 11
Das nat rliche Sprachsignal SPRS gelangt m das Spracherkennungssystem. Dort wird m einer Komponente MEX eine Merkmalsextraktion durchgeführt. Nach der Merkmaisextraktion werden anhand bekannter akustisch- phonetischer Einheiten APE Sprachlaute erkannt (siehe Block SPLE) . Dabei handelt es sich um die Berechnung akustischer Distanzparameter . Nach der Sprachlauterkennung SPLE erfolgt die lexikalische Decodierung (Worterkennung) einem Block LDK mit Hilfe des Aussprachemodells bzw. Wortlexikons WOLX und daran anschließend eine Syntaxanalyse SYAL mit Hilfe des Sprachmodells, das die Grammatik umfaßt, GRSML . Die Worterkennung LDK und die Syntaxanalyse SYAL stellen die Suche nach einer Entsprechung für das Sprachsignal dar. Schließlich wird m einem Block SENB eine semantische Nachbearbeitung durchgeführt, wobei Kontextwissen und Pragmatik KWPM berücksichtigt werden und schließlich die vom Spracherkennungssystem erkannte Sprache ERSPR folgt. The natural speech signal SPRS reaches the speech recognition system. A feature extraction is carried out there in a component MEX. After the feature extraction, APE speech sounds are recognized using known acoustic-phonetic units (see block SPLE). This is the calculation of acoustic distance parameters. After the speech sound recognition SPLE, the lexical decoding (word recognition) takes place in a block LDK with the aid of the pronunciation model or word lexicon WOLX and then a syntax analysis SYAL with the help of the language model which includes the grammar, GRSML. The word recognition LDK and the syntax analysis SYAL represent the search for a correspondence for the speech signal. Finally, a semantic postprocessing is carried out in a block SENB, taking into account context knowledge and pragmatics KWPM and finally the language recognized by the speech recognition system ERSPR.
12 Im Rahmen dieses Dokuments wurde folgende Veröffentlichung zitiert :12 The following publication was cited in the context of this document:
[1] A. Hauenstein: "Optimierung von Algorithmen und Entwurf eines Prozessors für die automatische Spracherkennung", Lehrstuhl für Integrierte Schaltungen, Technische[1] A. Hauenstein: "Optimization of algorithms and design of a processor for automatic speech recognition", Chair for Integrated Circuits, Technical
Universität München, Dissertation, 19.07.1993, Kapitel 2, Seiten 13 bis 26.University of Munich, dissertation, July 19, 1993, chapter 2, pages 13 to 26.
[2] S.G. Mallat: A Theory for Multiresolution Signal[2] S.G. Mallat: A Theory for Multiresolution Signal
Decomposition: The Wavelet Representation, IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol.11, No.7, July 1989, Seiten 674-693. Decomposition: The Wavelet Representation, IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol.11, No.7, July 1989, pages 674-693.

Claims

13 Patentansprüche 13 claims
1. Verfahren zur Bearbeitung eines Tonsignals, a) bei dem das Tonsignal m einen Frequenzbereich transformiert wird, b) bei dem für mindestens eine vorgegebene Frequenz eine Einhüllende des den Frequenzbereich transformierten Tonsignals über die Zeit bestimmt wird, c) bei dem die Einhüllende in eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt wird, d) bei dem für jedes Segment der Menge von Segmenten em Maximum der Einhüllenden ermittelt wird, e) bei dem für eine Anzahl der Segmente der Menge von Segmenten das kleinste Maximum ermittelt wird, f) bei dem das Tonsignal bearbeitet wird, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird.1. A method for processing an audio signal, a) in which the audio signal m is transformed into a frequency range, b) in which an envelope of the audio signal transformed over a period of time is determined for at least one predetermined frequency, c) in which the envelope is converted into an Set of segments, each determined by a predetermined duration, is divided, d) in which the maximum of the envelope is determined for each segment of the set of segments, e) in which the smallest maximum for a number of segments of the set of segments f) in which the audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal.
2. Verfahren nach Anspruch 1, a) bei dem für eine weitere Anzahl der Segmente der Menge von Segmenten em Minimum ermittelt wird, b) bei dem das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird.2. The method of claim 1, a) in which for a further number of segments of the set of segments em minimum is determined, b) in which the sound signal is processed by subtracting the smallest maximum associated with the minimum from the sound signal.
3. Verfahren nach Anspruch 2, bei dem das Minimum und das kleinste Maximum gemäß folgender Beziehung verknüpft sind:3. The method of claim 2, wherein the minimum and the smallest maximum are linked according to the following relationship:
max a + b • , mmmax a + b •, mm
wobei a einen ersten vorgegebenen Koeffizienten, b einen zweiten vorgegebenen Koeffizienten, max das kleinste Maximum und 14 mm das Minimum bezeichnen.where a is a first predetermined coefficient, b is a second predetermined coefficient, max is the smallest maximum and 14 mm indicate the minimum.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem jeweils nach Ablauf der Anzahl bzw. der weiteren Anzahl von Segmenten das Tonsignal bearbeitet wird.4. The method according to any one of the preceding claims, in which the sound signal is processed each time the number or the further number of segments.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Tonsignal e Sprachsignal ist.5. The method according to any one of the preceding claims, wherein the sound signal is e speech signal.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das bearbeitete Tonsignal zur Spracherkennung verwendet wird.Method according to one of the preceding claims, in which the processed audio signal is used for speech recognition.
7. Vorrichtung zur Bearbeitung eines Tonsignals, bei der eine Prozessoreinheit derart eingerichtet ist, daß a) das Tonsignal einen Frequenzbereich transformierbar ist, b) für mindestens eine vorgegebene Frequenz eine Einhüllende des m den Frequenzbereich transformierten Tonsignals über die Zeit bestimmbar ist, c) die Einhüllende m eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt wird, d) für jedes Segment der Menge von Segmenten em Maximum der Einhüllenden ermittelt wird, e) für eine Anzahl der Segmente der Menge von Segmenten das kleinste Maximum ermittelt wird, f) das Tonsignal bearbeitet wird, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird. 15 Vorrichtung nach Anspruch 7, bei der die Prozessoreinheit derart eingerichtet ist, daß a) für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird, b) das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird. 7. A device for processing a sound signal, in which a processor unit is set up such that a) the sound signal can be transformed over a frequency range, b) for at least one predetermined frequency, an envelope of the sound signal transformed over the time range can be determined over time, c) the Envelope m is a subset of segments, each determined by a predetermined duration, d) is determined for each segment of the set of segments em maximum of the envelope, e) the smallest maximum is determined for a number of segments of the set of segments f) the audio signal is processed by subtracting the smallest maximum weighted by a factor from the audio signal. 15 Device according to claim 7, in which the processor unit is set up in such a way that a) a minimum is determined for a further number of segments of the set of segments, b) the audio signal is processed by combining the smallest maximum with the minimum of the audio signal is subtracted.
EP99917771A 1998-03-19 1999-03-08 Method and device for processing a sound signal Expired - Lifetime EP1062659B1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19812207 1998-03-19
DE19812207 1998-03-19
PCT/DE1999/000615 WO1999048084A1 (en) 1998-03-19 1999-03-08 Method and device for processing a sound signal

Publications (2)

Publication Number Publication Date
EP1062659A1 true EP1062659A1 (en) 2000-12-27
EP1062659B1 EP1062659B1 (en) 2002-01-30

Family

ID=7861632

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99917771A Expired - Lifetime EP1062659B1 (en) 1998-03-19 1999-03-08 Method and device for processing a sound signal

Country Status (5)

Country Link
US (1) US6804646B1 (en)
EP (1) EP1062659B1 (en)
JP (1) JP4276781B2 (en)
DE (1) DE59900797D1 (en)
WO (1) WO1999048084A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8092034B2 (en) * 2007-11-07 2012-01-10 Richard David Ashoff Illuminated tile systems and methods for manufacturing the same
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
CN111387978B (en) * 2020-03-02 2023-09-26 京东科技信息技术有限公司 Method, device, equipment and medium for detecting action segment of surface electromyographic signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3196212A (en) 1961-12-07 1965-07-20 Ibm Local amplitude detector
US4185168A (en) * 1976-05-04 1980-01-22 Causey G Donald Method and means for adaptively filtering near-stationary noise from an information bearing signal
US4888806A (en) * 1987-05-29 1989-12-19 Animated Voice Corporation Computer speech system
KR950013552B1 (en) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 Voice signal processing device
JPH04150522A (en) * 1990-10-15 1992-05-25 Sony Corp Digital signal processor
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5479560A (en) 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
JP3237089B2 (en) * 1994-07-28 2001-12-10 株式会社日立製作所 Acoustic signal encoding / decoding method
JP3765171B2 (en) * 1997-10-07 2006-04-12 ヤマハ株式会社 Speech encoding / decoding system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO9948084A1 *

Also Published As

Publication number Publication date
US6804646B1 (en) 2004-10-12
DE59900797D1 (en) 2002-03-14
WO1999048084A1 (en) 1999-09-23
EP1062659B1 (en) 2002-01-30
JP4276781B2 (en) 2009-06-10
JP2002507775A (en) 2002-03-12

Similar Documents

Publication Publication Date Title
DE69726526T2 (en) Scheme and model adaptation for pattern recognition based on Taylor expansion
DE102007001255B4 (en) Audio signal processing method and apparatus and computer program
DE69131776T2 (en) METHOD FOR VOICE ANALYSIS AND SYNTHESIS
DE69725802T2 (en) Pre-filtering using lexical trees for speech recognition
DE69826446T2 (en) VOICE CONVERSION
DE69830017T2 (en) Method and device for speech recognition
EP0690436B1 (en) Detection of the start/end of words for word recognition
EP2158588B1 (en) Spectral smoothing method for noisy signals
EP0076234B1 (en) Method and apparatus for reduced redundancy digital speech processing
DE69720861T2 (en) Methods of sound synthesis
EP0994461A2 (en) Method for automatically recognising a spelled speech utterance
EP1280138A1 (en) Method for audio signals analysis
EP0076233B1 (en) Method and apparatus for redundancy-reducing digital speech processing
EP0285222B1 (en) Method for detecting associatively pronounced words
DE69918635T2 (en) Apparatus and method for speech processing
EP0987682B1 (en) Method for adapting linguistic language models
EP1193689A2 (en) Method for the computation of an eigenspace for the representation of a plurality of training speakers
DE19581667C2 (en) Speech recognition system and method for speech recognition
DE69922769T2 (en) Apparatus and method for speech processing
DE3228757A1 (en) METHOD AND DEVICE FOR PERIODIC COMPRESSION AND SYNTHESIS OF AUDIBLE SIGNALS
DE69723930T2 (en) Method and device for speech synthesis and data carriers therefor
EP1062659B1 (en) Method and device for processing a sound signal
DE60224100T2 (en) GENERATION OF LSF VECTORS
EP1136982A2 (en) Generation of a language model and an acoustic model for a speech recognition system
DE602004007223T2 (en) Continuous vocal tract resonance tracking method using piecewise linear approximations

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20000417

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE FR GB

17Q First examination report despatched

Effective date: 20010212

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 21/02 A

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB

REF Corresponds to:

Ref document number: 59900797

Country of ref document: DE

Date of ref document: 20020314

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20020407

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20111001

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20130408

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20130521

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20140312

Year of fee payment: 16

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 59900797

Country of ref document: DE

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20141128

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 59900797

Country of ref document: DE

Effective date: 20141001

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140331

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20150308

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150308

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20141001