EP1062659B1 - Verfahren und vorrichtung zur bearbeitung eines tonsignals - Google Patents

Verfahren und vorrichtung zur bearbeitung eines tonsignals Download PDF

Info

Publication number
EP1062659B1
EP1062659B1 EP99917771A EP99917771A EP1062659B1 EP 1062659 B1 EP1062659 B1 EP 1062659B1 EP 99917771 A EP99917771 A EP 99917771A EP 99917771 A EP99917771 A EP 99917771A EP 1062659 B1 EP1062659 B1 EP 1062659B1
Authority
EP
European Patent Office
Prior art keywords
sound signal
segments
determined
signal
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP99917771A
Other languages
English (en)
French (fr)
Other versions
EP1062659A1 (de
Inventor
Tobias Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1062659A1 publication Critical patent/EP1062659A1/de
Application granted granted Critical
Publication of EP1062659B1 publication Critical patent/EP1062659B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Definitions

  • the invention relates to a method and an apparatus for Processing a sound signal.
  • a system for speech recognition is known from [1]. There there is also a basic introduction to components the speech recognition system, and more importantly, the Speech recognition of common techniques.
  • a wavelet transformation is known from [2].
  • a Wavelet transformation is preferably carried out in several Transformation levels, being a transformation level Patterns divided into a high-pass and a low-pass portion.
  • the respective high-pass or low-pass portion preferably has a reduced resolution compared to the pattern.
  • the wavelet transformation can one-dimensional, two-dimensional or multidimensional respectively.
  • a sound signal comprises a useful signal and an interference signal, whereby the strength of the interference signal depends on the environment.
  • For one Further processing of the sound signal is an essential one Requirement to separate the useful signal from the interference signal.
  • EP 0 763 810 A1 discloses a voice signal device for Detection of a speech signal in an interference signal Speech signal.
  • the object of the invention is to provide a method and a device which ensures the processing of a sound signal in such a way that the disadvantage described above is avoided.
  • a transformation of a time signal into one Frequency range is a range of the time signal that is a predetermined Number of samples included in the frequency domain transformed. This process is done for different Times so that as time progresses in Frequency range the individual frequencies different from the respective transformed area of the time signal dependent, values arise. In this way, the course a frequency over time.
  • FFT Fast Fourier transform
  • a procedure is given for processing a Sound signal in which the sound signal is in a frequency range is transformed.
  • the sound signal becomes an envelope of the in the Frequency range of transformed sound signal over time certainly.
  • the envelope is divided into a number of segments, which segments are determined by a given duration are divided.
  • For each segment the set of segments a maximum of the envelopes is determined.
  • For one predetermined number of segments of the set of segments determined the smallest maximum.
  • the sound signal will edited by the smallest weighted by a factor Maximum is subtracted from the audio signal.
  • the smallest maximum which is greater than one predetermined duration for the respective frequency whose Envelope is determined over time, given that smallest maximum preferably in a sound signal that a Includes useful signal and an interference signal that detects the interference signal.
  • this is expressed when the sound signal is naturally spoken language.
  • the language includes several words that, even with fluent pronunciation, digits with spectral minima (especially pauses between the individual words). More spectral in such places Minima, the useful signal is almost non-existent, whereas the interference signal dominates.
  • Another advantage is that for the number of Segments the smallest maximum is determined. Do include the multiple segments have a dynamic course of the Interference signal over time. So the interference signal Engine noise in a motor vehicle, which Motor vehicle constantly accelerated over a period of time. The Interference signal in the motor vehicle thus increases over time (during acceleration) too. Because each for the number of the segments the smallest maximum is determined a (renewed) over time for each number of segments Determination of the smallest maximum, so that the dynamic Development of the interference signal can be taken into account.
  • a development of the invention is that for a another number of segments of the set of segments Minimum is determined, and that the sound signal is processed is linked by the minimum to the minimum is subtracted from the audio signal.
  • the inclusion of the minimum for a further number the segments is determined, proves to be the adaptation of the Interference signal to be subtracted from the audio signal in order to To get useful signal as extremely advantageous. Provided At the moment there is no useful signal, the minimum characterizes that Interference signal and is therefore deducted from the sound signal.
  • the coefficients are to be specified such that one for the use case favorable reduction of the interference signal he follows.
  • the sound signal is a speech signal, preferably naturally spoken language.
  • the processed audio signal is used for speech recognition.
  • a system for Speech recognition is a clear useful signal, if possible without Interference signal component, an advantageous requirement. So recognize the speech recognition system the spoken language all the more the clearer the useful signal, the better. Furthermore, that too Useful signal are output.
  • a device for processing a sound signal specified which has a processor unit, such is set up that the sound signal in a frequency range is transformable.
  • a predetermined frequency is an envelope of the in the frequency domain transformed sound signal can be determined over time.
  • the Envelope is in a lot of segments, each are determined by a predetermined duration, can be divided. For each segment of the set of segments becomes a maximum of Envelope determined. For a number of segments of the The smallest maximum is determined for the number of segments.
  • the Sound signal is processed by that with a factor weighted smallest maximum is subtracted from the audio signal.
  • a possible development of the device for processing a sound signal is that the processor unit is set up so that for a further number of Segments of the set of segments a minimum is determined and that the sound signal is processed by the smallest Maximum combined with the minimum subtracted from the audio signal becomes.
  • the device is particularly suitable for implementation of the method according to the invention or one of its above explained further training.
  • FIG. 1 shows a block diagram which has steps of a method for processing an audio signal. Two variants for processing the sound signal are shown below with the aid of FIGS. 1a and 1b.
  • the sound signal is in at least one Frequency range transformed (see step 101).
  • This transformation is preferably a Fast Fourier transformation (FFT).
  • FFT Fast Fourier transformation
  • the transformation becomes too certain times ti performed and thus a course determined at least one frequency over the times ti.
  • a step 103 becomes the respective frequency envelope into a set of segments, which segments are preferred have the same duration, divided. For each segment a maximum is determined in the course of the envelope (cf. Step 104).
  • the smallest maximum determined a predetermined number of segments and this smallest maximum, especially weighted by a factor, subtracted from the audio signal so as to reduce the interference signal and to ensure the strongest possible useful signal (cf. Step 106).
  • the smallest maximum is for one determined number of past segments, whereby an update after a predetermined time for the smallest maximum is carried out again under Taking into account the number specified at this new time previous segments.
  • the interference signal is in one accelerating vehicle in which an engine noise increases over time according to the acceleration.
  • the disturbing signal corresponding to the increasing engine noise by updating the smallest maximum to predetermined Times for the envelope of predetermined frequencies adapted to a high quality useful signal from the To receive the sound signal.
  • Step 103 next to the Determination of the maximum (104 and 105), also a minimum above a predetermined time of the envelope of each examined frequency determined (see. Step 107).
  • the (smallest) minimum is of interest a predetermined number of previous segments, that is from a moment in time for one too duration to be taken into account from the envelope Minimum.
  • step 108 both the smallest maximum and the minimum linked together, to obtain an interference signal to be subtracted from the sound signal and thus the quality of the useful signal improve.
  • This link also takes into account the temporal variation of the interference signal. Is the useful signal a constant interference signal is superimposed, exactly this interference signal or one to it proportional part eliminated.
  • That to set the minimum and possibly also smallest maximum for the time interval T to be taken into account indicates the duration of the number of previous segments, is chosen in particular so that this time interval T is longer than a spoken word (the sound signal corresponds to naturally spoken language).
  • FIG. 2 shows a profile of an envelope f H / i (t) of a frequency f i over time t.
  • An amplitude A f is on the ordinate i the frequency f i and the time t is plotted on the abscissa.
  • a curve of the envelope f H / i (t) over time t is also shown.
  • the time axis t is divided into segments SEG i , where i represents a time variable.
  • the segments SEG1, SEG2, ..., SEG6 are shown in FIG. 2 as an example.
  • a maximum maxi is determined for each segment SEG i , which represents a maximum of the envelopes f H / i (t) of the frequency f i over time t related to the respective segment SEG i .
  • the maxima Max1, Max2, ..., Max 6 result. Now the smallest of the maxima, in the example Maximum Max6 from segment SEG6, is determined.
  • the minimum min of the segments SEG i shown is in segment SEG2.
  • the smallest maximum Max6 and the minimum Min determined in this way are linked to one another in the manner described above and subtracted from the sound signal, that is to say the frequency f i , in order to improve the useful signal (again in relation to the frequency fi).
  • a weighted average of the smallest maximum and minimum is subtracted from the audio signal (based on the frequency f i to be taken into account in each case).
  • the smallest maximum and the minimum are determined at a time t act taking into account a predetermined number N of segments before this time t act .
  • the smallest maximum and the minimum are again determined at different times t act , linked to one another and subtracted from the useful signal (based on the respective frequency f i ).
  • FIG. 2 shows an example of the envelope f H / i (t) for a predetermined frequency f i .
  • transformation for example after carrying out an FFT
  • a f an amplitude A f
  • the course of the frequency f i (t) over time t results from transformations into the frequency range carried out at different times t. In this way, the time course of a predetermined frequency f i (t) is obtained.
  • the envelope f H / i (t) is determined via this time course of the frequency f i (t). This envelope f H / i (t) is shown in Fig.2.
  • an envelope f H / i (t) is determined for a plurality of frequencies f i , so that the invention is applied to a plurality of envelopes f H / i (t), which represent the course of a plurality of frequencies f i over time, and so on a significant improvement in the sound signal is achieved by subtracting the determined interference signal from a sound signal containing information.
  • a processor unit PRZE comprises a processor CPU, a memory SPE and an input / output interface IOS, which is used in different ways via an interface IFC: an output is visible on a monitor MON and / or on a printer via a graphic interface PRT issued. An entry is made using a mouse MAS or a keyboard TAST.
  • the processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS.
  • additional components can be connected to the data bus BUS, for example additional memory, data storage (hard disk) or scanner.
  • Fig.4 shows a system for speech recognition.
  • a prerequisite for the recognition of naturally spoken language is a suitable formalism for the representation of knowledge.
  • a complete speech recognition system comprises several levels of processing. These are in particular acoustic phonetics, intonation, syntax, semantics and pragmatics.
  • Fig. 4 shows the processing levels during recognition (cf. [1]).
  • the natural speech signal SPRS gets into that Speech recognition system.
  • MEX in one component a feature extraction was performed. After Feature extraction are based on known acoustic-phonetic Units APE speech sounds recognized (see block SPLE). This is the acoustic calculation Distance parameters.
  • SPLE speech sound recognition
  • lexical decoding word recognition
  • SYAL syntax analysis
  • the Word recognition LDK and the syntax analysis SYAL provide the Find a match for the speech signal.
  • SENB becomes a semantic Postprocessing carried out, context knowledge and Pragmatic KWPM are taken into account and finally that of Speech recognition system recognized language ERSPR follows.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Bearbeitung eines Tonsignals.
Ein System zur Spracherkennung ist aus [1] bekannt. Dort finden sich auch eine grundlegende Einführung in Komponenten des Systems zur Spracherkennung sowie wichtiger, bei der Spracherkennung üblicher Techniken.
Eine Wavelet-Transformation ist aus [2] bekannt. Eine Wavelet-Transformation erfolgt bevorzugt in mehreren Transformationsstufen, wobei eine Transformationsstufe ein Muster in einen Hochpaß- und einen Tiefpaßanteil unterteilt. Der jeweilige Hochpaß- bzw. Tiefpaßanteil weist vorzugsweise eine gegenüber dem Muster reduzierte Auflösung auf (engl. Fachbegriff: Subsampling, d.h. verminderte Abtastrate, dadurch reduzierte Auflösung). Aus dem Hochpaß- und dem Tiefpaßanteil kann das Muster rekonstruiert werden. Dies wird insbesondere durch die spezielle Form der bei der Transformation verwendeten Transformationsfilter gewährleistet. Die Wavelet-Transformation kann eindimensional, zweidimensional oder mehrdimensional erfolgen.
Ein Tonsignal umfaßt ein Nutzsignal und ein Störsignal, wobei die Stärke des Störsignals von der Umgebung abhängt. Für eine Weiterverarbeitung des Tonsignals ist es eine wesentliche Voraussetzung, das Nutzsignal von dem Störsignal zu trennen.
Es sind Verfahren bekannt, die unterschiedliche Bereiche eines Frequenzspektrums des Tonsignals mehr oder minder stark unterdrücken. Dabei ist es von Nachteil, daß eine dynamische Entwicklung des Störsignals nicht berücksichtigt wird.
Whipple, G.: "Low Residual Noise Speech Enhancement Utilizing Time-Frequency Filtering", ICASSP 1994, Bd. 1, Seiten 5-8, Adelaide, Australien offenbart ein Verfahren, um bei Sprache das Störsignal herauszufiltern.
EP 0 763 810 A1 offenbart eine Sprachsignalvorrichtung zum Detektieren eines Sprachsignals in einem störsignalbehaftetem Sprachsignal.
Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Vorrichtung anzugeben, das bzw. die eine Bearbeitung eines Tonsignals derart gewährleistet, daß der oben beschriebene Nachteil vermieden wird.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst.
Mit einer Transformation eines Zeitsignals in einen Frequenzbereich, z.B. mittels Fast-Fourier-Transformation (FFT), wird ein Bereich des Zeitsignals, der eine vorgegebene Anzahl von Abtastwerten umfaßt, in den Frequenzbereich transformiert. Dieser Vorgang erfolgt für unterschiedliche Zeitpunkte, so daß mit fortschreitender Zeit im Frequenzbereich die einzelnen Frequenzen unterschiedliche, von dem jeweiligen transformierten Bereich des Zeitsignals abhängig, Werte entstehen. Auf diese Art kann der Verlauf einer Frequenz über die Zeit dargestellt werden.
Neben der FFT ist auch eine Wavelet-Transformation oder jede andere Transformation für die Abbildung des Zeitbereichs in den Frequenzbereich anwendbar.
Es wird ein Verfahren angegeben zur Bearbeitung eines Tonsignals, bei dem das Tonsignal in einen Frequenzbereich transformiert wird. Für mindestens eine vorgegebene Frequenz des Tonsignals wird eine Einhüllende des in den Frequenzbereich transformierten Tonsignals über die Zeit bestimmt. Die Einhüllende wird in eine Menge von Segmenten, welche Segmente jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt. Für jedes Segment der Menge von Segmenten wird ein Maximum der Einhüllenden ermittelt. Für eine vorgegebene Anzahl der Segmente der Menge von Segmenten wird das kleinste Maximum ermittelt. Das Tonsignal wird bearbeitet, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird.
Vorteilhaft wird somit das kleinste Maximum, das über eine vorgegebene Dauer für die jeweilige Frequenz, deren Einhüllende über die Zeit bestimmt wird, angegeben, wobei das kleinste Maximum vorzugsweise in einem Tonsignal, das ein Nutzsignal und ein Störsignal umfaßt, das Störsignal erfaßt. Insbesondere kommt dies zum Ausdruck, wenn das Tonsignal natürlich gesprochene Sprache ist. Dabei umfaßt die Sprache mehrere Wörter, die, auch bei fließender Aussprache, Stellen mit spektralen Minima (insbesondere Pausen zwischen den einzelnen Wörtern) beinhalten. In solchen Stellen spektraler Minima ist das Nutzsignal nahezu nicht vorhanden, wohingegen das Störsignal dominiert.
Ein anderer Vorteil besteht darin, daß für die Anzahl der Segmente das kleinste Maximum ermittelt wird. Dabei umfassen die mehreren Segmente einen dynamischen Verlauf des Störsignals über die Zeit. So kann das Störsignal ein Motorgeräusch in einem Kraftfahrzeug sein, welches Kraftfahrzeug über einen Zeitraum ständig beschleunigt. Das Störsignal in dem Kraftfahrzeug nimmt somit über die Zeit (während der Beschleunigung) zu. Da jeweils für die Anzahl der Segmente das kleinste Maximum ermittelt wird, erfolgt über die Zeit für jede Anzahl der Segmente eine (erneute) Bestimmung des kleinsten Maximums, so daß die dynamische Entwicklung des Störsignals mitberücksichtigt werden kann.
Eine Weiterbildung der Erfindung besteht darin, daß für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird, und daß das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird.
Die Miteinbeziehung des Minimums, das für eine weitere Anzahl der Segmente ermittelt wird, erweist sich zur Adaption des Störsignals, das von dem Tonsignal abzuziehen ist, um das Nutzsignal zu erhalten, als äußerst vorteilhaft. Sofern gerade kein Nutzsignal vorliegt, kennzeichnet das Minimum das Störsignal und ist wird daher von dem Tonsignal abgezogen.
Eine andere Weiterbildung besteht darin, daß das Minimum und das kleinste Maximum gemäß der Beziehung a + b ·maxmin , wobei
a
einen ersten vorgegebenen Koeffizienten,
b
einen zweiten vorgegebenen Koeffizienten,
max
das kleinste Maximum und
min
das Minimum
bezeichnen, verknüpft sind.
Die Koeffizienten sind dabei derart vorzugeben, daß eine für den Anwendungsfall günstige Reduzierung des Störsignals erfolgt.
Eine vorteilhafte Weiterbildung besteht darin, daß jeweils nach Ablauf der Anzahl bzw. der weiteren Anzahl von Segmenten eine Aktualisierung durchgeführt wird derart, daß von dem Tonsignal ein aktualisiertes Störsignal abgezogen wird.
Im Rahmen einer zusätzlichen Weiterbildung ist es vorteilhaft, wenn das Tonsignal ein Sprachsignal, vorzugsweise natürlich gesprochene Sprache, ist.
Auch ist es eine Weiterbildung, daß das bearbeitete Tonsignal zur Spracherkennung verwendet wird. Gerade für ein System zur Spracherkennung ist ein klares Nutzsignal, möglichst ohne Störsignalanteil, eine vorteilhafte Voraussetzung. So erkennt das System zur Spracherkennung die gesprochene Sprache um so besser, je klarer das Nutzsignal ist. Ferner kann auch das Nutzsignal ausgegeben werden.
Ferner wird eine Vorrichtung zur Bearbeitung eines Tonsignals angegeben, die eine Prozessoreinheit aufweist, die derart eingerichtet ist, daß das Tonsignal in einen Frequenzbereich transformierbar ist. Für mindestens eine vorgegebene Frequenz ist eine Einhüllende des in den Frequenzbereich transformierten Tonsignals über die Zeit bestimmbar. Die Einhüllende ist in eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilbar. Für jedes Segment der Menge von Segmenten wird ein Maximum der Einhüllenden ermittelt. Für eine Anzahl der Segmente der Menge von Segmenten wird das kleinste Maximum ermittelt. Das Tonsignal wird bearbeitet, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird.
Eine mögliche Weiterbildung der Vorrichtung zur Bearbeitung eines Tonsignals besteht darin, daß die Prozessoreinheit derart eingerichtet ist, daß für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird und daß das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird.
Die Vorrichtung ist insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.
Weiterbildungen ergeben sich auch aus den abhängigen Ansprüchen.
Anhand der folgenden Figuren werden Ausführungsbeispiele der Erfindung näher dargestellt.
Es zeigen
Fig.1
ein Blockdiagramm, das Schritte eines Verfahrens zur Bearbeitung eines Tonsignals aufweist;
Fig.2
einen Verlauf einer Einhüllenden f H / i(t) einer Frequenz fi über die Zeit t;
Fig.3
eine Prozessoreinheit;
Fig.4
ein System zur Spracherkennung.
Fig.1 zeigt ein Blockdiagramm, das Schritte eines Verfahrens zur Bearbeitung eines Tonsignals aufweist. Es werden nachfolgend zwei Varianten zur Bearbeitung des Tonsignals anhand Fig.1a und Fig.1b dargestellt.
In Fig.1a wird das Tonsignal in mindestens einen Frequenzbereich transformiert (vgl. Schritt 101). Vorzugsweise ist diese Transformation eine Fast-Fourier-Transformation (FFT). Dabei wird die Transformation zu bestimmten Zeitpunkten ti durchgeführt und somit ein Verlauf mindestens einer Frequenz über die Zeitpunkte ti ermittelt. Über diesen zeitabhängigen Verlauf der Frequenz wird eine Einhüllende in einem Schritt 102 bestimmt. Dies wird für mindestens eine Frequenz, insbesondere für mehrere signifikante Frequenzen des Tonsignals, durchgeführt. In einem Schritt 103 wird die die jeweilige Frequenz Einhüllende in eine Menge von Segmenten, welche Segmente vorzugsweise gleiche Dauer aufweisen, unterteilt. Für jedes Segment wird ein Maximum im Verlauf der Einhüllenden ermittelt (vgl. Schritt 104). In einem Schritt 105 wird das kleinste Maximum einer vorgegebenen Anzahl von Segmenten bestimmt und dieses kleinste Maximum, insbesondere gewichtet mit einem Faktor, vom Tonsignal abgezogen, um so das Störsignal zu reduzieren und ein möglichst starkes Nutzsignal zu gewährleisten (vgl. Schritt 106). Das kleinste Maximum wird dabei für eine bestimmte Anzahl zurückliegender Segmente ermittelt, wobei eine Aktualisierung nach einer vorgegebenen Zeit für das kleinste Maximum erneut durchgeführt wird unter Berücksichtigung der zu dieser neuen Zeit vorgegebenen Anzahl zurückliegender Segmente. Somit erfolgt eine dynamische Anpassung des kleinsten Maximums für die Einhüllende der jeweiligen Frequenz über die Zeit zu allen durch die Anzahl N zurückliegender Segmente gegebenen Zeitpunkten. Ein Beispiel, das die Notwendigkeit einer dynamischen Anpassung des Störsignals veranschaulicht, ist das Störsignal in einem beschleunigenden Fahrzeug, bei dem ein Motorgeräusch entsprechend der Beschleunigung über die Zeit zunimmt. Das dem zunehmenden Motorgeräusch entsprechende Störsignal wird durch Aktualisierung des kleinsten Maximums zu vorgegebenen Zeitpunkten für die Einhüllende vorgegebener Frequenzen angepaßt, um ein qualitativ hochwertiges Nutzsignal aus dem Tonsignal zu erhalten.
Fig.1b zeigt entsprechend Fig.1a die Blöcke 101, 102, 103, 104 und 105. Dabei wird nach dem Schritt 103, neben der Bestimmung des Maximums (104 und 105), auch ein Minimum über eine vorgegebene Zeit der Einhüllenden der jeweils untersuchten Frequenz ermittelt (vgl. Schritt 107). Insbesondere interessiert dabei das (kleinste) Minimum über eine vorgegebene Anzahl zurückliegender Segmente, also das von einem momentanen Zeitpunkt an für eine zu berücksichtigende Dauer aus der Einhüllenden hervorgehende Minimum. Schließlich werden in einem Schritt 108 sowohl das kleinste Maximum als auch das Minimum miteinander verknüpft, um ein von dem Tonsignal abzuziehendes Störsignal zu erhalten und somit die Qualität des Nutzsignals entscheidend zu verbessern.
Das Minimum wird mit dem kleinsten Maximum gemäß der Beziehung a + b ·maxmin verknüpft, wobei
a
einen ersten vorgegebenen Koeffizienten,
b
einen zweiten vorgegebenen Koeffizienten,
max
das kleinste Maximum und
min
das Minimum
bezeichnen. Daraufhin wird bevorzugt
Figure 00090001
berechnet, wobei
S and
das neue (entstörte) Tonsignal,
X
das gestörte Tonsignal,
N and
einen Geräuschschätzwert oder einen mit dem Geräusch stark korrelierten Wert
bezeichnen.
Diese Verknüpfung berücksichtigt auch die zeitliche Variation des Störsignals. Ist dem Nutzsignal ein konstantes Störsignal überlagert, wird genau dieses Störsignal bzw. ein dazu proportionaler Anteil eliminiert.
Das zur Festlegung des Minimums und gegebenenfalls auch kleinsten Maximums zur berücksichtigende Zeitintervall T, das die Dauer der Anzahl zurückliegender Segmente kennzeichnet, wird insbesondere so gewählt, daß dieses Zeitintervall T länger als ein gesprochenes Wort ist (das Tonsignal entspricht hierbei natürlich gesprochener Sprache). Die Aktualisierung des Minimums bzw. des kleinsten Maximums erfolgt zu Zeitpunkten t=n*T, also alle n Zeitintervalle T.
Fig.2 zeigt einen Verlauf einer Einhüllenden f H / i(t) einer Frequenz fi über der Zeit t. Auf der Ordinate ist eine Amplitude Afi der Frequenz fi und auf der Abszisse ist die Zeit t angetragen. Weiterhin ist ein Verlauf der Einhüllenden f H / i(t) über die Zeit t dargestellt. Die Zeitachse t wird in Segmente SEGi, wobei i eine Zeitvariable darstellt, unterteilt. In Fig.2 sind beispielhaft die Segmente SEG1,SEG2,...,SEG6 angetragen. Für jedes Segment SEGi wird ein Maximum Maxi ermittelt, das jeweils ein auf das jeweilige Segment SEGi bezogene Maximum der Einhüllenden f H / i(t) der Frequenz fi über der Zeit t darstellt. Es ergeben sich die Maxima Max1,Max2,...,Max 6. Nun wird das kleinste der Maxima, im Beispiel Maximum Max6 aus Segment SEG6, bestimmt. Das Minimum Min der dargestellten Segmente SEGi liegt in Segment SEG2. Das auf diese Art bestimmte kleinste Maximum Max6 und das Minimum Min werden auf oben beschriebene Art und Weise miteinander verknüpft und von dem Tonsignal, also der Frequenz fi, abgezogen, um das Nutzsignal (wieder bezogen auf die Frequenz fi) zu verbessern.
Insbesondere wird ein gewichteter Mittelwert aus kleinstem Maximum und Minimum von dem Tonsignal (bezogen auf die jeweils zu berücksichtigte Frequenz fi) abgezogen.
Ferner werden das kleinste Maximum und das Minimum zu einem Zeitpunkt takt unter Berücksichtigung einer vorgegebenen Anzahl N von Segmenten vor diesem Zeitpunkt takt ermittelt. Durch Anpassung des von dem Tonsignal abzuziehenden Störsignals werden zu unterschiedlichen Zeitpunkten takt erneut das kleinste Maximum und das Minimum (über die zurückliegenden N Segmente) ermittelt, miteinander verknüpft und von dem Nutzsignal (bezogen auf die jeweilige Frequenz fi) abgezogen.
Fig.2 zeigt beispielhaft die Einhüllende f H / i(t) für eine vorgegebene Frequenz fi. Nach Transformation (z.B. nach Durchführung einer FFT) des Tonsignals x(t) in den Frequenzbereich erhält man für jede Frequenz fi genau einen Wert einer Amplitude Afi zu dem jeweiligen Zeitpunkt t. Der Verlauf der Frequenz fi(t) über die Zeit t ergibt sich durch zu verschiedenen Zeitpunkten t durchgeführte Transformationen in den Frequenzbereich. Auf diese Art und Weise erhält man den zeitlichen Verlauf einer vorgegebenen Frequenz fi(t). Über diesen zeitlichen Verlauf der Frequenz fi(t) wird die Einhüllende f H / i(t) bestimmt. Diese Einhüllende f H / i(t) ist in Fig.2 dargestellt. Insbesondere werden für mehrere Frequenzen fi jeweils eine Einhüllende f H / i(t) bestimmt, so daß die Erfindung auf mehrere Einhüllende f H / i(t), die den Verlauf mehrerer Frequenzen fi über die Zeit darstellen, angewandt wird und so eine deutliche Verbesserung des Tonsignals erreicht wird, indem das ermittelte Störsignal von einem eine Information enthaltenen Tonsignal abgezogen wird.
In Fig.3 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.
Fig.4 zeigt ein System zur Spracherkennung. Voraussetzung für die Erkennung natürlich gesprochener Sprache ist ein geeigneter Formalismus zur Wissensrepräsentation. Ein vollständiges Spracherkennungssystem umfaßt mehrere Verarbeitungsebenen. Dies sind insbesondere Akustik-Phonetik, Intonation, Syntax, Semantik und Pragmatik. In Fig.4 werden die Verarbeitungsebenen bei der Erkennung aufgezeigt (vgl. [1]).
Das natürliche Sprachsignal SPRS gelangt in das Spracherkennungssystem. Dort wird in einer Komponente MEX eine Merkmalsextraktion durchgeführt. Nach der Merkmalsextraktion werden anhand bekannter akustischphonetischer Einheiten APE Sprachlaute erkannt (siehe Block SPLE). Dabei handelt es sich um die Berechnung akustischer Distanzparameter. Nach der Sprachlauterkennung SPLE erfolgt die lexikalische Decodierung (Worterkennung) in einem Block LDK mit Hilfe des Aussprachemodells bzw. Wortlexikons WOLX und daran anschließend eine Syntaxanalyse SYAL mit Hilfe des Sprachmodells, das die Grammatik umfaßt, GRSML. Die Worterkennung LDK und die Syntaxanalyse SYAL stellen die Suche nach einer Entsprechung für das Sprachsignal dar. Schließlich wird in einem Block SENB eine semantische Nachbearbeitung durchgeführt, wobei Kontextwissen und Pragmatik KWPM berücksichtigt werden und schließlich die vom Spracherkennungssystem erkannte Sprache ERSPR folgt.
Im Rahmen dieses Dokuments wurde folgende Veröffentlichung zitiert:
  • [1] A. Hauenstein: "Optimierung von Algorithmen und Entwurf eines Prozessors für die automatische Spracherkennung", Lehrstuhl für Integrierte Schaltungen, Technische Universität München, Dissertation, 19.07.1993, Kapitel 2, Seiten 13 bis 26.
  • [2] S.G. Mallat: A Theory for Multiresolution Signal Decomposition: The Wavelet Representation, IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol.11, No.7, July 1989, Seiten 674-693.
  • Claims (8)

    1. Verfahren zur Bearbeitung eines Tonsignals,
      a) bei dem das Tonsignal in einen Frequenzbereich transformiert wird (101),
      b) bei dem für mindestens eine vorgegebene Frequenz eine Einhüllende des in den Frequenzbereich transformierten Tonsignals über die Zeit bestimmt wird (102),
      c) bei dem die Einhüllende in eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt wird (103),
      d) bei dem für jedes Segment der Menge von. Segmenten ein Maximum der Einhüllenden ermittelt wird (104),
      e) bei dem für eine Anzahl der Segmente der Menge von Segmenten das kleinste Maximum ermittelt wird (105),
      f) bei dem das Tonsignal bearbeitet wird, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird (106).
    2. Verfahren nach Anspruch 1,
      a) bei dem für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird (107),
      b) bei dem das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird (108).
    3. Verfahren nach Anspruch 2,
      bei dem das Minimum und das kleinste Maximum gemäß folgender Beziehung verknüpft sind: a + b · maxmin , wobei
      a
      einen ersten vorgegebenen Koeffizienten,
      b
      einen zweiten vorgegebenen Koeffizienten,
      max
      das kleinste Maximum und
      min
      das Minimum
      bezeichnen.
    4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem jeweils nach Ablauf der Anzahl bzw. der weiteren Anzahl von Segmenten das Tonsignal bearbeitet wird.
    5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Tonsignal ein Sprachsignal ist.
    6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das bearbeitete Tonsignal zur Spracherkennung verwendet wird.
    7. Vorrichtung zur Bearbeitung eines Tonsignals, bei der eine Prozessoreinheit derart eingerichtet ist, daß
      a) das Tonsignal in einen Frequenzbereich transformiert wird (101).
      b) für mindestens eine vorgegebene Frequenz eine Einhüllende des in den Frequenzbereich transformierten Tonsignals über die Zeit bestimmt wird (102),
      c) die Einhüllende in eine Menge von Segmenten, die jeweils durch eine vorgegebene Dauer bestimmt sind, unterteilt wird (103),
      d) für jedes Segment der Menge von Segmenten ein Maximum der Einhüllenden ermittelt wird (104),
      e) für eine Anzahl der Segmente der Menge von Segmenten das kleinste Maximum ermittelt wird (105),
      f) das Tonsignal bearbeitet wird, indem das mit einem Faktor gewichtete kleinste Maximum von dem Tonsignal abgezogen wird (106).
    8. Vorrichtung nach Anspruch 7,
      bei der die Prozessoreinheit derart eingerichtet ist, daß
      a) für eine weitere Anzahl der Segmente der Menge von Segmenten ein Minimum ermittelt wird (107),
      b) das Tonsignal bearbeitet wird, indem das kleinste Maximum verknüpft mit dem Minimum von dem Tonsignal abgezogen wird (108).
    EP99917771A 1998-03-19 1999-03-08 Verfahren und vorrichtung zur bearbeitung eines tonsignals Expired - Lifetime EP1062659B1 (de)

    Applications Claiming Priority (3)

    Application Number Priority Date Filing Date Title
    DE19812207 1998-03-19
    DE19812207 1998-03-19
    PCT/DE1999/000615 WO1999048084A1 (de) 1998-03-19 1999-03-08 Verfahren und vorrichtung zur bearbeitung eines tonsignals

    Publications (2)

    Publication Number Publication Date
    EP1062659A1 EP1062659A1 (de) 2000-12-27
    EP1062659B1 true EP1062659B1 (de) 2002-01-30

    Family

    ID=7861632

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP99917771A Expired - Lifetime EP1062659B1 (de) 1998-03-19 1999-03-08 Verfahren und vorrichtung zur bearbeitung eines tonsignals

    Country Status (5)

    Country Link
    US (1) US6804646B1 (de)
    EP (1) EP1062659B1 (de)
    JP (1) JP4276781B2 (de)
    DE (1) DE59900797D1 (de)
    WO (1) WO1999048084A1 (de)

    Families Citing this family (4)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US8092034B2 (en) * 2007-11-07 2012-01-10 Richard David Ashoff Illuminated tile systems and methods for manufacturing the same
    US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
    US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
    CN111387978B (zh) * 2020-03-02 2023-09-26 京东科技信息技术有限公司 一种表面肌电信号的动作段检测方法、装置、设备及介质

    Family Cites Families (9)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US3196212A (en) 1961-12-07 1965-07-20 Ibm Local amplitude detector
    US4185168A (en) * 1976-05-04 1980-01-22 Causey G Donald Method and means for adaptively filtering near-stationary noise from an information bearing signal
    US4888806A (en) * 1987-05-29 1989-12-19 Animated Voice Corporation Computer speech system
    DE69132749T2 (de) * 1990-05-28 2002-07-04 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal
    JPH04150522A (ja) * 1990-10-15 1992-05-25 Sony Corp ディジタル信号処理装置
    US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
    US5479560A (en) 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
    JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
    JP3765171B2 (ja) * 1997-10-07 2006-04-12 ヤマハ株式会社 音声符号化復号方式

    Also Published As

    Publication number Publication date
    EP1062659A1 (de) 2000-12-27
    JP4276781B2 (ja) 2009-06-10
    WO1999048084A1 (de) 1999-09-23
    DE59900797D1 (de) 2002-03-14
    JP2002507775A (ja) 2002-03-12
    US6804646B1 (en) 2004-10-12

    Similar Documents

    Publication Publication Date Title
    DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
    DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
    DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
    DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
    DE69321656T2 (de) Verfahren zur Spracherkennung
    DE69806006T2 (de) Verfahren zur bestimmung eines rauschmodells in einem gestörten audiosignal
    DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
    DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
    DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
    DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
    DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
    DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
    DE60018886T2 (de) Adaptive Wavelet-Extraktion für die Spracherkennung
    EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
    DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
    DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
    DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
    WO1999023642A1 (de) Verfahren zur reduktion von störungen akustischer signale mittels der adaptiven filter-methode der spektralen subtraktion
    EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
    DE69720861T2 (de) Verfahren zur Tonsynthese
    DE69224253T2 (de) Sprachkodiergerät
    DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
    EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
    DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
    DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    17P Request for examination filed

    Effective date: 20000417

    AK Designated contracting states

    Kind code of ref document: A1

    Designated state(s): DE FR GB

    17Q First examination report despatched

    Effective date: 20010212

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 21/02 A

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: IF02

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): DE FR GB

    REF Corresponds to:

    Ref document number: 59900797

    Country of ref document: DE

    Date of ref document: 20020314

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20020407

    ET Fr: translation filed
    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed
    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20111001

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20130408

    Year of fee payment: 15

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20130521

    Year of fee payment: 15

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20140312

    Year of fee payment: 16

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 59900797

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20141128

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 59900797

    Country of ref document: DE

    Effective date: 20141001

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20140331

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20150308

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20150308

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20141001