EP1014340A2

EP1014340A2 - Method and device for processing noisy audio signals

Info

Publication number: EP1014340A2
Application number: EP99125575A
Authority: EP
Inventors: Rainer Dr. Hegger; Holger Dr. Kantz; Lorenzo Matassini
Original assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Current assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date: 1998-12-21
Filing date: 1999-12-21
Publication date: 2000-06-28
Also published as: EP1014340A3; US6502067B1; DE19859174C1; JP2000194400A

Abstract

Zur Signalverarbeitung eines Schallsignals y, in dem eine Redundanz enthalten ist, die hauptsächlich aus annähernden Wiederholungen von Signalprofilen besteht, werden die Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen innerhalb von Abschnitten des Schallsignals erfaßt. Korrelierte Signalanteile werden einem Leistungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zugeordnet. Die Korrelationen zwischen den Signalprofilen werden mit Verfahren der nichtlinearen Rauschreduzierung in deterministischen Systemen in rekonstruierten Vektorräumen ermittelt, die auf der Zeitdomäne basieren. <IMAGE>For signal processing of a sound signal y, in which a redundancy is contained, which mainly consists of approximate repetitions of signal profiles, the signal profiles are recorded and correlations between the signal profiles within sections of the sound signal are recorded. Correlated signal components are assigned to a power component and uncorrelated signal components to a noise component of the sound signal. The correlations between the signal profiles are determined using methods of non-linear noise reduction in deterministic systems in reconstructed vector spaces, which are based on the time domain. <IMAGE>

Description

Die Erfindung betrifft Verfahren zur Verarbeitung rauschbehafteter Schallsignale, insbesondere zur nichtlinearen Rauschreduzierung in Sprachsignalen, zur nichtlinearen Trennung von Leistungs- und Rauschsignalen und zur Anwendung nichtlinearer Zeitreihenanalysen, die auf dem Konzept des niedrigdimensionalen deterministischen Chaos beruhen. Die Erfindung betrifft auch eine Vorrichtung zur Implementierung der Verfahren und deren Verwendung.The invention relates to methods for processing noisy Sound signals, in particular for non-linear noise reduction in speech signals, for the non-linear separation of power and noise signals and for the use of non-linear Time series analyzes based on the concept of low-dimensional deterministic chaos. The invention relates also a device for implementing the methods and their Use.

Die Rauschreduzierung bei der Aufnahme, Speicherung, Übertragung oder Wiedergabe menschlicher Sprache besitzt eine hohe technische Relevanz. Rauschen kann als reine Meßungenauigkeit z.B. in Form des Digitalfehlers bei Ausgabe von Schallamplituden, als Rauschen im Übertragungskanal oder als dynamisches Rauschen durch die Kopplung des betrachteten Systems mit der Außenwelt auftreten. Beispiele für Rauschreduzierungen der menschlichen Sprache sind allgemein aus der Telekommunikation, der automatischen Spracherkennung oder dem Einsatz elektronischer Hörhilfen bekannt. Das Problem der Rauschreduzierung tritt nicht nur bei menschlicher Sprache, sondern auch bei anderen Arten von Schallsignalen, und nicht nur bei stochastischem Rauschen, sondern auch bei allen Formen der Überlagerung eines relevanten Schallsignals durch Fremdgeräusche auf. Es besteht ein Interesse an einem Signalverarbeitungsverfahren, mit dem stark aperiodische und nicht-stationäre Schallsignale in Bezug auf Leistungs- und Rauschanteile analysiert, manipuliert oder getrennt werden können. Noise reduction during recording, storage, transmission or rendering human language has a high technical relevance. Noise can be a pure measurement inaccuracy e.g. in the form of the digital error when outputting sound amplitudes, as noise in the transmission channel or as dynamic Noise due to the coupling of the system under consideration with the Outside world occur. Examples of noise reduction of the human language are generally from telecommunications, automatic speech recognition or the use of electronic Known hearing aids. The problem of noise reduction occurs not only in human language, but also in others Types of sound signals, and not just stochastic Noise, but also with all forms of overlay of a relevant sound signal due to extraneous noise. It exists an interest in a signal processing technique, with the strongly aperiodic and non-stationary sound signals in Analyzed, manipulated in relation to power and noise components or can be separated.

Ein typischer Ansatz zur Rauschreduzierung, d.h. zur Zerlegung eines Signals in bestimmte Leistungs- und Rauschanteile, beruhen auf einer Signalfilterung im Frequenzbereich. Im einfachsten Fall erfolgt die Filterung mit Bandpaßfiltern, woraus jedoch das folgende Problem entsteht. In der Regel ist stochastisches Rauschen breitbandig (häufig sogenanntes

weißes Rauschen"). Wenn das Leistungssignal jedoch selbst stark aperiodisch und somit breitbandig ist, wird mit dem Frequenzfilter auch ein Leistungssignalanteil zerstört, woraus sich unzulängliche Ergebnisse ergeben. Soll z.B. bei einer Sprachübertragung die menschliche Sprache durch einen Tiefpaßfilter von hochfrequentem Rauschen befreit werden, so wird das Sprachsignal verzerrt.A typical approach to noise reduction, ie to break down a signal into certain power and noise components, is based on signal filtering in the frequency domain. In the simplest case, filtering is done with bandpass filters, but this creates the following problem. As a rule, stochastic noise is broadband (often so-called

white noise "). If, however, the power signal itself is strongly aperiodic and thus broadband, the frequency filter also destroys a portion of the power signal, which results in inadequate results. For example, if a low-pass filter is to be used to remove high-frequency noise from human speech during speech transmission the speech signal is distorted.

Ein weiterer allgemein bekannter Ansatz zur Rauschreduzierung besteht in der Rauschkompensation bei Schallaufnahmen. Dabei wird beispielsweise mit einem ersten Mikrofon die von einem Lärmpegel in einem Raum überlagerte menschliche Sprache und mit einem zweiten Mikrofon ein Schallsignal aufgenommen, das im wesentlichen den Lärmpegel repräsentiert. Vom Meßsignal des zweiten Mikrofons wird ein Kompensationssignal abgeleitet, das bei Überlagerung mit dem Meßsignal des ersten Mikrofons das Rauschen aus dem umgebenden Raum kompensiert. Diese Technik ist aufgrund des relativ hohen Geräteaufwandes (Einsatz spezieller Mikrofone mit Richtcharakteristik) und wegen des eingeschränkten Einsatzbereiches z.B. bei der Sprachaufnahme nachteilig.Another well-known approach to noise reduction consists of noise compensation for sound recordings. Here for example with a first microphone from a Noise levels in a room overlaid with human speech and with a second microphone recorded a sound signal that essentially represents the noise level. From the measurement signal of the second A compensation signal is derived from microphones The noise is superimposed with the measurement signal of the first microphone compensated from the surrounding space. This technique is due to the relatively high cost of equipment (use of special Microphones with directional characteristics) and because of the limited Application e.g. disadvantageous in voice recording.

Es sind ferner Verfahren zur nichtlinearen Zeitreihenanalyse auf der Grundlage des Konzepts des niedrigdimensionalen deterministischen Chaos bekannt. Da in fast allen Bereichen unserer täglichen Umwelt, aber auch in vielen Bereichen der Wissenschaft und Technik komplexes dynamisches Verhalten eine wichtige Rolle spielt, z.B. wenn Vorgänge in der Medizin, Ökonomie, Signaltechnik oder Meteorologie aperiodische, schwer vorhersagbare und oft auch schwer klassifizierbare Signale liefern, stellt die Zeitreihenanalyse einen grundsätzlichen Ansatz dar, aus beobachteten Daten möglichst viel über die Eigenschaften oder den Zustand eines Systems zu lernen. Bekannte Analyseverfahren zum Verständnis aperiodischer Signale werden z.B. von H. Kantz et al. in Nonlinear Time Series Analysis", Cambridge University Press, Cambridge, 1997, oder von H. D. I. Abarbanel in Analysis of Observed Chaotic Data", Springer, New York, 1996 beschrieben. Diese Verfahren basieren auf dem Konzept des deterministischen Chaos. Deterministisches Chaos bedeutet, daß zwar ein Systemzustand zu einem bestimmten Zeitpunkt in eindeutiger Weise den Systemzustand zu jedem beliebigen späteren Zeitpunkt festlegt, das System aber dennoch über längere Zeit unvorhersagbar ist. Dies ergibt sich daraus, daß der aktuelle Systemzustand mit einem unvermeidlichen Fehler erfaßt wird, dessen Wirkung je nach Bewegungsgleichung des Systems exponentiell wächst, so daß nach relativ kurzer Zeit ein simulierter Modellzustand mit dem Realzustand des Systems keine Ähnlichkeit mehr besitzt.Methods for nonlinear time series analysis based on the concept of low-dimensional deterministic chaos are also known. Since complex dynamic behavior plays an important role in almost all areas of our daily environment, but also in many areas of science and technology, e.g. when processes in medicine, economics, signal technology or meteorology provide aperiodic, difficult to predict and often difficult to classify signals, time series analysis represents a fundamental approach to learn as much as possible about the properties or state of a system from observed data. Known analytical methods for understanding aperiodic signals are described, for example, by H. Kantz et al. in Nonlinear Time Series Analysis ", Cambridge University Press, Cambridge, 1997, or by HDI Abarbanel in Analysis of Observed Chaotic Data ", Springer, New York, 1996. These methods are based on the concept of deterministic chaos. Deterministic chaos means that although a system state at a particular point in time uniquely defines the system state at any later point in time, the However, the system is unpredictable over a long period of time because the current system state is recorded with an inevitable error, the effect of which increases exponentially depending on the equation of motion of the system, so that after a relatively short time a simulated model state with the real state of the system does not exist Resemblance more.

Für Zeitreihen deterministischer chaotischer Systems wurden Verfahren zur Rauschunterdrückung entwickelt, die keine Trennung im Frequenzbereich vornehmen, sondern explizit auf die deterministische Struktur des Signals zurückgreifen. Diese Verfahren werden beispielsweise von P. Grassberger et al. in CHAOS", Bd. 3, 1993, S. 127, von H. Kantz et al. (s.o.) und von E.J. Kostelich et al. in Phys. Rev. E", Bd. 48, 1993, S. 1752, beschrieben. Das Prinzip der Rauschunterdrückung für deterministische Systeme wird im folgenden unter Bezug auf Fig. 10a beschrieben.For time series of deterministic chaotic systems, methods for noise suppression have been developed which do not separate in the frequency domain, but explicitly use the deterministic structure of the signal. These methods are described, for example, by P. Grassberger et al. in CHAOS ", Vol. 3, 1993, p. 127, by H. Kantz et al. (See above) and by EJ Kostelich et al. In Phys. Rev. E ", vol. 48, 1993, p. 1752. The principle of noise suppression for deterministic systems is described below with reference to FIG. 10a.

Fig. 10 zeigt schematisch die Abhängigkeit aufeinanderfolgender Zeitreihenwerte für rauschfreie bzw. verrauschte Systeme (am Beispiel eines eindimensionalen Zusammenhangs). Die rauschfreien Daten eines deterministischen Systems liefern das in Fig. 10a gezeigte Bild. Es besteht eine exakte (hier: eindimensionale) deterministische Beziehung zwischen einem Wert und dem Folgewert. Die Zeitversatzvektoren, zu denen Einzelheiten weiter unten erläutert werden, liegen in einer niedrigdimensionalen Mannigfaltigkeit im Einbettungsraum. Bei Einführung von Rauschen wird die deterministische Beziehung durch eine approximative Beziehung ersetzt. Die Daten liegen nicht mehr auf der Untermannigfaltigkeit, sondern in ihrer Nähe (Fig. 10b). Die Unterscheidung von Leistung und Rauschen erfolgt über die Dimensionalität. Alles, was aus der Untermannigfaltigkeit herausführt, ist auf den Einfluß des Rauschens zurückzuführen.Fig. 10 shows schematically the dependence of successive Time series values for noise-free or noisy systems (on Example of a one-dimensional relationship). The noiseless Data from a deterministic system provide this in Fig. 10a shown image. There is an exact (here: one-dimensional) deterministic relationship between a value and the Subsequent value. The time offset vectors, to which details continue explained below are in a low dimensional Diversity in the embedding room. When introducing Noise becomes the deterministic relationship through an approximate Relationship replaced. The data is no longer on the Under manifold, but in their vicinity (Fig. 10b). The Power and noise are differentiated by dimensionality. Everything that leads out of the sub-manifold, is due to the influence of noise.

Dementsprechend erfolgt die Rauschunterdrückung für deterministisch chaotische Signale in drei Schritten. Zuerst wird die Dimension m des Einbettungsraumes und die Dimension der Mannigfaltigkeit, in der die unverrauschten Daten lägen, abgeschätzt. Zur eigentlichen Korrektur wird dann für jeden einzelnen Punkt die Mannigfaltigkeit in seiner Nähe identifiziert und schließlich zur Rauschreduzierung der betrachtete Punkt auf die Mannigfaltigkeit projiziert (Fig. 10c).Accordingly, the noise suppression is deterministic chaotic signals in three steps. First is the Dimension m of the embedding space and the dimension of the manifold, in which the noiseless data were located, estimated. The actual correction is then for each individual point the diversity in its vicinity identified and finally to reduce noise the point under consideration on the manifold projected (Fig. 10c).

Der Nachteil der illustrierten Rauschunterdrückung besteht in deren Beschränkung auf deterministische Systeme. In einem nicht-deterministischen System, in dem also kein eindeutiger Zusammenhang zwischen einem Zustand und einem Folgezustand besteht, ist das Konzept der Identifizierung einer Bewegungsgleichung und der Betrachtung einer glatten Mannigfaltigkeit, wie es in Fig. 10 illustriert ist, nicht anwendbar. So bilden beispielsweise die Signalamplituden von Sprachsignalen Zeitreihen, die unvorhersagbar sind und den Zeitreihen nicht-deterministischer Systeme entsprechen.The disadvantage of the illustrated noise reduction is their limitation to deterministic systems. In one non-deterministic system, so in the no clear There is a connection between a state and a subsequent state, is the concept of identifying an equation of motion and contemplating a smooth manifold like it is illustrated in Figure 10, not applicable. For example, form the signal amplitudes of speech signals time series, which are unpredictable and the time series are more non-deterministic Systems match.

Die Anwendbarkeit der herkömmlichen nichtlinearen Rauschreduzierung ist für Sprachsignale insbesondere aus den folgenden Gründen bisher ausgeschlossen. Die menschliche Sprache (aber auch andere Schallsignale natürlichen oder synthetischen Ursprungs) ist in der Regel hochgradig nichtstationär. Die Sprache ist aus einer Verkettung von Phonemen zusammengesetzt. Die Phoneme wechseln sich ständig ab, so daß sich die Sprachdynamik laufend ändert. Beispielsweise enthalten Zisch-Laute vorrangig hohe Frequenzen und Vokale (z.B. o") vorrangig niedrige Frequenzen. Damit wären zur Beschreibung der Sprache Bewegungsgleichungen erforderlich, die sich ständig im Zeitverlauf ändern. Die Existenz einer einheitlichen Bewegungsgleichung ist jedoch Voraussetzung für das unter Bezug auf Fig. 10 beschriebene Konzept der Rauschunterdrückung.The applicability of conventional non-linear noise reduction has so far been ruled out for speech signals, in particular for the following reasons. Human speech (but also other sound signals of natural or synthetic origin) is generally highly non-stationary. The language is composed of a concatenation of phonemes. The phonemes alternate constantly, so that the speech dynamics change continuously. For example, hissing sounds contain primarily high frequencies and vowels (e.g. o ") primarily low frequencies. This would require equations of motion that would constantly change over time to describe the language. However, the existence of a uniform equation of motion is a prerequisite for the concept of noise suppression described with reference to FIG. 10.

Es ist die Aufgabe der Erfindung, ein verbessertes Signalverarbeitungsverfahren für Schallsignale, insbesondere für verrauschte Sprachsignale, anzugeben, mit dem eine effektive und schnelle Trennung von Leistungs- und Rauschanteilen des betrachteten Schallsignals möglichst verzerrungsfrei möglich ist. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Implementierung eines derartigen Verfahrens anzugeben.It is the object of the invention to provide an improved signal processing method for sound signals, especially for noisy ones Speech signals to indicate with which an effective and rapid separation of power and noise components of the considered Sound signal is possible without distortion. The object of the invention is also to implement devices to specify such a method.

Diese Aufgaben werden durch ein Verfahren bzw. durch eine Vorrichtung mit den Merkmalen gemäß den Patentansprüchen 1 bzw. 10 gelöst. Vorteilhafte Ausführungsformen und Verwendungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.These tasks are accomplished by a method or by an apparatus with the features according to claims 1 and 10 respectively solved. Advantageous embodiments and uses of the invention result from the dependent claims.

Ein erster wichtiger Gesichtspunkt der Erfindung besteht insbesondere darin, nichtstationäre Schallsignale, bestehend aus Leistungs- und Rauschanteilen, mit einer derart hohen Abtastrate zu erfassen, daß vorbestimmte Signalprofile innerhalb des betrachteten Schallsignals genügend Redundanz für eine Rauschreduzierung enthalten. Phoneme bestehen aus einer Folge von periodischen oder annähernd periodischen Wiederholungen. Auf die Begriffe der periodischen bzw. annähernd periodischen Wiederholungen wird gesondert weiter unten eingegangen. Im folgenden wird einheitlich der Begriff der annähernd periodischen Signalprofile verwendet. Die damit erfaßten Zeitreihen von Schallsignalen liefern Wellenformen, die sich zumindest über bestimmte Signalabschnitte des Schallsignals wiederholen und eine zeitlich begrenzte Anwendung des oben genannten, an sich bekannten Konzepts der nichtlinearen Rauschreduzierung erlauben.A first important aspect of the invention is in particular therein, non-stationary sound signals consisting of Power and noise components, with such a high sampling rate to detect that predetermined signal profiles within of the considered sound signal enough redundancy for one Noise reduction included. Phonemes consist of a sequence of periodic or approximately periodic repetitions. On the concepts of periodic or approximately periodic Repetitions are discussed separately below. Hereinafter the concept of the approximately periodic becomes uniform Signal profiles used. The time series of Sound signals provide waveforms that are at least over repeat certain signal sections of the sound signal and a temporary application of the above, per se allow known concept of non-linear noise reduction.

Gemäß einem weiteren wichtigen Gesichtspunkt der Erfindung werden innerhalb eines betrachteten Schallsignals annähernd periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt, um korrelierte Signalanteile einem Leistungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zuzuordnen.According to another important aspect of the invention almost periodic within a sound signal under consideration Detected signal profiles and correlations between the signal profiles determined to correlated signal components a power component and uncorrelated signal components a noise component assign the sound signal.

Ein weiterer wichtiger Gesichtspunkt der Erfindung besteht in der Idee, zeitliche Korrelationen durch geometrische Korrelationen im Zeitverzögerungs-Einbettungsraum zu ersetzen, die durch Umgebungen in diesem Raum ausgedrückt werden. Punkte in diesen Umgebungen ergeben die Information, die zur nichtlinearen Rauschreduzierung des Punkts notwendig sind, für den die Umgebung konstruiert ist.Another important aspect of the invention is in the idea of temporal correlations through geometric correlations in the time delay embedding room to replace the be expressed by environments in this room. Points in these environments provide the information needed for nonlinear Noise reduction of the point are necessary for the the environment is constructed.

Gegenstand der Erfindung ist auch die Bereitstellung einer Vorrichtung zur Signalverarbeitung für Schallsignale, die insbesondere eine Abtastschaltung zur Signalwerterfassung, eine Rechenschaltung zur Signalwertverarbeitung und eine Ausgabeeinheit zur Ausgabe entrauschter Zeitreihen umfaßt.The invention also provides a device for signal processing for sound signals, in particular a sampling circuit for signal value detection, an arithmetic circuit for signal value processing and an output unit to output noise-free time series.

Schließlich ist hervorzuheben, daß erstmalig die Anwendung nichtlinearer Rauschreduzierungsverfahren für deterministische Systeme zur Verarbeitung nichtstationärer und nicht-deterministischer Schallsignale beschrieben wird. Dies ist überraschend, da die Voraussetzung der an sich bekannten Rauschreduzierungsverfahren insbesondere die Stationarität und den Determinismus der zu bearbeitenden Signale umfassen. Gerade diese Voraussetzungen sind bei nichtstationären Schallsignalen bei Betrachtung des globalen Signalverlaufs verletzt. Dennoch liefert die auf bestimmte Signalprofile beschränkte Anwendung der nichtlineare Rauschreduzierung hervorragende Ergebnisse.Finally, it should be emphasized that for the first time the application nonlinear noise reduction method for deterministic Systems for processing non-stationary and non-deterministic Sound signals is described. This is surprising since the prerequisite for the known noise reduction method especially stationarity and determinism of the signals to be processed. Precisely these requirements are considered for non-stationary sound signals of the global signal curve violated. Nevertheless, it delivers certain signal profiles limited application of the nonlinear Noise reduction excellent results.

Die Erfindung besitzt die folgenden Vorteile. Es wird erstmalig ein Rauschreduzierungsverfahren für Schallsignale geschaffen, das im wesentlichen verzerrungsfrei arbeitet und mit einem geringen gerätetechnischen Aufwand implementierbar ist. Die Erfindung läßt sich in Echtzeit oder nahezu in Echtzeit implementieren. Bestimmte Teile der erfindungsgemäßen Signalverarbeitung sind mit herkömmlichen Rauschreduzierungsverfahren kompatibel, so daß an sich bekannte zusätzliche Korrekturverfahren oder schnelle Datenverarbeitungsalgorithmen problemlos auf die Erfindung übertragbar sind. Die Erfindung erlaubt die effektive Trennung von Leistungs- und Rauschanteilen unabhängig vom Frequenzspektrum des Rauschens. So ist insbesondere auch sogenanntes farbiges Rauschen oder isospektrales Rauschen trennbar. Die Erfindung ist nicht nur bei stationärem Rauschen, sondern auch beim nichtstationärem Rauschen anwendbar, wenn die Zeitskala, auf der der Rauschprozeß seine Eigenschaften verändert, länger als typischerweise 100 ms ist (dies ist ein Beispielwert, der sich insbesondere auf die Bearbeitung von Sprachsignalen bezieht und bei anderen Anwendungen auch kürzer ausfallen kann).The invention has the following advantages. It will be the first time created a noise reduction method for sound signals, which works essentially without distortion and with a low one equipment expenditure can be implemented. The invention can be implemented in real time or almost in real time. Certain parts of the signal processing according to the invention are compatible with conventional noise reduction methods, so that additional correction methods known per se or fast data processing algorithms easily on the Invention are transferable. The invention allows the effective Separation of power and noise components regardless of the frequency spectrum of noise. So is so-called in particular colored noise or isospectral noise separable. The Invention is not only with stationary noise, but also applicable to non-stationary noise if the time scale, on which the intoxication process changes its properties, longer than typically 100 ms (this is an example value that relates in particular to the processing of speech signals and can also be shorter in other applications).

Die Erfindung ist nicht auf die menschliche Sprache beschränkt, sondern auch bei anderen Schallquellen natürlichen oder synthetischen Ursprungs anwendbar. Bei der Bearbeitung von Sprachsignalen ist es möglich, ein menschliches Sprachsignale von Hintergrundgeräuschen zu trennen. Es ist allerdings nicht möglich, einzelne Sprachsignale voneinander zu trennen. Dies würde voraussetzen, daß z.B. eine Stimme als Leistungsanteil und eine andere Stimme als Rauschanteil betrachtet wird. Die den Rauschanteil repräsentierende Stimme würde jedoch ein nicht behandelbares nichtstationäres Rauschen gleicher Zeitskala darstellen.The invention is not limited to human language, but also with other sound sources natural or synthetic Applicable origin. When processing speech signals it is possible for human speech signals from background noise to separate. However, it is not possible separate individual speech signals. This would assume that e.g. one vote as a share of performance and one other voice is considered a noise component. The the However, a voice representing noise would become an untreatable Show non-stationary noise on the same time scale.

Weitere Einzelheiten und Vorteile der Erfindung werden im folgenden unter Bezug auf die beigefügten Abbildungen beschrieben. Es zeigen:

Fig. 1: Kurvendarstellungen zur Illustration eines Sprachsignals;
Fig. 2: eine Kurvendarstellung eines Zeitausschnitts des in Fig. 1 illustrierten Schallsignals;
Fig. 3: ein Flußdiagramm zur Illustration des erfindungsgemäßen Verfahrens;
Fig. 4: Kurvendarstellungen zur Illustration einer erfindungsgemäßen Rauschreduzierung an einem Pfeifsignal;
Fig. 5: Kurvendarstellungen zur Illustration des erfindungsgemäßen Verfahrens an Sprachschallsignalen;
Fig. 6: eine Darstellung der Rauschreduzierung in Abhängigkeit vom Rauschpegel;
Fig. 7: eine Kurvendarstellung zur Illustration von Korrelationen zwischen Signalprofilen in einem Sprachsignal;
Fig. 8: eine Kurvendarstellung zur Illustration eines rauschbereinigten Sprachsignals;
Fig. 9: eine schematische Blockdarstellung einer erfindungsgemäßen Vorrichtung; und
Fig. 10: Kurvendarstellungen zur Illustration der nichtlinearen Rauschreduzierung in deterministischen Systemen (Stand der Technik).

Further details and advantages of the invention are described below with reference to the accompanying drawings. Show it:

Fig. 1: Curve representations to illustrate a speech signal;
Fig. 2: a graph of a time segment of the sound signal illustrated in Fig. 1;
Fig. 3: a flowchart to illustrate the inventive method;
Fig. 4: Curve representations to illustrate a noise reduction according to the invention on a whistle signal;
Fig. 5: Curve representations to illustrate the method according to the invention on speech sound signals;
Fig. 6: a representation of the noise reduction depending on the noise level;
Fig. 7: a graph to illustrate correlations between signal profiles in a speech signal;
Fig. 8: a graph to illustrate a noise-cleared speech signal;
Fig. 9: a schematic block diagram of a device according to the invention; and
Fig. 10: Curve representations to illustrate the non-linear noise reduction in deterministic systems (state of the art).

Die Erfindung wird im folgenden am Beispiel der Rauschreduzierung an Sprachsignalen durch Ausnutzung der intra-phonem-Redundanz erläutert. Der Leistungsanteil des Schallsignals wird durch einen Sprachanteil x gebildet, der durch einen Rauschanteil r überlagert ist. Das Schallsignal ist in Signalabschnitte unterteilt, die beim Sprachbeispiel durch gesprochene Silben oder Phoneme gebildet werden. Die Erfindung ist jedoch nicht auf die Sprachverarbeitung beschränkt. Bei anderen Schallsignalen wird die Zuordnung der Signalabschnitte anwendungsabhängig anders gewählt. Der erfindungsgemäßen Signalverarbeitung ist jedes Schallsignal zugänglich, das an sich zwar nicht-stationär ist, aber innerhalb vorbestimmter Signalabschnitte annähernd periodisch sich wiederholende Signalprofile aufweist.The invention is described below using the example of noise reduction on speech signals by utilizing intra-phonem redundancy explained. The power component of the sound signal is formed by a speech component x, which by a noise component r is superimposed. The sound signal is in signal sections divided, in the language example by spoken syllables or phonemes are formed. However, the invention is not limited to speech processing. With other sound signals the assignment of the signal sections becomes application-dependent chosen differently. The signal processing according to the invention is every sound signal is accessible, which in itself is non-stationary is, but approximately within predetermined signal sections periodically repeating signal profiles.

Nonlinear noise reduction in deterministic systems

Im folgenden werden zunächst Einzelheiten der nichtlinearen Rauschreduzierung erläutert, wie sie an sich aus den oben zitierten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. bekannt sind. Diese Erläuterungen dienen dem Verständnis der herkömmlichen Technik. In Bezug auf Einzelheiten der nichtlinearen Rauschreduzierung werden hier die genannten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. vollständig in die vorliegende Beschreibung einbezogen. Die Erläuterung bezieht sich auf deterministische Systeme. Die erfindungsgemäße Übertragung der herkömmlichen Technik auf nichtdeterministische Systeme wird unten beschrieben.The following are first details of the nonlinear Noise Reduction explains how they are per se from those cited above Publications by E. J. Kostelich et al. and P. Grassberger et al. are known. These explanations are for your understanding conventional technology. In terms of details non-linear noise reduction are the ones mentioned here Publications by E. J. Kostelich et al. and P. Grassberger et al. fully incorporated into the present description. The Explanation relates to deterministic systems. The invention Transfer of conventional technology to non-deterministic Systems is described below.

Die Zustände x eines dynamischen Systems werden durch eine Bewegungsgleichung gemäß xn+1 = F(xn) in einem Zustandsraum beschrieben. Die Bewegungsgleichung ist in der Regel eine komplizierte Differentialgleichung. Falls die Funktion F nicht bekannt ist, kann sie jedoch aus langen Zeitreihen {x_k}, k = 1,...,N, durch Betrachtung sämtlicher Punkte in einer Umgebung (oder: Nachbarschaft) U_n eines Punktes x_n und Minimierung der Funktion (1) linear angenähert werden. s n 2 = k:xkεUn (Anxk + bn -xk+1)2, The states x of a dynamic system are determined by an equation of motion x n + 1 = F (x n ) described in a state space. The equation of motion is usually a complicated differential equation. If the function F is not known, it can, however, from long time series {x _k }, k = 1, ..., N , can be approximated linearly by considering all points in an environment (or: neighborhood) U _{n of} a point x _n and minimizing the function (1). s n 2nd = k: x k εU n (A n x k + b n -x k + 1 ) 2nd ,

Die Größe s _n ² stellt einen Vorhersagefehler in Bezug auf die Faktoren A_n und b_n dar. Der implizite Ausdruck Anxk + bn xk+1 = 0 illustriert, daß die Werte, die der oben genannten Bewegungsgleichung entsprechen, auf eine Hyperebene innerhalb des betrachteten Zustandsraumes beschränkt sind.The quantity s _n ² represents a prediction error in relation to the factors A _n and b _n . The implicit expression A n x k + b n x k + 1 = 0 illustrates that the values which correspond to the above-mentioned equation of motion are limited to a hyperplane within the state space under consideration.

Wenn der Zustand x_k durch ein statistisches Rauschen r_k zu einem realen Zustand yk = xk + rk überlagert ist, so sind die zur Umgebung U_n gehörenden Punkte nicht mehr auf die durch A_n und b_n gebildete Hyperebene beschränkt, sondern in einem Bereich um die Hyperebene gestreut. Die nichtlineare Rauschreduzierung bedeutet nun, die verrauschten Vektoren y_n auf diese Hyperebene zu projizieren. Die Projektion der Vektoren auf die Hyperebene wird mit an sich bekannten Verfahren der linearen Algebra durchgeführt.If the state x _{k is} due to a statistical noise r _k to a real state y k = x k + r k is superimposed, the points belonging to the environment U _{n are} no longer limited to the hyperplane formed by A _n and b _n , but are scattered in an area around the hyperplane. The nonlinear noise reduction now means to project the noisy vectors y _n onto this hyperplane. The projection of the vectors onto the hyperplane is carried out using known methods of linear algebra.

Bei Zeitreihen, wie bei Sprachsignalen, wird nur eine Folge von Skalarwerten aufgezeichnet. Aus diesen werden die zu rekonstruierenden Phasenraumvektoren mit dem Konzept der Zeitversatzvektoren ermittelt, wie es im einzelnen von F. Takens unter dem Titel "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math", Bd. 898, Springer, New York, 1981, oder von T. Sauer et al. in "J. Stat. Phys.", Bd. 65, 1991, S. 579, und illustrativ im folgenden beschrieben wird. Auch diese Publikationen werden hiermit vollständig in die vorliegende Beschreibung einbezogen. With time series, like with speech signals, only a sequence of Scalar values recorded. These become those to be reconstructed Phase space vectors with the concept of time offset vectors ascertained in detail by F. Takens under the Title "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math ", Vol. 898, Springer, New York, 1981, or from T. Sauer et al. in "J. Stat. Phys.", Vol. 65, 1991, p. 579, and is illustratively described below. These publications too are hereby fully incorporated into the present description involved.

Ausgehend von einer skalaren Zeitreihe s_k werden Zeitversatzvektoren in einem m-dimensionalen Raum gemäß s n = (sn, sn-τ,...sn-(m-1)τ) gebildet. Der Parameter m ist die Einbettungsdimension der Zeitversatzvektoren. Die Einbettungsdimension wird anwendungsabhängig gewählt und ist größer als der doppelte Wert der fraktalen Dimension des Attraktors des betrachteten dynamischen Systems. Der Parameter τ ist ein Abtastabstand (oder: "time lag"), der den zeitlichen Abstand der aufeinanderfolgenden Elemente der Zeitreihe darstellt. Der Zeitversatzverktor ist somit ein m-dimensionaler Vektor, dessen Komponenten einen bestimmten Zeitreihenwert und die (m-1) vorhergehenden Zeitreihenwerte umfassen. Er beschreibt die zeitliche Entwicklung des Systems während eines Zeitbereichs oder Einbettungsfensters der Dauer m · τ. Mit jedem neuen Abtastwert verschiebt sich das Einbettungsfenster innerhalb der gesamten zeitlichen Entwicklung jeweils um einen Abtastabstand. Der Abtastabstand τ ist wiederum eine anwendungsabhängig gewählte Größe. Falls sich das System wenig ändert, kann der Abtastabstand größer gewählt werden, um die Verarbeitung redundanter Daten zu vermeiden. Falls sich das System schnell ändert, muß der Abtastabstand geringer gewählt werden, da andernfalls die Korrelationen, die zwischen benachbarten Werten auftreten, Fehler in die weitere Verarbeitung einführen würden. Die Wahl des Abtastabstandes τ ist somit ein Kompromiß zwischen der Redundanz und der Korrelation zwischen aufeinanderfolgenden Zuständen.Starting from a scalar time series s _k , time offset vectors in an m-dimensional space are corresponding s n = (see n , s n-τ , ... p n- (m-1) τ ) educated. The parameter m is the embedding dimension of the time offset vectors. The embedding dimension is chosen depending on the application and is greater than twice the value of the fractal dimension of the attractor of the dynamic system under consideration. The parameter τ is a sampling interval (or: "time lag"), which represents the time interval between the successive elements of the time series. The time offset processor is thus an m-dimensional vector, the components of which comprise a specific time series value and the (m-1) previous time series values. It describes the temporal development of the system during a time range or embedding window with the duration m · τ. With each new sample, the embedding window shifts by one sample distance within the entire development over time. The scanning distance τ is in turn a variable selected depending on the application. If the system changes little, the scanning distance can be chosen larger to avoid processing redundant data. If the system changes rapidly, the sampling distance must be chosen smaller, since otherwise the correlations that occur between neighboring values would introduce errors into the further processing. The choice of the sampling distance τ is therefore a compromise between the redundancy and the correlation between successive states.

Die oben genannte Projektion der Zustände auf die Hyperebene erfolgt unter Verwendung der Zeitversatzvektoren entsprechend einer Berechnung, die im einzelnen von H. Kantz et al. in "Phys. Rev. E", Bd. 48, 1993, S. 1529, beschrieben ist. Auch diese Publikation wird vollständig in die vorliegende Beschreibung einbezogen. Für jeden Zeitversatzvektor s ∧_n werden alle Nachbarn im Zeitverzögerungsraum betrachtet, d.h. die Umgebung U_n wird gebildet. Anschließend wird die Kovarianzmatrix gemäß Gleichung (2) berechnet, wobei das Zeichen ^ bedeutet, daß der Mittelwert auf der Umgebung U_n subtrahiert worden ist. Cij = Un (s k)i(s k)j The above-mentioned projection of the states onto the hyperplane takes place using the time offset vectors in accordance with a calculation which has been carried out in detail by H. Kantz et al. in "Phys. Rev. E", vol. 48, 1993, p. 1529. This publication is also fully included in the present description. All neighbors in the time delay space are considered for each time offset vector s ∧ _n , ie the environment U _n is formed. The covariance matrix is then calculated in accordance with equation (2), the symbol ^ meaning that the mean value on the environment U _{n has been} subtracted. C. ij = U n ( s k ) i ( s k ) j

Zur Kovarianzmatrix C_ij werden die Singulär- oder Eigenwerte ermittelt. Die Vektoren, die den größten Singulärwerten entsprechen, stellen die Richtungen dar, die die Hyperebene, die durch die oben genannten A_n und b_n definiert ist, aufspannen.The singular or eigenvalues are determined for the covariance matrix C _ij . The vectors corresponding to the largest singular values represent the directions spanning the hyperplane defined by the A _n and b _n above.

Um nun das Rauschen aus den Werten s ∧_n zu reduzieren, werden die zugehörigen Zeitversatzvektoren auf die dominanten Richtungen, die die Hyperebene aufspannen, projiziert. Für jedes Element der skalaren Zeitreihe ergibt dies m verschiedene Korrekturen, die in geeigneter Weise kombiniert werden. Mit den rauschreduzierten Werten kann der beschriebene Vorgang zur erneuten Projektion wiederholt werden.In order to reduce the noise from the values s ∧ _n , the associated time offset vectors are projected onto the dominant directions that span the hyperplane. For each element of the scalar time series, this results in m different corrections, which are combined in a suitable manner. The described process can be repeated for the new projection with the noise-reduced values.

Die Identifizierung der Nachbarn, die Berechnung der Kovarianzmatrix und Ermittlung von dominanten Vektoren, die einer vorbestimmten Anzahl Q von größten Singulärwerten entsprechen, repräsentiert die Suche nach Korrelationen zwischen aufeinanderfolgenden Systemzuständen. Diese Suche wird bei den deterministischen Systemen auf die bekannte oder angenommene Bewegungsgleichung des Systems bezogen. Wie die erfindungsgemäße Suche nach Korrelationen zwischen Systemzuständen bei nicht-deterministischen Systemen erfolgt, wird unten beschrieben.Identification of the neighbors, calculation of the covariance matrix and determining dominant vectors that match a predetermined one Number Q of largest singular values the search for correlations between successive System states. This search is for the deterministic Systems based on the known or assumed equation of motion of the system. Like the search according to the invention for correlations between system states in non-deterministic Systems is described below.

Non-linear noise reduction in non-deterministic Systems

Um die Korrelation zwischen den Zuständen zu ermitteln, wird beim deterministischen System die angenommene zeitliche Unverändlichkeit der Bewegungsgleichung als Zusatzinformation herangezogen. Im Unterschied dazu erfolgt die Ermittlung der Korrelation zwischen benachbarten Zuständen bei der erfindungsgemäßen Signalverarbeitung im nicht-deterministischen System auf der Grundlage der folgenden Zusatzinformation.To determine the correlation between the states, in the deterministic system, the assumed temporal invalidity the equation of motion is used as additional information. In contrast to this, the correlation is determined between neighboring states in the invention Signal processing in the non-deterministic system based on the following additional information.

Die Erfindung basiert auf der Ausnutzung von Redundanz im Signal. Wegen der Nicht-Stationarität ist zwischen einer wirklichen Redundanz und zufälligen Ähnlichkeiten von Signalteilen, die jedoch unkorreliert sind, zu unterscheiden. Dies wird durch die Verwendung einer höheren Einbettungsdimension und eines größeren Einbettungsfensters erzielt, als es notwendig wäre, um die jeweils aktuellen Dynamiken aufzulösen. Ein Sprachsignal ist eine Verkettung von Phonemen. Jedes einzelne Phonem ist durch eine charakteristische Wellenform gekennzeichnet, die sich mehrfach nahezu unverändert wiederholt. Ein Zeitversatz-Einbettungsvektor, der eine derartige Welle vollständig abdeckt, kann somit eindeutig einem gegebenen Phonem zugeordnet werden, ohne daß eine Mißinterpretation zu einem anderen Phonem mit einer anderen charakteristischen Wellenform auftritt. Innerhalb eines Phonems ändern sich diese Wellenformen in einer bestimmten Weise, so daß keine absolut exakten Wiederholungen auftreten. Wegen der letztgenannten Eigenschaft wird von nahezu periodischen Wiederholungen gesprochen.The invention is based on the use of redundancy in the Signal. Because of the non-stationarity is between a real one Redundancy and random similarities of signal parts, which, however, are uncorrelated. This is through the use of a higher embedding dimension and one larger embedding window than would be necessary to to dissolve the current dynamics. A voice signal is a concatenation of phonemes. Every single phoneme is characterized by a characteristic waveform that repeated several times almost unchanged. A time offset embedding vector that completely covers such a wave, can thus be clearly assigned to a given phoneme without misinterpretation of another phoneme occurs with a different characteristic waveform. Within a phoneme, these waveforms change in one certain way so that no absolutely exact repetitions occur. Because of the latter property is almost periodic repetitions spoken.

Die menschliche Sprache ist eine Aneinanderreihung von Phonemen oder Silben, die in Bezug auf die auftretenden Amplituden und Frequenzen charakteristische Muster besitzen. Diese Muster können beispielsweise durch Beobachtung elektrischer Signale eines Schallwandlers (z.B. Mikrofon) erfaßt werden. Auf mittleren Zeitskalen (z.B. im Rahmen eines Wortes) ist die Sprache nicht stationär und auf langen Zeitskalen (z.B. im Rahmen eines Satzes) hochkomplex, wobei viele aktive Freiheitsgrade und ggf. langreichweitige Korrelationen auftreten. Auf kurzen Zeitskalen (Zeitbereiche, die im wesentlichen der Länge eines Phonems oder einer Silbe entsprechen), treten im Signalverlauf repetetive Muster oder sich wiederholende Signalprofile auf, die im folgenden erläutert werden. Einzelheiten der konkreten Berechnungen werden analog zur herkömmlichen Rauschreduzierung implementiert und können den o.a. Publikationen entnommen werden.Human language is a series of phonemes or syllables related to the amplitudes and Frequencies have characteristic patterns. These patterns can for example by observing electrical signals Sound transducer (e.g. microphone). On medium Language is not a time scale (e.g. in the context of a word) stationary and on long time scales (e.g. in the context of a sentence) highly complex, with many active degrees of freedom and possibly long-range correlations occur. On short time scales (Time ranges that are essentially the length of a phoneme or correspond to a syllable), occur repetitively in the signal curve Patterns or repeating signal profiles based on the following are explained. Details of the concrete calculations are implemented in the same way as conventional noise reduction and can do the above Publications are taken.

Fig. 1 zeigt als Beispiel den italienischen Gruß "Buon giorno" als Wellenzug. Dabei handelt es sich um die mit einer Abtastfrequenz von 10 kHz aufgezeichnete Signalamplitude mit den (willkürlich normierten) Zeitreihenwerten y_n in Abhängigkeit von der dimensionslosen Zeitzählskala. Diese Signalamplitude wurde von einer extrem rauscharmen, digitalen Sprachaufzeichnung abgeleitet. Der Gesamtzeitverlauf von n=0 bis n=20000 entspricht einem Zeitbereich von rd. 2 Sekunden.Fig. 1 shows an example of the Italian greeting "Buon giorno" as a wave train. This is the signal amplitude recorded with a sampling frequency of 10 kHz with the (arbitrarily standardized) time series values y _n as a function of the dimensionless time counter scale. This signal amplitude was derived from an extremely low-noise, digital voice recording. The total time course from n = 0 to n = 20,000 corresponds to a time range of approx. 2 seconds.

Bei Darstellung eines Zeitausschnitts des in Fig. 1 gezeigten Amplitudenverlaufs mit extrem gestreckter Zeitskala ergibt sich das Bild in Fig. 2. Es zeigt sich, daß der Amplitudenverlauf innerhalb bestimmter Signalabschnitte (z.B. Phoneme) die illustrierten periodischen Wiederholungen aufweist. Ein Signalprofil wiederholt sich bei dem dargestellten Beispiel in Zeitintervallen einer Breite von rund 7 ms. Ein besonderer Vorteil der Erfindung besteht darin, daß die Wirksamkeit der erfindungsgemäßen Rauschreduzierung nicht von der absoluten Exaktheit der dargestellten Periodizität abhängt. Es ist möglich, daß keine exakten Wiederholungen auftreten, sondern eine systematische Modifikation der typischen Wellenform eines Signalprofils innerhalb eines Phonems erfolgt. Diese Variation wird jedoch bei dem unten im einzelnen erläuterten Verfahren berücksichtigt, da sie die Freiheit in den nach der Projektion Q verbleibenden Richtungen repräsentiert. Zur Berücksichtigung der Variation (Abweichung von exakten Wiederholungen) wird hier der Begriff der annähernd periodischen Signalprofile verwendet, die sich von exakt periodischen Signalprofilen lediglich durch eine systematische Variabilität unterscheiden. Representing a time segment of that shown in FIG. 1 Amplitude curve with extremely stretched time scale results the picture in Fig. 2. It shows that the amplitude curve within certain signal sections (e.g. phonemes) has periodic repetitions. A signal profile repeats in the illustrated example at time intervals a width of around 7 ms. A special advantage the invention is that the effectiveness of the invention Noise reduction not of absolute accuracy depends on the periodicity shown. It is possible, that there are no exact repetitions, but a systematic one Modification of the typical waveform of a signal profile takes place within a phoneme. However, this variation will taken into account in the procedure explained in detail below, since they have freedom in those remaining after projection Q. Directions. To take into account the Variation (deviation from exact repetitions) becomes the Concept of approximately periodic signal profiles used differ from exactly periodic signal profiles by only one distinguish systematic variability.

Bei einer Zeitversatzeinbettung (mit geeignet gewählten Parametern m und τ, s.o.) bilden die gezeigten Wiederholungen benachbarte Punkte im Zustandsraum (bzw. Vektoren, die auf diese Punkte gerichtet sind). Ist nun die Variabilität in diesen Punkten durch eine Überlagerung durch Rauschen größer als die natürliche Variabilität aufgrund der Nichtstationarität, so wird eine approximative Identifikation der Mannigfaltigkeit und die Projektion darauf das Rauschen stärker reduzieren als es das eigentliche Signal beeinflußt. Dies ist der Grundansatz des erfindungsgemäßen Verfahrens, das im folgenden unter Bezug auf das Flußdiagramm gemäß Fig. 3 erläutert wird.With time offset embedding (with suitably chosen parameters m and τ, see above) form the repetitions shown neighboring Points in the state space (or vectors that refer to this Points are directed). Now is the variability in these Points due to noise overlay greater than that natural variability due to non-stationarity, see above becomes an approximate identification of the manifold and the projection on it will reduce the noise more than it does affects the actual signal. This is the basic approach of the inventive method, the following with reference to the flowchart of FIG. 3 is explained.

Fig. 3 ist eine Übersichtsdarstellung, die schematisch grundsätzliche Schritte des erfindungsgemäßen Verfahrens zeigt. Die Erfindung ist jedoch nicht auf diesen Ablauf beschränkt. Anwendungsabhängig kann eine Modifizierung in Bezug auf die Datenaufnahme, die Paramterermittlung, die eigentliche Berechnung zur Rauschreduzierung, die Trennung von Leistungs- und Rauschanteilen und die Ausgabe des Ergebnisses vorgesehen sein.Fig. 3 is an overview diagram that schematically basic Shows steps of the method according to the invention. The However, the invention is not limited to this process. Depending on the application can be a modification in terms of data collection, the parameter determination, the actual calculation for noise reduction, the separation of power and Noise components and the output of the result can be provided.

Gemäß Fig. 3 erfolgt nach dem Start 100 die Datenaufnahme 101 und die Parameterermittlung 102. Die Datenaufnahme 101 umfaßt die Aufnahme eines Schallsignals durch Umwandlung des Schalls in eine elektrische Größe. Die Datenaufnahme kann zur analogen oder digitalen Schallaufzeichnung eingerichtet sein. Anwendungsabhängig wird das Schallsignal in einem Datenspeicher oder bei Echtzeitverarbeitung in einem Pufferspeicher (s. Fig. 9) gespeichert. Die Parameterermittlung 102 umfaßt die Auswahl von Parametern, die für die spätere Suche nach Korrelationen zwischen benachbarten Zuständen im Schallsignal geeignet sind. Diese Parameter umfassen insbesondere die Einbettungsdimension m, den Abtastabstand τ, die ε-Durchmesser der Umgebungen U im Zeitversatz-Einbettungsraum zur Identifizierung von Nachbarn, und die Zahl Q der Zeitversatzvektoren, auf die die Zustandsprojektion erfolgen soll. 3, data acquisition 101 takes place after start 100 and the parameter determination 102. The data acquisition 101 comprises recording a sound signal by converting the sound in an electrical size. Data acquisition can be analog or digital sound recording. Depending on the application is the sound signal in a data memory or with real-time processing in a buffer memory (see FIG. 9) saved. The parameter determination 102 includes the selection of Parameters that are used for the later search for correlations between neighboring states in the sound signal are suitable. These parameters include in particular the embedding dimension m, the scanning distance τ, the ε diameter of the surroundings U im Time offset embedding room to identify neighbors, and the number Q of the time offset vectors to which the state projection should be done.

Bei der Sprachsignalverarbeitung kann die Einbettungsdimension m beispielsweise im Bereich von 10-50, vorzugsweise 20-30, und der Abtastabstand τ im Bereich von 0.1 bis 0.3 ms liegen, so daß das Einbettungsfenster m · τ vorzugsweise rd. 3 bis 8 ms abdeckt. Diese Daten beziehen sich auf eine Phonemdauer von rd. 50 bis 200 ms und die Komplexität der menschlichen Stimme. Typische Signalprofile liegen wegen der Tonlage der menschlichen Stimme von ungefähr 100 Hz zwischen 3 und 15 ms. Fig. 2 zeigt beispielsweise Wiederholungen des Signalprofils jeweils nach 7 ms. Die Parameterermittlung 102 (Fig. 3) kann im Zusammenspiel mit der Datenaufnahme 101 erfolgen oder im Rahmen einer Vorabanalyse durchgeführt worden sein. Bei einer Vorabanalyse wird die Einbettungsdimension m und die Dimension der Mannigfaltigkeit (entsprechend dem Parameter Q), in der die unverrauschten Daten lägen, abgeschätzt. Es kann auch vorgesehen sein, daß die Parameterermittlung 102 während des Verfahrens wiederholt wird. Dies kann beispielsweise als Korrektur in Reaktion auf das Ergebnis der Leistungs-/Rausch-Trennung 109 (s.u.) erfolgen.In speech signal processing, the embedding dimension m for example in the range of 10-50, preferably 20-30, and the scanning distance τ is in the range from 0.1 to 0.3 ms, so that the embedding window m · τ preferably approx. 3 to 8 ms covers. These data refer to a phoneme duration of approx. 50 to 200 ms and the complexity of the human voice. Typical Signal profiles are due to the pitch of the human Voice of approximately 100 Hz between 3 and 15 ms. Fig. 2 shows for example repetitions of the signal profile after each 7 ms. The parameter determination 102 (FIG. 3) can interact with the data acquisition 101 or within the framework of a Preliminary analysis has been carried out. With a preliminary analysis becomes the embedding dimension m and the dimension of diversity (corresponding to the parameter Q) in which the noiseless Data was lying, estimated. It can also be provided be that the parameter determination 102 during the process is repeated. This can be used as a correction in Response to the result of power / noise separation 109 (see below).

Auf der Grundlage der aufgenommenen Meßwerte und der festgelegten Parameter folgt die Signalabtastung 103. Die Signalabtastung 103 ist dazu vorgesehen, die Werte der Zeitreihen y_n entsprechend den vorher festgelegten Abtastparametern aus den Daten zu ermitteln. Die folgenden Schritte 104 bis 109 stellen die eigentliche Berechnung der Projektionen der realen Schallsignale auf unverrauschte Schallsignale oder -zustände dar.The signal sample 103 follows on the basis of the recorded measured values and the specified parameters. The signal sample 103 is provided to determine the values of the time series y _{n in} accordance with the previously determined sample parameters from the data. The following steps 104 to 109 represent the actual calculation of the projections of the real sound signals onto noiseless sound signals or states.

Der Schritt 104 umfaßt die Bildung des ersten Zeitversatzvektors am Anfang der Zeitreihen (z.B. gemäß Fig. 2). Dieser erste Zeitversatzvektor muß sich nicht notwendigerweise auf das zeitlich zuerst erscheinende erste Signalprofil beziehen. Dies wird jedoch insbesondere bei Echtzeit- oder Quasiechtzeitverarbeitungen bevorzugt. Der erste Zeitversatzvektor umfaßt m Signalwerte y_n als m Komponenten, die mit dem Zeitversatz τ aufeinanderfolgen. Anschließend werden bei Schritt 105 benachbarte Zeitversatzvektoren (Nachbarvektoren) gebildet und erfaßt. Die Nachbarvektoren beziehen sich auf sehr ähnliche Signalprofile wie das Signalprofil, das durch den ersten Vektor repräsentiert wird. Sie bilden die erste Umgebung U. Wenn der erste Vektor ein Profil repräsentiert, der Teil eines Phonems ist, so entsprechen die Nachbarvektoren im wesentlichen den sich annähernd wiederholenden Signalprofilen innerhalb desselben Phonems. Bei der Sprachverarbeitung wiederholen sich etwa 15 Signalprofile innerhalb eines Phonems. Die Zahl der ermittelten Nachbarvektoren ist kleiner oder gleich der Zahl sich wiederholender Signalprofile und beträgt beispielsweise rund 5 bis 15.Step 104 comprises the formation of the first time offset vector at the beginning of the time series (for example according to FIG. 2). This first time offset vector does not necessarily have to refer to the first signal profile that appears first in time. However, this is particularly preferred for real-time or quasi-real-time processing. The first time offset vector comprises m signal values y _n as m components which follow one another with the time offset τ. Then, in step 105, adjacent time offset vectors (neighboring vectors) are formed and recorded. The neighboring vectors refer to signal profiles that are very similar to the signal profile represented by the first vector. They form the first environment U. If the first vector represents a profile that is part of a phoneme, the neighboring vectors essentially correspond to the approximately repeating signal profiles within the same phoneme. In speech processing, around 15 signal profiles are repeated within a phoneme. The number of neighboring vectors determined is less than or equal to the number of repeating signal profiles and is, for example, around 5 to 15.

Anschließend folgt die Berechnung der Kovarianzmatrix 106 entsprechend der oben angegeben Gleichung (2). Die in diese Matrix eingefügten Vektoren sind die Vektoren aus der Basis-Umgebung U entsprechend der Festlegung in Schritt 105. Schritt 106 umfaßt dann die Bestimmung der Q größten Singulärwerte der Kovarianzmatrix und der zugehörigen Singulärvektoren im m-dimensionalen Raum.The covariance matrix 106 is then calculated accordingly of equation (2) given above. The one in this matrix inserted vectors are the vectors from the base environment U as determined in step 105. step 106 includes then the determination of the Q largest singular values of the covariance matrix and the associated singular vectors in the m-dimensional Room.

Im Rahmen der folgenden Projektion 107 werden alle Anteile des ersten Zeitversatzvektors, die nicht in dem von den Q ermittelten dominanten Vektoren aufgespannten Unterraum liegen, eliminiert. Der Wert Q liegt im Bereich von rund 2 bis 10, vorzugsweise 4 bis 6. Bei einem modifizierten Verfahren kann der Wert Q Null betragen (s. unten).In the following projection 107 all parts of the first time offset vector that is not in the Q determined dominant vectors spanned subspace are eliminated. The value Q is in the range of around 2 to 10, preferably 4 to 6. In a modified procedure, the value can be Q be zero (see below).

Die verhältnismäßig geringe Zahl Q, die die Dimension des Unterraumes repräsentiert, auf die die Zustände bzw. Signale projiziert werden, stellt einen besonderen Vorteil der Erfindung dar. Es wurde festgestellt, daß der Dynamikbereich der Wellen innerhalb eines gegebenen Phonems nur relativ wenige Freiheitsgrade besitzt, wenn sie einmal innerhalb eines hochdimensionalen Raumes identifiziert worden ist. Daher sind auch verhältnismäßig wenige Nachbarzustände für die Projektionsberechnung erforderlich. Für die Erfassung der Korrelation zwischen den Signalprofilen sind nur die größten Singulärwerte und entsprechenden Singulärvektoren der Kovarianzmatrix relevant. Dieses Ergebnis ist überraschend, da die nichtlineare Rauschreduzierung an sich für deterministische Systeme mit umfangreichen Zeitreihen entwickelt wurde. Außerdem ergibt sich als besonderer Vorteil ein verhältnismäßig geringer Zeitaufwand für die Berechnung.The relatively small number Q, which is the dimension of the subspace represents, onto which the states or signals are projected represents a particular advantage of the invention It was found that the dynamic range of the waves only a few degrees of freedom within a given phoneme owns once inside a high dimensional Space has been identified. Therefore, they are also proportional few neighboring states for the projection calculation required. To capture the correlation between the Signal profiles are only the largest singular values and corresponding ones Singular vectors of the covariance matrix are relevant. This The result is surprising since the non-linear noise reduction in itself for deterministic systems with extensive Time series was developed. It also emerges as special Advantage of a relatively small amount of time for the Calculation.

Anschließend wird der nächste Zeitversatzvektor bei Schritt 108 ausgewählt und die Schrittfolge 105-107 wiederholt, wobei neue Umgebungen und neue Kovarianzmatrizen gebildet werden. Diese Wiederholung erfolgt, bis alle Zeitversatzvektoren, die aus der Zeitreihe konstruiert werden können, verarbeitet worden sind.Then the next time offset vector becomes step 108 selected and the sequence 105-107 repeated, with new Environments and new covariance matrices are formed. This Repeat until all time offset vectors that result from the Time series can be constructed, have been processed.

Die Bildung bzw. Erfassung der Nachbarvektoren (Schritt 105) erfolgt übrigens bei einer höheren Dimension als die Projektion 107. Die hohe Dimension bei der Nachbarsuche garantiert die Auswahl der richtigen Nachbarn, die Profile repräsentieren, die von denselben Phonemen abgeleitet sind. Die Erfindung wählt somit implizit ohne irgendein Sprachmodell Phoneme aus. Wie oben erklärt wurde, repräsentiert die Dynamik innerhalb eines Phonems jedoch wesentlich weniger Freiheitsgrade, so daß innerhalb des durch die Singulärvektoren aufgespannten Unterraumes niedrigdimensional und schnell gearbeitet werden kann. Für Echtzeitanwendungen erfolgt die Schallsignalverarbeitung im wesentlichen für die Phoneme aufeinanderfolgend, so daß Phonem für Phonem komplett abgearbeitet und so ein entrauschtes Ausgangssignal erzeugt wird. Dieses Ausgangssignal ist gegenüber dem erfaßten Schallsignal (Eingangssignal) um rund 100-200 ms verzögert (Echtzeit- oder auch Quasi-Echtzeitanwendung).The formation or acquisition of the neighboring vectors (step 105) Incidentally, it takes place at a higher dimension than the projection 107. The high dimension in the search for neighbors guarantees that Choosing the right neighbors to represent the profiles are derived from the same phonemes. The invention thus chooses implicitly without any language model phonemes. As above has been explained represents the dynamics within a phoneme however, significantly fewer degrees of freedom, so that within of the subspace spanned by the singular vectors low-dimensional and can be worked quickly. For real-time applications the sound signal processing takes place essentially for the phonemes in succession, so that phoneme for Phonem completely processed and so a noise-free output signal is produced. This output signal is compared to that recorded sound signal (input signal) delayed by around 100-200 ms (Real time or quasi real time application).

Die Schritte 109 und 110 betreffen die Bildung des eigentlichen Ausgangssignals. Der Schritt 109 ist auf die Trennung von Leistungs- und Rauschsignalen gerichtet. Ein entrauschtes Zeitreihenelement s_k wird durch Mittlung über die korrespondierenden Elemente aus allen Zeitversatzvektoren, die dieses Element enthalten, gebildet. Statt einer einfachen Mittlung kann eine gewichtete Mittlung eingeführt werden. Nach Schritt 109 kann ein Rücksprung vor Schritt 104 vorgesehen sein. Die entrauschten Zeitreihenelemente bilden dann die Eingangsgrößen für die erneute Bildung von Zeitversatzvektoren und deren Projektion auf den Unterraum entsprechend den Singulärvektoren. Diese Verfahrenswiederholung ist nicht notwendig, kann aber zur Verbesserung der Rauschreduzierung z.B. 2- oder 3-fach vorgesehen sein. Nach Schritt 109 kann aber auch ein Rücksprung zur Parameterermittlung 102 vorgesehen sein, falls der nach Schritt 109 vorliegende Leistungsanteil sich weniger als erwartet (z.B. durch weniger als einen vorbestimmten Schwellwert) vom unverarbeiteten Schallsignale unterscheidet. Hierzu können im Verfahrensablauf nicht dargestellte Entscheidungsmechanismen eingebaut sein. Bei Schritt 110 folgt die Datenausgabe. Bei der Rauschreduzierung wird als Leistungsanteil das rauschreduzierte Sprachsignal ausgegeben. Alternativ kann aber auch anwendungsabhängig gerade die Ausgabe oder Speicherung des Rauschanteils vorgesehen sein.Steps 109 and 110 relate to the formation of the actual output signal. Step 109 is directed to the separation of power and noise signals. A noise-free time series element s _k is formed by averaging over the corresponding elements from all time offset vectors which contain this element. A weighted averaging can be introduced instead of a simple averaging. After step 109, a jump back can be provided before step 104. The noise-free time series elements then form the input variables for the renewed formation of time offset vectors and their projection onto the subspace in accordance with the singular vectors. This process repetition is not necessary, but can be provided, for example, 2 or 3 times to improve the noise reduction. After step 109, however, a return to parameter determination 102 can also be provided if the power component present after step 109 differs less than expected (for example by less than a predetermined threshold value) from the unprocessed sound signals. For this purpose, decision mechanisms, not shown, can be built in. At step 110, data output follows. With noise reduction, the noise-reduced voice signal is output as a power component. Alternatively, the output or storage of the noise component can also be provided depending on the application.

Die oben erläuterte Verfahrensweise kann in Bezug auf die Parameterbestimmung unter Berücksichtigung der folgenden Gesichtspunkte modifiziert werden. Erstens kann die Dimension der Mannigfaltigkeit (entsprechend dem Parameter Q), in der die rauschfreien Daten liegen würden, im Verlauf eines Signals variieren. Die Dimension Q kann von Phonem zu Phonem variieren. Die Dimension kann beispielsweise auch während einer Pause zwischen zwei gesprochenen Worten oder irgendeiner anderen Ruhephase Null betragen. Zweitens ist eine Auswahl von relevanten inhärenten Zeitversatzvektoren, auf die der Zustand projiziert werden soll, ausgeschlossen, falls das Rauschen relativ hoch ist (ungefähr 50%). In diesem Fall würden alle Eigenwerte der Korrelationsmatrix ungefähr gleich sein.The procedure explained above can be used in relation to the parameter determination considering the following points be modified. First, the dimension of Manifold (according to the parameter Q) in which the noise-free data would lie in the course of a signal vary. The dimension Q can vary from phoneme to phoneme. The dimension can, for example, also during a break between two spoken words or any other resting phase Be zero. Second is a selection of relevant ones inherent time offset vectors onto which the state is projected should be excluded if the noise is relatively high is (about 50%). In this case, all eigenvalues of the Correlation matrix to be approximately the same.

Dementsprechend kann beim Verfahrensablauf die folgende Variation des Parameters Q vorgesehen sein. Anstelle einer unveränderlichen Projektionsdimension Q wird die Dimension für jede Kovarianzmatrix angepaßt variiert bzw. individuell bestimmt. Bei Schritt 102 wird eine Konstante f = 1 bestimmt. Diese Konstante f wird empirisch ermittelt. Sie hängt von der Signalart ab und beträgt beispielsweise bei Sprache f = 0.1. Der maximale Singulärwert einer gegebenen Kovarianzmatrix, multipliziert mit der Konstanten f, repräsentiert einen Schwellwert. Die Anzahl der Singulärwerte, die größer als der Schwellwert sind, wird dann als Wert für Q für die Projektion verwendet, vorausgesetzt dieser Wert überschreitet nicht einen bestimmten Maximalwert. Dieser Maximalwert ist z.B. 8. Im letzteren Fall sind alle Singulärwerte einer gegebenen Kovarianzmatrix so ähnlich, daß kein ausgeprägter linearer Unterraum ausgewählt werden kann und somit Q = 0 gewählt werden muß. Anstelle einer Projektion wird der aktuelle Zeitversatzvektor dann durch den Mittelwert seiner Umgebung ersetzt.Accordingly, the following can be done in the process flow Variation of the parameter Q may be provided. Instead of an unchangeable one Projection dimension Q becomes the dimension for each covariance matrix is adjusted or individually determined. At step 102, a constant f = 1 is determined. This constant f is determined empirically. It depends on the Signal type down and is, for example, with language f = 0.1. The maximum singular value of a given covariance matrix, multiplied with the constant f, represents a threshold. The number of singular values that are greater than the threshold is then used as the value for Q for the projection, provided that this value does not exceed a certain one Maximum value. This maximum value is e.g. 8. In the latter The case is all singular values of a given covariance matrix so similar that no pronounced linear subspace is selected can be selected and therefore Q = 0 must be selected. Instead of the current time offset vector then becomes a projection replaced by the mean of its surroundings.

Durch diese Abwandlung wird die Leistungsfähigkeit des Verfahrens insbesondere bei hohen Rauschpegeln drastisch erhöht.This modification increases the efficiency of the process drastically increased especially at high noise levels.

BeispieleExamples

Im folgenden wird die erfindungsgemäße Signalverarbeitung an zwei Beispielen illustriert. Beim ersten Beispiel ist das verarbeitete Schallsignale ein menschlicher Pfiff (s. Fig. 4). Das zweite Beispiel betrifft die oben genannten Worte "Buon giorno" (s. Fig. 5 bis 8).The signal processing according to the invention is described below illustrated two examples. In the first example, this is processed Sound signals a human whistle (see Fig. 4). The second example concerns the above words "Buon giorno" (see Figs. 5 to 8).

Fig. 4 zeigt das Leistungsspektrum für einen menschlichen Pfiff der Dauer 3 s. Ein Pfiff ist ein im wesentlichen periodisches Signal mit charakteristischen Harmonischen und nur geringen Nicht-Stationaritäten. Fig. 4a zeigt den Amplitudenverlauf der Originalaufzeichnung. Nach numerischer Addition eines 10-%igen Rauschens ergibt sich das in Fig. 4b dargestellte Spektrum. Dieses liefert die Eingangsdaten für Schritt 101 des Verfahrensablaufes (Fig. 3). Nach der erfindungsgemäßen Rauschreduzierung ergibt sich das in Fig. 4c gezeigte Bild. Dieses zeigt die vollständige Wiederherstellung des ursprünglichen, unverrauschten Signals. Die Figuren 4a bis 4c zeigen einen besonderen Vorteil der Erfindung gegenüber einem herkömmlichen Filter im Frequenzraum. Ein Filter im Frequenzraum würde alle Leistungsanteile mit Amplituden unterhalb 10^-6 abschneiden, so daß das entrauschte Spektrum nur noch den Peak bei 0 und den Peak um die Grundfrequenz enthielte. Dementsprechend wäre die aus der Rücktransformation gewonnene Zeitreihe völlig ohne Oberschwingungen, was sich sehr synthetisch anhören würde. Diese Nachteile werden bei der erfindungsgemäßen Rauschreduzierung vermieden.Fig. 4 shows the power spectrum for a human whistle lasting 3 s. A whistle is an essentially periodic signal with characteristic harmonics and only minor non-stationarities. 4a shows the amplitude profile of the original recording. After the numerical addition of a 10% noise, the spectrum shown in FIG. 4b results. This provides the input data for step 101 of the process sequence (FIG. 3). After the noise reduction according to the invention, the image shown in FIG. 4c results. This shows the complete restoration of the original, noiseless signal. Figures 4a to 4c show a particular advantage of the invention over a conventional filter in the frequency domain. A filter in the frequency domain would cut off all power components with amplitudes below 10 ^-6 , so that the noisy spectrum would only contain the peak at 0 and the peak around the fundamental frequency. Accordingly, the time series obtained from the back transformation would be completely harmonic, which would sound very synthetic. These disadvantages are avoided with the noise reduction according to the invention.

Fig. 5 zeigt entsprechende Ergebnisse am Beispiel von Kurvendarstellungen für die Verarbeitung von Sprachsignalen. In Fig. 5a ist ein Ausschnitt aus dem unverrauschten Wellenzug der Worte "Buon giorno" bezogen auf den Signalverlauf gemäß Fig. 1 analog zu Fig. 2 gezeigt. Es ist die zeitlich begrenzte Wiederholung von Signalprofilen erkennbar, die die zur Reduktion des Rauschens notwendige Redundanz enthält. Fig. 5b zeigt den Wellenzug nach Addition eines synthetischen Rauschens. Nach der erfindungsgemäßen Rauschreduzierung ergibt sich das Bild gemäß Fig. 5c. Es zeigt sich, daß das Originalsignal zum größten Teil rekonstruiert werden konnte.5 shows corresponding results using the example of curve representations for processing voice signals. In Fig. 5a is a section of the noiseless wave train of the words "Buon giorno" based on the signal curve according to FIG. 1 shown analogously to FIG. 2. It is the time-limited repetition of signal profiles recognizable, which are used to reduce the Noise contains the necessary redundancy. 5b shows the wave train after adding a synthetic noise. After Noise reduction according to the invention results in the image Fig. 5c. It turns out that the original signal for the most part could be reconstructed.

Die Funktionsfähigkeit der erfindungsgemäßen Rauschreduzierung wurde in verschiedenen Rauscharten und -amplituden geprüft. Als Maß für die Leistungsfähigkeit der Rauschreduzierung kann die Dämpfung D (in dB) gemäß Gleichung (3) betrachtet werden. D = 10 log ((Σ(y k-xx)2)/(Σ(yk-xk)2)) The functionality of the noise reduction according to the invention was tested in different noise types and amplitudes. The attenuation D (in dB) according to equation (3) can be considered as a measure of the performance of the noise reduction. D = 10 log ((Σ ( y k -x x ) 2nd ) / (Σ (y k -x k ) 2nd ))

In Gleichung (3) steht X_k für das unverrauschte Signal (Leistungsanteil), y_k für das verrauschte Signal (Eingangs-Schallsignal) und y ∧_k für das Signal nach der erfindungsgemäßen Rauschreduzierung.In equation (3), X _k stands for the noiseless signal (power component), y _k for the noiseless signal (input sound signal) and y ∧ _k for the signal after the noise reduction according to the invention.

Fig. 6 illustriert die Abhängigkeit der Dämpfung D der nichtlinear Rauschreduzierung in Abhängigkeit von der relativen Rauschamplitude (Varianz des Rauschanteils : Varianz des Leistungsanteils). Es zeigt sich, daß die Dämpfung selbst bei relativ hohen Rauschamplituden (im Bereich von mehr als 100%) verstärkt ist.Fig. 6 illustrates the dependence of the damping D of the non-linear Noise reduction depending on the relative Noise amplitude (variance of the noise component: variance of the Performance share). It turns out that the damping itself at relatively high noise amplitudes (in the range of more than 100%) is reinforced.

Die Figuren 7 und 8 zeigen weitere Einzelheiten der Sprachrauschreduzierung. Fig. 7 illustriert das Auftreten sich wiederholender Signalprofile innerhalb des im oberen Teil der Figur gezeigten Phonemzuges. In Abhängigkeit von einem (willkürlichen) Zeitindex i ist im unteren Teil der Figur ein Kurvenbild gedruckt, das aus unter den folgenden Bedingungen gebildeten Punkten besteht. Für jeden Zeitpunkt i wird der zugehörige Zeitversatzvektor s ∧_i und die Menge aller Zeitversatzvektoren s ∧_j,i betrachtet. Falls der Betrag des Differenzvektors zwischen dem s ∧_i und jedem s ∧_j kleiner als eine vorbestimmte Grenze ist, wird ein Punkt gedruckt. Die Punkte bilden mehr oder wenige ausgedehnte Linien. Die Linienstrukturen zeigen, daß innerhalb der Phoneme die oben erläuterten Periodizitäten der Signalprofile auftreten. Die Lücken in diesen Liniensegmenten zeigen, daß die Umgebungen geeignet sind, zwischen verschiedenen Phonehmen zu differenzieren. Für Linienstrukturen, die in Ordinatenrichtung besonders ausgedehnt sind, gilt, daß die Anzahl von intra-Phonem-Nachbarn besonders groß ist. Es zeigt sich jedoch auch, daß in der Regel für |i-j| > 2000 keine Wiederholungen auftreten.Figures 7 and 8 show further details of the speech noise reduction. Fig. 7 illustrates the occurrence of repetitive signal profiles within the phoneme train shown in the upper part of the figure. Depending on a (arbitrary) time index i, a graph is printed in the lower part of the figure, which consists of points formed under the following conditions. The associated time offset vector s ∧ _i and the set of all time offset vectors s ∧ _{j, i are} considered for each time i. If the amount of the difference vector between the s ∧ _i and each s ∧ _{j is} less than a predetermined limit, a dot is printed. The points form more or less extended lines. The line structures show that the periodicities of the signal profiles explained above occur within the phonemes. The gaps in these line segments show that the environments are suitable for differentiating between different phonographs. For line structures that are particularly extended in the ordinate direction, the number of intra-phoneme neighbors is particularly large. However, it also turns out that for | ij | > 2000 no repetitions occur.

Fig. 8 zeigt wiederum am Beispiel der Worte "Buon giorno" im oberen Teil der Figur das unverrauschte Signal, im mittleren Teil das synthetisch hinzugefügte Rauschen und im unteren Teil das nach der Rauschreduzierung verbliebene Rauschen. Die Ordinatenskalierung ist in allen drei Fällen identisch. Das verbleibende Rauschen (unterster Teil der Figur) zeigt eine systematische Variation, die darauf hinweist, daß der Erfolg der erfindungsgemäßen Rauschreduzierung selbst vom Schallsignal, d.h. vom konkreten Phonem, abhängt.Fig. 8 again shows the example of the words "Buon giorno" in upper part of the figure the noiseless signal, in the middle Part of the synthetically added noise and in the lower part the noise remaining after the noise reduction. The ordinate scaling is identical in all three cases. The rest Noise (bottom part of the figure) shows a systematic Variation indicating that the success of the invention Noise reduction even from the sound signal, i.e. depends on the specific phoneme.

Gegenstand der Erfindung ist auch eine Vorrichtung zur Implementierung des erfindungsgemäßen Verfahrens. Gemäß Fig. 9 umfaßt eine Rauschreduzierungsanordnung einen Meßwertaufnehmer 91, einen Datenspeicher 92 und/oder einen Pufferspeicher 93, eine Abtastschaltung 94, eine Rechenschaltung 95 und eine Ausgabeeinheit 96.The invention also relates to a device for implementation of the method according to the invention. 9 includes a noise reduction arrangement a transducer 91, a data memory 92 and / or a buffer memory 93, a sampling circuit 94, an arithmetic circuit 95 and an output unit 96.

Die hier vorgestellten Komponenten der erfindungsgemäßen Vorrichtung werden vorzugsweise als festverschaltete Schaltkreisanordnung oder als interierter Chip hergestellt.The components of the device according to the invention presented here are preferably used as a permanently connected circuit arrangement or manufactured as an integrated chip.

Im folgenden werden bevorzugte Anwendungen der Erfindung genannt. Neben der bereits genannten Rauschreduzierung an Sprachsignalen ist die Erfindung auch bei der Rauschreduzierung an Hörgeräten und zur Verbesserung der computergestützten automatischen Spracherkennung anwendbar. In Bezug auf die Spracherkennung kann insbesondere vorgesehen sein, die entrauschten Zeitreihenwerte bzw. Sektoren mit Tabellenwerten zu vergleichen. Die Tabellenwerte repräsentieren entsprechende Werte bzw. Vektoren vorbestimmter Phoneme. Eine automatische Spracherken nung kann somit mit dem Rauschreduzierungsverfahren integriert werden.Preferred applications of the invention are mentioned below. In addition to the already mentioned noise reduction on speech signals the invention is also in noise reduction Hearing aids and to improve the computerized automatic Speech recognition applicable. Regarding speech recognition can be provided, in particular, the noise Compare time series values or sectors with table values. The table values represent corresponding values or Vectors of predetermined phonemes. An automatic speech recognition can be integrated with the noise reduction process become.

Weitere Anwendungen liegen im Bereich der Telekommunikation und bei der Signalverarbeitung anderer Schallquellen als der menschlichen Sprache. Hierzu zählen beispielsweise Tierstimmen oder auch Musik.Other applications are in the field of telecommunications and when processing signals from sources other than that human language. These include animal voices, for example or music.

Claims

Method for signal processing of a sound signal y, at which within predetermined signal sections of the Sound signal detects redundant signal profiles and correlations are determined between the signal profiles, where correlated signal components are a power component and uncorrelated signal components a noise component of the Sound signal can be assigned.

The method of claim 1, wherein the correlations between the signal profiles using non-linear methods Noise reduction in deterministic systems be determined.

Method according to Claim 1, in which the sound signal y, which is composed of a speech component x and a noise component r, is processed in each signal section according to the following steps:

a) Acquisition of a large number of sound signal values y k = x k + r k with a scanning distance τ,

b) Formation of time offset vectors, each of which consists of components y _k , the number m of which is an embedding dimension and the indices k of which are derived from the embedding window of width m · τ, whereby for each of these time offset vectors an environment U is formed from all the time offset vectors and their spacing at a given time offset vector is less than a predetermined value ε;

c) determining correlations between the time offset vectors and projecting the time offset vectors onto predetermined singular value vectors, and

d) Determination of useful signal values which form a speech signal which essentially corresponds to the speech component x _k and / or a noise signal which essentially corresponds to the noise component r _k .

A method according to claim 3, wherein the number k of those formed Time offset vectors that form the environment of The redundancy depends on the approximate repetitions the signal profiles is saved.

The method of claim 3, wherein the correlations between the time offset vectors by identification the environment and by calculating a covariance matrix are extracted on the vectors, too belong to the environment.

The method of claim 3, wherein steps b) to c) repeated at least once with the useful signal values be used to improve the outcome can be repeated if the entire time series is noisy.

A method according to claim 3, wherein the sound signal is on Speech signal is.

Method according to one of claims 3 to 7, wherein the Embedding window m · τ is in the range of 1 to 20 ms.

A method according to claim 3, wherein in step c) the Time offset vectors on a Q-dimensional manifold projected with an adaptively set Q value.

Device for carrying out a method according to a of the preceding claims, which are a sensor (91), a data memory (92) and / or a buffer memory (93), a sampling circuit (94), an arithmetic circuit (95) and an output unit (96).

Use of a method according to one of claims 1 up to 9 for noise reduction on voice signals in telecommunications, in hearing aids or in automatic Voice recognition.

Use of non-linear noise reduction methods for deterministic systems for noise reduction of Voice signals.