EP1014340A2 - Method and device for processing noisy audio signals - Google Patents
Method and device for processing noisy audio signals Download PDFInfo
- Publication number
- EP1014340A2 EP1014340A2 EP99125575A EP99125575A EP1014340A2 EP 1014340 A2 EP1014340 A2 EP 1014340A2 EP 99125575 A EP99125575 A EP 99125575A EP 99125575 A EP99125575 A EP 99125575A EP 1014340 A2 EP1014340 A2 EP 1014340A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- noise
- time offset
- vectors
- noise reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Definitions
- the invention relates to methods for processing noisy Sound signals, in particular for non-linear noise reduction in speech signals, for the non-linear separation of power and noise signals and for the use of non-linear Time series analyzes based on the concept of low-dimensional deterministic chaos.
- the invention relates also a device for implementing the methods and their Use.
- Noise reduction during recording, storage, transmission or rendering human language has a high technical relevance.
- Noise can be a pure measurement inaccuracy e.g. in the form of the digital error when outputting sound amplitudes, as noise in the transmission channel or as dynamic Noise due to the coupling of the system under consideration with the Outside world occur.
- Examples of noise reduction of the human language are generally from telecommunications, automatic speech recognition or the use of electronic Known hearing aids.
- the problem of noise reduction occurs not only in human language, but also in others Types of sound signals, and not just stochastic Noise, but also with all forms of overlay of a relevant sound signal due to extraneous noise. It exists an interest in a signal processing technique, with the strongly aperiodic and non-stationary sound signals in Analyzed, manipulated in relation to power and noise components or can be separated.
- a typical approach to noise reduction ie to break down a signal into certain power and noise components, is based on signal filtering in the frequency domain.
- filtering is done with bandpass filters, but this creates the following problem.
- stochastic noise is broadband (often so-called white noise ").
- white noise If, however, the power signal itself is strongly aperiodic and thus broadband, the frequency filter also destroys a portion of the power signal, which results in inadequate results. For example, if a low-pass filter is to be used to remove high-frequency noise from human speech during speech transmission the speech signal is distorted.
- noise compensation for sound recordings.
- a first microphone from a Noise levels in a room overlaid with human speech and with a second microphone recorded a sound signal that essentially represents the noise level.
- a compensation signal is derived from microphones The noise is superimposed with the measurement signal of the first microphone compensated from the surrounding space.
- This technique is due to the relatively high cost of equipment (use of special Microphones with directional characteristics) and because of the limited Application e.g. disadvantageous in voice recording.
- time series analysis represents a fundamental approach to learn as much as possible about the properties or state of a system from observed data.
- Known analytical methods for understanding aperiodic signals are described, for example, by H. Kantz et al. in Nonlinear Time Series Analysis ", Cambridge University Press, Cambridge, 1997, or by HDI Abarbanel in Analysis of Observed Chaotic Data ", Springer, New York, 1996.
- Deterministic chaos means that although a system state at a particular point in time uniquely defines the system state at any later point in time, the However, the system is unpredictable over a long period of time because the current system state is recorded with an inevitable error, the effect of which increases exponentially depending on the equation of motion of the system, so that after a relatively short time a simulated model state with the real state of the system does not exist Resemblance more.
- Fig. 10 shows schematically the dependence of successive Time series values for noise-free or noisy systems (on Example of a one-dimensional relationship).
- the noiseless Data from a deterministic system provide this in Fig. 10a shown image.
- the time offset vectors, to which details continue explained below are in a low dimensional Diversity in the embedding room.
- Noise becomes the deterministic relationship through an approximate Relationship replaced.
- the data is no longer on the Under manifold, but in their vicinity (Fig. 10b).
- the Power and noise are differentiated by dimensionality. Everything that leads out of the sub-manifold, is due to the influence of noise.
- the noise suppression is deterministic chaotic signals in three steps.
- First is the Dimension m of the embedding space and the dimension of the manifold, in which the noiseless data were located, estimated.
- the actual correction is then for each individual point the diversity in its vicinity identified and finally to reduce noise the point under consideration on the manifold projected (Fig. 10c).
- the object of the invention is also to implement devices to specify such a method.
- a first important aspect of the invention is in particular therein, non-stationary sound signals consisting of Power and noise components, with such a high sampling rate to detect that predetermined signal profiles within of the considered sound signal enough redundancy for one Noise reduction included.
- Phonemes consist of a sequence of periodic or approximately periodic repetitions. On the concepts of periodic or approximately periodic Repetitions are discussed separately below. Hereinafter the concept of the approximately periodic becomes uniform Signal profiles used.
- the time series of Sound signals provide waveforms that are at least over repeat certain signal sections of the sound signal and a temporary application of the above, per se allow known concept of non-linear noise reduction.
- Another important aspect of the invention is in the idea of temporal correlations through geometric correlations in the time delay embedding room to replace the be expressed by environments in this room. Points in these environments provide the information needed for nonlinear Noise reduction of the point are necessary for the the environment is constructed.
- the invention also provides a device for signal processing for sound signals, in particular a sampling circuit for signal value detection, an arithmetic circuit for signal value processing and an output unit to output noise-free time series.
- the invention has the following advantages. It will be the first time created a noise reduction method for sound signals, which works essentially without distortion and with a low one equipment expenditure can be implemented.
- the invention can be implemented in real time or almost in real time. Certain parts of the signal processing according to the invention are compatible with conventional noise reduction methods, so that additional correction methods known per se or fast data processing algorithms easily on the Invention are transferable.
- the invention allows the effective Separation of power and noise components regardless of the frequency spectrum of noise. So is so-called in particular colored noise or isospectral noise separable.
- the Invention is not only with stationary noise, but also applicable to non-stationary noise if the time scale, on which the intoxication process changes its properties, longer than typically 100 ms (this is an example value that relates in particular to the processing of speech signals and can also be shorter in other applications).
- the invention is not limited to human language, but also with other sound sources natural or synthetic Applicable origin.
- human speech signals from background noise to separate.
- individual speech signals This would assume that e.g. one vote as a share of performance and one other voice is considered a noise component.
- a voice representing noise would become an untreatable Show non-stationary noise on the same time scale.
- the invention is described below using the example of noise reduction on speech signals by utilizing intra-phonem redundancy explained.
- the power component of the sound signal is formed by a speech component x, which by a noise component r is superimposed.
- the sound signal is in signal sections divided, in the language example by spoken syllables or phonemes are formed.
- the invention is not limited to speech processing. With other sound signals the assignment of the signal sections becomes application-dependent chosen differently.
- the signal processing according to the invention is every sound signal is accessible, which in itself is non-stationary is, but approximately within predetermined signal sections periodically repeating signal profiles.
- s n 2nd k: x k ⁇ U n (A n x k + b n -x k + 1 ) 2nd ,
- the quantity s n 2 represents a prediction error in relation to the factors A n and b n .
- the implicit expression A n x k + b n x k + 1 0 illustrates that the values which correspond to the above-mentioned equation of motion are limited to a hyperplane within the state space under consideration.
- the points belonging to the environment U n are no longer limited to the hyperplane formed by A n and b n , but are scattered in an area around the hyperplane.
- the nonlinear noise reduction now means to project the noisy vectors y n onto this hyperplane.
- the projection of the vectors onto the hyperplane is carried out using known methods of linear algebra.
- the parameter m is the embedding dimension of the time offset vectors.
- the embedding dimension is chosen depending on the application and is greater than twice the value of the fractal dimension of the attractor of the dynamic system under consideration.
- the parameter ⁇ is a sampling interval (or: "time lag"), which represents the time interval between the successive elements of the time series.
- the time offset processor is thus an m-dimensional vector, the components of which comprise a specific time series value and the (m-1) previous time series values.
- the scanning distance ⁇ is in turn a variable selected depending on the application. If the system changes little, the scanning distance can be chosen larger to avoid processing redundant data. If the system changes rapidly, the sampling distance must be chosen smaller, since otherwise the correlations that occur between neighboring values would introduce errors into the further processing. The choice of the sampling distance ⁇ is therefore a compromise between the redundancy and the correlation between successive states.
- the singular or eigenvalues are determined for the covariance matrix C ij .
- the vectors corresponding to the largest singular values represent the directions spanning the hyperplane defined by the A n and b n above.
- the associated time offset vectors are projected onto the dominant directions that span the hyperplane. For each element of the scalar time series, this results in m different corrections, which are combined in a suitable manner. The described process can be repeated for the new projection with the noise-reduced values.
- the correlation is determined between neighboring states in the invention Signal processing in the non-deterministic system based on the following additional information.
- the invention is based on the use of redundancy in the Signal. Because of the non-stationarity is between a real one Redundancy and random similarities of signal parts, which, however, are uncorrelated. This is through the use of a higher embedding dimension and one larger embedding window than would be necessary to dissolve the current dynamics.
- a voice signal is a concatenation of phonemes. Every single phoneme is characterized by a characteristic waveform that repeated several times almost unchanged. A time offset embedding vector that completely covers such a wave, can thus be clearly assigned to a given phoneme without misinterpretation of another phoneme occurs with a different characteristic waveform. Within a phoneme, these waveforms change in one certain way so that no absolutely exact repetitions occur. Because of the latter property is almost periodic repetitions spoken.
- Human language is a series of phonemes or syllables related to the amplitudes and Frequencies have characteristic patterns. These patterns can for example by observing electrical signals Sound transducer (e.g. microphone).
- Sound transducer e.g. microphone
- On medium Language is not a time scale (e.g. in the context of a word) stationary and on long time scales (e.g. in the context of a sentence) highly complex, with many active degrees of freedom and possibly long-range correlations occur.
- On short time scales Time ranges that are essentially the length of a phoneme or correspond to a syllable
- Patterns or repeating signal profiles based on the following are explained. Details of the concrete calculations are implemented in the same way as conventional noise reduction and can do the above Publications are taken.
- time offset embedding (with suitably chosen parameters m and ⁇ , see above) form the repetitions shown neighboring Points in the state space (or vectors that refer to this Points are directed). Now is the variability in these Points due to noise overlay greater than that natural variability due to non-stationarity, see above becomes an approximate identification of the manifold and the projection on it will reduce the noise more than it does affects the actual signal. This is the basic approach of the inventive method, the following with reference to the flowchart of FIG. 3 is explained.
- Fig. 3 is an overview diagram that schematically basic Shows steps of the method according to the invention.
- the invention is not limited to this process.
- the parameter determination, the actual calculation for noise reduction, the separation of power and Noise components and the output of the result can be provided.
- data acquisition 101 takes place after start 100 and the parameter determination 102.
- the data acquisition 101 comprises recording a sound signal by converting the sound in an electrical size. Data acquisition can be analog or digital sound recording. Depending on the application is the sound signal in a data memory or with real-time processing in a buffer memory (see FIG. 9) saved.
- the parameter determination 102 includes the selection of Parameters that are used for the later search for correlations between neighboring states in the sound signal are suitable. These parameters include in particular the embedding dimension m, the scanning distance ⁇ , the ⁇ diameter of the surroundings U im Time offset embedding room to identify neighbors, and the number Q of the time offset vectors to which the state projection should be done.
- the embedding dimension m for example in the range of 10-50, preferably 20-30, and the scanning distance ⁇ is in the range from 0.1 to 0.3 ms, so that the embedding window m ⁇ ⁇ preferably approx. 3 to 8 ms covers.
- These data refer to a phoneme duration of approx. 50 to 200 ms and the complexity of the human voice.
- Typical Signal profiles are due to the pitch of the human Voice of approximately 100 Hz between 3 and 15 ms.
- Fig. 2 shows for example repetitions of the signal profile after each 7 ms.
- the parameter determination 102 (FIG. 3) can interact with the data acquisition 101 or within the framework of a Preliminary analysis has been carried out.
- the signal sample 103 follows on the basis of the recorded measured values and the specified parameters.
- the signal sample 103 is provided to determine the values of the time series y n in accordance with the previously determined sample parameters from the data.
- the following steps 104 to 109 represent the actual calculation of the projections of the real sound signals onto noiseless sound signals or states.
- Step 104 comprises the formation of the first time offset vector at the beginning of the time series (for example according to FIG. 2).
- This first time offset vector does not necessarily have to refer to the first signal profile that appears first in time. However, this is particularly preferred for real-time or quasi-real-time processing.
- the first time offset vector comprises m signal values y n as m components which follow one another with the time offset ⁇ .
- adjacent time offset vectors are formed and recorded.
- the neighboring vectors refer to signal profiles that are very similar to the signal profile represented by the first vector. They form the first environment U. If the first vector represents a profile that is part of a phoneme, the neighboring vectors essentially correspond to the approximately repeating signal profiles within the same phoneme. In speech processing, around 15 signal profiles are repeated within a phoneme.
- the number of neighboring vectors determined is less than or equal to the number of repeating signal profiles and is, for example, around 5 to 15.
- the covariance matrix 106 is then calculated accordingly of equation (2) given above.
- the one in this matrix inserted vectors are the vectors from the base environment U as determined in step 105.
- step 106 includes then the determination of the Q largest singular values of the covariance matrix and the associated singular vectors in the m-dimensional Room.
- the value Q is in the range of around 2 to 10, preferably 4 to 6. In a modified procedure, the value can be Q be zero (see below).
- the relatively small number Q which is the dimension of the subspace represents, onto which the states or signals are projected represents a particular advantage of the invention It was found that the dynamic range of the waves only a few degrees of freedom within a given phoneme owns once inside a high dimensional Space has been identified. Therefore, they are also proportional few neighboring states for the projection calculation required. To capture the correlation between the Signal profiles are only the largest singular values and corresponding ones Singular vectors of the covariance matrix are relevant. This The result is surprising since the non-linear noise reduction in itself for deterministic systems with extensive Time series was developed. It also emerges as special Advantage of a relatively small amount of time for the Calculation.
- step 108 selected and the sequence 105-107 repeated, with new Environments and new covariance matrices are formed. This Repeat until all time offset vectors that result from the Time series can be constructed, have been processed.
- the formation or acquisition of the neighboring vectors (step 105) Incidentally, it takes place at a higher dimension than the projection 107.
- the high dimension in the search for neighbors guarantees that Choosing the right neighbors to represent the profiles are derived from the same phonemes.
- the invention thus chooses implicitly without any language model phonemes.
- As above has been explained represents the dynamics within a phoneme however, significantly fewer degrees of freedom, so that within of the subspace spanned by the singular vectors low-dimensional and can be worked quickly.
- the sound signal processing takes place essentially for the phonemes in succession, so that phoneme for Phonem completely processed and so a noise-free output signal is produced. This output signal is compared to that recorded sound signal (input signal) delayed by around 100-200 ms (Real time or quasi real time application).
- Steps 109 and 110 relate to the formation of the actual output signal.
- Step 109 is directed to the separation of power and noise signals.
- a noise-free time series element s k is formed by averaging over the corresponding elements from all time offset vectors which contain this element.
- a weighted averaging can be introduced instead of a simple averaging.
- a jump back can be provided before step 104.
- the noise-free time series elements then form the input variables for the renewed formation of time offset vectors and their projection onto the subspace in accordance with the singular vectors. This process repetition is not necessary, but can be provided, for example, 2 or 3 times to improve the noise reduction.
- a return to parameter determination 102 can also be provided if the power component present after step 109 differs less than expected (for example by less than a predetermined threshold value) from the unprocessed sound signals.
- decision mechanisms not shown, can be built in.
- data output follows. With noise reduction, the noise-reduced voice signal is output as a power component. Alternatively, the output or storage of the noise component can also be provided depending on the application.
- the dimension of Manifold (according to the parameter Q) in which the noise-free data would lie in the course of a signal vary.
- the dimension Q can vary from phoneme to phoneme.
- the dimension can, for example, also during a break between two spoken words or any other resting phase Be zero.
- Second is a selection of relevant ones inherent time offset vectors onto which the state is projected should be excluded if the noise is relatively high is (about 50%). In this case, all eigenvalues of the Correlation matrix to be approximately the same.
- Projection dimension Q becomes the dimension for each covariance matrix is adjusted or individually determined.
- This modification increases the efficiency of the process drastically increased especially at high noise levels.
- the signal processing according to the invention is described below illustrated two examples.
- this is processed Sound signals a human whistle (see Fig. 4).
- the second example concerns the above words “Buon giorno” (see Figs. 5 to 8).
- FIG. 4 shows the power spectrum for a human whistle lasting 3 s.
- a whistle is an essentially periodic signal with characteristic harmonics and only minor non-stationarities.
- 4a shows the amplitude profile of the original recording.
- FIG. 4b results.
- This provides the input data for step 101 of the process sequence (FIG. 3).
- the image shown in FIG. 4c results.
- Figures 4a to 4c show a particular advantage of the invention over a conventional filter in the frequency domain.
- a filter in the frequency domain would cut off all power components with amplitudes below 10 -6 , so that the noisy spectrum would only contain the peak at 0 and the peak around the fundamental frequency. Accordingly, the time series obtained from the back transformation would be completely harmonic, which would sound very synthetic.
- FIG. 5 shows corresponding results using the example of curve representations for processing voice signals.
- Fig. 5a is a section of the noiseless wave train of the words "Buon giorno" based on the signal curve according to FIG. 1 shown analogously to FIG. 2. It is the time-limited repetition of signal profiles recognizable, which are used to reduce the Noise contains the necessary redundancy.
- 5b shows the wave train after adding a synthetic noise. After Noise reduction according to the invention results in the image Fig. 5c. It turns out that the original signal for the most part could be reconstructed.
- the functionality of the noise reduction according to the invention was tested in different noise types and amplitudes.
- the attenuation D (in dB) according to equation (3) can be considered as a measure of the performance of the noise reduction.
- D 10 log (( ⁇ ( y k -x x ) 2nd ) / ( ⁇ (y k -x k ) 2nd ))
- X k stands for the noiseless signal (power component)
- y k for the noiseless signal (input sound signal)
- y ⁇ k for the signal after the noise reduction according to the invention.
- Fig. 6 illustrates the dependence of the damping D of the non-linear Noise reduction depending on the relative Noise amplitude (variance of the noise component: variance of the Performance share). It turns out that the damping itself at relatively high noise amplitudes (in the range of more than 100%) is reinforced.
- Figures 7 and 8 show further details of the speech noise reduction.
- Fig. 7 illustrates the occurrence of repetitive signal profiles within the phoneme train shown in the upper part of the figure.
- a graph is printed in the lower part of the figure, which consists of points formed under the following conditions.
- the associated time offset vector s ⁇ i and the set of all time offset vectors s ⁇ j, i are considered for each time i. If the amount of the difference vector between the s ⁇ i and each s ⁇ j is less than a predetermined limit, a dot is printed.
- the points form more or less extended lines.
- the line structures show that the periodicities of the signal profiles explained above occur within the phonemes.
- Fig. 8 again shows the example of the words "Buon giorno" in upper part of the figure the noiseless signal, in the middle Part of the synthetically added noise and in the lower part the noise remaining after the noise reduction.
- the ordinate scaling is identical in all three cases.
- the rest Noise (bottom part of the figure) shows a systematic Variation indicating that the success of the invention Noise reduction even from the sound signal, i.e. depends on the specific phoneme.
- the invention also relates to a device for implementation of the method according to the invention.
- 9 includes a noise reduction arrangement a transducer 91, a data memory 92 and / or a buffer memory 93, a sampling circuit 94, an arithmetic circuit 95 and an output unit 96.
- the components of the device according to the invention presented here are preferably used as a permanently connected circuit arrangement or manufactured as an integrated chip.
- the invention is also in noise reduction Hearing aids and to improve the computerized automatic Speech recognition applicable.
- speech recognition can be provided, in particular, the noise Compare time series values or sectors with table values.
- the table values represent corresponding values or Vectors of predetermined phonemes.
- An automatic speech recognition can be integrated with the noise reduction process become.
Abstract
Zur Signalverarbeitung eines Schallsignals y, in dem eine Redundanz enthalten ist, die hauptsächlich aus annähernden Wiederholungen von Signalprofilen besteht, werden die Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen innerhalb von Abschnitten des Schallsignals erfaßt. Korrelierte Signalanteile werden einem Leistungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zugeordnet. Die Korrelationen zwischen den Signalprofilen werden mit Verfahren der nichtlinearen Rauschreduzierung in deterministischen Systemen in rekonstruierten Vektorräumen ermittelt, die auf der Zeitdomäne basieren. <IMAGE>For signal processing of a sound signal y, in which a redundancy is contained, which mainly consists of approximate repetitions of signal profiles, the signal profiles are recorded and correlations between the signal profiles within sections of the sound signal are recorded. Correlated signal components are assigned to a power component and uncorrelated signal components to a noise component of the sound signal. The correlations between the signal profiles are determined using methods of non-linear noise reduction in deterministic systems in reconstructed vector spaces, which are based on the time domain. <IMAGE>
Description
Die Erfindung betrifft Verfahren zur Verarbeitung rauschbehafteter Schallsignale, insbesondere zur nichtlinearen Rauschreduzierung in Sprachsignalen, zur nichtlinearen Trennung von Leistungs- und Rauschsignalen und zur Anwendung nichtlinearer Zeitreihenanalysen, die auf dem Konzept des niedrigdimensionalen deterministischen Chaos beruhen. Die Erfindung betrifft auch eine Vorrichtung zur Implementierung der Verfahren und deren Verwendung.The invention relates to methods for processing noisy Sound signals, in particular for non-linear noise reduction in speech signals, for the non-linear separation of power and noise signals and for the use of non-linear Time series analyzes based on the concept of low-dimensional deterministic chaos. The invention relates also a device for implementing the methods and their Use.
Die Rauschreduzierung bei der Aufnahme, Speicherung, Übertragung oder Wiedergabe menschlicher Sprache besitzt eine hohe technische Relevanz. Rauschen kann als reine Meßungenauigkeit z.B. in Form des Digitalfehlers bei Ausgabe von Schallamplituden, als Rauschen im Übertragungskanal oder als dynamisches Rauschen durch die Kopplung des betrachteten Systems mit der Außenwelt auftreten. Beispiele für Rauschreduzierungen der menschlichen Sprache sind allgemein aus der Telekommunikation, der automatischen Spracherkennung oder dem Einsatz elektronischer Hörhilfen bekannt. Das Problem der Rauschreduzierung tritt nicht nur bei menschlicher Sprache, sondern auch bei anderen Arten von Schallsignalen, und nicht nur bei stochastischem Rauschen, sondern auch bei allen Formen der Überlagerung eines relevanten Schallsignals durch Fremdgeräusche auf. Es besteht ein Interesse an einem Signalverarbeitungsverfahren, mit dem stark aperiodische und nicht-stationäre Schallsignale in Bezug auf Leistungs- und Rauschanteile analysiert, manipuliert oder getrennt werden können. Noise reduction during recording, storage, transmission or rendering human language has a high technical relevance. Noise can be a pure measurement inaccuracy e.g. in the form of the digital error when outputting sound amplitudes, as noise in the transmission channel or as dynamic Noise due to the coupling of the system under consideration with the Outside world occur. Examples of noise reduction of the human language are generally from telecommunications, automatic speech recognition or the use of electronic Known hearing aids. The problem of noise reduction occurs not only in human language, but also in others Types of sound signals, and not just stochastic Noise, but also with all forms of overlay of a relevant sound signal due to extraneous noise. It exists an interest in a signal processing technique, with the strongly aperiodic and non-stationary sound signals in Analyzed, manipulated in relation to power and noise components or can be separated.
Ein typischer Ansatz zur Rauschreduzierung, d.h. zur Zerlegung eines Signals in bestimmte Leistungs- und Rauschanteile, beruhen auf einer Signalfilterung im Frequenzbereich. Im einfachsten Fall erfolgt die Filterung mit Bandpaßfiltern, woraus jedoch das folgende Problem entsteht. In der Regel ist stochastisches Rauschen breitbandig (häufig sogenanntes weißes Rauschen"). Wenn das Leistungssignal jedoch selbst stark aperiodisch und somit breitbandig ist, wird mit dem Frequenzfilter auch ein Leistungssignalanteil zerstört, woraus sich unzulängliche Ergebnisse ergeben. Soll z.B. bei einer Sprachübertragung die menschliche Sprache durch einen Tiefpaßfilter von hochfrequentem Rauschen befreit werden, so wird das Sprachsignal verzerrt.A typical approach to noise reduction, ie to break down a signal into certain power and noise components, is based on signal filtering in the frequency domain. In the simplest case, filtering is done with bandpass filters, but this creates the following problem. As a rule, stochastic noise is broadband (often so-called white noise "). If, however, the power signal itself is strongly aperiodic and thus broadband, the frequency filter also destroys a portion of the power signal, which results in inadequate results. For example, if a low-pass filter is to be used to remove high-frequency noise from human speech during speech transmission the speech signal is distorted.
Ein weiterer allgemein bekannter Ansatz zur Rauschreduzierung besteht in der Rauschkompensation bei Schallaufnahmen. Dabei wird beispielsweise mit einem ersten Mikrofon die von einem Lärmpegel in einem Raum überlagerte menschliche Sprache und mit einem zweiten Mikrofon ein Schallsignal aufgenommen, das im wesentlichen den Lärmpegel repräsentiert. Vom Meßsignal des zweiten Mikrofons wird ein Kompensationssignal abgeleitet, das bei Überlagerung mit dem Meßsignal des ersten Mikrofons das Rauschen aus dem umgebenden Raum kompensiert. Diese Technik ist aufgrund des relativ hohen Geräteaufwandes (Einsatz spezieller Mikrofone mit Richtcharakteristik) und wegen des eingeschränkten Einsatzbereiches z.B. bei der Sprachaufnahme nachteilig.Another well-known approach to noise reduction consists of noise compensation for sound recordings. Here for example with a first microphone from a Noise levels in a room overlaid with human speech and with a second microphone recorded a sound signal that essentially represents the noise level. From the measurement signal of the second A compensation signal is derived from microphones The noise is superimposed with the measurement signal of the first microphone compensated from the surrounding space. This technique is due to the relatively high cost of equipment (use of special Microphones with directional characteristics) and because of the limited Application e.g. disadvantageous in voice recording.
Es sind ferner Verfahren zur nichtlinearen Zeitreihenanalyse
auf der Grundlage des Konzepts des niedrigdimensionalen deterministischen
Chaos bekannt. Da in fast allen Bereichen unserer
täglichen Umwelt, aber auch in vielen Bereichen der Wissenschaft
und Technik komplexes dynamisches Verhalten eine wichtige
Rolle spielt, z.B. wenn Vorgänge in der Medizin, Ökonomie,
Signaltechnik oder Meteorologie aperiodische, schwer vorhersagbare
und oft auch schwer klassifizierbare Signale liefern,
stellt die Zeitreihenanalyse einen grundsätzlichen Ansatz dar,
aus beobachteten Daten möglichst viel über die Eigenschaften
oder den Zustand eines Systems zu lernen. Bekannte Analyseverfahren
zum Verständnis aperiodischer Signale werden z.B. von H.
Kantz et al. in
Für Zeitreihen deterministischer chaotischer Systems wurden
Verfahren zur Rauschunterdrückung entwickelt, die keine Trennung
im Frequenzbereich vornehmen, sondern explizit auf die deterministische
Struktur des Signals zurückgreifen. Diese Verfahren
werden beispielsweise von P. Grassberger et al. in
Fig. 10 zeigt schematisch die Abhängigkeit aufeinanderfolgender Zeitreihenwerte für rauschfreie bzw. verrauschte Systeme (am Beispiel eines eindimensionalen Zusammenhangs). Die rauschfreien Daten eines deterministischen Systems liefern das in Fig. 10a gezeigte Bild. Es besteht eine exakte (hier: eindimensionale) deterministische Beziehung zwischen einem Wert und dem Folgewert. Die Zeitversatzvektoren, zu denen Einzelheiten weiter unten erläutert werden, liegen in einer niedrigdimensionalen Mannigfaltigkeit im Einbettungsraum. Bei Einführung von Rauschen wird die deterministische Beziehung durch eine approximative Beziehung ersetzt. Die Daten liegen nicht mehr auf der Untermannigfaltigkeit, sondern in ihrer Nähe (Fig. 10b). Die Unterscheidung von Leistung und Rauschen erfolgt über die Dimensionalität. Alles, was aus der Untermannigfaltigkeit herausführt, ist auf den Einfluß des Rauschens zurückzuführen.Fig. 10 shows schematically the dependence of successive Time series values for noise-free or noisy systems (on Example of a one-dimensional relationship). The noiseless Data from a deterministic system provide this in Fig. 10a shown image. There is an exact (here: one-dimensional) deterministic relationship between a value and the Subsequent value. The time offset vectors, to which details continue explained below are in a low dimensional Diversity in the embedding room. When introducing Noise becomes the deterministic relationship through an approximate Relationship replaced. The data is no longer on the Under manifold, but in their vicinity (Fig. 10b). The Power and noise are differentiated by dimensionality. Everything that leads out of the sub-manifold, is due to the influence of noise.
Dementsprechend erfolgt die Rauschunterdrückung für deterministisch chaotische Signale in drei Schritten. Zuerst wird die Dimension m des Einbettungsraumes und die Dimension der Mannigfaltigkeit, in der die unverrauschten Daten lägen, abgeschätzt. Zur eigentlichen Korrektur wird dann für jeden einzelnen Punkt die Mannigfaltigkeit in seiner Nähe identifiziert und schließlich zur Rauschreduzierung der betrachtete Punkt auf die Mannigfaltigkeit projiziert (Fig. 10c).Accordingly, the noise suppression is deterministic chaotic signals in three steps. First is the Dimension m of the embedding space and the dimension of the manifold, in which the noiseless data were located, estimated. The actual correction is then for each individual point the diversity in its vicinity identified and finally to reduce noise the point under consideration on the manifold projected (Fig. 10c).
Der Nachteil der illustrierten Rauschunterdrückung besteht in deren Beschränkung auf deterministische Systeme. In einem nicht-deterministischen System, in dem also kein eindeutiger Zusammenhang zwischen einem Zustand und einem Folgezustand besteht, ist das Konzept der Identifizierung einer Bewegungsgleichung und der Betrachtung einer glatten Mannigfaltigkeit, wie es in Fig. 10 illustriert ist, nicht anwendbar. So bilden beispielsweise die Signalamplituden von Sprachsignalen Zeitreihen, die unvorhersagbar sind und den Zeitreihen nicht-deterministischer Systeme entsprechen.The disadvantage of the illustrated noise reduction is their limitation to deterministic systems. In one non-deterministic system, so in the no clear There is a connection between a state and a subsequent state, is the concept of identifying an equation of motion and contemplating a smooth manifold like it is illustrated in Figure 10, not applicable. For example, form the signal amplitudes of speech signals time series, which are unpredictable and the time series are more non-deterministic Systems match.
Die Anwendbarkeit der herkömmlichen nichtlinearen Rauschreduzierung
ist für Sprachsignale insbesondere aus den folgenden
Gründen bisher ausgeschlossen. Die menschliche Sprache (aber
auch andere Schallsignale natürlichen oder synthetischen Ursprungs)
ist in der Regel hochgradig nichtstationär. Die Sprache
ist aus einer Verkettung von Phonemen zusammengesetzt. Die
Phoneme wechseln sich ständig ab, so daß sich die Sprachdynamik
laufend ändert. Beispielsweise enthalten Zisch-Laute vorrangig
hohe Frequenzen und Vokale (z.B.
Es ist die Aufgabe der Erfindung, ein verbessertes Signalverarbeitungsverfahren für Schallsignale, insbesondere für verrauschte Sprachsignale, anzugeben, mit dem eine effektive und schnelle Trennung von Leistungs- und Rauschanteilen des betrachteten Schallsignals möglichst verzerrungsfrei möglich ist. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Implementierung eines derartigen Verfahrens anzugeben.It is the object of the invention to provide an improved signal processing method for sound signals, especially for noisy ones Speech signals to indicate with which an effective and rapid separation of power and noise components of the considered Sound signal is possible without distortion. The object of the invention is also to implement devices to specify such a method.
Diese Aufgaben werden durch ein Verfahren bzw. durch eine Vorrichtung
mit den Merkmalen gemäß den Patentansprüchen 1 bzw. 10
gelöst. Vorteilhafte Ausführungsformen und Verwendungen der Erfindung
ergeben sich aus den abhängigen Ansprüchen.These tasks are accomplished by a method or by an apparatus
with the features according to
Ein erster wichtiger Gesichtspunkt der Erfindung besteht insbesondere darin, nichtstationäre Schallsignale, bestehend aus Leistungs- und Rauschanteilen, mit einer derart hohen Abtastrate zu erfassen, daß vorbestimmte Signalprofile innerhalb des betrachteten Schallsignals genügend Redundanz für eine Rauschreduzierung enthalten. Phoneme bestehen aus einer Folge von periodischen oder annähernd periodischen Wiederholungen. Auf die Begriffe der periodischen bzw. annähernd periodischen Wiederholungen wird gesondert weiter unten eingegangen. Im folgenden wird einheitlich der Begriff der annähernd periodischen Signalprofile verwendet. Die damit erfaßten Zeitreihen von Schallsignalen liefern Wellenformen, die sich zumindest über bestimmte Signalabschnitte des Schallsignals wiederholen und eine zeitlich begrenzte Anwendung des oben genannten, an sich bekannten Konzepts der nichtlinearen Rauschreduzierung erlauben.A first important aspect of the invention is in particular therein, non-stationary sound signals consisting of Power and noise components, with such a high sampling rate to detect that predetermined signal profiles within of the considered sound signal enough redundancy for one Noise reduction included. Phonemes consist of a sequence of periodic or approximately periodic repetitions. On the concepts of periodic or approximately periodic Repetitions are discussed separately below. Hereinafter the concept of the approximately periodic becomes uniform Signal profiles used. The time series of Sound signals provide waveforms that are at least over repeat certain signal sections of the sound signal and a temporary application of the above, per se allow known concept of non-linear noise reduction.
Gemäß einem weiteren wichtigen Gesichtspunkt der Erfindung werden innerhalb eines betrachteten Schallsignals annähernd periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt, um korrelierte Signalanteile einem Leistungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zuzuordnen.According to another important aspect of the invention almost periodic within a sound signal under consideration Detected signal profiles and correlations between the signal profiles determined to correlated signal components a power component and uncorrelated signal components a noise component assign the sound signal.
Ein weiterer wichtiger Gesichtspunkt der Erfindung besteht in der Idee, zeitliche Korrelationen durch geometrische Korrelationen im Zeitverzögerungs-Einbettungsraum zu ersetzen, die durch Umgebungen in diesem Raum ausgedrückt werden. Punkte in diesen Umgebungen ergeben die Information, die zur nichtlinearen Rauschreduzierung des Punkts notwendig sind, für den die Umgebung konstruiert ist.Another important aspect of the invention is in the idea of temporal correlations through geometric correlations in the time delay embedding room to replace the be expressed by environments in this room. Points in these environments provide the information needed for nonlinear Noise reduction of the point are necessary for the the environment is constructed.
Gegenstand der Erfindung ist auch die Bereitstellung einer Vorrichtung zur Signalverarbeitung für Schallsignale, die insbesondere eine Abtastschaltung zur Signalwerterfassung, eine Rechenschaltung zur Signalwertverarbeitung und eine Ausgabeeinheit zur Ausgabe entrauschter Zeitreihen umfaßt.The invention also provides a device for signal processing for sound signals, in particular a sampling circuit for signal value detection, an arithmetic circuit for signal value processing and an output unit to output noise-free time series.
Schließlich ist hervorzuheben, daß erstmalig die Anwendung nichtlinearer Rauschreduzierungsverfahren für deterministische Systeme zur Verarbeitung nichtstationärer und nicht-deterministischer Schallsignale beschrieben wird. Dies ist überraschend, da die Voraussetzung der an sich bekannten Rauschreduzierungsverfahren insbesondere die Stationarität und den Determinismus der zu bearbeitenden Signale umfassen. Gerade diese Voraussetzungen sind bei nichtstationären Schallsignalen bei Betrachtung des globalen Signalverlaufs verletzt. Dennoch liefert die auf bestimmte Signalprofile beschränkte Anwendung der nichtlineare Rauschreduzierung hervorragende Ergebnisse.Finally, it should be emphasized that for the first time the application nonlinear noise reduction method for deterministic Systems for processing non-stationary and non-deterministic Sound signals is described. This is surprising since the prerequisite for the known noise reduction method especially stationarity and determinism of the signals to be processed. Precisely these requirements are considered for non-stationary sound signals of the global signal curve violated. Nevertheless, it delivers certain signal profiles limited application of the nonlinear Noise reduction excellent results.
Die Erfindung besitzt die folgenden Vorteile. Es wird erstmalig ein Rauschreduzierungsverfahren für Schallsignale geschaffen, das im wesentlichen verzerrungsfrei arbeitet und mit einem geringen gerätetechnischen Aufwand implementierbar ist. Die Erfindung läßt sich in Echtzeit oder nahezu in Echtzeit implementieren. Bestimmte Teile der erfindungsgemäßen Signalverarbeitung sind mit herkömmlichen Rauschreduzierungsverfahren kompatibel, so daß an sich bekannte zusätzliche Korrekturverfahren oder schnelle Datenverarbeitungsalgorithmen problemlos auf die Erfindung übertragbar sind. Die Erfindung erlaubt die effektive Trennung von Leistungs- und Rauschanteilen unabhängig vom Frequenzspektrum des Rauschens. So ist insbesondere auch sogenanntes farbiges Rauschen oder isospektrales Rauschen trennbar. Die Erfindung ist nicht nur bei stationärem Rauschen, sondern auch beim nichtstationärem Rauschen anwendbar, wenn die Zeitskala, auf der der Rauschprozeß seine Eigenschaften verändert, länger als typischerweise 100 ms ist (dies ist ein Beispielwert, der sich insbesondere auf die Bearbeitung von Sprachsignalen bezieht und bei anderen Anwendungen auch kürzer ausfallen kann).The invention has the following advantages. It will be the first time created a noise reduction method for sound signals, which works essentially without distortion and with a low one equipment expenditure can be implemented. The invention can be implemented in real time or almost in real time. Certain parts of the signal processing according to the invention are compatible with conventional noise reduction methods, so that additional correction methods known per se or fast data processing algorithms easily on the Invention are transferable. The invention allows the effective Separation of power and noise components regardless of the frequency spectrum of noise. So is so-called in particular colored noise or isospectral noise separable. The Invention is not only with stationary noise, but also applicable to non-stationary noise if the time scale, on which the intoxication process changes its properties, longer than typically 100 ms (this is an example value that relates in particular to the processing of speech signals and can also be shorter in other applications).
Die Erfindung ist nicht auf die menschliche Sprache beschränkt, sondern auch bei anderen Schallquellen natürlichen oder synthetischen Ursprungs anwendbar. Bei der Bearbeitung von Sprachsignalen ist es möglich, ein menschliches Sprachsignale von Hintergrundgeräuschen zu trennen. Es ist allerdings nicht möglich, einzelne Sprachsignale voneinander zu trennen. Dies würde voraussetzen, daß z.B. eine Stimme als Leistungsanteil und eine andere Stimme als Rauschanteil betrachtet wird. Die den Rauschanteil repräsentierende Stimme würde jedoch ein nicht behandelbares nichtstationäres Rauschen gleicher Zeitskala darstellen.The invention is not limited to human language, but also with other sound sources natural or synthetic Applicable origin. When processing speech signals it is possible for human speech signals from background noise to separate. However, it is not possible separate individual speech signals. This would assume that e.g. one vote as a share of performance and one other voice is considered a noise component. The the However, a voice representing noise would become an untreatable Show non-stationary noise on the same time scale.
Weitere Einzelheiten und Vorteile der Erfindung werden im folgenden unter Bezug auf die beigefügten Abbildungen beschrieben. Es zeigen:
- Fig. 1
- Kurvendarstellungen zur Illustration eines Sprachsignals;
- Fig. 2
- eine Kurvendarstellung eines Zeitausschnitts des in Fig. 1 illustrierten Schallsignals;
- Fig. 3
- ein Flußdiagramm zur Illustration des erfindungsgemäßen Verfahrens;
- Fig. 4
- Kurvendarstellungen zur Illustration einer erfindungsgemäßen Rauschreduzierung an einem Pfeifsignal;
- Fig. 5
- Kurvendarstellungen zur Illustration des erfindungsgemäßen Verfahrens an Sprachschallsignalen;
- Fig. 6
- eine Darstellung der Rauschreduzierung in Abhängigkeit vom Rauschpegel;
- Fig. 7
- eine Kurvendarstellung zur Illustration von Korrelationen zwischen Signalprofilen in einem Sprachsignal;
- Fig. 8
- eine Kurvendarstellung zur Illustration eines rauschbereinigten Sprachsignals;
- Fig. 9
- eine schematische Blockdarstellung einer erfindungsgemäßen Vorrichtung; und
- Fig. 10
- Kurvendarstellungen zur Illustration der nichtlinearen Rauschreduzierung in deterministischen Systemen (Stand der Technik).
- Fig. 1
- Curve representations to illustrate a speech signal;
- Fig. 2
- a graph of a time segment of the sound signal illustrated in Fig. 1;
- Fig. 3
- a flowchart to illustrate the inventive method;
- Fig. 4
- Curve representations to illustrate a noise reduction according to the invention on a whistle signal;
- Fig. 5
- Curve representations to illustrate the method according to the invention on speech sound signals;
- Fig. 6
- a representation of the noise reduction depending on the noise level;
- Fig. 7
- a graph to illustrate correlations between signal profiles in a speech signal;
- Fig. 8
- a graph to illustrate a noise-cleared speech signal;
- Fig. 9
- a schematic block diagram of a device according to the invention; and
- Fig. 10
- Curve representations to illustrate the non-linear noise reduction in deterministic systems (state of the art).
Die Erfindung wird im folgenden am Beispiel der Rauschreduzierung an Sprachsignalen durch Ausnutzung der intra-phonem-Redundanz erläutert. Der Leistungsanteil des Schallsignals wird durch einen Sprachanteil x gebildet, der durch einen Rauschanteil r überlagert ist. Das Schallsignal ist in Signalabschnitte unterteilt, die beim Sprachbeispiel durch gesprochene Silben oder Phoneme gebildet werden. Die Erfindung ist jedoch nicht auf die Sprachverarbeitung beschränkt. Bei anderen Schallsignalen wird die Zuordnung der Signalabschnitte anwendungsabhängig anders gewählt. Der erfindungsgemäßen Signalverarbeitung ist jedes Schallsignal zugänglich, das an sich zwar nicht-stationär ist, aber innerhalb vorbestimmter Signalabschnitte annähernd periodisch sich wiederholende Signalprofile aufweist.The invention is described below using the example of noise reduction on speech signals by utilizing intra-phonem redundancy explained. The power component of the sound signal is formed by a speech component x, which by a noise component r is superimposed. The sound signal is in signal sections divided, in the language example by spoken syllables or phonemes are formed. However, the invention is not limited to speech processing. With other sound signals the assignment of the signal sections becomes application-dependent chosen differently. The signal processing according to the invention is every sound signal is accessible, which in itself is non-stationary is, but approximately within predetermined signal sections periodically repeating signal profiles.
Im folgenden werden zunächst Einzelheiten der nichtlinearen Rauschreduzierung erläutert, wie sie an sich aus den oben zitierten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. bekannt sind. Diese Erläuterungen dienen dem Verständnis der herkömmlichen Technik. In Bezug auf Einzelheiten der nichtlinearen Rauschreduzierung werden hier die genannten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. vollständig in die vorliegende Beschreibung einbezogen. Die Erläuterung bezieht sich auf deterministische Systeme. Die erfindungsgemäße Übertragung der herkömmlichen Technik auf nichtdeterministische Systeme wird unten beschrieben.The following are first details of the nonlinear Noise Reduction explains how they are per se from those cited above Publications by E. J. Kostelich et al. and P. Grassberger et al. are known. These explanations are for your understanding conventional technology. In terms of details non-linear noise reduction are the ones mentioned here Publications by E. J. Kostelich et al. and P. Grassberger et al. fully incorporated into the present description. The Explanation relates to deterministic systems. The invention Transfer of conventional technology to non-deterministic Systems is described below.
Die Zustände x eines dynamischen Systems werden durch eine Bewegungsgleichung
gemäß
Die Größe s n 2 stellt einen Vorhersagefehler in Bezug auf die
Faktoren An und bn dar. Der implizite Ausdruck
Wenn der Zustand xk durch ein statistisches Rauschen rk zu einem
realen Zustand
Bei Zeitreihen, wie bei Sprachsignalen, wird nur eine Folge von Skalarwerten aufgezeichnet. Aus diesen werden die zu rekonstruierenden Phasenraumvektoren mit dem Konzept der Zeitversatzvektoren ermittelt, wie es im einzelnen von F. Takens unter dem Titel "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math", Bd. 898, Springer, New York, 1981, oder von T. Sauer et al. in "J. Stat. Phys.", Bd. 65, 1991, S. 579, und illustrativ im folgenden beschrieben wird. Auch diese Publikationen werden hiermit vollständig in die vorliegende Beschreibung einbezogen. With time series, like with speech signals, only a sequence of Scalar values recorded. These become those to be reconstructed Phase space vectors with the concept of time offset vectors ascertained in detail by F. Takens under the Title "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math ", Vol. 898, Springer, New York, 1981, or from T. Sauer et al. in "J. Stat. Phys.", Vol. 65, 1991, p. 579, and is illustratively described below. These publications too are hereby fully incorporated into the present description involved.
Ausgehend von einer skalaren Zeitreihe sk werden Zeitversatzvektoren
in einem m-dimensionalen Raum gemäß
Die oben genannte Projektion der Zustände auf die Hyperebene
erfolgt unter Verwendung der Zeitversatzvektoren entsprechend
einer Berechnung, die im einzelnen von H. Kantz et al. in
"Phys. Rev. E", Bd. 48, 1993, S. 1529, beschrieben ist. Auch
diese Publikation wird vollständig in die vorliegende Beschreibung
einbezogen. Für jeden Zeitversatzvektor s ∧n werden alle
Nachbarn im Zeitverzögerungsraum betrachtet, d.h. die Umgebung
Un wird gebildet. Anschließend wird die Kovarianzmatrix gemäß
Gleichung (2) berechnet, wobei das Zeichen ^ bedeutet, daß der
Mittelwert auf der Umgebung Un subtrahiert worden ist.
Zur Kovarianzmatrix Cij werden die Singulär- oder Eigenwerte ermittelt. Die Vektoren, die den größten Singulärwerten entsprechen, stellen die Richtungen dar, die die Hyperebene, die durch die oben genannten An und bn definiert ist, aufspannen.The singular or eigenvalues are determined for the covariance matrix C ij . The vectors corresponding to the largest singular values represent the directions spanning the hyperplane defined by the A n and b n above.
Um nun das Rauschen aus den Werten s ∧n zu reduzieren, werden die zugehörigen Zeitversatzvektoren auf die dominanten Richtungen, die die Hyperebene aufspannen, projiziert. Für jedes Element der skalaren Zeitreihe ergibt dies m verschiedene Korrekturen, die in geeigneter Weise kombiniert werden. Mit den rauschreduzierten Werten kann der beschriebene Vorgang zur erneuten Projektion wiederholt werden.In order to reduce the noise from the values s ∧ n , the associated time offset vectors are projected onto the dominant directions that span the hyperplane. For each element of the scalar time series, this results in m different corrections, which are combined in a suitable manner. The described process can be repeated for the new projection with the noise-reduced values.
Die Identifizierung der Nachbarn, die Berechnung der Kovarianzmatrix und Ermittlung von dominanten Vektoren, die einer vorbestimmten Anzahl Q von größten Singulärwerten entsprechen, repräsentiert die Suche nach Korrelationen zwischen aufeinanderfolgenden Systemzuständen. Diese Suche wird bei den deterministischen Systemen auf die bekannte oder angenommene Bewegungsgleichung des Systems bezogen. Wie die erfindungsgemäße Suche nach Korrelationen zwischen Systemzuständen bei nicht-deterministischen Systemen erfolgt, wird unten beschrieben.Identification of the neighbors, calculation of the covariance matrix and determining dominant vectors that match a predetermined one Number Q of largest singular values the search for correlations between successive System states. This search is for the deterministic Systems based on the known or assumed equation of motion of the system. Like the search according to the invention for correlations between system states in non-deterministic Systems is described below.
Um die Korrelation zwischen den Zuständen zu ermitteln, wird beim deterministischen System die angenommene zeitliche Unverändlichkeit der Bewegungsgleichung als Zusatzinformation herangezogen. Im Unterschied dazu erfolgt die Ermittlung der Korrelation zwischen benachbarten Zuständen bei der erfindungsgemäßen Signalverarbeitung im nicht-deterministischen System auf der Grundlage der folgenden Zusatzinformation.To determine the correlation between the states, in the deterministic system, the assumed temporal invalidity the equation of motion is used as additional information. In contrast to this, the correlation is determined between neighboring states in the invention Signal processing in the non-deterministic system based on the following additional information.
Die Erfindung basiert auf der Ausnutzung von Redundanz im Signal. Wegen der Nicht-Stationarität ist zwischen einer wirklichen Redundanz und zufälligen Ähnlichkeiten von Signalteilen, die jedoch unkorreliert sind, zu unterscheiden. Dies wird durch die Verwendung einer höheren Einbettungsdimension und eines größeren Einbettungsfensters erzielt, als es notwendig wäre, um die jeweils aktuellen Dynamiken aufzulösen. Ein Sprachsignal ist eine Verkettung von Phonemen. Jedes einzelne Phonem ist durch eine charakteristische Wellenform gekennzeichnet, die sich mehrfach nahezu unverändert wiederholt. Ein Zeitversatz-Einbettungsvektor, der eine derartige Welle vollständig abdeckt, kann somit eindeutig einem gegebenen Phonem zugeordnet werden, ohne daß eine Mißinterpretation zu einem anderen Phonem mit einer anderen charakteristischen Wellenform auftritt. Innerhalb eines Phonems ändern sich diese Wellenformen in einer bestimmten Weise, so daß keine absolut exakten Wiederholungen auftreten. Wegen der letztgenannten Eigenschaft wird von nahezu periodischen Wiederholungen gesprochen.The invention is based on the use of redundancy in the Signal. Because of the non-stationarity is between a real one Redundancy and random similarities of signal parts, which, however, are uncorrelated. This is through the use of a higher embedding dimension and one larger embedding window than would be necessary to to dissolve the current dynamics. A voice signal is a concatenation of phonemes. Every single phoneme is characterized by a characteristic waveform that repeated several times almost unchanged. A time offset embedding vector that completely covers such a wave, can thus be clearly assigned to a given phoneme without misinterpretation of another phoneme occurs with a different characteristic waveform. Within a phoneme, these waveforms change in one certain way so that no absolutely exact repetitions occur. Because of the latter property is almost periodic repetitions spoken.
Die menschliche Sprache ist eine Aneinanderreihung von Phonemen oder Silben, die in Bezug auf die auftretenden Amplituden und Frequenzen charakteristische Muster besitzen. Diese Muster können beispielsweise durch Beobachtung elektrischer Signale eines Schallwandlers (z.B. Mikrofon) erfaßt werden. Auf mittleren Zeitskalen (z.B. im Rahmen eines Wortes) ist die Sprache nicht stationär und auf langen Zeitskalen (z.B. im Rahmen eines Satzes) hochkomplex, wobei viele aktive Freiheitsgrade und ggf. langreichweitige Korrelationen auftreten. Auf kurzen Zeitskalen (Zeitbereiche, die im wesentlichen der Länge eines Phonems oder einer Silbe entsprechen), treten im Signalverlauf repetetive Muster oder sich wiederholende Signalprofile auf, die im folgenden erläutert werden. Einzelheiten der konkreten Berechnungen werden analog zur herkömmlichen Rauschreduzierung implementiert und können den o.a. Publikationen entnommen werden.Human language is a series of phonemes or syllables related to the amplitudes and Frequencies have characteristic patterns. These patterns can for example by observing electrical signals Sound transducer (e.g. microphone). On medium Language is not a time scale (e.g. in the context of a word) stationary and on long time scales (e.g. in the context of a sentence) highly complex, with many active degrees of freedom and possibly long-range correlations occur. On short time scales (Time ranges that are essentially the length of a phoneme or correspond to a syllable), occur repetitively in the signal curve Patterns or repeating signal profiles based on the following are explained. Details of the concrete calculations are implemented in the same way as conventional noise reduction and can do the above Publications are taken.
Fig. 1 zeigt als Beispiel den italienischen Gruß "Buon giorno" als Wellenzug. Dabei handelt es sich um die mit einer Abtastfrequenz von 10 kHz aufgezeichnete Signalamplitude mit den (willkürlich normierten) Zeitreihenwerten yn in Abhängigkeit von der dimensionslosen Zeitzählskala. Diese Signalamplitude wurde von einer extrem rauscharmen, digitalen Sprachaufzeichnung abgeleitet. Der Gesamtzeitverlauf von n=0 bis n=20000 entspricht einem Zeitbereich von rd. 2 Sekunden.Fig. 1 shows an example of the Italian greeting "Buon giorno" as a wave train. This is the signal amplitude recorded with a sampling frequency of 10 kHz with the (arbitrarily standardized) time series values y n as a function of the dimensionless time counter scale. This signal amplitude was derived from an extremely low-noise, digital voice recording. The total time course from n = 0 to n = 20,000 corresponds to a time range of approx. 2 seconds.
Bei Darstellung eines Zeitausschnitts des in Fig. 1 gezeigten Amplitudenverlaufs mit extrem gestreckter Zeitskala ergibt sich das Bild in Fig. 2. Es zeigt sich, daß der Amplitudenverlauf innerhalb bestimmter Signalabschnitte (z.B. Phoneme) die illustrierten periodischen Wiederholungen aufweist. Ein Signalprofil wiederholt sich bei dem dargestellten Beispiel in Zeitintervallen einer Breite von rund 7 ms. Ein besonderer Vorteil der Erfindung besteht darin, daß die Wirksamkeit der erfindungsgemäßen Rauschreduzierung nicht von der absoluten Exaktheit der dargestellten Periodizität abhängt. Es ist möglich, daß keine exakten Wiederholungen auftreten, sondern eine systematische Modifikation der typischen Wellenform eines Signalprofils innerhalb eines Phonems erfolgt. Diese Variation wird jedoch bei dem unten im einzelnen erläuterten Verfahren berücksichtigt, da sie die Freiheit in den nach der Projektion Q verbleibenden Richtungen repräsentiert. Zur Berücksichtigung der Variation (Abweichung von exakten Wiederholungen) wird hier der Begriff der annähernd periodischen Signalprofile verwendet, die sich von exakt periodischen Signalprofilen lediglich durch eine systematische Variabilität unterscheiden. Representing a time segment of that shown in FIG. 1 Amplitude curve with extremely stretched time scale results the picture in Fig. 2. It shows that the amplitude curve within certain signal sections (e.g. phonemes) has periodic repetitions. A signal profile repeats in the illustrated example at time intervals a width of around 7 ms. A special advantage the invention is that the effectiveness of the invention Noise reduction not of absolute accuracy depends on the periodicity shown. It is possible, that there are no exact repetitions, but a systematic one Modification of the typical waveform of a signal profile takes place within a phoneme. However, this variation will taken into account in the procedure explained in detail below, since they have freedom in those remaining after projection Q. Directions. To take into account the Variation (deviation from exact repetitions) becomes the Concept of approximately periodic signal profiles used differ from exactly periodic signal profiles by only one distinguish systematic variability.
Bei einer Zeitversatzeinbettung (mit geeignet gewählten Parametern m und τ, s.o.) bilden die gezeigten Wiederholungen benachbarte Punkte im Zustandsraum (bzw. Vektoren, die auf diese Punkte gerichtet sind). Ist nun die Variabilität in diesen Punkten durch eine Überlagerung durch Rauschen größer als die natürliche Variabilität aufgrund der Nichtstationarität, so wird eine approximative Identifikation der Mannigfaltigkeit und die Projektion darauf das Rauschen stärker reduzieren als es das eigentliche Signal beeinflußt. Dies ist der Grundansatz des erfindungsgemäßen Verfahrens, das im folgenden unter Bezug auf das Flußdiagramm gemäß Fig. 3 erläutert wird.With time offset embedding (with suitably chosen parameters m and τ, see above) form the repetitions shown neighboring Points in the state space (or vectors that refer to this Points are directed). Now is the variability in these Points due to noise overlay greater than that natural variability due to non-stationarity, see above becomes an approximate identification of the manifold and the projection on it will reduce the noise more than it does affects the actual signal. This is the basic approach of the inventive method, the following with reference to the flowchart of FIG. 3 is explained.
Fig. 3 ist eine Übersichtsdarstellung, die schematisch grundsätzliche Schritte des erfindungsgemäßen Verfahrens zeigt. Die Erfindung ist jedoch nicht auf diesen Ablauf beschränkt. Anwendungsabhängig kann eine Modifizierung in Bezug auf die Datenaufnahme, die Paramterermittlung, die eigentliche Berechnung zur Rauschreduzierung, die Trennung von Leistungs- und Rauschanteilen und die Ausgabe des Ergebnisses vorgesehen sein.Fig. 3 is an overview diagram that schematically basic Shows steps of the method according to the invention. The However, the invention is not limited to this process. Depending on the application can be a modification in terms of data collection, the parameter determination, the actual calculation for noise reduction, the separation of power and Noise components and the output of the result can be provided.
Gemäß Fig. 3 erfolgt nach dem Start 100 die Datenaufnahme 101
und die Parameterermittlung 102. Die Datenaufnahme 101 umfaßt
die Aufnahme eines Schallsignals durch Umwandlung des Schalls
in eine elektrische Größe. Die Datenaufnahme kann zur analogen
oder digitalen Schallaufzeichnung eingerichtet sein. Anwendungsabhängig
wird das Schallsignal in einem Datenspeicher oder
bei Echtzeitverarbeitung in einem Pufferspeicher (s. Fig. 9)
gespeichert. Die Parameterermittlung 102 umfaßt die Auswahl von
Parametern, die für die spätere Suche nach Korrelationen zwischen
benachbarten Zuständen im Schallsignal geeignet sind.
Diese Parameter umfassen insbesondere die Einbettungsdimension
m, den Abtastabstand τ, die ε-Durchmesser der Umgebungen U im
Zeitversatz-Einbettungsraum zur Identifizierung von Nachbarn,
und die Zahl Q der Zeitversatzvektoren, auf die die Zustandsprojektion
erfolgen soll. 3,
Bei der Sprachsignalverarbeitung kann die Einbettungsdimension
m beispielsweise im Bereich von 10-50, vorzugsweise 20-30, und
der Abtastabstand τ im Bereich von 0.1 bis 0.3 ms liegen, so
daß das Einbettungsfenster m · τ vorzugsweise rd. 3 bis 8 ms
abdeckt. Diese Daten beziehen sich auf eine Phonemdauer von rd.
50 bis 200 ms und die Komplexität der menschlichen Stimme. Typische
Signalprofile liegen wegen der Tonlage der menschlichen
Stimme von ungefähr 100 Hz zwischen 3 und 15 ms. Fig. 2 zeigt
beispielsweise Wiederholungen des Signalprofils jeweils nach
7 ms. Die Parameterermittlung 102 (Fig. 3) kann im Zusammenspiel
mit der Datenaufnahme 101 erfolgen oder im Rahmen einer
Vorabanalyse durchgeführt worden sein. Bei einer Vorabanalyse
wird die Einbettungsdimension m und die Dimension der Mannigfaltigkeit
(entsprechend dem Parameter Q), in der die unverrauschten
Daten lägen, abgeschätzt. Es kann auch vorgesehen
sein, daß die Parameterermittlung 102 während des Verfahrens
wiederholt wird. Dies kann beispielsweise als Korrektur in
Reaktion auf das Ergebnis der Leistungs-/Rausch-Trennung 109
(s.u.) erfolgen.In speech signal processing, the embedding dimension
m for example in the range of 10-50, preferably 20-30, and
the scanning distance τ is in the range from 0.1 to 0.3 ms, so
that the embedding window m · τ preferably approx. 3 to 8 ms
covers. These data refer to a phoneme duration of approx.
50 to 200 ms and the complexity of the human voice. Typical
Signal profiles are due to the pitch of the human
Voice of approximately 100 Hz between 3 and 15 ms. Fig. 2 shows
for example repetitions of the signal profile after each
7 ms. The parameter determination 102 (FIG. 3) can interact
with the
Auf der Grundlage der aufgenommenen Meßwerte und der festgelegten
Parameter folgt die Signalabtastung 103. Die Signalabtastung
103 ist dazu vorgesehen, die Werte der Zeitreihen yn entsprechend
den vorher festgelegten Abtastparametern aus den Daten
zu ermitteln. Die folgenden Schritte 104 bis 109 stellen
die eigentliche Berechnung der Projektionen der realen Schallsignale
auf unverrauschte Schallsignale oder -zustände dar.The
Der Schritt 104 umfaßt die Bildung des ersten Zeitversatzvektors
am Anfang der Zeitreihen (z.B. gemäß Fig. 2). Dieser erste
Zeitversatzvektor muß sich nicht notwendigerweise auf das zeitlich
zuerst erscheinende erste Signalprofil beziehen. Dies wird
jedoch insbesondere bei Echtzeit- oder Quasiechtzeitverarbeitungen
bevorzugt. Der erste Zeitversatzvektor umfaßt m Signalwerte
yn als m Komponenten, die mit dem Zeitversatz τ aufeinanderfolgen.
Anschließend werden bei Schritt 105 benachbarte
Zeitversatzvektoren (Nachbarvektoren) gebildet und erfaßt. Die
Nachbarvektoren beziehen sich auf sehr ähnliche Signalprofile
wie das Signalprofil, das durch den ersten Vektor repräsentiert
wird. Sie bilden die erste Umgebung U. Wenn der erste Vektor
ein Profil repräsentiert, der Teil eines Phonems ist, so entsprechen
die Nachbarvektoren im wesentlichen den sich annähernd
wiederholenden Signalprofilen innerhalb desselben Phonems. Bei
der Sprachverarbeitung wiederholen sich etwa 15 Signalprofile
innerhalb eines Phonems. Die Zahl der ermittelten Nachbarvektoren
ist kleiner oder gleich der Zahl sich wiederholender
Signalprofile und beträgt beispielsweise rund 5 bis 15.Step 104 comprises the formation of the first time offset vector at the beginning of the time series (for example according to FIG. 2). This first time offset vector does not necessarily have to refer to the first signal profile that appears first in time. However, this is particularly preferred for real-time or quasi-real-time processing. The first time offset vector comprises m signal values y n as m components which follow one another with the time offset τ. Then, in
Anschließend folgt die Berechnung der Kovarianzmatrix 106 entsprechend
der oben angegeben Gleichung (2). Die in diese Matrix
eingefügten Vektoren sind die Vektoren aus der Basis-Umgebung U
entsprechend der Festlegung in Schritt 105. Schritt 106 umfaßt
dann die Bestimmung der Q größten Singulärwerte der Kovarianzmatrix
und der zugehörigen Singulärvektoren im m-dimensionalen
Raum.The
Im Rahmen der folgenden Projektion 107 werden alle Anteile des
ersten Zeitversatzvektors, die nicht in dem von den Q ermittelten
dominanten Vektoren aufgespannten Unterraum liegen, eliminiert.
Der Wert Q liegt im Bereich von rund 2 bis 10, vorzugsweise
4 bis 6. Bei einem modifizierten Verfahren kann der Wert
Q Null betragen (s. unten).In the following
Die verhältnismäßig geringe Zahl Q, die die Dimension des Unterraumes repräsentiert, auf die die Zustände bzw. Signale projiziert werden, stellt einen besonderen Vorteil der Erfindung dar. Es wurde festgestellt, daß der Dynamikbereich der Wellen innerhalb eines gegebenen Phonems nur relativ wenige Freiheitsgrade besitzt, wenn sie einmal innerhalb eines hochdimensionalen Raumes identifiziert worden ist. Daher sind auch verhältnismäßig wenige Nachbarzustände für die Projektionsberechnung erforderlich. Für die Erfassung der Korrelation zwischen den Signalprofilen sind nur die größten Singulärwerte und entsprechenden Singulärvektoren der Kovarianzmatrix relevant. Dieses Ergebnis ist überraschend, da die nichtlineare Rauschreduzierung an sich für deterministische Systeme mit umfangreichen Zeitreihen entwickelt wurde. Außerdem ergibt sich als besonderer Vorteil ein verhältnismäßig geringer Zeitaufwand für die Berechnung.The relatively small number Q, which is the dimension of the subspace represents, onto which the states or signals are projected represents a particular advantage of the invention It was found that the dynamic range of the waves only a few degrees of freedom within a given phoneme owns once inside a high dimensional Space has been identified. Therefore, they are also proportional few neighboring states for the projection calculation required. To capture the correlation between the Signal profiles are only the largest singular values and corresponding ones Singular vectors of the covariance matrix are relevant. This The result is surprising since the non-linear noise reduction in itself for deterministic systems with extensive Time series was developed. It also emerges as special Advantage of a relatively small amount of time for the Calculation.
Anschließend wird der nächste Zeitversatzvektor bei Schritt 108 ausgewählt und die Schrittfolge 105-107 wiederholt, wobei neue Umgebungen und neue Kovarianzmatrizen gebildet werden. Diese Wiederholung erfolgt, bis alle Zeitversatzvektoren, die aus der Zeitreihe konstruiert werden können, verarbeitet worden sind.Then the next time offset vector becomes step 108 selected and the sequence 105-107 repeated, with new Environments and new covariance matrices are formed. This Repeat until all time offset vectors that result from the Time series can be constructed, have been processed.
Die Bildung bzw. Erfassung der Nachbarvektoren (Schritt 105)
erfolgt übrigens bei einer höheren Dimension als die Projektion
107. Die hohe Dimension bei der Nachbarsuche garantiert die
Auswahl der richtigen Nachbarn, die Profile repräsentieren, die
von denselben Phonemen abgeleitet sind. Die Erfindung wählt somit
implizit ohne irgendein Sprachmodell Phoneme aus. Wie oben
erklärt wurde, repräsentiert die Dynamik innerhalb eines Phonems
jedoch wesentlich weniger Freiheitsgrade, so daß innerhalb
des durch die Singulärvektoren aufgespannten Unterraumes niedrigdimensional
und schnell gearbeitet werden kann. Für Echtzeitanwendungen
erfolgt die Schallsignalverarbeitung im wesentlichen
für die Phoneme aufeinanderfolgend, so daß Phonem für
Phonem komplett abgearbeitet und so ein entrauschtes Ausgangssignal
erzeugt wird. Dieses Ausgangssignal ist gegenüber dem
erfaßten Schallsignal (Eingangssignal) um rund 100-200 ms verzögert
(Echtzeit- oder auch Quasi-Echtzeitanwendung).The formation or acquisition of the neighboring vectors (step 105)
Incidentally, it takes place at a higher dimension than the
Die Schritte 109 und 110 betreffen die Bildung des eigentlichen
Ausgangssignals. Der Schritt 109 ist auf die Trennung von Leistungs- und Rauschsignalen gerichtet. Ein entrauschtes Zeitreihenelement
sk wird durch Mittlung über die korrespondierenden
Elemente aus allen Zeitversatzvektoren, die dieses Element enthalten,
gebildet. Statt einer einfachen Mittlung kann eine gewichtete
Mittlung eingeführt werden. Nach Schritt 109 kann ein
Rücksprung vor Schritt 104 vorgesehen sein. Die entrauschten
Zeitreihenelemente bilden dann die Eingangsgrößen für die erneute
Bildung von Zeitversatzvektoren und deren Projektion auf
den Unterraum entsprechend den Singulärvektoren. Diese Verfahrenswiederholung
ist nicht notwendig, kann aber zur Verbesserung
der Rauschreduzierung z.B. 2- oder 3-fach vorgesehen sein.
Nach Schritt 109 kann aber auch ein Rücksprung zur Parameterermittlung
102 vorgesehen sein, falls der nach Schritt 109 vorliegende
Leistungsanteil sich weniger als erwartet (z.B. durch
weniger als einen vorbestimmten Schwellwert) vom unverarbeiteten
Schallsignale unterscheidet. Hierzu können im Verfahrensablauf
nicht dargestellte Entscheidungsmechanismen eingebaut
sein. Bei Schritt 110 folgt die Datenausgabe. Bei der Rauschreduzierung
wird als Leistungsanteil das rauschreduzierte Sprachsignal
ausgegeben. Alternativ kann aber auch anwendungsabhängig
gerade die Ausgabe oder Speicherung des Rauschanteils vorgesehen
sein.
Die oben erläuterte Verfahrensweise kann in Bezug auf die Parameterbestimmung unter Berücksichtigung der folgenden Gesichtspunkte modifiziert werden. Erstens kann die Dimension der Mannigfaltigkeit (entsprechend dem Parameter Q), in der die rauschfreien Daten liegen würden, im Verlauf eines Signals variieren. Die Dimension Q kann von Phonem zu Phonem variieren. Die Dimension kann beispielsweise auch während einer Pause zwischen zwei gesprochenen Worten oder irgendeiner anderen Ruhephase Null betragen. Zweitens ist eine Auswahl von relevanten inhärenten Zeitversatzvektoren, auf die der Zustand projiziert werden soll, ausgeschlossen, falls das Rauschen relativ hoch ist (ungefähr 50%). In diesem Fall würden alle Eigenwerte der Korrelationsmatrix ungefähr gleich sein.The procedure explained above can be used in relation to the parameter determination considering the following points be modified. First, the dimension of Manifold (according to the parameter Q) in which the noise-free data would lie in the course of a signal vary. The dimension Q can vary from phoneme to phoneme. The dimension can, for example, also during a break between two spoken words or any other resting phase Be zero. Second is a selection of relevant ones inherent time offset vectors onto which the state is projected should be excluded if the noise is relatively high is (about 50%). In this case, all eigenvalues of the Correlation matrix to be approximately the same.
Dementsprechend kann beim Verfahrensablauf die folgende
Variation des Parameters Q vorgesehen sein. Anstelle einer unveränderlichen
Projektionsdimension Q wird die Dimension für
jede Kovarianzmatrix angepaßt variiert bzw. individuell bestimmt.
Bei Schritt 102 wird eine Konstante f = 1 bestimmt.
Diese Konstante f wird empirisch ermittelt. Sie hängt von der
Signalart ab und beträgt beispielsweise bei Sprache f = 0.1.
Der maximale Singulärwert einer gegebenen Kovarianzmatrix, multipliziert
mit der Konstanten f, repräsentiert einen Schwellwert.
Die Anzahl der Singulärwerte, die größer als der Schwellwert
sind, wird dann als Wert für Q für die Projektion verwendet,
vorausgesetzt dieser Wert überschreitet nicht einen bestimmten
Maximalwert. Dieser Maximalwert ist z.B. 8. Im letzteren
Fall sind alle Singulärwerte einer gegebenen Kovarianzmatrix
so ähnlich, daß kein ausgeprägter linearer Unterraum ausgewählt
werden kann und somit Q = 0 gewählt werden muß. Anstelle
einer Projektion wird der aktuelle Zeitversatzvektor dann
durch den Mittelwert seiner Umgebung ersetzt.Accordingly, the following can be done in the process flow
Variation of the parameter Q may be provided. Instead of an unchangeable one
Projection dimension Q becomes the dimension for
each covariance matrix is adjusted or individually determined.
At
Durch diese Abwandlung wird die Leistungsfähigkeit des Verfahrens insbesondere bei hohen Rauschpegeln drastisch erhöht.This modification increases the efficiency of the process drastically increased especially at high noise levels.
Im folgenden wird die erfindungsgemäße Signalverarbeitung an zwei Beispielen illustriert. Beim ersten Beispiel ist das verarbeitete Schallsignale ein menschlicher Pfiff (s. Fig. 4). Das zweite Beispiel betrifft die oben genannten Worte "Buon giorno" (s. Fig. 5 bis 8).The signal processing according to the invention is described below illustrated two examples. In the first example, this is processed Sound signals a human whistle (see Fig. 4). The second example concerns the above words "Buon giorno" (see Figs. 5 to 8).
Fig. 4 zeigt das Leistungsspektrum für einen menschlichen Pfiff
der Dauer 3 s. Ein Pfiff ist ein im wesentlichen periodisches
Signal mit charakteristischen Harmonischen und nur geringen
Nicht-Stationaritäten. Fig. 4a zeigt den Amplitudenverlauf der
Originalaufzeichnung. Nach numerischer Addition eines 10-%igen
Rauschens ergibt sich das in Fig. 4b dargestellte Spektrum.
Dieses liefert die Eingangsdaten für Schritt 101 des Verfahrensablaufes
(Fig. 3). Nach der erfindungsgemäßen Rauschreduzierung
ergibt sich das in Fig. 4c gezeigte Bild. Dieses zeigt
die vollständige Wiederherstellung des ursprünglichen, unverrauschten
Signals. Die Figuren 4a bis 4c zeigen einen besonderen
Vorteil der Erfindung gegenüber einem herkömmlichen Filter
im Frequenzraum. Ein Filter im Frequenzraum würde alle Leistungsanteile
mit Amplituden unterhalb 10-6 abschneiden, so daß
das entrauschte Spektrum nur noch den Peak bei 0 und den Peak
um die Grundfrequenz enthielte. Dementsprechend wäre die aus
der Rücktransformation gewonnene Zeitreihe völlig ohne Oberschwingungen,
was sich sehr synthetisch anhören würde. Diese
Nachteile werden bei der erfindungsgemäßen Rauschreduzierung
vermieden.Fig. 4 shows the power spectrum for a human whistle lasting 3 s. A whistle is an essentially periodic signal with characteristic harmonics and only minor non-stationarities. 4a shows the amplitude profile of the original recording. After the numerical addition of a 10% noise, the spectrum shown in FIG. 4b results. This provides the input data for
Fig. 5 zeigt entsprechende Ergebnisse am Beispiel von Kurvendarstellungen für die Verarbeitung von Sprachsignalen. In Fig. 5a ist ein Ausschnitt aus dem unverrauschten Wellenzug der Worte "Buon giorno" bezogen auf den Signalverlauf gemäß Fig. 1 analog zu Fig. 2 gezeigt. Es ist die zeitlich begrenzte Wiederholung von Signalprofilen erkennbar, die die zur Reduktion des Rauschens notwendige Redundanz enthält. Fig. 5b zeigt den Wellenzug nach Addition eines synthetischen Rauschens. Nach der erfindungsgemäßen Rauschreduzierung ergibt sich das Bild gemäß Fig. 5c. Es zeigt sich, daß das Originalsignal zum größten Teil rekonstruiert werden konnte.5 shows corresponding results using the example of curve representations for processing voice signals. In Fig. 5a is a section of the noiseless wave train of the words "Buon giorno" based on the signal curve according to FIG. 1 shown analogously to FIG. 2. It is the time-limited repetition of signal profiles recognizable, which are used to reduce the Noise contains the necessary redundancy. 5b shows the wave train after adding a synthetic noise. After Noise reduction according to the invention results in the image Fig. 5c. It turns out that the original signal for the most part could be reconstructed.
Die Funktionsfähigkeit der erfindungsgemäßen Rauschreduzierung
wurde in verschiedenen Rauscharten und -amplituden geprüft. Als
Maß für die Leistungsfähigkeit der Rauschreduzierung kann die
Dämpfung D (in dB) gemäß Gleichung (3) betrachtet werden.
In Gleichung (3) steht Xk für das unverrauschte Signal (Leistungsanteil), yk für das verrauschte Signal (Eingangs-Schallsignal) und y ∧k für das Signal nach der erfindungsgemäßen Rauschreduzierung.In equation (3), X k stands for the noiseless signal (power component), y k for the noiseless signal (input sound signal) and y ∧ k for the signal after the noise reduction according to the invention.
Fig. 6 illustriert die Abhängigkeit der Dämpfung D der nichtlinear Rauschreduzierung in Abhängigkeit von der relativen Rauschamplitude (Varianz des Rauschanteils : Varianz des Leistungsanteils). Es zeigt sich, daß die Dämpfung selbst bei relativ hohen Rauschamplituden (im Bereich von mehr als 100%) verstärkt ist.Fig. 6 illustrates the dependence of the damping D of the non-linear Noise reduction depending on the relative Noise amplitude (variance of the noise component: variance of the Performance share). It turns out that the damping itself at relatively high noise amplitudes (in the range of more than 100%) is reinforced.
Die Figuren 7 und 8 zeigen weitere Einzelheiten der Sprachrauschreduzierung. Fig. 7 illustriert das Auftreten sich wiederholender Signalprofile innerhalb des im oberen Teil der Figur gezeigten Phonemzuges. In Abhängigkeit von einem (willkürlichen) Zeitindex i ist im unteren Teil der Figur ein Kurvenbild gedruckt, das aus unter den folgenden Bedingungen gebildeten Punkten besteht. Für jeden Zeitpunkt i wird der zugehörige Zeitversatzvektor s ∧i und die Menge aller Zeitversatzvektoren s ∧j,i betrachtet. Falls der Betrag des Differenzvektors zwischen dem s ∧i und jedem s ∧j kleiner als eine vorbestimmte Grenze ist, wird ein Punkt gedruckt. Die Punkte bilden mehr oder wenige ausgedehnte Linien. Die Linienstrukturen zeigen, daß innerhalb der Phoneme die oben erläuterten Periodizitäten der Signalprofile auftreten. Die Lücken in diesen Liniensegmenten zeigen, daß die Umgebungen geeignet sind, zwischen verschiedenen Phonehmen zu differenzieren. Für Linienstrukturen, die in Ordinatenrichtung besonders ausgedehnt sind, gilt, daß die Anzahl von intra-Phonem-Nachbarn besonders groß ist. Es zeigt sich jedoch auch, daß in der Regel für |i-j| > 2000 keine Wiederholungen auftreten.Figures 7 and 8 show further details of the speech noise reduction. Fig. 7 illustrates the occurrence of repetitive signal profiles within the phoneme train shown in the upper part of the figure. Depending on a (arbitrary) time index i, a graph is printed in the lower part of the figure, which consists of points formed under the following conditions. The associated time offset vector s ∧ i and the set of all time offset vectors s ∧ j, i are considered for each time i. If the amount of the difference vector between the s ∧ i and each s ∧ j is less than a predetermined limit, a dot is printed. The points form more or less extended lines. The line structures show that the periodicities of the signal profiles explained above occur within the phonemes. The gaps in these line segments show that the environments are suitable for differentiating between different phonographs. For line structures that are particularly extended in the ordinate direction, the number of intra-phoneme neighbors is particularly large. However, it also turns out that for | ij | > 2000 no repetitions occur.
Fig. 8 zeigt wiederum am Beispiel der Worte "Buon giorno" im oberen Teil der Figur das unverrauschte Signal, im mittleren Teil das synthetisch hinzugefügte Rauschen und im unteren Teil das nach der Rauschreduzierung verbliebene Rauschen. Die Ordinatenskalierung ist in allen drei Fällen identisch. Das verbleibende Rauschen (unterster Teil der Figur) zeigt eine systematische Variation, die darauf hinweist, daß der Erfolg der erfindungsgemäßen Rauschreduzierung selbst vom Schallsignal, d.h. vom konkreten Phonem, abhängt.Fig. 8 again shows the example of the words "Buon giorno" in upper part of the figure the noiseless signal, in the middle Part of the synthetically added noise and in the lower part the noise remaining after the noise reduction. The ordinate scaling is identical in all three cases. The rest Noise (bottom part of the figure) shows a systematic Variation indicating that the success of the invention Noise reduction even from the sound signal, i.e. depends on the specific phoneme.
Gegenstand der Erfindung ist auch eine Vorrichtung zur Implementierung
des erfindungsgemäßen Verfahrens. Gemäß Fig. 9 umfaßt
eine Rauschreduzierungsanordnung einen Meßwertaufnehmer
91, einen Datenspeicher 92 und/oder einen Pufferspeicher 93,
eine Abtastschaltung 94, eine Rechenschaltung 95 und eine Ausgabeeinheit
96.The invention also relates to a device for implementation
of the method according to the invention. 9 includes
a noise reduction arrangement a
Die hier vorgestellten Komponenten der erfindungsgemäßen Vorrichtung werden vorzugsweise als festverschaltete Schaltkreisanordnung oder als interierter Chip hergestellt.The components of the device according to the invention presented here are preferably used as a permanently connected circuit arrangement or manufactured as an integrated chip.
Im folgenden werden bevorzugte Anwendungen der Erfindung genannt. Neben der bereits genannten Rauschreduzierung an Sprachsignalen ist die Erfindung auch bei der Rauschreduzierung an Hörgeräten und zur Verbesserung der computergestützten automatischen Spracherkennung anwendbar. In Bezug auf die Spracherkennung kann insbesondere vorgesehen sein, die entrauschten Zeitreihenwerte bzw. Sektoren mit Tabellenwerten zu vergleichen. Die Tabellenwerte repräsentieren entsprechende Werte bzw. Vektoren vorbestimmter Phoneme. Eine automatische Spracherken nung kann somit mit dem Rauschreduzierungsverfahren integriert werden.Preferred applications of the invention are mentioned below. In addition to the already mentioned noise reduction on speech signals the invention is also in noise reduction Hearing aids and to improve the computerized automatic Speech recognition applicable. Regarding speech recognition can be provided, in particular, the noise Compare time series values or sectors with table values. The table values represent corresponding values or Vectors of predetermined phonemes. An automatic speech recognition can be integrated with the noise reduction process become.
Weitere Anwendungen liegen im Bereich der Telekommunikation und bei der Signalverarbeitung anderer Schallquellen als der menschlichen Sprache. Hierzu zählen beispielsweise Tierstimmen oder auch Musik.Other applications are in the field of telecommunications and when processing signals from sources other than that human language. These include animal voices, for example or music.
Claims (12)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19859174A DE19859174C1 (en) | 1998-12-21 | 1998-12-21 | Method of signal processing a noisy acoustic signal determining the correlation between signal profiles using non linear noise reduction in deterministic systems |
DE19859174 | 1998-12-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1014340A2 true EP1014340A2 (en) | 2000-06-28 |
EP1014340A3 EP1014340A3 (en) | 2001-07-18 |
Family
ID=7892062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP99125575A Withdrawn EP1014340A3 (en) | 1998-12-21 | 1999-12-21 | Method and device for processing noisy audio signals |
Country Status (4)
Country | Link |
---|---|
US (1) | US6502067B1 (en) |
EP (1) | EP1014340A3 (en) |
JP (1) | JP2000194400A (en) |
DE (1) | DE19859174C1 (en) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
EP1585112A1 (en) * | 2004-03-30 | 2005-10-12 | Dialog Semiconductor GmbH | Delay free noise suppression |
BRPI0520529A2 (en) * | 2005-09-07 | 2009-09-29 | Biloop Tecnologic S L | signal recognition method using a low cost microcontroller |
US20070076001A1 (en) * | 2005-09-30 | 2007-04-05 | Brand Matthew E | Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data |
JP2009529699A (en) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | System and method for generating separated signals |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8321214B2 (en) * | 2008-06-02 | 2012-11-27 | Qualcomm Incorporated | Systems, methods, and apparatus for multichannel signal amplitude balancing |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US9228785B2 (en) | 2010-05-04 | 2016-01-05 | Alexander Poltorak | Fractal heat transfer device |
TWI412019B (en) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | Sound event detecting module and method thereof |
JP2014085609A (en) * | 2012-10-26 | 2014-05-12 | Sony Corp | Signal processor, signal processing method, and program |
CN103811017B (en) * | 2014-01-16 | 2016-05-18 | 浙江工业大学 | A kind of punch press noise power spectrum based on Welch method is estimated to improve one's methods |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
JP6793299B2 (en) | 2015-08-26 | 2020-12-02 | パナソニックIpマネジメント株式会社 | Signal detection device and signal detection method |
EP3485215B1 (en) | 2016-07-12 | 2023-06-07 | Alexander Poltorak | System and method for maintaining efficiency of a heat sink |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN110349592B (en) * | 2019-07-17 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | Method and apparatus for outputting information |
JP7271360B2 (en) * | 2019-07-31 | 2023-05-11 | 株式会社Nttドコモ | State determination system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1293693C (en) * | 1985-10-30 | 1991-12-31 | Tetsu Taguchi | Noise canceling apparatus |
KR950013124B1 (en) * | 1993-06-19 | 1995-10-25 | 엘지전자주식회사 | Chaos feedback system |
US6000833A (en) * | 1997-01-17 | 1999-12-14 | Massachusetts Institute Of Technology | Efficient synthesis of complex, driven systems |
US6208951B1 (en) * | 1998-05-15 | 2001-03-27 | Council Of Scientific & Industrial Research | Method and an apparatus for the identification and/or separation of complex composite signals into its deterministic and noisy components |
-
1998
- 1998-12-21 DE DE19859174A patent/DE19859174C1/en not_active Expired - Fee Related
-
1999
- 1999-12-17 US US09/465,643 patent/US6502067B1/en not_active Expired - Fee Related
- 1999-12-21 EP EP99125575A patent/EP1014340A3/en not_active Withdrawn
- 1999-12-21 JP JP11363321A patent/JP2000194400A/en active Pending
Non-Patent Citations (4)
Title |
---|
E.J.KOSTELICH, T.SCHEIBER: "Noise reduction in chaotic time-series data: A survey of common methods." PHYSICAL REVIEW E. STATISTICAL PHYSICS, PLASMAS, FLUIDS, AND RELATED INTERDISCIPLINARY TOPICS., Bd. 48, Nr. 3, September 1993 (1993-09) - September 1993 (1993-09), Seiten 1752-1763, XP000992597 AMERICAN INSTITUTE OF PHYSICS, NEW YORK, NY., US ISSN: 1063-651X * |
MATASSINI L ET AL: "Filtering of speech signals by over-embedding" STOCHASTIC AND CHAOTIC DYNAMICS IN THE LAKES, AMBLESIDE, UK, AUG. 1999, Nr. 502, Seiten 642-648, XP000997106 AIP Conference Proceedings, 2000, AIP, USA ISSN: 0094-243X * |
P.GRASSBERGER ET AL.: "On noise reduction methods for chaotic data" CHAOS., Bd. 3, Nr. 2, 1993 - 1993, Seiten 127-141, XP000997215 AMERICAN INSTITUTE OF PHYSICS, WOODBURY, NY., US ISSN: 1054-1500 * |
R.HEGGER ET AL.: "denoising human speech signals using chaoslike features " PHYSICAL REVIEW LETTERS, Bd. 84, Nr. 14, 3. - 3. April 2001, Seiten 3197-3200, XP000997103 NEW YORK,NY, US ISSN: 0031-9007 * |
Also Published As
Publication number | Publication date |
---|---|
EP1014340A3 (en) | 2001-07-18 |
US6502067B1 (en) | 2002-12-31 |
DE19859174C1 (en) | 2000-05-04 |
JP2000194400A (en) | 2000-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19859174C1 (en) | Method of signal processing a noisy acoustic signal determining the correlation between signal profiles using non linear noise reduction in deterministic systems | |
DE102007001255B4 (en) | Audio signal processing method and apparatus and computer program | |
DE69619284T3 (en) | Device for expanding the voice bandwidth | |
DE60033549T2 (en) | METHOD AND DEVICE FOR SIGNAL ANALYSIS | |
DE60018886T2 (en) | Adaptive wavelet extraction for speech recognition | |
DE60104091T2 (en) | Method and device for improving speech in a noisy environment | |
DE60316517T2 (en) | Method and device for recording interference signals | |
DE3306730C2 (en) | ||
DE602005000896T2 (en) | speech segmentation | |
EP1193688A2 (en) | Method for determining an eigenspace to represent a plurality of trainingsspeakers | |
DE2326517A1 (en) | METHOD AND CIRCUIT ARRANGEMENT FOR DETECTING SPOKEN WORDS | |
DE10030105A1 (en) | Speech recognition device | |
DE2020753A1 (en) | Device for recognizing given speech sounds | |
EP1193689A2 (en) | Method for the computation of an eigenspace for the representation of a plurality of training speakers | |
DE102014207437A1 (en) | Speech recognition with a plurality of microphones | |
EP1755110A2 (en) | Method and device for adaptive reduction of noise signals and background signals in a speech processing system | |
DE102004028693B4 (en) | Apparatus and method for determining a chord type underlying a test signal | |
DE10047718A1 (en) | Speech recognition method | |
EP3940692B1 (en) | Method for automatic lip reading using a functional component and providing the functional component | |
EP1981582A1 (en) | Method device and computer programme for generating a control signal for a cochlea-implant based on an audio signal | |
DE4209296A1 (en) | Neural network for word recognition system with automatic learning capability - has characteristic vectors identified from speech signal that are classified based upon defined control regions | |
EP1212751B1 (en) | Method for suppressing spurious noise in a signal field | |
DE602004011292T2 (en) | Device for speech detection | |
EP1062659B1 (en) | Method and device for processing a sound signal | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
17P | Request for examination filed |
Effective date: 20011115 |
|
AKX | Designation fees paid |
Free format text: AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
RAP3 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: MAX-PLANCK-GESELLSCHAFT ZUR FOERDERUNG DER WISSENS |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20080701 |