DE69423703T2 - Noise reduction device for pre-processing and / or post-processing of speech signals - Google Patents

Noise reduction device for pre-processing and / or post-processing of speech signals

Info

Publication number
DE69423703T2
DE69423703T2 DE1994623703 DE69423703T DE69423703T2 DE 69423703 T2 DE69423703 T2 DE 69423703T2 DE 1994623703 DE1994623703 DE 1994623703 DE 69423703 T DE69423703 T DE 69423703T DE 69423703 T2 DE69423703 T2 DE 69423703T2
Authority
DE
Germany
Prior art keywords
signal
speech
noise
feature parameter
speaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1994623703
Other languages
German (de)
Other versions
DE69423703D1 (en
Inventor
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69423703D1 publication Critical patent/DE69423703D1/en
Application granted granted Critical
Publication of DE69423703T2 publication Critical patent/DE69423703T2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

Die Erfindung betrifft eine Rauschunterdrückungseinrichtung zur Verwendung beim Unterdrücken bzw. Entfernen eines Rauschsignals aus einem Sprachsignal.The invention relates to a noise suppression device for use in suppressing or removing a noise signal from a speech signal.

In der Regel wird ein Sprachsignal einer Vorverarbeitung unterzogen, bevor das Sprachsignal zu einer Sequenz von codierten Signalen codiert wird. Beispielsweise ist eine solche Vorverarbeitung bisher durchgeführt worden, um entweder eine Sprechdauer oder eine Nichtsprechdauer festzustellen, und zwar gemäß einem Artikel, den J. F. Lynch, jr. et al. in IEEE veröffentlicht hat und der den Titel trägt "SPEECH/SILENCE SEGMENTATION FOR REAL-TIME CODING VIA RULE BASED ADAPTIVE ENDPOINT DETECTION" (Proceedings ICASSP, Seite 1348 bis 1351, 1987). In dem Artikel wird nur eine Unterscheidung zwischen der Sprechdauer und der Nichtsprechdauer, jedoch keine Entfernung eines Rauschsignals aus dem Sprachsignal während der Vorverarbeitung·beschrieben. Das heißt, Lynch et al. haben niemals eine Vorverarbeitung erwogen, die das Rauschsignal aus dem Sprachsignal entfernt. Auch wenn die Vorverarbeitung, die in dem Artikel beschrieben ist, praktisch zur Entfernung des Rauschsignals aus dem Sprachsignal verwendet wird, ist es schwierig, das Rauschsignal, nämlich ein Nichtsprachsignal in der Sprechdauer, zu entfernen.Typically, a speech signal is subjected to preprocessing before the speech signal is encoded into a sequence of coded signals. For example, such preprocessing has been performed to detect either a speech duration or a non-speech duration, according to a paper published by J. F. Lynch, Jr. et al. in IEEE entitled "SPEECH/SILENCE SEGMENTATION FOR REAL-TIME CODING VIA RULE BASED ADAPTIVE ENDPOINT DETECTION" (Proceedings ICASSP, pages 1348 to 1351, 1987). The paper only describes a distinction between the speech duration and the non-speech duration, but not the removal of a noise signal from the speech signal during preprocessing. That is, Lynch et al. never considered preprocessing that removes the noise signal from the speech signal. Even if the preprocessing described in the article is practically used to remove the noise signal from the speech signal, it is difficult to remove the noise signal, namely a non-speech signal in the speech duration.

Andererseits ist in JP-A-2-278 298 Spektralsubtraktion vorgeschlagen worden, um eine Rauschkomponente aus dem Sprachsignal zu entfernen. Danach wird das Sprachsignal zu einer Sequenz von codierten Signalen codiert. Bei diesem Verfahren wird nur ein Rauschspektrum, das aus der Rauschkomponente resultiert, von einem Spektrum, das das Rauschspektrum aufweist, subtrahiert oder entfernt und als rauschsubtrahiertes Sprach signal erzeugt. Das rauschsubtrahierte Sprachsignal könnte frei von der Rauschkomponente im Spektrum sein.On the other hand, in JP-A-2-278 298, spectral subtraction has been proposed to remove a noise component from the speech signal. Thereafter, the speech signal is encoded into a sequence of coded signals. In this method, only a noise spectrum resulting from the noise component is subtracted or removed from a spectrum having the noise spectrum and is obtained as noise-subtracted speech. signal. The noise-subtracted speech signal could be free from the noise component in the spectrum.

Man beachte jedoch, daß Sprachcodierung normalerweise nicht nur in Verbindung mit dem Spektrum, sondern auch mit einer Phasenkomponente des Sprachsignals durchgeführt wird. Dies zeigt, daß eine Rauschkomponente, die in der Phasenkomponente enthalten ist, nach dem oben erwähnten Verfahren nicht entfernt werden kann.Note, however, that speech coding is usually performed not only in conjunction with the spectrum but also with a phase component of the speech signal. This shows that a noise component contained in the phase component cannot be removed by the above-mentioned method.

Daher ist die Spektralsubtraktion insofern nachteilig, als die Rauschkomponente nicht vollständig aus dem Sprachsignal entfernt werden kann.Therefore, spectral subtraction is disadvantageous in that the noise component cannot be completely removed from the speech signal.

Außerdem kann die Spektralsubtraktion nicht bei einer Nachbearbeitung angewendet werden, die durchgeführt wird, nachdem die codierte Signalsequenz zu einer Sequenz von decodierten Signalen decodiert worden ist.In addition, spectral subtraction cannot be applied to post-processing that is performed after the encoded signal sequence has been decoded into a sequence of decoded signals.

Auf jeden Fall ist die Unterdrückung einer Rauschkomponente bei der Nachbearbeitung überhaupt nicht erwogen worden, obwohl diese Rauschunterdrückung nach dem Decodieren notwendig ist.In any case, the suppression of a noise component during post-processing has not been considered at all, although this noise reduction is necessary after decoding.

EP-A-549 364 offenbart ein Rauschsignalvorhersagesystem gemäß dem Oberbegriff von Anspruch 1.EP-A-549 364 discloses a noise signal prediction system according to the preamble of claim 1.

Es ist eine Aufgabe der Erfindung, eine Rauschunterdrückungseinrichtung bereitzustellen, die in der Lage ist, eine Rauschkomponente oder ein Rauschsignal aus einem Sprachsignal vollständig zu entfernen.It is an object of the invention to provide a noise suppression device capable of completely removing a noise component or a noise signal from a speech signal.

Es ist eine weitere Aufgabe der Erfindung, eine Rauschunterdrückungseinrichtung des beschriebenen Typs bereitzustellen, die entweder bei einer Vorverarbeitung oder einer Nachbearbeitung des Sprachsignals verwendet werden kann.It is a further object of the invention to provide a noise suppression device of the type described which can be used either in pre-processing or in post-processing of the speech signal.

Es ist eine weitere Aufgabe der Erfindung, einen Rauschprozessor des beschriebenen Typs bereitzustellen, der das Rauschsignal nicht nur in einer Sprechdauer, sondern auch in einer Nichtsprechdauer unterdrücken kann.It is a further object of the invention to provide a noise processor of the type described which can suppress the noise signal not only in a speaking period but also in a non-speaking period.

Diese Aufgaben werden mit den Merkmalen der Ansprüche gelöst.These tasks are solved with the features of the claims.

Fig. 1 ist ein Blockschaltbild einer Rauschunterdrükkungseinrichtung gemäß einer ersten Ausführungsform der Erfindung;Fig. 1 is a block diagram of a noise suppressor according to a first embodiment of the invention;

Fig. 2 ist ein Blockschaltbild zur Beschreibung eines Teils der in Fig. 1 dargestellten Rauschunterdrückungseinrichtung;Fig. 2 is a block diagram for describing a part of the noise suppression device shown in Fig. 1;

Fig. 3 ist ein Blockschaltbild einer Rauschunterdrückungseinrichtung gemäß einer zweiten Ausführungsform der Erfindung; undFig. 3 is a block diagram of a noise suppressor according to a second embodiment of the invention; and

Fig. 4 ist ein Blockschaltbild zur Beschreibung eines Teils der in Fig. 3 dargestellten Rauschunterdrückungseinrichtung.Fig. 4 is a block diagram for describing a part of the noise suppression device shown in Fig. 3.

Nachstehend wird zunächst ein erfindungsgemäßes Prinzip beschrieben, um das Verständnis der Erfindung zu erleichtern. Dabei wird angenommen, das ein Sprachsignal in Form einer Sequenz von digitalen Sprachsignalen gegeben ist, die einer Vorverarbeitung und einer Nachbearbeitung zu unterziehen sind, um ein Rauschsignal aus dem Sprachsignal zu entfernen. Außerdem wird die Vorverarbeitung als Antwort auf ein Eingangssignal durchgeführt, das von der digitalen Sprachsignalsequenz bestimmt wird, die noch nicht codiert ist, während die Nachbearbeitung als Antwort auf ein Eingangssignal durchgeführt wird, das von der digitalen Sprachsignalsequenz bestimmt wird, die bereits decodiert ist. Daher ist zu beachten, daß die Begriffe "digitale Sprachsignalsequenz" und "Eingangssignal" hier in zwei verschiedenen Bedeutungen verwendet werden können, um sowohl die Vorverarbeitung als auch die Nachbearbeitung einzuschließen.A principle of the invention will first be described below in order to facilitate understanding of the invention. Here, it is assumed that a speech signal is given in the form of a sequence of digital speech signals which are to be subjected to preprocessing and postprocessing in order to remove a noise signal from the speech signal. Moreover, the preprocessing is performed in response to an input signal determined by the digital speech signal sequence which is not yet encoded, while the postprocessing is performed in response to an input signal determined by the digital speech signal sequence which is already decoded. Therefore, it should be noted that the terms "digital speech signal sequence" and "input signal" can be used here in two different meanings to include both the preprocessing and the postprocessing.

Auf jeden Fall weist das Eingangssignal das Sprachsignal (nämlich die digitale Sprachsignalsequenz) und das Rauschsignal auf und kann daher als Kombination aus der digitalen Sprachsignalsequenz und dem Rauschsignal angesehen werden.In any case, the input signal comprises the speech signal (namely the digital speech signal sequence) and the noise signal and can therefore be considered as a combination of the digital speech signal sequence and the noise signal.

Erfindungsgemäß werden Merkmalparameter aus dem Eingangssignal extrahiert und können beispielsweise ein ausgewählter oder ausgewählte Spektralparameter, die Merkmale eines Spektrums im Eingangssignal darstellen, Grundfrequenzvorhersageverstärkungsfaktoren, die eine Periodizität des Eingangssignals darstellen, usw. sein. Die Merkmalparameter werden verwendet, um entweder eine Sprechdauer oder eine Nichtsprech dauer durch Vergleichen der Merkmalparameter mit einem Schwellwert zu bestimmen.According to the invention, feature parameters are extracted from the input signal and may be, for example, a selected or selected spectral parameter representing features of a spectrum in the input signal, fundamental frequency prediction gain factors representing a periodicity of the input signal, etc. The feature parameters are used to determine either a speech duration or a non-speech duration. duration by comparing the feature parameters with a threshold value.

Zusammengefaßt heißt das, es wird ein vorläufiges Schallquellensignal, das eine Schallquelle bestimmt, unter Verwendung des Eingangssignals und der Merkmalparameter bei der Vorverarbeitung und der Nachbearbeitung ermittelt. Insbesondere tritt das vorläufige Schallquellensignal in Form eines Fehlersignals auf, das bei der Vorverarbeitung erzeugt wird, wenn man das Eingangssignal über ein Umkehrfilter laufen läßt, das von den Merkmalparametern gesteuert wird.In summary, a preliminary sound source signal that identifies a sound source is determined using the input signal and the feature parameters in preprocessing and postprocessing. In particular, the preliminary sound source signal appears in the form of an error signal that is generated in preprocessing by passing the input signal through an inverse filter controlled by the feature parameters.

Andererseits tritt das vorläufige Schallquellensignal in Form eines Decodiererausgangssignals oder einer Sequenz von decodierten Signalen auf, das bzw. die unter Verwendung der Merkmalparameter decodiert ist.On the other hand, the preliminary sound source signal appears in the form of a decoder output signal or a sequence of decoded signals decoded using the feature parameters.

Da das Sprachsignal eine Amplitude hat, die größer als das Rauschsignal im vorläufigen Schallquellensignal ist, kann das Rauschsignal allein durch Vergleichen einer Amplitude des vorläufigen Schallquellensignals mit einem vorbestimmten Schwellwert unterdrückt und danach ein rauschunterdrücktes Signal erzeugt werden. Das rauschunterdrückte Signal wird bei der Vorverarbeitung unter Verwendung der Merkmalparameter in ein rauschfreies Ausgangssignal umgewandelt und bei der Nachbearbeitung als rauschfreies decodiertes Signal ausgegeben. Das rauschfreie Ausgangssignal kann nach der Vorverarbeitung von einem Codierer codiert werden, während das rauschfreie decodierte Signal nach der Nachbearbeitung in ein Tonsignal umgewandelt wird.Since the speech signal has an amplitude larger than the noise signal in the preliminary sound source signal, the noise signal can be suppressed only by comparing an amplitude of the preliminary sound source signal with a predetermined threshold and then generating a noise-suppressed signal. The noise-suppressed signal is converted into a noise-free output signal in preprocessing using the feature parameters and output as a noise-free decoded signal in postprocessing. The noise-free output signal can be encoded by an encoder after preprocessing, while the noise-free decoded signal is converted into a sound signal after postprocessing.

Rauschunterdrückung kann nur in einer gewählten, nämlich der Sprechdauer oder der Nichtsprechdauer oder aber sowohl in der Sprechdauer als auch in der Nichtsprechdauer durchgeführt werden. Die Erfindung kann also das Rauschsignal an einer Wellenform unter Verwendung der Merkmalparameter unterdrücken und ist sowohl auf die Vorverarbeitung als auch auf die Nachbearbeitung anwendbar.Noise suppression can be performed only in a selected one, namely the speaking period or the non-speaking period, or in both the speaking period and the non-speaking period. The invention can therefore suppress the noise signal on a waveform using the feature parameters and is applicable to both pre-processing and post-processing.

Mit Bezug auf Fig. 1 ist eine Rauschuntedrückungseinrichtung gemäß einer ersten Ausführungsform der Erfindung auf die Vorverarbeitung anwendbar und wird daher über einen Eingangsanschluß 10 mit einem Eingangssignal IN versorgt, das ein Sprachsignal und ein Rauschsignal, mit dem das Sprachsignal überlagert ist, aufweist. Wie oben erwähnt, ist das Sprachsignal in Form einer Sequenz von digitalen Sprachsignalen gegeben. Das Eingangssignal IN wird an eine Rahmenteilungsschaltung 11 übergeben und von der Rahmenteilungsschaltung 11 in mehrere Rahmen geteilt, von denen jeder eine Länge von beispielsweise 40 ms hat. Jeder Rahmen wird ferner von einer Teilrahmenteilungsschaltung 12 in mehrere Teilrahmen unterteilt, von denen jeder eine Länge von beispielsweise 8 ms hat. Das Eingangssignal IN wird, wie oben erwähnt, in die Teilrahmen geteilt und in Form einer geteilten Eingangssignalsequenz x(n) entweder in jedem Rahmen oder in jedem Teilrahmen an eine Merkmalparameterberechnungseinrichtung 15 einerseits und an eine Rauschunterdrückungsschaltung 20 andererseits übergeben. Dabei kann die geteilte Eingangssignalsequenz x(n) als internes Eingangssignal bezeichnet werden.Referring to Fig. 1, a noise suppression device according to a first embodiment of the invention is applicable to preprocessing and is therefore supplied via an input terminal 10 with an input signal IN which is a speech signal and a noise signal superimposed on the speech signal. As mentioned above, the speech signal is given in the form of a sequence of digital speech signals. The input signal IN is passed to a frame division circuit 11 and divided by the frame division circuit 11 into a plurality of frames, each of which has a length of, for example, 40 ms. Each frame is further divided by a sub-frame division circuit 12 into a plurality of sub-frames, each of which has a length of, for example, 8 ms. The input signal IN is divided into the sub-frames as mentioned above and passed in the form of a divided input signal sequence x(n) either in each frame or in each sub-frame to a feature parameter calculator 15 on the one hand and to a noise suppression circuit 20 on the other hand. The divided input signal sequence x(n) can be referred to as an internal input signal.

In dem dargestellten Beispiel wird die Merkmalparameterberechnungseinrichtung 15 mit dem internen Eingangssignal x(n) in jedem Rahmen versorgt. Die Merkmalparameterberechnungseinrichtung 15 setzt zunächst ein Fenster, um ein Stück des internen Eingangssignals x(n), bezogen auf jeden Teilrahmen, zu extrahieren. Das Fenster ist länger als jede Teilrahmenlänge und kann beispielsweise 24 ms sein.In the example shown, the feature parameter calculator 15 is supplied with the internal input signal x(n) in each frame. The feature parameter calculator 15 first sets a window to extract a piece of the internal input signal x(n) related to each subframe. The window is longer than each subframe length and may be, for example, 24 ms.

Danach berechnet die Merkmalparameterberechnungseinrichtung 15 als Merkmalparameter Spektralparameter, die Merkmale eines Spektrums im Eingangssignal anzeigen, Grundfrequenzvorhersageverstärkungsfaktoren, die eine Periodizität des Sprachsignals anzeigen, und eine mittlere Amplitude in jedem Teilrahmen. In diesem Fall kann in der Merkmalparameterberechnungseinrichtung 15 eine mittlere Leistung berechnet werden. Solche Berechnungen der Merkmalparameter sind bekannt und werden nicht weiter beschrieben. In jedem Fall werden von der Merkmalparameterberechnungseinrichtung 15 Merkmalparameter als Merkmalparametersignale ausgegeben.Thereafter, the feature parameter calculation means 15 calculates, as feature parameters, spectral parameters indicating features of a spectrum in the input signal, fundamental frequency prediction gain factors indicating a periodicity of the speech signal, and an average amplitude in each subframe. In this case, an average power may be calculated in the feature parameter calculation means 15. Such calculations of the feature parameters are known and will not be described further. In any case, feature parameters are output from the feature parameter calculation means 15 as feature parameter signals.

Man beachte hierbei, daß die in Fig. 1 gezeigte Merkmalparameterberechnungseinrichtung 15 die Spektralparameter einer vorbestimmten Ordnung berechnet, die beispielsweise eine zehnte Ordnung sein kann. Außerdem erfolgt die folgende Be schreibung unter der Annahme, daß lineare Vorhersagekoeffizienten ai als Spektralparameter verwendet werden. Obwohl solche linearen Vorhersagekoeffizienten unter Verwendung einer bekannten LPC-Analyse, Burg-Analyse oder dgl. berechnet werden, wird in Verbindung mit dem dargestellten Beispiel angenommen, daß die Burg-Analyse verwendet wird, um die linearen Vorhersagekoeffizienten zu berechnen. Die Burg-Analyse ist ausführlich in einem Buch (Seite 82 bis 87) beschrieben, das von Nakamizo et al. geschrieben ist und den Titel trägt "Signal Analysis and System Identification", veröffentlicht von Corona Company Ltd, Tokio 1988. Daher ist die Beschreibung, soweit sie die Burg-Analyse betrifft, in der vorliegenden Anmeldung weggelassen.Note that the feature parameter calculation means 15 shown in Fig. 1 calculates the spectral parameters of a predetermined order, which may be, for example, a tenth order. In addition, the following calculation is carried out: description assuming that linear prediction coefficients ai are used as spectral parameters. Although such linear prediction coefficients are calculated using a known LPC analysis, Burg analysis or the like, in connection with the example shown, it is assumed that the Burg analysis is used to calculate the linear prediction coefficients. The Burg analysis is described in detail in a book (pages 82 to 87) written by Nakamizo et al. and entitled "Signal Analysis and System Identification", published by Corona Company Ltd, Tokyo 1988. Therefore, the description as far as the Burg analysis is concerned is omitted in the present application.

Als Alternative können die linearen Vorhersagekoeffizienten auch unter Verwendung einer Kovarianzmethode und einer Korrelationsmethode berechnet werden.Alternatively, the linear prediction coefficients can also be calculated using a covariance method and a correlation method.

Wie oben erwähnt, werden die Grundfrequenzvorhersageverstärkungsfaktoren auch in der Merkmalparameterberechnungseinrichtung 15 berechnet. Die Grundfrequenzvorhersageverstärkungsfaktoren sind durch Pg dargestellt und gegeben durch: As mentioned above, the fundamental frequency prediction gains are also calculated in the feature parameter calculator 15. The fundamental frequency prediction gains are represented by Pg and given by:

wobei gilt: T ist eine Verzögerungszeit, die eine Grundfrequenzperiode darstellt; n eine Abtastzahl; N eine maximale Abtastzahl.where: T is a delay time representing one fundamental frequency period; n is a sampling number; N is a maximum sampling number.

Anstelle der Gleichung (1) können die Grundfrequenzvorhersageverstärkungsfaktoren Pg einfach unter Verwendung der folgenden Gleichung berechnet werden: Instead of equation (1), the fundamental frequency prediction gain factors Pg can be easily calculated using the following equation:

Die mittlere Amplitude ist durch R dargestellt und gegeben durch: The mean amplitude is represented by R and given by:

Hierbei können ohne weiteres Schaltungen zur Berechnung der oben erwähnten linearen Vorhersagekoeffizienten, der Grundfrequenzvorhersageverstärkungsfaktoren Pg und der mittleren Amplitude R durch eine Kombination herkömmlicher Schaltungselemente implementiert werden. Daher werden im weiteren keine spezifischen Schaltungen zur Berechnung der linearen Vorhersagekoeffizienten, der Grundfrequenzvorhersageverstärkungsfaktoren Pg und der mittleren Amplitude beschrieben.Here, circuits for calculating the above-mentioned linear prediction coefficients, the fundamental frequency prediction gains Pg and the average amplitude R can be easily implemented by a combination of conventional circuit elements. Therefore, no specific circuits for calculating the linear prediction coefficients, the fundamental frequency prediction gains Pg and the average amplitude are described below.

Die Merkmalparameterberechnungseinrichtung 15 versorgt eine Sprachdetektionsschaltung 25 und die Rauschunterdrückungsschaltung 20 mit den Merkmalparametersignalen, die die Merkmalparameter darstellen, wie oben erwähnt. Im dargestellten Beispiel detektiert oder bestimmt die Sprachdetektionsschaltung 25 entweder die Sprechdauer oder die Nichtsprechdauer eines Sprachsignals als Antwort auf mindestens einen der Merkmalparameter. Zu diesem Zweck können sehr viele verschiedene Verfahren angewendet werden, nämlich um die Sprechdauer oder die Nichtsprechdauer zu bestimmen. Beispielsweise glättet die dargestellte Sprachdetektionsschaltung 25 zunächst die Grundfrequenzvorhersageverstärkungsfaktoren Pg und die mittlere Amplitude R, um geglättete Grundfreguenzvorhersageverstärkungsfaktoren Pg' und eine geglättete mittlere Amplitude R' zu ermitteln, und vergleicht danach die geglätteten Grundfrequenzvorhersageverstärkungsfaktoren Pg' und die geglättete mittlere Amplitude R' mit dem ersten bzw. zweiten Schwellwert TH1 bzw. TH2.The feature parameter calculator 15 supplies a speech detection circuit 25 and the noise suppression circuit 20 with the feature parameter signals representing the feature parameters as mentioned above. In the example shown, the speech detection circuit 25 detects or determines either the speech duration or the non-speech duration of a speech signal in response to at least one of the feature parameters. For this purpose, a wide variety of methods can be used to determine the speech duration or the non-speech duration. For example, the illustrated speech detection circuit 25 first smoothes the fundamental frequency prediction gains Pg and the average amplitude R to obtain smoothed fundamental frequency prediction gains Pg' and a smoothed average amplitude R', and then compares the smoothed fundamental frequency prediction gains Pg' and the smoothed average amplitude R' with the first and second thresholds TH1 and TH2, respectively.

Der oben erwähnte Glättungsvorgang der Grundfrequenzvorhersageverstärkungsfaktoren Pg und der mittleren Amplitude R werden nach der folgenden Gleichung durchgeführt:The above-mentioned smoothing process of the fundamental frequency prediction gains Pg and the average amplitude R are carried out according to the following equation:

P'j = (1- δ) P'j-1 + δ·P, (4)P'j = (1- δ) P'j-1 + δ·P, (4)

wobei gilt: P stellt die zu glättenden Grundfrequenzvorhersageverstärkungsfaktoren oder die zu glättende mittlere Amplitude dar; δ stellt die Zeitkonstante zur Glättung dar und nimmt einen Wert zwischen einschließlich 0 und einschließlich 1 an;where: P represents the fundamental frequency prediction gains or the mean amplitude to be smoothed; δ represents the time constant for smoothing and takes a value between 0 and 1 inclusive;

und P% und P'j-1 stellen geglättete Werte zu Zeitpunkten j und j-1 dar.and P% and P'j-1 represent smoothed values at times j and j-1.

Wenn im Ergebnis eines Vergleichs die geglätteten Grundfrequenzvorhersageverstärkungsfaktoren Pg' und die geglättete mittlere Amplitude R' kleiner sind als der erste bzw. zweite Schwellwert TH1 bzw. TH2, entscheidet die Sprachdetektionsschaltung 25, daß die Nichtsprechdauer im internen Eingangssignal x(n) andauert. Andernfalls entscheidet die Sprachdetektionsschaltung 25, daß die Sprechdauer im internen Eingangssignal x(n) andauert. Somit werden die Nichtsprech- und die Sprechdauer von der Sprachdetektionsschaltung 25 ermittelt. In dem Beispiel können der erste und der zweite Schwellwert TH1 bzw. TH2 invariabel oder zeitvariabel sein.If, as a result of comparison, the smoothed fundamental frequency prediction gains Pg' and the smoothed average amplitude R' are smaller than the first and second threshold values TH1 and TH2, respectively, the speech detection circuit 25 decides that the non-speech duration in the internal input signal x(n) continues. Otherwise, the speech detection circuit 25 decides that the speech duration in the internal input signal x(n) continues. Thus, the non-speech duration and the speech duration are determined by the speech detection circuit 25. In the example, the first and second threshold values TH1 and TH2 may be invariable or time-variable.

Wie oben erwähnt, weist die Sprachdetektionsschaltung 25 eine Berechnungsschaltung zur Berechnung der geglätteten Werte (nämlich der geglätteten Grundfrequenzvorhersageverstärkungsfaktoren Pg' und der geglätteten mittleren Amplitude R') entsprechend der Gleichung 4 und eine Komparatoreinheit zum Vergleichen der geglätteten Werte mit dem ersten und dem zweiten Schwellwert TH1 bzw. TH2 auf. Infolgedessen kann die dargestellte Sprachdetektionsschaltung 25 die geglättete mittlere Amplitude R' in jedem Rahmen oder in jedem Teilrahmen und ein Detektionssignal DT, das entweder die Sprech- oder die Nichtsprechdauer darstellt, in jedem Rahmen und in jedem Teilrahmen erzeugen.As mentioned above, the speech detection circuit 25 comprises a calculation circuit for calculating the smoothed values (namely, the smoothed fundamental frequency prediction gains Pg' and the smoothed average amplitude R') according to the equation 4 and a comparator unit for comparing the smoothed values with the first and second threshold values TH1 and TH2, respectively. As a result, the illustrated speech detection circuit 25 can generate the smoothed average amplitude R' in each frame or in each subframe and a detection signal DT representing either the speech or non-speech duration in each frame and in each subframe.

Die geglättete mittlere Amplitude R' wird an eine Speicherschaltung 30 abgegeben, während das Detektionssignal DT an die Rauschunterdrückungsschaltung 20 übergeben wird.The smoothed average amplitude R' is supplied to a storage circuit 30, while the detection signal DT is supplied to the noise suppression circuit 20.

Gemäß Fig. 2 zusätzlich zu Fig. 1 kann die Rauschunterdrückungsschaltung 20 so betrieben werden, daß das Rauschsignal in mindestens einer, nämlich der Sprech- und/oder der Nichtsprechdauer unterdrückt wird. In Fig. 2 weist die Rauschunterdrückungsschaltung 20 ein Umkehrfilter 201 auf, das mit dem internen Eingangssignal x(n) vom Eingangsanschluß 10 über die Rahmen- und die Teilrahmenteilungsschaltung 11 und 12 versorgt wird. Die Merkmalparameter ai werden auch von der Merkmalparameterberechnungseinrichtung 15 an das Umkehrfilter 201 übergeben. Das Umkehrfilter 201 führt einen Umkehrfilter vorgang durch, um ein umkehrgefiltertes Signal e(n) zu erzeugen, das als ein vorläufiges Schallquellensignal bezeichnet werden kann, da das umkehrgefilterte Signal e(n) eine Schallquelle bestimmt. Hier ist das umkehrgefilterte Signal e(n) gegeben durch:According to Fig. 2 in addition to Fig. 1, the noise suppression circuit 20 can be operated to suppress the noise signal in at least one of the speaking and/or non-speaking periods. In Fig. 2, the noise suppression circuit 20 comprises an inverse filter 201 which is supplied with the internal input signal x(n) from the input terminal 10 via the frame and sub-frame division circuits 11 and 12. The feature parameters ai are also supplied from the feature parameter calculation means 15 to the inverse filter 201. The inverse filter 201 performs an inverse filter process to generate an inverse filtered signal e(n), which can be called a preliminary sound source signal because the inverse filtered signal e(n) determines a sound source. Here, the inverse filtered signal e(n) is given by:

e(n) = x(n) - ai x(n - i), (5)e(n) = x(n) - ai x(n - i), (5)

wobei P eine Ordnung des Umkehrfilters 201 darstellt. Das umkehrgefilterte Signal e(n) ist also abhängig von den Merkmalparametern und bestimmt die Schallquelle.where P represents an order of the inverse filter 201. The inverse filtered signal e(n) is therefore dependent on the feature parameters and determines the sound source.

Das umkehrgefilterte Signal e(n) weist eine Sprachsignalkomponente und eine Rauschsignalkomponente, mit der die Sprachsignalkomponente überlagert ist, auf und tritt in Form eines kontinuierlichen Signals auf. Das Umkehrfilter 201 kann einfach als Filterschaltung bezeichnet werden.The inverse filtered signal e(n) has a speech signal component and a noise signal component superimposed on the speech signal component, and appears in the form of a continuous signal. The inverse filter 201 may be simply referred to as a filter circuit.

Man beachte nun, daß das umkehrgefilterte Signal e(n) von einem Impuls mit einer vergleichsweise großen Amplitude in einem Abschnitt der Sprachsignalkomponente, die in der Sprechdauer auftritt, bestimmt wird, da das Sprachsignal eine Grundfrequenz hat. Andererseits zeigt das umkehrgefilterte Signal e(n) in einem Abschnitt des Rauschsignals eine vergleichsweise kleine Amplitude.Now note that the inverse filtered signal e(n) is determined by a pulse with a comparatively large amplitude in a portion of the speech signal component that occurs in the speaking period, since the speech signal has a fundamental frequency. On the other hand, the inverse filtered signal e(n) shows a comparatively small amplitude in a portion of the noise signal.

Demzufolge kann das Rauschsignal durch Vergleichen des umkehrgefilterten Signals e(n) mit dem Schwellwert TH&sub1; unterdrückt werden.Consequently, the noise signal can be suppressed by comparing the inverse filtered signal e(n) with the threshold TH₁.

Insbesondere weist die in Fig. 2 dargestellte Rauschunterdrückungsschaltung 20 eine Schwellwertberechnungsschaltung 202 auf, die mit der geglätteten mittleren Amplitude R' versorgt wird, die von der Merkmalparameterberechnungseinrichtung 15 nach der Gleichung 4 berechnet und in der Speicherschaltung 30 gespeichert wird. Die Schwellwertberechnungsschaltung 202 berechnet den Schwellwert TH1, der gegeben ist durch:In particular, the noise reduction circuit 20 shown in Fig. 2 comprises a threshold calculation circuit 202 which is supplied with the smoothed average amplitude R' calculated by the feature parameter calculation means 15 according to the equation 4 and stored in the storage circuit 30. The threshold calculation circuit 202 calculates the threshold TH1 which is given by:

TH&sub1; = K2·R' (6)TH₁ = K2·R' (6)

um ein Schwellwertsignal zu erzeugen, das den Schwellwert TH1 darstellt, wobei K2 größer als null ist. Der Schwellwert TH1 wird also durch die mittlere Amplitude R bestimmt, die in der Speicherschaltung 30 gespeichert ist.to generate a threshold signal representing the threshold TH1, where K2 is greater than zero. The threshold TH1 is thus determined by the average amplitude R stored in the memory circuit 30.

Das umkehrgefilterte Signal e(n) und das Schwellwertsignal werden an eine Unterdrückungseinheit 203 übergeben, an die auch das Detektionssignal DT von der Sprachdetektionsschaltung 25 übergeben wird. Die Unterdrückungsschaltung 203 wird als Antwort auf das Detektionssignal DT in einen aktiven Zustand oder in einen inaktiven Zustand versetzt. In diesem Fall kann die Unterdrückungseinheit 203 das Rauschsignal in mindestens einer, nämlich der Sprechdauer und/oder der Nichtsprechdauer unterdrücken. In dem dargestellten Beispiel wird angenommen, daß die Unterdrückungseinheit 203 als Antwort auf das Detektionssignal DT in der Nichtsprechdauer in den aktiven Zustand versetzt wird, obwohl die Unterdrückungseinheit 203 in der Sprechdauer in den aktiven Zustand versetzt werden kann.The inverse filtered signal e(n) and the threshold signal are passed to a suppression unit 203, to which the detection signal DT from the speech detection circuit 25 is also passed. The suppression circuit 203 is set to an active state or an inactive state in response to the detection signal DT. In this case, the suppression unit 203 can suppress the noise signal in at least one of the speaking period and the non-speaking period. In the example shown, it is assumed that the suppression unit 203 is set to the active state in response to the detection signal DT in the non-speaking period, although the suppression unit 203 can be set to the active state in the speaking period.

Außerdem vergleicht die Unterdrückungdseinheit 203 das umkehrgefilterte Signal e(n) mit dem Schwellwertsignal. Die Unterdrückungseinheit 203 dämpft das umkehrgefilterte Signal e(n) um einen vorbestimmten Betrag oder setzt das umkehrgefilterte Signal e(n) auf null, wenn das umkehrgefilterte Signal e(n) kleiner als der Schwellwert TH&sub1; ist. Infolgedessen erzeugt die Unterdrückungseinheit 203 ein rauschunterdrücktes Signal e', das bestimmt ist durch: Furthermore, the suppression unit 203 compares the inverse filtered signal e(n) with the threshold signal. The suppression unit 203 attenuates the inverse filtered signal e(n) by a predetermined amount or sets the inverse filtered signal e(n) to zero if the inverse filtered signal e(n) is smaller than the threshold TH₁. As a result, the suppression unit 203 generates a noise-suppressed signal e' which is determined by:

wobei K größer als null und kleiner als eins ist.where K is greater than zero and less than one.

In jedem Fall dient eine Kombination aus Schwellwertberechnungsschaltung 202 und Unterdrückungseinheit 203 dazu, das Rauschsignal, das im umkehrgefilterten Signal e(n) enthalten ist, zu unterdrücken und das rauschunterdrückte Signal e'(n) zu erzeugen, und kann insgesamt als Rauschunterdrückungsteil bezeichnet werden.In any case, a combination of the threshold calculation circuit 202 and the suppression unit 203 serves to suppress the noise signal contained in the inverse filtered signal e(n) and to generate the noise-suppressed signal e'(n), and can be collectively referred to as a noise suppression part.

Das rauschunterdrückte Signal e'(n) wird zusammen mit den Merkmalparametern ai an eine Wiedergabeschaltung 204 übergeben. Die Wiedergabeschaltung 204 wandelt das rauschunterdrückte Signal e'(n) unter Berücksichtigung der Merkmalparameter a; , in ein rauschunterdrücktes Sprachsignal x'(n) um. In diesem Fall ist das rauschunterdrückte Sprachsignal x' gegeben durch:The noise-reduced signal e'(n) is passed to a playback circuit 204 together with the feature parameters ai. The playback circuit 204 converts the noise-reduced signal e'(n) into a noise-reduced speech signal x'(n) taking into account the feature parameters a;. In this case, the noise-reduced speech signal x' is given by:

x'(n) = e'(n) + ai x'(n - i). (8)x'(n) = e'(n) + ai x'(n - i). (8th)

Das rauschunterdrückte Sprachsignal x'(n) wird über einen Ausgangsanschluß 35 der Rauschunterdrückungsschaltung. 20 an einen Codierer (nicht dargestellt) geliefert, um codiert zu werden. Das rauschunterdrückte Sprachsignal x'(n) wird also während der Verarbeitung vor der Codierung erzeugt. Da die Rauschunterdrückung unter Berücksichtigung der Merkmalparameter des Eingangssignals IN durchgeführt wird, kann eine Phasenkomponente des Rauschsignals auch in dem oben erwähnten Beispiel unterdrückt werden.The noise-reduced speech signal x'(n) is supplied to an encoder (not shown) via an output terminal 35 of the noise reduction circuit 20 to be encoded. Thus, the noise-reduced speech signal x'(n) is generated during processing before encoding. Since the noise reduction is performed taking into account the feature parameters of the input signal IN, a phase component of the noise signal can be suppressed even in the above-mentioned example.

Mit Bezug auf Fig. 3 kann eine Rauschunterdrückungseinrichtung (mit 40 bezeichnet) gemäß einer zweiten Ausführungsform der Erfindung so betrieben werden, daß eine Nachbearbeitung nach der Codierung durchgeführt wird. Zu diesem Zweck ist der dargestellte Rauschprozessor 40 mit einem Decodierer 45 verbunden, der mit einem Decodierereingangssignal oder einem Eingangssignal DIN mit Merkmalparametern eines Sprachsignals und einem Indexsignal, das sich auf die Schallquelle bezieht, versorgt wird. Der Codierer 45 selbst kann dem bekannten Decodierer gleichen und erzeugt eine Sequenz von decodierten Schallquellensignalen v(n), die eine Schallquelle darstellen, zusammen mit Merkmalparametern und dem Indexsignal, wie bekannt. Die decodierte Schallquellensignalsequenz v(n) und die Merkmalparameter und das Indexsignal werden an die Rauschunterdrückungseinrichtung 40 übergeben.Referring to Fig. 3, a noise suppressor (denoted 40) according to a second embodiment of the invention can be operated to perform post-processing after coding. For this purpose, the illustrated noise processor 40 is connected to a decoder 45 which is supplied with a decoder input signal or an input signal DIN with feature parameters of a speech signal and an index signal relating to the sound source. The encoder 45 itself can be similar to the known decoder and generates a sequence of decoded sound source signals v(n) representing a sound source, together with feature parameters and the index signal, as known. The decoded sound source signal sequence v(n) and the feature parameters and the index signal are passed to the noise suppressor 40.

In der Rauschunterdrückungseinrichtung 40 wird die decodierte Schallquellensignalsequenz v(n) an eine Rauschunterdrückungsschaltung übergeben, die mit 50 bezeichnet ist und so betrieben werden kann, wie später ausführlich beschrieben wird. Ferner weist die dargestellte Rauschunterdrückungseinrichtung 40 eine Sprachdetektionsschaltung 25' und eine Speicherschaltung 30' auf, die denen in Fig. 1 dargestellten jeweils gleichen können. Aufgrund dieser Tatsache ist ohne weiteres verständlich, daß die Sprachdetektionsschaltung als Antwort auf die Merkmalparameter, z. B. die Spektralparameter, die Grundfrequenzvorhersageverstärkungsfaktoren Pg und die mittlere Amplitude R, anspricht, um entweder die Sprechdauer oder die Nichtsprechdauer zu ermitteln. Die Sprachdetektionsschaltung 25' versorgt die Rauschunterdrückungsschaltung 50 mit einem Detektionssignal DT', das entweder die Sprechdauer oder die Nichtsprechdauer anzeigt. Wie in Fig. 1 berechnet die Sprachdetektionsschaltung 25' die geglättete mittlere Amplitude R', die in der Speicherschaltung 30' gespeichert wird.In the noise suppressor 40, the decoded sound source signal sequence v(n) is passed to a noise suppression circuit, designated 50, which may be operated as described in detail later. Furthermore, the illustrated noise suppressor 40 comprises a speech detection circuit 25' and a memory circuit 30', each of which may be similar to those shown in Fig. 1. From this fact, it is readily understood that the speech detection circuit is responsive to the feature parameters, e.g., the spectral parameters, the fundamental frequency prediction gains Pg and the average amplitude R, to either determine the speech duration or the non-speech duration. The speech detection circuit 25' supplies the noise suppression circuit 50 with a detection signal DT' indicative of either the speech duration or the non-speech duration. As in Fig. 1, the speech detection circuit 25' calculates the smoothed average amplitude R' which is stored in the memory circuit 30'.

Gemäß Fig. 4 zusammen mit Fig. 3 weist die Rauschunterdrückungsschaltung 50 eine Schwellwertberechnungseinrichtung 501 auf, die mit der geglätteten mittleren Amplitude R' versorgt wird, um das Schwellwertsignal zu berechnen, das einen Schwellwert TH2 darstellt, wie in der Schwellwertberechnungsschaltung 202. Das Schwellwertsignal wird zusammen mit dem Detektionssignal DT' an die Unterdrückungseinheit 502 übergeben.According to Fig. 4 together with Fig. 3, the noise suppression circuit 50 comprises a threshold calculator 501 which is supplied with the smoothed average amplitude R' to calculate the threshold signal representing a threshold TH2 as in the threshold calculation circuit 202. The threshold signal is passed to the suppression unit 502 together with the detection signal DT'.

Die Unterdrückungseinheit 502 wird in mindestens einer, nämlich der Sprech- und/oder der Nichtsprechdauer in einen aktiven Zustand versetzt. Hier wird angenommen, daß die dargestellte Unterdrückungseinheit 502 nur in der Nichtsprechdauer aktiv wird, wie bei der Unterdrückungseinheit 203. In jedem Fall erzeugt die Unterdrückungseinheit 502 eine Sequenz von rauschunterdrückten Schallquellensignalen v'(n), die gegeben sind durch: The suppression unit 502 is set to an active state in at least one of the speaking and/or non-speaking periods. Here, it is assumed that the illustrated suppression unit 502 only becomes active in the non-speaking period, as in the case of the suppression unit 203. In any case, the suppression unit 502 generates a sequence of noise-suppressed sound source signals v'(n) given by:

wobei K mit K in Gleichung 7 identisch ist. Der Schwellwert TH2 kann dem in Gleichung 7 gleichen.where K is identical to K in equation 7. The threshold TH2 can be equal to that in equation 7.

Wenn man wiederum Fig. 3 betrachtet, so werden rauschunterdrückte Schallquellensignale v'(n) an eine Sprachwiedergabeschaltung 52 übergeben, die vom Decodierer 45 mit den Merkmalparametern versorgt wird. Die Sprachwiedergabeschaltung 52 wandelt die rauschunterdrückten Tonsignale unter Berücksichtigung der Merkmalparameter auf bekannte Weise in ein umgewandeltes Sprachsignal um. Das umgewandelte Sprachsignal wird an einen Lautsprecher oder dgl. geliefert.Referring again to Fig. 3, noise-reduced sound source signals v'(n) are supplied to a speech reproduction circuit 52 which is supplied with the feature parameters from the decoder 45. The speech reproduction circuit 52 converts the noise-reduced sound signals into a converted speech signal in a known manner, taking into account the feature parameters. The converted speech signal is supplied to a loudspeaker or the like.

Die erfindungsgemäße Rauschunterdrückungseinrichtung kann bei einer Nachbearbeitung der decodierten Schallquellensignale DIN auf die oben beschriebene Weise verwendet werden.The noise suppression device according to the invention can be used in post-processing the decoded sound source signals DIN in the manner described above.

Obwohl die Erfindung im Zusammenhang mit wenigen Ausführungsformen beschrieben worden ist, ist es dem Fachmann ohne weiteres möglich, sie auf verschiedene andere Weisen in die Praxis umsetzen. Beispielsweise müssen die Merkmalparameter nicht immer auf lineare Vorhersagekoeffizienten beschränkt sein, sondern können irgendwelche andere bekannte Parameter sein. Außerdem können irgendwelche anderen Parameter als die mittlere Amplitude und die Grundfrequenzvorhersageverstärkungsfaktoren verwendet werden. Die Sprachdetektionsschaltung 25 oder 25' kann auf eine Weise betrieben werden, die sich von der in Fig. 1 und 3 dargestellten unterscheidet.Although the invention has been described in connection with a few embodiments, it will be readily possible for those skilled in the art to put it into practice in various other ways. For example, the feature parameters need not always be limited to linear prediction coefficients, but may be any other known parameters. In addition, any parameters other than the average amplitude and the fundamental frequency prediction gains may be used. The speech detection circuit 25 or 25' may be operated in a manner different from that shown in Figs. 1 and 3.

Außerdem kann die Nachbearbeitung durchgeführt werden, um das Rauschsignal auch dann zu unterdrücken, wenn die Merkmalparameter nicht von einem Sender mitgesendet und nicht von einem Decodierer 45 (Fig. 3) empfangen werden. In diesem Fall wird das Sprachsignal von einem Empfänger einmal zurückverwandelt, um eine zurückverwandelte Sprachwellenform auszubilden und um danach Merkmalparameter aus der zurückverwandelten Sprachwellenform auf eine Weise zu berechnen, die in Verbindung mit Fig. 1 beschrieben worden ist. Die Merkmalparameter können verwendet werden, um das Rauschsignal auf die oben beschriebene Weise zu unterdrücken.In addition, post-processing may be performed to suppress the noise signal even if the feature parameters are not transmitted by a transmitter and are not received by a decoder 45 (Fig. 3). In this case, the speech signal is once reconverted by a receiver to form a reconverted speech waveform and then to calculate feature parameters from the reconverted speech waveform in a manner described in connection with Fig. 1. The feature parameters may be used to suppress the noise signal in the manner described above.

Bei dieser Struktur ist die Rauschunterdrückung sowohl während der Vorverarbeitung als auch während der Nachbearbeitung des Sprachsignals möglich. Außerdem kann nicht nur das Rauschsignal, das in der Nichtsprechdauer auftritt, unterdrückt werden, sondern auch ein Nichtsprechsignal, mit dem das Sprachsignal überlagert ist, das in der Sprechdauer auftritt. Eine solche Unterdrückung kann an der Wellenform erfolgen.With this structure, noise suppression is possible both during preprocessing and postprocessing of the speech signal. In addition, not only the noise signal that occurs in the non-speech period can be suppressed, but also a non-speech signal that is superimposed on the speech signal that occurs in the speech period. Such suppression can be performed on the waveform.

Claims (7)

1. Rauschunterdrückungseinrichtung, die mit einem internen Eingangssignal IN, das sowohl ein Sprachsignal als auch ein Rauschsignal aufweist, versorgt wird, um ein Ausgangssignal zu erzeugen, das im wesentlichen frei von dem Rauschsignal ist, wobei das Sprachsignal von einer Schallquelle bestimmt wird, wobei die Rauschunterdrückungseinrichtung aufweist: eine Merkmalparameterberechnungseinrichtung (15), die mit dem internen Eingangssignal versorgt wird, zur Berechnung eines Merkmalparameters, der ein Merkmal des Sprachsignals bestimmt, um ein Merkmalparametersignal zu erzeugen, das den Merkmalparameter darstellt, und eine Rauschunterdrückungseinrichtung (20), die mit der Merkmalparameterberechnungseinrichtung (15) verbunden ist, zur Entfernung des Rauschsignals aus dem internen Eingangssignal, um das Ausgangssignal zu erzeugen,1. Noise suppression device supplied with an internal input signal IN comprising both a speech signal and a noise signal to produce an output signal substantially free of the noise signal, the speech signal being determined from a sound source, the noise suppression device comprising: feature parameter calculation means (15) supplied with the internal input signal for calculating a feature parameter determining a feature of the speech signal to produce a feature parameter signal representing the feature parameter, and noise suppression means (20) connected to the feature parameter calculation means (15) for removing the noise signal from the internal input signal to produce the output signal, wobei die Rauschunterdrückungseinrichtung aufweist:wherein the noise suppression device comprises: eine Unterdrückungseinheit (203) zum Entfernen des Rauschsignals aus einem Restsignal (e(n)) durch Schätzen des Rauschsignals, um ein rauschunterdrücktes Signal (e'(n)) zu erzeugen; unda suppression unit (203) for removing the noise signal from a residual signal (e(n)) by estimating the noise signal to generate a noise-suppressed signal (e'(n)); and eine Ausgangseinrichtung (204) zum Erzeugen des rauschunterdrückten Signals als das Ausgangssignal; und gekennzeichnet ist durchan output device (204) for generating the noise suppressed signal as the output signal; and characterized by eine Filtereinrichtung (201), die mit dem Merkmalparametersignal (ai) und dem internen Eingangssignal versorgt wird, zum Filtern des internen Eingangssignals (x (n)), um ein gefiltertes Signal zu erzeugen, das von dem Merkmalparameter (ai) abhängig ist und das die Schallquelle in dem Restsignal (e(n)) berechnet, das die Differenz zwischen der Merkmalparametersignaldarstellung und dem internen Eingangssignal dar stellt; wobei die Unterdrückungseinheit mit der Filtereinrichtung (201) gekoppelt ist.a filter device (201) supplied with the feature parameter signal (ai) and the internal input signal for filtering the internal input signal (x (n)) to produce a filtered signal which is dependent on the feature parameter (ai) and which calculates the sound source in the residual signal (e(n)) which represents the difference between the feature parameter signal representation and the internal input signal wherein the suppression unit is coupled to the filter device (201). 2. Rauschunterdrückungseinrichtung nach Anspruch 1, wobei das Sprachsignal in eine Sprechdauer und eine Nichtsprechdauer teilbar ist, wobei die Rauschunterdrückungseinrichtung (20) ferner aufweist:2. Noise suppression device according to claim 1, wherein the speech signal is divisible into a speaking period and a non-speaking period, the noise suppression device (20) further comprising: eine Sprachdetektionseinrichtung (25), die mit der Merkmalparameterberechnungseinrichtung (15) gekoppelt ist, zur Berechnung der Sprech- und der Nichtsprechdauer als Antwort auf das Merkmalparametersignal, um ein Detektionssignal zu erzeugen, das entweder die Sprech- oder die Nichtsprechdauer darstellt;a speech detection device (25) coupled to the feature parameter calculation device (15) for calculating the speaking and non-speaking durations in response to the feature parameter signal to produce a detection signal representing either the speaking or non-speaking duration; eine MittelwertberechnungseinrichLung (30), die mit der Sprachdetektionseinrichtung gekoppelt ist, zum Berechnen eines Mittelwerts entweder der Leistung oder einer Amplitude in der Nichtsprechdauer, um ein Mittelwertsignal zu erzeugen, das den Mittelwert darstellt;an average calculation device (30) coupled to the speech detection device for calculating an average of either the power or an amplitude in the non-speech period to produce an average signal representing the average; wobei die Rauschunterdrückungseinrichtung (20) ferner aufweist:wherein the noise suppression device (20) further comprises: eine Schwellwertberechnungseinrichtung (202) zum Berechnen des Schwellwerts aus dem Mittelwertsignal, um die Unterdrückungseinheit (203) mit einem Schwellwertsignal (TH&sub1;) zu versorgen, das den Schwellwert darstellt, um zu bewirken, daß die Unterdrückungseinheit (203) das gefilterte Signal mit dem Schwellwertsignal vergleicht und daß die Unterdrückungseinheit das Rauschsignal unterdrückt.a threshold value calculator (202) for calculating the threshold value from the mean value signal to supply the suppression unit (203) with a threshold value signal (TH₁) representing the threshold value to cause the suppression unit (203) to compare the filtered signal with the threshold value signal and the suppression unit to suppress the noise signal. 3. Rauschunterdrückungseinrichtung nach Anspruch 2, wobei die Unterdrückungseinheit (203) ferner mit dem Detektionssignal (DT) versorgt wird, um in mindestens einer, nämlich der Sprech- und/oder der Nichtsprechdauer in einen aktiven Zustand versetzt zu werden.3. Noise suppression device according to claim 2, wherein the suppression unit (203) is further supplied with the detection signal (DT) in order to be put into an active state in at least one of the speaking and/or non-speaking periods. 4. Rauschunterdrückungseinrichtung nach Anspruch 1, 2 oder 3, wobei die Merkmalparameterberechnungseinrichtung (15) als den Merkmalparameter (ai) Spektralparameter, die ein Spektrum des internen Eingangssignals darstellen, eine Grundfrequenzperiode des internen Eingangssignals und eine mittlere Amplitude des internen Eingangssignals berechnet.4. A noise suppression device according to claim 1, 2 or 3, wherein the feature parameter calculation means (15) calculates as the feature parameter (ai) spectral parameters representing a spectrum of the internal input signal, a fundamental frequency period of the internal input signal and an average amplitude of the internal input signal. 5. Rauschunterdrückungseinrichtung nach Anspruch 1, 2, 3 oder 4, wobei das interne Eingangssignal in eine Sequenz von Rahmen geteilt wird, von denen jeder für ein vorbestimmtes Zeitintervall andauert, das Sprachsignal von einer Schallquelle erzeugt wird und ein Spektrum aufweist, das mindestens von einem Merkmalparameter bestimmt wird, und in eine Sprechdauer und eine Nichtsprechdauer teilbar ist, die Unterdrückungseinrichtung aufweist: eine Merkmalparameterberechnungseinrichtung zum Berechnen des mindestens einen Merkmalsparameters, um ein Merkmalparametersignal zu erzeugen, das den mindestens einen Merkmalparameter darstellt, und eine Sprachdetektionseinrichtung, die mit der Merkmalparameterberechnungseinrichtung (15) gekoppelt ist, zum Ermitteln der Sprech- und der Nichtsprechdauer als Antwort auf das Merkmalparametersignal, um ein Detektionssignal zu erzeugen, das entweder die Sprech- oder die Nichtsprechdauer darstellt,5. Noise suppression device according to claim 1, 2, 3 or 4, wherein the internal input signal is divided into a sequence of frames each lasting for a predetermined time interval, the speech signal is generated by a sound source and has a spectrum determined by at least one feature parameter and is divisible into a speaking duration and a non-speaking duration, the suppression device comprises: feature parameter calculation means for calculating the at least one feature parameter to generate a feature parameter signal representative of the at least one feature parameter, and speech detection means coupled to the feature parameter calculation means (15) for determining the speaking and non-speaking durations in response to the feature parameter signal to generate a detection signal representative of either the speaking or non-speaking duration, eine Mittelwertspeichereinrichtung mit der Sprachdetektionseinrichtung gekoppelt ist, zum Speichern eines Mittelwerts entweder der Leistung oder einer Amplitude des internen Eingangssignals in der Nichtsprechdauer, um ein Mittelwertsignal zu erzeugen, das dem Mittelwert entspricht; undan average storage device is coupled to the speech detection device for storing an average of either the power or an amplitude of the internal input signal in the non-speech period to generate an average signal corresponding to the average; and die Rauschunterdrückungseinrichtung (20) mit der Merkmalparameterberechnungseinrichtung (15), der Sprachdetektionseinrichtung und der Mittelwertberechnungseinrichtung gekoppelt ist, zum Unterdrücken des Rauschsignals unter Berücksichtigung des Merkmalparametersignals, des Detektionssignals, des Mittelwertsignals und des internen Eingangssignals, um das Ausgangssignal zu erzeugen.the noise suppression device (20) is coupled to the feature parameter calculation device (15), the speech detection device and the mean value calculation device for suppressing the noise signal taking into account the feature parameter signal, the detection signal, the mean value signal and the internal input signal in order to generate the output signal. 6. Rauschunterdrückungseinrichtung, die als Antwort auf ein Merkmalparametersignal, das ein Sprachsignal bestimmt, und auf ein Schallquellensignal (v(n)), das eine Schallquelle des Sprachsignals darstellt, betriebsfähig ist, um ein Rauschsignal aus dem Schallquellensignal zu entfernen und ein Ausgangssignal (v'(n)) zu erzeugen, das im wesentlichen frei von dem Rauschsignal ist, wobei das Sprachsignal in eine Sprechdauer und eine Nichtsprechdauer teilbar ist, wobei das Schallquellensignal in Form eines Fehlersignals auftritt, das bei der Vorverarbeitung dadurch erzeugt wird, daß ein Eingangs signal durch ein Umkehrfilter laufen gelassen wird, das von dem Merkmalparametersignal gesteuert wird, wobei die Rauschunterdrückungseinrichtung gekennzeichnet ist durch:6. Noise suppression device operable in response to a feature parameter signal defining a speech signal and to a sound source signal (v(n)) representing a sound source of the speech signal, to remove a noise signal from the sound source signal and to produce an output signal (v'(n)) substantially free of the noise signal, the speech signal being divisible into a speech duration and a non-speech duration, the sound source signal appearing in the form of an error signal generated during preprocessing by an input signal is passed through an inverse filter controlled by the feature parameter signal, the noise suppression device being characterized by: eine Rauschunterdrückungsschaltung (50) zum Entfernen des Rauschsignals aus dem Schallquellensignal unter Berücksichtigung des Merkmalparametersignals, um ein rauschunterdrücktes Signal (v'(n)) zu erzeugen;a noise suppression circuit (50) for removing the noise signal from the sound source signal taking into account the feature parameter signal to generate a noise-suppressed signal (v'(n)); eine Einrichtung (52) zum Erzeugen des rauschunterdrückten Signals als das Ausgangssignal.means (52) for generating the noise suppressed signal as the output signal. 7. Rauschunterdrückungseinrichtung nach Anspruch 6, gekennzeichnet durch:7. Noise suppression device according to claim 6, characterized by: eine Sprachdetektionseinrichtung (25'), die mit den Merkmalparametersignalen versorgt wird, zum Ermitteln der Sprech- und der Nichtsprechdauer, um ein Detektionssignal zu erzeugen, das entweder die Sprech- oder die Nichtsprechdauer darstellt; unda speech detection device (25') supplied with the feature parameter signals for determining the speech and non-speech durations to generate a detection signal representing either the speech or non-speech duration; and eine Mittelwertspeichereinrichtung (30'), die mit der Sprachdetektionseinrichtung gekoppelt ist, zum Speichern eines Mittelwerts entweder der Leistung oder einer Amplitude des Sprachsignals in der Nichtsprechdauer, um ein Mittelwertsignal zu erzeugen, das den Mittelwert darstellt;an average storage device (30') coupled to the speech detection device for storing an average of either the power or an amplitude of the speech signal in the non-speech period to generate an average signal representing the average; wobei die Rauschunterdrückungsschaltung (50) das Rauschsignal auch unter Berücksichtigung des Mittelwertsignals unterdrückt.wherein the noise suppression circuit (50) suppresses the noise signal also taking into account the mean value signal.
DE1994623703 1993-11-29 1994-11-29 Noise reduction device for pre-processing and / or post-processing of speech signals Expired - Lifetime DE69423703T2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29717693A JP2739811B2 (en) 1993-11-29 1993-11-29 Noise suppression method

Publications (2)

Publication Number Publication Date
DE69423703D1 DE69423703D1 (en) 2000-05-04
DE69423703T2 true DE69423703T2 (en) 2000-07-27

Family

ID=17843166

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1994623703 Expired - Lifetime DE69423703T2 (en) 1993-11-29 1994-11-29 Noise reduction device for pre-processing and / or post-processing of speech signals

Country Status (3)

Country Link
EP (1) EP0655731B1 (en)
JP (1) JP2739811B2 (en)
DE (1) DE69423703T2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3591068B2 (en) * 1995-06-30 2004-11-17 ソニー株式会社 Noise reduction method for audio signal
US7225001B1 (en) 2000-04-24 2007-05-29 Telefonaktiebolaget Lm Ericsson (Publ) System and method for distributed noise suppression
KR101235830B1 (en) * 2007-12-06 2013-02-21 한국전자통신연구원 Apparatus for enhancing quality of speech codec and method therefor
CN103168326A (en) * 2010-08-11 2013-06-19 骨声通信有限公司 Background sound removal for privacy and personalization use
JP6759898B2 (en) 2016-09-08 2020-09-23 富士通株式会社 Utterance section detection device, utterance section detection method, and computer program for utterance section detection

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
KR950013551B1 (en) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 Noise signal predictting dvice
JPH05188994A (en) * 1992-01-07 1993-07-30 Sony Corp Noise suppression device

Also Published As

Publication number Publication date
JP2739811B2 (en) 1998-04-15
JPH07152395A (en) 1995-06-16
EP0655731A3 (en) 1997-05-28
DE69423703D1 (en) 2000-05-04
EP0655731A2 (en) 1995-05-31
EP0655731B1 (en) 2000-03-29

Similar Documents

Publication Publication Date Title
DE60034026T2 (en) LANGUAGE IMPROVEMENT WITH LANGUAGE ACTIVITY-CONTROLLED LIMITATIONS
DE69526007T2 (en) Post filter and post filtering method
EP1005695B1 (en) Method and device for detecting a transient in a discrete-time audiosignal, and device and method for coding an audiosignal
DE69420027T2 (en) NOISE REDUCTION
DE69810754T2 (en) HIGH-RESOLUTION POST-PROCESSING METHOD FOR A LANGUAGE DECODER
DE69714431T2 (en) METHOD FOR IMPROVING NOISY LANGUAGE AND DEVICE
EP1869671B1 (en) Noise suppression process and device
DE60308567T2 (en) Decoding device, coding device, decoding method and coding method
DE60129771T2 (en) LAGUERRE FUNCTION FOR AUDIO CODING
EP1386307B2 (en) Method and device for determining a quality measure for an audio signal
DE4126902A1 (en) Speech interval establishment unit for speech recognition system - operates in two stages on filtered, multiplexed and digitised signals from speech and background noise microphones
EP1825461A1 (en) Method and apparatus for artificially expanding the bandwidth of voice signals
WO2005083678A1 (en) Device and method for processing a multi-channel signal
DE69720134T2 (en) Speech recognizer using fundamental frequency intensity data
DE60200632T2 (en) Method for voice activity detection in a signal, and voice encoder with device for carrying out the method
DE60212617T2 (en) DEVICE FOR LANGUAGE IMPROVEMENT
EP0993672B1 (en) Method for voice signal coding and/or decoding by means of a long term prediction and a multipulse excitation signal
DE69130687T2 (en) Speech signal processing device for cutting out a speech signal from a noisy speech signal
DE69411817T2 (en) METHOD AND DEVICE FOR CODING / DECODING BACKGROUND NOISE
DE69521272T2 (en) Restoration of a sequence of language code parameters by means of classification and a list of the parameter courses
EP3065417A1 (en) Method for suppressing interference noise in an acoustic system
DE68907098T2 (en) Differential encoder with auto-adaptive predictor filter and associated decoder.
DE19716862A1 (en) Voice activity detection
DE69423703T2 (en) Noise reduction device for pre-processing and / or post-processing of speech signals
DE10157535B4 (en) Method and apparatus for reducing random, continuous, transient disturbances in audio signals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition