DE19907900B4

DE19907900B4 - Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Info

Publication number: DE19907900B4
Application number: DE19907900A
Authority: DE
Inventors: Dr. Arevalo Luis; Andreas Korthauer
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 1999-02-24
Filing date: 1999-02-24
Publication date: 2013-11-21
Anticipated expiration: 2019-02-25
Also published as: DE19907900A1

Abstract

Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei einem gestörten Sprachsignal mit folgenden Schritten: – Es wird die Auftrittswahrscheinlichkeit für Sprachanteile anhand mindestens einer charakteristischen Sprachsignalgröße ermittelt (7), von denen die erste charakteristische Sprachsignalgröße die Kurzzeitleistung des gestörten Sprachsignals ist, indem das gestörte Sprachsignal einer Filterung (3) unterzogen wird, die den Störanteil reduziert, und eine Häufigkeitsverteilung in Abhängigkeit der gefilterten Werte erstellt wird, – bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses wird/werden die zu mittelnde(n) Sprachsignalgröße(n) mit der Auftrittswahrscheinlichkeit für Sprachanteile bewertet, – wobei zur Bestimmung der mittleren Signalleistungen für Sprachanteile und Sprachpausen die Kurzzeitleistung des gestörten Sprachsignals mit der Auftrittswahrscheinlichkeit der Sprachanteile sowie der Sprachpausen verknüpft und das Signal-zu-Rauschverhältnis durch Differenzbildung (10) dieser beiden verknüpften Werte ermittelt wird.A method for determining the signal-to-noise ratio in a disturbed speech signal comprising the following steps: - The probability of occurrence of speech components is determined based on at least one characteristic speech signal magnitude (7), of which the first characteristic speech signal magnitude is the short-term power of the disturbed speech signal by the disturbed speech signal Speech signal is subjected to a filtering (3), which reduces the noise component, and a frequency distribution is created as a function of the filtered values, - in averaging (9, 10) for obtaining the signal-to-noise ratio, the (n Speech signal size (s) evaluated with the probability of occurrence for speech components, - wherein the short-term power of the disturbed voice signal with the probability of occurrence of the speech components and the speech pauses linked and to determine the average signal powers for speech components and pauses the signal-to-noise ratio is determined by subtraction (10) of these two associated values.

Description

Stand der TechnikState of the art

Die Erfindung geht aus von einem Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei gestörten Sprachsignalen. Das Signal-zu-Rauschverhältnis (SNR) ist z. B. eine wichtige Größe zur Bewertung von Datenbasen bei der Entwicklung von Anwendungen für die automatische Spracherkennung. In der Literatur wird häufig das sogenannte Segment-SNR [1] verwendet, um das SNR für Sprachsignale anzugeben. Dieses Verfahren benötigt ein ungestörtes Referenzsignal, welches ein genaues Abbild der Sprachanteile des gestörten Signales enthalten muß. Aus der Differenz von Referenzsignal und gestörtem Signal wird die Störung berechnet. Die Kurzzeitleistungen des Referenzsignals und der Störung werden in Signalsegmenten von etwa 10 ms Dauer ermittelt und zur Berechnung eines „Kurzzeit-SNR” verwendet. Bei endlich langen Signalen können diese SNR-Werte einer Mittelwertbildung zugeführt werden. Daraus ergibt sich das mittlere Segment-SNR für die Sprachprobe. Bei der Mittelwertbildung müssen jedoch Sprachpausen, in denen nur das Störgeräusch vorhanden ist, ausgeschlossen werden. Für alle Signalsegmente muß deshalb eine Sprachpausendetektion durchgeführt werden. Die Sprachpausendetektion kann z. B. über den Vergleich der Kurzzeitleistung des Referenzsignals mit einer konstanten Leistungsschwelle erfolgen. Bei gemessenen Signalen, z. B. im Kraftfahrzeug, ist die Forderung nach einem Referenzsignal jedoch meist nicht einzuhalten, so daß das Segment SNR nur sinnvoll eingesetzt werden kann, wenn Sprachsignal und Störung getrennt vorliegen, d. h. im Falle simulierter Störungen.The invention is based on a method for determining the signal-to-noise ratio in the case of disturbed speech signals. The signal-to-noise ratio (SNR) is z. For example, it is an important tool for evaluating databases when developing automatic speech recognition applications. In the literature, the so-called segment SNR [1] is often used to specify the SNR for speech signals. This method requires an undisturbed reference signal, which must contain an accurate image of the speech components of the disturbed signal. The difference is calculated from the difference between the reference signal and the disturbed signal. The short-term powers of the reference signal and the disturbance are determined in signal segments of about 10 ms duration and used to calculate a "short-term SNR". For finite signals, these SNR values can be averaged. This results in the mean segment SNR for the speech sample. When averaging but speech pauses in which only the noise is present, must be excluded. For all signal segments therefore a speech pause detection must be performed. The speech pause detection can z. B. via the comparison of the short-term power of the reference signal with a constant power threshold. For measured signals, eg. As in the motor vehicle, the demand for a reference signal, however, is usually not met, so that the segment SNR can only be used meaningfully if speech signal and interference are present separately, d. H. in case of simulated disturbances.

In [2] wird ein Verfahren zur SNR-Messung vorgestellt, das auf ein ungestörtes Referenzsignal verzichtet. Dort wird das „Mean-SNR” eingeführt, das sich auf ein Verfahren zur Sprachpausendetektion am gestörten Signal stützt. Zur Erkennung von Sprachpausen wird aus den logarithmierten Werten der Kurzzeitleistung des gestörten Signals ein Histogramm erstellt. Das Histogramm wird durch die Überlagerung zweier Gauß-Funktionen approximiert, und aus dem Schnittpunkt der Gauß-Funktionen wird die Leistungsschwelle für die Sprachpausendetektion bestimmt. Unterschreitet die Kurzzeitleistung des Signals diese Leistungsschwelle, so wird eine Sprachpause erkannt. Anhand der Sprachpausendetektion können für die Signalabschnitte mit Sprachaktivität und mit Sprachpause jeweils mittlere Leistungen des gestörten Signals berechnet werden. Das Mean-SNR wird aus der Differenz der logarithmierten Werte dieser Leistungen bestimmt.In [2] a method for SNR measurement is presented which dispenses with an undisturbed reference signal. There, the "mean SNR" is introduced, which is based on a method for speech pause detection of the disturbed signal. To detect speech pauses, a histogram is created from the logarithmic values of the short-term power of the disturbed signal. The histogram is approximated by the superposition of two Gaussian functions, and from the intersection of the Gaussian functions the power threshold for the speech pause detection is determined. If the short-term power of the signal falls below this power threshold, then a speech pause is detected. On the basis of speech pause detection, average powers of the perturbed signal can be calculated for the signal sections with voice activity and with speech pause. The mean SNR is determined from the difference between the logarithmic values of these powers.

Das Mean-SNR weicht von der bekannten Definition des Signal-zu-Rauschverhältnisses – wie sie auch dem Segment-SNR zugrunde liegt – ab, weil es die Leistung des gestörten Signals, also Signal und Rauschen, zur Leistung des Rauschens ins Verhältnis setzt. Im logarithmischen Maßstab nähert sich das Mean-SNR daher für stark gestörte Signale dem Wert 0 dB an und kann keine negativen Werte annehmen. Diese Sättigung führt dazu, daß das Mean-SNR bei stark gestörten Signalen keine quantitativen Aussagen über unterschiedliche Störungen zuläßt. Auch die zuvor beschriebene Sprachpausendetektion kann nur bei relativ gering gestörten Signalen verwendet werden, da sonst das Histogramm keine deutliche Trennung in hohe und niedrige Leistungswerte mehr erlaubt.The mean SNR deviates from the well-known definition of the signal-to-noise ratio, as it also underlies the segment SNR, because it relates the power of the disturbed signal, ie signal and noise, to the power of the noise. On a logarithmic scale, the mean SNR therefore approaches the value 0 dB for strongly disturbed signals and can not assume negative values. This saturation means that the mean SNR does not permit quantitative statements about different disturbances in strongly disturbed signals. The speech pause detection described above can also be used only with relatively poorly disturbed signals, since otherwise the histogram no longer allows a clear separation into high and low power values.

Aus der DE 27 05 386 A1 sind ein Verfahren und eine Vorrichtung zum Bearbeiten rauschbehafteter Signale bekannt. Dabei werden sowohl Signalpausen detektiert als auch das gestörte Eingangssignal einer Filterung unterzogen, die den Störanteil reduziert.From the DE 27 05 386 A1 For example, a method and an apparatus for processing noisy signals are known. Both signal pauses are detected and the faulty input signal subjected to filtering, which reduces the noise component.

Die DE 22 33 976 A1 beschreibt eine Schaltungsanordnung, die Signalpausen in einem rauschbehafteten Signal erkennt.The DE 22 33 976 A1 describes a circuit arrangement that detects signal pauses in a noisy signal.

Vorteile der ErfindungAdvantages of the invention

Mit den Maßnahmen gemäß den Merkmalen des Anspruchs 1 ist es möglich, das Signal-zu-Rauschverhältnis von gestörten Signalen zu ermitteln, ohne daß ein ungestörtes Referenzsignal notwendig ist. Durch die Filterung des gestörten Sprachsignals für die Ermittlung der Auftrittswahrscheinlichkeit von Sprachanteilen gegenüber Sprachpausen ist eine Sprachpausendetektion bzw. eine Detektion von Sprachanteilen auch für stark gestörte Sprachsignale zuverlässig möglich.With the measures according to the features of claim 1, it is possible to determine the signal-to-noise ratio of disturbed signals without an undisturbed reference signal is necessary. By filtering the disturbed speech signal for determining the probability of occurrence of speech components with respect to speech pauses, a speech pause detection or a detection of speech components is reliably possible even for strongly disturbed speech signals.

Im Gegensatz zum vorgenannten Stand der Technik wird bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses keine zweiwertige Entscheidung zwischen Sprachanteilen und Sprachpausen anhand einer konstanten Leistungsschwelle verwendet, sondern es wird eine kontinuierliche Größe, die sogenannte Sprachwahrscheinlichkeit, d. h. die Auftrittswahrscheinlichkeit von Sprachanteilen im gestörten Sprachsignal, herangezogen. Mit dieser Sprachwahrscheinlichkeit wird eine charakteristische Sprachsignalgröße, z. B. die Kurzzeitleistung, des gestörten Sprachsignals, bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses bewertet. Dadurch werden fehlerhafte Entscheidungen, welche den Wert des Mean-SNR (Mittelwert des Signal-zu-Rauschverhältnisses) verfälschen könnten, vermieden.In contrast to the afore-mentioned prior art, in averaging to obtain the signal-to-noise ratio, no two-valued decision between speech components and speech pauses is used on the basis of a constant power threshold, but a continuous quantity, the so-called speech probability, ie the probability of occurrence of speech components in the disturbed one Speech signal, used. With this probability of speech, a characteristic speech signal magnitude, e.g. B. the short-term power, the disturbed speech signal, evaluated in the averaging to obtain the signal-to-noise ratio. As a result, erroneous decisions that could corrupt the value of the mean SNR (mean value of the signal-to-noise ratio) are avoided.

In einer Weiterbildung gemäß Anspruch 2 wird durch eine nichtlineare Transformation ein modifiziertes Signal-zu-Rauschverhältnis (Mean-SNR) gebildet. Damit wird der mögliche Wertebereich des Mean-SNR im logarithmischen Maßstab auf negative Zahlenwerte erweitert und die Sättigung des Mean-SNR wird vermieden.In a further development according to claim 2, a modified signal-to-noise ratio (mean SNR) is formed by a non-linear transformation. This expands the possible value range of the mean SNR on a logarithmic scale to negative numerical values and the saturation of the mean SNR is avoided.

Die weiteren Ansprüche zeigen vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens insbesondere der Ermittlung der Sprachwahrscheinlichkeit auf, bzw. eine Anordnung zum Durchführen des Verfahrens, sowie seine Verwendung.The further claims show advantageous developments of the method according to the invention in particular the determination of the likelihood of speech, or an arrangement for carrying out the method, as well as its use.

Zeichnungendrawings

Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindungen näher erläutert. Es zeigenReference to the drawings embodiments of the invention will be explained in more detail. Show it

1 ein Blockschaltbild zur Ermittlung des Signal-zu-Rauschverhältnisses gestörter Sprachsignale, 1 a block diagram for determining the signal-to-noise ratio of disturbed speech signals,

2 die Approximation eines Histogramms der Kurzzeitleistung durch die Überlagerung von zwei Normalverteilungen, 2 the approximation of a short-term power histogram by the superposition of two normal distributions,

3 die Erweiterung der Sprachpausendetektion für mehrere Kriterien. 3 the extension of speech pause detection for multiple criteria.

Beschreibung von AusführungsbeispielenDescription of exemplary embodiments

Das Blockschaltbild gemäß 1 gliedert sich in die Einheiten Sprachpausendetektion 2 und SNR-Messung 1.The block diagram according to 1 is divided into the units speech pause detection 2 and SNR measurement 1 ,

Für die Sprachpausendetektion 2 wird das Eingangssignal y so gefiltert, daß der Einfluß der Störung im Signal reduziert wird. Hierbei kann z. B. das bekannte Verfahren der spektralen Subtraktion oder ein fest entworfenes Filter 3 eingesetzt werden. Durch die Filterung werden typische Störgeräusche reduziert. Im Kraftfahrzeug sind dies vor allem das tieffrequente Motorgeräusch und das hochfrequente Wind- und Fahrgeräusch. Die Filterung wird im Frequenzbereich mit einer spektralen Gewichtung W(Ω_ν) der geschätzten Leistungsdichte Φ_yy (Ω_νk) durchgeführt:

For speech pause detection 2 the input signal y is filtered so that the influence of the disturbance in the signal is reduced. This z. As the known method of spectral subtraction or a well-designed filter 3 be used. Filtering reduces typical noise. In the motor vehicle, these are mainly the low-frequency engine noise and the high-frequency wind and driving noise. The filtering is carried out in the frequency domain with a spectral weighting W (Ω _ν ) of the estimated power density Φ _yy (Ω _νk ):

Die gewählte Gewichtungsfunktion hat die Form W(Ω_ν) = 1 – cos²Ω_ν. The selected weighting function has the form W (Ω _ν ) = 1 - cos ² Ω _ν .

Anhand des entstörten, d. h. in seinem Störanteil reduzierten Signals wird nun im Block 4 die Kurzzeitleistung bestimmt und aus den logarithmierten Werten dieser Kurzeitleistung ein Histogramm (Block 5) erstellt. Durch ein geeignetes iteratives Verfahren wird die Häufigkeitsverteilung des Histogramms durch die Überlagerung zweier Funktionen p(E|Pause) und p(E|Sprache) approximiert (Block 6). In Block 7 wird wie nachfolgend näher erläutert die Sprachwahrscheinlichkeit ermittelt.On the basis of the interference-suppressed, ie reduced signal in its interference component is now in the block 4 determines the short-term power and from the logarithmierten values of this Kurzeitleistung a histogram (block 5 ) created. By a suitable iterative method, the frequency distribution of the histogram is determined by the superposition of two functions p ( e | Pause) and p ( e | Language) approximated (block 6 ). In block 7 is explained in more detail below, the language probability determined.

Die Funktionen p(E|Pause) und p(E|Sprache) stellen Häufigkeitsverteilungen der Kurzzeitleistungen für die Ereignisse „Pause” und „Sprache” dar und können, wie z. B. in 2 dargestellt, Normalverteilungen sein. Es sind aber auch beliebige andere Funktionen denkbar, solange sie die Normierungsbedingung für Häufigkeitsverteilungen bzw. Wahrscheinlichkeitsdichten erfüllen:

The functions

p ( e | Pause) and p ( e | Language)

represent frequency distributions of the short-term performances for the events "pause" and "language" and can, for example In 2 shown to be normal distributions. However, any other functions are also conceivable as long as they fulfill the normalization condition for frequency distributions or probability densities:

Für die Überlagerung von p(E|Pause) und p(E|Sprache) wird angenommen, daß die Ereignisse „Pause” und „Sprache” a priori gleich wahrscheinlich sind. Daher werden die Häufigkeitsverteilungen jeweils mit dem Faktor ½ gewichtet: p(E) = ½p(E|Sprache) + ½p(E|Pause) For the overlay of p ( e | Pause) and p ( e | Language) It is assumed that the events "pause" and "language" are equally probable a priori. Therefore, the frequency distributions are each weighted by the factor ½: p ( e ) = ½p ( e | Language) + ½p ( e | Pause)

Aus den Häufigkeitsverteilungen und dem logarithmierten Wert der Kurzzeitleistung E _k kann für jedes Segment k des entstörten Signals nach dem bekannten Bayes'schen Theorem eine Wahrscheinlichkeit p_k(Sprache) = p(Sprache|E _k) dafür angegeben werden, ob das Segment k Sprache enthält.From the frequency distributions and the logarithmic value of the short-term power e _k For each segment k of the interference-suppressed signal according to the known Bayesian theorem a probability p _k (language) = p (language | e _k ) to indicate if segment k contains language.

Die SNR-Messung wird am ungefilterten, gestörten Signal y vorgenommen. Die Bestimmung der mittleren Signalleistungen für Sprache und Pause (Block 9) erfolgt anhand der Kurzzeitleistung E _k (Block 8) des gestörten Signals und der Sprachwahrscheinlichkeit p_k(Sprache) nach folgender Vorschrift:

The SNR measurement is made on the unfiltered, disturbed signal y. The determination of the mean signal power for speech and pause (block 9 ) is based on the short-term performance

e _k

(Block 8th ) of the disturbed signal and the speech probability p _k (speech) according to the following rule:

Aus der Differenz der Leistungswerte ergibt sich das Mean-SNR (Block 10): SNR_Mean = E _Sprache – E _Pause The difference between the power values results in the mean SNR (block 10 ): SNR _Mean = e _Language - e _Break

Die folgende nichtlineare Transformation (Block 11) bildet aus dem Mean-SNR ein modifiziertes Mean-SNR:

The following nonlinear transformation (block 11 ) forms a modified mean SNR from the mean SNR:

Das modifizierte Mean-SNR verbessert die Meßwerte im Vergleich zum Stand der Technik im Sinne der bekannten Definition des Signal-zu-Rausch-Verhältnisses insbesondere für stark gestörte Signale, da die oben erwähnte Sättigung mit einer Annäherung an den Wert 0 dB nicht eintritt.The modified mean SNR improves the measured values in comparison with the prior art in the sense of the known definition of the signal-to-noise ratio, in particular for strongly disturbed signals, since the abovementioned saturation does not occur with an approach to the value 0 dB.

Alternativ zum dargestellten Aufbau in 1 kann die Sprachpausendetektion so erweitert werden, daß mehrere Kriterien berücksichtigt werden, z. B. neben der Kurzzeitleistung auch die in der Sprachsignalverarbeitung vielfach verwendete Korrelation. Dazu sind für jedes Kriterium separate Wahrscheinlichkeiten zu berechnen, die anschließend geeignet zu einer Sprachwahrscheinlichkeit p_k(Sprache) verknüpft werden. 3 zeigt den Aufbau der Sprachpausendetektion für zwei Kriterien K1 und K2. Eine Erweiterung auf mehr als zwei Kriterien wird angedeutet. Die Verknüpfungseinrichtung ist mit dem Bezugszeichen 12 versehen. Die übrigen Blöcke weisen die gleichen Bezugszeichen wie in 1 auf. Sie sind lediglich um eine zweite Bezugsziffer ergänzt und zwar eine 1 für das erste Kriterium und eine 2 für das zweite Kriterium.Alternatively to the construction shown in FIG 1 the speech pause detection can be extended so that several criteria are taken into account, eg. B. in addition to the short-term performance and the multiple used in the speech signal processing correlation. For this purpose, separate probabilities have to be calculated for each criterion, which are then suitably linked to a speech probability p _k (language). 3 shows the structure of speech pause detection for two criteria K1 and K2. An extension to more than two criteria is suggested. The linking device is denoted by the reference numeral 12 Mistake. The remaining blocks have the same reference numerals as in FIG 1 on. They are merely supplemented by a second reference number, namely a 1 for the first criterion and a 2 for the second criterion.

Bei der Entwicklung von Anwendungen für die Sprachsignalverarbeitung im Kraftfahrzeug (z. B. eine automatische Spracherkennung zur Steuerung von Fahrerinformationssystemen) ist das erfindungsgemäße Verfahren als Meßverfahren zur Bewertung der Qualität von Sprachdaten einsetzbar. Es ist somit eine Qualitätskontrolle und schnelle Fehlerlokalisation für die sehr aufwendigen Sprachdatensammlungen möglich.In the development of applications for voice signal processing in motor vehicles (eg automatic speech recognition for controlling driver information systems), the method according to the invention can be used as a measuring method for assessing the quality of speech data. It is thus a quality control and fast fault location for the very complex language data collections possible.

Zudem ist bekannt, daß die Erkennungsleistung eines automatischen Spracherkenners stark vom Grad der Störung im Sprachsignal abhängt. Es ist daher sinnvoll, die SNR-Messung in den Prozeß der Spracherkennung selbst zu integrieren. So können z. B. die verwendeten Modelle des Spracherkenners an verschiedene Störungen angepaßt werden, d. h. gering gestörte Signale werden nach anderen Modellen klassifiziert als stark gestörte Signale. Hierfür ist eine SNR-Messung am Eingangssignal des Spracherkenners notwendig, um die richtigen Modelle auswählen zu können. Da in diesem Fall ausschließlich das gestörte Sprachsignal zur Verfügung steht, ist das erfindungsgemäße Verfahren hierbei vorteilhaft einsetzbar.In addition, it is known that the recognition performance of an automatic speech recognizer depends strongly on the degree of interference in the speech signal. It therefore makes sense to integrate the SNR measurement in the speech recognition process itself. So z. B. the models of the speech recognizer used are adapted to different disorders, d. H. slightly disturbed signals are classified according to other models than strongly disturbed signals. This requires an SNR measurement on the speech recognizer input signal to select the correct models. Since only the disturbed speech signal is available in this case, the method according to the invention can advantageously be used here.

Literaturliterature

[1] NOLL, P .: Adaptive Quantization in Speech Coding Systems. In: Proceedings of the International Zurich Seminar to Digital Communications. 1974, p. B3 (1) -B3 (6).
[2] SMOLDERS, J .; CLAES, T .; SABLON, G .; VAN COMPERNOLLE, D .: On the Importance of the Microphones Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP), 1994, p. 429-432.

Claims

Method for determining the signal-to-noise ratio in the case of a disturbed speech signal comprising the following steps: - The probability of occurrence of speech components is determined on the basis of at least one characteristic speech signal quantity ( 7 ), of which the first characteristic speech signal magnitude is the short-term power of the disturbed speech signal, in that the disturbed speech signal is filtered ( 3 ), which reduces the noise component and creates a frequency distribution as a function of the filtered values, - in averaging ( 9 . 10 for the determination of the signal-to-noise ratio, the speech signal magnitude (s) to be averaged is / are evaluated with the probability of occurrence of speech components, - the short-term power of the disturbed speech signal having the likelihood of occurrence of the speech components for determining the average signal powers for speech components and speech pauses as well as the speech pauses and the signal-to-noise ratio by subtraction ( 10 ) of these two linked values.

Method according to claim 1, characterized in that by a non-linear transformation ( 11 ), a modified signal-to-noise ratio is determined, which leads to no saturation on a logarithmic scale, even for strongly disturbed speech signals.

Method according to one of Claims 1 or 2, characterized in that the correlation of the disturbed speech signal is used as the characteristic speech signal variable as a further criterion.

Method according to one of Claims 1 to 3, characterized in that, for determining the probability of occurrence, the short-term power and / or the correlation is formed from the speech signal reduced in its interference component and a histogram ( 5 . 51 . 52 ) and that the frequency distribution of this histogram ( 5 . 51 . 52 ) is approximated by the superimposition of the frequency densities for the short-term power and / or the correlation with respect to the speech pauses on the one hand and the speech components on the other hand.

Method according to Claim 4, characterized in that the histogram ( 5 . 51 . 52 ) is generated from the logarithmic values of the short-term power and / or the values of the correlation.

Method according to Claim 4 or 5, characterized in that a probability is determined from the frequency distributions for speech components and speech pauses and the value or the logarithmized value of the short-term power and / or the value of the correlation for each segment of the speech signal reduced in the interference component, if the respective one Segment contains speech parts or not.

Method according to Claim 6, characterized in that the averaging ( 9 . 10 ) is carried out to obtain the signal-to-noise ratio only over those segments in which speech activity, that is speech components, were detected with the determined occurrence probability.

Method according to one of Claims 1 to 7, characterized in that a plurality of characteristic speech signal quantities are considered simultaneously for determining the probability of occurrence of the speech components.

Arrangement for carrying out the method according to one of Claims 1 to 8, having the following features: - a first device ( 1 ) for forming the mean value of a characteristic speech signal magnitude in a disturbed speech signal, for linking the speech signal magnitude with a first Occurrence probability for speech components, for linking the speech signal size with a second occurrence probability for speech pauses and for subtraction ( 10 ) of these two linked values, - a second facility ( 2 ) with an input-side filter device ( 3 ) for reducing the interference component of the input disturbed speech signal for determining the probability of occurrence of speech components and the speech pauses, wherein the second device ( 2 ) with the first device ( 1 ), that an evaluation of the characteristic speech signal magnitude with the probability of occurrence of speech components as well as speech pauses in averaging ( 9 . 10 ) is achievable, wherein to obtain the signal-to-noise ratio, a difference formation ( 10 ) of the signals evaluated in this way.

Arrangement according to claim 9, characterized in that the first device ( 1 ) on the output side a non-linear transformation device ( 11 ), which is designed such that no saturation can occur in the determination of the signal-to-noise ratio.

Use of the arrangement according to one of claims 9 to 10 for the evaluation and validation of speech databases, in particular for automatic speech recognition systems.

Method according to one of claims 1 to 8 for use for the evaluation and validation of speech databases, in particular for automatic speech recognition systems.