DE19907900A1 - Determining signal-to-noise ratios of distorted speech signals involves determining probability of characteristic speech signal component with characteristic speech signal parameter(s) - Google Patents

Determining signal-to-noise ratios of distorted speech signals involves determining probability of characteristic speech signal component with characteristic speech signal parameter(s)

Info

Publication number
DE19907900A1
DE19907900A1 DE1999107900 DE19907900A DE19907900A1 DE 19907900 A1 DE19907900 A1 DE 19907900A1 DE 1999107900 DE1999107900 DE 1999107900 DE 19907900 A DE19907900 A DE 19907900A DE 19907900 A1 DE19907900 A1 DE 19907900A1
Authority
DE
Germany
Prior art keywords
speech
signal
speech signal
probability
disturbed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1999107900
Other languages
German (de)
Other versions
DE19907900B4 (en
Inventor
Luis Arevalo
Andreas Korthauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE19907900A priority Critical patent/DE19907900B4/en
Publication of DE19907900A1 publication Critical patent/DE19907900A1/en
Application granted granted Critical
Publication of DE19907900B4 publication Critical patent/DE19907900B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R29/00Arrangements for measuring or indicating electric quantities not covered by groups G01R19/00 - G01R27/00
    • G01R29/26Measuring noise figure; Measuring signal-to-noise ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

The method involves determining (7) the probability of occurrence of a characteristic speech signal component using at least one characteristic speech signal parameter, whereby the distorted speech signal is filtered (3) to reduce the noise component and a frequency distribution is produced depending on the filtered values. When performing averaging (9,10) to derive the signal-to-noise ratio the parameter(s) to be averaged is(are) assessed using the probability of occurrence for the speech components. Independent claims are also included for an arrangement for implementing the method and for a use of the method for assessing and validating speech databases, esp. for automatic speech recognition systems.

Description

Stand der TechnikState of the art

Die Erfindung geht aus von einem Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei gestörten Sprachsignalen. Das Signal-zu-Rauschverhältnis (SNR) ist z. B. eine wichtige Größe zur Bewertung von Datenbasen bei der Entwicklung von Anwendungen für die automatische Spracherkennung. In der Literatur wird häufig das sogenannte Segment-SNR [1] verwendet, um das SNR für Sprachsignale anzugeben. Dieses Verfahren benötigt ein ungestörtes Referenzsignal, welches ein genaues Abbild der Sprachanteile des gestörten Signales enthalten muß. Aus der Differenz von Referenzsignal und gestörtem Signal wird die Störung berechnet. Die Kurzzeitleistungen des Referenzsignals und der Störung werden in Signalsegmenten von etwa 10 ms Dauer ermittelt und zur Berechnung eines "Kurzzeit-SNR" verwendet. Bei endlich langen Signalen können diese SNR-Werte einer Mittelwertbildung zugeführt werden. Daraus ergibt sich das mittlere Segment-SNR für die Sprachprobe. Bei der Mittelwertbildung müssen jedoch Sprachpausen, in denen nur das Störgeräusch vorhanden ist, ausgeschlossen werden. Für alle Signalsegmente muß deshalb eine Sprachpausendetektion durchgeführt werden. Die Sprachpausendetektion kann z. B. über den Vergleich der Kurzzeitleistung des Referenzsignals mit einer konstanten Leistungsschwelle erfolgen. Bei gemessenen Signalen, z. B. im Kraftfahrzeug, ist die Forderung nach einem Referenzsignal jedoch meist nicht einzuhalten, so daß das Segment SNR nur sinnvoll eingesetzt werden kann, wenn Sprachsignal und Störung getrennt vorliegen, d. h. im Falle simulierter Störungen.The invention is based on a method for determination the signal-to-noise ratio for disturbed Voice signals. The signal-to-noise ratio (SNR) is e.g. B. an important parameter for evaluating databases at the Development of applications for automatic Voice recognition. The so-called Segment SNR [1] used the SNR for speech signals specify. This procedure requires an undisturbed Reference signal, which is an exact representation of the speech components of the disturbed signal must contain. From the difference of The reference signal and disturbed signal becomes the disturbance calculated. The short-term powers of the reference signal and the disturbance are in signal segments of approximately 10 ms duration determined and used to calculate a "short-term SNR". With finally long signals, these SNR values can be one Averaging can be supplied. It follows from this middle segment SNR for the speech sample. In the  However, averaging must take language breaks in which only the noise is present, can be excluded. For All signal segments must therefore have a speech pause detection be performed. The speech pause detection can e.g. B. by comparing the short-term power of the reference signal with a constant power threshold. At measured signals, e.g. B. in the motor vehicle, is the However, the call for a reference signal is usually not to be observed so that the SNR segment is only used sensibly can be separated when speech signal and interference are present, d. H. in the case of simulated faults.

In [2] wird ein Verfahren zur SNR-Messung vorgestellt, das auf ein ungestörtes Referenzsignal verzichtet. Dort wird das "Mean-SNR" eingeführt, das sich auf ein Verfahren zur Sprachpausendetektion am gestörten Signal stützt. Zur Erkennung von Sprachpausen wird aus den logarithmierten Werten der Kurzzeitleistung des gestörten Signals ein Histogramm erstellt. Das Histogramm wird durch die Überlagerung zweier Gauß-Funktionen approximiert, und aus dem Schnittpunkt der Gauß-Funktionen wird die Leistungsschwelle für die Sprachpausendetektion bestimmt. Unterschreitet die Kurzzeitleistung des Signals diese Leistungsschwelle, so wird eine Sprachpause erkannt. Anhand der Sprachpausendetektion können für die Signalabschnitte mit Sprachaktivität und mit Sprachpause jeweils mittlere Leistungen des gestörten Signals berechnet werden. Das Mean- SNR wird aus der Differenz der logarithmierten Werte dieser Leistungen bestimmt.In [2] a procedure for SNR measurement is presented, the dispenses with an undisturbed reference signal. There it will "Mean-SNR" introduced, which is based on a process for Speech pause detection based on the disturbed signal. To Recognition of speech pauses is made from the logarithmic Values of the short-term power of the disturbed signal Histogram created. The histogram is shown by the Superposition of two Gaussian functions approximated, and off the intersection of the Gaussian functions is the Power threshold for speech pause detection determined. If the short-term power of the signal falls below this Power threshold, a speech pause is recognized. Based the speech pause detection can be used for the signal sections with language activity and with language pause each medium Power of the disturbed signal can be calculated. The mean SNR is the difference between the logarithmic values of these Services determined.

Das Mean-SNR weicht von der bekannten Definition des Signal- zu-Rauschverhältnisses - wie sie auch dem Segment - SNR zugrunde liegt - ab, weil es die Leistung des gestörten Signals, also Signal und Rauschen, zur Leistung des Rauschens ins Verhältnis setzt. Im logarithmischen Maßstab nähert sich das Mean-SNR daher für stark gestörte Signale dem Wert 0 dB an und kann keine negativen Werte annehmen. Diese Sättigung führt dazu, daß das Mean-SNR bei stark gestörten Signalen keine quantitativen Aussagen über unterschiedliche Störungen zuläßt. Auch die zuvor beschriebene Sprachpausendetektion kann nur bei relativ gering gestörten Signalen verwendet werden, da sonst das Histogramm keine deutliche Trennung in hohe und niedrige Leistungswerte mehr erlaubt.The mean SNR deviates from the known definition of the signal to noise ratio - just like the segment - SNR is based - because it affects the performance of the disrupted Signals, i.e. signal and noise, for the performance of the Noise in relation. On a logarithmic scale  the mean SNR therefore approaches for strongly disturbed signals the value 0 dB and cannot assume negative values. This saturation leads to the mean SNR being strong disturbed signals no quantitative statements about allows different disturbances. Even the one before described speech pause detection can only with relative slightly disturbed signals are used, otherwise that Histogram no clear distinction between high and low Performance values allowed more.

Vorteile der ErfindungAdvantages of the invention

Mit den Maßnahmen gemäß den Merkmalen des Anspruchs 1 ist es möglich, das Signal-zu-Rauschverhältnis von gestörten Signalen zu ermitteln, ohne daß ein ungestörtes Referenzsignal notwendig ist. Durch die Filterung des gestörten Sprachsignals für die Ermittlung der Auftrittswahrscheinlichkeit von Sprachanteilen gegenüber Sprachpausen ist eine Sprachpausendetektion bzw. eine Detektion von Sprachanteilen auch für stark gestörte Sprachsignale zuverlässig möglich. Im Gegensatz zum vorgenannten Stand der Technik wird bei der Mittelwertbildung zur Gewinnung des Signal-zu- Rauschverhältnisses keine zweiwertige Entscheidung zwischen Sprachanteilen und Sprachpausen anhand einer konstanten Leistungsschwelle verwendet, sondern es wird eine kontinuierliche Größe, die sogenannte Sprachwahrscheinlichkeit, d. h. die Auftrittswahrscheinlichkeit von Sprachanteilen im gestörten Sprachsignal, herangezogen. Mit dieser Sprachwahrscheinlichkeit wird eine charakteristische Sprachsignalgröße, z. B. die Kurzzeitleistung, des gestörten Sprachsignals, bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses bewertet. Dadurch werden fehlerhafte Entscheidungen, welche den Wert des Mean-SNR (Mittelwert des Signal-zu-Rauschverhältnisses) verfälschen könnten, vermieden.It is with the measures according to the features of claim 1 possible, the signal-to-noise ratio of disturbed Detect signals without being disturbed Reference signal is necessary. By filtering the disturbed speech signal for the determination of the Probability of occurrence of language components Speech breaks is a speech break detection or one Detection of speech components even for severely disturbed people Voice signals reliably possible. In contrast to The aforementioned prior art is used in the Averaging to obtain the signal to Noise ratio no two-valued decision between Language components and language breaks based on a constant Power threshold used, but it becomes a continuous size, the so-called Linguistic probability, d. H. the Probability of occurrence of language components in the disturbed Speech signal, used. With this Speech probability becomes a characteristic Speech signal size, e.g. B. the short-term power, the disturbed Speech signal, when averaging to obtain the Signal-to-noise ratio assessed. This will  erroneous decisions affecting the value of the mean SNR Falsify (mean value of the signal-to-noise ratio) could be avoided.

In einer Weiterbildung gemäß Anspruch 2 wird durch eine nichtlineare Transformation ein modifiziertes Signal-zu- Rauschverhältnis (Mean-SNR) gebildet. Damit wird der mögliche Wertebereich des Mean-SNR im logarithmischen Maßstab auf negative Zahlenwerte erweitert und die Sättigung des Mean-SNR wird vermieden.In a further development according to claim 2, a nonlinear transformation a modified signal-to- Noise ratio (mean SNR) formed. With that the possible value range of the mean SNR in logarithmic Scale extended to negative numerical values and saturation the mean SNR is avoided.

Die weiteren Ansprüche zeigen vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens insbesondere der Ermittlung der Sprachwahrscheinlichkeit auf, bzw. eine Anordnung zum Durchführen des Verfahrens, sowie seine Verwendung.The other claims show advantageous developments of the method according to the invention, in particular the determination the language probability, or an arrangement for Carrying out the procedure, as well as its use.

Zeichnungendrawings

Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindungen näher erläutert. Es zeigenBased on the drawings, embodiments of the Inventions explained in more detail. Show it

Fig. 1 ein Blockschaltbild zur Ermittlung des Signal-zu- Rauschverhältnisses gestörter Sprachsignale, Fig. 1 is a block diagram of the signal-to-noise ratio of disturbed speech signals determination,

Fig. 2 die Approximation eines Histogramms der Kurzzeitleistung durch die Überlagerung von zwei Normalverteilungen, Fig. 2 shows the approximation of a histogram of the short-time power by the superposition of two normal distributions,

Fig. 3 die Erweiterung der Sprachpausendetektion für mehrere Kriterien. Fig. 3, the expansion of the speech pause detection for multiple criteria.

Beschreibung von AusführungsbeispielenDescription of exemplary embodiments

Das Blockschaltbild gemäß Fig. 1 gliedert sich in die Einheiten Sprachpausendetektion 1 und SNR-Messung 2. The block diagram of FIG. 1 is divided into the units of speech pause detection 1 and SNR measurement 2.

Für die Sprachpausendetektion 2 wird das Eingangssignal y so gefiltert, daß der Einfluß der Störung im Signal reduziert wird. Hierbei kann z. B. das bekannte Verfahren der spektralen Subtraktion oder ein fest entworfenes Filter .3. eingesetzt werden. Durch die Filterung werden typische Störgeräusche reduziert. Im Kraftfahrzeug sind dies vor allem das tieffrequente Motorgeräusch und das hochfrequente Wind- und Fahrgeräusch. Die Filterung wird im Frequenzbereich mit einer spektralen Gewichtung W (Ων) der geschätzten Leistungsdichte Φyy (Ων k)durchgeführt:
For speech pause detection 2 , the input signal y is filtered so that the influence of the interference in the signal is reduced. Here, for. B. the known method of spectral subtraction or a fixed filter .3. be used. The filtering reduces typical noise. In the motor vehicle, these are primarily the low-frequency engine noise and the high-frequency wind and driving noise. The filtering is carried out in the frequency domain with a spectral weighting W (Ω ν ) of the estimated power density Φyy (Ω ν k ):

Die gewählte Gewichtungsfunktion hat die Form
The selected weighting function has the form

W(Ων) = 1 - cos2 Ων.W (Ω ν ) = 1 - cos 2 Ω ν .

Anhand des entstörten, d. h. in seinem Störanteil reduzierten Signals wird nun im Block 4 die Kurzzeitleistung bestimmt und aus den logarithmierten Werten dieser Kurzeitleistung ein Histogramm (Block 5) erstellt. Durch ein geeignetes iteratives Verfahren wird die Häufigkeitsverteilung des Histogramms durch die Überlagerung zweier Funktionen p(|Pause) und p(|Sprache) approximiert (Block 6). In Block 7 wird wie nachfolgend näher erläutert die Sprachwahrscheinlichkeit ermittelt.The short-term power is now determined in block 4 on the basis of the noise-suppressed signal, ie its signal content is reduced, and a histogram (block 5 ) is created from the logarithmic values of this short-term power. Using a suitable iterative method, the frequency distribution of the histogram is approximated by overlaying two functions p (| pause) and p (| language) (block 6 ). The probability of speech is determined in block 7 , as explained in more detail below.

Die Funktionen p(|Pause) und p(|Sprache) stellen Häufigkeitsverteilungen der Kurzzeitleistungen für die Ereignisse "Pause" und "Sprache" dar und können, wie z. B. in Fig. 2 dargestellt, Normalverteilungen sein. Es sind ab er auch beliebige andere Funktionen denkbar, solange sie die Normierungsbedingung für Häufigkeitsverteilungen bzw. Wahrscheinlichkeitsdichten erfüllen:
The functions p (| pause) and p (| language) represent frequency distributions of the short-term services for the events "pause" and "language". B. shown in Fig. 2, normal distributions. Any other functions are also conceivable as long as they meet the standardization requirements for frequency distributions or probability densities:

Für die Überlagerung von p(|Pause) und p(|Sprache) wird angenommen, daß die Ereignisse "Pause" und "Sprache" a priori gleich wahrscheinlich sind. Daher werden die Häufigkeitsverteilungen jeweils mit dem Faktor ½ gewichtet:
For the superposition of p (| pause) and p (| language) it is assumed that the events "pause" and "language" are a priori equally probable. The frequency distributions are therefore weighted with the factor ½:

Aus den Häufigkeitsverteilungen und dem logarithmierten Wert der Kurzzeitleistung k kann für jedes Segment k des entstörten Signals nach dem bekannten Bayes'schen Theorem eine Wahrscheinlichkeit pk(Sprache) = p(Sprache|k) dafür angegeben werden, ob das Segment k Sprache enthält.From the frequency distributions and the logarithmic value of the short-term power k , a probability p k (language) = p (language | k ) can be specified for each segment k of the suppressed signal according to the known Bayesian theorem for whether the segment contains k language.

Die SNR-Messung wird am ungefilterten, gestörten Signal y vorgenommen. Die Bestimmung der mittleren Signalleistungen für Sprache und Pause (Block 9) erfolgt anhand der Kurzzeitleistung k (Block 8) des gestörten Signals und der Sprachwahrscheinlichkeit pk(Sprache) nach folgender Vorschrift:
The SNR measurement is carried out on the unfiltered, disturbed signal y. The mean signal powers for speech and pause (block 9 ) are determined on the basis of the short-term power k (block 8 ) of the disturbed signal and the speech probability p k (speech) according to the following rule:

Aus der Differenz der Leistungswerte ergibt sich das Mean- SNR (Block 10):
The mean SNR (block 10 ) results from the difference between the power values:

SNRMean = ESprache - EPause SNR Mean = E language - E pause

Die folgende nichtlineare Transformation (Block 11) bildet aus dem Mean-SNR ein modifiziertes Mean-SNR:
The following nonlinear transformation (block 11 ) forms a modified mean SNR from the mean SNR:

Das modifizierte Mean-SNR verbessert die Meßwerte im Vergleich zum Stand der Technik im Sinne der bekannten Definition des Signal-zu-Rausch-Verhältnisses insbesondere für stark gestörte Signale, da die oben erwähnte Sättigung mit einer Annäherung an den Wert 0 dB nicht eintritt.The modified mean SNR improves the measured values in the Comparison to the prior art in the sense of the known Definition of the signal-to-noise ratio in particular for strongly disturbed signals, since the saturation mentioned above with an approximation to the value 0 dB does not occur.

Alternativ zum dargestellten Aufbau in Fig. 1 kann die Sprachpausendetektion so erweitert werden, daß mehrere Kriterien berücksichtigt werden, z. B. neben der Kurzzeitleistung auch die in der Sprachsignalverarbeitung vielfach verwendete Korrelation. Dazu sind für jedes Kriterium separate Wahrscheinlichkeiten zu berechnen, die anschließend geeignet zu einer Sprachwahrscheinlichkeit Pk (Sprache) verknüpft werden. Fig. 3 zeigt den Aufbau der Sprachpausendetektion für zwei Kriterien K1 und K2. Eine Erweiterung auf mehr als zwei Kriterien wird angedeutet. Die Verknüpfungseinrichtung ist mit dem Bezugszeichen 12 versehen. Die übrigen Blöcke weisen die gleichen Bezugszeichen wie in Fig. 1 auf. Sie sind lediglich um eine zweite Bezugsziffer ergänzt und zwar eine 1 für das erste Kriterium und eine 2 für das zweite Kriterium. As an alternative to the structure shown in FIG. 1, the speech pause detection can be expanded so that several criteria are taken into account, e.g. B. in addition to the short-term power also the correlation often used in speech signal processing. For this purpose, separate probabilities have to be calculated for each criterion, which are then suitably linked to form a language probability P k (language). Fig. 3 shows the structure of the speech pause detection for two criteria K1 and K2. An extension to more than two criteria is indicated. The linking device is provided with the reference number 12 . The remaining blocks have the same reference numerals as in FIG. 1. They are only supplemented by a second reference number, namely a 1 for the first criterion and a 2 for the second criterion.

Bei der Entwicklung von Anwendungen für die Sprachsignalverarbeitung im Kraftfahrzeug (z. B. eine automatische Spracherkennung zur Steuerung von Fahrerinformationssystemen) ist das erfindungsgemäße Verfahren als Meßverfahren zur Bewertung der Qualität von Sprachdaten einsetzbar. Es ist somit eine Qualitätskontrolle und schnelle Fehlerlokalisation für die sehr aufwendigen Sprachdatensammlungen möglich.When developing applications for the Voice signal processing in the motor vehicle (e.g. a automatic speech recognition to control Driver information systems) is the one according to the invention Methods as measuring methods for evaluating the quality of Voice data can be used. It is therefore a quality control and fast error localization for the very complex Voice data collections possible.

Zudem ist bekannt, daß die Erkennungsleistung eines automatischen Spracherkenners stark vom Grad der Störung im Sprachsignal abhängt. Es ist daher sinnvoll, die SNR-Messung in den Prozeß der Spracherkennung selbst zu integrieren. So können z. B. die verwendeten Modelle des Spracherkenners an verschiedene Störungen angepaßt werden, d. h. gering gestörte Signale werden nach anderen Modellen klassifiziert als stark gestörte Signale. Hierfür ist eine SNR-Messung am Eingangssignal des Spracherkenners notwendig, um die richtigen Modelle auswählen zu können. Da in diesem Fall ausschließlich das gestörte Sprachsignal zur Verfügung steht, ist das erfindungsgemäße Verfahren hierbei vorteilhaft einsetzbar.It is also known that the recognition performance of a automatic speech recognizer strongly depending on the degree of interference in the Voice signal depends. It is therefore useful to take the SNR measurement to integrate into the process of speech recognition itself. So can e.g. B. the models of the speech recognizer used various disturbances are adjusted, d. H. slightly disturbed Signals are classified as strong according to other models disturbed signals. For this, an SNR measurement is on Input signal of the speech recognizer necessary to the to be able to choose the right models. Because in this case only the disturbed speech signal is available stands, the method according to the invention is here can be used advantageously.

Literaturliterature

  • 1. [1] NOLL, P.: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar on Digital Communications. 1974, S. B3(1)-B3(6).1. [1] NOLL, P .: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar on Digital Communications. 1974, pp. B3 ( 1 ) -B3 ( 6 ).
  • 2. [2] SMOLDERS, J.; CLAES, T.; SABLON, G.; VAN COMPERNOLLE, D.: On the Importance of the Microphone Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP) 1.1994, S. 429-432.2. [2] SMOLDERS, J .; CLAES, T .; SABLON, G .; VAN COMPERNOLLE, D .: On the Importance of the Microphone Position for Speech Recognition in the car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP) 1.1994, pp. 429-432.

Claims (14)

1. Verfahren zur Ermittlung des Signal-zu- Rauschverhältnisses bei einem gestörten Sprachsignal mit folgenden Schritten:
  • - Es wird die Auftrittswahrscheinlichkeit für Sprachanteile anhand mindestens einer charakteristischen Sprachsignalgröße ermittelt (7), indem das gestörte Sprachsignal einer Filterung (3) unterzogen wird, die den Störanteil reduziert, und eine Häufigkeitsverteilung in Abhängigkeit der gefilterten Werte erstellt wird,
  • - Bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses wird/werden die zu mittelnde(n) Sprachsignalgröße(n) mit der Auftrittswahrscheinlichkeit für Sprachanteile bewertet.
1. Method for determining the signal-to-noise ratio in the case of a disturbed speech signal, with the following steps:
  • - The probability of occurrence for speech components is determined on the basis of at least one characteristic speech signal variable ( 7 ) by subjecting the disturbed speech signal to filtering ( 3 ), which reduces the interference component and creating a frequency distribution depending on the filtered values,
  • - When averaging ( 9 , 10 ) to obtain the signal-to-noise ratio, the speech signal quantity (s) to be averaged is / are evaluated with the probability of occurrence for speech components.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß durch eine nichtlineare Transformation (11) ein modifiziertes Signal-zu-Rauschverhältnis ermittelt wird, welches auch für stark gestörte Sprachsignale zu keiner Sättigung im logarithmischen Maßstab führt.2. The method according to claim 1, characterized in that a modified signal-to-noise ratio is determined by a non-linear transformation ( 11 ), which does not lead to saturation on a logarithmic scale even for severely disturbed speech signals. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß als charakteristische Sprachsignalgröße ein erstes Kriterium insbesondere die Kurzzeitleistung des gestörten Sprachsignals verwendet wird.3. The method according to claim 1 or 2, characterized in that as a characteristic speech signal size a first  Criterion in particular the short-term performance of the disrupted Speech signal is used. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß als charakteristische Sprachsignalgröße ein weiteres Kriterium insbesondere die Korrelation des gestörten Sprachsignals verwendet wird.4. The method according to any one of claims 1 to 3, characterized characterized that as a characteristic Speech signal size another criterion especially the Correlation of the disturbed speech signal is used. 5. Verfahren nach einem der Ansprüche 3 oder 4, dadurch gekennzeichnet, daß zur Bestimmung der mittleren Signalleistungen für Sprachanteile und Sprachpausen die Kurzzeitleistung des gestörten Sprachsignals mit der Auftrittswahrscheinlichkeit der Sprachanteile sowie der Sprachpausen verknüpft wird und das Signal-zu- Rauschverhältnis durch Differenzbildung (10) dieser beiden verknüpften Werte ermittelt wird.5. The method according to any one of claims 3 or 4, characterized in that for determining the average signal powers for speech portions and pauses in speech, the short-time power of the disturbed speech signal with the occurrence probability of the speech components and the speech pauses is linked and the signal-to-noise ratio by difference (10 ) of these two linked values is determined. 6. Verfahren nach einem der Ansprüche 1 bis 5 dadurch gekennzeichnet, daß zur Ermittlung der Auftrittswahrscheinlichkeit aus dem in seinem Störanteil reduzierten Sprachsignal die Kurzzeitleistung und/oder die Korrelation gebildet wird und daraus ein Histogramm erstellt wird und daß die Häufigkeitsverteilung dieses Histogramms durch die Überlagerung der Häufigkeitsdichten für die Kurzzeitleistung und/oder der Korrelation bezüglich der Sprachpausen einerseits und der Sprachanteile andererseits approximiert wird.6. The method according to any one of claims 1 to 5 characterized in that to determine the Probability of occurrence from the in its disturbance share reduced speech signal the short-term power and / or the correlation is formed and a histogram is created and that the frequency distribution of this Histogram by superimposing the frequency densities for short-term performance and / or correlation regarding the language breaks on the one hand and the Language parts on the other hand is approximated. 7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß das Histogramm aus den logarithmierten Werten der Kurzzeitleistung und/oder den Werten der Korrelation erstellt wird.7. The method according to claim 6, characterized in that the histogram from the logarithmic values of the Short-term power and / or the values of the correlation is created. 8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß aus den Häufigkeitsverteilungen für Sprachanteile und Sprachpausen und dem insbesondere logarithmierten Wert der Kurzzeitleistung und/oder dem Wert der Korrelation für jedes Segment des im Störanteil reduzierten Sprachsignals eine Wahrscheinlichkeit ermittelt wird, ob das betreffende Segment Sprachanteile enthält oder nicht.8. The method according to claim 6 or 7, characterized in that from the frequency distributions for speech parts and  Speech breaks and the logarithmic value in particular the short-term power and / or the value of the correlation for each segment of the reduced in the interference component Speech signal a probability is determined whether the segment in question contains or does not contain speech components. 9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die Mittelwertbildung zur Gewinnung des Signal-zu- Rauschverhältnisses nur über jene Segmente erfolgt, in denen mit der ermittelten Auftrittswahrscheinlichkeit Sprachaktivität, d. h. Sprachanteile, detektiert wurden.9. The method according to claim 8, characterized in that averaging to obtain the signal Noise ratio occurs only over those segments in those with the determined probability of occurrence Voice activity, d. H. Speech components were detected. 10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß mehrere charakteristische Sprachsignalgrößen gleichzeitig zur Ermittlung der Auftrittswahrscheinlichkeit der Sprachanteile berücksichtigt werden.10. The method according to any one of claims 1 to 9, characterized characterized that several characteristic Speech signal quantities simultaneously to determine the Probability of the language components to occur be taken into account. 11. Anordnung insbesondere zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 10, mit folgenden Merkmalen:
  • - einer ersten Einrichtung (1) zur Bildung des Mittelwertes einer charakteristischen Sprachsignalgröße bei einem gestörten Sprachsignal,
  • - einer zweiten Einrichtung (2) zur Ermittlung der Auftrittswahrscheinlichkeit für Sprachanteile, wobei die zweite Einrichtung (2) derart mit der ersten Einrichtung (1) in Verbindung steht, daß eine Bewertung der charakteristischen Sprachsignalgröße mit der Auftrittswahrscheinlichkeit für Sprachanteile bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu- Rauschverhältnisses erzielbar ist.
11. Arrangement in particular for performing the method according to one of claims 1 to 10, with the following features:
  • - a first device ( 1 ) for forming the mean value of a characteristic speech signal size in the case of a disturbed speech signal,
  • - A second device ( 2 ) for determining the probability of occurrence for speech components, the second device ( 2 ) being connected to the first device ( 1 ) in such a way that an evaluation of the characteristic speech signal size with the occurrence probability for speech components during the averaging ( 9 , 10 ) to obtain the signal-to-noise ratio.
12. Anordnung nach Anspruch 11, dadurch gekennzeichnet, daß die zweite Einrichtung (2) eingangsseitig eine Filtereinrichtung (3) aufweist zur Reduzierung des Störanteiles des zuführbaren gestörten Sprachsignals.12. The arrangement according to claim 11, characterized in that the second device ( 2 ) on the input side has a filter device ( 3 ) for reducing the interference component of the feedable disturbed speech signal. 13. Anordnung nach Anspruch 11 oder 12, dadurch gekennzeichnet, daß die erste Einrichtung (1) ausgangsseitig eine nichtlineare Transformationseinrichtung (11) aufweist, die derart ausgebildet ist, daß keine Sättigung bei der Ermittlung des Signal-zu-Rauschverhältnisses auftreten kann.13. Arrangement according to claim 11 or 12, characterized in that the first device ( 1 ) on the output side has a non-linear transformation device ( 11 ) which is designed such that no saturation can occur in the determination of the signal-to-noise ratio. 14. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 10 oder der Anordnung nach einem der Ansprüche 11 bis 13 für die Bewertung und Validierung von Sprachdatenbanken insbesondere für automatische Spracherkennungssysteme.14. Use of the method according to one of claims 1 to 10 or the arrangement according to one of claims 11 to 13 for the evaluation and validation of language databases especially for automatic speech recognition systems.
DE19907900A 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use Expired - Fee Related DE19907900B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19907900A DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19907900A DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Publications (2)

Publication Number Publication Date
DE19907900A1 true DE19907900A1 (en) 2000-12-28
DE19907900B4 DE19907900B4 (en) 2013-11-21

Family

ID=7898657

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19907900A Expired - Fee Related DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Country Status (1)

Country Link
DE (1) DE19907900B4 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2233976B2 (en) * 1972-07-11 1979-09-13 Rohde & Schwarz, 8000 Muenchen Aperiodic information detector blocking noise signals - has constant delay time, threshold switch and integrator as band-pass filter
US4038539A (en) * 1976-02-23 1977-07-26 American Electronic Laboratories, Inc. Adaptive pulse processing means and method

Also Published As

Publication number Publication date
DE19907900B4 (en) 2013-11-21

Similar Documents

Publication Publication Date Title
DE112009000805B4 (en) noise reduction
DE602005000539T2 (en) Gain-controlled noise cancellation
DE112017004548B4 (en) Method and apparatus for robust noise estimation for speech enhancement in variable noise conditions
DE60034026T2 (en) LANGUAGE IMPROVEMENT WITH LANGUAGE ACTIVITY-CONTROLLED LIMITATIONS
DE60131639T2 (en) Apparatus and methods for determining noise cancellation performance values for a voice communication system
DE69627580T2 (en) Method of reducing noise in a speech signal
DE2719973C2 (en)
DE19747885B4 (en) Method for reducing interference of acoustic signals by means of the adaptive filter method of spectral subtraction
DE102017116528B4 (en) Method and device for audio signal quality improvement based on quantitative SNR analysis and adaptive Wiener filtering
DE60100637T2 (en) Method for noise adaptation using transformed matrices in automatic speech recognition
DE102011012573B4 (en) Voice control device for motor vehicles and method for selecting a microphone for operating a voice control device
EP1386307B1 (en) Method and device for determining a quality measure for an audio signal
DE10041512A1 (en) Artificial broadening of voice signal bandwidth involves analysis filtering of narrowband voice signal, residual signal expansion and synthesis filtering with estimated filter coefficients
DE112017007005B4 (en) ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING METHOD AND HANDS-FREE COMMUNICATION DEVICE
EP0815553B1 (en) Method of detecting a pause between two signal patterns on a time-variable measurement signal
DE60212617T2 (en) DEVICE FOR LANGUAGE IMPROVEMENT
DE102014221528B4 (en) Accurate forward SNR estimation based on MMSE speech presence probability
DE4010028C2 (en) Speech recognition method
DE102013011761A1 (en) Motor vehicle has estimating unit and background noise spectrum unit that are designed to open dynamic filter with low background noise and close with strong background noise
EP2080197B1 (en) Apparatus for noise suppression in an audio signal
DE10157535B4 (en) Method and apparatus for reducing random, continuous, transient disturbances in audio signals
DE602005000897T2 (en) Input sound processor
EP1382034B1 (en) Method for determining intensity parameters of background noise in speech pauses of voice signals
DE102019102414B4 (en) Method and system for detecting fricatives in speech signals
DE4342425A1 (en) Method and arrangement for transmitting voice signals

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20140222

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20140902