DE19907900B4 - Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use - Google Patents

Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use Download PDF

Info

Publication number
DE19907900B4
DE19907900B4 DE19907900A DE19907900A DE19907900B4 DE 19907900 B4 DE19907900 B4 DE 19907900B4 DE 19907900 A DE19907900 A DE 19907900A DE 19907900 A DE19907900 A DE 19907900A DE 19907900 B4 DE19907900 B4 DE 19907900B4
Authority
DE
Germany
Prior art keywords
speech
signal
disturbed
probability
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19907900A
Other languages
German (de)
Other versions
DE19907900A1 (en
Inventor
Dr. Arevalo Luis
Andreas Korthauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE19907900A priority Critical patent/DE19907900B4/en
Publication of DE19907900A1 publication Critical patent/DE19907900A1/en
Application granted granted Critical
Publication of DE19907900B4 publication Critical patent/DE19907900B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R29/00Arrangements for measuring or indicating electric quantities not covered by groups G01R19/00 - G01R27/00
    • G01R29/26Measuring noise figure; Measuring signal-to-noise ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei einem gestörten Sprachsignal mit folgenden Schritten: – Es wird die Auftrittswahrscheinlichkeit für Sprachanteile anhand mindestens einer charakteristischen Sprachsignalgröße ermittelt (7), von denen die erste charakteristische Sprachsignalgröße die Kurzzeitleistung des gestörten Sprachsignals ist, indem das gestörte Sprachsignal einer Filterung (3) unterzogen wird, die den Störanteil reduziert, und eine Häufigkeitsverteilung in Abhängigkeit der gefilterten Werte erstellt wird, – bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses wird/werden die zu mittelnde(n) Sprachsignalgröße(n) mit der Auftrittswahrscheinlichkeit für Sprachanteile bewertet, – wobei zur Bestimmung der mittleren Signalleistungen für Sprachanteile und Sprachpausen die Kurzzeitleistung des gestörten Sprachsignals mit der Auftrittswahrscheinlichkeit der Sprachanteile sowie der Sprachpausen verknüpft und das Signal-zu-Rauschverhältnis durch Differenzbildung (10) dieser beiden verknüpften Werte ermittelt wird.A method for determining the signal-to-noise ratio in a disturbed speech signal comprising the following steps: - The probability of occurrence of speech components is determined based on at least one characteristic speech signal magnitude (7), of which the first characteristic speech signal magnitude is the short-term power of the disturbed speech signal by the disturbed speech signal Speech signal is subjected to a filtering (3), which reduces the noise component, and a frequency distribution is created as a function of the filtered values, - in averaging (9, 10) for obtaining the signal-to-noise ratio, the (n Speech signal size (s) evaluated with the probability of occurrence for speech components, - wherein the short-term power of the disturbed voice signal with the probability of occurrence of the speech components and the speech pauses linked and to determine the average signal powers for speech components and pauses the signal-to-noise ratio is determined by subtraction (10) of these two associated values.

Description

Stand der TechnikState of the art

Die Erfindung geht aus von einem Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei gestörten Sprachsignalen. Das Signal-zu-Rauschverhältnis (SNR) ist z. B. eine wichtige Größe zur Bewertung von Datenbasen bei der Entwicklung von Anwendungen für die automatische Spracherkennung. In der Literatur wird häufig das sogenannte Segment-SNR [1] verwendet, um das SNR für Sprachsignale anzugeben. Dieses Verfahren benötigt ein ungestörtes Referenzsignal, welches ein genaues Abbild der Sprachanteile des gestörten Signales enthalten muß. Aus der Differenz von Referenzsignal und gestörtem Signal wird die Störung berechnet. Die Kurzzeitleistungen des Referenzsignals und der Störung werden in Signalsegmenten von etwa 10 ms Dauer ermittelt und zur Berechnung eines „Kurzzeit-SNR” verwendet. Bei endlich langen Signalen können diese SNR-Werte einer Mittelwertbildung zugeführt werden. Daraus ergibt sich das mittlere Segment-SNR für die Sprachprobe. Bei der Mittelwertbildung müssen jedoch Sprachpausen, in denen nur das Störgeräusch vorhanden ist, ausgeschlossen werden. Für alle Signalsegmente muß deshalb eine Sprachpausendetektion durchgeführt werden. Die Sprachpausendetektion kann z. B. über den Vergleich der Kurzzeitleistung des Referenzsignals mit einer konstanten Leistungsschwelle erfolgen. Bei gemessenen Signalen, z. B. im Kraftfahrzeug, ist die Forderung nach einem Referenzsignal jedoch meist nicht einzuhalten, so daß das Segment SNR nur sinnvoll eingesetzt werden kann, wenn Sprachsignal und Störung getrennt vorliegen, d. h. im Falle simulierter Störungen.The invention is based on a method for determining the signal-to-noise ratio in the case of disturbed speech signals. The signal-to-noise ratio (SNR) is z. For example, it is an important tool for evaluating databases when developing automatic speech recognition applications. In the literature, the so-called segment SNR [1] is often used to specify the SNR for speech signals. This method requires an undisturbed reference signal, which must contain an accurate image of the speech components of the disturbed signal. The difference is calculated from the difference between the reference signal and the disturbed signal. The short-term powers of the reference signal and the disturbance are determined in signal segments of about 10 ms duration and used to calculate a "short-term SNR". For finite signals, these SNR values can be averaged. This results in the mean segment SNR for the speech sample. When averaging but speech pauses in which only the noise is present, must be excluded. For all signal segments therefore a speech pause detection must be performed. The speech pause detection can z. B. via the comparison of the short-term power of the reference signal with a constant power threshold. For measured signals, eg. As in the motor vehicle, the demand for a reference signal, however, is usually not met, so that the segment SNR can only be used meaningfully if speech signal and interference are present separately, d. H. in case of simulated disturbances.

In [2] wird ein Verfahren zur SNR-Messung vorgestellt, das auf ein ungestörtes Referenzsignal verzichtet. Dort wird das „Mean-SNR” eingeführt, das sich auf ein Verfahren zur Sprachpausendetektion am gestörten Signal stützt. Zur Erkennung von Sprachpausen wird aus den logarithmierten Werten der Kurzzeitleistung des gestörten Signals ein Histogramm erstellt. Das Histogramm wird durch die Überlagerung zweier Gauß-Funktionen approximiert, und aus dem Schnittpunkt der Gauß-Funktionen wird die Leistungsschwelle für die Sprachpausendetektion bestimmt. Unterschreitet die Kurzzeitleistung des Signals diese Leistungsschwelle, so wird eine Sprachpause erkannt. Anhand der Sprachpausendetektion können für die Signalabschnitte mit Sprachaktivität und mit Sprachpause jeweils mittlere Leistungen des gestörten Signals berechnet werden. Das Mean-SNR wird aus der Differenz der logarithmierten Werte dieser Leistungen bestimmt.In [2] a method for SNR measurement is presented which dispenses with an undisturbed reference signal. There, the "mean SNR" is introduced, which is based on a method for speech pause detection of the disturbed signal. To detect speech pauses, a histogram is created from the logarithmic values of the short-term power of the disturbed signal. The histogram is approximated by the superposition of two Gaussian functions, and from the intersection of the Gaussian functions the power threshold for the speech pause detection is determined. If the short-term power of the signal falls below this power threshold, then a speech pause is detected. On the basis of speech pause detection, average powers of the perturbed signal can be calculated for the signal sections with voice activity and with speech pause. The mean SNR is determined from the difference between the logarithmic values of these powers.

Das Mean-SNR weicht von der bekannten Definition des Signal-zu-Rauschverhältnisses – wie sie auch dem Segment-SNR zugrunde liegt – ab, weil es die Leistung des gestörten Signals, also Signal und Rauschen, zur Leistung des Rauschens ins Verhältnis setzt. Im logarithmischen Maßstab nähert sich das Mean-SNR daher für stark gestörte Signale dem Wert 0 dB an und kann keine negativen Werte annehmen. Diese Sättigung führt dazu, daß das Mean-SNR bei stark gestörten Signalen keine quantitativen Aussagen über unterschiedliche Störungen zuläßt. Auch die zuvor beschriebene Sprachpausendetektion kann nur bei relativ gering gestörten Signalen verwendet werden, da sonst das Histogramm keine deutliche Trennung in hohe und niedrige Leistungswerte mehr erlaubt.The mean SNR deviates from the well-known definition of the signal-to-noise ratio, as it also underlies the segment SNR, because it relates the power of the disturbed signal, ie signal and noise, to the power of the noise. On a logarithmic scale, the mean SNR therefore approaches the value 0 dB for strongly disturbed signals and can not assume negative values. This saturation means that the mean SNR does not permit quantitative statements about different disturbances in strongly disturbed signals. The speech pause detection described above can also be used only with relatively poorly disturbed signals, since otherwise the histogram no longer allows a clear separation into high and low power values.

Aus der DE 27 05 386 A1 sind ein Verfahren und eine Vorrichtung zum Bearbeiten rauschbehafteter Signale bekannt. Dabei werden sowohl Signalpausen detektiert als auch das gestörte Eingangssignal einer Filterung unterzogen, die den Störanteil reduziert.From the DE 27 05 386 A1 For example, a method and an apparatus for processing noisy signals are known. Both signal pauses are detected and the faulty input signal subjected to filtering, which reduces the noise component.

Die DE 22 33 976 A1 beschreibt eine Schaltungsanordnung, die Signalpausen in einem rauschbehafteten Signal erkennt.The DE 22 33 976 A1 describes a circuit arrangement that detects signal pauses in a noisy signal.

Vorteile der ErfindungAdvantages of the invention

Mit den Maßnahmen gemäß den Merkmalen des Anspruchs 1 ist es möglich, das Signal-zu-Rauschverhältnis von gestörten Signalen zu ermitteln, ohne daß ein ungestörtes Referenzsignal notwendig ist. Durch die Filterung des gestörten Sprachsignals für die Ermittlung der Auftrittswahrscheinlichkeit von Sprachanteilen gegenüber Sprachpausen ist eine Sprachpausendetektion bzw. eine Detektion von Sprachanteilen auch für stark gestörte Sprachsignale zuverlässig möglich.With the measures according to the features of claim 1, it is possible to determine the signal-to-noise ratio of disturbed signals without an undisturbed reference signal is necessary. By filtering the disturbed speech signal for determining the probability of occurrence of speech components with respect to speech pauses, a speech pause detection or a detection of speech components is reliably possible even for strongly disturbed speech signals.

Im Gegensatz zum vorgenannten Stand der Technik wird bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses keine zweiwertige Entscheidung zwischen Sprachanteilen und Sprachpausen anhand einer konstanten Leistungsschwelle verwendet, sondern es wird eine kontinuierliche Größe, die sogenannte Sprachwahrscheinlichkeit, d. h. die Auftrittswahrscheinlichkeit von Sprachanteilen im gestörten Sprachsignal, herangezogen. Mit dieser Sprachwahrscheinlichkeit wird eine charakteristische Sprachsignalgröße, z. B. die Kurzzeitleistung, des gestörten Sprachsignals, bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses bewertet. Dadurch werden fehlerhafte Entscheidungen, welche den Wert des Mean-SNR (Mittelwert des Signal-zu-Rauschverhältnisses) verfälschen könnten, vermieden.In contrast to the afore-mentioned prior art, in averaging to obtain the signal-to-noise ratio, no two-valued decision between speech components and speech pauses is used on the basis of a constant power threshold, but a continuous quantity, the so-called speech probability, ie the probability of occurrence of speech components in the disturbed one Speech signal, used. With this probability of speech, a characteristic speech signal magnitude, e.g. B. the short-term power, the disturbed speech signal, evaluated in the averaging to obtain the signal-to-noise ratio. As a result, erroneous decisions that could corrupt the value of the mean SNR (mean value of the signal-to-noise ratio) are avoided.

In einer Weiterbildung gemäß Anspruch 2 wird durch eine nichtlineare Transformation ein modifiziertes Signal-zu-Rauschverhältnis (Mean-SNR) gebildet. Damit wird der mögliche Wertebereich des Mean-SNR im logarithmischen Maßstab auf negative Zahlenwerte erweitert und die Sättigung des Mean-SNR wird vermieden.In a further development according to claim 2, a modified signal-to-noise ratio (mean SNR) is formed by a non-linear transformation. This expands the possible value range of the mean SNR on a logarithmic scale to negative numerical values and the saturation of the mean SNR is avoided.

Die weiteren Ansprüche zeigen vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens insbesondere der Ermittlung der Sprachwahrscheinlichkeit auf, bzw. eine Anordnung zum Durchführen des Verfahrens, sowie seine Verwendung.The further claims show advantageous developments of the method according to the invention in particular the determination of the likelihood of speech, or an arrangement for carrying out the method, as well as its use.

Zeichnungendrawings

Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindungen näher erläutert. Es zeigenReference to the drawings embodiments of the invention will be explained in more detail. Show it

1 ein Blockschaltbild zur Ermittlung des Signal-zu-Rauschverhältnisses gestörter Sprachsignale, 1 a block diagram for determining the signal-to-noise ratio of disturbed speech signals,

2 die Approximation eines Histogramms der Kurzzeitleistung durch die Überlagerung von zwei Normalverteilungen, 2 the approximation of a short-term power histogram by the superposition of two normal distributions,

3 die Erweiterung der Sprachpausendetektion für mehrere Kriterien. 3 the extension of speech pause detection for multiple criteria.

Beschreibung von AusführungsbeispielenDescription of exemplary embodiments

Das Blockschaltbild gemäß 1 gliedert sich in die Einheiten Sprachpausendetektion 2 und SNR-Messung 1.The block diagram according to 1 is divided into the units speech pause detection 2 and SNR measurement 1 ,

Für die Sprachpausendetektion 2 wird das Eingangssignal y so gefiltert, daß der Einfluß der Störung im Signal reduziert wird. Hierbei kann z. B. das bekannte Verfahren der spektralen Subtraktion oder ein fest entworfenes Filter 3 eingesetzt werden. Durch die Filterung werden typische Störgeräusche reduziert. Im Kraftfahrzeug sind dies vor allem das tieffrequente Motorgeräusch und das hochfrequente Wind- und Fahrgeräusch. Die Filterung wird im Frequenzbereich mit einer spektralen Gewichtung W(Ων) der geschätzten Leistungsdichte Φyyνk) durchgeführt:

Figure 00060001
For speech pause detection 2 the input signal y is filtered so that the influence of the disturbance in the signal is reduced. This z. As the known method of spectral subtraction or a well-designed filter 3 be used. Filtering reduces typical noise. In the motor vehicle, these are mainly the low-frequency engine noise and the high-frequency wind and driving noise. The filtering is carried out in the frequency domain with a spectral weighting W (Ω ν ) of the estimated power density Φ yyνk ):
Figure 00060001

Die gewählte Gewichtungsfunktion hat die Form W(Ων) = 1 – cos2Ων. The selected weighting function has the form W (Ω ν ) = 1 - cos 2 Ω ν .

Anhand des entstörten, d. h. in seinem Störanteil reduzierten Signals wird nun im Block 4 die Kurzzeitleistung bestimmt und aus den logarithmierten Werten dieser Kurzeitleistung ein Histogramm (Block 5) erstellt. Durch ein geeignetes iteratives Verfahren wird die Häufigkeitsverteilung des Histogramms durch die Überlagerung zweier Funktionen p(E|Pause) und p(E|Sprache) approximiert (Block 6). In Block 7 wird wie nachfolgend näher erläutert die Sprachwahrscheinlichkeit ermittelt.On the basis of the interference-suppressed, ie reduced signal in its interference component is now in the block 4 determines the short-term power and from the logarithmierten values of this Kurzeitleistung a histogram (block 5 ) created. By a suitable iterative method, the frequency distribution of the histogram is determined by the superposition of two functions p ( e | Pause) and p ( e | Language) approximated (block 6 ). In block 7 is explained in more detail below, the language probability determined.

Die Funktionen p(E|Pause) und p(E|Sprache) stellen Häufigkeitsverteilungen der Kurzzeitleistungen für die Ereignisse „Pause” und „Sprache” dar und können, wie z. B. in 2 dargestellt, Normalverteilungen sein. Es sind aber auch beliebige andere Funktionen denkbar, solange sie die Normierungsbedingung für Häufigkeitsverteilungen bzw. Wahrscheinlichkeitsdichten erfüllen:

Figure 00070001
The functions p ( e | Pause) and p ( e | Language) represent frequency distributions of the short-term performances for the events "pause" and "language" and can, for example In 2 shown to be normal distributions. However, any other functions are also conceivable as long as they fulfill the normalization condition for frequency distributions or probability densities:
Figure 00070001

Für die Überlagerung von p(E|Pause) und p(E|Sprache) wird angenommen, daß die Ereignisse „Pause” und „Sprache” a priori gleich wahrscheinlich sind. Daher werden die Häufigkeitsverteilungen jeweils mit dem Faktor ½ gewichtet: p(E) = ½p(E|Sprache) + ½p(E|Pause) For the overlay of p ( e | Pause) and p ( e | Language) It is assumed that the events "pause" and "language" are equally probable a priori. Therefore, the frequency distributions are each weighted by the factor ½: p ( e ) = ½p ( e | Language) + ½p ( e | Pause)

Aus den Häufigkeitsverteilungen und dem logarithmierten Wert der Kurzzeitleistung E k kann für jedes Segment k des entstörten Signals nach dem bekannten Bayes'schen Theorem eine Wahrscheinlichkeit pk(Sprache) = p(Sprache|E k) dafür angegeben werden, ob das Segment k Sprache enthält.From the frequency distributions and the logarithmic value of the short-term power e k For each segment k of the interference-suppressed signal according to the known Bayesian theorem a probability p k (language) = p (language | e k ) to indicate if segment k contains language.

Die SNR-Messung wird am ungefilterten, gestörten Signal y vorgenommen. Die Bestimmung der mittleren Signalleistungen für Sprache und Pause (Block 9) erfolgt anhand der Kurzzeitleistung E k (Block 8) des gestörten Signals und der Sprachwahrscheinlichkeit pk(Sprache) nach folgender Vorschrift:

Figure 00070002
The SNR measurement is made on the unfiltered, disturbed signal y. The determination of the mean signal power for speech and pause (block 9 ) is based on the short-term performance e k (Block 8th ) of the disturbed signal and the speech probability p k (speech) according to the following rule:
Figure 00070002

Aus der Differenz der Leistungswerte ergibt sich das Mean-SNR (Block 10): SNRMean = E SpracheE Pause The difference between the power values results in the mean SNR (block 10 ): SNR Mean = e Language - e Break

Die folgende nichtlineare Transformation (Block 11) bildet aus dem Mean-SNR ein modifiziertes Mean-SNR:

Figure 00080001
The following nonlinear transformation (block 11 ) forms a modified mean SNR from the mean SNR:
Figure 00080001

Das modifizierte Mean-SNR verbessert die Meßwerte im Vergleich zum Stand der Technik im Sinne der bekannten Definition des Signal-zu-Rausch-Verhältnisses insbesondere für stark gestörte Signale, da die oben erwähnte Sättigung mit einer Annäherung an den Wert 0 dB nicht eintritt.The modified mean SNR improves the measured values in comparison with the prior art in the sense of the known definition of the signal-to-noise ratio, in particular for strongly disturbed signals, since the abovementioned saturation does not occur with an approach to the value 0 dB.

Alternativ zum dargestellten Aufbau in 1 kann die Sprachpausendetektion so erweitert werden, daß mehrere Kriterien berücksichtigt werden, z. B. neben der Kurzzeitleistung auch die in der Sprachsignalverarbeitung vielfach verwendete Korrelation. Dazu sind für jedes Kriterium separate Wahrscheinlichkeiten zu berechnen, die anschließend geeignet zu einer Sprachwahrscheinlichkeit pk(Sprache) verknüpft werden. 3 zeigt den Aufbau der Sprachpausendetektion für zwei Kriterien K1 und K2. Eine Erweiterung auf mehr als zwei Kriterien wird angedeutet. Die Verknüpfungseinrichtung ist mit dem Bezugszeichen 12 versehen. Die übrigen Blöcke weisen die gleichen Bezugszeichen wie in 1 auf. Sie sind lediglich um eine zweite Bezugsziffer ergänzt und zwar eine 1 für das erste Kriterium und eine 2 für das zweite Kriterium.Alternatively to the construction shown in FIG 1 the speech pause detection can be extended so that several criteria are taken into account, eg. B. in addition to the short-term performance and the multiple used in the speech signal processing correlation. For this purpose, separate probabilities have to be calculated for each criterion, which are then suitably linked to a speech probability p k (language). 3 shows the structure of speech pause detection for two criteria K1 and K2. An extension to more than two criteria is suggested. The linking device is denoted by the reference numeral 12 Mistake. The remaining blocks have the same reference numerals as in FIG 1 on. They are merely supplemented by a second reference number, namely a 1 for the first criterion and a 2 for the second criterion.

Bei der Entwicklung von Anwendungen für die Sprachsignalverarbeitung im Kraftfahrzeug (z. B. eine automatische Spracherkennung zur Steuerung von Fahrerinformationssystemen) ist das erfindungsgemäße Verfahren als Meßverfahren zur Bewertung der Qualität von Sprachdaten einsetzbar. Es ist somit eine Qualitätskontrolle und schnelle Fehlerlokalisation für die sehr aufwendigen Sprachdatensammlungen möglich.In the development of applications for voice signal processing in motor vehicles (eg automatic speech recognition for controlling driver information systems), the method according to the invention can be used as a measuring method for assessing the quality of speech data. It is thus a quality control and fast fault location for the very complex language data collections possible.

Zudem ist bekannt, daß die Erkennungsleistung eines automatischen Spracherkenners stark vom Grad der Störung im Sprachsignal abhängt. Es ist daher sinnvoll, die SNR-Messung in den Prozeß der Spracherkennung selbst zu integrieren. So können z. B. die verwendeten Modelle des Spracherkenners an verschiedene Störungen angepaßt werden, d. h. gering gestörte Signale werden nach anderen Modellen klassifiziert als stark gestörte Signale. Hierfür ist eine SNR-Messung am Eingangssignal des Spracherkenners notwendig, um die richtigen Modelle auswählen zu können. Da in diesem Fall ausschließlich das gestörte Sprachsignal zur Verfügung steht, ist das erfindungsgemäße Verfahren hierbei vorteilhaft einsetzbar.In addition, it is known that the recognition performance of an automatic speech recognizer depends strongly on the degree of interference in the speech signal. It therefore makes sense to integrate the SNR measurement in the speech recognition process itself. So z. B. the models of the speech recognizer used are adapted to different disorders, d. H. slightly disturbed signals are classified according to other models than strongly disturbed signals. This requires an SNR measurement on the speech recognizer input signal to select the correct models. Since only the disturbed speech signal is available in this case, the method according to the invention can advantageously be used here.

Literaturliterature

  • [1] NOLL, P.: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar an Digital Communications. 1974, S. B3(1)–B3(6).[1] NOLL, P .: Adaptive Quantization in Speech Coding Systems. In: Proceedings of the International Zurich Seminar to Digital Communications. 1974, p. B3 (1) -B3 (6).
  • [2] SMOLDERS, J.; CLAES, T.; SABLON, G.; VAN COMPERNOLLE, D.: On the Importance of the Microphone Position for Speech Recognition in the Car. In: Proceeding of the International Conference an Acoustics, Speech & Signal Processing (ICASSP) 1. 1994, S. 429–432.[2] SMOLDERS, J .; CLAES, T .; SABLON, G .; VAN COMPERNOLLE, D .: On the Importance of the Microphones Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP), 1994, p. 429-432.

Claims (12)

Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei einem gestörten Sprachsignal mit folgenden Schritten: – Es wird die Auftrittswahrscheinlichkeit für Sprachanteile anhand mindestens einer charakteristischen Sprachsignalgröße ermittelt (7), von denen die erste charakteristische Sprachsignalgröße die Kurzzeitleistung des gestörten Sprachsignals ist, indem das gestörte Sprachsignal einer Filterung (3) unterzogen wird, die den Störanteil reduziert, und eine Häufigkeitsverteilung in Abhängigkeit der gefilterten Werte erstellt wird, – bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses wird/werden die zu mittelnde(n) Sprachsignalgröße(n) mit der Auftrittswahrscheinlichkeit für Sprachanteile bewertet, – wobei zur Bestimmung der mittleren Signalleistungen für Sprachanteile und Sprachpausen die Kurzzeitleistung des gestörten Sprachsignals mit der Auftrittswahrscheinlichkeit der Sprachanteile sowie der Sprachpausen verknüpft und das Signal-zu-Rauschverhältnis durch Differenzbildung (10) dieser beiden verknüpften Werte ermittelt wird.Method for determining the signal-to-noise ratio in the case of a disturbed speech signal comprising the following steps: - The probability of occurrence of speech components is determined on the basis of at least one characteristic speech signal quantity ( 7 ), of which the first characteristic speech signal magnitude is the short-term power of the disturbed speech signal, in that the disturbed speech signal is filtered ( 3 ), which reduces the noise component and creates a frequency distribution as a function of the filtered values, - in averaging ( 9 . 10 for the determination of the signal-to-noise ratio, the speech signal magnitude (s) to be averaged is / are evaluated with the probability of occurrence of speech components, - the short-term power of the disturbed speech signal having the likelihood of occurrence of the speech components for determining the average signal powers for speech components and speech pauses as well as the speech pauses and the signal-to-noise ratio by subtraction ( 10 ) of these two linked values. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß durch eine nichtlineare Transformation (11) ein modifiziertes Signal-zu-Rauschverhältnis ermittelt wird, welches auch für stark gestörte Sprachsignale zu keiner Sättigung im logarithmischen Maßstab führt.Method according to claim 1, characterized in that by a non-linear transformation ( 11 ), a modified signal-to-noise ratio is determined, which leads to no saturation on a logarithmic scale, even for strongly disturbed speech signals. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, daß als charakteristische Sprachsignalgröße als ein weiteres Kriterium die Korrelation des gestörten Sprachsignals verwendet wird.Method according to one of Claims 1 or 2, characterized in that the correlation of the disturbed speech signal is used as the characteristic speech signal variable as a further criterion. Verfahren nach einem der Ansprüche 1 bis 3 dadurch gekennzeichnet, daß zur Ermittlung der Auftrittswahrscheinlichkeit aus dem in seinem Störanteil reduzierten Sprachsignal die Kurzzeitleistung und/oder die Korrelation gebildet wird und daraus ein Histogramm (5, 51, 52) erstellt wird und daß die Häufigkeitsverteilung dieses Histogramms (5, 51, 52) durch die Überlagerung der Häufigkeitsdichten für die Kurzzeitleistung und/oder der Korrelation bezüglich der Sprachpausen einerseits und der Sprachanteile andererseits approximiert wird.Method according to one of Claims 1 to 3, characterized in that, for determining the probability of occurrence, the short-term power and / or the correlation is formed from the speech signal reduced in its interference component and a histogram ( 5 . 51 . 52 ) and that the frequency distribution of this histogram ( 5 . 51 . 52 ) is approximated by the superimposition of the frequency densities for the short-term power and / or the correlation with respect to the speech pauses on the one hand and the speech components on the other hand. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß das Histogramm (5, 51, 52) aus den logarithmierten Werten der Kurzzeitleistung und/oder den Werten der Korrelation erstellt wird.Method according to Claim 4, characterized in that the histogram ( 5 . 51 . 52 ) is generated from the logarithmic values of the short-term power and / or the values of the correlation. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß aus den Häufigkeitsverteilungen für Sprachanteile und Sprachpausen und dem Wert oder dem logarithmierten Wert der Kurzzeitleistung und/oder dem Wert der Korrelation für jedes Segment des im Störanteil reduzierten Sprachsignals eine Wahrscheinlichkeit ermittelt wird, ob das betreffende Segment Sprachanteile enthält oder nicht.Method according to Claim 4 or 5, characterized in that a probability is determined from the frequency distributions for speech components and speech pauses and the value or the logarithmized value of the short-term power and / or the value of the correlation for each segment of the speech signal reduced in the interference component, if the respective one Segment contains speech parts or not. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses nur über jene Segmente erfolgt, in denen mit der ermittelten Auftrittswahrscheinlichkeit Sprachaktivität, das heißt Sprachanteile, detektiert wurden.Method according to Claim 6, characterized in that the averaging ( 9 . 10 ) is carried out to obtain the signal-to-noise ratio only over those segments in which speech activity, that is speech components, were detected with the determined occurrence probability. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß mehrere charakteristische Sprachsignalgrößen gleichzeitig zur Ermittlung der Auftrittswahrscheinlichkeit der Sprachanteile berücksichtigt werden.Method according to one of Claims 1 to 7, characterized in that a plurality of characteristic speech signal quantities are considered simultaneously for determining the probability of occurrence of the speech components. Anordnung zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 8, mit folgenden Merkmalen: – einer ersten Einrichtung (1) zur Bildung des Mittelwertes einer charakteristischen Sprachsignalgröße bei einem gestörten Sprachsignal, zur Verknüpfung der Sprachsignalgröße mit einer ersten Auftrittswahrscheinlichkeit für Sprachanteile, zur Verknüpfung der Sprachsignalgröße mit einer zweiten Auftrittswahrscheinlichkeit für Sprachpausen und zur Differenzbildung (10) dieser beiden verknüpften Werte, – einer zweiten Einrichtung (2) mit einer eingangsseitigen Filtereinrichtung (3) zur Reduzierung des Störanteils des zuführbaren gestörten Sprachsignals zur Ermittlung der Auftrittswahrscheinlichkeit für Sprachanteile sowie der Sprachpausen, wobei die zweite Einrichtung (2) derart mit der ersten Einrichtung (1) in Verbindung steht, daß eine Bewertung der charakteristischen Sprachsignalgröße mit der Auftrittswahrscheinlichkeit für Sprachanteile sowie Sprachpausen bei der Mittelwertbildung (9, 10) erzielbar ist, wobei zur Gewinnung des Signal-zu-Rauschverhältnisses eine Differenzbildung (10) der so bewerteten Signale erfolgt.Arrangement for carrying out the method according to one of Claims 1 to 8, having the following features: - a first device ( 1 ) for forming the mean value of a characteristic speech signal magnitude in a disturbed speech signal, for linking the speech signal magnitude with a first Occurrence probability for speech components, for linking the speech signal size with a second occurrence probability for speech pauses and for subtraction ( 10 ) of these two linked values, - a second facility ( 2 ) with an input-side filter device ( 3 ) for reducing the interference component of the input disturbed speech signal for determining the probability of occurrence of speech components and the speech pauses, wherein the second device ( 2 ) with the first device ( 1 ), that an evaluation of the characteristic speech signal magnitude with the probability of occurrence of speech components as well as speech pauses in averaging ( 9 . 10 ) is achievable, wherein to obtain the signal-to-noise ratio, a difference formation ( 10 ) of the signals evaluated in this way. Anordnung nach Anspruch 9, dadurch gekennzeichnet, daß die erste Einrichtung (1) ausgangsseitig eine nichtlineare Transformationseinrichtung (11) aufweist, die derart ausgebildet ist, daß keine Sättigung bei der Ermittlung des Signal-zu-Rauschverhältnisses auftreten kann.Arrangement according to claim 9, characterized in that the first device ( 1 ) on the output side a non-linear transformation device ( 11 ), which is designed such that no saturation can occur in the determination of the signal-to-noise ratio. Verwendung der Anordnung nach einem der Ansprüche 9 bis 10 für die Bewertung und Validierung von Sprachdatenbanken insbesondere für automatische Spracherkennungssysteme.Use of the arrangement according to one of claims 9 to 10 for the evaluation and validation of speech databases, in particular for automatic speech recognition systems. Verfahren nach einem der Ansprüche 1 bis 8 zur Verwendung für die Bewertung und Validierung von Sprachdatenbanken insbesondere für automatische Spracherkennungssysteme.Method according to one of claims 1 to 8 for use for the evaluation and validation of speech databases, in particular for automatic speech recognition systems.
DE19907900A 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use Expired - Fee Related DE19907900B4 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19907900A DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19907900A DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Publications (2)

Publication Number Publication Date
DE19907900A1 DE19907900A1 (en) 2000-12-28
DE19907900B4 true DE19907900B4 (en) 2013-11-21

Family

ID=7898657

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19907900A Expired - Fee Related DE19907900B4 (en) 1999-02-24 1999-02-24 Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use

Country Status (1)

Country Link
DE (1) DE19907900B4 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2233976A1 (en) * 1972-07-11 1974-01-31 Rohde & Schwarz CIRCUIT ARRANGEMENT FOR DETECTING AND FORWARDING INFORMATION
DE2705386A1 (en) * 1976-02-23 1977-09-01 American Electronic Lab SIGNAL PROCESSING METHOD AND DEVICE

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2233976A1 (en) * 1972-07-11 1974-01-31 Rohde & Schwarz CIRCUIT ARRANGEMENT FOR DETECTING AND FORWARDING INFORMATION
DE2705386A1 (en) * 1976-02-23 1977-09-01 American Electronic Lab SIGNAL PROCESSING METHOD AND DEVICE

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NOLL, P.: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar on Digital Communications. 1974, S. B3(1) - B3(6). *
SMOLDERS, J.; CLAES, T.; SABLON, G.; VAN COMPERNOLLE, D.: On the Importance of the Microphone Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP) 1.1994, 5. 429 - 432. *

Also Published As

Publication number Publication date
DE19907900A1 (en) 2000-12-28

Similar Documents

Publication Publication Date Title
DE60131639T2 (en) Apparatus and methods for determining noise cancellation performance values for a voice communication system
DE102011012573B4 (en) Voice control device for motor vehicles and method for selecting a microphone for operating a voice control device
DE602005000539T2 (en) Gain-controlled noise cancellation
DE69917361T2 (en) Device for speech detection in ambient noise
DE69735396T2 (en) Acoustic subband echo canceller
DE112017007005B4 (en) ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING METHOD AND HANDS-FREE COMMUNICATION DEVICE
DE102008039330A1 (en) Apparatus and method for calculating filter coefficients for echo cancellation
WO2005111598A1 (en) Device and method for assessing the quality class of an object to be tested
EP1386307A1 (en) Method and device for determining a quality measure for an audio signal
EP1470735A2 (en) Method for determining an acoustic environment situation, application of the method and hearing aid
WO1998023130A1 (en) Hearing-adapted quality assessment of audio signals
DE102008023915A1 (en) Filtering control variable setting method for noise reduction in medical image in X-ray diagnostic facility, involves comparing standard noise deviation and standard structure deviation and setting control variable as function of comparison
DE19500494C2 (en) Feature extraction method for a speech signal
DE3043516C2 (en) Method and device for speech recognition
DE19508711A1 (en) Method for recognizing a signal pause between two patterns which are present in a time-variant measurement signal
DE102014221528B4 (en) Accurate forward SNR estimation based on MMSE speech presence probability
DE4010028C2 (en) Speech recognition method
DE19505435C1 (en) Tonality evaluation system for audio signal
DE102013011761A1 (en) Motor vehicle has estimating unit and background noise spectrum unit that are designed to open dynamic filter with low background noise and close with strong background noise
DE10157535B4 (en) Method and apparatus for reducing random, continuous, transient disturbances in audio signals
EP2080197B1 (en) Apparatus for noise suppression in an audio signal
EP1755110A2 (en) Method and device for adaptive reduction of noise signals and background signals in a speech processing system
DE19907900B4 (en) Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use
DE102019102414B4 (en) Method and system for detecting fricatives in speech signals
DE112008001249T5 (en) Radio receiving apparatus and noise elimination method in this apparatus

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20140222

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20140902