DE19907900B4 - Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use - Google Patents
Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use Download PDFInfo
- Publication number
- DE19907900B4 DE19907900B4 DE19907900A DE19907900A DE19907900B4 DE 19907900 B4 DE19907900 B4 DE 19907900B4 DE 19907900 A DE19907900 A DE 19907900A DE 19907900 A DE19907900 A DE 19907900A DE 19907900 B4 DE19907900 B4 DE 19907900B4
- Authority
- DE
- Germany
- Prior art keywords
- speech
- signal
- disturbed
- probability
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 3
- 238000010200 validation analysis Methods 0.000 claims 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R29/00—Arrangements for measuring or indicating electric quantities not covered by groups G01R19/00 - G01R27/00
- G01R29/26—Measuring noise figure; Measuring signal-to-noise ratio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Noise Elimination (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei einem gestörten Sprachsignal mit folgenden Schritten: – Es wird die Auftrittswahrscheinlichkeit für Sprachanteile anhand mindestens einer charakteristischen Sprachsignalgröße ermittelt (7), von denen die erste charakteristische Sprachsignalgröße die Kurzzeitleistung des gestörten Sprachsignals ist, indem das gestörte Sprachsignal einer Filterung (3) unterzogen wird, die den Störanteil reduziert, und eine Häufigkeitsverteilung in Abhängigkeit der gefilterten Werte erstellt wird, – bei der Mittelwertbildung (9, 10) zur Gewinnung des Signal-zu-Rauschverhältnisses wird/werden die zu mittelnde(n) Sprachsignalgröße(n) mit der Auftrittswahrscheinlichkeit für Sprachanteile bewertet, – wobei zur Bestimmung der mittleren Signalleistungen für Sprachanteile und Sprachpausen die Kurzzeitleistung des gestörten Sprachsignals mit der Auftrittswahrscheinlichkeit der Sprachanteile sowie der Sprachpausen verknüpft und das Signal-zu-Rauschverhältnis durch Differenzbildung (10) dieser beiden verknüpften Werte ermittelt wird.A method for determining the signal-to-noise ratio in a disturbed speech signal comprising the following steps: - The probability of occurrence of speech components is determined based on at least one characteristic speech signal magnitude (7), of which the first characteristic speech signal magnitude is the short-term power of the disturbed speech signal by the disturbed speech signal Speech signal is subjected to a filtering (3), which reduces the noise component, and a frequency distribution is created as a function of the filtered values, - in averaging (9, 10) for obtaining the signal-to-noise ratio, the (n Speech signal size (s) evaluated with the probability of occurrence for speech components, - wherein the short-term power of the disturbed voice signal with the probability of occurrence of the speech components and the speech pauses linked and to determine the average signal powers for speech components and pauses the signal-to-noise ratio is determined by subtraction (10) of these two associated values.
Description
Stand der TechnikState of the art
Die Erfindung geht aus von einem Verfahren zur Ermittlung des Signal-zu-Rauschverhältnisses bei gestörten Sprachsignalen. Das Signal-zu-Rauschverhältnis (SNR) ist z. B. eine wichtige Größe zur Bewertung von Datenbasen bei der Entwicklung von Anwendungen für die automatische Spracherkennung. In der Literatur wird häufig das sogenannte Segment-SNR [1] verwendet, um das SNR für Sprachsignale anzugeben. Dieses Verfahren benötigt ein ungestörtes Referenzsignal, welches ein genaues Abbild der Sprachanteile des gestörten Signales enthalten muß. Aus der Differenz von Referenzsignal und gestörtem Signal wird die Störung berechnet. Die Kurzzeitleistungen des Referenzsignals und der Störung werden in Signalsegmenten von etwa 10 ms Dauer ermittelt und zur Berechnung eines „Kurzzeit-SNR” verwendet. Bei endlich langen Signalen können diese SNR-Werte einer Mittelwertbildung zugeführt werden. Daraus ergibt sich das mittlere Segment-SNR für die Sprachprobe. Bei der Mittelwertbildung müssen jedoch Sprachpausen, in denen nur das Störgeräusch vorhanden ist, ausgeschlossen werden. Für alle Signalsegmente muß deshalb eine Sprachpausendetektion durchgeführt werden. Die Sprachpausendetektion kann z. B. über den Vergleich der Kurzzeitleistung des Referenzsignals mit einer konstanten Leistungsschwelle erfolgen. Bei gemessenen Signalen, z. B. im Kraftfahrzeug, ist die Forderung nach einem Referenzsignal jedoch meist nicht einzuhalten, so daß das Segment SNR nur sinnvoll eingesetzt werden kann, wenn Sprachsignal und Störung getrennt vorliegen, d. h. im Falle simulierter Störungen.The invention is based on a method for determining the signal-to-noise ratio in the case of disturbed speech signals. The signal-to-noise ratio (SNR) is z. For example, it is an important tool for evaluating databases when developing automatic speech recognition applications. In the literature, the so-called segment SNR [1] is often used to specify the SNR for speech signals. This method requires an undisturbed reference signal, which must contain an accurate image of the speech components of the disturbed signal. The difference is calculated from the difference between the reference signal and the disturbed signal. The short-term powers of the reference signal and the disturbance are determined in signal segments of about 10 ms duration and used to calculate a "short-term SNR". For finite signals, these SNR values can be averaged. This results in the mean segment SNR for the speech sample. When averaging but speech pauses in which only the noise is present, must be excluded. For all signal segments therefore a speech pause detection must be performed. The speech pause detection can z. B. via the comparison of the short-term power of the reference signal with a constant power threshold. For measured signals, eg. As in the motor vehicle, the demand for a reference signal, however, is usually not met, so that the segment SNR can only be used meaningfully if speech signal and interference are present separately, d. H. in case of simulated disturbances.
In [2] wird ein Verfahren zur SNR-Messung vorgestellt, das auf ein ungestörtes Referenzsignal verzichtet. Dort wird das „Mean-SNR” eingeführt, das sich auf ein Verfahren zur Sprachpausendetektion am gestörten Signal stützt. Zur Erkennung von Sprachpausen wird aus den logarithmierten Werten der Kurzzeitleistung des gestörten Signals ein Histogramm erstellt. Das Histogramm wird durch die Überlagerung zweier Gauß-Funktionen approximiert, und aus dem Schnittpunkt der Gauß-Funktionen wird die Leistungsschwelle für die Sprachpausendetektion bestimmt. Unterschreitet die Kurzzeitleistung des Signals diese Leistungsschwelle, so wird eine Sprachpause erkannt. Anhand der Sprachpausendetektion können für die Signalabschnitte mit Sprachaktivität und mit Sprachpause jeweils mittlere Leistungen des gestörten Signals berechnet werden. Das Mean-SNR wird aus der Differenz der logarithmierten Werte dieser Leistungen bestimmt.In [2] a method for SNR measurement is presented which dispenses with an undisturbed reference signal. There, the "mean SNR" is introduced, which is based on a method for speech pause detection of the disturbed signal. To detect speech pauses, a histogram is created from the logarithmic values of the short-term power of the disturbed signal. The histogram is approximated by the superposition of two Gaussian functions, and from the intersection of the Gaussian functions the power threshold for the speech pause detection is determined. If the short-term power of the signal falls below this power threshold, then a speech pause is detected. On the basis of speech pause detection, average powers of the perturbed signal can be calculated for the signal sections with voice activity and with speech pause. The mean SNR is determined from the difference between the logarithmic values of these powers.
Das Mean-SNR weicht von der bekannten Definition des Signal-zu-Rauschverhältnisses – wie sie auch dem Segment-SNR zugrunde liegt – ab, weil es die Leistung des gestörten Signals, also Signal und Rauschen, zur Leistung des Rauschens ins Verhältnis setzt. Im logarithmischen Maßstab nähert sich das Mean-SNR daher für stark gestörte Signale dem Wert 0 dB an und kann keine negativen Werte annehmen. Diese Sättigung führt dazu, daß das Mean-SNR bei stark gestörten Signalen keine quantitativen Aussagen über unterschiedliche Störungen zuläßt. Auch die zuvor beschriebene Sprachpausendetektion kann nur bei relativ gering gestörten Signalen verwendet werden, da sonst das Histogramm keine deutliche Trennung in hohe und niedrige Leistungswerte mehr erlaubt.The mean SNR deviates from the well-known definition of the signal-to-noise ratio, as it also underlies the segment SNR, because it relates the power of the disturbed signal, ie signal and noise, to the power of the noise. On a logarithmic scale, the mean SNR therefore approaches the
Aus der
Die
Vorteile der ErfindungAdvantages of the invention
Mit den Maßnahmen gemäß den Merkmalen des Anspruchs 1 ist es möglich, das Signal-zu-Rauschverhältnis von gestörten Signalen zu ermitteln, ohne daß ein ungestörtes Referenzsignal notwendig ist. Durch die Filterung des gestörten Sprachsignals für die Ermittlung der Auftrittswahrscheinlichkeit von Sprachanteilen gegenüber Sprachpausen ist eine Sprachpausendetektion bzw. eine Detektion von Sprachanteilen auch für stark gestörte Sprachsignale zuverlässig möglich.With the measures according to the features of
Im Gegensatz zum vorgenannten Stand der Technik wird bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses keine zweiwertige Entscheidung zwischen Sprachanteilen und Sprachpausen anhand einer konstanten Leistungsschwelle verwendet, sondern es wird eine kontinuierliche Größe, die sogenannte Sprachwahrscheinlichkeit, d. h. die Auftrittswahrscheinlichkeit von Sprachanteilen im gestörten Sprachsignal, herangezogen. Mit dieser Sprachwahrscheinlichkeit wird eine charakteristische Sprachsignalgröße, z. B. die Kurzzeitleistung, des gestörten Sprachsignals, bei der Mittelwertbildung zur Gewinnung des Signal-zu-Rauschverhältnisses bewertet. Dadurch werden fehlerhafte Entscheidungen, welche den Wert des Mean-SNR (Mittelwert des Signal-zu-Rauschverhältnisses) verfälschen könnten, vermieden.In contrast to the afore-mentioned prior art, in averaging to obtain the signal-to-noise ratio, no two-valued decision between speech components and speech pauses is used on the basis of a constant power threshold, but a continuous quantity, the so-called speech probability, ie the probability of occurrence of speech components in the disturbed one Speech signal, used. With this probability of speech, a characteristic speech signal magnitude, e.g. B. the short-term power, the disturbed speech signal, evaluated in the averaging to obtain the signal-to-noise ratio. As a result, erroneous decisions that could corrupt the value of the mean SNR (mean value of the signal-to-noise ratio) are avoided.
In einer Weiterbildung gemäß Anspruch 2 wird durch eine nichtlineare Transformation ein modifiziertes Signal-zu-Rauschverhältnis (Mean-SNR) gebildet. Damit wird der mögliche Wertebereich des Mean-SNR im logarithmischen Maßstab auf negative Zahlenwerte erweitert und die Sättigung des Mean-SNR wird vermieden.In a further development according to
Die weiteren Ansprüche zeigen vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens insbesondere der Ermittlung der Sprachwahrscheinlichkeit auf, bzw. eine Anordnung zum Durchführen des Verfahrens, sowie seine Verwendung.The further claims show advantageous developments of the method according to the invention in particular the determination of the likelihood of speech, or an arrangement for carrying out the method, as well as its use.
Zeichnungendrawings
Anhand der Zeichnungen werden Ausführungsbeispiele der Erfindungen näher erläutert. Es zeigenReference to the drawings embodiments of the invention will be explained in more detail. Show it
Beschreibung von AusführungsbeispielenDescription of exemplary embodiments
Das Blockschaltbild gemäß
Für die Sprachpausendetektion
Die gewählte Gewichtungsfunktion hat die Form
Anhand des entstörten, d. h. in seinem Störanteil reduzierten Signals wird nun im Block
Die Funktionen
Für die Überlagerung von
Aus den Häufigkeitsverteilungen und dem logarithmierten Wert der Kurzzeitleistung
Die SNR-Messung wird am ungefilterten, gestörten Signal y vorgenommen. Die Bestimmung der mittleren Signalleistungen für Sprache und Pause (Block
Aus der Differenz der Leistungswerte ergibt sich das Mean-SNR (Block
Die folgende nichtlineare Transformation (Block
Das modifizierte Mean-SNR verbessert die Meßwerte im Vergleich zum Stand der Technik im Sinne der bekannten Definition des Signal-zu-Rausch-Verhältnisses insbesondere für stark gestörte Signale, da die oben erwähnte Sättigung mit einer Annäherung an den Wert 0 dB nicht eintritt.The modified mean SNR improves the measured values in comparison with the prior art in the sense of the known definition of the signal-to-noise ratio, in particular for strongly disturbed signals, since the abovementioned saturation does not occur with an approach to the
Alternativ zum dargestellten Aufbau in
Bei der Entwicklung von Anwendungen für die Sprachsignalverarbeitung im Kraftfahrzeug (z. B. eine automatische Spracherkennung zur Steuerung von Fahrerinformationssystemen) ist das erfindungsgemäße Verfahren als Meßverfahren zur Bewertung der Qualität von Sprachdaten einsetzbar. Es ist somit eine Qualitätskontrolle und schnelle Fehlerlokalisation für die sehr aufwendigen Sprachdatensammlungen möglich.In the development of applications for voice signal processing in motor vehicles (eg automatic speech recognition for controlling driver information systems), the method according to the invention can be used as a measuring method for assessing the quality of speech data. It is thus a quality control and fast fault location for the very complex language data collections possible.
Zudem ist bekannt, daß die Erkennungsleistung eines automatischen Spracherkenners stark vom Grad der Störung im Sprachsignal abhängt. Es ist daher sinnvoll, die SNR-Messung in den Prozeß der Spracherkennung selbst zu integrieren. So können z. B. die verwendeten Modelle des Spracherkenners an verschiedene Störungen angepaßt werden, d. h. gering gestörte Signale werden nach anderen Modellen klassifiziert als stark gestörte Signale. Hierfür ist eine SNR-Messung am Eingangssignal des Spracherkenners notwendig, um die richtigen Modelle auswählen zu können. Da in diesem Fall ausschließlich das gestörte Sprachsignal zur Verfügung steht, ist das erfindungsgemäße Verfahren hierbei vorteilhaft einsetzbar.In addition, it is known that the recognition performance of an automatic speech recognizer depends strongly on the degree of interference in the speech signal. It therefore makes sense to integrate the SNR measurement in the speech recognition process itself. So z. B. the models of the speech recognizer used are adapted to different disorders, d. H. slightly disturbed signals are classified according to other models than strongly disturbed signals. This requires an SNR measurement on the speech recognizer input signal to select the correct models. Since only the disturbed speech signal is available in this case, the method according to the invention can advantageously be used here.
Literaturliterature
- [1] NOLL, P.: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar an Digital Communications. 1974, S. B3(1)–B3(6).[1] NOLL, P .: Adaptive Quantization in Speech Coding Systems. In: Proceedings of the International Zurich Seminar to Digital Communications. 1974, p. B3 (1) -B3 (6).
- [2] SMOLDERS, J.; CLAES, T.; SABLON, G.; VAN COMPERNOLLE, D.: On the Importance of the Microphone Position for Speech Recognition in the Car. In: Proceeding of the International Conference an Acoustics, Speech & Signal Processing (ICASSP) 1. 1994, S. 429–432.[2] SMOLDERS, J .; CLAES, T .; SABLON, G .; VAN COMPERNOLLE, D .: On the Importance of the Microphones Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP), 1994, p. 429-432.
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19907900A DE19907900B4 (en) | 1999-02-24 | 1999-02-24 | Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19907900A DE19907900B4 (en) | 1999-02-24 | 1999-02-24 | Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19907900A1 DE19907900A1 (en) | 2000-12-28 |
DE19907900B4 true DE19907900B4 (en) | 2013-11-21 |
Family
ID=7898657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19907900A Expired - Fee Related DE19907900B4 (en) | 1999-02-24 | 1999-02-24 | Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19907900B4 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2233976A1 (en) * | 1972-07-11 | 1974-01-31 | Rohde & Schwarz | CIRCUIT ARRANGEMENT FOR DETECTING AND FORWARDING INFORMATION |
DE2705386A1 (en) * | 1976-02-23 | 1977-09-01 | American Electronic Lab | SIGNAL PROCESSING METHOD AND DEVICE |
-
1999
- 1999-02-24 DE DE19907900A patent/DE19907900B4/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2233976A1 (en) * | 1972-07-11 | 1974-01-31 | Rohde & Schwarz | CIRCUIT ARRANGEMENT FOR DETECTING AND FORWARDING INFORMATION |
DE2705386A1 (en) * | 1976-02-23 | 1977-09-01 | American Electronic Lab | SIGNAL PROCESSING METHOD AND DEVICE |
Non-Patent Citations (2)
Title |
---|
NOLL, P.: Adaptive Quantizing in Speech Coding Systems. In: Proceedings of the International Zürich Seminar on Digital Communications. 1974, S. B3(1) - B3(6). * |
SMOLDERS, J.; CLAES, T.; SABLON, G.; VAN COMPERNOLLE, D.: On the Importance of the Microphone Position for Speech Recognition in the Car. In: Proceeding of the International Conference on Acoustics, Speech & Signal Processing (ICASSP) 1.1994, 5. 429 - 432. * |
Also Published As
Publication number | Publication date |
---|---|
DE19907900A1 (en) | 2000-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60131639T2 (en) | Apparatus and methods for determining noise cancellation performance values for a voice communication system | |
DE102011012573B4 (en) | Voice control device for motor vehicles and method for selecting a microphone for operating a voice control device | |
DE602005000539T2 (en) | Gain-controlled noise cancellation | |
DE69917361T2 (en) | Device for speech detection in ambient noise | |
DE69735396T2 (en) | Acoustic subband echo canceller | |
DE112017007005B4 (en) | ACOUSTIC SIGNAL PROCESSING DEVICE, ACOUSTIC SIGNAL PROCESSING METHOD AND HANDS-FREE COMMUNICATION DEVICE | |
DE102008039330A1 (en) | Apparatus and method for calculating filter coefficients for echo cancellation | |
WO2005111598A1 (en) | Device and method for assessing the quality class of an object to be tested | |
EP1386307A1 (en) | Method and device for determining a quality measure for an audio signal | |
EP1470735A2 (en) | Method for determining an acoustic environment situation, application of the method and hearing aid | |
WO1998023130A1 (en) | Hearing-adapted quality assessment of audio signals | |
DE102008023915A1 (en) | Filtering control variable setting method for noise reduction in medical image in X-ray diagnostic facility, involves comparing standard noise deviation and standard structure deviation and setting control variable as function of comparison | |
DE19500494C2 (en) | Feature extraction method for a speech signal | |
DE3043516C2 (en) | Method and device for speech recognition | |
DE19508711A1 (en) | Method for recognizing a signal pause between two patterns which are present in a time-variant measurement signal | |
DE102014221528B4 (en) | Accurate forward SNR estimation based on MMSE speech presence probability | |
DE4010028C2 (en) | Speech recognition method | |
DE19505435C1 (en) | Tonality evaluation system for audio signal | |
DE102013011761A1 (en) | Motor vehicle has estimating unit and background noise spectrum unit that are designed to open dynamic filter with low background noise and close with strong background noise | |
DE10157535B4 (en) | Method and apparatus for reducing random, continuous, transient disturbances in audio signals | |
EP2080197B1 (en) | Apparatus for noise suppression in an audio signal | |
EP1755110A2 (en) | Method and device for adaptive reduction of noise signals and background signals in a speech processing system | |
DE19907900B4 (en) | Method for determining the signal-to-noise ratio for disturbed speech signals and arrangement and use | |
DE102019102414B4 (en) | Method and system for detecting fricatives in speech signals | |
DE112008001249T5 (en) | Radio receiving apparatus and noise elimination method in this apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |
Effective date: 20140222 |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20140902 |