DE19930522A1

DE19930522A1 - Verfahren zur Erkennung von Lautsignalen

Info

Publication number: DE19930522A1
Application number: DE1999130522
Authority: DE
Inventors: Werner Zuehlke; Guenter Uhlrich; Dietmar Schuchardt
Original assignee: ABS GES fur AUTOMATISIERUNG B; Technische Universitaet Ilmenau
Current assignee: ABS GES fur AUTOMATISIERUNG B; Technische Universitaet Ilmenau
Priority date: 1999-07-05
Filing date: 1999-07-05
Publication date: 2001-02-01

Abstract

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der Referenz ausgenutzt wird. DOLLAR A Erfindungsgemäß gelingt die Lösung der Aufgabe dadurch, daß bei der Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird und dabei negative Abweichungen der Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in die Scoreberechnung eingehen als positive Abweichungen. DOLLAR A Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt bei der Spracherkennung zur Anwendung.

Description

Die Erfindung betrifft ein Verfahren zur Erkennung von Lautsignalen und kommt bei der Spracherkennung zur Anwendung.

Die bekannten Verfahren zur Spracherkennung segmentieren das Sprachsignal in Segmente und berechnen für das betreffende Segment das Betragsspektrum oder ein daraus abgeleitetes Spektrum und analysieren darin die Formanten, oder sie berechnen entsprechende Merkmale, die in parametrischer Form das Betragsspektrum des Segments beschreiben.

Zur Erkennung des gesprochenen Lautes oder Wortes werden die berechneten Merkmale der Segmente mit den vorher gespeicherten Merkmalen aller trainierten Laute bzw. Worte verglichen.

Dabei ermittelte Abstands- oder Ähnlichkeitsmaße (Scores) sind die Grundlage für die nachfolgende Klassifizierung der Laute bzw. Worte. (Dellert, J. R., Proakis, J. G., Hansen, J. H. L.: Diskrete-Time Processing of Speech Signals. Macmillan Publishing Company, New York 1993, und Ruske, G.: Automatische Spracherkennung, Methoden der Klassifikation und Merkmalsextraktion, Oldenbourg-Verlag 1994.)

Bei der Klassifikation auftretende Erkennungsfehler sind insbesondere darauf zurückzuführen, daß die Laute in unterschiedlichen Lautfolgen und von verschiedenen Sprechern unterschiedlich ausgesprochen werden. Damit haben sie ein unterschiedliches Spektrum und schließlich mehr oder weniger stark voneinander abweichende Merkmale. Diese Streuungen der Merkmale vermindern die Diskriminanz bei der Klassifikation.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, bei dem die Form der Verteilung und die Relevanz der Abweichung vom Mittelwert der Referenz ausgenutzt wird.

Die Aufgabe wird nach Anspruch 1 erfindungsgemäß dadurch gelöst, daß bei der Scoreberechnung das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird und dabei negative Abweichungen der Testvektorkoeffizienten von den Referenzvektorkoeffizienten stärker gewichtet in die Scoreberechnung eingehen als positive Abweichungen.

Nach Anspruch 2 werden bei der Scoreberechnung große Abweichungen gegenüber kleinen Abweichungen gestaucht.

Das Verfahren gilt sinngemäß auch bei der Scoreberechnung für Lautfolgen (Di- und Triphone, Halbsilben, Silben und Worte).

Die Erfindung wird nachstehend an einem Ausführungsbeispiel erläutert.

Beim Test wird das Sprachsignal zunächst lautsegmentiert und danach in Segmente vorgegebener Länge zerlegt.

Danach wird für das betreffende Segment das Betragsspektrum berechnet, in der entsprechenden Form (Betragsspektrum, abgeleitetes Spektrum oder Merkmalsvektor) mit allen Referenzen verglichen und mit einem Abstandsmaß (Scoreberechnung) bewertet. Nach den berechneten Scores erfolgt die Klassifikation, z. B. nach dem minimalen Abstand.

Die zu vergleichenden Laute können durch häufige Lautfolgen, wie "en", "ben", "len", "chen", "schen" usw. ergänzt werden.

Bei der Lautfolgenerkennung und bei der Worterkennung entsprechen die Zustände der Hidden-Markoff-Modelle weitgehend den Lauten.

Bei der Scoreberechnung werden die Abweichungen vorzeichenabhängig gewichtet, d. h., negative Abweichungen des Testspektrums von einem Referenzspektrum werden mit einem größeren Gewicht gewertet als positive Abweichungen.

Außerdem werden bei der Scoreberechnung die Abweichungen noch durch eine amplitudenabhängige Bewertung (z. B. Wurzelziehung) bewertet, wodurch große Abweichungen gegenüber kleinen Abweichungen gestaucht und damit weniger stark in die Scoreberechnung einbezogen werden.

Claims

1. Verfahren zur Erkennung von Lautsignalen mit Scoreberechnungen zur Klassifikation mittels Mustervergleich oder Hidden-Markoff-Modellen, dadurch gekennzeichnet, daß bei der Scoreberechnung, bei der das Betragsspektrum oder ein daraus abgeleitetes Spektrum oder ein entsprechender Merkmalsvektor des Testsignalsegments mit einer entsprechenden Referenz verglichen wird, negative Abweichungen der Testvektorkoeffizienten von den Refe renzvektorkoeffizienten stärker gewichtet eingehen als positive Abweichungen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Scoreberechnung große Abweichungen gegenüber kleinen Abweichungen gestaucht werden.