DE3610859A1 - Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen - Google Patents

Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen

Info

Publication number
DE3610859A1
DE3610859A1 DE19863610859 DE3610859A DE3610859A1 DE 3610859 A1 DE3610859 A1 DE 3610859A1 DE 19863610859 DE19863610859 DE 19863610859 DE 3610859 A DE3610859 A DE 3610859A DE 3610859 A1 DE3610859 A1 DE 3610859A1
Authority
DE
Germany
Prior art keywords
pattern
classification
sample
component
classes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19863610859
Other languages
English (en)
Inventor
Dieter Prof Dr Smidt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Forschungszentrum Karlsruhe GmbH
Original Assignee
Kernforschungszentrum Karlsruhe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kernforschungszentrum Karlsruhe GmbH filed Critical Kernforschungszentrum Karlsruhe GmbH
Priority to DE19863610859 priority Critical patent/DE3610859A1/de
Publication of DE3610859A1 publication Critical patent/DE3610859A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Musterklassifikation nach dem Oberbegriff des Anspruches 1.
Es ist bekannt, daß die gesprochene Sprache nach Vorverarbeitung durch eine Bandpaßfilterbank, durch Fourieranalyse oder Verfahren der linearen Prediktion als zeitlich veränderliches Spektralmuster aufgefaßt werden kann. Ebenso sind Verfahren bekannt, in regelmäßigen Abständen (üblicherweise 5-10 ms) spektrale Muster einer Phonemklasse zuzuordnen und in einem zweiten Schritt aus den in bestimmter Reihenfolge klassifizierten Phonemen Worte oder Sätze zu erkennen (L. B. Bahl, R. Bakis, P. S. Cohen, A. G. Cole, F. Jelinek, B. L. Lewis, R. L. Mercev, Recognition Results with Several Experimental Acoustic Precessors, 1979, IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Washington, 1979, und H. Niemann, A. Brietzmann, H. W. Hein, H. R. Mühlfeld, P. Regel, G. Schukat, A System for Understanding Continuous German Speech, Information Sciences, Vol. 3, p. 87 (1984)).
Das theoretisch zuverlässigste Verfahren zur Musterklassifikation ist der Bayes-Klassifikator, der die Klassengrenzen unter Berücksichtigung der statistischen Verteilung der Merkmale von Referenzmustern ermittelt und bei der Klassifikation unbekannter Muster berücksichtigt wird (J. T. Tou, R. C. Gonzales, Pattern Recognnition Principles, Addison Wesley, Publ. Co., Reading MA, 1974).
Alle angewandten Verfahren zur Musterklassifikation lassen sich letzlich als Spezialfälle oder Vereinfachungen auf den Bayes-Klassifikator zurückführen bzw. an diesem messen.
  • a) Sowohl der Trainingsprozeß als auch die Klassifikation sind rechenaufwendig. Für das Training müssen hinreichend statistisch relevante Referenzmuster zur Verfügung stehen, wobei nachträgliche Korrekturen oft schwierig sind. Die Klassifikation eines Musters aus Komponenten k i mit i = 1. . n erfordert alle vorhandenen K n -Klassen die Berechnung von Funktionen. f 1(k 1, . . , k i , . . . k n )= 0, 1 = 1 . . K,6(1)
  • Diese Funktionen sind für anspruchsvollere Klassifikatoren nichtlinear, d. h. schwierig zu bestimmen und aufwendig in der Verarbeitung.
  • b) Ein Sprachmuster hat eine spektrale und eine zeitliche Dimension. Alle Verfahren, die die phonetische Klassifikation in dem beschriebenen regelmäßigen Zeittakt vornehmen, verlieren insbesondere bei schnellen zeitlichen Änderungen einen Teil der Information. Dies gilt insbesondere für die Stoplaute p, k, t, b, g, d. Deshalb werden üblicherweise zusätzliche ad-hoc-Regeln verwendet, die solche Veränderungen, aber auch den Übergang zwischen stimmhaften und stimmlosen Sprachen bewerten.
  • Da solche Regeln üblicherweise nicht durch den Musterklassifikator selbst verbessert werden können, lösen sie das Problem nur zum Teil.
Der Erfindung liegt die Aufgabe zugrunde, ein System zur Wort- und Satzerkennung zu schaffen, das eine zuverlässige phonetische Klassifikation gesprochener Sprache erlaubt, das schnell und ohne großen Rechenaufwand arbeitet und somit für Mikrorechner geeignet ist und das die Verwendung von ad-hoc- Regeln überflüssig macht.
Diese Aufgabe wird erfindungsgemäß durch die im kennzeichnenden Teil des Anspruches 1 angegebenen Merkmale gelöst.
Die weiteren Ansprüche 2 bis 6 geben vorteilhafte Ausgestaltungen der Erfindung wieder.
Nach dem erfindungsgemäßen Verfahren werden Fehlerklassifikationen im System selbst korrigiert, ad hoc-Kriterien vermieden und eine laufende Adaption an die Besonderheiten der Sprachmuster sowie eine engere Verknüpfung der Ermittlung der spektralen und zeitlichen Mustereigenschaften erreicht.
Der hier angewandte Klassifikationsalgorithmus erlaubt entsprechend elementare und auf ganze Zahlen beschränkte Rechenoperationen, die in vorteilhafter Weise den Einsatz von Mikrorechnern ermöglichen.
Das erfindungsgemäße Verfahren wird anhand der Fig. 1-4 näher beschrieben. Es zeigen
Fig. 1 das differentielle Lernen für einen zweidimensionalen Mustervektor,
Fig. 2 das Prinzip der Verkettung von Entscheidungskriterien,
Fig. 3 das Übersichtsschema eines Sprachkennungssystems,
Fig. 4 die Spektrogramme der Laute e und i,
Fig. 1 dient der Erläuterung des Prinzips des Algorithmus. Es sei der zu klassifizierende Mustervektor aus n Komponenten ooer Merkmalen. Dann besteht jeder Klassifikator aus einer skalaren Entscheidungsfunktion derart, daß
je nach dem Ergebnis der Klasse K l oder K m zugewiesen wird. (Das Zeichen ⇒ steht hier für: "Wird zugewiesen zur Klasse . . . ."). In dem n-dimensionalen Musterraum definiert x einen Punkt, f lm ( ) = 0 eine Hyperfläche, die den Musterraum in zwei Halbräume teilt, die jeweils einer Klasse zugeordnet sind. Die einfachste überhaupt mögliche Entscheidungsfunktion nach (2.1) wäre
wo x i eine Komponente von ist und b eine skalare Konstante.
Statt nun, wie sonst in der Theorie der Musterklassifikation, die Funktion f lm ( ) auf eine möglichst effektive Unterscheidung der Klassen zu optimieren, geht das DL-Verfahren von der Einfachstfunktion (2.2) aus. Die Vorgehensweise ist folgende:
Gegeben seien 2 Mustervektoren 1 und m , von denen a priori bekannt ist, daß sie zur Klasse K l und K m gehören. Dann wird bei l die Komponente gesucht, für die sich
ergibt.
Der Index dieser Komponente sei i.
Dann wird
und für die Klassifikation weiterer sind dann nur die Werte von i und b für die Abfrage nach (2.2) erforderlich. Die i-te Komponente, die den größten Unterschied zum Muster der anderen Klasse ergibt, wird relevante Komponente genannt. Weil diese im Lernvorgang durch Differenzbildung nach (2.3) gefunden wird, wurde dem ganzen Verfahren der Name "Differenzielles Lernen" gegeben. Die Klassifikation nach (2.2) geschieht, wie Fig. 1 für den zweidimensionalen Fall veranschaulicht, durch eine Hyperebene, die auf der x i -Achse senkrecht steht und von den Mustern l und m in der i- Richtung den gleichen Abstand hat.
Es ist nicht zu erwarten, daß dieser einfache Algorithmus für die korrekte Klassifikation mehrerer schwankungsbehafteter Muster ausreicht. Deshalb wird das Verfahren bei jeder Fehlklassifikation, auch bei jeder neu zu lernenden Klasse wiederholt, und die Einzelabfragen werden als Baumstruktur verkettet.
Fig. 2 zeigt ein Beispiel für eine solche Struktur. Als erstes werde etwa durch ein b 1 für die Komponente i 1 ein Kriterium für die Unterscheidung der Phoneme a und e gefunden. Bei dessen Erfüllung werde gelegentlich o als a fehlklassifiziert, so daß ein neues Kriterium mit i 2 und b 2 nötig wird. usw. Bei der Klassifikation wird so lange von Abfrage zu Abfrage fortgeschritten, bis ein terminaler Knoten erreicht wird. Dabei kann durchaus, wie etwa beim o, ein Phonem auf beiden Seiten einer Verzweigung stehen.
Das nacheinander erfolgende Abfragen der Kriterien entspricht konjunktiv verknüpften Regeln über die Größe einzelner Komponenten. So gilt nach Bild 2 ⇒ 'a' dann, wenn
(x i1 ≦λτ b 1) ∧ (x i2≦ωτ b 2).
Bei Vorkommen hinter mehreren Verzweigungen:
x ⇒ 'o' dann, wenn
(x i1 ≦λτb 1) ∧ (x i2 b 2)
v (x i1 b 1) ∧ (x i3 b 3) ∧ (x i4 ≦ωτ b 4)
Man kann leicht erkennen, daß auf diese Weise im Prinzip ein beliebig detaillierter Satz von Regeln erstellt werden kann, der die einzelnen Klassen voneinander abgrenzt. Für die Definition einer neuen Klassengrenze sind nach (2.3) zwei Vektoren erforderlich. Einer von ihnen ist der input x. Der andere muß in Verbindung mit dem letzten Knoten abgespeichert sein. Beispiel:
Für ein neues gelte x i ≦λτ b 1. Der folgende Knoten sei terminal und ergäbe ⇒ 'a'. Ist diese Klassifikation falsch, so muß dem System nur gesagt werden z. B. x ⇒ 'o'. Dann laufen folgende Operationen ab:
  • 1. (2.3) mit und 2
  • 2. b 2 aus (2.4) eintragen
  • 3. neue terminale Knoten 'o' und 'a' bilden
  • 4. als 5, 2 als 6 eintragen.
Das vollständige Muster, das zur Definition einer neuen Klasse führt, muß nur für den nächsten Lernschritt aufbewahrt werden, für die Klassifikation wird es nicht benötigt.
Entscheidend ist dabei, daß die vollständigen Referenzmuster nur für den Lernprozeß aufbewahrt werden müssen, beim Klassifikationsvorgang aber nur einzelne Komponenten abgefragt werden müssen. Das erlaubt kurze Rechenzeiten.
Fig. 3 zeigt ein Übersichtsschema eines Spracherkennungssystems, mit dem die Wirksamkeit des Phonemklassifikators überprüft wurde. Es wird durch Sprache gesteuert und kann nach Verarbeitung eines Satzes den nächsten aufnehmen bis es durch das gesprochene Kommando 'Schluß Aus' abgeschaltet wird.
Die Eingabe erfolgt über ein Mikrofon, das mit einer "schiefen Nierencharakteristik" auf den Mund des Sprechers gerichtet und daher einigermaßen unempfindlich gegenüber Nebengeräuschen ist.
Da die Implementation auf einen Mikrorechner zugeschnitten sein sollte, wurde die Frequenzanalyse durch einen eigenen, mit Analog-Bandpaßfiltern aufgebauten 16-Kanal-Spektral-Analysator durchgeführt. Er liefert logarithmische, mit etwa 150 Hertz tiefpaßgefilterte Ausgangssignale. Die Logarithmierung reduziert den Einfluß von Lautstärkeschwankungen und den Unterschied des Outputs im unteren und oberen Frequenzbereich.
Der Rechner ruft die digitalisierten Spektraldaten alle 10 ms ab und legt sie, sobald die Lautstärke als Summe der 16 Kanalausgänge einen Schwellwert überschreitet, so lange im Rechner ab, bis ein weiterer Schwellwert für mehr als 300 ms unterschritten wird.
Danach werden die Daten nacheinander dem DL-Klassifikator zugeführt. Eine Präselektion nach den Kriterien stimmhaft/ stimmlos ist nicht erforderlich, hat sich sogar in einigen Fällen als störend herausgestellt, da die allgemeinen Kriterien der Präselektion in Spezialfällen versagten. Der DL- Algorithmus erlaubt eine sehr viel präzisere Abstimmung der Regeln.
Die Klassifikation erfolgt nach einzelnen Phonemen, wie sie üblicherweise bei der Spracherkennung zusammengestellt sind. In einer Tabelle werden nacheinander alle Phoneme eingetragen, die mindestens über 3 der 10 ms-Takte angedauert haben, dazu ihr Anfangs- und Endtakt. Diese Tabelle ist Ausgangspunkt der nachfolgenden Satzanalyse.
Für das Lernen des Phonemklassifikators wird ein Satz von etwa 40 zweisilbigen Wörtern benutzt, die so ausgewählt sind, daß sie alle Phoneme enthalten und eine automatische Segmentation nach dem Verlauf der Summe über die 16 Kanäle ermöglichen. Wenn die gespeicherten Spektraldaten in die Phonemliste umgesetzt sind, ist die phonetische Klassifikation abgeschlossen und die Satzerkennung beginnt.
Während die phonetische Analyse als reines bottom-up-Verfahren arbeitet, funktioniert die Satzanalyse als top-down- Verfahren. Es werden mögliche und im Kontext in den Satz gehörende Phoneme mit den in der Phonemliste aufgezeichneten verglichen. Werden sie an der richtigen Stelle angetroffen, so wird ein Zähler erhöht. Am Ende wird der Satz mit dem höchsten Zählerbetrag als Ergebnis geliefert.
Das hier entwickelte Satzerkennungsssystem sollte lediglich zur Erprobung des DL-Verfahrens zur Phonemklassifikation dienen. Es ist deshalb einfach gehalten und nicht so weitgehend optimiert wie andere Systeme.
Fig. 4 zeigt die üblicherweise schwer unterscheidbaren Spektrogramme der Laute e und i eines männlichen Sprechers, die zur Demonstration der Leistungsfähigkeit des DL-Verfahrens als Klassifikationsmethode für Phoneme herangezogen wurden. Bei Berücksichtigung statistischer Schwankungen unterscheiden sie sich tatsächlich wesentlich nur in ein bis zwei Komponenten bei der Frequenz 500 Hz.
Je Phonem sind im Durchschnitt nur etwa 6-8 Abfragen bzw. Referenzmuster nötig. Gegenüber der üblichen Operation mit allen 16 Komponenten bedeutet allein dieser Sachverhalt schon eine wesentliche Verkürzung der Rechenzeit. Die so erreichte Trennung der Phonemklasse enthält bereits kontextbedingte Änderungen der akustischen Muster.

Claims (6)

1. Verfahren zur Musterklassifikation, insbesondere für die schnelle Klassifikation von Phonemen in akustischen Sprachspektren unter Verwendung des Prinzips der Dichotomie, dadurch gekennzeichnet, daß
  • a) ein differentieller Lernprozeß mit Lernschritten vorgenommen wird und
  • b) im Lernschritt nach einer als fehlerhaft erkannten Klassifikation jeweils nur die eine Musterkomponente zur Erstellung einer neuen Regel verwendet wird, die am stärksten vom Referenzwert abweicht.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Mustererkennung schrittweise in einem binären Entscheidungsbaum erfolgt und daß in jedem Schritt nur die am meisten relevante Komponente des Musters benutzt wird, wobei sich in einfügbaren Lernschritten die Grenzen zwischen den Musterklassen beliebig optimieren lassen.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die aktuellen Musterkomponenten des akustischen Sprachspektrums diskretisiert, gespeichert und mit den Musterkomponenten der Musterklassen verglichen werden.
4. Verfahren nach den Ansprüchen 1 bis 3, dadurch gekennzeichnet, daß ein Klassifikationsalgorithmus: k il -b lm ≦λτ 0 angewandt wird, wobei b lm ein für die der Musterklassen l und m charakteristischer Zahlenwert und k il die für das Muster l relevante Musterkomponente ist.
5. Verfahren nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß die relevante Musterkomponente k il und der für die Musterklasse charakteristische Zahlenwert b lm bei jeder Fehlklassifikation vom System automatisch bestimmt werden,
  • - k il ist dabei diejenige Musterkomponente, die sich von der entsprechenden Komponente des fälschlich klassifizierten Referenzmusters am stärksten unterscheidet = Differenzverfahren.
  • - b lm ist der für die Unterscheidung der Musterklassen l und m relevante Schwellenwert für die i-te Musterkomponente
6. Verfahren nach den Ansprüchen 1 bis 5, dadurch gekennzeichnet, daß die einzelnen Abfragen nach der Bedingung k il -b lm ≦λτ 0 in einer binären Baumstruktur eingebaut sind, wobei die Verzweigung nach der Erfüllung bzw. Nichterfüllung dieser Bedingung erfolgt, wobei jede Fehlklassifikation den Zubau einer neuen Verzweigung mit zwei Folgeknoten bewirkt.
DE19863610859 1986-04-01 1986-04-01 Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen Ceased DE3610859A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863610859 DE3610859A1 (de) 1986-04-01 1986-04-01 Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19863610859 DE3610859A1 (de) 1986-04-01 1986-04-01 Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen

Publications (1)

Publication Number Publication Date
DE3610859A1 true DE3610859A1 (de) 1987-10-15

Family

ID=6297651

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19863610859 Ceased DE3610859A1 (de) 1986-04-01 1986-04-01 Verfahren zur musterklassifikation, insbesondere fuer die schnelle klassifikation von phonemen

Country Status (1)

Country Link
DE (1) DE3610859A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0703566A1 (de) * 1994-09-23 1996-03-27 Aurelio Oskian Vorrichtung zur Spracherkennung

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STEINBUCH, K., WEBER, W., Taschenbuch der Informatik, 3. Aufl., Bd. III Berlin,Heidelberg, New York, Springer Verlag, 1974, S. 269-281 *
ZOICAS,ADRIAN, Chipsatz erkennt gesprochene Wörter, In: D-Elektronik, 1984, H. 23, S. 166-170 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0703566A1 (de) * 1994-09-23 1996-03-27 Aurelio Oskian Vorrichtung zur Spracherkennung

Similar Documents

Publication Publication Date Title
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3783154T2 (de) Spracherkennungssystem.
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE69322894T2 (de) Lernverfahren und Gerät zur Spracherkennung
DE69010722T2 (de) Spracherkennungssystem.
DE69129015T2 (de) Sprecherunabhängiges Gerät zur Markierungskodierung
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE68924134T2 (de) Spracherkennungssystem.
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE60310687T2 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
DE19842405A1 (de) Spracherkennungsverfahren mit Konfidenzmaßbewertung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE69230090T2 (de) System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection