DE69518723T2

DE69518723T2 - Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen

Info

Publication number: DE69518723T2
Application number: DE69518723T
Authority: DE
Inventors: David Nahamoo; Mukund Padmanabhan
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1994-11-30
Filing date: 1995-06-21
Publication date: 2001-05-23
Anticipated expiration: 2015-06-22
Also published as: US5729656A; DE69518723D1; EP0715298B1; EP0715298A1

Description

TECHNISCHER ANWENDUNGSBEREICH

Die Erfindung bezieht sich auf die Erkennung von Sprache und insbesondere die Erfassung von Phonemgrenzen beim Sprechen.

BEGRIFFE

Symbol: Kennzeichnet das Sprechen anhand von n Merkmalen, wobei das Sprechen in einem n-dimensionalen Sprachraum betrachtet wird. Der Raum ist in Bereiche unterteilt, die jeweils durch einen n-dimensionalen Prototypvektor identifiziert werden. Jeder Prototypvektor wird durch ein "Symbol" wie eine Zahl oder andere Labels dargestellt. Gesprochene Sprache kann als Aneinanderreihung von "Symbolen" angesehen werden.
Fenem (auch Label): Ein Symbol, das einem Prototypvektor entspricht und anhand von Klangmerkmalen während eines bestimmten Zeitraums definiert wird. Klang kann zum Beispiel zwanzig Merkmale haben, wobei die Größe jedes Merkmals während einer Zentisekunde einer Komponente des Protoypvektors entspricht. Jeder Prototypvektor verfügt somit über eine Reihe von Merkmalwerten für ein Intervall von einer Zentisekunde. Anhand der Merkmalwerte, die in einem Zentisekundenintervall erzeugt werden, wird ein Prototypvektor aus einer festgelegten Menge von Prototypvektoren als nähester Vektor ausgewählt. Da jeder Prototypvektor über ein entsprechendes Fenem (oder Label) verfügt, entspricht die Menge der Prototypvektoren einem Alphabet von Fenemen (oder Labels). Beispielfeneme sind in Tabelle 1 aufgeführt; das erste Fenem 001 ist als AA11 definiert. Ein Akustikprozessor prüft gesprochene Sprache von Intervall zu Intervall, und anhand des Vergleichs, welcher Prototypvektor den Merkmalwerten in gewissem Umfang am nähesten ist, wird das Fenem für den nähesten Prototypvektor dem Intervall zugeordnet. Das Fenem unterscheidet sich von dem bekannten Phonem insofern, als es auf Merkmalwerten beruht, die über einen bestimmten Zeitraum hinweg (z. B. eine Zentisekunde) geprüft werden, während ein Phonem auf einer bestimmten Menge grundlegender phonetischer Klangeinheiten ohne Berücksichtigung von zeitlichen Begrenzungen beruht.
Markov-Modell (auch endlicher Wahrscheinlichkeitsautomat): Ein Klangereignis kann als eine Ansammlung von Zuständen dargestellt werden, die durch Übergänge miteinander verbunden sind, welche Symbole von einem endlichen Alphabet erzeugen. Mit jedem Übergang von einem Zustand zum nächsten Zustand ist eine Wahrscheinlichkeit verbunden, daß als nächstes ein Übergang t gewählt wird, wenn ein Zustand s erreicht wird. Für jede mögliche Labelausgabe bei einem Übergang gibt es eine entsprechende Wahrscheinlichkeit. Das Modell beginnt bei einem oder mehreren Anfangszuständen und endet in einem oder mehreren endlichen Zuständen.
Laut: Eine Klangeinheit, der ein Markov-Modell zugeordnet wird. Ein erster Lauttyp ist phonetisch ausgerichtet, wobei jedes Phonem einem entsprechenden Laut entspricht. Eine Standardphonemreihe ist im Internationalen Phonetischen Alphabet definiert. Ein zweiter Lauttyp basiert auf Fenemen,
wobei jedes Fenem einem entsprechenden Laut entspricht. Abfragen: Anhand eines Übungstextes wird ermittelt, wie oft jedes Label in einem Wort vorkommt. Aufgrund dieser Daten werden Tabellen erstellt, in denen jedes Label einen Pluspunkt für jedes Wort und optional jedes Label einen Minuspunkt für jedes Wort hat. Wenn ein Akustikprozessor eine Labelkette erzeugt, werden die Pluspunkte (und Minuspunkte) für jedes Wort berechnet, um einen Übereinstimmungswert zu erhalten. Das Verfahren zur Berechnung der Pluspunkte wird als "Abfragen" bezeichnet.
Bei einigen bekannten Ansätzen zur Spracherkennung werden Wörter als lautorientierte Markov-Modelle dargestellt, und die Eingabesprache wird nach der Umwandlung zu einer kodierten Folge von akustischen Elementen oder Labels dekodiert, indem die Labelfolgen anhand von Wahrscheinlichkeitsalgorithmen wie der Viterbi-Dekodierung diesen Modellen angepaßt werden.

Hintergrund

A. Überblick über die Spracherkennung

(1) Label eines Spracheingangssignals. Eine Vorfunktion dieses Spracherkennungssystems ist die Umwandlung des Spracheingangssignals in eine kodierte Darstellung. Dies geschieht mittels eines Verfahrens, das zum Beispiel in "Continuous Speech Recognition with Automatically Selected Acoustic Prototypes Obtained by either Bootstrapping or Clustering" von A. Nadas et al., Proceedings ICASSP 1981, S5. 1153-1155 beschrieben wurde.
Laut dem Umwandlungsverfahren von Nadas et al wird die Spracheingabe in Zentisekundenintervalle unterteilt. Für jedes Zentisekundenintervall wird eine Spektralanalyse der Spracheingabe durchgeführt. Daraufhin wird entschieden, welchem festgelegten Spektralmuster die Zentisekunde Spracheingabe am nächsten kommt. Ein "Fenem", das anzeigt; welches Spektralmuster der Spracheingabe am nächsten kommt, wird dann diesem bestimmten Zentisekundenintervall zugeordnet. Jedes Fenem wird als eindeutiges Label dargestellt.
Eine Labelkette (oder Fenemkette) stellt daher aufeinanderfolgende Zentisekunden von Sprache dar, die ihrerseits Wörter bilden.
Eine typische endliche Menge von Labels ist in Tabelle 1 dargestellt, die dieser Spezifikation beigefügt ist. Sie umfaßt rund 200 Label, die jeweils ein akustisches Element darstellen. Diese akustischen Elemente sind kürzer als die üblichen "Phoneme", die ungefähr Vokale oder Konsonanten des Alphabets darstellen, d. h. jedes Phonem entspräche einer Folge von akustischen Elementen mit Label.
Ein wichtiges Merkmal dieser Labeltechnik besteht darin, daß das Verfahren automatisch auf der Grundlage des akustischen Signals gemacht werden kann und daher keine phonetische Interpretation notwendig ist. Die Einheit, die das akustische Eingangssignal in eine kodierte Darstellung in Form einer Labelkette umwandelt, wird "Akustikprozessor" bezeichnet.

(2) Statistische Modelldarstellung von Wörtern

Die Grundfunktionen eines Spracherkennungssystems, bei dem die vorliegende Erfindung angewendet werden kann, werden hier kurz anhand verschiedener Veröffentlichungen beschrieben, die ein solches System näher erläutern, insbesondere F. Jelinek, "Continuous Speech Recognition by Statistical Methods", Proceedings IEEE, Vol. 64, 1976, S5. 532-576.
Bei diesem System wird jedes Wort des Erkennungswortschatzes als Grundform dargestellt, bei der das Wort zu Erkennungszwecken in eine Lautstruktur unterteilt ist, d. h. in die in Fig. 1 dargestellten phonetischen Elemente. Diese Laute entsprechen allgemein Vokalen und Konsonanten wie sie in phonetischen Alphabeten generell verwendet werden. Beim Sprechen kann ein Teil eines Wortes verschiedene Aussprachen haben, wie in den parallelen Verzweigungen von Fig. 1 dargestellt. Die parallelen Verzweigungen, die zwischen Knoten verlaufen, durch die alle Verzweigungen gehen, können alternativ auch als "Clinks" oder separate herkömmliche Laute angesehen werden. Ein Clink ist laut den Grundsätzen der Erfindung ein phonetisches Ersatzelement für die hier beschriebenen Laute. Die Laute werden durch Markov-Modelle dargestellt. In Fig. 2 ist ein Markov-Beispielmodell für einen Laut abgebildet. Für jeden Laut gibt es ein entsprechendes Markov-Modell, das gekennzeichnet ist durch (a) eine Vielzahl von Zuständen (S0 ... S4), (b) Übergänge (T1 ... T10) zwischen den Zuständen und (c) Labelwahrscheinlichkeiten, die die Wahrscheinlichkeit darstellen, daß der Laut bei einem bestimmten Übergang ein bestimmtes Label erzeugt. Bei einem Ausführungsbeispiel sind jedem Übergang im Markov-Modell zweihundert gespeicherte Labelwahrscheinlichkeiten zugeordnet, wobei jede die Wahrscheinlichkeit darstellt, daß jedes Label (von 200 Labels) bei einem bestimmten Übergang von dem Laut erzeugt wird. Verschiedene Laute werden in ihrem jeweiligen Markov-Modell durch Unterschiede bei den Labelwahrscheinlichkeiten unterschieden, die den verschiedenen Übergängen zugeordnet sind. Die Anzahl der Zustände und Übergänge dazwischen kann variieren, doch diese Faktoren bleiben vorzugsweise unverändert, und die gespeicherten Labelwahrscheinlichkeiten ändern sich.
Bei dem Markov-Modell von Fig. 2 befindet sich eine Labelkette SX1-SX3-SX5-SH2 (aus Tabelle 2) in der dargestellten Reihenfolge im Lautmodell. Die Wahrscheinlichkeit, daß jedes Label bei dem Übergang, an dem es dargestellt ist (z. B. SX1 beim Übergang T1), erscheint, wird anhand der entsprechenden gespeicherten Labelwahrscheinlichkeit bestimmt. Die Lautmodelle mit den höchsten Labelwahrscheinlichkeiten für die Labels in der Kette sind mit größter Wahrscheinlichkeit die Laute, die die Kette erzeugt haben.
Die Labels in Fig. 2 stellen somit von Label zu Label von Übergang zu Übergang eine Kontinuität dar, was eine einfache 1 : 1-Anpassung zwischen Kettenlabel und Übergang ermöglicht, wobei das Markov-Modell von Fig. 2 auch andere Anpassungen ermöglicht. Anhand des Markov-Modells von Fig. 2 kann demnach auch bestimmt werden, daß ein Laut wahrscheinlich ist, auch wenn mehr Labels, weniger Labels oder sogar unterschiedliche Labels bei dem Lautmodell angewendet werden. Neben Übergängen von einem Zustand zum anderen gibt es auch Übergänge (T5, T6, T7), die zu dem Zustand zurückgehen, der gerade verlassen wurde. Daneben gibt es Zustände (T8, T9, T10), die einen benachbarten Zustand überspringen. Das Markov-Modell gewährleistet dadurch, daß verschiedene Aussprachen eines Lautes in demselben grundlegenden Markov-Modell untergebracht werden können. Wenn ein Klang zum Beispiel gedehnt wird (langsamer Sprecher), so daß dasselbe akustische Element anstatt nur einmal mehrmals erscheint, ermöglicht die Markov- Modelldarstellung mehrere Übergänge zurück zu demselben Zustand, wodurch das mehrfache Auftreten des akustischen Elements gewährleistet ist. Wenn jedoch ein akustisches Element, das normalerweise zu einem Laut gehört, in einer bestimmten Aussprache nicht erscheint, kann der entsprechende Übergang des Modells übersprungen werden.
Jeder mögliche Pfad (Markov-Kette) von dem Anfangszustand zu dem Endzustand des Markov-Modells (einschließlich mehrere Rückkehrübergänge T5, T6 oder T7) stellt eine Aussprache des Wortes (oder Lautes) dar, wobei jedem Übergang ein akustisches Element oder Label zugeordnet ist.
Bei der vorliegenden Erfindung werden Labelketten an Markov- Modelle "angepaßt", indem Labels in der Kette Übergängen in einem Pfad durch das Modell zugeordnet werden; dadurch werden die Wahrscheinlichkeiten jedes Labels an dem zugeordneten Übergang auf der Grundlage von gespeicherten Labelwahrscheinlichkeiten, die durch frühere Erfahrungen oder Training (siehe nachfolgende Erklärung) erstellt wurden, bestimmt. Ein Kette von Markov-Modellen mit der höchsten Wahrscheinlichkeit identifiziert das Wort, das als Ausgabe ausgewählt werden wird.
Die Grundformen der Wörter und die grundlegenden Markov- Modelle der Laute können wie in der genannten Literatur beschrieben auf verschiedene Weise abgeleitet und definiert werden. Die Modelle können von einem Linguisten erstellt oder automatisch anhand von statistischen Verfahren festgelegt werden. Da das Erstellen der Modelle nicht Teil der Erfindung ist, wird nicht näher darauf eingegangen.
Anstatt Wörter zuerst durch eine Folge von Markov-Lautmodellen darzustellen, könnten diese auch direkt durch Markov- Wortmodelle dargestellt werden - wie durch eine Folge von Zuständen und Übergängen, die die grundlegende Kette von akustischen Elementen für das gesamte Wort darstellen.
Nach der Strukturierung der grundlegenden Modelle, die die Wörter in einem Wortschatz darstellen, müssen die Modelle noch trainiert werden, um ihnen die Statistiken (z. B. Labelwahrscheinlichkeiten) für die Aussprache aller Wörter im Wortschatz zu liefern. Zu diesem Zweck wird jedes Wort mehrmals ausgesprochen, und die Labelkette, die sich für jede Aussprache ergibt, wird an das entsprechende Wortmodell "angepaßt", d. h. es wird bestimmt, wie sich die entsprechende Labelkette durch Durchlaufen des Modells ergibt, und für die entsprechenden Übergänge werden Zählwerte ermittelt. Für jeden Laut und damit für jedes Wort als Kombination von Lauten wird ein statistisches Markov-Modell entwickelt. Anhand des Markov- Modells kann bestimmt werden, mit welcher Wahrscheinlichkeit jede der verschiedenen Labelketten durch die Aussprache eines bestimmten Wortes des Wortschatzes auftritt. In Fig. 3 ist eine Speichertabelle mit einem solchen statistischen Markov- Modell abgebildet, das in einem späteren Abschnitt näher erläutert wird.
Für die eigentliche Spracherkennung wird das Sprachsignal vom Akustikprozessor in eine Labelkette umgewandelt, die dann mit den bestehenden Wortmodellen "abgeglichen" wird. Dazu wird ein spezielles Verfahren, der Viterbi-Algorithmus (der kurz in dem oben genannten Artikel von Jelinek und eingehend in einem Artikel von G.D. Forney, "The Viterbi Algorithm", Proceedings, IEEE, Vol. 61, 1973, SS. 268-278 beschrieben ist), verwendet, und das Ergebnis ist ein Wahrscheinlichkeitsvektor für jedes "nahe" Wort, das zu der gegebenen Labelfolge geführt haben kann. Die eigentliche Ausgabe, d. h. die Identifizierung eines Wortes, das als Erkennungsausgabe genommen wird, wird dadurch ermittelt, daß das Wort ausgewählt wird, dessen Wahrscheinlichkeit die höchsten erzeugten Wahrscheinlichkeitsvektoren hat.
Die Bewertung von Lautwahrscheinlichkeiten ist ein wesentlicher Teil der "Angleichung". Die Erkennung erfolgt normalerweise im Rahmen einer maximalen Wahrscheinlichkeit, bei der alle Wörter des Wortschatzes als eine Lautfolge dargestellt werden, und die Wahrscheinlichkeit eines bestimmten Akustikmerkmalvektors, der vom Laut abhängt, wird berechnet (z. B. P (Akustik/Laut). Der Erkennungsprozeß geht davon aus, daß ein bestimmtes Wort im Wortschatz das richtige Wort ist und berechnet wie oben beschrieben eine Wahrscheinlichkeitstrefferzahl für dieses Wort; in der Folge wird dies für alle Wörter des Wortschatzes gemacht, und die akustische Trefferzahl wird mit einer Trefferzahl von einem Sprachmodell kombiniert, wobei das Wort mit der höchsten kombinierten Trefferzahl als das richtige ausgewählt wird.
Die Wahrscheinlichkeit P (Akustik/Laut) stimmt mit der Wahrscheinlichkeit überein, daß der aktuelle Zustand des Markov-Modells für den Laut derzeit den beobachteten Akustikvektor hervorbringt, und diese Wahrscheinlichkeit wird über mehrere Zeitrahmen hinweg akkumuliert, bis das kumulative Produkt unter einen definierten Schwellenwert fällt, bei dem davon ausgegangen wird, daß der Laut zu Ende ist und der nächste Laut angefangen hat. Bei dieser Technik ist es möglich, daß bei der Berechnung der Trefferzahl auch Rahmen berücksichtigt werden, die bei der Berechnung der Trefferzahl für den Laut nicht zu dem aktuellen Laut gehören. Dieses Problem kann umgangen werden, wenn die Anfangs- und Endzeiten eines Lautes mit größerer Sicherheit bekannt sind. Eine Technik zur Schätzung der Grenzpunkte wird in "Transform Representation of the Spectra of Acoustic Speech Segments with Applications - I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, SS. 180-195, Vol. 1, Nr. 2, April 1993 beschrieben, bei der die relative Variation zwischen aufeinanderfolgenden Rahmen zugrundegelegt wird; in rechnerischer Hinsicht ist dies jedoch sehr kostspielig, und die Technik stößt angesichts des Umfangs des betrachteten akustischen Kontexts an seine Grenzen.
Bei einigen Spracherkennungssystemen wird die "Angleichung" in zwei Stufen vorgenommen. Bei der ersten Stufe stellt der Dekoder eine kurze Liste von Kandidatenwörter aus dem 20K- Wortschatz bereit. In der Folge werden genaue Modelle der Wörter dieser kurzen Liste dazu verwendet, um das Wort an das akustische Signal anzugleichen, und das Wort mit der höchsten Trefferzahl wird ausgewählt. Der Prozeß zur Bestimmung der kurzen Liste, auch schnelle Angleichung genannt (siehe die US- Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model"), baut die phonetischen Grundformen der Wörter eines Wortschatzes in Form eines Baumes auf, durchläuft diesen Baum nach unten, berechnet eine Trefferzahl für jeden Knoten und schließt Pfade aus, deren Trefferzahl unter einem bestimmten Schwellenwert liegen. Ein Pfad umfaßt eine Lautfolge und oft muß die Trefferzahl für verschiedene Laute berechnet werden, bevor entschieden werden kann, ob der Pfad ausgeschlossen wird. In einer früheren Erfindung ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) wurde ein Verfahren beschrieben, bei dem ein falscher Pfad durch die Beobachtung der Ausgabe einer Kanalbank sehr frühzeitig ausgeschlossen werden kann, was die Kosten für die Berechnung der Trefferzahlen für die restlichen Laute auf dem Pfad senkt. In "Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114, Vol. 37, Nr. 02A, Feb. 1994 wurden die Kanalbankausgaben "blind" berechnet, da keine Informationen über die Anfangs- und Endzeiten eines Lautes in der akustischen Labelfolge vorlagen. Bei dieser Erfindung beschreiben wir ein Verfahren, das die Ausgaben der Kanalbank intelligenter berechnet, damit zu einer Verringerung der allgemeinen Fehlerquote führt und die Berechnungszeit der schnellen Angleichung reduziert. Entsprechend wird ein Verfahren nach den Ansprüchen 1 und 4 und eine Vorrichtung nach den Ansprüchen 6 und 9 vorgestellt.
Die Erfindung schlägt eine andere Technik vor, um Phonemgrenzen vorherzusagen, die es ermöglichen, einen größeren akustischen Kontext zu verwenden, um vorherzusagen, ob die gegenwärtige Zeit eine Phonemgrenze ist. Die Erfindung wendet dazu ein nicht lineares Verfahren auf Entscheidungsbaumbasis an. Die quantizierten Merkmalvektoren zur und in unmittelbarer Nähe der gegenwärtigen Zeit dienen dazu, die Wahrscheinlichkeit vorherzusagen, daß die gegenwärtige Zeit eine Phonemgrenze ist, wobei der Vorhersagemechanismus ein Entscheidungsbaum ist. Der Entscheidungsbaum setzt sich aus Trainingsdaten aus binären Fragen über die Prädiktoren zusammen, so daß die Unsicherheit über die vorhergesagte Klasse durch das Stellen der Frage verringert wird. Die Größe des Klassenalphabets beträgt 2, und die Technik von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc., 1984 wird dazu verwendet, um Fragen für jeden Prädiktor zu formulieren.
Die Erfindung beschreibt ferner eine Technik, um den Suchraum des Spracherkennungssystems noch weiter zu verkleinern. Dabei wird von der Annahme ausgegangen, daß die Phonemgrenzen bekannt sind, so daß es möglich ist, die Trefferzahl für alle Laute in dem Segment zwischen zwei Phonemgrenzen und den Rang des richtigen Lautes in diesem Segment zu berechnen. Ideal wäre es natürlich, wenn der richtige Laut auf dem ersten Rang wäre, und es sollte möglich sein, alle Laute mit Ausnahme des obersten Lautes aus dem Suchraum zu entfernen. In der Realität können die vektor-quantizierten Akustikmerkmalvektoren aufgrund von Mehrdeutigkeiten bei der akustischen Modellierung den Ton oder den Laut, der in dem Segment geäußert wurde, nicht darstellen. Der Rang des richtigen Lautes kann in manchen Segmenten daher schlecht getroffen sein.
Die Erfindung beschreibt außerdem ein Verfahren auf der Basis eines Entscheidungsbaums zur Voraussage der schlechtest möglichen Klasse des korrekten Phonems zwischen zwei hypothetischen Phonemgrenzen. Sobald diese schlechtest mögliche Klasse bekannt ist, werden alle Phoneme, die sich in Klassen unterhalb der schlechtest möglichen Klasse befinden, aus dem Suchbereich des Erkennungsmittels entfernt, wodurch große Rechenressourcen eingespart werden. Es wird darauf hingewiesen, daß dieses Verfahren unabhängig vom Verfahren zur Berechnung der Trefferzahl eines Phonems ist. Typische Systeme sind (a) die gewöhnliche Berechnung auf der Grundlage des Markov-Modells, (b) die Berechnung auf der Grundlage einer sogenannten Kanalbank gemäß Beschreibung in ["Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994] und (c) ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums gemäß Beschreibung in der gleichzeitig schwebenden US-Patentanmeldung von D. Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based pruning strategy for the Acoustic Fast Match, IBM Attorney Docket YO 996-059] oder jeder andere Trefferzahlmechanismus.
Die im Entscheidungsbaum verwendeten Prädiktoren sind, wie bereits zuvor, die quantisierten Vektoren der akustischen Merkmale zum aktuellen Zeitpunkt oder etwa zu diesem Zeitpunkt, und die vorausgesagte Quantität ist die schlechtest mögliche Klasse des korrekten Phonems zum aktuellen Zeitpunkt. Der Entscheidungsbaum wird aus Trainingsdaten aufgebaut, indem Binärfragen über die Prädiktoren entworfen werden, die gestellt werden, während der Entscheidungsbaum Knoten für Knoten nach unten durchlaufen wird. Die Fragen sind so ausgelegt, daß sie die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränken. Im Gegensatz zum vorherigen Fall der Grenzschätzung entspricht jedoch die Größe des Klassenalphabets genau der Anzahl an Phonemen, wobei diese Anzahl normalerweise viel größer als 2 ist, und das in ["Method and Apparatur for Ginding the Best Splits in a Decision Tree for a Language Model for a Speech Recognizer, U.S. Patent 5263117] beschriebene Verfahren wird verwendet, um die Fragen für jeden Knoten zu formulieren.
Das Ziel der vorliegenden Erfindung besteht darin, die gegebenen vektorquantisierten Eigenschaftsvektoren zum aktuellen Zeitpunkt t und die auf jeder Seite liegenden N Zeitrahmen heranzuziehen und zwei Entscheidungsbäume zu entwerfen. Der erste Entscheidungsbaum müßte angeben, mit welcher Wahrscheinlichkeit der aktuelle Rahmen eine Phonemgrenze ist, und der zweite Entscheidungsbaum müßte eine Verteilung über alle möglichen Klassen angeben, die das richtige Phonem zu diesem Zeitpunkt einnehmen kann und aus der sich die schlechtest mögliche Klasse des aktuellen Phonems ableiten läßt.
Es wird ein Entscheidungsbaum, in dem an jedem Knoten die Frage richtig oder falsch (also binär) gestellt wird, und mit einer Wahrscheinlichkeitsverteilung an jedem Blatt erstellt. Beginnend an der Wurzel des Baums erfolgt durch Beantwortung einer Frage an jedem Knoten und danach durch Verfolgung eines ersten oder zweiten Zweigs (je nach dem, ob die Antwort richtig oder falsch lautet) ein Verlauf in Richtung eines Blatts. Die Frage an jedem Knoten wird in Abhängigkeit der verfügbaren Daten gestellt (also Wörter, die bereits gesprochen wurden) und ist so formuliert, daß die Wahrscheinlichkeitsverteilung an den Blättern so viele Informationen wie möglich über die vorausgesagte Quantität liefert.
Ein wichtiges Ziel der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens für den Entwurf und den Aufbau eines binären Entscheidungsbaums mit den Fragen richtig oder falsch an jedem Knoten, beginnend an der Wurzel des Baums und in Richtung eines Blatts laufend.
Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums mit Fragen zu den verfügbaren bekannten Daten, die so formuliert sind, daß durch die Wahrscheinlichkeitsverteilung an den Blättern möglichst viele Informationen über die vorausgesagte Quantität gewährleistet sind.
Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums, der hauptsächlich zur Sprachmustererkennung verwendet wird.
Weitere Ziele der vorliegenden Erfindung werden deutlich, wenn die nachfolgende Beschreibung in Verbindung mit den beiliegenden Zeichnungen gelesen wird.
Die vorliegende Erfindung hat folgende Merkmale:
(a) In der akustischen Labelsequenz werden unter Verwendung eines Entscheidungsbaums und der anhängigen Labels die Phonemgrenzpunkte geschätzt, das heißt, im Kontext der Labels auf beiden Seiten des aktuellen Labels wird die Entscheidung getroffen, ob das aktuelle Etikett den Grenzpunkt zwischen zwei Phonemen darstellt. Im übrigen Teil dieser Beschreibung wird der Begriff "Segment" verwendet, um das Zeitintervall zwischen zwei Grenzpunkten zu bezeichnen.
(b) Eine Trefferzahl für alle möglichen Phoneme wird lediglich auf der Grundlage des Labels in einem Segment berechnet, das heißt, auf der Grundlage der Wahrscheinlichkeiten gemäß Entscheidungsbaum, der in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994) beschrieben wird. Wie an früherer Stelle bereits angeführt wurde, könnten auch andere Trefferzahlmechanismen verwendet werden, um die Trefferzahl für ein Phonem zu berechnen. Die Phoneme werden als nächstes entsprechend ihrer Trefferzahl klassifiziert.
(c) Es wird entschieden, daß alle Phoneme oberhalb einer bestimmten Klasse "gute" Phoneme sind, die im betrachteten Zeitsegment möglich sind, und daß die Phoneme unterhalb dieser Schwelle "schlechte" Phoneme sind, die im betrachteten Zeitsegment nicht möglich sind. Die Schwellenklasse ist nicht unveränderlich festgelegt, sondern ist abhängig von der Labelsequenz im aktuellen Segment und im danebenliegenden Segment, und wird unter Verwendung eines Entscheidungsbaums eingeholt. Die Entscheidung wird auf der Grundlage des Labels am Anfang des Segments und dem auf jeder Seite danebenliegenden Label getroffen.
(d) Um Fehler durch sogenanntes "Ausästen" des Baums zu vermeiden, wird nun unter Verwendung von Phonemklassen die Anzahl der Kandidatenphoneme erhöht, das heißt, für jedes verwechselbare Phonem wird anhand der Trainingsdaten eine Liste erstellt. Bei der Dekodierung werden bei jedem "guten" Phonem, das aus Schritt (c) hervorgegangen ist, alle Phoneme in der Verwechslungsklasse des "guten" Phonems ebenfalls als "gute" Phoneme bezeichnet.
(e) Eine andere Möglichkeit als die Entfernung aller "schlechten" Phoneme aus dem Suchbereich ist die sogenannte Bestrafung der Trefferzahl für diese schlechten Phoneme in allen nachfolgenden Berechnungen im schnellen Vergleich. All das wird vor dem eigentlichen schnellen Vergleich vorausberechnet.
Die Implementierung des Algorithmus in den Dekoder findet in den beiden folgenden Schritten statt:
Anhand einer Sequenz von Labels findet folgende Vorausberechnung vor dem schnellen Vergleich statt: zuerst erfolgt eine Berechnung der Phonemwahrscheinlichkeiten anhand eines Entscheidungsbaums gemäß Beschreibung in ("Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994). Danach werden die Grenzpunkte der Phoneme in der akustischen Labelsequenz unter Verwendung des oben beschriebenen Entscheidungsbaums auf der Grundlage der Wahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) bestimmt und die Klassen verschiedener Phoneme innerhalb aller Segmente berechnet. Danach wird die Schwellenklasse, die in jedem Segment angewendet werden sollte, ermittelt, indem der zweite oben beschriebene Entscheidungsbaum durchlaufen wird. Die oberhalb des Schwellenwerts liegenden Phoneme und die Phoneme in Vereinigung mit ihren Konfusionsklassen werden daraufhin als "gute" Phoneme bezeichnet, während die übrigen als "schlechte" Phoneme bezeichnet werden. Anschließend werden die Wahrscheinlichkeiten für die "schlechten" Phoneme im gegebenen Segment bestraft. Diese Bestrafung erfolgt sowohl mit den Phonemwahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) als auch mit den akustischen Wahrscheinlichkeiten des schnellen Vergleichs.
Danach wird der Entscheidungsbaum des schnellen Vergleichs unter Verwendung der geänderten obigen Wahrscheinlichkeiten mit Hilfe der Verfahren, die in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994, "Transform Representation of the Spectra of Acoustic Speech Segments with Applications -I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, PP. 180-195, vol. 1, no. 2, April 1993) beschrieben sind, ausgeästet.
Somit bestehen die Trainingsdaten, die für den Aufbau des Entscheidungsbaums verwendet werden, aus Gruppen von Aufzeichnungen von 2N+1 Prädiktoren (bezeichnet durch die Indizes -N, ...0, ...N) und der Klasse mit dem Index 0 (die als bekannt angenommen wird). Die entsprechende Klasse ist im Fall des ersten Entscheidungsbaums eine binäre Aufzeichnung, die angibt, ob der Rahmen an Index 0 eine Phonemgrenze ist. Die entsprechende Klasse ist im Fall des zweiten Entscheidungsbaums die Klasse des korrekten Phonems am Index 0. Die Alphabetklasse jedes Prädiktors geht in die hunderte, und die Klassenalphabetgröße ist entweder 2 im Fall des ersten Entscheidungsbaums oder normalerweise etwa 50 im Fall des zweiten Entscheidungsbaums. Die vorliegende Erfindung verwendet das nachfolgend beschriebene Verfahren, um die beiden Entscheidungsbäume aufzubauen (es wird darauf hingewiesen, daß die beiden Bäume unabhängig voneinander aufgebaut werden).
Die Erfindung verwendet eine aufeinanderfolgende Datenpartitionierungs- und -suchstrategie, um die Fragen des Entscheidungsbaums zu bestimmen. Beginnend mit allen Trainingsdaten an der Wurzel des Entscheidungsbaums wählt die Erfindung einen der 2N+1-Prädiktoren und partitioniert das Alphabet des Prädiktors in zwei nicht-überlappende Gruppen. Für alle Trainingsaufzeichnungen am aktuellen Knoten wird die Aufzeichnung der ersten Gruppe zugeordnet, wenn der Wert des gewählten Prädiktors in der ersten Gruppe liegt; andernfalls wird sie der zweiten Gruppe zugeordnet. Somit werden die Trainingsdaten am aktuellen Knoten auf der Grundlage der Gruppenzugehörigkeit des ausgewählten Prädiktors zwischen zwei Kindknoten verteilt. Der Prädiktor und die Partitionierung des Alphabets werden so gewählt, daß, nachdem die Trainingsdaten in der oben beschriebenen Weise partitioniert wurden, die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt wird. Diese Vorgehensweise wird für jedes Kind des aktuellen Knotens wiederholt, bis die Klassenungewißheit an einem Knoten (die durch die Entropie der Klassenverteilung am Knoten quantifiziert wird) unter einen bestimmten Wert fällt oder bis die Menge der Trainingsdaten an einem Knoten unter einen bestimmten Wert fällt. Nachdem der Entscheidungsbaum aufgebaut ist, ist die Klassenverteilung an den Abschlußknoten des Baums verfügbar und wird zusammen mit den Fragen des Baums gespeichert.
Für den Fall des ersten Entscheidungsbaums gibt die gespeicherte Menge einfach die Wahrscheinlichkeit an, mit der der Knoten eine Phonemgrenze ist. Für den Fall des zweiten Entscheidungsbaums ist die an den Knoten des Entscheidungsbaums verfügbare Menge eine Verteilung über alle möglichen Klassen, in denen das korrekte Phonem sein kann. Diese Verteilung wird in eine Zahl umgewandelt, eine Klasse für den schlimmsten Fall, so daß die Wahrscheinlichkeit, daß die Klasse des korrekten Phonems besser ist als die Klasse des schlimmsten Falls, am Knoten des Entscheidungsbaums gespeichert wird.
Für den Fall eines einzelnen Prädiktors und einer Klasse beschreiben Nadas und Nahamoo (US-Patent 5236117) ein Verfahren zur Suche der besten binären Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt. Am aktuellen Knoten wird dieses Verfahren unabhängig von jedem der 2N+1-Prädiktoren angewandt und die beste Frage für diesen Prädiktor bestimmt. Danach wird der beste 2N+1-Prädiktor als derjenige bestimmt, der die Ungewißheit der Klassenzugehörigkeit am weitesten reduziert, und die Frage am aktuellen Knoten wird als beste Frage für diese Voraussage formuliert. Die Frage an einem Knoten könnte aber auch komplexer gestaltet werden, so daß sie von mehr als einem Prädiktor abhängig ist, oder es könnte ein Bestand an festen komplexen Fragen verwendet und die beste Frage als diejenige Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt, gewählt werden.
Ein weiteres Ziel der vorliegenden Erfindung besteht darin, ein Mittel zu beschreiben, durch das sich der oben beschriebene Entscheidungsbaum in einem Spracherkennungsmittel verwenden läßt. Während der Spracherkennung wird der erste Entscheidungsbaum durchlaufen, bis er einen der Endknoten erreicht, und die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, geht aus dem Endknoten des Entscheidungsbaums hervor. Dieser Wert wird mit einem vorbestimmten Schwellenwert verglichen, und wenn er größer ist als der Schwellenwert, dann wird von der Hypothese ausgegangen, daß die aktuelle Zeit ein Grenzpunkt ist. Anschließend wird für alle Zeitrahmen zwischen zwei hypothetischen Phonemgrenzen der zweite Entscheidungsbaum durchlaufen, und die Klasse des schlimmsten Falls für das korrekte Phonem geht für alle diese Zeitrahmen aus dem Endknoten des Entscheidungsbaums hervor. Die schlimmste aller Klassen des schlimmsten Falls wird als Klasse des schlimmsten Falls des korrekten Phonems in diesem Segment herangezogen. Danach werden die Trefferzahl für alle Phoneme auf der Grundlage dieses Segments berechnet und die Phoneme entsprechend ihrer Trefferzahl klassifiziert. Anschließend werden die Phoneme, die unterhalb der Klasse des schlimmsten Falls eingestuft werden, aus der Suche herausgenommen, so daß eine Kurzliste zulässiger Phoneme für jedes Segment zwischen zwei hypothetischen Phonemgrenzen entsteht. Diese Liste läßt sich weiter erhöhen, indem Phoneme herangezogen werden, die untereinander verwechselbar sind, und indem jedes Element einer "Verwechselbarkeitsliste" in die Kurzliste einbezogen wird, immer wenn ein Element aus der Verwechselbarkeitsliste über der Klasse des schlimmsten Falls eingestuft wird.
Diese Information wird im Rahmen mit der höchsten Wahrscheinlichkeit verwendet, um zu bestimmen, ob ein Vergleich für ein gegebenes Wort durchgeführt werden soll, indem der Suchbereich des Erkennungsmittels auf die Kurzliste beschränkt wird und sich nicht mehr auf das gesamte Alphabet bezieht. Vor dem Vergleich für ein gegebenes Phonem in einem Wort wird die oben definierte Kurzliste daraufhin geprüft, ob das Phonem möglicherweise zur gegebenen Zeit auftreten kann, und wenn das Phonem in der Kurzliste nicht enthalten ist, dann wird der Vergleich für das aktuelle Wort nicht einbezogen.
Das Verfahren und die Vorrichtung in Übereinstimmung mit der vorliegenden Erfindung sind vorteilhaft, weil (a) sie eine schnelle und akkurate Möglichkeit bieten, Phonemgrenzen zu schätzen, indem sie ermöglichen, daß ein Vergleich eines Phonems innerhalb genau definierter Grenzen stattfindet, was zu einer höheren Genauigkeit führt, (b) sie eine schnelle und akkurate Möglichkeit bieten, die Klassengrenzen des korrekten Phonems zu schätzen, ohne Kenntnisse über die Identität des korrekten Phonems zu benötigen, wodurch es möglich ist, eine Kurzliste zulässiger Phoneme zu erstellen, was wesentlich dazu beiträgt, den Suchbereich des Spracherkennungsmittels zu reduzieren. Darüber hinaus ist der Zusatzaufwand für das Durchlaufen der beiden Entscheidungsbäume vernachlässigbar, da die im Entscheidungsbaum gestellten Fragen lediglich die Gruppenzugehörigkeit des ausgewählten Prädiktors betreffen.
Fig. 1 ist eine Darstellung phonetischer Grundformen für zwei Wörter;
Fig. 2 ist eine schematische Darstellung eines Markov-Modells für ein Phonem;
Fig. 3 zeigt ein Teilbeispiel einer Tabelle, die ein statistisches Markov-Modell darstellt, das durch verschiedene Ausdrücke geschult wurde.
Fig. 4 ist ein Flußdiagramm, welches ein Verfahren für den Aufbau eines Entscheidungsbaums zur Voraussage der Wahrscheinlichkeitsverteilung einer Klasse zu einem gegebenen Zeitpunkt in Übereinstimmung mit der vorliegenden Erfindung beschreibt.
Fig. 5 ist eine schematische Darstellung für den Aufbau eines Entscheidungsbaums.
Fig. 6 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
Fig. 7 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
Fig. 4 ist ein Flußdiagramm, das das Verfahren zum Aufbau eines Entscheidungsbaums zur Voraussage einer Wahrscheinlichkeitsverteilung der Klassenwerte zum Zeitpunkt t anhand der quantisierten Eigenschaftsvektoren zu den Zeitpunkten t-N, t-N+1, ..., t, t+N abbildet. Zum Zweck der Beschreibung der Arbeitsweise der vorliegenden Erfindung werden die quantisierten Eigenschaftsvektoren fortan als Labels bezeichnet. Die im Entscheidungsbaum verwendeten Prädiktoren sind die Labels zu den Zeitpunkten t-N, ..., t..., t+N, dargestellt als 1-N, ... 1&sup0;, ..., 1+N, und die vorausgesagte Menge ist entweder eine Verteilung über zwei Klassen wie im Fall des grenzerkennenden Entscheidungsbaums, das heißt, die Wahrscheinlichkeit, daß der Zeitpunkt t eine Phonemgrenze ist, oder eine Verteilung über alle möglichen Klassen des korrekten Phonems zum Zeitpunkt t, wie im Fall des klassenerkennenden Entscheidungsbaums. die Größe des Klassenalphabets im zweiten Fall ist gleich der Größe des Phonemalphabets, das als P bezeichnet wird. Die Größe des Labelalphabets wird als L bezeichnet. Normalerweise reicht P von 50-100, und L geht in die hunderte; zum Zweck der Beschreibung der vorliegenden Erfindung gehen wir jedoch von der Annahme aus, daß L = 4, P = 3 und N = 1 ist. Wir stellen diese vier Prädiktorwerte als 1&sub1;, 1&sub2;, 1&sub3; und 1&sub4; und die 3 Klassenwerte als p&sub1;, p&sub2; und p&sub3; dar. Das nachstehend beschriebene Verfahren verwendet die Vorgehensweise von [1], um die Binärpartitionierung des Prädiktoralphabets an einem Knoten des Entscheidungsbaums zu bestimmen, die geeignet ist für den Fall des klassenerkennenden Entscheidungsbaums, wo die Anzahl der Klassen größer ist als 2. Bei dem grenzenerkennenden Entscheidungsbaum jedoch, bei dem die Anzahl der Klasse 2 ist, läßt sich die US-Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model" auf die einfachere optimale Strategie von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc. 1984 reduzieren.
Die Trainingsdaten bestehen aus einer Reihe von transkribierten Sätzen, wobei die akustische Version jedes Satzes in eine Labelfolge quantiziert wird. Bei der Transkription der Daten ist es des weiteren möglich, jedem Zeitrahmen einen Klassenwert zuzuordnen.
Wenn das Ereignis 1pk als ein Ereignis definiert wird, bei dem der Wert des Prädiktors 1k 1i und der Klassenwert p ist, wird als nächstes eine Konfusionsmatrix erzeugt (Block 2), die die Zählungen aller möglichen Ereignisse (1ik, p) aufzählt. Die Matrix hat L-Reihen und P-Spalten, und der Eintrag, der der i- ten Reihe und j-ten Spalte entspricht, stellt dar, wie oft der Wert des Prädiktors 1k bei den Trainingsdaten des aktuellen Knotens des Entscheidungsbaums (beim Wurzelknoten werden alle Trainingsdaten verwendet) gleich 1i ist, wenn der Klassenwert Pj ist. Die Zählungen werden dann in gemeinsame Wahrscheinlichkeiten umgewandelt, indem die Summe aller Einträge in die Matrix berechnet und anschließend jeder Eintrag der Matrix durch diese Summe dividiert wird. Da 2N+1- Prädiktoren vorhanden sind, können 2N+1 gemeinsame Verteilungsmatrixe erzeugt werden, eine für jeden Prädiktor. Ein Beispiel für diese gemeinsamen Verteilungsmatrizen ist in Tabelle 2 für die 3 Prädiktoren 1&supmin;¹, 1&sup0; und 1&spplus;¹ dargestellt. TABELLE 2
In Block 3 beginnen wir mit der gemeinsamen Verteilung des kten Prädiktors 1k und der Klasse p und erzeugen mit Hilfe des oben beschriebenen Verfahrens der US-Patentschrift 5236117 eine binäre Partitionierung SLkopt, SLkopt der Werte des Prädiktors 1k. Für jeden Prädiktor wird mit anderen Worten das Prädiktoralphabet [11, 12, 13, 14] in zwei ergänzende Reihen, SLkopt und SLkopt (zum Beispiel SLkopt = [1&sub1;, 1&sub2;] und SLkopt = [1&sub3;, 1&sub4;]), partitioniert, wobei das Kriterium für die Auswahl der Partitionierung die Minimierung der Klassenunbestimmtheit ist. Die Entropie der Klassenverteilung wird als Maß für die Unbestimtheit verwendet. Das Verfahren wird im einzelnen in der US-Patentschrift 5236117 beschrieben. Der Prozeß wird von jedem Prädiktor unabhängig durchgeführt. Bei dem genannten Beispiel führt eine Iteration des Verfahrens der US-Patentschrift 5236117, Spalte 4, Zeile 30-Spalte 9, Zeile 25 zu einer fast optimalen Partitionierung der verschiedenen Prädiktoren:
Für jeden der Prädiktoren 1k können die Trainigsdaten beim aktuellen Knoten auf der Grundlage der Partitionierung SLkopt, SLkopt in zwei Teile geteilt werden, und die Wahrscheinlichkeit dieser beiden Kindknoten ergibt sich wie folgt:
und
Die auf der Partitionierung beruhende Klassenverteilung an den beiden Kindknoten kann wie folgt berechnet werden:
und
Die Entropie für jeden der Kindknoten kann wie für den Elternknoten berechnet werden, und die durchschnittliche Entropie der beiden Kindknoten kann berechnet werden als
Die Werte für dieses Beispiel sind in Tabelle 4 unten dargestellt.
In Block 4 wird die Reduzierung der Klassenunbestimmtheit in Verbindung mit der besten Frage für jeden Prädiktor berechnet, und der Prädiktor mit der größten Reduzierung der Unbestimmtheit wird ausgewählt. Die Reduzierung der Unbestimmtheit aufgrund einer Partitionierung basierend auf SLkavg wird als H(p-H k a v g) berechnet. In dem betrachteten Beispiel haben wird H (p) = 1,58, H&supmin;¹a v g = 1,455, H&sup0;a v g = 1,409 und H&spplus;¹a v g = 1,470. Der ausgewählte Prädiktor ist somit 1&sup0;, da dies die maximale Reduzierung der Unbestimmtheit der vorausgesagten Klasse ergibt.
In Block 5 werden die Trainingsdaten beim aktuellen Knoten auf der Grundlage der optimalen Partitionierung des beim aktuellen Knoten ausgewählten Prädiktors in zwei Teile geteilt. Abhängig von der Klassenunbestimmtheit und dem Umfang der Trainingsdaten beim Kindknoten geht der Prozeß anschließend zurück zu Block 2 und beginnt nur auf der Grundlage der Trainingsdaten beim Kindknoten erneut mit der Neuberechnung der gemeinsamen Verteilung. Die Verarbeitung bei einem Kindknoten endet, wenn die Klassenunbestimmtheit beim Kindknoten unter einen festgelegten Schwellenwert fällt oder wenn der Umfang der Trainingsdaten bei einem Kindknoten unter einen festgelegten Schwellenwert fällt.
In Fig. 5 ist schematisch eine Vorrichtung zum Aufbau des Entscheidungsbaums dargestellt. Die Vorrichtung kann zum Beispiel aus einem entsprechend programmierten Computersystem bestehen. Bei diesem Beispiel besteht die Vorrichtung aus einem allgemeinen digitalen Prozessor 8 mit einer Tastatur 9 zur Dateneingabe, einer Anzeige 10, einem Direktzugriffsspeicher 11 und einer Speichereinheit 12. Der Prozessor 8 berechnet anhand der Trainingsdaten die gemeinsame Verteilung des Prädiktors 1k und den Klassenwert p für den ersten Entscheidungsbaum für alle 2n+1-Prädiktoren unter Verwendung aller Trainingsdaten und speichert die geschätzte gemeinsame Verteilung zusammen mit der Klassenverteilung in der Speichereinheit 12.
Als nächstes berechnet der Prozessor 8 nach dem Algorithmus der US-Patentschrift 5236117 die beste Partitionierung jedes Prädiktorwerts, so daß die maximale Reduzierung der Klassenbestimmtheit aufgrund der Partitionierung erreicht wird. Der Prozessor 8 wählt den besten Prädiktor 1* aus und teilt die Trainingsdaten aufgrund der besten Partitionierung für den Prädiktor 1* in zwei Kindknoten.
Der Prozessor 10 wiederholt das oben dargelegte Verfahren für die Daten programmgesteuert bei jedem der beiden Kindknoten, bis die Klassenentropie an dem Knoten unter einen festgelegten Schwellenwert fällt oder bis der Umfang der Trainingsdaten an einem Knoten unter einen festgelegten Schwellenwert fällt.
Nachdem der Entscheidungsbaum aufgebaut ist, berechnet der Prozessor immer noch programmgesteuert eine Verteilung der Klassenwerte für jeden Knoten des Entscheidungsbaums und speichert diese in der Speichereinheit 12. Der Prozeß wird wiederholt, um den zweiten Entscheidungsbaum aufzubauen. Im Fall des zweiten Entscheidungsbaums wird die Wahrscheinlichkeitsverteilung über alle mögliche Klassen, die an jedem Knoten des Entscheidungsbaums gespeichert ist, in eine einzelne Zahl umgewandelt, die Klasse des schlimmsten Falls für das korrekte Phonem, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen festgelegten Schwellenwert überschreitet.
Fig. 6 ist ein Blockdiagramm eines automatischen Spracherkennungssystems, das den Entscheidungsbaum der vorliegenden Erfindung verwendet. Das System in Fig. 6 umfaßt ein Mikrofon 13 zur Umwandlung menschlicher Sprache in ein elektrisches Signal. Das vom Mikrofon kommende Signal wird von einem Akustikprozessor und Labelvergleich 14 verarbeitet, der den am besten übereinstimmenden akustischen Kennzeichnungsprototyp im akustischen Labelprototypspeicher 15 sucht. Daraufhin wird eine Wahrscheinlichkeitsverteilung der Phonemgrenzen 16a für jeden Zeitrahmen erstellt, und zwar unter Verwendung des ersten Entscheidungsbaums 17a, der in der vorliegenden Erfindung beschrieben wird. Diese Wahrscheinlichkeiten werden mit einem Schwellenwert verglichen, und einige Zeitrahmen werden als Grenzen zwischen Phonemen identifiziert. Anschließend wird ein akustischer Speicher 16b für alle Phoneme berechnet, die sich zwischen jedem gegebenen Paar hypothetischer Grenzen befinden, und die Phoneme werden auf der Grundlage dieser Trefferzahl klassifiziert. Es wird darauf hingewiesen, daß diese Trefferzahl auf jede beliebige Weise berechnet werden kann. Die einzige Einschränkung hierbei ist, daß die Trefferzahl auf der Grundlage desselben Verfahrens berechnet werden kann wie beim Aufbau des zweiten Entscheidungsbaums. Danach wird der zweite Entscheidungsbaum 17b für jeden Zeitrahmen durchlaufen, um die Klasse des schlimmsten Falls des korrekten Phonems zu diesem Zeitpunkt zu erhalten. Unter Verwendung der in 16b berechneten Phonemtrefferzahl und Phonemklasse wird eine Kurzliste zulässiger Phoneme 16c für jeden Zeitrahmen erstellt. Diese Daten werden verwendet, um eine Untergruppe akustischer Wortmodelle im Speicher 19 auszuwählen, und ein schneller akustischer Wortvergleichsprozessor 18 vergleicht den Labelstring aus dem akustischen Prozessor 14 mit dieser Untergruppe abgekürzter akustischer Wortmodelle, um ein Ausgangssignal zu erzeugen.
Der Ausgang des schnellen akustischen Wortvergleichsprozessors besteht aus mindestens einem Wort. Tm allgemeinen jedoch gibt der schnelle akustische Wortvergleichsprozessor mehrere Kandidatenwörter aus. Jedes Wort, das vom schnellen akustischen Wortvergleichsprozessor 18 erstellt wird, wird in einen Wortkontextvergleich 20 eingegeben, der den Wortkontext mit Sprachmodellen im Speicher 21 vergleicht und mindestens ein Kandidatenwort ausgibt. Anhand der Erkennungskandidaten, die vom schnellen akustischen Wortvergleich und dem Sprachmodell erstellt werden, vergleicht der detaillierte akustische Vergleich 22 den Labelstring vom akustischen Prozessor 14 mit den detaillierten akustischen Wortmodellen im Speicher 23 und gibt entsprechend einer Spracheingabe einen Wortstring aus.
Fig. 7 beschreibt die Blöcke 16a-c und 17a-b ausführlich. Anhand des akustischen Labelstrings vom akustischen Prozessor 14 durchläuft der kontextabhängige Grenzschätzprozeß 16 den ersten Entscheidungsbaum 17a für jeden Zeitrahmen und verwendet dabei die Labels zur aktuellen Zeit und die Labels zu den unmittelbar voranstehenden und nachfolgenden Zeiten als Prädiktoren, bis er einen Endknoten des Entscheidungsbaums erreicht. Daraufhin wird die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, von der gespeicherten Klassenverteilung am Blatt aufgegriffen und mit einem Schwellenwert verglichen. Ist die Wahrscheinlichkeit größer als der Schwellenwert, dann wird die Hypothese aufgestellt, daß die aktuelle Zeit eine Phonemgrenze ist.
Anschließend wird für jedes Phonem zwischen jedem Grenzpunktepaar eine akustische Trefferzahl berechnet, und die Phoneme werden auf der Grundlage dieser Trefferzahlen klassifiziert. Es kommen mehrere Verfahren in Frage, um diese Trefferzahl zu berechnen. Beispielsweise ließe sich ein gewöhnliches Berechnungsverfahren auf der Grundlage des Markovschen Modells oder eine Kanal-Bank-Berechnung einsetzen, wie sie in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) verwendet wird, oder aber ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums, wie er in [Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based Pruning Strategy for the Acoustic Fast Match", IBM Attorney Docket YO 996-059] beschrieben ist. Die einzige Einschränkung des Trefferzahlmechanismus besteht darin, daß derselbe Mechanismus wie bei der Einholung der Trainingsdaten für den zweiten Entscheidungsbaum verwendet werden sollte.
Im Anschluß daran wird für jeden Zeitrahmen der zweite Entscheidungsbaum 17b durchlaufen, und zwar unter Verwendung des Labels zur aktuellen Zeit und unter Verwendung der vorangegangenen und nachfolgenden Zeiten als Prädiktoren, bis ein Endknoten des Entscheidungsbaums erreicht ist. Die Klasse des schlimmsten Falls für das korrekte Phonem wird aus den Daten ausgelesen, die an diesem Knoten gespeichert sind. Diese Klasse wird als Klasse des schlimmsten Falls für das korrekte Phonem zu diesem Zeitpunkt betrachtet. Danach wird die schlimmste aller Klassen des schlimmsten Falls zwischen jeweils zwei nebeneinander liegenden hypothetischen Phonemgrenzen als Klasse des schlimmsten Falls für das korrekte Phonem im Segment zwischen den Phonemgrenzen herangezogen. Alle Klassen, deren Phoneme schlimmer sind als diese Klasse des schlimmsten Falls werden daraufhin im aktuellen Segment ausgelassen, und für das Segment wird eine Kurzliste zulässiger Phoneme erstellt.
Nun ist es aber häufig der Fall, daß sich manche Phoneme ähnlich sind und leicht verwechselt werden. Eine Auflistung solcher leicht verwechselbarer Phoneme läßt sich auf der Grundlage der Trainingsdaten erstellen, und die oben beschriebene Kurzliste läßt sich erweitern, indem diese Listen leicht verwechselbarer Phoneme hinzugefügt werden. Wenn beispielsweise die Klasse eines beliebigen Elements in einer Auflistung solcher leicht verwechselbaren Phoneme besser ist als die Klasse des schlimmsten Falls, dann wird die gesamte Gruppe der leicht verwechselbaren Phoneme in die Kurzliste aufgenommen.
Es wird darauf hingewiesen, daß die obige Beschreibung nur zur Veranschaulichung der vorliegenden Erfindung dient. Der Fachmann auf diesem Gebiet weiß, daß verschiedene Alternativen und Veränderungen möglich sind, ohne den Anwendungsbereich der vorliegenden Erfindung verlassen zu müssen. Deshalb verfolgt das Prinzip der vorliegenden Erfindung die Absicht, alle möglichen Alternativen, Veränderungen und Abweichungen einzuschließen, die in den Anwendungsbereich der anhängigen Ansprüche fallen. TABELLE 1 DIE BEIDEN BUCHSTABEN STEHEN GROB FÜR DEN KLANG DES ELEMENTS. ZWEI ZIFFERN STEHEN FÜR VOKALE: ERSTE ZIFFER: BETONUNG EINES KLANGS. ZWEITE ZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER EINE EINZIGE STELLE GILT ALS KONSONANT. EINZELZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER

Claims

1. Ein Verfahren zur Spracherkennung, das folgende Schritte umfaßt:

a) Eingabe mehrerer Wörter der Trainingsdaten;

b) Training eines oder mehrerer binärer erster Entscheidungsbäume, um an jedem Knoten auf der Grundlage von Kontextdaten innerhalb der Trainingsdaten eine möglichst informative Frage zu stellen, wobei jeder binäre erste Entscheidungsbaum einem anderen Zeitpunkt in einer Sequenz der Trainingsdaten entsprechen kann;

c) Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;

d) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;

e) Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar

f) Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;

g) Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.

2. Das Verfahren gemäß Anspruch 1, das weiterhin folgende Schritte umfaßt:

h) Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;

i) Unter den Klassen des schlimmsten Falls Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;

j) Aussparung aller Phoneme, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;

k) Erstellung einer Kurzliste von Phonemen für das Segment;

l) Ausgabe eines Erkennungsergebnisses, wenn die Kurzliste des Erkennungsergebnisses eine Kurzliste aus Wörtern ist.

3. Verfahren gemäß Anspruch 1, das weiterhin die folgenden Schritte umfaßt:

h) Durchlaufen eines oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe an Entscheidungsbäumen für jeden Zeitrahmen einer Spracheingangssequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle möglichen Klassen ist, in die ein Phonem aufgenommen werden kann, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems zu erhalten, und zwar durch Bestimmung der Klasse des schlimmsten Falls zum Klassenwert, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;

k) Erstellung einer Kurzliste von Phonemen für das Segment;

l) Vergleich bestandteilbildender Phoneme eines Wortes in einem Vokabular, um festzustellen, ob das Wort in der Kurzliste enthalten ist, und Erstellung einer Kurzliste von Wörtern;

l) Ausgabe eines Erkennungsergebnisses durch Vergleich der Wörter aus der Kurzliste mit einem Sprachmodell, um die am meisten wahrscheinliche Wortübereinstimmung für die Spracheingangssequenz zu bestimmen.

4. Ein Verfahren zur Spracherkennung, das die folgenden Schritte umfaßt:

a) Eingabe eines Strings von Sprachelementen, die Trainingsdaten darstellen;

b) Umwandlung der Elemente der Trainingsdaten in elektrische Signale;

c) Darstellung des elektrischen Signals der Trainingsdaten als prototyp-quantisierte Eigenschaftsvektoren, wobei ein Eigenschaftsvektor einen gegebenen Zeitrahmen darstellt;

d) Zuordnung eines Klassenlabels für den prototyp- quantisierten Eigenschaftsvektor zu jedem Prototyp- Eigenschaftsvektor;

e) Aufbau eines oder mehrerer Entscheidungsbäume für unterschiedliche Zeiten in den Trainingsdaten, wobei jeder Baum einen Wurzelknoten und eine Mehrzahl an Kindknoten aufweist, bestehend aus den folgenden Schritten:

i. Bildung einer Gruppe von Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1 Prädiktoren Eigenschaftsvektorlabels an 2K+1 aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im Fall des ersten Entscheidungsbaums gehört oder zum korrekten Phonem im Fall des zweiten Entscheidungsbaums gehört;

ii. Berechnung der geschätzten verbundenen Verteilung der Prädiktoren 1k und des Phonems p für 2K+1 Prädiktoren unter Verwendung der Trainingsdaten, wobei die Prädiktoren Eigenschaftsvektorlabels zu den Zeitpunkten t- K, ..., t, ..., t+K sind und p das Phonem zum Zeitpunkt t ist;

iii. Speicherung der geschätzten verbundenen Verteilung von 1k und p und einer entsprechenden Verteilung für jeden Prädiktor 1k am Wurzelknoten;

iv. Berechnung der besten Partitionierung der Werte, die der Prädiktor 1k für jedes 1k annehmen kann, um die Phonemungewißheit an jedem Knoten auf ein Mindestmaß zu beschränken;

v. Auswahl des Prädiktors 1k, dessen Partitionierung zur niedrigsten Ungewißheit führt, und Partitionierung der Trainingsdaten in zwei Kindknoten, und zwar auf der Grundlage der computergesteuerten Partitionierung 1k, wobei jedem Kindknoten auf der Grundlage der Trainingsdaten am Kindknoten eine Klassenverteilung zugeordnet wird;

f) Wiederholung der Bestimmung für jeden Kindknoten, ob der Umfang an Trainingsdaten am Kindknoten größer ist als ein Schwellenwert;

g) Eingabe eines Sprachelements, das erkannt werden soll;

h) Umwandlung eines Sprachelements in ein elektrisches Signal;

i) Darstellung des elektrischen Signals als Serie quantisierter Eigenschaftsvektoren;

j) Vergleich der Serie quantisierter Eigenschaftsvektoren mit den gespeicherten Prototyp- Eigenschaftsvektoren zur Bestimmung einer engsten Übereinstimmung und Zuordnung eines Eingangslabels zu jedem Vektor aus der Serie der Eigenschaftsvektoren entsprechend dem Label des am engsten übereinstimmenden Eigenschaftsvektors;

k) Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;

l) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;

m) Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;

n) Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;

o) Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.

5. Das Verfahren gemäß Anspruch 4, das weiterhin folgende Schritte umfaßt:

Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;

Unter den Klassen des schlimmsten Falls Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;

Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;

Erstellung einer Kurzliste für das Segment;

Ausgabe eines Erkennungsergebnisses als Antwort auf die Kurzliste.

6. Eine Vorrichtung zur Spracherkennung, die folgendes umfaßt:

a) Mittel zur Eingabe mehrerer Trainingsdatenwörter;

b) Mittel für das Training eines oder mehrerer binärer erster Entscheidungsbäume, um an jedem Knoten auf der Grundlage von Kontextdaten innerhalb der Trainingsdaten eine möglichst informative Frage zu stellen, wobei jeder binäre erste Entscheidungsbaum einem anderen Zeitpunkt in einer Sequenz der Trainingsdaten entsprechen kann;

c) Mittel für das Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;

d) Mittel für den Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;

e) Mittel für die Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;

f) Mittel für die Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;

g) Mittel für die Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.

7. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes umfaßt:

h) Mittel für das Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;

i) Unter den Klassen des schlimmsten Falls ein Mittel zur Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;

j) Mittel zur Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;

k) Mittel zur Erstellung einer Kurzliste für das Segment;

l) Mittel zur Ausgabe eines Erkennungsergebnisses, wenn die Kurzliste des Erkennungsergebnisses eine Kurzliste von Wörtern ist.

8. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes umfaßt:

k) Mittel zur Erstellung einer Kurzliste der Phoneme für das Segment;

l) Mittel für den Vergleich bestandteilbildender Phoneme eines Wortes in einem Vokabular, um festzustellen, ob das Wort in der Kurzliste enthalten ist, und die Erstellung einer Kurzliste von Wörtern;

l) Mittel für die Ausgabe eines Erkennungsergebnisses durch Vergleich der Wörter aus der Kurzliste mit einem Sprachmodell, um die am meisten wahrscheinliche Wortübereinstimmung für die Spracheingangssequenz zu bestimmen.

9. Eine Vorrichtung zur Spracherkennung, die folgendes umfaßt:

a) Mittel zur Eingabe eines Strings von Sprachelementen, die Trainingsdaten darstellen;

b) Mittel zur Umwandlung der Elemente der Trainingsdaten in elektrische Signale;

c) Mittel zur Darstellung des elektrischen Signals der Trainingsdaten als prototyp-quantisierte Eigenschaftsvektoren, wobei ein Eigenschaftsvektor einen gegebenen Zeitrahmen darstellt;

d) Mittel zur Zuordnung eines Klassenlabels für den prototyp-quantisierten Eigenschaftsvektor zu jedem Prototyp-Eigenschaftsvektor;

e) Mittel zum Aufbau eines oder mehrerer binärer Entscheidungsbäume für unterschiedliche Zeiten in den Trainingsdaten, wobei jeder Baum einen Wurzelknoten und eine Mehrzahl an Kindknoten aufweist, bestehend aus den folgenden Schritten:

i. Mittel zur Bildung einer Gruppe von Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1 Prädiktoren Eigenschaftsvektorlabels an 2K+1 aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im Fall des ersten Entscheidungsbaums gehört oder zum korrekten Phonem im Fall des zweiten Entscheidungsbaums gehört;

ii. Mittel zur Berechnung der geschätzten verbundenen Verteilung der Prädiktoren 1k und des Phonems p für 2K+1 Prädiktoren unter Verwendung der Trainingsdaten, wobei die Prädiktoren Eigenschaftsvektorlabels zu den Zeitpunkten t-K, ..., t, ..., t+K sind und p das Phonem zum Zeitpunkt t ist;

iii. Mittel zur Speicherung der geschätzten verbundenen Verteilung von 1k und p und einer entsprechenden Verteilung für jeden Prädiktor 1k am Wurzelknoten;

iv. Mittel zur Berechnung der besten Partitionierung der Werte, die der Prädiktor 1k für jedes 1k annehmen kann, um die Phonemungewißheit an jedem Knoten auf ein Mindestmaß zu beschränken;

v. Mittel zur Auswahl des Prädiktors 1k, dessen Partitionierung zur niedrigsten Ungewißheit führt, und Partitionierung der Trainingsdaten in zwei Kindknoten, und zwar auf der Grundlage der computergesteuerten Partitionierung 1k, wobei jedem Kindknoten auf der Grundlage der Trainingsdaten am Kindknoten eine Klassenverteilung zugeordnet wird;

f) Mittel zur Wiederholung der Bestimmung für jeden Kindknoten, ob der Umfang an Trainingsdaten am Kindknoten größer ist als ein Schwellenwert;

g) Mittel zur Eingabe eines Sprachelements, das erkannt werden soll;

h) Mittel zur Umwandlung eines Sprachelements in ein elektrisches Signal;

i) Mittel zur Darstellung des elektrischen Signals als Serie quantisierter Eigenschaftsvektoren;

j) Mittel zum Vergleich der Serie quantisierter Eigenschaftsvektoren mit den gespeicherten Prototyp- Eigenschaftsvektoren zur Bestimmung einer engsten Übereinstimmung und Zuordnung eines Eingangslabels zu jedem Vektor aus der Serie der Eigenschaftsvektoren entsprechend dem Label des am engsten übereinstimmenden Eigenschaftsvektors;

k) Mittel für das Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;

l) Mittel für den Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;

m) Mittel zur Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;

n) Mittel zur Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;

o) Mittel zur Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.

10. Die Vorrichtung gemäß Anspruch 9, die weiterhin folgendes umfaßt:

Mittel für das Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;

Unter den Klassen des schlimmsten Falls ein Mittel zur Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;

Mittel zur Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;

Mittel zur Erstellung einer Kurzliste für das Segment;

Mittel zur Ausgabe eines Erkennungsergebnisses in Reaktion auf die Kurzliste.