DE69518723T2 - Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen - Google Patents

Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen

Info

Publication number
DE69518723T2
DE69518723T2 DE69518723T DE69518723T DE69518723T2 DE 69518723 T2 DE69518723 T2 DE 69518723T2 DE 69518723 T DE69518723 T DE 69518723T DE 69518723 T DE69518723 T DE 69518723T DE 69518723 T2 DE69518723 T2 DE 69518723T2
Authority
DE
Germany
Prior art keywords
phoneme
class
worst case
phonemes
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69518723T
Other languages
English (en)
Other versions
DE69518723D1 (de
Inventor
David Nahamoo
Mukund Padmanabhan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE69518723D1 publication Critical patent/DE69518723D1/de
Application granted granted Critical
Publication of DE69518723T2 publication Critical patent/DE69518723T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

    TECHNISCHER ANWENDUNGSBEREICH
  • Die Erfindung bezieht sich auf die Erkennung von Sprache und insbesondere die Erfassung von Phonemgrenzen beim Sprechen.
  • BEGRIFFE
  • Symbol: Kennzeichnet das Sprechen anhand von n Merkmalen, wobei das Sprechen in einem n-dimensionalen Sprachraum betrachtet wird. Der Raum ist in Bereiche unterteilt, die jeweils durch einen n-dimensionalen Prototypvektor identifiziert werden. Jeder Prototypvektor wird durch ein "Symbol" wie eine Zahl oder andere Labels dargestellt. Gesprochene Sprache kann als Aneinanderreihung von "Symbolen" angesehen werden.
  • Fenem (auch Label): Ein Symbol, das einem Prototypvektor entspricht und anhand von Klangmerkmalen während eines bestimmten Zeitraums definiert wird. Klang kann zum Beispiel zwanzig Merkmale haben, wobei die Größe jedes Merkmals während einer Zentisekunde einer Komponente des Protoypvektors entspricht. Jeder Prototypvektor verfügt somit über eine Reihe von Merkmalwerten für ein Intervall von einer Zentisekunde. Anhand der Merkmalwerte, die in einem Zentisekundenintervall erzeugt werden, wird ein Prototypvektor aus einer festgelegten Menge von Prototypvektoren als nähester Vektor ausgewählt. Da jeder Prototypvektor über ein entsprechendes Fenem (oder Label) verfügt, entspricht die Menge der Prototypvektoren einem Alphabet von Fenemen (oder Labels). Beispielfeneme sind in Tabelle 1 aufgeführt; das erste Fenem 001 ist als AA11 definiert. Ein Akustikprozessor prüft gesprochene Sprache von Intervall zu Intervall, und anhand des Vergleichs, welcher Prototypvektor den Merkmalwerten in gewissem Umfang am nähesten ist, wird das Fenem für den nähesten Prototypvektor dem Intervall zugeordnet. Das Fenem unterscheidet sich von dem bekannten Phonem insofern, als es auf Merkmalwerten beruht, die über einen bestimmten Zeitraum hinweg (z. B. eine Zentisekunde) geprüft werden, während ein Phonem auf einer bestimmten Menge grundlegender phonetischer Klangeinheiten ohne Berücksichtigung von zeitlichen Begrenzungen beruht.
  • Markov-Modell (auch endlicher Wahrscheinlichkeitsautomat): Ein Klangereignis kann als eine Ansammlung von Zuständen dargestellt werden, die durch Übergänge miteinander verbunden sind, welche Symbole von einem endlichen Alphabet erzeugen. Mit jedem Übergang von einem Zustand zum nächsten Zustand ist eine Wahrscheinlichkeit verbunden, daß als nächstes ein Übergang t gewählt wird, wenn ein Zustand s erreicht wird. Für jede mögliche Labelausgabe bei einem Übergang gibt es eine entsprechende Wahrscheinlichkeit. Das Modell beginnt bei einem oder mehreren Anfangszuständen und endet in einem oder mehreren endlichen Zuständen.
  • Laut: Eine Klangeinheit, der ein Markov-Modell zugeordnet wird. Ein erster Lauttyp ist phonetisch ausgerichtet, wobei jedes Phonem einem entsprechenden Laut entspricht. Eine Standardphonemreihe ist im Internationalen Phonetischen Alphabet definiert. Ein zweiter Lauttyp basiert auf Fenemen,
  • wobei jedes Fenem einem entsprechenden Laut entspricht. Abfragen: Anhand eines Übungstextes wird ermittelt, wie oft jedes Label in einem Wort vorkommt. Aufgrund dieser Daten werden Tabellen erstellt, in denen jedes Label einen Pluspunkt für jedes Wort und optional jedes Label einen Minuspunkt für jedes Wort hat. Wenn ein Akustikprozessor eine Labelkette erzeugt, werden die Pluspunkte (und Minuspunkte) für jedes Wort berechnet, um einen Übereinstimmungswert zu erhalten. Das Verfahren zur Berechnung der Pluspunkte wird als "Abfragen" bezeichnet.
  • Bei einigen bekannten Ansätzen zur Spracherkennung werden Wörter als lautorientierte Markov-Modelle dargestellt, und die Eingabesprache wird nach der Umwandlung zu einer kodierten Folge von akustischen Elementen oder Labels dekodiert, indem die Labelfolgen anhand von Wahrscheinlichkeitsalgorithmen wie der Viterbi-Dekodierung diesen Modellen angepaßt werden.
  • Hintergrund A. Überblick über die Spracherkennung
  • (1) Label eines Spracheingangssignals. Eine Vorfunktion dieses Spracherkennungssystems ist die Umwandlung des Spracheingangssignals in eine kodierte Darstellung. Dies geschieht mittels eines Verfahrens, das zum Beispiel in "Continuous Speech Recognition with Automatically Selected Acoustic Prototypes Obtained by either Bootstrapping or Clustering" von A. Nadas et al., Proceedings ICASSP 1981, S5. 1153-1155 beschrieben wurde.
  • Laut dem Umwandlungsverfahren von Nadas et al wird die Spracheingabe in Zentisekundenintervalle unterteilt. Für jedes Zentisekundenintervall wird eine Spektralanalyse der Spracheingabe durchgeführt. Daraufhin wird entschieden, welchem festgelegten Spektralmuster die Zentisekunde Spracheingabe am nächsten kommt. Ein "Fenem", das anzeigt; welches Spektralmuster der Spracheingabe am nächsten kommt, wird dann diesem bestimmten Zentisekundenintervall zugeordnet. Jedes Fenem wird als eindeutiges Label dargestellt.
  • Eine Labelkette (oder Fenemkette) stellt daher aufeinanderfolgende Zentisekunden von Sprache dar, die ihrerseits Wörter bilden.
  • Eine typische endliche Menge von Labels ist in Tabelle 1 dargestellt, die dieser Spezifikation beigefügt ist. Sie umfaßt rund 200 Label, die jeweils ein akustisches Element darstellen. Diese akustischen Elemente sind kürzer als die üblichen "Phoneme", die ungefähr Vokale oder Konsonanten des Alphabets darstellen, d. h. jedes Phonem entspräche einer Folge von akustischen Elementen mit Label.
  • Ein wichtiges Merkmal dieser Labeltechnik besteht darin, daß das Verfahren automatisch auf der Grundlage des akustischen Signals gemacht werden kann und daher keine phonetische Interpretation notwendig ist. Die Einheit, die das akustische Eingangssignal in eine kodierte Darstellung in Form einer Labelkette umwandelt, wird "Akustikprozessor" bezeichnet.
  • (2) Statistische Modelldarstellung von Wörtern
  • Die Grundfunktionen eines Spracherkennungssystems, bei dem die vorliegende Erfindung angewendet werden kann, werden hier kurz anhand verschiedener Veröffentlichungen beschrieben, die ein solches System näher erläutern, insbesondere F. Jelinek, "Continuous Speech Recognition by Statistical Methods", Proceedings IEEE, Vol. 64, 1976, S5. 532-576.
  • Bei diesem System wird jedes Wort des Erkennungswortschatzes als Grundform dargestellt, bei der das Wort zu Erkennungszwecken in eine Lautstruktur unterteilt ist, d. h. in die in Fig. 1 dargestellten phonetischen Elemente. Diese Laute entsprechen allgemein Vokalen und Konsonanten wie sie in phonetischen Alphabeten generell verwendet werden. Beim Sprechen kann ein Teil eines Wortes verschiedene Aussprachen haben, wie in den parallelen Verzweigungen von Fig. 1 dargestellt. Die parallelen Verzweigungen, die zwischen Knoten verlaufen, durch die alle Verzweigungen gehen, können alternativ auch als "Clinks" oder separate herkömmliche Laute angesehen werden. Ein Clink ist laut den Grundsätzen der Erfindung ein phonetisches Ersatzelement für die hier beschriebenen Laute. Die Laute werden durch Markov-Modelle dargestellt. In Fig. 2 ist ein Markov-Beispielmodell für einen Laut abgebildet. Für jeden Laut gibt es ein entsprechendes Markov-Modell, das gekennzeichnet ist durch (a) eine Vielzahl von Zuständen (S0 ... S4), (b) Übergänge (T1 ... T10) zwischen den Zuständen und (c) Labelwahrscheinlichkeiten, die die Wahrscheinlichkeit darstellen, daß der Laut bei einem bestimmten Übergang ein bestimmtes Label erzeugt. Bei einem Ausführungsbeispiel sind jedem Übergang im Markov-Modell zweihundert gespeicherte Labelwahrscheinlichkeiten zugeordnet, wobei jede die Wahrscheinlichkeit darstellt, daß jedes Label (von 200 Labels) bei einem bestimmten Übergang von dem Laut erzeugt wird. Verschiedene Laute werden in ihrem jeweiligen Markov-Modell durch Unterschiede bei den Labelwahrscheinlichkeiten unterschieden, die den verschiedenen Übergängen zugeordnet sind. Die Anzahl der Zustände und Übergänge dazwischen kann variieren, doch diese Faktoren bleiben vorzugsweise unverändert, und die gespeicherten Labelwahrscheinlichkeiten ändern sich.
  • Bei dem Markov-Modell von Fig. 2 befindet sich eine Labelkette SX1-SX3-SX5-SH2 (aus Tabelle 2) in der dargestellten Reihenfolge im Lautmodell. Die Wahrscheinlichkeit, daß jedes Label bei dem Übergang, an dem es dargestellt ist (z. B. SX1 beim Übergang T1), erscheint, wird anhand der entsprechenden gespeicherten Labelwahrscheinlichkeit bestimmt. Die Lautmodelle mit den höchsten Labelwahrscheinlichkeiten für die Labels in der Kette sind mit größter Wahrscheinlichkeit die Laute, die die Kette erzeugt haben.
  • Die Labels in Fig. 2 stellen somit von Label zu Label von Übergang zu Übergang eine Kontinuität dar, was eine einfache 1 : 1-Anpassung zwischen Kettenlabel und Übergang ermöglicht, wobei das Markov-Modell von Fig. 2 auch andere Anpassungen ermöglicht. Anhand des Markov-Modells von Fig. 2 kann demnach auch bestimmt werden, daß ein Laut wahrscheinlich ist, auch wenn mehr Labels, weniger Labels oder sogar unterschiedliche Labels bei dem Lautmodell angewendet werden. Neben Übergängen von einem Zustand zum anderen gibt es auch Übergänge (T5, T6, T7), die zu dem Zustand zurückgehen, der gerade verlassen wurde. Daneben gibt es Zustände (T8, T9, T10), die einen benachbarten Zustand überspringen. Das Markov-Modell gewährleistet dadurch, daß verschiedene Aussprachen eines Lautes in demselben grundlegenden Markov-Modell untergebracht werden können. Wenn ein Klang zum Beispiel gedehnt wird (langsamer Sprecher), so daß dasselbe akustische Element anstatt nur einmal mehrmals erscheint, ermöglicht die Markov- Modelldarstellung mehrere Übergänge zurück zu demselben Zustand, wodurch das mehrfache Auftreten des akustischen Elements gewährleistet ist. Wenn jedoch ein akustisches Element, das normalerweise zu einem Laut gehört, in einer bestimmten Aussprache nicht erscheint, kann der entsprechende Übergang des Modells übersprungen werden.
  • Jeder mögliche Pfad (Markov-Kette) von dem Anfangszustand zu dem Endzustand des Markov-Modells (einschließlich mehrere Rückkehrübergänge T5, T6 oder T7) stellt eine Aussprache des Wortes (oder Lautes) dar, wobei jedem Übergang ein akustisches Element oder Label zugeordnet ist.
  • Bei der vorliegenden Erfindung werden Labelketten an Markov- Modelle "angepaßt", indem Labels in der Kette Übergängen in einem Pfad durch das Modell zugeordnet werden; dadurch werden die Wahrscheinlichkeiten jedes Labels an dem zugeordneten Übergang auf der Grundlage von gespeicherten Labelwahrscheinlichkeiten, die durch frühere Erfahrungen oder Training (siehe nachfolgende Erklärung) erstellt wurden, bestimmt. Ein Kette von Markov-Modellen mit der höchsten Wahrscheinlichkeit identifiziert das Wort, das als Ausgabe ausgewählt werden wird.
  • Die Grundformen der Wörter und die grundlegenden Markov- Modelle der Laute können wie in der genannten Literatur beschrieben auf verschiedene Weise abgeleitet und definiert werden. Die Modelle können von einem Linguisten erstellt oder automatisch anhand von statistischen Verfahren festgelegt werden. Da das Erstellen der Modelle nicht Teil der Erfindung ist, wird nicht näher darauf eingegangen.
  • Anstatt Wörter zuerst durch eine Folge von Markov-Lautmodellen darzustellen, könnten diese auch direkt durch Markov- Wortmodelle dargestellt werden - wie durch eine Folge von Zuständen und Übergängen, die die grundlegende Kette von akustischen Elementen für das gesamte Wort darstellen.
  • Nach der Strukturierung der grundlegenden Modelle, die die Wörter in einem Wortschatz darstellen, müssen die Modelle noch trainiert werden, um ihnen die Statistiken (z. B. Labelwahrscheinlichkeiten) für die Aussprache aller Wörter im Wortschatz zu liefern. Zu diesem Zweck wird jedes Wort mehrmals ausgesprochen, und die Labelkette, die sich für jede Aussprache ergibt, wird an das entsprechende Wortmodell "angepaßt", d. h. es wird bestimmt, wie sich die entsprechende Labelkette durch Durchlaufen des Modells ergibt, und für die entsprechenden Übergänge werden Zählwerte ermittelt. Für jeden Laut und damit für jedes Wort als Kombination von Lauten wird ein statistisches Markov-Modell entwickelt. Anhand des Markov- Modells kann bestimmt werden, mit welcher Wahrscheinlichkeit jede der verschiedenen Labelketten durch die Aussprache eines bestimmten Wortes des Wortschatzes auftritt. In Fig. 3 ist eine Speichertabelle mit einem solchen statistischen Markov- Modell abgebildet, das in einem späteren Abschnitt näher erläutert wird.
  • Für die eigentliche Spracherkennung wird das Sprachsignal vom Akustikprozessor in eine Labelkette umgewandelt, die dann mit den bestehenden Wortmodellen "abgeglichen" wird. Dazu wird ein spezielles Verfahren, der Viterbi-Algorithmus (der kurz in dem oben genannten Artikel von Jelinek und eingehend in einem Artikel von G.D. Forney, "The Viterbi Algorithm", Proceedings, IEEE, Vol. 61, 1973, SS. 268-278 beschrieben ist), verwendet, und das Ergebnis ist ein Wahrscheinlichkeitsvektor für jedes "nahe" Wort, das zu der gegebenen Labelfolge geführt haben kann. Die eigentliche Ausgabe, d. h. die Identifizierung eines Wortes, das als Erkennungsausgabe genommen wird, wird dadurch ermittelt, daß das Wort ausgewählt wird, dessen Wahrscheinlichkeit die höchsten erzeugten Wahrscheinlichkeitsvektoren hat.
  • Die Bewertung von Lautwahrscheinlichkeiten ist ein wesentlicher Teil der "Angleichung". Die Erkennung erfolgt normalerweise im Rahmen einer maximalen Wahrscheinlichkeit, bei der alle Wörter des Wortschatzes als eine Lautfolge dargestellt werden, und die Wahrscheinlichkeit eines bestimmten Akustikmerkmalvektors, der vom Laut abhängt, wird berechnet (z. B. P (Akustik/Laut). Der Erkennungsprozeß geht davon aus, daß ein bestimmtes Wort im Wortschatz das richtige Wort ist und berechnet wie oben beschrieben eine Wahrscheinlichkeitstrefferzahl für dieses Wort; in der Folge wird dies für alle Wörter des Wortschatzes gemacht, und die akustische Trefferzahl wird mit einer Trefferzahl von einem Sprachmodell kombiniert, wobei das Wort mit der höchsten kombinierten Trefferzahl als das richtige ausgewählt wird.
  • Die Wahrscheinlichkeit P (Akustik/Laut) stimmt mit der Wahrscheinlichkeit überein, daß der aktuelle Zustand des Markov-Modells für den Laut derzeit den beobachteten Akustikvektor hervorbringt, und diese Wahrscheinlichkeit wird über mehrere Zeitrahmen hinweg akkumuliert, bis das kumulative Produkt unter einen definierten Schwellenwert fällt, bei dem davon ausgegangen wird, daß der Laut zu Ende ist und der nächste Laut angefangen hat. Bei dieser Technik ist es möglich, daß bei der Berechnung der Trefferzahl auch Rahmen berücksichtigt werden, die bei der Berechnung der Trefferzahl für den Laut nicht zu dem aktuellen Laut gehören. Dieses Problem kann umgangen werden, wenn die Anfangs- und Endzeiten eines Lautes mit größerer Sicherheit bekannt sind. Eine Technik zur Schätzung der Grenzpunkte wird in "Transform Representation of the Spectra of Acoustic Speech Segments with Applications - I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, SS. 180-195, Vol. 1, Nr. 2, April 1993 beschrieben, bei der die relative Variation zwischen aufeinanderfolgenden Rahmen zugrundegelegt wird; in rechnerischer Hinsicht ist dies jedoch sehr kostspielig, und die Technik stößt angesichts des Umfangs des betrachteten akustischen Kontexts an seine Grenzen.
  • Bei einigen Spracherkennungssystemen wird die "Angleichung" in zwei Stufen vorgenommen. Bei der ersten Stufe stellt der Dekoder eine kurze Liste von Kandidatenwörter aus dem 20K- Wortschatz bereit. In der Folge werden genaue Modelle der Wörter dieser kurzen Liste dazu verwendet, um das Wort an das akustische Signal anzugleichen, und das Wort mit der höchsten Trefferzahl wird ausgewählt. Der Prozeß zur Bestimmung der kurzen Liste, auch schnelle Angleichung genannt (siehe die US- Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model"), baut die phonetischen Grundformen der Wörter eines Wortschatzes in Form eines Baumes auf, durchläuft diesen Baum nach unten, berechnet eine Trefferzahl für jeden Knoten und schließt Pfade aus, deren Trefferzahl unter einem bestimmten Schwellenwert liegen. Ein Pfad umfaßt eine Lautfolge und oft muß die Trefferzahl für verschiedene Laute berechnet werden, bevor entschieden werden kann, ob der Pfad ausgeschlossen wird. In einer früheren Erfindung ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) wurde ein Verfahren beschrieben, bei dem ein falscher Pfad durch die Beobachtung der Ausgabe einer Kanalbank sehr frühzeitig ausgeschlossen werden kann, was die Kosten für die Berechnung der Trefferzahlen für die restlichen Laute auf dem Pfad senkt. In "Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114, Vol. 37, Nr. 02A, Feb. 1994 wurden die Kanalbankausgaben "blind" berechnet, da keine Informationen über die Anfangs- und Endzeiten eines Lautes in der akustischen Labelfolge vorlagen. Bei dieser Erfindung beschreiben wir ein Verfahren, das die Ausgaben der Kanalbank intelligenter berechnet, damit zu einer Verringerung der allgemeinen Fehlerquote führt und die Berechnungszeit der schnellen Angleichung reduziert. Entsprechend wird ein Verfahren nach den Ansprüchen 1 und 4 und eine Vorrichtung nach den Ansprüchen 6 und 9 vorgestellt.
  • Die Erfindung schlägt eine andere Technik vor, um Phonemgrenzen vorherzusagen, die es ermöglichen, einen größeren akustischen Kontext zu verwenden, um vorherzusagen, ob die gegenwärtige Zeit eine Phonemgrenze ist. Die Erfindung wendet dazu ein nicht lineares Verfahren auf Entscheidungsbaumbasis an. Die quantizierten Merkmalvektoren zur und in unmittelbarer Nähe der gegenwärtigen Zeit dienen dazu, die Wahrscheinlichkeit vorherzusagen, daß die gegenwärtige Zeit eine Phonemgrenze ist, wobei der Vorhersagemechanismus ein Entscheidungsbaum ist. Der Entscheidungsbaum setzt sich aus Trainingsdaten aus binären Fragen über die Prädiktoren zusammen, so daß die Unsicherheit über die vorhergesagte Klasse durch das Stellen der Frage verringert wird. Die Größe des Klassenalphabets beträgt 2, und die Technik von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc., 1984 wird dazu verwendet, um Fragen für jeden Prädiktor zu formulieren.
  • Die Erfindung beschreibt ferner eine Technik, um den Suchraum des Spracherkennungssystems noch weiter zu verkleinern. Dabei wird von der Annahme ausgegangen, daß die Phonemgrenzen bekannt sind, so daß es möglich ist, die Trefferzahl für alle Laute in dem Segment zwischen zwei Phonemgrenzen und den Rang des richtigen Lautes in diesem Segment zu berechnen. Ideal wäre es natürlich, wenn der richtige Laut auf dem ersten Rang wäre, und es sollte möglich sein, alle Laute mit Ausnahme des obersten Lautes aus dem Suchraum zu entfernen. In der Realität können die vektor-quantizierten Akustikmerkmalvektoren aufgrund von Mehrdeutigkeiten bei der akustischen Modellierung den Ton oder den Laut, der in dem Segment geäußert wurde, nicht darstellen. Der Rang des richtigen Lautes kann in manchen Segmenten daher schlecht getroffen sein.
  • Die Erfindung beschreibt außerdem ein Verfahren auf der Basis eines Entscheidungsbaums zur Voraussage der schlechtest möglichen Klasse des korrekten Phonems zwischen zwei hypothetischen Phonemgrenzen. Sobald diese schlechtest mögliche Klasse bekannt ist, werden alle Phoneme, die sich in Klassen unterhalb der schlechtest möglichen Klasse befinden, aus dem Suchbereich des Erkennungsmittels entfernt, wodurch große Rechenressourcen eingespart werden. Es wird darauf hingewiesen, daß dieses Verfahren unabhängig vom Verfahren zur Berechnung der Trefferzahl eines Phonems ist. Typische Systeme sind (a) die gewöhnliche Berechnung auf der Grundlage des Markov-Modells, (b) die Berechnung auf der Grundlage einer sogenannten Kanalbank gemäß Beschreibung in ["Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994] und (c) ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums gemäß Beschreibung in der gleichzeitig schwebenden US-Patentanmeldung von D. Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based pruning strategy for the Acoustic Fast Match, IBM Attorney Docket YO 996-059] oder jeder andere Trefferzahlmechanismus.
  • Die im Entscheidungsbaum verwendeten Prädiktoren sind, wie bereits zuvor, die quantisierten Vektoren der akustischen Merkmale zum aktuellen Zeitpunkt oder etwa zu diesem Zeitpunkt, und die vorausgesagte Quantität ist die schlechtest mögliche Klasse des korrekten Phonems zum aktuellen Zeitpunkt. Der Entscheidungsbaum wird aus Trainingsdaten aufgebaut, indem Binärfragen über die Prädiktoren entworfen werden, die gestellt werden, während der Entscheidungsbaum Knoten für Knoten nach unten durchlaufen wird. Die Fragen sind so ausgelegt, daß sie die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränken. Im Gegensatz zum vorherigen Fall der Grenzschätzung entspricht jedoch die Größe des Klassenalphabets genau der Anzahl an Phonemen, wobei diese Anzahl normalerweise viel größer als 2 ist, und das in ["Method and Apparatur for Ginding the Best Splits in a Decision Tree for a Language Model for a Speech Recognizer, U.S. Patent 5263117] beschriebene Verfahren wird verwendet, um die Fragen für jeden Knoten zu formulieren.
  • Das Ziel der vorliegenden Erfindung besteht darin, die gegebenen vektorquantisierten Eigenschaftsvektoren zum aktuellen Zeitpunkt t und die auf jeder Seite liegenden N Zeitrahmen heranzuziehen und zwei Entscheidungsbäume zu entwerfen. Der erste Entscheidungsbaum müßte angeben, mit welcher Wahrscheinlichkeit der aktuelle Rahmen eine Phonemgrenze ist, und der zweite Entscheidungsbaum müßte eine Verteilung über alle möglichen Klassen angeben, die das richtige Phonem zu diesem Zeitpunkt einnehmen kann und aus der sich die schlechtest mögliche Klasse des aktuellen Phonems ableiten läßt.
  • Es wird ein Entscheidungsbaum, in dem an jedem Knoten die Frage richtig oder falsch (also binär) gestellt wird, und mit einer Wahrscheinlichkeitsverteilung an jedem Blatt erstellt. Beginnend an der Wurzel des Baums erfolgt durch Beantwortung einer Frage an jedem Knoten und danach durch Verfolgung eines ersten oder zweiten Zweigs (je nach dem, ob die Antwort richtig oder falsch lautet) ein Verlauf in Richtung eines Blatts. Die Frage an jedem Knoten wird in Abhängigkeit der verfügbaren Daten gestellt (also Wörter, die bereits gesprochen wurden) und ist so formuliert, daß die Wahrscheinlichkeitsverteilung an den Blättern so viele Informationen wie möglich über die vorausgesagte Quantität liefert.
  • Ein wichtiges Ziel der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens für den Entwurf und den Aufbau eines binären Entscheidungsbaums mit den Fragen richtig oder falsch an jedem Knoten, beginnend an der Wurzel des Baums und in Richtung eines Blatts laufend.
  • Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums mit Fragen zu den verfügbaren bekannten Daten, die so formuliert sind, daß durch die Wahrscheinlichkeitsverteilung an den Blättern möglichst viele Informationen über die vorausgesagte Quantität gewährleistet sind.
  • Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums, der hauptsächlich zur Sprachmustererkennung verwendet wird.
  • Weitere Ziele der vorliegenden Erfindung werden deutlich, wenn die nachfolgende Beschreibung in Verbindung mit den beiliegenden Zeichnungen gelesen wird.
  • Die vorliegende Erfindung hat folgende Merkmale:
  • (a) In der akustischen Labelsequenz werden unter Verwendung eines Entscheidungsbaums und der anhängigen Labels die Phonemgrenzpunkte geschätzt, das heißt, im Kontext der Labels auf beiden Seiten des aktuellen Labels wird die Entscheidung getroffen, ob das aktuelle Etikett den Grenzpunkt zwischen zwei Phonemen darstellt. Im übrigen Teil dieser Beschreibung wird der Begriff "Segment" verwendet, um das Zeitintervall zwischen zwei Grenzpunkten zu bezeichnen.
  • (b) Eine Trefferzahl für alle möglichen Phoneme wird lediglich auf der Grundlage des Labels in einem Segment berechnet, das heißt, auf der Grundlage der Wahrscheinlichkeiten gemäß Entscheidungsbaum, der in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994) beschrieben wird. Wie an früherer Stelle bereits angeführt wurde, könnten auch andere Trefferzahlmechanismen verwendet werden, um die Trefferzahl für ein Phonem zu berechnen. Die Phoneme werden als nächstes entsprechend ihrer Trefferzahl klassifiziert.
  • (c) Es wird entschieden, daß alle Phoneme oberhalb einer bestimmten Klasse "gute" Phoneme sind, die im betrachteten Zeitsegment möglich sind, und daß die Phoneme unterhalb dieser Schwelle "schlechte" Phoneme sind, die im betrachteten Zeitsegment nicht möglich sind. Die Schwellenklasse ist nicht unveränderlich festgelegt, sondern ist abhängig von der Labelsequenz im aktuellen Segment und im danebenliegenden Segment, und wird unter Verwendung eines Entscheidungsbaums eingeholt. Die Entscheidung wird auf der Grundlage des Labels am Anfang des Segments und dem auf jeder Seite danebenliegenden Label getroffen.
  • (d) Um Fehler durch sogenanntes "Ausästen" des Baums zu vermeiden, wird nun unter Verwendung von Phonemklassen die Anzahl der Kandidatenphoneme erhöht, das heißt, für jedes verwechselbare Phonem wird anhand der Trainingsdaten eine Liste erstellt. Bei der Dekodierung werden bei jedem "guten" Phonem, das aus Schritt (c) hervorgegangen ist, alle Phoneme in der Verwechslungsklasse des "guten" Phonems ebenfalls als "gute" Phoneme bezeichnet.
  • (e) Eine andere Möglichkeit als die Entfernung aller "schlechten" Phoneme aus dem Suchbereich ist die sogenannte Bestrafung der Trefferzahl für diese schlechten Phoneme in allen nachfolgenden Berechnungen im schnellen Vergleich. All das wird vor dem eigentlichen schnellen Vergleich vorausberechnet.
  • Die Implementierung des Algorithmus in den Dekoder findet in den beiden folgenden Schritten statt:
  • Anhand einer Sequenz von Labels findet folgende Vorausberechnung vor dem schnellen Vergleich statt: zuerst erfolgt eine Berechnung der Phonemwahrscheinlichkeiten anhand eines Entscheidungsbaums gemäß Beschreibung in ("Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994). Danach werden die Grenzpunkte der Phoneme in der akustischen Labelsequenz unter Verwendung des oben beschriebenen Entscheidungsbaums auf der Grundlage der Wahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) bestimmt und die Klassen verschiedener Phoneme innerhalb aller Segmente berechnet. Danach wird die Schwellenklasse, die in jedem Segment angewendet werden sollte, ermittelt, indem der zweite oben beschriebene Entscheidungsbaum durchlaufen wird. Die oberhalb des Schwellenwerts liegenden Phoneme und die Phoneme in Vereinigung mit ihren Konfusionsklassen werden daraufhin als "gute" Phoneme bezeichnet, während die übrigen als "schlechte" Phoneme bezeichnet werden. Anschließend werden die Wahrscheinlichkeiten für die "schlechten" Phoneme im gegebenen Segment bestraft. Diese Bestrafung erfolgt sowohl mit den Phonemwahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) als auch mit den akustischen Wahrscheinlichkeiten des schnellen Vergleichs.
  • Danach wird der Entscheidungsbaum des schnellen Vergleichs unter Verwendung der geänderten obigen Wahrscheinlichkeiten mit Hilfe der Verfahren, die in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994, "Transform Representation of the Spectra of Acoustic Speech Segments with Applications -I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, PP. 180-195, vol. 1, no. 2, April 1993) beschrieben sind, ausgeästet.
  • Somit bestehen die Trainingsdaten, die für den Aufbau des Entscheidungsbaums verwendet werden, aus Gruppen von Aufzeichnungen von 2N+1 Prädiktoren (bezeichnet durch die Indizes -N, ...0, ...N) und der Klasse mit dem Index 0 (die als bekannt angenommen wird). Die entsprechende Klasse ist im Fall des ersten Entscheidungsbaums eine binäre Aufzeichnung, die angibt, ob der Rahmen an Index 0 eine Phonemgrenze ist. Die entsprechende Klasse ist im Fall des zweiten Entscheidungsbaums die Klasse des korrekten Phonems am Index 0. Die Alphabetklasse jedes Prädiktors geht in die hunderte, und die Klassenalphabetgröße ist entweder 2 im Fall des ersten Entscheidungsbaums oder normalerweise etwa 50 im Fall des zweiten Entscheidungsbaums. Die vorliegende Erfindung verwendet das nachfolgend beschriebene Verfahren, um die beiden Entscheidungsbäume aufzubauen (es wird darauf hingewiesen, daß die beiden Bäume unabhängig voneinander aufgebaut werden).
  • Die Erfindung verwendet eine aufeinanderfolgende Datenpartitionierungs- und -suchstrategie, um die Fragen des Entscheidungsbaums zu bestimmen. Beginnend mit allen Trainingsdaten an der Wurzel des Entscheidungsbaums wählt die Erfindung einen der 2N+1-Prädiktoren und partitioniert das Alphabet des Prädiktors in zwei nicht-überlappende Gruppen. Für alle Trainingsaufzeichnungen am aktuellen Knoten wird die Aufzeichnung der ersten Gruppe zugeordnet, wenn der Wert des gewählten Prädiktors in der ersten Gruppe liegt; andernfalls wird sie der zweiten Gruppe zugeordnet. Somit werden die Trainingsdaten am aktuellen Knoten auf der Grundlage der Gruppenzugehörigkeit des ausgewählten Prädiktors zwischen zwei Kindknoten verteilt. Der Prädiktor und die Partitionierung des Alphabets werden so gewählt, daß, nachdem die Trainingsdaten in der oben beschriebenen Weise partitioniert wurden, die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt wird. Diese Vorgehensweise wird für jedes Kind des aktuellen Knotens wiederholt, bis die Klassenungewißheit an einem Knoten (die durch die Entropie der Klassenverteilung am Knoten quantifiziert wird) unter einen bestimmten Wert fällt oder bis die Menge der Trainingsdaten an einem Knoten unter einen bestimmten Wert fällt. Nachdem der Entscheidungsbaum aufgebaut ist, ist die Klassenverteilung an den Abschlußknoten des Baums verfügbar und wird zusammen mit den Fragen des Baums gespeichert.
  • Für den Fall des ersten Entscheidungsbaums gibt die gespeicherte Menge einfach die Wahrscheinlichkeit an, mit der der Knoten eine Phonemgrenze ist. Für den Fall des zweiten Entscheidungsbaums ist die an den Knoten des Entscheidungsbaums verfügbare Menge eine Verteilung über alle möglichen Klassen, in denen das korrekte Phonem sein kann. Diese Verteilung wird in eine Zahl umgewandelt, eine Klasse für den schlimmsten Fall, so daß die Wahrscheinlichkeit, daß die Klasse des korrekten Phonems besser ist als die Klasse des schlimmsten Falls, am Knoten des Entscheidungsbaums gespeichert wird.
  • Für den Fall eines einzelnen Prädiktors und einer Klasse beschreiben Nadas und Nahamoo (US-Patent 5236117) ein Verfahren zur Suche der besten binären Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt. Am aktuellen Knoten wird dieses Verfahren unabhängig von jedem der 2N+1-Prädiktoren angewandt und die beste Frage für diesen Prädiktor bestimmt. Danach wird der beste 2N+1-Prädiktor als derjenige bestimmt, der die Ungewißheit der Klassenzugehörigkeit am weitesten reduziert, und die Frage am aktuellen Knoten wird als beste Frage für diese Voraussage formuliert. Die Frage an einem Knoten könnte aber auch komplexer gestaltet werden, so daß sie von mehr als einem Prädiktor abhängig ist, oder es könnte ein Bestand an festen komplexen Fragen verwendet und die beste Frage als diejenige Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt, gewählt werden.
  • Ein weiteres Ziel der vorliegenden Erfindung besteht darin, ein Mittel zu beschreiben, durch das sich der oben beschriebene Entscheidungsbaum in einem Spracherkennungsmittel verwenden läßt. Während der Spracherkennung wird der erste Entscheidungsbaum durchlaufen, bis er einen der Endknoten erreicht, und die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, geht aus dem Endknoten des Entscheidungsbaums hervor. Dieser Wert wird mit einem vorbestimmten Schwellenwert verglichen, und wenn er größer ist als der Schwellenwert, dann wird von der Hypothese ausgegangen, daß die aktuelle Zeit ein Grenzpunkt ist. Anschließend wird für alle Zeitrahmen zwischen zwei hypothetischen Phonemgrenzen der zweite Entscheidungsbaum durchlaufen, und die Klasse des schlimmsten Falls für das korrekte Phonem geht für alle diese Zeitrahmen aus dem Endknoten des Entscheidungsbaums hervor. Die schlimmste aller Klassen des schlimmsten Falls wird als Klasse des schlimmsten Falls des korrekten Phonems in diesem Segment herangezogen. Danach werden die Trefferzahl für alle Phoneme auf der Grundlage dieses Segments berechnet und die Phoneme entsprechend ihrer Trefferzahl klassifiziert. Anschließend werden die Phoneme, die unterhalb der Klasse des schlimmsten Falls eingestuft werden, aus der Suche herausgenommen, so daß eine Kurzliste zulässiger Phoneme für jedes Segment zwischen zwei hypothetischen Phonemgrenzen entsteht. Diese Liste läßt sich weiter erhöhen, indem Phoneme herangezogen werden, die untereinander verwechselbar sind, und indem jedes Element einer "Verwechselbarkeitsliste" in die Kurzliste einbezogen wird, immer wenn ein Element aus der Verwechselbarkeitsliste über der Klasse des schlimmsten Falls eingestuft wird.
  • Diese Information wird im Rahmen mit der höchsten Wahrscheinlichkeit verwendet, um zu bestimmen, ob ein Vergleich für ein gegebenes Wort durchgeführt werden soll, indem der Suchbereich des Erkennungsmittels auf die Kurzliste beschränkt wird und sich nicht mehr auf das gesamte Alphabet bezieht. Vor dem Vergleich für ein gegebenes Phonem in einem Wort wird die oben definierte Kurzliste daraufhin geprüft, ob das Phonem möglicherweise zur gegebenen Zeit auftreten kann, und wenn das Phonem in der Kurzliste nicht enthalten ist, dann wird der Vergleich für das aktuelle Wort nicht einbezogen.
  • Das Verfahren und die Vorrichtung in Übereinstimmung mit der vorliegenden Erfindung sind vorteilhaft, weil (a) sie eine schnelle und akkurate Möglichkeit bieten, Phonemgrenzen zu schätzen, indem sie ermöglichen, daß ein Vergleich eines Phonems innerhalb genau definierter Grenzen stattfindet, was zu einer höheren Genauigkeit führt, (b) sie eine schnelle und akkurate Möglichkeit bieten, die Klassengrenzen des korrekten Phonems zu schätzen, ohne Kenntnisse über die Identität des korrekten Phonems zu benötigen, wodurch es möglich ist, eine Kurzliste zulässiger Phoneme zu erstellen, was wesentlich dazu beiträgt, den Suchbereich des Spracherkennungsmittels zu reduzieren. Darüber hinaus ist der Zusatzaufwand für das Durchlaufen der beiden Entscheidungsbäume vernachlässigbar, da die im Entscheidungsbaum gestellten Fragen lediglich die Gruppenzugehörigkeit des ausgewählten Prädiktors betreffen.
  • Fig. 1 ist eine Darstellung phonetischer Grundformen für zwei Wörter;
  • Fig. 2 ist eine schematische Darstellung eines Markov-Modells für ein Phonem;
  • Fig. 3 zeigt ein Teilbeispiel einer Tabelle, die ein statistisches Markov-Modell darstellt, das durch verschiedene Ausdrücke geschult wurde.
  • Fig. 4 ist ein Flußdiagramm, welches ein Verfahren für den Aufbau eines Entscheidungsbaums zur Voraussage der Wahrscheinlichkeitsverteilung einer Klasse zu einem gegebenen Zeitpunkt in Übereinstimmung mit der vorliegenden Erfindung beschreibt.
  • Fig. 5 ist eine schematische Darstellung für den Aufbau eines Entscheidungsbaums.
  • Fig. 6 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
  • Fig. 7 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
  • Fig. 4 ist ein Flußdiagramm, das das Verfahren zum Aufbau eines Entscheidungsbaums zur Voraussage einer Wahrscheinlichkeitsverteilung der Klassenwerte zum Zeitpunkt t anhand der quantisierten Eigenschaftsvektoren zu den Zeitpunkten t-N, t-N+1, ..., t, t+N abbildet. Zum Zweck der Beschreibung der Arbeitsweise der vorliegenden Erfindung werden die quantisierten Eigenschaftsvektoren fortan als Labels bezeichnet. Die im Entscheidungsbaum verwendeten Prädiktoren sind die Labels zu den Zeitpunkten t-N, ..., t..., t+N, dargestellt als 1-N, ... 1&sup0;, ..., 1+N, und die vorausgesagte Menge ist entweder eine Verteilung über zwei Klassen wie im Fall des grenzerkennenden Entscheidungsbaums, das heißt, die Wahrscheinlichkeit, daß der Zeitpunkt t eine Phonemgrenze ist, oder eine Verteilung über alle möglichen Klassen des korrekten Phonems zum Zeitpunkt t, wie im Fall des klassenerkennenden Entscheidungsbaums. die Größe des Klassenalphabets im zweiten Fall ist gleich der Größe des Phonemalphabets, das als P bezeichnet wird. Die Größe des Labelalphabets wird als L bezeichnet. Normalerweise reicht P von 50-100, und L geht in die hunderte; zum Zweck der Beschreibung der vorliegenden Erfindung gehen wir jedoch von der Annahme aus, daß L = 4, P = 3 und N = 1 ist. Wir stellen diese vier Prädiktorwerte als 1&sub1;, 1&sub2;, 1&sub3; und 1&sub4; und die 3 Klassenwerte als p&sub1;, p&sub2; und p&sub3; dar. Das nachstehend beschriebene Verfahren verwendet die Vorgehensweise von [1], um die Binärpartitionierung des Prädiktoralphabets an einem Knoten des Entscheidungsbaums zu bestimmen, die geeignet ist für den Fall des klassenerkennenden Entscheidungsbaums, wo die Anzahl der Klassen größer ist als 2. Bei dem grenzenerkennenden Entscheidungsbaum jedoch, bei dem die Anzahl der Klasse 2 ist, läßt sich die US-Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model" auf die einfachere optimale Strategie von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc. 1984 reduzieren.
  • Die Trainingsdaten bestehen aus einer Reihe von transkribierten Sätzen, wobei die akustische Version jedes Satzes in eine Labelfolge quantiziert wird. Bei der Transkription der Daten ist es des weiteren möglich, jedem Zeitrahmen einen Klassenwert zuzuordnen.
  • Wenn das Ereignis 1pk als ein Ereignis definiert wird, bei dem der Wert des Prädiktors 1k 1i und der Klassenwert p ist, wird als nächstes eine Konfusionsmatrix erzeugt (Block 2), die die Zählungen aller möglichen Ereignisse (1ik, p) aufzählt. Die Matrix hat L-Reihen und P-Spalten, und der Eintrag, der der i- ten Reihe und j-ten Spalte entspricht, stellt dar, wie oft der Wert des Prädiktors 1k bei den Trainingsdaten des aktuellen Knotens des Entscheidungsbaums (beim Wurzelknoten werden alle Trainingsdaten verwendet) gleich 1i ist, wenn der Klassenwert Pj ist. Die Zählungen werden dann in gemeinsame Wahrscheinlichkeiten umgewandelt, indem die Summe aller Einträge in die Matrix berechnet und anschließend jeder Eintrag der Matrix durch diese Summe dividiert wird. Da 2N+1- Prädiktoren vorhanden sind, können 2N+1 gemeinsame Verteilungsmatrixe erzeugt werden, eine für jeden Prädiktor. Ein Beispiel für diese gemeinsamen Verteilungsmatrizen ist in Tabelle 2 für die 3 Prädiktoren 1&supmin;¹, 1&sup0; und 1&spplus;¹ dargestellt. TABELLE 2
  • In Block 3 beginnen wir mit der gemeinsamen Verteilung des kten Prädiktors 1k und der Klasse p und erzeugen mit Hilfe des oben beschriebenen Verfahrens der US-Patentschrift 5236117 eine binäre Partitionierung SLkopt, SLkopt der Werte des Prädiktors 1k. Für jeden Prädiktor wird mit anderen Worten das Prädiktoralphabet [11, 12, 13, 14] in zwei ergänzende Reihen, SLkopt und SLkopt (zum Beispiel SLkopt = [1&sub1;, 1&sub2;] und SLkopt = [1&sub3;, 1&sub4;]), partitioniert, wobei das Kriterium für die Auswahl der Partitionierung die Minimierung der Klassenunbestimmtheit ist. Die Entropie der Klassenverteilung wird als Maß für die Unbestimtheit verwendet. Das Verfahren wird im einzelnen in der US-Patentschrift 5236117 beschrieben. Der Prozeß wird von jedem Prädiktor unabhängig durchgeführt. Bei dem genannten Beispiel führt eine Iteration des Verfahrens der US-Patentschrift 5236117, Spalte 4, Zeile 30-Spalte 9, Zeile 25 zu einer fast optimalen Partitionierung der verschiedenen Prädiktoren:
  • Für jeden der Prädiktoren 1k können die Trainigsdaten beim aktuellen Knoten auf der Grundlage der Partitionierung SLkopt, SLkopt in zwei Teile geteilt werden, und die Wahrscheinlichkeit dieser beiden Kindknoten ergibt sich wie folgt:
  • und
  • Die auf der Partitionierung beruhende Klassenverteilung an den beiden Kindknoten kann wie folgt berechnet werden:
  • und
  • Die Entropie für jeden der Kindknoten kann wie für den Elternknoten berechnet werden, und die durchschnittliche Entropie der beiden Kindknoten kann berechnet werden als
  • Die Werte für dieses Beispiel sind in Tabelle 4 unten dargestellt.
  • In Block 4 wird die Reduzierung der Klassenunbestimmtheit in Verbindung mit der besten Frage für jeden Prädiktor berechnet, und der Prädiktor mit der größten Reduzierung der Unbestimmtheit wird ausgewählt. Die Reduzierung der Unbestimmtheit aufgrund einer Partitionierung basierend auf SLkavg wird als H(p-H k a v g) berechnet. In dem betrachteten Beispiel haben wird H (p) = 1,58, H&supmin;¹a v g = 1,455, H&sup0;a v g = 1,409 und H&spplus;¹a v g = 1,470. Der ausgewählte Prädiktor ist somit 1&sup0;, da dies die maximale Reduzierung der Unbestimmtheit der vorausgesagten Klasse ergibt.
  • In Block 5 werden die Trainingsdaten beim aktuellen Knoten auf der Grundlage der optimalen Partitionierung des beim aktuellen Knoten ausgewählten Prädiktors in zwei Teile geteilt. Abhängig von der Klassenunbestimmtheit und dem Umfang der Trainingsdaten beim Kindknoten geht der Prozeß anschließend zurück zu Block 2 und beginnt nur auf der Grundlage der Trainingsdaten beim Kindknoten erneut mit der Neuberechnung der gemeinsamen Verteilung. Die Verarbeitung bei einem Kindknoten endet, wenn die Klassenunbestimmtheit beim Kindknoten unter einen festgelegten Schwellenwert fällt oder wenn der Umfang der Trainingsdaten bei einem Kindknoten unter einen festgelegten Schwellenwert fällt.
  • In Fig. 5 ist schematisch eine Vorrichtung zum Aufbau des Entscheidungsbaums dargestellt. Die Vorrichtung kann zum Beispiel aus einem entsprechend programmierten Computersystem bestehen. Bei diesem Beispiel besteht die Vorrichtung aus einem allgemeinen digitalen Prozessor 8 mit einer Tastatur 9 zur Dateneingabe, einer Anzeige 10, einem Direktzugriffsspeicher 11 und einer Speichereinheit 12. Der Prozessor 8 berechnet anhand der Trainingsdaten die gemeinsame Verteilung des Prädiktors 1k und den Klassenwert p für den ersten Entscheidungsbaum für alle 2n+1-Prädiktoren unter Verwendung aller Trainingsdaten und speichert die geschätzte gemeinsame Verteilung zusammen mit der Klassenverteilung in der Speichereinheit 12.
  • Als nächstes berechnet der Prozessor 8 nach dem Algorithmus der US-Patentschrift 5236117 die beste Partitionierung jedes Prädiktorwerts, so daß die maximale Reduzierung der Klassenbestimmtheit aufgrund der Partitionierung erreicht wird. Der Prozessor 8 wählt den besten Prädiktor 1* aus und teilt die Trainingsdaten aufgrund der besten Partitionierung für den Prädiktor 1* in zwei Kindknoten.
  • Der Prozessor 10 wiederholt das oben dargelegte Verfahren für die Daten programmgesteuert bei jedem der beiden Kindknoten, bis die Klassenentropie an dem Knoten unter einen festgelegten Schwellenwert fällt oder bis der Umfang der Trainingsdaten an einem Knoten unter einen festgelegten Schwellenwert fällt.
  • Nachdem der Entscheidungsbaum aufgebaut ist, berechnet der Prozessor immer noch programmgesteuert eine Verteilung der Klassenwerte für jeden Knoten des Entscheidungsbaums und speichert diese in der Speichereinheit 12. Der Prozeß wird wiederholt, um den zweiten Entscheidungsbaum aufzubauen. Im Fall des zweiten Entscheidungsbaums wird die Wahrscheinlichkeitsverteilung über alle mögliche Klassen, die an jedem Knoten des Entscheidungsbaums gespeichert ist, in eine einzelne Zahl umgewandelt, die Klasse des schlimmsten Falls für das korrekte Phonem, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen festgelegten Schwellenwert überschreitet.
  • Fig. 6 ist ein Blockdiagramm eines automatischen Spracherkennungssystems, das den Entscheidungsbaum der vorliegenden Erfindung verwendet. Das System in Fig. 6 umfaßt ein Mikrofon 13 zur Umwandlung menschlicher Sprache in ein elektrisches Signal. Das vom Mikrofon kommende Signal wird von einem Akustikprozessor und Labelvergleich 14 verarbeitet, der den am besten übereinstimmenden akustischen Kennzeichnungsprototyp im akustischen Labelprototypspeicher 15 sucht. Daraufhin wird eine Wahrscheinlichkeitsverteilung der Phonemgrenzen 16a für jeden Zeitrahmen erstellt, und zwar unter Verwendung des ersten Entscheidungsbaums 17a, der in der vorliegenden Erfindung beschrieben wird. Diese Wahrscheinlichkeiten werden mit einem Schwellenwert verglichen, und einige Zeitrahmen werden als Grenzen zwischen Phonemen identifiziert. Anschließend wird ein akustischer Speicher 16b für alle Phoneme berechnet, die sich zwischen jedem gegebenen Paar hypothetischer Grenzen befinden, und die Phoneme werden auf der Grundlage dieser Trefferzahl klassifiziert. Es wird darauf hingewiesen, daß diese Trefferzahl auf jede beliebige Weise berechnet werden kann. Die einzige Einschränkung hierbei ist, daß die Trefferzahl auf der Grundlage desselben Verfahrens berechnet werden kann wie beim Aufbau des zweiten Entscheidungsbaums. Danach wird der zweite Entscheidungsbaum 17b für jeden Zeitrahmen durchlaufen, um die Klasse des schlimmsten Falls des korrekten Phonems zu diesem Zeitpunkt zu erhalten. Unter Verwendung der in 16b berechneten Phonemtrefferzahl und Phonemklasse wird eine Kurzliste zulässiger Phoneme 16c für jeden Zeitrahmen erstellt. Diese Daten werden verwendet, um eine Untergruppe akustischer Wortmodelle im Speicher 19 auszuwählen, und ein schneller akustischer Wortvergleichsprozessor 18 vergleicht den Labelstring aus dem akustischen Prozessor 14 mit dieser Untergruppe abgekürzter akustischer Wortmodelle, um ein Ausgangssignal zu erzeugen.
  • Der Ausgang des schnellen akustischen Wortvergleichsprozessors besteht aus mindestens einem Wort. Tm allgemeinen jedoch gibt der schnelle akustische Wortvergleichsprozessor mehrere Kandidatenwörter aus. Jedes Wort, das vom schnellen akustischen Wortvergleichsprozessor 18 erstellt wird, wird in einen Wortkontextvergleich 20 eingegeben, der den Wortkontext mit Sprachmodellen im Speicher 21 vergleicht und mindestens ein Kandidatenwort ausgibt. Anhand der Erkennungskandidaten, die vom schnellen akustischen Wortvergleich und dem Sprachmodell erstellt werden, vergleicht der detaillierte akustische Vergleich 22 den Labelstring vom akustischen Prozessor 14 mit den detaillierten akustischen Wortmodellen im Speicher 23 und gibt entsprechend einer Spracheingabe einen Wortstring aus.
  • Fig. 7 beschreibt die Blöcke 16a-c und 17a-b ausführlich. Anhand des akustischen Labelstrings vom akustischen Prozessor 14 durchläuft der kontextabhängige Grenzschätzprozeß 16 den ersten Entscheidungsbaum 17a für jeden Zeitrahmen und verwendet dabei die Labels zur aktuellen Zeit und die Labels zu den unmittelbar voranstehenden und nachfolgenden Zeiten als Prädiktoren, bis er einen Endknoten des Entscheidungsbaums erreicht. Daraufhin wird die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, von der gespeicherten Klassenverteilung am Blatt aufgegriffen und mit einem Schwellenwert verglichen. Ist die Wahrscheinlichkeit größer als der Schwellenwert, dann wird die Hypothese aufgestellt, daß die aktuelle Zeit eine Phonemgrenze ist.
  • Anschließend wird für jedes Phonem zwischen jedem Grenzpunktepaar eine akustische Trefferzahl berechnet, und die Phoneme werden auf der Grundlage dieser Trefferzahlen klassifiziert. Es kommen mehrere Verfahren in Frage, um diese Trefferzahl zu berechnen. Beispielsweise ließe sich ein gewöhnliches Berechnungsverfahren auf der Grundlage des Markovschen Modells oder eine Kanal-Bank-Berechnung einsetzen, wie sie in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) verwendet wird, oder aber ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums, wie er in [Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based Pruning Strategy for the Acoustic Fast Match", IBM Attorney Docket YO 996-059] beschrieben ist. Die einzige Einschränkung des Trefferzahlmechanismus besteht darin, daß derselbe Mechanismus wie bei der Einholung der Trainingsdaten für den zweiten Entscheidungsbaum verwendet werden sollte.
  • Im Anschluß daran wird für jeden Zeitrahmen der zweite Entscheidungsbaum 17b durchlaufen, und zwar unter Verwendung des Labels zur aktuellen Zeit und unter Verwendung der vorangegangenen und nachfolgenden Zeiten als Prädiktoren, bis ein Endknoten des Entscheidungsbaums erreicht ist. Die Klasse des schlimmsten Falls für das korrekte Phonem wird aus den Daten ausgelesen, die an diesem Knoten gespeichert sind. Diese Klasse wird als Klasse des schlimmsten Falls für das korrekte Phonem zu diesem Zeitpunkt betrachtet. Danach wird die schlimmste aller Klassen des schlimmsten Falls zwischen jeweils zwei nebeneinander liegenden hypothetischen Phonemgrenzen als Klasse des schlimmsten Falls für das korrekte Phonem im Segment zwischen den Phonemgrenzen herangezogen. Alle Klassen, deren Phoneme schlimmer sind als diese Klasse des schlimmsten Falls werden daraufhin im aktuellen Segment ausgelassen, und für das Segment wird eine Kurzliste zulässiger Phoneme erstellt.
  • Nun ist es aber häufig der Fall, daß sich manche Phoneme ähnlich sind und leicht verwechselt werden. Eine Auflistung solcher leicht verwechselbarer Phoneme läßt sich auf der Grundlage der Trainingsdaten erstellen, und die oben beschriebene Kurzliste läßt sich erweitern, indem diese Listen leicht verwechselbarer Phoneme hinzugefügt werden. Wenn beispielsweise die Klasse eines beliebigen Elements in einer Auflistung solcher leicht verwechselbaren Phoneme besser ist als die Klasse des schlimmsten Falls, dann wird die gesamte Gruppe der leicht verwechselbaren Phoneme in die Kurzliste aufgenommen.
  • Es wird darauf hingewiesen, daß die obige Beschreibung nur zur Veranschaulichung der vorliegenden Erfindung dient. Der Fachmann auf diesem Gebiet weiß, daß verschiedene Alternativen und Veränderungen möglich sind, ohne den Anwendungsbereich der vorliegenden Erfindung verlassen zu müssen. Deshalb verfolgt das Prinzip der vorliegenden Erfindung die Absicht, alle möglichen Alternativen, Veränderungen und Abweichungen einzuschließen, die in den Anwendungsbereich der anhängigen Ansprüche fallen. TABELLE 1 DIE BEIDEN BUCHSTABEN STEHEN GROB FÜR DEN KLANG DES ELEMENTS. ZWEI ZIFFERN STEHEN FÜR VOKALE: ERSTE ZIFFER: BETONUNG EINES KLANGS. ZWEITE ZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER EINE EINZIGE STELLE GILT ALS KONSONANT. EINZELZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER

Claims (10)

1. Ein Verfahren zur Spracherkennung, das folgende Schritte umfaßt:
a) Eingabe mehrerer Wörter der Trainingsdaten;
b) Training eines oder mehrerer binärer erster Entscheidungsbäume, um an jedem Knoten auf der Grundlage von Kontextdaten innerhalb der Trainingsdaten eine möglichst informative Frage zu stellen, wobei jeder binäre erste Entscheidungsbaum einem anderen Zeitpunkt in einer Sequenz der Trainingsdaten entsprechen kann;
c) Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;
d) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;
e) Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar
f) Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;
g) Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.
2. Das Verfahren gemäß Anspruch 1, das weiterhin folgende Schritte umfaßt:
h) Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
j) Aussparung aller Phoneme, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
k) Erstellung einer Kurzliste von Phonemen für das Segment;
l) Ausgabe eines Erkennungsergebnisses, wenn die Kurzliste des Erkennungsergebnisses eine Kurzliste aus Wörtern ist.
3. Verfahren gemäß Anspruch 1, das weiterhin die folgenden Schritte umfaßt:
h) Durchlaufen eines oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe an Entscheidungsbäumen für jeden Zeitrahmen einer Spracheingangssequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle möglichen Klassen ist, in die ein Phonem aufgenommen werden kann, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems zu erhalten, und zwar durch Bestimmung der Klasse des schlimmsten Falls zum Klassenwert, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
j) Aussparung aller Phoneme, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
k) Erstellung einer Kurzliste von Phonemen für das Segment;
l) Vergleich bestandteilbildender Phoneme eines Wortes in einem Vokabular, um festzustellen, ob das Wort in der Kurzliste enthalten ist, und Erstellung einer Kurzliste von Wörtern;
l) Ausgabe eines Erkennungsergebnisses durch Vergleich der Wörter aus der Kurzliste mit einem Sprachmodell, um die am meisten wahrscheinliche Wortübereinstimmung für die Spracheingangssequenz zu bestimmen.
4. Ein Verfahren zur Spracherkennung, das die folgenden Schritte umfaßt:
a) Eingabe eines Strings von Sprachelementen, die Trainingsdaten darstellen;
b) Umwandlung der Elemente der Trainingsdaten in elektrische Signale;
c) Darstellung des elektrischen Signals der Trainingsdaten als prototyp-quantisierte Eigenschaftsvektoren, wobei ein Eigenschaftsvektor einen gegebenen Zeitrahmen darstellt;
d) Zuordnung eines Klassenlabels für den prototyp- quantisierten Eigenschaftsvektor zu jedem Prototyp- Eigenschaftsvektor;
e) Aufbau eines oder mehrerer Entscheidungsbäume für unterschiedliche Zeiten in den Trainingsdaten, wobei jeder Baum einen Wurzelknoten und eine Mehrzahl an Kindknoten aufweist, bestehend aus den folgenden Schritten:
i. Bildung einer Gruppe von Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1 Prädiktoren Eigenschaftsvektorlabels an 2K+1 aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im Fall des ersten Entscheidungsbaums gehört oder zum korrekten Phonem im Fall des zweiten Entscheidungsbaums gehört;
ii. Berechnung der geschätzten verbundenen Verteilung der Prädiktoren 1k und des Phonems p für 2K+1 Prädiktoren unter Verwendung der Trainingsdaten, wobei die Prädiktoren Eigenschaftsvektorlabels zu den Zeitpunkten t- K, ..., t, ..., t+K sind und p das Phonem zum Zeitpunkt t ist;
iii. Speicherung der geschätzten verbundenen Verteilung von 1k und p und einer entsprechenden Verteilung für jeden Prädiktor 1k am Wurzelknoten;
iv. Berechnung der besten Partitionierung der Werte, die der Prädiktor 1k für jedes 1k annehmen kann, um die Phonemungewißheit an jedem Knoten auf ein Mindestmaß zu beschränken;
v. Auswahl des Prädiktors 1k, dessen Partitionierung zur niedrigsten Ungewißheit führt, und Partitionierung der Trainingsdaten in zwei Kindknoten, und zwar auf der Grundlage der computergesteuerten Partitionierung 1k, wobei jedem Kindknoten auf der Grundlage der Trainingsdaten am Kindknoten eine Klassenverteilung zugeordnet wird;
f) Wiederholung der Bestimmung für jeden Kindknoten, ob der Umfang an Trainingsdaten am Kindknoten größer ist als ein Schwellenwert;
g) Eingabe eines Sprachelements, das erkannt werden soll;
h) Umwandlung eines Sprachelements in ein elektrisches Signal;
i) Darstellung des elektrischen Signals als Serie quantisierter Eigenschaftsvektoren;
j) Vergleich der Serie quantisierter Eigenschaftsvektoren mit den gespeicherten Prototyp- Eigenschaftsvektoren zur Bestimmung einer engsten Übereinstimmung und Zuordnung eines Eingangslabels zu jedem Vektor aus der Serie der Eigenschaftsvektoren entsprechend dem Label des am engsten übereinstimmenden Eigenschaftsvektors;
k) Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;
l) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;
m) Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;
n) Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;
o) Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.
5. Das Verfahren gemäß Anspruch 4, das weiterhin folgende Schritte umfaßt:
Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
Unter den Klassen des schlimmsten Falls Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
Erstellung einer Kurzliste für das Segment;
Ausgabe eines Erkennungsergebnisses als Antwort auf die Kurzliste.
6. Eine Vorrichtung zur Spracherkennung, die folgendes umfaßt:
a) Mittel zur Eingabe mehrerer Trainingsdatenwörter;
b) Mittel für das Training eines oder mehrerer binärer erster Entscheidungsbäume, um an jedem Knoten auf der Grundlage von Kontextdaten innerhalb der Trainingsdaten eine möglichst informative Frage zu stellen, wobei jeder binäre erste Entscheidungsbaum einem anderen Zeitpunkt in einer Sequenz der Trainingsdaten entsprechen kann;
c) Mittel für das Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;
d) Mittel für den Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;
e) Mittel für die Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;
f) Mittel für die Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;
g) Mittel für die Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.
7. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes umfaßt:
h) Mittel für das Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls ein Mittel zur Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
j) Mittel zur Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
k) Mittel zur Erstellung einer Kurzliste für das Segment;
l) Mittel zur Ausgabe eines Erkennungsergebnisses, wenn die Kurzliste des Erkennungsergebnisses eine Kurzliste von Wörtern ist.
8. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes umfaßt:
h) Mittel für das Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls ein Mittel zur Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
j) Mittel zur Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
k) Mittel zur Erstellung einer Kurzliste der Phoneme für das Segment;
l) Mittel für den Vergleich bestandteilbildender Phoneme eines Wortes in einem Vokabular, um festzustellen, ob das Wort in der Kurzliste enthalten ist, und die Erstellung einer Kurzliste von Wörtern;
l) Mittel für die Ausgabe eines Erkennungsergebnisses durch Vergleich der Wörter aus der Kurzliste mit einem Sprachmodell, um die am meisten wahrscheinliche Wortübereinstimmung für die Spracheingangssequenz zu bestimmen.
9. Eine Vorrichtung zur Spracherkennung, die folgendes umfaßt:
a) Mittel zur Eingabe eines Strings von Sprachelementen, die Trainingsdaten darstellen;
b) Mittel zur Umwandlung der Elemente der Trainingsdaten in elektrische Signale;
c) Mittel zur Darstellung des elektrischen Signals der Trainingsdaten als prototyp-quantisierte Eigenschaftsvektoren, wobei ein Eigenschaftsvektor einen gegebenen Zeitrahmen darstellt;
d) Mittel zur Zuordnung eines Klassenlabels für den prototyp-quantisierten Eigenschaftsvektor zu jedem Prototyp-Eigenschaftsvektor;
e) Mittel zum Aufbau eines oder mehrerer binärer Entscheidungsbäume für unterschiedliche Zeiten in den Trainingsdaten, wobei jeder Baum einen Wurzelknoten und eine Mehrzahl an Kindknoten aufweist, bestehend aus den folgenden Schritten:
i. Mittel zur Bildung einer Gruppe von Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1 Prädiktoren Eigenschaftsvektorlabels an 2K+1 aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im Fall des ersten Entscheidungsbaums gehört oder zum korrekten Phonem im Fall des zweiten Entscheidungsbaums gehört;
ii. Mittel zur Berechnung der geschätzten verbundenen Verteilung der Prädiktoren 1k und des Phonems p für 2K+1 Prädiktoren unter Verwendung der Trainingsdaten, wobei die Prädiktoren Eigenschaftsvektorlabels zu den Zeitpunkten t-K, ..., t, ..., t+K sind und p das Phonem zum Zeitpunkt t ist;
iii. Mittel zur Speicherung der geschätzten verbundenen Verteilung von 1k und p und einer entsprechenden Verteilung für jeden Prädiktor 1k am Wurzelknoten;
iv. Mittel zur Berechnung der besten Partitionierung der Werte, die der Prädiktor 1k für jedes 1k annehmen kann, um die Phonemungewißheit an jedem Knoten auf ein Mindestmaß zu beschränken;
v. Mittel zur Auswahl des Prädiktors 1k, dessen Partitionierung zur niedrigsten Ungewißheit führt, und Partitionierung der Trainingsdaten in zwei Kindknoten, und zwar auf der Grundlage der computergesteuerten Partitionierung 1k, wobei jedem Kindknoten auf der Grundlage der Trainingsdaten am Kindknoten eine Klassenverteilung zugeordnet wird;
f) Mittel zur Wiederholung der Bestimmung für jeden Kindknoten, ob der Umfang an Trainingsdaten am Kindknoten größer ist als ein Schwellenwert;
g) Mittel zur Eingabe eines Sprachelements, das erkannt werden soll;
h) Mittel zur Umwandlung eines Sprachelements in ein elektrisches Signal;
i) Mittel zur Darstellung des elektrischen Signals als Serie quantisierter Eigenschaftsvektoren;
j) Mittel zum Vergleich der Serie quantisierter Eigenschaftsvektoren mit den gespeicherten Prototyp- Eigenschaftsvektoren zur Bestimmung einer engsten Übereinstimmung und Zuordnung eines Eingangslabels zu jedem Vektor aus der Serie der Eigenschaftsvektoren entsprechend dem Label des am engsten übereinstimmenden Eigenschaftsvektors;
k) Mittel für das Durchlaufen eines Entscheidungsbaums für jeden Zeitrahmen einer Spracheingabesequenz, um für jeden Zeitrahmen eine Wahrscheinlichkeitsverteilung zu bestimmen, wobei die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit ist, daß ein Knoten eine Phonemgrenze ist;
l) Mittel für den Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit einem Schwellenwert zur Bestimmung einiger Zeitrahmen als Grenzen zwischen Phonemen;
m) Mittel zur Bereitstellung einer akustischen Trefferzahl für alle Phoneme zwischen jedem gegebenen Grenzenpaar;
n) Mittel zur Klassifizierung der Phoneme auf der Grundlage dieser Trefferzahl;
o) Mittel zur Ausgabe eines Erkennungsergebnisses in Abhängigkeit dieser Trefferzahl.
10. Die Vorrichtung gemäß Anspruch 9, die weiterhin folgendes umfaßt:
Mittel für das Durchlaufen eines Entscheidungsbaums oder mehrerer Entscheidungsbäume aus einer zweiten Gruppe von Entscheidungsbäumen für jeden Zeitrahmen in einer Spracheingabesequenz zur Bestimmung einer zweiten Wahrscheinlichkeitsverteilung, wobei die Wahrscheinlichkeitsverteilung eine Verteilung über alle Klassen ist, die für das korrekte Phonem möglich sind, um eine Klasse des schlimmsten Falls eines richtig erkannten Phonems einzuholen, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen bestimmten Schwellenwert überschreitet;
Unter den Klassen des schlimmsten Falls ein Mittel zur Bestimmung zur Klasse des absolut schlimmsten Falls zwischen zwei beliebigen nebeneinander liegenden Phonemgrenzen der Klasse des schlimmsten Falls des richtig erkannten Phonems zwischen den Phonemgrenzen;
Mittel zur Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist als diese Klasse des absolut schlimmsten Falls im aktuellen Segment;
Mittel zur Erstellung einer Kurzliste für das Segment;
Mittel zur Ausgabe eines Erkennungsergebnisses in Reaktion auf die Kurzliste.
DE69518723T 1994-11-30 1995-06-21 Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen Expired - Lifetime DE69518723T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/347,013 US5729656A (en) 1994-11-30 1994-11-30 Reduction of search space in speech recognition using phone boundaries and phone ranking

Publications (2)

Publication Number Publication Date
DE69518723D1 DE69518723D1 (de) 2000-10-12
DE69518723T2 true DE69518723T2 (de) 2001-05-23

Family

ID=23361974

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69518723T Expired - Lifetime DE69518723T2 (de) 1994-11-30 1995-06-21 Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen

Country Status (3)

Country Link
US (1) US5729656A (de)
EP (1) EP0715298B1 (de)
DE (1) DE69518723T2 (de)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6023673A (en) * 1997-06-04 2000-02-08 International Business Machines Corporation Hierarchical labeler in a speech recognition system
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US7031925B1 (en) 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
GB9822931D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
US6453292B2 (en) * 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US6195639B1 (en) * 1999-05-14 2001-02-27 Telefonaktiebolaget Lm Ericsson (Publ) Matching algorithm for isolated speech recognition
US6711541B1 (en) * 1999-09-07 2004-03-23 Matsushita Electric Industrial Co., Ltd. Technique for developing discriminative sound units for speech recognition and allophone modeling
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
CN1157712C (zh) * 2000-02-28 2004-07-14 索尼公司 语音识别方法和装置
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
AU2001250050A1 (en) 2000-03-24 2001-10-08 Eliza Corporation Remote server object architecture for speech recognition
US7370086B2 (en) * 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US6438519B1 (en) * 2000-05-31 2002-08-20 Motorola, Inc. Apparatus and method for rejecting out-of-class inputs for pattern classification
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
US20020184022A1 (en) * 2001-06-05 2002-12-05 Davenport Gary F. Proofreading assistance techniques for a voice recognition system
FR2837970A1 (fr) * 2002-03-29 2003-10-03 France Telecom Procede de traduction de donnees au moyen d'un transducteur unique
FR2837969A1 (fr) * 2002-03-29 2003-10-03 France Telecom Procede de traduction de donnees autorisant une gestion de memoire simplifiee
US20040024585A1 (en) 2002-07-03 2004-02-05 Amit Srivastava Linguistic segmentation of speech
EP1414023B1 (de) * 2002-10-14 2006-02-01 Sony Deutschland GmbH Verfahren zur Spracherkennung
US20040138894A1 (en) 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US7409345B2 (en) * 2003-04-04 2008-08-05 International Business Machines Corporation Methods for reducing spurious insertions in speech recognition
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
EP2851895A3 (de) * 2011-06-30 2015-05-06 Google, Inc. Spracherkennung mittels Kontext mit variabler Länge
WO2013033119A1 (en) * 2011-08-29 2013-03-07 Accumente, Llc Utilizing multiple processing units for rapid training of hidden markov models
US8918771B2 (en) * 2012-09-25 2014-12-23 Facebook, Inc. Decision tree ensemble compilation
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9697827B1 (en) * 2012-12-11 2017-07-04 Amazon Technologies, Inc. Error reduction in speech processing
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102405793B1 (ko) * 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN110851720A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 信息推荐方法、装置以及电子设备
CN112836498A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 数据处理方法、识别方法、装置及计算设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
NL8503304A (nl) * 1985-11-29 1987-06-16 Philips Nv Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal.
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US4852173A (en) * 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
DE3935358A1 (de) * 1989-10-24 1991-04-25 Grundig Emv System zur uebertragung von breitbild-videosignalen zur darstellung auf fernsehempfaengern mit einem herkoemmlichen oder einem vergroesserten bildseitenverhaeltnis
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5144671A (en) * 1990-03-15 1992-09-01 Gte Laboratories Incorporated Method for reducing the search complexity in analysis-by-synthesis coding
US5280562A (en) * 1991-10-03 1994-01-18 International Business Machines Corporation Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5236117A (en) 1992-06-22 1993-08-17 Staktek Corporation Impact solder method and apparatus

Also Published As

Publication number Publication date
US5729656A (en) 1998-03-17
EP0715298A1 (de) 1996-06-05
DE69518723D1 (de) 2000-10-12
EP0715298B1 (de) 2000-09-06

Similar Documents

Publication Publication Date Title
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69717899T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE102008017993B4 (de) Sprachsuchvorrichtung
DE69225173T2 (de) Spracherkennungsgerät
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69029188T2 (de) Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN