DE69518723T2 - Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen - Google Patents
Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und PhonemklassenInfo
- Publication number
- DE69518723T2 DE69518723T2 DE69518723T DE69518723T DE69518723T2 DE 69518723 T2 DE69518723 T2 DE 69518723T2 DE 69518723 T DE69518723 T DE 69518723T DE 69518723 T DE69518723 T DE 69518723T DE 69518723 T2 DE69518723 T2 DE 69518723T2
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- class
- worst case
- phonemes
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000009467 reduction Effects 0.000 title description 7
- 238000003066 decision tree Methods 0.000 claims description 106
- 238000000034 method Methods 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 47
- 238000000638 solvent extraction Methods 0.000 claims description 20
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims 2
- 238000010276 construction Methods 0.000 claims 1
- 230000007704 transition Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
- Die Erfindung bezieht sich auf die Erkennung von Sprache und insbesondere die Erfassung von Phonemgrenzen beim Sprechen.
- Symbol: Kennzeichnet das Sprechen anhand von n Merkmalen, wobei das Sprechen in einem n-dimensionalen Sprachraum betrachtet wird. Der Raum ist in Bereiche unterteilt, die jeweils durch einen n-dimensionalen Prototypvektor identifiziert werden. Jeder Prototypvektor wird durch ein "Symbol" wie eine Zahl oder andere Labels dargestellt. Gesprochene Sprache kann als Aneinanderreihung von "Symbolen" angesehen werden.
- Fenem (auch Label): Ein Symbol, das einem Prototypvektor entspricht und anhand von Klangmerkmalen während eines bestimmten Zeitraums definiert wird. Klang kann zum Beispiel zwanzig Merkmale haben, wobei die Größe jedes Merkmals während einer Zentisekunde einer Komponente des Protoypvektors entspricht. Jeder Prototypvektor verfügt somit über eine Reihe von Merkmalwerten für ein Intervall von einer Zentisekunde. Anhand der Merkmalwerte, die in einem Zentisekundenintervall erzeugt werden, wird ein Prototypvektor aus einer festgelegten Menge von Prototypvektoren als nähester Vektor ausgewählt. Da jeder Prototypvektor über ein entsprechendes Fenem (oder Label) verfügt, entspricht die Menge der Prototypvektoren einem Alphabet von Fenemen (oder Labels). Beispielfeneme sind in Tabelle 1 aufgeführt; das erste Fenem 001 ist als AA11 definiert. Ein Akustikprozessor prüft gesprochene Sprache von Intervall zu Intervall, und anhand des Vergleichs, welcher Prototypvektor den Merkmalwerten in gewissem Umfang am nähesten ist, wird das Fenem für den nähesten Prototypvektor dem Intervall zugeordnet. Das Fenem unterscheidet sich von dem bekannten Phonem insofern, als es auf Merkmalwerten beruht, die über einen bestimmten Zeitraum hinweg (z. B. eine Zentisekunde) geprüft werden, während ein Phonem auf einer bestimmten Menge grundlegender phonetischer Klangeinheiten ohne Berücksichtigung von zeitlichen Begrenzungen beruht.
- Markov-Modell (auch endlicher Wahrscheinlichkeitsautomat): Ein Klangereignis kann als eine Ansammlung von Zuständen dargestellt werden, die durch Übergänge miteinander verbunden sind, welche Symbole von einem endlichen Alphabet erzeugen. Mit jedem Übergang von einem Zustand zum nächsten Zustand ist eine Wahrscheinlichkeit verbunden, daß als nächstes ein Übergang t gewählt wird, wenn ein Zustand s erreicht wird. Für jede mögliche Labelausgabe bei einem Übergang gibt es eine entsprechende Wahrscheinlichkeit. Das Modell beginnt bei einem oder mehreren Anfangszuständen und endet in einem oder mehreren endlichen Zuständen.
- Laut: Eine Klangeinheit, der ein Markov-Modell zugeordnet wird. Ein erster Lauttyp ist phonetisch ausgerichtet, wobei jedes Phonem einem entsprechenden Laut entspricht. Eine Standardphonemreihe ist im Internationalen Phonetischen Alphabet definiert. Ein zweiter Lauttyp basiert auf Fenemen,
- wobei jedes Fenem einem entsprechenden Laut entspricht. Abfragen: Anhand eines Übungstextes wird ermittelt, wie oft jedes Label in einem Wort vorkommt. Aufgrund dieser Daten werden Tabellen erstellt, in denen jedes Label einen Pluspunkt für jedes Wort und optional jedes Label einen Minuspunkt für jedes Wort hat. Wenn ein Akustikprozessor eine Labelkette erzeugt, werden die Pluspunkte (und Minuspunkte) für jedes Wort berechnet, um einen Übereinstimmungswert zu erhalten. Das Verfahren zur Berechnung der Pluspunkte wird als "Abfragen" bezeichnet.
- Bei einigen bekannten Ansätzen zur Spracherkennung werden Wörter als lautorientierte Markov-Modelle dargestellt, und die Eingabesprache wird nach der Umwandlung zu einer kodierten Folge von akustischen Elementen oder Labels dekodiert, indem die Labelfolgen anhand von Wahrscheinlichkeitsalgorithmen wie der Viterbi-Dekodierung diesen Modellen angepaßt werden.
- (1) Label eines Spracheingangssignals. Eine Vorfunktion dieses Spracherkennungssystems ist die Umwandlung des Spracheingangssignals in eine kodierte Darstellung. Dies geschieht mittels eines Verfahrens, das zum Beispiel in "Continuous Speech Recognition with Automatically Selected Acoustic Prototypes Obtained by either Bootstrapping or Clustering" von A. Nadas et al., Proceedings ICASSP 1981, S5. 1153-1155 beschrieben wurde.
- Laut dem Umwandlungsverfahren von Nadas et al wird die Spracheingabe in Zentisekundenintervalle unterteilt. Für jedes Zentisekundenintervall wird eine Spektralanalyse der Spracheingabe durchgeführt. Daraufhin wird entschieden, welchem festgelegten Spektralmuster die Zentisekunde Spracheingabe am nächsten kommt. Ein "Fenem", das anzeigt; welches Spektralmuster der Spracheingabe am nächsten kommt, wird dann diesem bestimmten Zentisekundenintervall zugeordnet. Jedes Fenem wird als eindeutiges Label dargestellt.
- Eine Labelkette (oder Fenemkette) stellt daher aufeinanderfolgende Zentisekunden von Sprache dar, die ihrerseits Wörter bilden.
- Eine typische endliche Menge von Labels ist in Tabelle 1 dargestellt, die dieser Spezifikation beigefügt ist. Sie umfaßt rund 200 Label, die jeweils ein akustisches Element darstellen. Diese akustischen Elemente sind kürzer als die üblichen "Phoneme", die ungefähr Vokale oder Konsonanten des Alphabets darstellen, d. h. jedes Phonem entspräche einer Folge von akustischen Elementen mit Label.
- Ein wichtiges Merkmal dieser Labeltechnik besteht darin, daß das Verfahren automatisch auf der Grundlage des akustischen Signals gemacht werden kann und daher keine phonetische Interpretation notwendig ist. Die Einheit, die das akustische Eingangssignal in eine kodierte Darstellung in Form einer Labelkette umwandelt, wird "Akustikprozessor" bezeichnet.
- Die Grundfunktionen eines Spracherkennungssystems, bei dem die vorliegende Erfindung angewendet werden kann, werden hier kurz anhand verschiedener Veröffentlichungen beschrieben, die ein solches System näher erläutern, insbesondere F. Jelinek, "Continuous Speech Recognition by Statistical Methods", Proceedings IEEE, Vol. 64, 1976, S5. 532-576.
- Bei diesem System wird jedes Wort des Erkennungswortschatzes als Grundform dargestellt, bei der das Wort zu Erkennungszwecken in eine Lautstruktur unterteilt ist, d. h. in die in Fig. 1 dargestellten phonetischen Elemente. Diese Laute entsprechen allgemein Vokalen und Konsonanten wie sie in phonetischen Alphabeten generell verwendet werden. Beim Sprechen kann ein Teil eines Wortes verschiedene Aussprachen haben, wie in den parallelen Verzweigungen von Fig. 1 dargestellt. Die parallelen Verzweigungen, die zwischen Knoten verlaufen, durch die alle Verzweigungen gehen, können alternativ auch als "Clinks" oder separate herkömmliche Laute angesehen werden. Ein Clink ist laut den Grundsätzen der Erfindung ein phonetisches Ersatzelement für die hier beschriebenen Laute. Die Laute werden durch Markov-Modelle dargestellt. In Fig. 2 ist ein Markov-Beispielmodell für einen Laut abgebildet. Für jeden Laut gibt es ein entsprechendes Markov-Modell, das gekennzeichnet ist durch (a) eine Vielzahl von Zuständen (S0 ... S4), (b) Übergänge (T1 ... T10) zwischen den Zuständen und (c) Labelwahrscheinlichkeiten, die die Wahrscheinlichkeit darstellen, daß der Laut bei einem bestimmten Übergang ein bestimmtes Label erzeugt. Bei einem Ausführungsbeispiel sind jedem Übergang im Markov-Modell zweihundert gespeicherte Labelwahrscheinlichkeiten zugeordnet, wobei jede die Wahrscheinlichkeit darstellt, daß jedes Label (von 200 Labels) bei einem bestimmten Übergang von dem Laut erzeugt wird. Verschiedene Laute werden in ihrem jeweiligen Markov-Modell durch Unterschiede bei den Labelwahrscheinlichkeiten unterschieden, die den verschiedenen Übergängen zugeordnet sind. Die Anzahl der Zustände und Übergänge dazwischen kann variieren, doch diese Faktoren bleiben vorzugsweise unverändert, und die gespeicherten Labelwahrscheinlichkeiten ändern sich.
- Bei dem Markov-Modell von Fig. 2 befindet sich eine Labelkette SX1-SX3-SX5-SH2 (aus Tabelle 2) in der dargestellten Reihenfolge im Lautmodell. Die Wahrscheinlichkeit, daß jedes Label bei dem Übergang, an dem es dargestellt ist (z. B. SX1 beim Übergang T1), erscheint, wird anhand der entsprechenden gespeicherten Labelwahrscheinlichkeit bestimmt. Die Lautmodelle mit den höchsten Labelwahrscheinlichkeiten für die Labels in der Kette sind mit größter Wahrscheinlichkeit die Laute, die die Kette erzeugt haben.
- Die Labels in Fig. 2 stellen somit von Label zu Label von Übergang zu Übergang eine Kontinuität dar, was eine einfache 1 : 1-Anpassung zwischen Kettenlabel und Übergang ermöglicht, wobei das Markov-Modell von Fig. 2 auch andere Anpassungen ermöglicht. Anhand des Markov-Modells von Fig. 2 kann demnach auch bestimmt werden, daß ein Laut wahrscheinlich ist, auch wenn mehr Labels, weniger Labels oder sogar unterschiedliche Labels bei dem Lautmodell angewendet werden. Neben Übergängen von einem Zustand zum anderen gibt es auch Übergänge (T5, T6, T7), die zu dem Zustand zurückgehen, der gerade verlassen wurde. Daneben gibt es Zustände (T8, T9, T10), die einen benachbarten Zustand überspringen. Das Markov-Modell gewährleistet dadurch, daß verschiedene Aussprachen eines Lautes in demselben grundlegenden Markov-Modell untergebracht werden können. Wenn ein Klang zum Beispiel gedehnt wird (langsamer Sprecher), so daß dasselbe akustische Element anstatt nur einmal mehrmals erscheint, ermöglicht die Markov- Modelldarstellung mehrere Übergänge zurück zu demselben Zustand, wodurch das mehrfache Auftreten des akustischen Elements gewährleistet ist. Wenn jedoch ein akustisches Element, das normalerweise zu einem Laut gehört, in einer bestimmten Aussprache nicht erscheint, kann der entsprechende Übergang des Modells übersprungen werden.
- Jeder mögliche Pfad (Markov-Kette) von dem Anfangszustand zu dem Endzustand des Markov-Modells (einschließlich mehrere Rückkehrübergänge T5, T6 oder T7) stellt eine Aussprache des Wortes (oder Lautes) dar, wobei jedem Übergang ein akustisches Element oder Label zugeordnet ist.
- Bei der vorliegenden Erfindung werden Labelketten an Markov- Modelle "angepaßt", indem Labels in der Kette Übergängen in einem Pfad durch das Modell zugeordnet werden; dadurch werden die Wahrscheinlichkeiten jedes Labels an dem zugeordneten Übergang auf der Grundlage von gespeicherten Labelwahrscheinlichkeiten, die durch frühere Erfahrungen oder Training (siehe nachfolgende Erklärung) erstellt wurden, bestimmt. Ein Kette von Markov-Modellen mit der höchsten Wahrscheinlichkeit identifiziert das Wort, das als Ausgabe ausgewählt werden wird.
- Die Grundformen der Wörter und die grundlegenden Markov- Modelle der Laute können wie in der genannten Literatur beschrieben auf verschiedene Weise abgeleitet und definiert werden. Die Modelle können von einem Linguisten erstellt oder automatisch anhand von statistischen Verfahren festgelegt werden. Da das Erstellen der Modelle nicht Teil der Erfindung ist, wird nicht näher darauf eingegangen.
- Anstatt Wörter zuerst durch eine Folge von Markov-Lautmodellen darzustellen, könnten diese auch direkt durch Markov- Wortmodelle dargestellt werden - wie durch eine Folge von Zuständen und Übergängen, die die grundlegende Kette von akustischen Elementen für das gesamte Wort darstellen.
- Nach der Strukturierung der grundlegenden Modelle, die die Wörter in einem Wortschatz darstellen, müssen die Modelle noch trainiert werden, um ihnen die Statistiken (z. B. Labelwahrscheinlichkeiten) für die Aussprache aller Wörter im Wortschatz zu liefern. Zu diesem Zweck wird jedes Wort mehrmals ausgesprochen, und die Labelkette, die sich für jede Aussprache ergibt, wird an das entsprechende Wortmodell "angepaßt", d. h. es wird bestimmt, wie sich die entsprechende Labelkette durch Durchlaufen des Modells ergibt, und für die entsprechenden Übergänge werden Zählwerte ermittelt. Für jeden Laut und damit für jedes Wort als Kombination von Lauten wird ein statistisches Markov-Modell entwickelt. Anhand des Markov- Modells kann bestimmt werden, mit welcher Wahrscheinlichkeit jede der verschiedenen Labelketten durch die Aussprache eines bestimmten Wortes des Wortschatzes auftritt. In Fig. 3 ist eine Speichertabelle mit einem solchen statistischen Markov- Modell abgebildet, das in einem späteren Abschnitt näher erläutert wird.
- Für die eigentliche Spracherkennung wird das Sprachsignal vom Akustikprozessor in eine Labelkette umgewandelt, die dann mit den bestehenden Wortmodellen "abgeglichen" wird. Dazu wird ein spezielles Verfahren, der Viterbi-Algorithmus (der kurz in dem oben genannten Artikel von Jelinek und eingehend in einem Artikel von G.D. Forney, "The Viterbi Algorithm", Proceedings, IEEE, Vol. 61, 1973, SS. 268-278 beschrieben ist), verwendet, und das Ergebnis ist ein Wahrscheinlichkeitsvektor für jedes "nahe" Wort, das zu der gegebenen Labelfolge geführt haben kann. Die eigentliche Ausgabe, d. h. die Identifizierung eines Wortes, das als Erkennungsausgabe genommen wird, wird dadurch ermittelt, daß das Wort ausgewählt wird, dessen Wahrscheinlichkeit die höchsten erzeugten Wahrscheinlichkeitsvektoren hat.
- Die Bewertung von Lautwahrscheinlichkeiten ist ein wesentlicher Teil der "Angleichung". Die Erkennung erfolgt normalerweise im Rahmen einer maximalen Wahrscheinlichkeit, bei der alle Wörter des Wortschatzes als eine Lautfolge dargestellt werden, und die Wahrscheinlichkeit eines bestimmten Akustikmerkmalvektors, der vom Laut abhängt, wird berechnet (z. B. P (Akustik/Laut). Der Erkennungsprozeß geht davon aus, daß ein bestimmtes Wort im Wortschatz das richtige Wort ist und berechnet wie oben beschrieben eine Wahrscheinlichkeitstrefferzahl für dieses Wort; in der Folge wird dies für alle Wörter des Wortschatzes gemacht, und die akustische Trefferzahl wird mit einer Trefferzahl von einem Sprachmodell kombiniert, wobei das Wort mit der höchsten kombinierten Trefferzahl als das richtige ausgewählt wird.
- Die Wahrscheinlichkeit P (Akustik/Laut) stimmt mit der Wahrscheinlichkeit überein, daß der aktuelle Zustand des Markov-Modells für den Laut derzeit den beobachteten Akustikvektor hervorbringt, und diese Wahrscheinlichkeit wird über mehrere Zeitrahmen hinweg akkumuliert, bis das kumulative Produkt unter einen definierten Schwellenwert fällt, bei dem davon ausgegangen wird, daß der Laut zu Ende ist und der nächste Laut angefangen hat. Bei dieser Technik ist es möglich, daß bei der Berechnung der Trefferzahl auch Rahmen berücksichtigt werden, die bei der Berechnung der Trefferzahl für den Laut nicht zu dem aktuellen Laut gehören. Dieses Problem kann umgangen werden, wenn die Anfangs- und Endzeiten eines Lautes mit größerer Sicherheit bekannt sind. Eine Technik zur Schätzung der Grenzpunkte wird in "Transform Representation of the Spectra of Acoustic Speech Segments with Applications - I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, SS. 180-195, Vol. 1, Nr. 2, April 1993 beschrieben, bei der die relative Variation zwischen aufeinanderfolgenden Rahmen zugrundegelegt wird; in rechnerischer Hinsicht ist dies jedoch sehr kostspielig, und die Technik stößt angesichts des Umfangs des betrachteten akustischen Kontexts an seine Grenzen.
- Bei einigen Spracherkennungssystemen wird die "Angleichung" in zwei Stufen vorgenommen. Bei der ersten Stufe stellt der Dekoder eine kurze Liste von Kandidatenwörter aus dem 20K- Wortschatz bereit. In der Folge werden genaue Modelle der Wörter dieser kurzen Liste dazu verwendet, um das Wort an das akustische Signal anzugleichen, und das Wort mit der höchsten Trefferzahl wird ausgewählt. Der Prozeß zur Bestimmung der kurzen Liste, auch schnelle Angleichung genannt (siehe die US- Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model"), baut die phonetischen Grundformen der Wörter eines Wortschatzes in Form eines Baumes auf, durchläuft diesen Baum nach unten, berechnet eine Trefferzahl für jeden Knoten und schließt Pfade aus, deren Trefferzahl unter einem bestimmten Schwellenwert liegen. Ein Pfad umfaßt eine Lautfolge und oft muß die Trefferzahl für verschiedene Laute berechnet werden, bevor entschieden werden kann, ob der Pfad ausgeschlossen wird. In einer früheren Erfindung ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) wurde ein Verfahren beschrieben, bei dem ein falscher Pfad durch die Beobachtung der Ausgabe einer Kanalbank sehr frühzeitig ausgeschlossen werden kann, was die Kosten für die Berechnung der Trefferzahlen für die restlichen Laute auf dem Pfad senkt. In "Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114, Vol. 37, Nr. 02A, Feb. 1994 wurden die Kanalbankausgaben "blind" berechnet, da keine Informationen über die Anfangs- und Endzeiten eines Lautes in der akustischen Labelfolge vorlagen. Bei dieser Erfindung beschreiben wir ein Verfahren, das die Ausgaben der Kanalbank intelligenter berechnet, damit zu einer Verringerung der allgemeinen Fehlerquote führt und die Berechnungszeit der schnellen Angleichung reduziert. Entsprechend wird ein Verfahren nach den Ansprüchen 1 und 4 und eine Vorrichtung nach den Ansprüchen 6 und 9 vorgestellt.
- Die Erfindung schlägt eine andere Technik vor, um Phonemgrenzen vorherzusagen, die es ermöglichen, einen größeren akustischen Kontext zu verwenden, um vorherzusagen, ob die gegenwärtige Zeit eine Phonemgrenze ist. Die Erfindung wendet dazu ein nicht lineares Verfahren auf Entscheidungsbaumbasis an. Die quantizierten Merkmalvektoren zur und in unmittelbarer Nähe der gegenwärtigen Zeit dienen dazu, die Wahrscheinlichkeit vorherzusagen, daß die gegenwärtige Zeit eine Phonemgrenze ist, wobei der Vorhersagemechanismus ein Entscheidungsbaum ist. Der Entscheidungsbaum setzt sich aus Trainingsdaten aus binären Fragen über die Prädiktoren zusammen, so daß die Unsicherheit über die vorhergesagte Klasse durch das Stellen der Frage verringert wird. Die Größe des Klassenalphabets beträgt 2, und die Technik von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc., 1984 wird dazu verwendet, um Fragen für jeden Prädiktor zu formulieren.
- Die Erfindung beschreibt ferner eine Technik, um den Suchraum des Spracherkennungssystems noch weiter zu verkleinern. Dabei wird von der Annahme ausgegangen, daß die Phonemgrenzen bekannt sind, so daß es möglich ist, die Trefferzahl für alle Laute in dem Segment zwischen zwei Phonemgrenzen und den Rang des richtigen Lautes in diesem Segment zu berechnen. Ideal wäre es natürlich, wenn der richtige Laut auf dem ersten Rang wäre, und es sollte möglich sein, alle Laute mit Ausnahme des obersten Lautes aus dem Suchraum zu entfernen. In der Realität können die vektor-quantizierten Akustikmerkmalvektoren aufgrund von Mehrdeutigkeiten bei der akustischen Modellierung den Ton oder den Laut, der in dem Segment geäußert wurde, nicht darstellen. Der Rang des richtigen Lautes kann in manchen Segmenten daher schlecht getroffen sein.
- Die Erfindung beschreibt außerdem ein Verfahren auf der Basis eines Entscheidungsbaums zur Voraussage der schlechtest möglichen Klasse des korrekten Phonems zwischen zwei hypothetischen Phonemgrenzen. Sobald diese schlechtest mögliche Klasse bekannt ist, werden alle Phoneme, die sich in Klassen unterhalb der schlechtest möglichen Klasse befinden, aus dem Suchbereich des Erkennungsmittels entfernt, wodurch große Rechenressourcen eingespart werden. Es wird darauf hingewiesen, daß dieses Verfahren unabhängig vom Verfahren zur Berechnung der Trefferzahl eines Phonems ist. Typische Systeme sind (a) die gewöhnliche Berechnung auf der Grundlage des Markov-Modells, (b) die Berechnung auf der Grundlage einer sogenannten Kanalbank gemäß Beschreibung in ["Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994] und (c) ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums gemäß Beschreibung in der gleichzeitig schwebenden US-Patentanmeldung von D. Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based pruning strategy for the Acoustic Fast Match, IBM Attorney Docket YO 996-059] oder jeder andere Trefferzahlmechanismus.
- Die im Entscheidungsbaum verwendeten Prädiktoren sind, wie bereits zuvor, die quantisierten Vektoren der akustischen Merkmale zum aktuellen Zeitpunkt oder etwa zu diesem Zeitpunkt, und die vorausgesagte Quantität ist die schlechtest mögliche Klasse des korrekten Phonems zum aktuellen Zeitpunkt. Der Entscheidungsbaum wird aus Trainingsdaten aufgebaut, indem Binärfragen über die Prädiktoren entworfen werden, die gestellt werden, während der Entscheidungsbaum Knoten für Knoten nach unten durchlaufen wird. Die Fragen sind so ausgelegt, daß sie die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränken. Im Gegensatz zum vorherigen Fall der Grenzschätzung entspricht jedoch die Größe des Klassenalphabets genau der Anzahl an Phonemen, wobei diese Anzahl normalerweise viel größer als 2 ist, und das in ["Method and Apparatur for Ginding the Best Splits in a Decision Tree for a Language Model for a Speech Recognizer, U.S. Patent 5263117] beschriebene Verfahren wird verwendet, um die Fragen für jeden Knoten zu formulieren.
- Das Ziel der vorliegenden Erfindung besteht darin, die gegebenen vektorquantisierten Eigenschaftsvektoren zum aktuellen Zeitpunkt t und die auf jeder Seite liegenden N Zeitrahmen heranzuziehen und zwei Entscheidungsbäume zu entwerfen. Der erste Entscheidungsbaum müßte angeben, mit welcher Wahrscheinlichkeit der aktuelle Rahmen eine Phonemgrenze ist, und der zweite Entscheidungsbaum müßte eine Verteilung über alle möglichen Klassen angeben, die das richtige Phonem zu diesem Zeitpunkt einnehmen kann und aus der sich die schlechtest mögliche Klasse des aktuellen Phonems ableiten läßt.
- Es wird ein Entscheidungsbaum, in dem an jedem Knoten die Frage richtig oder falsch (also binär) gestellt wird, und mit einer Wahrscheinlichkeitsverteilung an jedem Blatt erstellt. Beginnend an der Wurzel des Baums erfolgt durch Beantwortung einer Frage an jedem Knoten und danach durch Verfolgung eines ersten oder zweiten Zweigs (je nach dem, ob die Antwort richtig oder falsch lautet) ein Verlauf in Richtung eines Blatts. Die Frage an jedem Knoten wird in Abhängigkeit der verfügbaren Daten gestellt (also Wörter, die bereits gesprochen wurden) und ist so formuliert, daß die Wahrscheinlichkeitsverteilung an den Blättern so viele Informationen wie möglich über die vorausgesagte Quantität liefert.
- Ein wichtiges Ziel der vorliegenden Erfindung ist daher die Bereitstellung eines Verfahrens für den Entwurf und den Aufbau eines binären Entscheidungsbaums mit den Fragen richtig oder falsch an jedem Knoten, beginnend an der Wurzel des Baums und in Richtung eines Blatts laufend.
- Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums mit Fragen zu den verfügbaren bekannten Daten, die so formuliert sind, daß durch die Wahrscheinlichkeitsverteilung an den Blättern möglichst viele Informationen über die vorausgesagte Quantität gewährleistet sind.
- Ein weiteres Ziel der vorliegenden Erfindung ist die Bereitstellung eines Verfahrens zum Aufbau eines binären Entscheidungsbaums, der hauptsächlich zur Sprachmustererkennung verwendet wird.
- Weitere Ziele der vorliegenden Erfindung werden deutlich, wenn die nachfolgende Beschreibung in Verbindung mit den beiliegenden Zeichnungen gelesen wird.
- Die vorliegende Erfindung hat folgende Merkmale:
- (a) In der akustischen Labelsequenz werden unter Verwendung eines Entscheidungsbaums und der anhängigen Labels die Phonemgrenzpunkte geschätzt, das heißt, im Kontext der Labels auf beiden Seiten des aktuellen Labels wird die Entscheidung getroffen, ob das aktuelle Etikett den Grenzpunkt zwischen zwei Phonemen darstellt. Im übrigen Teil dieser Beschreibung wird der Begriff "Segment" verwendet, um das Zeitintervall zwischen zwei Grenzpunkten zu bezeichnen.
- (b) Eine Trefferzahl für alle möglichen Phoneme wird lediglich auf der Grundlage des Labels in einem Segment berechnet, das heißt, auf der Grundlage der Wahrscheinlichkeiten gemäß Entscheidungsbaum, der in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB pp. 113-114, vol. 37, No. 02A, Feb. 1994) beschrieben wird. Wie an früherer Stelle bereits angeführt wurde, könnten auch andere Trefferzahlmechanismen verwendet werden, um die Trefferzahl für ein Phonem zu berechnen. Die Phoneme werden als nächstes entsprechend ihrer Trefferzahl klassifiziert.
- (c) Es wird entschieden, daß alle Phoneme oberhalb einer bestimmten Klasse "gute" Phoneme sind, die im betrachteten Zeitsegment möglich sind, und daß die Phoneme unterhalb dieser Schwelle "schlechte" Phoneme sind, die im betrachteten Zeitsegment nicht möglich sind. Die Schwellenklasse ist nicht unveränderlich festgelegt, sondern ist abhängig von der Labelsequenz im aktuellen Segment und im danebenliegenden Segment, und wird unter Verwendung eines Entscheidungsbaums eingeholt. Die Entscheidung wird auf der Grundlage des Labels am Anfang des Segments und dem auf jeder Seite danebenliegenden Label getroffen.
- (d) Um Fehler durch sogenanntes "Ausästen" des Baums zu vermeiden, wird nun unter Verwendung von Phonemklassen die Anzahl der Kandidatenphoneme erhöht, das heißt, für jedes verwechselbare Phonem wird anhand der Trainingsdaten eine Liste erstellt. Bei der Dekodierung werden bei jedem "guten" Phonem, das aus Schritt (c) hervorgegangen ist, alle Phoneme in der Verwechslungsklasse des "guten" Phonems ebenfalls als "gute" Phoneme bezeichnet.
- (e) Eine andere Möglichkeit als die Entfernung aller "schlechten" Phoneme aus dem Suchbereich ist die sogenannte Bestrafung der Trefferzahl für diese schlechten Phoneme in allen nachfolgenden Berechnungen im schnellen Vergleich. All das wird vor dem eigentlichen schnellen Vergleich vorausberechnet.
- Die Implementierung des Algorithmus in den Dekoder findet in den beiden folgenden Schritten statt:
- Anhand einer Sequenz von Labels findet folgende Vorausberechnung vor dem schnellen Vergleich statt: zuerst erfolgt eine Berechnung der Phonemwahrscheinlichkeiten anhand eines Entscheidungsbaums gemäß Beschreibung in ("Channel-Bank- Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994). Danach werden die Grenzpunkte der Phoneme in der akustischen Labelsequenz unter Verwendung des oben beschriebenen Entscheidungsbaums auf der Grundlage der Wahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) bestimmt und die Klassen verschiedener Phoneme innerhalb aller Segmente berechnet. Danach wird die Schwellenklasse, die in jedem Segment angewendet werden sollte, ermittelt, indem der zweite oben beschriebene Entscheidungsbaum durchlaufen wird. Die oberhalb des Schwellenwerts liegenden Phoneme und die Phoneme in Vereinigung mit ihren Konfusionsklassen werden daraufhin als "gute" Phoneme bezeichnet, während die übrigen als "schlechte" Phoneme bezeichnet werden. Anschließend werden die Wahrscheinlichkeiten für die "schlechten" Phoneme im gegebenen Segment bestraft. Diese Bestrafung erfolgt sowohl mit den Phonemwahrscheinlichkeiten aus dem Entscheidungsbaum von ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) als auch mit den akustischen Wahrscheinlichkeiten des schnellen Vergleichs.
- Danach wird der Entscheidungsbaum des schnellen Vergleichs unter Verwendung der geänderten obigen Wahrscheinlichkeiten mit Hilfe der Verfahren, die in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994, "Transform Representation of the Spectra of Acoustic Speech Segments with Applications -I: General Approach and Speech Recognition", IEEE Transactions on Speech and Audio Processing, PP. 180-195, vol. 1, no. 2, April 1993) beschrieben sind, ausgeästet.
- Somit bestehen die Trainingsdaten, die für den Aufbau des Entscheidungsbaums verwendet werden, aus Gruppen von Aufzeichnungen von 2N+1 Prädiktoren (bezeichnet durch die Indizes -N, ...0, ...N) und der Klasse mit dem Index 0 (die als bekannt angenommen wird). Die entsprechende Klasse ist im Fall des ersten Entscheidungsbaums eine binäre Aufzeichnung, die angibt, ob der Rahmen an Index 0 eine Phonemgrenze ist. Die entsprechende Klasse ist im Fall des zweiten Entscheidungsbaums die Klasse des korrekten Phonems am Index 0. Die Alphabetklasse jedes Prädiktors geht in die hunderte, und die Klassenalphabetgröße ist entweder 2 im Fall des ersten Entscheidungsbaums oder normalerweise etwa 50 im Fall des zweiten Entscheidungsbaums. Die vorliegende Erfindung verwendet das nachfolgend beschriebene Verfahren, um die beiden Entscheidungsbäume aufzubauen (es wird darauf hingewiesen, daß die beiden Bäume unabhängig voneinander aufgebaut werden).
- Die Erfindung verwendet eine aufeinanderfolgende Datenpartitionierungs- und -suchstrategie, um die Fragen des Entscheidungsbaums zu bestimmen. Beginnend mit allen Trainingsdaten an der Wurzel des Entscheidungsbaums wählt die Erfindung einen der 2N+1-Prädiktoren und partitioniert das Alphabet des Prädiktors in zwei nicht-überlappende Gruppen. Für alle Trainingsaufzeichnungen am aktuellen Knoten wird die Aufzeichnung der ersten Gruppe zugeordnet, wenn der Wert des gewählten Prädiktors in der ersten Gruppe liegt; andernfalls wird sie der zweiten Gruppe zugeordnet. Somit werden die Trainingsdaten am aktuellen Knoten auf der Grundlage der Gruppenzugehörigkeit des ausgewählten Prädiktors zwischen zwei Kindknoten verteilt. Der Prädiktor und die Partitionierung des Alphabets werden so gewählt, daß, nachdem die Trainingsdaten in der oben beschriebenen Weise partitioniert wurden, die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt wird. Diese Vorgehensweise wird für jedes Kind des aktuellen Knotens wiederholt, bis die Klassenungewißheit an einem Knoten (die durch die Entropie der Klassenverteilung am Knoten quantifiziert wird) unter einen bestimmten Wert fällt oder bis die Menge der Trainingsdaten an einem Knoten unter einen bestimmten Wert fällt. Nachdem der Entscheidungsbaum aufgebaut ist, ist die Klassenverteilung an den Abschlußknoten des Baums verfügbar und wird zusammen mit den Fragen des Baums gespeichert.
- Für den Fall des ersten Entscheidungsbaums gibt die gespeicherte Menge einfach die Wahrscheinlichkeit an, mit der der Knoten eine Phonemgrenze ist. Für den Fall des zweiten Entscheidungsbaums ist die an den Knoten des Entscheidungsbaums verfügbare Menge eine Verteilung über alle möglichen Klassen, in denen das korrekte Phonem sein kann. Diese Verteilung wird in eine Zahl umgewandelt, eine Klasse für den schlimmsten Fall, so daß die Wahrscheinlichkeit, daß die Klasse des korrekten Phonems besser ist als die Klasse des schlimmsten Falls, am Knoten des Entscheidungsbaums gespeichert wird.
- Für den Fall eines einzelnen Prädiktors und einer Klasse beschreiben Nadas und Nahamoo (US-Patent 5236117) ein Verfahren zur Suche der besten binären Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt. Am aktuellen Knoten wird dieses Verfahren unabhängig von jedem der 2N+1-Prädiktoren angewandt und die beste Frage für diesen Prädiktor bestimmt. Danach wird der beste 2N+1-Prädiktor als derjenige bestimmt, der die Ungewißheit der Klassenzugehörigkeit am weitesten reduziert, und die Frage am aktuellen Knoten wird als beste Frage für diese Voraussage formuliert. Die Frage an einem Knoten könnte aber auch komplexer gestaltet werden, so daß sie von mehr als einem Prädiktor abhängig ist, oder es könnte ein Bestand an festen komplexen Fragen verwendet und die beste Frage als diejenige Frage, die die Ungewißheit in der vorausgesagten Klasse auf ein Mindestmaß beschränkt, gewählt werden.
- Ein weiteres Ziel der vorliegenden Erfindung besteht darin, ein Mittel zu beschreiben, durch das sich der oben beschriebene Entscheidungsbaum in einem Spracherkennungsmittel verwenden läßt. Während der Spracherkennung wird der erste Entscheidungsbaum durchlaufen, bis er einen der Endknoten erreicht, und die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, geht aus dem Endknoten des Entscheidungsbaums hervor. Dieser Wert wird mit einem vorbestimmten Schwellenwert verglichen, und wenn er größer ist als der Schwellenwert, dann wird von der Hypothese ausgegangen, daß die aktuelle Zeit ein Grenzpunkt ist. Anschließend wird für alle Zeitrahmen zwischen zwei hypothetischen Phonemgrenzen der zweite Entscheidungsbaum durchlaufen, und die Klasse des schlimmsten Falls für das korrekte Phonem geht für alle diese Zeitrahmen aus dem Endknoten des Entscheidungsbaums hervor. Die schlimmste aller Klassen des schlimmsten Falls wird als Klasse des schlimmsten Falls des korrekten Phonems in diesem Segment herangezogen. Danach werden die Trefferzahl für alle Phoneme auf der Grundlage dieses Segments berechnet und die Phoneme entsprechend ihrer Trefferzahl klassifiziert. Anschließend werden die Phoneme, die unterhalb der Klasse des schlimmsten Falls eingestuft werden, aus der Suche herausgenommen, so daß eine Kurzliste zulässiger Phoneme für jedes Segment zwischen zwei hypothetischen Phonemgrenzen entsteht. Diese Liste läßt sich weiter erhöhen, indem Phoneme herangezogen werden, die untereinander verwechselbar sind, und indem jedes Element einer "Verwechselbarkeitsliste" in die Kurzliste einbezogen wird, immer wenn ein Element aus der Verwechselbarkeitsliste über der Klasse des schlimmsten Falls eingestuft wird.
- Diese Information wird im Rahmen mit der höchsten Wahrscheinlichkeit verwendet, um zu bestimmen, ob ein Vergleich für ein gegebenes Wort durchgeführt werden soll, indem der Suchbereich des Erkennungsmittels auf die Kurzliste beschränkt wird und sich nicht mehr auf das gesamte Alphabet bezieht. Vor dem Vergleich für ein gegebenes Phonem in einem Wort wird die oben definierte Kurzliste daraufhin geprüft, ob das Phonem möglicherweise zur gegebenen Zeit auftreten kann, und wenn das Phonem in der Kurzliste nicht enthalten ist, dann wird der Vergleich für das aktuelle Wort nicht einbezogen.
- Das Verfahren und die Vorrichtung in Übereinstimmung mit der vorliegenden Erfindung sind vorteilhaft, weil (a) sie eine schnelle und akkurate Möglichkeit bieten, Phonemgrenzen zu schätzen, indem sie ermöglichen, daß ein Vergleich eines Phonems innerhalb genau definierter Grenzen stattfindet, was zu einer höheren Genauigkeit führt, (b) sie eine schnelle und akkurate Möglichkeit bieten, die Klassengrenzen des korrekten Phonems zu schätzen, ohne Kenntnisse über die Identität des korrekten Phonems zu benötigen, wodurch es möglich ist, eine Kurzliste zulässiger Phoneme zu erstellen, was wesentlich dazu beiträgt, den Suchbereich des Spracherkennungsmittels zu reduzieren. Darüber hinaus ist der Zusatzaufwand für das Durchlaufen der beiden Entscheidungsbäume vernachlässigbar, da die im Entscheidungsbaum gestellten Fragen lediglich die Gruppenzugehörigkeit des ausgewählten Prädiktors betreffen.
- Fig. 1 ist eine Darstellung phonetischer Grundformen für zwei Wörter;
- Fig. 2 ist eine schematische Darstellung eines Markov-Modells für ein Phonem;
- Fig. 3 zeigt ein Teilbeispiel einer Tabelle, die ein statistisches Markov-Modell darstellt, das durch verschiedene Ausdrücke geschult wurde.
- Fig. 4 ist ein Flußdiagramm, welches ein Verfahren für den Aufbau eines Entscheidungsbaums zur Voraussage der Wahrscheinlichkeitsverteilung einer Klasse zu einem gegebenen Zeitpunkt in Übereinstimmung mit der vorliegenden Erfindung beschreibt.
- Fig. 5 ist eine schematische Darstellung für den Aufbau eines Entscheidungsbaums.
- Fig. 6 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
- Fig. 7 ist ein Flußdiagramm eines automatischen Spracherkennungssystems, das zwei Entscheidungsbäume verwendet.
- Fig. 4 ist ein Flußdiagramm, das das Verfahren zum Aufbau eines Entscheidungsbaums zur Voraussage einer Wahrscheinlichkeitsverteilung der Klassenwerte zum Zeitpunkt t anhand der quantisierten Eigenschaftsvektoren zu den Zeitpunkten t-N, t-N+1, ..., t, t+N abbildet. Zum Zweck der Beschreibung der Arbeitsweise der vorliegenden Erfindung werden die quantisierten Eigenschaftsvektoren fortan als Labels bezeichnet. Die im Entscheidungsbaum verwendeten Prädiktoren sind die Labels zu den Zeitpunkten t-N, ..., t..., t+N, dargestellt als 1-N, ... 1&sup0;, ..., 1+N, und die vorausgesagte Menge ist entweder eine Verteilung über zwei Klassen wie im Fall des grenzerkennenden Entscheidungsbaums, das heißt, die Wahrscheinlichkeit, daß der Zeitpunkt t eine Phonemgrenze ist, oder eine Verteilung über alle möglichen Klassen des korrekten Phonems zum Zeitpunkt t, wie im Fall des klassenerkennenden Entscheidungsbaums. die Größe des Klassenalphabets im zweiten Fall ist gleich der Größe des Phonemalphabets, das als P bezeichnet wird. Die Größe des Labelalphabets wird als L bezeichnet. Normalerweise reicht P von 50-100, und L geht in die hunderte; zum Zweck der Beschreibung der vorliegenden Erfindung gehen wir jedoch von der Annahme aus, daß L = 4, P = 3 und N = 1 ist. Wir stellen diese vier Prädiktorwerte als 1&sub1;, 1&sub2;, 1&sub3; und 1&sub4; und die 3 Klassenwerte als p&sub1;, p&sub2; und p&sub3; dar. Das nachstehend beschriebene Verfahren verwendet die Vorgehensweise von [1], um die Binärpartitionierung des Prädiktoralphabets an einem Knoten des Entscheidungsbaums zu bestimmen, die geeignet ist für den Fall des klassenerkennenden Entscheidungsbaums, wo die Anzahl der Klassen größer ist als 2. Bei dem grenzenerkennenden Entscheidungsbaum jedoch, bei dem die Anzahl der Klasse 2 ist, läßt sich die US-Patentschrift 5263117 mit dem Titel "Method and Apparatus for Finding the Best Splits in a Decision Tree for a Language Model" auf die einfachere optimale Strategie von L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone, "Classification and Regression Trees", Wadsworth, Inc. 1984 reduzieren.
- Die Trainingsdaten bestehen aus einer Reihe von transkribierten Sätzen, wobei die akustische Version jedes Satzes in eine Labelfolge quantiziert wird. Bei der Transkription der Daten ist es des weiteren möglich, jedem Zeitrahmen einen Klassenwert zuzuordnen.
- Wenn das Ereignis 1pk als ein Ereignis definiert wird, bei dem der Wert des Prädiktors 1k 1i und der Klassenwert p ist, wird als nächstes eine Konfusionsmatrix erzeugt (Block 2), die die Zählungen aller möglichen Ereignisse (1ik, p) aufzählt. Die Matrix hat L-Reihen und P-Spalten, und der Eintrag, der der i- ten Reihe und j-ten Spalte entspricht, stellt dar, wie oft der Wert des Prädiktors 1k bei den Trainingsdaten des aktuellen Knotens des Entscheidungsbaums (beim Wurzelknoten werden alle Trainingsdaten verwendet) gleich 1i ist, wenn der Klassenwert Pj ist. Die Zählungen werden dann in gemeinsame Wahrscheinlichkeiten umgewandelt, indem die Summe aller Einträge in die Matrix berechnet und anschließend jeder Eintrag der Matrix durch diese Summe dividiert wird. Da 2N+1- Prädiktoren vorhanden sind, können 2N+1 gemeinsame Verteilungsmatrixe erzeugt werden, eine für jeden Prädiktor. Ein Beispiel für diese gemeinsamen Verteilungsmatrizen ist in Tabelle 2 für die 3 Prädiktoren 1&supmin;¹, 1&sup0; und 1&spplus;¹ dargestellt. TABELLE 2
- In Block 3 beginnen wir mit der gemeinsamen Verteilung des kten Prädiktors 1k und der Klasse p und erzeugen mit Hilfe des oben beschriebenen Verfahrens der US-Patentschrift 5236117 eine binäre Partitionierung SLkopt, SLkopt der Werte des Prädiktors 1k. Für jeden Prädiktor wird mit anderen Worten das Prädiktoralphabet [11, 12, 13, 14] in zwei ergänzende Reihen, SLkopt und SLkopt (zum Beispiel SLkopt = [1&sub1;, 1&sub2;] und SLkopt = [1&sub3;, 1&sub4;]), partitioniert, wobei das Kriterium für die Auswahl der Partitionierung die Minimierung der Klassenunbestimmtheit ist. Die Entropie der Klassenverteilung wird als Maß für die Unbestimtheit verwendet. Das Verfahren wird im einzelnen in der US-Patentschrift 5236117 beschrieben. Der Prozeß wird von jedem Prädiktor unabhängig durchgeführt. Bei dem genannten Beispiel führt eine Iteration des Verfahrens der US-Patentschrift 5236117, Spalte 4, Zeile 30-Spalte 9, Zeile 25 zu einer fast optimalen Partitionierung der verschiedenen Prädiktoren:
- Für jeden der Prädiktoren 1k können die Trainigsdaten beim aktuellen Knoten auf der Grundlage der Partitionierung SLkopt, SLkopt in zwei Teile geteilt werden, und die Wahrscheinlichkeit dieser beiden Kindknoten ergibt sich wie folgt:
- und
- Die auf der Partitionierung beruhende Klassenverteilung an den beiden Kindknoten kann wie folgt berechnet werden:
- und
- Die Entropie für jeden der Kindknoten kann wie für den Elternknoten berechnet werden, und die durchschnittliche Entropie der beiden Kindknoten kann berechnet werden als
- Die Werte für dieses Beispiel sind in Tabelle 4 unten dargestellt.
- In Block 4 wird die Reduzierung der Klassenunbestimmtheit in Verbindung mit der besten Frage für jeden Prädiktor berechnet, und der Prädiktor mit der größten Reduzierung der Unbestimmtheit wird ausgewählt. Die Reduzierung der Unbestimmtheit aufgrund einer Partitionierung basierend auf SLkavg wird als H(p-H k a v g) berechnet. In dem betrachteten Beispiel haben wird H (p) = 1,58, H&supmin;¹a v g = 1,455, H&sup0;a v g = 1,409 und H&spplus;¹a v g = 1,470. Der ausgewählte Prädiktor ist somit 1&sup0;, da dies die maximale Reduzierung der Unbestimmtheit der vorausgesagten Klasse ergibt.
- In Block 5 werden die Trainingsdaten beim aktuellen Knoten auf der Grundlage der optimalen Partitionierung des beim aktuellen Knoten ausgewählten Prädiktors in zwei Teile geteilt. Abhängig von der Klassenunbestimmtheit und dem Umfang der Trainingsdaten beim Kindknoten geht der Prozeß anschließend zurück zu Block 2 und beginnt nur auf der Grundlage der Trainingsdaten beim Kindknoten erneut mit der Neuberechnung der gemeinsamen Verteilung. Die Verarbeitung bei einem Kindknoten endet, wenn die Klassenunbestimmtheit beim Kindknoten unter einen festgelegten Schwellenwert fällt oder wenn der Umfang der Trainingsdaten bei einem Kindknoten unter einen festgelegten Schwellenwert fällt.
- In Fig. 5 ist schematisch eine Vorrichtung zum Aufbau des Entscheidungsbaums dargestellt. Die Vorrichtung kann zum Beispiel aus einem entsprechend programmierten Computersystem bestehen. Bei diesem Beispiel besteht die Vorrichtung aus einem allgemeinen digitalen Prozessor 8 mit einer Tastatur 9 zur Dateneingabe, einer Anzeige 10, einem Direktzugriffsspeicher 11 und einer Speichereinheit 12. Der Prozessor 8 berechnet anhand der Trainingsdaten die gemeinsame Verteilung des Prädiktors 1k und den Klassenwert p für den ersten Entscheidungsbaum für alle 2n+1-Prädiktoren unter Verwendung aller Trainingsdaten und speichert die geschätzte gemeinsame Verteilung zusammen mit der Klassenverteilung in der Speichereinheit 12.
- Als nächstes berechnet der Prozessor 8 nach dem Algorithmus der US-Patentschrift 5236117 die beste Partitionierung jedes Prädiktorwerts, so daß die maximale Reduzierung der Klassenbestimmtheit aufgrund der Partitionierung erreicht wird. Der Prozessor 8 wählt den besten Prädiktor 1* aus und teilt die Trainingsdaten aufgrund der besten Partitionierung für den Prädiktor 1* in zwei Kindknoten.
- Der Prozessor 10 wiederholt das oben dargelegte Verfahren für die Daten programmgesteuert bei jedem der beiden Kindknoten, bis die Klassenentropie an dem Knoten unter einen festgelegten Schwellenwert fällt oder bis der Umfang der Trainingsdaten an einem Knoten unter einen festgelegten Schwellenwert fällt.
- Nachdem der Entscheidungsbaum aufgebaut ist, berechnet der Prozessor immer noch programmgesteuert eine Verteilung der Klassenwerte für jeden Knoten des Entscheidungsbaums und speichert diese in der Speichereinheit 12. Der Prozeß wird wiederholt, um den zweiten Entscheidungsbaum aufzubauen. Im Fall des zweiten Entscheidungsbaums wird die Wahrscheinlichkeitsverteilung über alle mögliche Klassen, die an jedem Knoten des Entscheidungsbaums gespeichert ist, in eine einzelne Zahl umgewandelt, die Klasse des schlimmsten Falls für das korrekte Phonem, indem die Klasse des schlimmsten Falls als Klassenwert gewählt wird, bei dem die kumulative Wahrscheinlichkeitsverteilung der Klassen einen festgelegten Schwellenwert überschreitet.
- Fig. 6 ist ein Blockdiagramm eines automatischen Spracherkennungssystems, das den Entscheidungsbaum der vorliegenden Erfindung verwendet. Das System in Fig. 6 umfaßt ein Mikrofon 13 zur Umwandlung menschlicher Sprache in ein elektrisches Signal. Das vom Mikrofon kommende Signal wird von einem Akustikprozessor und Labelvergleich 14 verarbeitet, der den am besten übereinstimmenden akustischen Kennzeichnungsprototyp im akustischen Labelprototypspeicher 15 sucht. Daraufhin wird eine Wahrscheinlichkeitsverteilung der Phonemgrenzen 16a für jeden Zeitrahmen erstellt, und zwar unter Verwendung des ersten Entscheidungsbaums 17a, der in der vorliegenden Erfindung beschrieben wird. Diese Wahrscheinlichkeiten werden mit einem Schwellenwert verglichen, und einige Zeitrahmen werden als Grenzen zwischen Phonemen identifiziert. Anschließend wird ein akustischer Speicher 16b für alle Phoneme berechnet, die sich zwischen jedem gegebenen Paar hypothetischer Grenzen befinden, und die Phoneme werden auf der Grundlage dieser Trefferzahl klassifiziert. Es wird darauf hingewiesen, daß diese Trefferzahl auf jede beliebige Weise berechnet werden kann. Die einzige Einschränkung hierbei ist, daß die Trefferzahl auf der Grundlage desselben Verfahrens berechnet werden kann wie beim Aufbau des zweiten Entscheidungsbaums. Danach wird der zweite Entscheidungsbaum 17b für jeden Zeitrahmen durchlaufen, um die Klasse des schlimmsten Falls des korrekten Phonems zu diesem Zeitpunkt zu erhalten. Unter Verwendung der in 16b berechneten Phonemtrefferzahl und Phonemklasse wird eine Kurzliste zulässiger Phoneme 16c für jeden Zeitrahmen erstellt. Diese Daten werden verwendet, um eine Untergruppe akustischer Wortmodelle im Speicher 19 auszuwählen, und ein schneller akustischer Wortvergleichsprozessor 18 vergleicht den Labelstring aus dem akustischen Prozessor 14 mit dieser Untergruppe abgekürzter akustischer Wortmodelle, um ein Ausgangssignal zu erzeugen.
- Der Ausgang des schnellen akustischen Wortvergleichsprozessors besteht aus mindestens einem Wort. Tm allgemeinen jedoch gibt der schnelle akustische Wortvergleichsprozessor mehrere Kandidatenwörter aus. Jedes Wort, das vom schnellen akustischen Wortvergleichsprozessor 18 erstellt wird, wird in einen Wortkontextvergleich 20 eingegeben, der den Wortkontext mit Sprachmodellen im Speicher 21 vergleicht und mindestens ein Kandidatenwort ausgibt. Anhand der Erkennungskandidaten, die vom schnellen akustischen Wortvergleich und dem Sprachmodell erstellt werden, vergleicht der detaillierte akustische Vergleich 22 den Labelstring vom akustischen Prozessor 14 mit den detaillierten akustischen Wortmodellen im Speicher 23 und gibt entsprechend einer Spracheingabe einen Wortstring aus.
- Fig. 7 beschreibt die Blöcke 16a-c und 17a-b ausführlich. Anhand des akustischen Labelstrings vom akustischen Prozessor 14 durchläuft der kontextabhängige Grenzschätzprozeß 16 den ersten Entscheidungsbaum 17a für jeden Zeitrahmen und verwendet dabei die Labels zur aktuellen Zeit und die Labels zu den unmittelbar voranstehenden und nachfolgenden Zeiten als Prädiktoren, bis er einen Endknoten des Entscheidungsbaums erreicht. Daraufhin wird die Wahrscheinlichkeit, daß die aktuelle Zeit eine Phonemgrenze ist, von der gespeicherten Klassenverteilung am Blatt aufgegriffen und mit einem Schwellenwert verglichen. Ist die Wahrscheinlichkeit größer als der Schwellenwert, dann wird die Hypothese aufgestellt, daß die aktuelle Zeit eine Phonemgrenze ist.
- Anschließend wird für jedes Phonem zwischen jedem Grenzpunktepaar eine akustische Trefferzahl berechnet, und die Phoneme werden auf der Grundlage dieser Trefferzahlen klassifiziert. Es kommen mehrere Verfahren in Frage, um diese Trefferzahl zu berechnen. Beispielsweise ließe sich ein gewöhnliches Berechnungsverfahren auf der Grundlage des Markovschen Modells oder eine Kanal-Bank-Berechnung einsetzen, wie sie in ("Channel-Bank-Based Thresholding to Improve Search Time in the Fast Match", IBM TDB SS. 113-114. Vol. 37, Nr. 02A, Feb. 1994) verwendet wird, oder aber ein Trefferzahlmechanismus auf der Grundlage eines Entscheidungsbaums, wie er in [Nahamoo, M. Padmanabhan, M.A. Picheny, P.S. Gopalkrishnan mit dem Titel "A Decision Tree Based Pruning Strategy for the Acoustic Fast Match", IBM Attorney Docket YO 996-059] beschrieben ist. Die einzige Einschränkung des Trefferzahlmechanismus besteht darin, daß derselbe Mechanismus wie bei der Einholung der Trainingsdaten für den zweiten Entscheidungsbaum verwendet werden sollte.
- Im Anschluß daran wird für jeden Zeitrahmen der zweite Entscheidungsbaum 17b durchlaufen, und zwar unter Verwendung des Labels zur aktuellen Zeit und unter Verwendung der vorangegangenen und nachfolgenden Zeiten als Prädiktoren, bis ein Endknoten des Entscheidungsbaums erreicht ist. Die Klasse des schlimmsten Falls für das korrekte Phonem wird aus den Daten ausgelesen, die an diesem Knoten gespeichert sind. Diese Klasse wird als Klasse des schlimmsten Falls für das korrekte Phonem zu diesem Zeitpunkt betrachtet. Danach wird die schlimmste aller Klassen des schlimmsten Falls zwischen jeweils zwei nebeneinander liegenden hypothetischen Phonemgrenzen als Klasse des schlimmsten Falls für das korrekte Phonem im Segment zwischen den Phonemgrenzen herangezogen. Alle Klassen, deren Phoneme schlimmer sind als diese Klasse des schlimmsten Falls werden daraufhin im aktuellen Segment ausgelassen, und für das Segment wird eine Kurzliste zulässiger Phoneme erstellt.
- Nun ist es aber häufig der Fall, daß sich manche Phoneme ähnlich sind und leicht verwechselt werden. Eine Auflistung solcher leicht verwechselbarer Phoneme läßt sich auf der Grundlage der Trainingsdaten erstellen, und die oben beschriebene Kurzliste läßt sich erweitern, indem diese Listen leicht verwechselbarer Phoneme hinzugefügt werden. Wenn beispielsweise die Klasse eines beliebigen Elements in einer Auflistung solcher leicht verwechselbaren Phoneme besser ist als die Klasse des schlimmsten Falls, dann wird die gesamte Gruppe der leicht verwechselbaren Phoneme in die Kurzliste aufgenommen.
- Es wird darauf hingewiesen, daß die obige Beschreibung nur zur Veranschaulichung der vorliegenden Erfindung dient. Der Fachmann auf diesem Gebiet weiß, daß verschiedene Alternativen und Veränderungen möglich sind, ohne den Anwendungsbereich der vorliegenden Erfindung verlassen zu müssen. Deshalb verfolgt das Prinzip der vorliegenden Erfindung die Absicht, alle möglichen Alternativen, Veränderungen und Abweichungen einzuschließen, die in den Anwendungsbereich der anhängigen Ansprüche fallen. TABELLE 1 DIE BEIDEN BUCHSTABEN STEHEN GROB FÜR DEN KLANG DES ELEMENTS. ZWEI ZIFFERN STEHEN FÜR VOKALE: ERSTE ZIFFER: BETONUNG EINES KLANGS. ZWEITE ZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER EINE EINZIGE STELLE GILT ALS KONSONANT. EINZELZIFFER: AKTUELLE IDENTIFIKATIONSNUMMER
Claims (10)
1. Ein Verfahren zur Spracherkennung, das folgende Schritte
umfaßt:
a) Eingabe mehrerer Wörter der Trainingsdaten;
b) Training eines oder mehrerer binärer erster
Entscheidungsbäume, um an jedem Knoten auf der
Grundlage von Kontextdaten innerhalb der
Trainingsdaten eine möglichst informative Frage zu
stellen, wobei jeder binäre erste Entscheidungsbaum
einem anderen Zeitpunkt in einer Sequenz der
Trainingsdaten entsprechen kann;
c) Durchlaufen eines Entscheidungsbaums für jeden
Zeitrahmen einer Spracheingabesequenz, um für jeden
Zeitrahmen eine Wahrscheinlichkeitsverteilung zu
bestimmen, wobei die Wahrscheinlichkeitsverteilung
die Wahrscheinlichkeit ist, daß ein Knoten eine
Phonemgrenze ist;
d) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit
einem Schwellenwert zur Bestimmung einiger Zeitrahmen
als Grenzen zwischen Phonemen;
e) Bereitstellung einer akustischen Trefferzahl für alle
Phoneme zwischen jedem gegebenen Grenzenpaar
f) Klassifizierung der Phoneme auf der Grundlage dieser
Trefferzahl;
g) Ausgabe eines Erkennungsergebnisses in Abhängigkeit
dieser Trefferzahl.
2. Das Verfahren gemäß Anspruch 1, das weiterhin folgende
Schritte umfaßt:
h) Durchlaufen eines Entscheidungsbaums oder mehrerer
Entscheidungsbäume aus einer zweiten Gruppe von
Entscheidungsbäumen für jeden Zeitrahmen in einer
Spracheingabesequenz zur Bestimmung einer zweiten
Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über
alle Klassen ist, die für das korrekte Phonem möglich
sind, um eine Klasse des schlimmsten Falls eines
richtig erkannten Phonems einzuholen, indem die
Klasse des schlimmsten Falls als Klassenwert gewählt
wird, bei dem die kumulative
Wahrscheinlichkeitsverteilung der Klassen einen
bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls Bestimmung
zur Klasse des absolut schlimmsten Falls zwischen
zwei beliebigen nebeneinander liegenden Phonemgrenzen
der Klasse des schlimmsten Falls des richtig
erkannten Phonems zwischen den Phonemgrenzen;
j) Aussparung aller Phoneme, deren Klasse schlimmer ist
als diese Klasse des absolut schlimmsten Falls im
aktuellen Segment;
k) Erstellung einer Kurzliste von Phonemen für das
Segment;
l) Ausgabe eines Erkennungsergebnisses, wenn die
Kurzliste des Erkennungsergebnisses eine Kurzliste
aus Wörtern ist.
3. Verfahren gemäß Anspruch 1, das weiterhin die folgenden
Schritte umfaßt:
h) Durchlaufen eines oder mehrerer Entscheidungsbäume
aus einer zweiten Gruppe an Entscheidungsbäumen für
jeden Zeitrahmen einer Spracheingangssequenz zur
Bestimmung einer zweiten
Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über
alle möglichen Klassen ist, in die ein Phonem
aufgenommen werden kann, um eine Klasse des
schlimmsten Falls eines richtig erkannten Phonems zu
erhalten, und zwar durch Bestimmung der Klasse des
schlimmsten Falls zum Klassenwert, bei dem die
kumulative Wahrscheinlichkeitsverteilung der Klassen
einen bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls Bestimmung
zur Klasse des absolut schlimmsten Falls zwischen
zwei beliebigen nebeneinander liegenden Phonemgrenzen
der Klasse des schlimmsten Falls des richtig
erkannten Phonems zwischen den Phonemgrenzen;
j) Aussparung aller Phoneme, deren Klasse schlimmer ist
als diese Klasse des absolut schlimmsten Falls im
aktuellen Segment;
k) Erstellung einer Kurzliste von Phonemen für das
Segment;
l) Vergleich bestandteilbildender Phoneme eines Wortes
in einem Vokabular, um festzustellen, ob das Wort in
der Kurzliste enthalten ist, und Erstellung einer
Kurzliste von Wörtern;
l) Ausgabe eines Erkennungsergebnisses durch Vergleich
der Wörter aus der Kurzliste mit einem Sprachmodell,
um die am meisten wahrscheinliche Wortübereinstimmung
für die Spracheingangssequenz zu bestimmen.
4. Ein Verfahren zur Spracherkennung, das die folgenden
Schritte umfaßt:
a) Eingabe eines Strings von Sprachelementen, die
Trainingsdaten darstellen;
b) Umwandlung der Elemente der Trainingsdaten in
elektrische Signale;
c) Darstellung des elektrischen Signals der
Trainingsdaten als prototyp-quantisierte
Eigenschaftsvektoren, wobei ein Eigenschaftsvektor
einen gegebenen Zeitrahmen darstellt;
d) Zuordnung eines Klassenlabels für den prototyp-
quantisierten Eigenschaftsvektor zu jedem Prototyp-
Eigenschaftsvektor;
e) Aufbau eines oder mehrerer Entscheidungsbäume für
unterschiedliche Zeiten in den Trainingsdaten, wobei
jeder Baum einen Wurzelknoten und eine Mehrzahl an
Kindknoten aufweist, bestehend aus den folgenden
Schritten:
i. Bildung einer Gruppe von
Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und
eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1
Prädiktoren Eigenschaftsvektorlabels an 2K+1
aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und
die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige
darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im
Fall des ersten Entscheidungsbaums gehört oder zum
korrekten Phonem im Fall des zweiten Entscheidungsbaums
gehört;
ii. Berechnung der geschätzten verbundenen
Verteilung der Prädiktoren 1k und des Phonems p für 2K+1
Prädiktoren unter Verwendung der Trainingsdaten, wobei die
Prädiktoren Eigenschaftsvektorlabels zu den Zeitpunkten t-
K, ..., t, ..., t+K sind und p das Phonem zum Zeitpunkt t
ist;
iii. Speicherung der geschätzten verbundenen
Verteilung von 1k und p und einer entsprechenden
Verteilung für jeden Prädiktor 1k am Wurzelknoten;
iv. Berechnung der besten Partitionierung der Werte,
die der Prädiktor 1k für jedes 1k annehmen kann, um die
Phonemungewißheit an jedem Knoten auf ein Mindestmaß zu
beschränken;
v. Auswahl des Prädiktors 1k, dessen
Partitionierung zur niedrigsten Ungewißheit führt, und
Partitionierung der Trainingsdaten in zwei Kindknoten, und
zwar auf der Grundlage der computergesteuerten
Partitionierung 1k, wobei jedem Kindknoten auf der
Grundlage der Trainingsdaten am Kindknoten eine
Klassenverteilung zugeordnet wird;
f) Wiederholung der Bestimmung für jeden Kindknoten, ob
der Umfang an Trainingsdaten am Kindknoten größer ist
als ein Schwellenwert;
g) Eingabe eines Sprachelements, das erkannt werden
soll;
h) Umwandlung eines Sprachelements in ein elektrisches
Signal;
i) Darstellung des elektrischen Signals als Serie
quantisierter Eigenschaftsvektoren;
j) Vergleich der Serie quantisierter
Eigenschaftsvektoren mit den gespeicherten Prototyp-
Eigenschaftsvektoren zur Bestimmung einer engsten
Übereinstimmung und Zuordnung eines Eingangslabels zu
jedem Vektor aus der Serie der Eigenschaftsvektoren
entsprechend dem Label des am engsten
übereinstimmenden Eigenschaftsvektors;
k) Durchlaufen eines Entscheidungsbaums für jeden
Zeitrahmen einer Spracheingabesequenz, um für jeden
Zeitrahmen eine Wahrscheinlichkeitsverteilung zu
bestimmen, wobei die Wahrscheinlichkeitsverteilung
die Wahrscheinlichkeit ist, daß ein Knoten eine
Phonemgrenze ist;
l) Vergleich der Wahrscheinlichkeiten der Zeitrahmen mit
einem Schwellenwert zur Bestimmung einiger Zeitrahmen
als Grenzen zwischen Phonemen;
m) Bereitstellung einer akustischen Trefferzahl für alle
Phoneme zwischen jedem gegebenen Grenzenpaar;
n) Klassifizierung der Phoneme auf der Grundlage dieser
Trefferzahl;
o) Ausgabe eines Erkennungsergebnisses in Abhängigkeit
dieser Trefferzahl.
5. Das Verfahren gemäß Anspruch 4, das weiterhin folgende
Schritte umfaßt:
Durchlaufen eines Entscheidungsbaums oder mehrerer
Entscheidungsbäume aus einer zweiten Gruppe von
Entscheidungsbäumen für jeden Zeitrahmen in einer
Spracheingabesequenz zur Bestimmung einer zweiten
Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über alle
Klassen ist, die für das korrekte Phonem möglich sind, um
eine Klasse des schlimmsten Falls eines richtig erkannten
Phonems einzuholen, indem die Klasse des schlimmsten Falls
als Klassenwert gewählt wird, bei dem die kumulative
Wahrscheinlichkeitsverteilung der Klassen einen bestimmten
Schwellenwert überschreitet;
Unter den Klassen des schlimmsten Falls Bestimmung zur
Klasse des absolut schlimmsten Falls zwischen zwei
beliebigen nebeneinander liegenden Phonemgrenzen der
Klasse des schlimmsten Falls des richtig erkannten Phonems
zwischen den Phonemgrenzen;
Aussparung aller Phonemgrenzen, deren Klasse schlimmer ist
als diese Klasse des absolut schlimmsten Falls im
aktuellen Segment;
Erstellung einer Kurzliste für das Segment;
Ausgabe eines Erkennungsergebnisses als Antwort auf die
Kurzliste.
6. Eine Vorrichtung zur Spracherkennung, die folgendes
umfaßt:
a) Mittel zur Eingabe mehrerer Trainingsdatenwörter;
b) Mittel für das Training eines oder mehrerer binärer
erster Entscheidungsbäume, um an jedem Knoten auf der
Grundlage von Kontextdaten innerhalb der
Trainingsdaten eine möglichst informative Frage zu
stellen, wobei jeder binäre erste Entscheidungsbaum
einem anderen Zeitpunkt in einer Sequenz der
Trainingsdaten entsprechen kann;
c) Mittel für das Durchlaufen eines Entscheidungsbaums
für jeden Zeitrahmen einer Spracheingabesequenz, um
für jeden Zeitrahmen eine
Wahrscheinlichkeitsverteilung zu bestimmen, wobei die
Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit
ist, daß ein Knoten eine Phonemgrenze ist;
d) Mittel für den Vergleich der Wahrscheinlichkeiten der
Zeitrahmen mit einem Schwellenwert zur Bestimmung
einiger Zeitrahmen als Grenzen zwischen Phonemen;
e) Mittel für die Bereitstellung einer akustischen
Trefferzahl für alle Phoneme zwischen jedem gegebenen
Grenzenpaar;
f) Mittel für die Klassifizierung der Phoneme auf der
Grundlage dieser Trefferzahl;
g) Mittel für die Ausgabe eines Erkennungsergebnisses in
Abhängigkeit dieser Trefferzahl.
7. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes
umfaßt:
h) Mittel für das Durchlaufen eines Entscheidungsbaums
oder mehrerer Entscheidungsbäume aus einer zweiten
Gruppe von Entscheidungsbäumen für jeden Zeitrahmen
in einer Spracheingabesequenz zur Bestimmung einer
zweiten Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über
alle Klassen ist, die für das korrekte Phonem möglich
sind, um eine Klasse des schlimmsten Falls eines
richtig erkannten Phonems einzuholen, indem die
Klasse des schlimmsten Falls als Klassenwert gewählt
wird, bei dem die kumulative
Wahrscheinlichkeitsverteilung der Klassen einen
bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls ein Mittel
zur Bestimmung zur Klasse des absolut schlimmsten
Falls zwischen zwei beliebigen nebeneinander
liegenden Phonemgrenzen der Klasse des schlimmsten
Falls des richtig erkannten Phonems zwischen den
Phonemgrenzen;
j) Mittel zur Aussparung aller Phonemgrenzen, deren
Klasse schlimmer ist als diese Klasse des absolut
schlimmsten Falls im aktuellen Segment;
k) Mittel zur Erstellung einer Kurzliste für das
Segment;
l) Mittel zur Ausgabe eines Erkennungsergebnisses, wenn
die Kurzliste des Erkennungsergebnisses eine
Kurzliste von Wörtern ist.
8. Die Vorrichtung gemäß Anspruch 6, die weiterhin folgendes
umfaßt:
h) Mittel für das Durchlaufen eines Entscheidungsbaums
oder mehrerer Entscheidungsbäume aus einer zweiten
Gruppe von Entscheidungsbäumen für jeden Zeitrahmen
in einer Spracheingabesequenz zur Bestimmung einer
zweiten Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über
alle Klassen ist, die für das korrekte Phonem möglich
sind, um eine Klasse des schlimmsten Falls eines
richtig erkannten Phonems einzuholen, indem die
Klasse des schlimmsten Falls als Klassenwert gewählt
wird, bei dem die kumulative
Wahrscheinlichkeitsverteilung der Klassen einen
bestimmten Schwellenwert überschreitet;
i) Unter den Klassen des schlimmsten Falls ein Mittel
zur Bestimmung zur Klasse des absolut schlimmsten
Falls zwischen zwei beliebigen nebeneinander
liegenden Phonemgrenzen der Klasse des schlimmsten
Falls des richtig erkannten Phonems zwischen den
Phonemgrenzen;
j) Mittel zur Aussparung aller Phonemgrenzen, deren
Klasse schlimmer ist als diese Klasse des absolut
schlimmsten Falls im aktuellen Segment;
k) Mittel zur Erstellung einer Kurzliste der Phoneme für
das Segment;
l) Mittel für den Vergleich bestandteilbildender Phoneme
eines Wortes in einem Vokabular, um festzustellen, ob
das Wort in der Kurzliste enthalten ist, und die
Erstellung einer Kurzliste von Wörtern;
l) Mittel für die Ausgabe eines Erkennungsergebnisses
durch Vergleich der Wörter aus der Kurzliste mit
einem Sprachmodell, um die am meisten wahrscheinliche
Wortübereinstimmung für die Spracheingangssequenz zu
bestimmen.
9. Eine Vorrichtung zur Spracherkennung, die folgendes
umfaßt:
a) Mittel zur Eingabe eines Strings von Sprachelementen,
die Trainingsdaten darstellen;
b) Mittel zur Umwandlung der Elemente der Trainingsdaten
in elektrische Signale;
c) Mittel zur Darstellung des elektrischen Signals der
Trainingsdaten als prototyp-quantisierte
Eigenschaftsvektoren, wobei ein Eigenschaftsvektor
einen gegebenen Zeitrahmen darstellt;
d) Mittel zur Zuordnung eines Klassenlabels für den
prototyp-quantisierten Eigenschaftsvektor zu jedem
Prototyp-Eigenschaftsvektor;
e) Mittel zum Aufbau eines oder mehrerer binärer
Entscheidungsbäume für unterschiedliche Zeiten in den
Trainingsdaten, wobei jeder Baum einen Wurzelknoten
und eine Mehrzahl an Kindknoten aufweist, bestehend
aus den folgenden Schritten:
i. Mittel zur Bildung einer Gruppe von
Trainingsaufzeichnungen, die 2K+1 Prädiktoren, 1k, und
eine vorausgesagte Klasse, p, umfassen, wobei die 2K+1
Prädiktoren Eigenschaftsvektorlabels an 2K+1
aufeinanderfolgenden Zeiten t-K, ..., t, ..., t+K sind und
die vorausgesagte Klasse eine binäre Aufzeichnungsanzeige
darüber ist, ob der Zeitpunkt t zu einer Phonemgrenze im
Fall des ersten Entscheidungsbaums gehört oder zum
korrekten Phonem im Fall des zweiten Entscheidungsbaums
gehört;
ii. Mittel zur Berechnung der geschätzten
verbundenen Verteilung der Prädiktoren 1k und des Phonems
p für 2K+1 Prädiktoren unter Verwendung der
Trainingsdaten, wobei die Prädiktoren
Eigenschaftsvektorlabels zu den Zeitpunkten t-K, ..., t,
..., t+K sind und p das Phonem zum Zeitpunkt t ist;
iii. Mittel zur Speicherung der geschätzten
verbundenen Verteilung von 1k und p und einer
entsprechenden Verteilung für jeden Prädiktor 1k am
Wurzelknoten;
iv. Mittel zur Berechnung der besten Partitionierung
der Werte, die der Prädiktor 1k für jedes 1k annehmen
kann, um die Phonemungewißheit an jedem Knoten auf ein
Mindestmaß zu beschränken;
v. Mittel zur Auswahl des Prädiktors 1k, dessen
Partitionierung zur niedrigsten Ungewißheit führt, und
Partitionierung der Trainingsdaten in zwei Kindknoten, und
zwar auf der Grundlage der computergesteuerten
Partitionierung 1k, wobei jedem Kindknoten auf der
Grundlage der Trainingsdaten am Kindknoten eine
Klassenverteilung zugeordnet wird;
f) Mittel zur Wiederholung der Bestimmung für jeden
Kindknoten, ob der Umfang an Trainingsdaten am
Kindknoten größer ist als ein Schwellenwert;
g) Mittel zur Eingabe eines Sprachelements, das erkannt
werden soll;
h) Mittel zur Umwandlung eines Sprachelements in ein
elektrisches Signal;
i) Mittel zur Darstellung des elektrischen Signals als
Serie quantisierter Eigenschaftsvektoren;
j) Mittel zum Vergleich der Serie quantisierter
Eigenschaftsvektoren mit den gespeicherten Prototyp-
Eigenschaftsvektoren zur Bestimmung einer engsten
Übereinstimmung und Zuordnung eines Eingangslabels zu
jedem Vektor aus der Serie der Eigenschaftsvektoren
entsprechend dem Label des am engsten
übereinstimmenden Eigenschaftsvektors;
k) Mittel für das Durchlaufen eines Entscheidungsbaums
für jeden Zeitrahmen einer Spracheingabesequenz, um
für jeden Zeitrahmen eine
Wahrscheinlichkeitsverteilung zu bestimmen, wobei die
Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit
ist, daß ein Knoten eine Phonemgrenze ist;
l) Mittel für den Vergleich der Wahrscheinlichkeiten der
Zeitrahmen mit einem Schwellenwert zur Bestimmung
einiger Zeitrahmen als Grenzen zwischen Phonemen;
m) Mittel zur Bereitstellung einer akustischen
Trefferzahl für alle Phoneme zwischen jedem gegebenen
Grenzenpaar;
n) Mittel zur Klassifizierung der Phoneme auf der
Grundlage dieser Trefferzahl;
o) Mittel zur Ausgabe eines Erkennungsergebnisses in
Abhängigkeit dieser Trefferzahl.
10. Die Vorrichtung gemäß Anspruch 9, die weiterhin folgendes
umfaßt:
Mittel für das Durchlaufen eines Entscheidungsbaums oder
mehrerer Entscheidungsbäume aus einer zweiten Gruppe von
Entscheidungsbäumen für jeden Zeitrahmen in einer
Spracheingabesequenz zur Bestimmung einer zweiten
Wahrscheinlichkeitsverteilung, wobei die
Wahrscheinlichkeitsverteilung eine Verteilung über alle
Klassen ist, die für das korrekte Phonem möglich sind, um
eine Klasse des schlimmsten Falls eines richtig erkannten
Phonems einzuholen, indem die Klasse des schlimmsten Falls
als Klassenwert gewählt wird, bei dem die kumulative
Wahrscheinlichkeitsverteilung der Klassen einen bestimmten
Schwellenwert überschreitet;
Unter den Klassen des schlimmsten Falls ein Mittel zur
Bestimmung zur Klasse des absolut schlimmsten Falls
zwischen zwei beliebigen nebeneinander liegenden
Phonemgrenzen der Klasse des schlimmsten Falls des richtig
erkannten Phonems zwischen den Phonemgrenzen;
Mittel zur Aussparung aller Phonemgrenzen, deren Klasse
schlimmer ist als diese Klasse des absolut schlimmsten
Falls im aktuellen Segment;
Mittel zur Erstellung einer Kurzliste für das Segment;
Mittel zur Ausgabe eines Erkennungsergebnisses in Reaktion
auf die Kurzliste.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/347,013 US5729656A (en) | 1994-11-30 | 1994-11-30 | Reduction of search space in speech recognition using phone boundaries and phone ranking |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69518723D1 DE69518723D1 (de) | 2000-10-12 |
DE69518723T2 true DE69518723T2 (de) | 2001-05-23 |
Family
ID=23361974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69518723T Expired - Lifetime DE69518723T2 (de) | 1994-11-30 | 1995-06-21 | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen |
Country Status (3)
Country | Link |
---|---|
US (1) | US5729656A (de) |
EP (1) | EP0715298B1 (de) |
DE (1) | DE69518723T2 (de) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822729A (en) * | 1996-06-05 | 1998-10-13 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
US5822730A (en) * | 1996-08-22 | 1998-10-13 | Dragon Systems, Inc. | Lexical tree pre-filtering in speech recognition |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US6023673A (en) * | 1997-06-04 | 2000-02-08 | International Business Machines Corporation | Hierarchical labeler in a speech recognition system |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
US6205428B1 (en) * | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6230131B1 (en) * | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US7031925B1 (en) | 1998-06-15 | 2006-04-18 | At&T Corp. | Method and apparatus for creating customer specific dynamic grammars |
GB9822931D0 (en) * | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
US6453292B2 (en) * | 1998-10-28 | 2002-09-17 | International Business Machines Corporation | Command boundary identifier for conversational natural language |
US6275801B1 (en) * | 1998-11-03 | 2001-08-14 | International Business Machines Corporation | Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems |
US6574596B2 (en) * | 1999-02-08 | 2003-06-03 | Qualcomm Incorporated | Voice recognition rejection scheme |
US6195639B1 (en) * | 1999-05-14 | 2001-02-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Matching algorithm for isolated speech recognition |
US6711541B1 (en) * | 1999-09-07 | 2004-03-23 | Matsushita Electric Industrial Co., Ltd. | Technique for developing discriminative sound units for speech recognition and allophone modeling |
US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
CN1157712C (zh) * | 2000-02-28 | 2004-07-14 | 索尼公司 | 语音识别方法和装置 |
US7366766B2 (en) * | 2000-03-24 | 2008-04-29 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
AU2001250050A1 (en) | 2000-03-24 | 2001-10-08 | Eliza Corporation | Remote server object architecture for speech recognition |
US7370086B2 (en) * | 2000-03-24 | 2008-05-06 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US6868380B2 (en) | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
US6438519B1 (en) * | 2000-05-31 | 2002-08-20 | Motorola, Inc. | Apparatus and method for rejecting out-of-class inputs for pattern classification |
GB0112749D0 (en) * | 2001-05-25 | 2001-07-18 | Rhetorical Systems Ltd | Speech synthesis |
US20020184022A1 (en) * | 2001-06-05 | 2002-12-05 | Davenport Gary F. | Proofreading assistance techniques for a voice recognition system |
FR2837970A1 (fr) * | 2002-03-29 | 2003-10-03 | France Telecom | Procede de traduction de donnees au moyen d'un transducteur unique |
FR2837969A1 (fr) * | 2002-03-29 | 2003-10-03 | France Telecom | Procede de traduction de donnees autorisant une gestion de memoire simplifiee |
US20040024585A1 (en) | 2002-07-03 | 2004-02-05 | Amit Srivastava | Linguistic segmentation of speech |
EP1414023B1 (de) * | 2002-10-14 | 2006-02-01 | Sony Deutschland GmbH | Verfahren zur Spracherkennung |
US20040138894A1 (en) | 2002-10-17 | 2004-07-15 | Daniel Kiecza | Speech transcription tool for efficient speech transcription |
US7409345B2 (en) * | 2003-04-04 | 2008-08-05 | International Business Machines Corporation | Methods for reducing spurious insertions in speech recognition |
JP4427530B2 (ja) * | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
EP2851895A3 (de) * | 2011-06-30 | 2015-05-06 | Google, Inc. | Spracherkennung mittels Kontext mit variabler Länge |
WO2013033119A1 (en) * | 2011-08-29 | 2013-03-07 | Accumente, Llc | Utilizing multiple processing units for rapid training of hidden markov models |
US8918771B2 (en) * | 2012-09-25 | 2014-12-23 | Facebook, Inc. | Decision tree ensemble compilation |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
US9697827B1 (en) * | 2012-12-11 | 2017-07-04 | Amazon Technologies, Inc. | Error reduction in speech processing |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
KR102405793B1 (ko) * | 2015-10-15 | 2022-06-08 | 삼성전자 주식회사 | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
JP2018013590A (ja) | 2016-07-20 | 2018-01-25 | 株式会社東芝 | 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ |
US10347245B2 (en) * | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
CN110851720A (zh) * | 2019-11-11 | 2020-02-28 | 北京百度网讯科技有限公司 | 信息推荐方法、装置以及电子设备 |
CN112836498A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 数据处理方法、识别方法、装置及计算设备 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4773093A (en) * | 1984-12-31 | 1988-09-20 | Itt Defense Communications | Text-independent speaker recognition system and method based on acoustic segment matching |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
NL8503304A (nl) * | 1985-11-29 | 1987-06-16 | Philips Nv | Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal. |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US4803729A (en) * | 1987-04-03 | 1989-02-07 | Dragon Systems, Inc. | Speech recognition method |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US4852173A (en) * | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
DE3935358A1 (de) * | 1989-10-24 | 1991-04-25 | Grundig Emv | System zur uebertragung von breitbild-videosignalen zur darstellung auf fernsehempfaengern mit einem herkoemmlichen oder einem vergroesserten bildseitenverhaeltnis |
US5263117A (en) * | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
US5144671A (en) * | 1990-03-15 | 1992-09-01 | Gte Laboratories Incorporated | Method for reducing the search complexity in analysis-by-synthesis coding |
US5280562A (en) * | 1991-10-03 | 1994-01-18 | International Business Machines Corporation | Speech coding apparatus with single-dimension acoustic prototypes for a speech recognizer |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5233681A (en) * | 1992-04-24 | 1993-08-03 | International Business Machines Corporation | Context-dependent speech recognizer using estimated next word context |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5236117A (en) | 1992-06-22 | 1993-08-17 | Staktek Corporation | Impact solder method and apparatus |
-
1994
- 1994-11-30 US US08/347,013 patent/US5729656A/en not_active Expired - Lifetime
-
1995
- 1995-06-21 EP EP95109575A patent/EP0715298B1/de not_active Expired - Lifetime
- 1995-06-21 DE DE69518723T patent/DE69518723T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5729656A (en) | 1998-03-17 |
EP0715298A1 (de) | 1996-06-05 |
DE69518723D1 (de) | 2000-10-12 |
EP0715298B1 (de) | 2000-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
EP0604476B1 (de) | Verfahren zur erkennung von mustern in zeitvarianten messsignalen | |
DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69524036T2 (de) | Vorrichtung zur erkennung von gesprächsthemen | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE19721198C2 (de) | Statistisches Sprachmodell für flektierende Sprachen | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE3874049T2 (de) | Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers. | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69717899T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE69225173T2 (de) | Spracherkennungsgerät | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
DE69029188T2 (de) | Auf Wahrscheinlichkeitclusterbildung gestützte Schriftzeichenerkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8332 | No legal effect for de | ||
8370 | Indication related to discontinuation of the patent is to be deleted | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |