DE69816177T2 - Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen - Google Patents

Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen Download PDF

Info

Publication number
DE69816177T2
DE69816177T2 DE69816177T DE69816177T DE69816177T2 DE 69816177 T2 DE69816177 T2 DE 69816177T2 DE 69816177 T DE69816177 T DE 69816177T DE 69816177 T DE69816177 T DE 69816177T DE 69816177 T2 DE69816177 T2 DE 69816177T2
Authority
DE
Germany
Prior art keywords
competing
speech
strings
decoding
state sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69816177T
Other languages
English (en)
Other versions
DE69816177D1 (de
Inventor
Shrikanth Sambasivan Riverside Narayanan
Alexandros Scotch Plains Potamianos
Ilija Westfield Zeljkovic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69816177D1 publication Critical patent/DE69816177D1/de
Publication of DE69816177T2 publication Critical patent/DE69816177T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Character Discrimination (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Erfindungsgebiet
  • Die Erfindung betrifft eine ungeführte, unterscheidende Satzebene-Hidden-Markov-Modell-(HMM)-Adaption auf der Grundlage einer Sprache-Stille-Klassifizierung.
  • 2. Beschreibung des Standes der Technik
  • Ein großer Teil der Spracherkennungsliteratur setzt sich mit den Schwierigkeiten auseinander, die durch Lärm, Verzerrung oder Veränderlichkeit in der Sprachwellenform an Echtzeit-Erkennungssystemen verursacht werden. Verschiedene Algorithmen wurden vorgeschlagen, um mit diesen Problemen fertig zu werden, wie beispielsweise Cepstrum mittlere Normalisierung, Cepstrum-Fehler-Normalisierung mit größter Wahrscheinlichkeit (ML), Frequenzverwerfung mit größter Wahrscheinlichkeit und eine lineare Regression mit größter Wahrscheinlichkeit. Abgesehen von diesen einer Transformation zugrundeliegenden Verfahren, die mit einer begrenzten Anzahl an Adaptionsdaten gute Ergebnisse ergeben, können die akustischen Modelle höchstens auf die Verwendung von einer a posteriori-(MAP)-Adaption eingeschränkt werden. Die MAP-Adaption benötigt für gewöhnlich eine große Menge an Adaptionsdaten. Algorithmen wurden vorgeschlagen, um Gruppen von HMM-Parametern zu aktualisieren oder um die neu-ausgewerteten Parameterwerte wie beispielsweise die Feldvektorglättung, den Klassifizierungsbaum oder die einem Zustand zugrundeliegende Gruppierung der Verteilungen zu glätten. Eine Parallelmodellkombination (PMC) wurde ebenfalls verwendet, um sowohl die additive Raschverzerrung als auch die multiplikative (Kanal)-Verzerrung zu bekämpfen.
  • Für gewöhnlich verhalten sich die zuvor erwähnten Algorithmen für simulierte Daten, d. h. wenn zum Sprachsignal im Labor die additive oder multiplikative Verzerrung hinzugefügt wird, gut, sind aber in Feldversuchen, wo eine Vielzahl an Quellen mit zeitveränderlichen Merkmalen das Sprachsignal gleichzeitig verzerren können, nicht gleichermaßen gut. In vielen Fällen sind sehr wenige Daten für die Adaption verfügbar. Weiterhin könnten die Adaptionsdaten nicht überschrieben werden. In zahlreichen Veröffentlichungen, z. B. in WO97/10587, wurde gezeigt, dass auf Unterscheidung geschulte HMMs die Erkennungsgenauigkeit verbessern. Im Schulungsverfahren wird jedoch angenommen, dass der linguistische Zusammenhang der Ausdrücke bekannt ist. Die ungeführte Adaption, die sehr wenige Ausdrücke verwendet, stellt ein sehr schwieriges Problem dar, da es keine Garantien gibt, dass die angepassten Parameter in global optimale Werte konvergieren werden.
  • Zusätzlich führt die akustische Fehlanpassung zwischen den Schulungs- und den Testbedingungen zu einer bedeutenden Genauigkeitsverschlechterung in Spracherkennern, denen ein HMM zugrunde liegt. Die sorgfältige Prüfung der Erkennungsfehler zeigt, dass die Worteinfügungs- und -austauschfehler häufig als Ergebnis von schlechten Erkennungstreffern für die akustischen Segmente mit Telefonen geringer Energie erfolgen. Das zugrundeliegende Problem liegt darin, dass die Kanal- und Rausch-Fehlanpassung einen relativ großen Einfluss auf die Abschnitte geringer Energie (kleiner Amplitude) des Sprachsignals haben. Verschiedene Blindentfaltungs- und Fehlerbeseitigungsschemen begegnen diesem Problem in Zusammenhang mit der allgemeinen Fehlanpassung des gesamten Sprachsignals. Solchermaßen muss der Brennpunkt auf diesen kritischen Bereichen des akustischen Sprachsignals liegen, d. h. auf den Bereichen, wo die Signaleigenschaften des Hintergrunds (die Nicht-Sprachsegmente darstellen) und des Sprachsignals (für gewöhnliche stimmlose Abschnitte) ähnlich sind.
  • Solchermaßen wird ein wirksamer Weg gesucht, die HMM-Parameter in einem ungeführten Modus während des Erkennungsprozesses auf eine Art und Weise anzupassen, die die Unterscheidung zwischen dem Hintergrundmodell und den Sprachmodellen für einen besonderen Satz oder eine Reihe an Sätzen erhöht.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein System und ein Verfahren werden, wie in den Ansprüchen eingesetzt, bereitgestellt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird mit Bezug auf die folgenden Zeichnungen beschrieben, in denen gleiche Bezugsziffern auf die gleichen Elemente Bezug nehmen und worin:
  • 1 ein Funktionsblockdiagramm eines Spracherkennungssystems ist;
  • 2 ein Funktionsblockdiagramm eines Signal-Vorprozessors des Spracherkennungssystems der 1 ist;
  • 3 ein Funktionsblockdiagramm des Decoders des Spracherkennungssystems der 1 ist;
  • 4 ein darstellendes Beispiel für ein Zustandsdiagramm ist, das einem links-nach-rechts-Hidden-Markov-Modell entspricht.
  • 5 ein Flussdiagramm ist, das die Sprach-Stille-Unterscheidungsverarbeitung darstellt;
  • 6 eine Tabelle ist, die die Erkennungsleistung am AT & T Service Trial (Probebetrieb) I mit der HMM-Adaption unter angepassten Schulungs- und Prüfungsbedingungen zeigt; und
  • 7 eine Tabelle ist, die die Erkennungsleistung am AT & T Service Trial II mit der HMM-Adaption unter fehlangepassten Prüfungs- und Schulungsbedingungen zeigt.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Die vorliegende Erfindung betrifft die wirkungsvolle Decodierung der Eingabesignale. Obwohl die Erfindung in Zusammenhang mit der Spracherkennung beschrieben wird, hat sie umfassendere Anwendungsmöglichkeiten. Die Erfindung kann z. B. in anderen Kommunikations-, Daten- und Informationssystemen nützlich sein, die eine statistische Modellierung benutzen. Um der Verständlichkeit der Erläuterung willen werden die Ausführungsformen der vorliegenden Erfindung hierin als Funktionsblöcke gezeigt. Die Funktionen, die diese Blöcke darstellen, können entweder mittels der Verwendung von einer gemeinsamen oder einer überlassenen Hardware einschließlich – aber nicht darauf beschränkt – einer Hardware bereitgestellt werden, die in der Lage ist, eine Software auszuführen. Darüber hinaus sollte die Verwendung des Begriffs "Prozessor" wörtlich nicht so verstanden werden, dass er ausschließlich die Hardware betrifft, die in der Lage ist, eine Software auszuführen. Einige Ausführungsformen können sowohl eine Hardware wie beispielsweise einen Digitalsignalprozessor (DSP) als auch eine Software zum Durchführen der unten erörterten Betriebe umfassen. Hardwareausführungsformen mit sehr hohen Integrationsgraden (VLSI) der vorliegenden Erfindung sowie hybride DSP/VLSI-Ausführungsformen können ebenfalls bereitgestellt werden.
  • 1 ist ein Funktionsblockdiagramm des Spracherkennungssystems in Übereinstimmung mit der vorliegenden Erfindung. Sprache wird mittels Verwendung eines Transducers 105 wie beispielsweise ein Mikrophon in ein Analogsignal umgewandelt. Ein Vorprozessor 110 empfängt das Sprachsignal und konvertiert es in eine Digitalform, die Sprachmerkmale verkörpert, die wiederum die anschließende Erkennung durch den Decoder 120 erleichtern. Der Decoder 120 transformiert das Digitalsignal in ein richtiges Wort oder eine Wortsequenz. Für gewöhnlich wird der Decoder 120 durch eine Reihe an akustischen Modellen, die den Grundeinheiten der Sprache entsprechen (z. B. Phoneme, Silben und Worte), ein Lexikon, dass das Wörterbuch des Decoders im Sinne von Grundeinheiten bestimmt, und ein Sprach- oder Grammatikmodell, das die gestattete Sequenz der Wörterbuchbegriffe bestimmt, eingeschränkt. Diese Funktionseinheiten werden in der 3 gezeigt und unten erörtert.
  • 2 ist ein detailliertes Funktionsblockdiagramm des Vorprozessors 110. Der Vorprozessor 110 umfasst z. B. einen Analog/Digital(A/D)-Wandler 210, eine Merkmalextraktionseinheit 220 und eine Vektorquantisierungseinheit 230.
  • Der A/D-Wandler 210 empfängt eingegebene Analogsprache-Wellenformsignale und wandelt sie in entsprechende Digitalsignale um. Illustrative A/D-Wandler können einen Antialiasing-Filter und einen Hochfrequenz-Vorverzerrungsfilter einschließen, um das Analogsignal spektral abzuflachen. Das Signal wird dann auf beispielsweise 11 oder 12 Bits bei einer Rate von etwa 6 kHz bis 20 kHz digitalisiert. Im allgemeinen ist die Abtastrate etwa die doppelte Bandbreite des Nachrichtenkanals. Die Abtastrate von beispielsweise 8 kHz ist der Standard für einen gewöhnlichen Nachrichtenkanal, der eine Bandbreite von 4 kHz hat. Die Ausgabe des A/D-Wandlers 210 ist eine digitale Darstellung des Sprachsignals. Dieses Signal kann als Produkt eines Quellenspektrums, d. h. Eingabe-Analog-Sprachsignals, und einer Überführungsfunktion der Filter des A/D-Wandler beschrieben werden.
  • Die Merkmalextraktionseinheit 220 sorgt für eine Parameterdarstellung des Sprachsignals. Herkömmliche Techniken wie beispielsweise eine Filterbank, die Fourier-Transformation, LPC-Codierung und/oder Cepstrum-Analyse können benutzt werden, um die Parameter zu erhalten. Solche Techniken werden z. B. in Fundamentals of Speech Recognition, L. R. Rabiner und B. H. Juang, Prentice Hall, 1993, beschrieben, deren Gegenstand durch Bezugnahme hierin eingeschlossen ist. Die Reihe an Parametern, auf die als ein "Merkmalsvektor" (o) Bezug genommen wird, wird aus einem Rahmen von Sprachdaten berechnet, die durch die Fenstertechnik einer gewissen Anzahl von Abtastwerten des Signals bestimmt werden. Jeder Rahmen stellt eine Beobachtung dar. Für gewöhnlich ist die Rahmenrate kleiner als die Fensterbreite – d. h. überlappende Rahmen – damit die Antialiasing vermieden wird.
  • Für gewöhnlich sind etwa 10–20 Grundmerkmale zusammen mit ihren ersten und zweiten Ableitungen eingeschlossen. Entsprechend wird das Eingabesprachsignal in eine Sequenz an Merkmalsvektoren umgewandelt, die z. B. eine Beobachtungssequenz (O (o1, o2, ... on) bilden, die eine n-Anzahl von Merkmalsvektoren hat. Die Wahlvektor-Quantisierungseinheit schließt ein "Codebuch" ein, das Sprachlabels auflistet, die wiederum Merkmalsvektoren sind, die mittels herkömmlicher Schulungstechniken wie beispielsweise der k-Mittelwertsegmentierung (wie in Rabiner et al., "A Segmental k-means Training Procedure For Connected Word Recognition Based on Whole Word Reference Patterns", AT & T Tech. Journal, Vol. 65, Nr. 3, S. 21–31, Mai 1986, beschrieben, dessen Gegenstand unter Bezugnahme hierin eingeschlossen ist), berechnet wurden.
  • 3 ist ein detailliertes Funktionsblockdiagramm vom Decoder 120, der die vom Vorprozessor 110 empfangene Sequenz an Merkmalsvektoren in eine Sequenz an Spracheinheiten umwandelt. Wie gezeigt, kann der Decoder 120 einen Muster-Anpassungsprozessor 310, eine Akustikmodelleinheit 320, eine Lexikoneinheit 330 und eine Sprachmodelleinheit 340 einschließen.
  • Die Akustikmodelleinheit 320 speichert ein Inventar an vom Decoder 120 erkannten Spracheinheiten wie beispielsweise Phoneme, Worte, Silben oder andere Einheiten, die jeweils von einem Hidden-Markov-Modell (HMM) dargestellt werden, das von einem Schulungsprozessor (nicht gezeigt) erzeugt wurde. Wie zuvor erwähnt, ist ein HMM ein statistisches Verfahren zum Modellieren unbekannter Abläufe.
  • Im allgemeinen kann jedes HMM durch ein Zustandsdiagramm dargestellt werden, das eine n-Anzahl an Zuständen aufweist, wobei die Vektoren Übergänge zwischen bestimmten Paaren von diesen Zuständen, die Wahrscheinlichkeiten, die sich an die Zustand-zu-Zustand-Übergänge anlegen lassen, eine Reihe an Wahrscheinlichkeiten, die eine m-Anzahl an beobachteten Ausgabesymbolen in jedem Zustand bezeichnen, und anfängliche Bedingungen bestimmen. Eine Wahrscheinlichkeitsdichtefunktion (pdf) wird mit jedem Zustand verknüpft.
  • Eine veranschaulichende Ausführungsform für die Akustikmodelleinheit speichert sowohl Spracheinheiten als auch die Hintergrund-Stille als links-nach-rechts-HMMs.
  • 4 veranschaulicht ein Beispiel für ein Zustandsdiagramm, das ein links-nach-rechts-HMM zum Modellieren von Worten oder Nebenworten darstellt. Wie zuvor beschrieben, können Worte oder Nebenworte als eine Sequenz an Silben, Phonemen oder anderen Sprachklangeinheiten modelliert werden, die eine zeitweilige Interpretation haben. Für gewöhnlich wird jede Einheit durch einen oder mehrere Zustände innerhalb des Zustandsdiagramms dargestellt.
  • Illustrativ enthält das Zustandsdiagramm 400 5 Zustände, 410a410e, um ein Targetwort zu modellieren. Wie zu sehen ist, gehen die Pfeile des Zustandsdiagramms, die den Merkmalsvektoren entsprechen, zu Zuständen von links nach rechts.
  • Die Zustandsbeobachtungs-Dichtefunktion oder pdf für den Zustand j des Zustandsdiagramms bj(o) wird als eine Mischung einer endlichen Anzahl von Gaußschen Elementen folgender Form
    Figure 00070001
    worin o der modellierte Vektor ist, cmj das Mischgewicht für die m-te Komponente im Zustand j und N eine Mehrvarianten-Normal-Dichte ist. Es wird angenommen, dass N für gewöhnlich Gaußsisch mit dem mittleren Vektor umj und der Kovarianz-Matrix umj für die m-te Mischkomponente im Zustand j ist. Die Merkmale des Beobachtungsvektors sowie ihre ersten und zweiten Ableitungen werden aus der gewöhnlichen spektralen LPC, Cepstrum oder anderen Analysenergebnissen hergeleitet.
  • Die HMM-Parameter c, u und U werden aus der markierten Sprache ausgewertet, die vom Schulungsprozessor erhalten wurde, indem ein segmentierter k-Mittelwerte-Algorithmus verwendet wird, wie z. B. der in Rabiner, et al., "A Segmehtal k-means training Procedure for Connected Word Recognition Based on Whole word Reference Patterns," AT & T Tech, Journal., Vol. 65, Nr. 3, S. 21–31, Mai 1996, offenbarte, dessen Gegenstand unter Bezugnahme hierin eingeschlossen ist. Zustandsgrenzen in jedem Schulungs-Token werden z. B. durch die optimale (Viterbi Decodier-) Ausrichtung des aktuellen Modells mit dem Token bestimmt.
  • Der Muster-Anpassungsprozessor 310 (3) empfängt die Sequenz der Beobachtungsvektoren (O = (o1, o2, ... on), die einen unbekannten Sprachausdruck darstellen, und sucht nach dem Netz der in der akustischen Einheit 320 gespeicherten HMMs, um eine Übereinstimmung zu finden. Wie zuvor erörtert, enthalten die Zustände eines HMM eine m-Anzahl an Ausgaben, und jede Ausgabe hat eine unterschiedliche Wahrscheinlichkeit, wie durch die pdf definiert. Als solche können verschiedene HMMs Sequenzen mit Ausgaben erzeugen, die mit denen der Eingabebeobachtungssequenz übereinstimmen, und zwar jede mit einer unterschiedlichen Wahrscheinlichkeit.
  • Das Ziel des Suchverfahrens liegt darin, eine Anzahl der wahrscheinlichsten Zustandssequenzen Q = (q1, q2, ... qn) zurückzugeben, die die Sequenz der Beobachtungsvektoren erzeugten, wie es in Chou, et al.,"Minimum Error Rate Training Based on N-Best String Models," Proc. ICASSP 1993, Vol. 2, S. 652–665, offenbart wird. Eine dynamische Programmierungstechnik (DP) wird verwendet, um die wahrscheinlichsten Zustandssequenzen zu finden. Die DP bestimmt die Wahrscheinlichkeitstreffer oder summierte Wahrscheinlichkeit der wahrscheinlichsten Zustandssequenz in jedem HMM für eine Eingabeobachtungssequenz.
  • Das Ziel des Unterscheidungsmodell-Schulungsalgorithmus liegt darin, eine Modellreihe zu finden, die die Beobachtungssequenzen, die den richtigen Klassenmodellen und denen der n-konkurrierenden Klassenmodelle entsprechen, optimal unterscheidet, indem die wechselseitige Information zwischen der Beobachtungssequenz O in den Worten oder Zeichenfolgen von dieser Klasse maximiert wird. Das Fehlklassifizierungsmaß
    Figure 00080001
    verwendet die Unterscheidungsfunktion g(O, Sk, Λ) = log⨍(O, θSklSSkl|Λ)die im Sinne des Logarithmuswahrscheinlichkeitstreffers f an der optimalen Zustandssequenz θsk (bei Vorgabe der Modellreihe Λ) für die k-ste beste Zeichenfolge Sk definiert wird. Die Unterscheidungsfunktion für die überschriebene Schulungszeichenfolge Su ist g(O, Su, Λ). Die Modellverlustfunktion für die Zeichenfehlerrate-Minimierung l(O, Λ) = 1/1 + exp(–γd(O, Λ)), worin γ eine positive Konstante ist, wird mittels Verwendung des Gradienten-Abstiegs-Algorithmus gelöst.
  • Das Verhalten des Hintergrunds ist das flüchtigste Element des akustischen Geschwindigkeitssignals. Obwohl die einem HMM zugrundeliegenden Erkenner häufig den Hintergrund mit gültigen Sprachsegmenten verwechseln, wodurch Einfügungsfehler erzeugt werden, können Abschnitte der Hintergrund-(Stille)-Bereiche mittels der Verwendung von einfacheren, aber äußerst robusten Techniken, die auf einer Signalleistung, einem Nulldurchgang, einer Amplitudenverteilung, usw. basieren, mit einer hohen Exaktheit identifiziert werden.
  • Der hohe Gewissheitsgrad bei der Bestimmung der Stille bereiche und nur die Verwendung dieser Bereiche sowohl für die Adaption des Sprach- als auch des Stillemodells machen diese ungeführte Adaption sowohl genau als auch effizient.
  • Zum Beispiel schließt das Verfahren zur Unterscheidung zwischen den Sprach- und den Stillebereichen den in der 5 gezeigten Algorithmus ein. Am Schritt 520 wird anfänglich der Eingabeausdruck 510 in Sprach- und Stillebereiche aufgeteilt. Wenn mehr als ein Hintergrund-HMM verwendet wird, wird die optimale oder Viterbi-Decodierung der Stillebereiche gerade mittels der Verwendung der Hintergrund-HMMs durchgeführt.
  • Als nächstes werden im Schritt 530 konkurrierende Zeichenfolgen erzeugt, indem z. B. entweder lineare Einfügungsanreize akustisch betrieben werden oder indem eine einer Regel zugrundeliegende Einfügungsstrategie verwendet wird. Im Schritt 550 werden konkurrierende Zeichenfolgen optimal decodiert, um die optimale Segmentierung zu finden. Ein unterscheidender Schulungsalgorithmus wird dann im Schritt 560 verwendet, um die HMMs anzupassen, damit die Trennung zwischen richtigen und konkurrierenden Zeichenfolgen verbessert wird. Im Anschluss an das Adaptionsverfahren wird, wenn einmal die Trennung zwischen richtigen und konkurrierenden Zeichenfolgen verbessert wurde, im Schritt 570 die optimale Decodierung und Erkennung am gesamten Ausdruck durchgeführt, indem die neu angepassten HMMs und irgendeine vorgeschriebene Grammatik verwendet werden.
  • Es gibt viele Wege, den obigen Algorithmus zu implementieren. Die Sprach-Stille-Segmentierung (Schritt 520) kann durch einen einfachen Vorverarbeitungsschritt erhalten werden, bevor der Erkennungsprozess beginnt. In der aktuellen Implementierung wird die Sprach-Stille-Segmentierung im ersten Durchgang mittels der Verwendung der anfänglichen HMMs, einer Grammatik, aber ohne Einfügungsstraffaktoren vom Erkenner durchgeführt. Es wird angenommen, dass dies die "richtige Zeichenfolge" ist.
  • Konkurrierende Zeichenfolgen (Schritt 530) werden auf zwei unterschiedliche Arten hergestellt:
    • (a) Akustisch betriebene Einfügung: ein negativer Einfügungsstraffaktor (linearer Einfügungsakkord) wird verwendet, um die n-besten konkurrierenden Zeichenfolgen zu decodieren (ermutigte interne Einfügung).
    • (b) blinde externe Einfügung: 11 konkurrierende Zeichenfolgen (für Ziffern-Erkennungstests) werden erzeugt: jede Ziffer wird vor und nach der anfänglich erkannten Zeichenfolge addiert, was eine konkurrierende Zeichenfolge erzeugt (erzwungene externe Einfügung). Für Spracherkennungsaufgaben, die anders sind als die Ziffernerkennung, können geeignete, einer Regel zugrundeliegende blinde Einfügungsregeln verwendet werden.
  • Die unterscheidende Schulung (Schritt 560) wird durchgeführt, indem mittels der Verwendung der n-konkurrierenden Zeichenfolgemodelle der minimale Zeichenfolge-Fehler-Schulungsalgorithmus verwendet wird.
  • Schließlich wird die Erkennung des zweiten Durchgangs mittels Verwendung des Viterbi-Decodieralgorithmus mit den angepaßten Modellen durchgeführt (Schritt 570).
  • Solchermaßen wird ein neuartiges HMM-Adaptionsverfahren auf der Grundlage der Sprach-Stille-Unterscheidung gezeigt. Die Hauptbeiträge sind:
    • – Die ausschließliche Verwendung der vom Algorithmus als Stille-Segmente erklärten Signalabschnitte (d. h. ungeführte Modalität), damit sowohl die Stille- als auch einige/alle Sprachmodelle in einer Art und Weise angepasst werden, die zu einer verbesserten Sprach-Stille-Unterscheidung in der neuen Modellreihe führt.
    • – Die automatische Erzeugung von konkurrierenden Zeichenfolgen durch die Bereitstellung von linearen Einfügungsanreizen, indem Worte eingefügt werden, die ihrer Natur nach zur akustischen Verwirrung mit dem Hintergrund neigen.
    • – Die ungeführte Anpassung mittels Verwendung eines Gradienten-Abstiegs- oder anderen unterscheidenden Schulungsalgorithmus, der die Konvergenz gewährleistet.
  • Die Ergebnisse zeigen, dass direkt vom Erkenner bereitgestellte konkurrierende Zeichenfolgen mittels der Verwendung von linearen Einfügungsanreizen die vorteilhafteste Datenreihe für die Sprach-Stille-Unterscheidung abgeben und die besten Gesamtfehlerrate-Verbesserungen selbst unter fehlangepassten Schulungs- und Testbedingungen liefern.
  • Als ein Beispiel für dieses Verfahren werden Spracheinheiten (Worte und Nebenworte) sowie die Hintergrund-Stille mittels links-nach-rechts-HMMs erster Ordnung mit kontinuierlichen Beobachtungsdichten modelliert. Der Beobachtungsvektor besteht aus 39 Merkmalen: 12 abgeleitete LPS-Cepstrum-Koeffizienten, eine dynamisch standardisierte Energie sowie ihre ersten und zweiten Ableitungen. 11 Ziffern einschließlich "oh" und "null" wurden in der Auswertungsaufgabe verwendet. Jede Ziffer wurde entweder mit 20- oder 15-Zustands-HMMs mit 16 Gaußschen Mischungen modelliert. Der Sprachhintergrund (Stille) wird mit einem 128-Gaußschen-Mischungs-HMM eines einzigen Zustands modelliert. Die HMMs wurden geschult, indem Daten verwendet wurden, die aus über das Telefonnetz (16089 Ziffern-Zeichenfolgen) gesammelten Sprachdaten extrahiert wurden.
  • Im Erkennungsprozess wird die Sequenz der Beobachtungsvektoren aus einem unbekannten Sprachausdruck auf eine Reihe an gespeicherten Hidden-Markov-Modellen angepasst, die Spracheinheiten darstellen. Ein Suchnetzwerk wird von einer Grammatik finiten Zustands erzeugt, die die Reihe der gültigen Zeichenfolgen beschreibt. Der Netzwerksuchalgorithmus kehrt die einzelne wahrscheinlichste Sequenz der Spracheinheiten zurück. Das Suchverfahren ist ein dynamischer Programmierungs-(DP)-Algorithmus (Viterbi-Decodierung), worin es das Ziel ist, eine gültige Zustandssequenz mit der höchsten summierten Zustands-Logarithmus-Wahrscheinlichkeit (10) zu finden.
  • Der Algorithmus wurde an Sprachdaten geprüft, die von zwei AT & T-Probebetrieben gesammelt wurden. Probebetrieb I-Daten, die aus 10768 Zeichenfolgen mit 16 Ziffern bestehen, stellten angepasste Schulungs- und Testbedingungen dar. Andererseits wurden keine Daten vom Probebetrieb II bei der Schulung dargestellt. Überdies bestehen die Daten aus dem Probebetrieb II nur aus einzelnen Ziffern (insgesamt 2159 Ausdrücke). Es sollte darauf aufmerksam gemacht werden, dass isolierte Ziffern nur einen kleinen Abschnitt der Schulungsdatenbank darstellten.
  • 6 und 7 summierten die Erkennungsergebnisse für verschiedene Prüfbedingungen: Die Ergebnisse werden für zwei Verfahren konkurrierender Zeichenfolgeerzeugung verglichen (N beste konkurrierende Zeichenfolge durch akustisch betriebene Einfügung mittels Verwendung von linearen Einfügungsanreizen und blinde externe Einfügung durch erzwungene anfängliche und finale Ziffernanfügung), wobei jeder Fall mit und ohne das Rücksetzen der Modelle auf die Standardklasse für jede neue Zeichenfolgeneingabe wiederholt wurde. Die Standardergebnisse entsprechen der Nicht-Modellanpassung.
  • Unter vernünftig angepassten Schulungs- und Testbedingungen werden Einfügungsfehler in allen Testfällen reduziert, wenn die Adaption verwendet wird. Die besten Ergebnisse werden für den Fall erhalten, der konkurrierende Zeichenfolgen verwendet, die mittels linearer Einfügungsanreize erzeugt werden. Wie erwartet, funktioniert die längerfristige Adaption (mittels Verwendung aller erhältlichen Ausdrücke für die Adaption) besser als die augenblickliche Adaption (d. h. ein einziger Ausdruck wird verwendet, um die HMMs anzupassen). Obwohl das blinde Einfügungsverfahren eine ähnliche Auswirkung auf die Einfügungsfehler hat, wird es andererseits von erhöhten Austausch- und Löschfehlern begleitet, und zwar vor allem im langfristigen Adaptionsfall, wobei es Abweichungen in den angepassten Daten in Zusammenhang mit zunehmenden Adaptionsdaten andeutet.
  • Die unüblich hohe Anzahl von Einfügungsfehlern in den Standardergebnissen für die Daten des Probebetriebs II wird der strukturellen Fehlanpassung zwischen den Schulungsdaten und dieser besonderen Testreihe zugeschrieben, die sich völlig aus isolierten Ziffern zusammensetzt. Die augenblickliche Adaption bietet für beide Verfahren der konkurrierenden Zeichenfolgeerzeugung etwa eine 36–38%ige Verbesserung der Wortfehlerraten. Für die längerfristige Adaption bringt jedoch das blinde Einfügungsverfahren der konkurrierenden Zeichenfolgeerzeugung eine schlechtere Leistung als der Standard, während das akustisch betriebene Einfügungsverfahren eine mehr als 80%ige Verbesserung in der Wortfehlerrate liefert. Eine nähere Analyse der Ergebnisse zeigt, dass es eine Verbesserung in den Einfügungsfehlern gibt, wobei es einen bedeutenden Anstieg in den Austauschfehlern für das blinde Einfügungsverfahren gibt. Dieses Ergebnis unterstützt weiterhin, dass die Modellabweichung (Instabilität) mit zunehmenden Adaptionsdaten eine potentielle Falle darstellt, wenn für die konkurrierende Zeichenfolgeerzeugung die blinde Einfügung verwendet wird.
  • Obwohl die Erfindung besonders mit Bezug auf die verschiedenen Ausführungsformen gezeigt und beschrieben wurde, werden die Fachleute auf dem Gebiet erkennen, dass in Bezug auf die hierin beschriebenen statistischen Modellierungsverfahren Modifikationen und Änderungen vorgenommen werden können, ohne sich von ihrem Schutzumfang, wie durch die anhängenden Ansprüche definiert, zu lösen.
  • Wenn technische Merkmale in den Ansprüchen mit Bezugszeichen versehen sind, so sind diese Bezugszeichen lediglich zum besseren Verständnis der Ansprüche vorhanden. Dementsprechend stellen solche Bezugszeichen keine Einschränkungen des Schutzumfangs solcher Elemente dar, die nur exemplarisch durch solche Bezugszeichen gekennzeichnet sind.

Claims (16)

  1. Ein Verfahren für die ungeführte Adaption von Zustandssequenzen zur Unterscheidung zwischen Sprache und Stille, das folgendes umfasst: das Segmentieren (520) eines Eingabeausdrucks in Sprach- und Stille-Bereiche; das Erzeugen (530) konkurrierender Zeichenfolgen und das Ausrichten (550) der konkurrierenden Zeichenfolgen mit den segmentierten Stille-Bereichen; das Verbessern (560) der Trennung zwischen korrekten und konkurrierenden Zeichenfolgen mittels der Verwendung eines unterscheidenden Schulungsalgorithmus zum Erzeugen angepasster Zustandssequenzen; und das Decodieren (570) des Eingabeausdrucks mittels der Verwendung der angepassten Zustandssequenzen.
  2. Das Verfahren nach Anspruch 1, worin die Zustandssequenzen mittels der Verwendung von Hidden-Markov-Modellen erzeugt werden.
  3. Das Verfahren nach Anspruch 1, worin der Segmentierungsschritt die Viterbi-Decodierung verwendet.
  4. Das Verfahren nach Anspruch 1, worin die konkurrierenden Zeichenfolgen mittels akustisch-betriebener Einfügung erzeugt werden.
  5. Das Verfahren nach Anspruch 1, worin die konkurrierenden Zeichenfolgen mittels Verwendung einer blinden oder einer auf einer Regel basierenden externen Einfügung erzeugt werden.
  6. Das Verfahren nach Anspruch 1, worin der unterscheidende Schulungsalgorithmus ein Schulungsalgorithmus mit minimalem Zeichenfolge-Fehler ist, der N konkurrierende Zeichenfolge-Modelle
  7. Das Verfahren nach Anspruch 1, worin der Decodierungsschritt die Viterbi-Decodierung verwendet.
  8. Das Verfahren nach Anspruch 1, worin der Verbesserungsschritt einen Generalized-Probabilistic-Descent-Algorithmus verwendet.
  9. Ein System zum Decodieren der Sprachinformation, das folgendes umfasst: ein Mittel zum Segmentieren eines Eingabeausdrucks in Sprach- und Stille-Bereiche; ein Mittel zum Erzeugen von konkurrierenden Zeichenfolgen und zum Ausrichten der konkurrierenden Zeichenfolgen mit den segmentierten Stille-Bereichen; ein Mittel zum Verbessern der Trennung zwischen korrekten und konkurrierenden Zeichenfolgen mittels Verwendung eines unterscheidenden Schulungsalgorithmus, um angepasste Zustandssequenzen zu erzeugen; und ein Mittel zum Decodieren des Eingabeausdrucks mittels Verwendung der angepassten Zustandssequenzen.
  10. Das System nach Anspruch 9, worin das Mittel zum Verbessern die Zustandssequenzen mittels Verwendung der Hidden-Markov-Modelle erzeugt.
  11. Das System nach Anspruch 9, worin das Mittel zum Segmentieren der Eingabeausdrücke in Segmente die Viterbi-Decodierung verwendet.
  12. Das System nach Anspruch 9, worin das Mittel zum Erzeugen konkurrierende Zeichenfolgen mittels der Verwendung von akustisch-betriebener Einfügung erzeugt.
  13. Das System nach Anspruch 9, worin das Mittel zum Erzeugen konkurrierende Zeichenfolgen mittels Verwendung einer blinden oder einer auf einer Regel basierenden externen Einfügung erzeugt.
  14. Das System nach Anspruch 9, worin der unterscheidende Schulungsalgorithmus einen Schulungsalgorithmus mit minimalem Zeichenfolge-Fehler einschließt, der N konkurrierende Zeichenfolge-Modelle verwendet.
  15. Das System nach Anspruch 9, worin das Mittel zum Decodieren des Eingabeausdrucks die Viterbi-Decodierung verwendet.
  16. Das System nach Anspruch 9, worin das Mittel zum Verbessern einen Generalized-Probabilistic-Descent-Algorithmus verwendet.
DE69816177T 1997-05-21 1998-05-12 Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen Expired - Fee Related DE69816177T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/861,413 US6076057A (en) 1997-05-21 1997-05-21 Unsupervised HMM adaptation based on speech-silence discrimination
US861413 1997-05-21

Publications (2)

Publication Number Publication Date
DE69816177D1 DE69816177D1 (de) 2003-08-14
DE69816177T2 true DE69816177T2 (de) 2004-04-22

Family

ID=25335723

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69816177T Expired - Fee Related DE69816177T2 (de) 1997-05-21 1998-05-12 Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen

Country Status (5)

Country Link
US (1) US6076057A (de)
EP (1) EP0880126B1 (de)
CA (1) CA2233179C (de)
DE (1) DE69816177T2 (de)
ES (1) ES2202695T3 (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
US6678658B1 (en) * 1999-07-09 2004-01-13 The Regents Of The University Of California Speech processing using conditional observable maximum likelihood continuity mapping
JP3834169B2 (ja) * 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
US7216079B1 (en) * 1999-11-02 2007-05-08 Speechworks International, Inc. Method and apparatus for discriminative training of acoustic models of a speech recognition system
US7269558B2 (en) * 2000-07-31 2007-09-11 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
US7464033B2 (en) * 2000-07-31 2008-12-09 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US20060245641A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8301449B2 (en) * 2006-10-16 2012-10-30 Microsoft Corporation Minimum classification error training with growth transformation optimization
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9602666B2 (en) 2015-04-09 2017-03-21 Avaya Inc. Silence density models
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
WO2018163279A1 (ja) 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
CN108962227B (zh) * 2018-06-08 2020-06-30 百度在线网络技术(北京)有限公司 语音起点和终点检测方法、装置、计算机设备及存储介质
CN115620748B (zh) * 2022-12-06 2023-03-28 北京远鉴信息技术有限公司 一种语音合成与鉴伪评价的综合训练方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
AU586167B2 (en) * 1984-05-25 1989-07-06 Sony Corporation Speech recognition method and apparatus thereof
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp., New York, N.Y. Lernverfahren und Gerät zur Spracherkennung
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
DE4325404C2 (de) * 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5778341A (en) * 1996-01-26 1998-07-07 Lucent Technologies Inc. Method of speech recognition using decoded state sequences having constrained state likelihoods
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method

Also Published As

Publication number Publication date
EP0880126A3 (de) 1999-07-28
EP0880126B1 (de) 2003-07-09
CA2233179A1 (en) 1998-11-21
US6076057A (en) 2000-06-13
ES2202695T3 (es) 2004-04-01
DE69816177D1 (de) 2003-08-14
EP0880126A2 (de) 1998-11-25
CA2233179C (en) 2002-07-23

Similar Documents

Publication Publication Date Title
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69620324T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69225173T2 (de) Spracherkennungsgerät
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69318447T2 (de) Erkennungssystem
DE68924134T2 (de) Spracherkennungssystem.
DE69229124T2 (de) Mehrteiliger expertsystem
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee