DE69226804T2 - Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk - Google Patents

Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk

Info

Publication number
DE69226804T2
DE69226804T2 DE69226804T DE69226804T DE69226804T2 DE 69226804 T2 DE69226804 T2 DE 69226804T2 DE 69226804 T DE69226804 T DE 69226804T DE 69226804 T DE69226804 T DE 69226804T DE 69226804 T2 DE69226804 T2 DE 69226804T2
Authority
DE
Germany
Prior art keywords
state
category
reference pattern
time series
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69226804T
Other languages
English (en)
Other versions
DE69226804D1 (de
Inventor
Ken-Ichi C/O Nec Corporation Minato-Ku Tokyo Iso
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69226804D1 publication Critical patent/DE69226804D1/de
Application granted granted Critical
Publication of DE69226804T2 publication Critical patent/DE69226804T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

  • Die Erfindung betrifft ein Spracherkennungsverfahren und insbesondere ein Spracherkennungsverfahren, das eine hohe Erkennungsrate aufweist, ohne ein Lernen mit einer besonders großen Menge Trainingsdaten zu erfordern.
  • Sprachsignale werden in Zeitreihenmustern von Merkmalsvektoren ausgedrückt, und die Spracherkennung basiert auf dem Grad der Identität zwischen einem Bezugsmuster, das ein bekanntes Sprachbruchstück bzw. -element darstellt, und dem Muster des Eingabesprachsignals. Für diese Zeitreihenmuster verwendet man weitgehend das Verborgene Markovsche Modell (HMM), wie in den Patentbeschreibungen der US-A-4 587 670 und 4 582 180 ausführlich beschrieben. Das HMM selbst wird hier nicht näher erläutert, da seine ausführliche Beschreibung, außer in den US-Patentschriften, in S. E. Levinson, "Structural Method in Automatic Speech Recognition" (Strukturelles Verfahren bei der automatischen Spracherkennung), Proc. IEEE 73, 11 (1985) 1625-1650, zu finden ist.
  • Das HMM nimmt an, daß die Zeitreihen von Merkmalsvektoren durch dem Markovschen Wahrscheinlichkeitsprozeß erzeugt werden. Die Standardmuster des HMM werden in mehreren Zuständen und Übergängen zwischen den Zuständen dargestellt, und jeder Zustand gibt einen Merkmalsvektor entsprechend einer vorgegebenen Wahrscheinlichkeitsdichteverteilung aus, während jeder Übergang zwischen Zuständen mit einer vorgegebenen Übergangswahrscheinlichkeit verbunden ist. Die Likelihood bzw. Stichprobenwahrscheinlichkeit, die den Grad der Anpassung bzw. Übereinstimmung zwischen dem Eingabemuster und einem Bezugsmuster darstellt, ist durch die Wahrscheinlichkeit des Markovschen Wahrscheinlichkeitsmodells zur Erzeugung einer Reihe von Eingabemustervektoren gegeben. Die Wahrscheinlichkeit des Übergangs zwischen Zuständen und der Parameter zur Definition der Funktion der Wahrscheinlichkeitsdichteverteilung, die jedes Bezugsmuster charakterisiert, können mit dem Baum-Welch- Algorithmus unter Verwendung mehrerer Vokalisationsdatensätze für das Trainingsziel bestimmt werden.
  • Der Baum-Welch-Algorithmus, der ein statistisches Lernverfahren ist, benötigt jedoch eine große Menge Trainingsdaten, um die Parameter des Modells zu bestimmen, das den Bezugsmustern entspricht. Daher ist die Vokalisationsbelastung bei neu beginnender Verwendung einer Spracherkennungsvorrichtung äußerst groß, und dies stellt ein schwerwiegendes Hindernis für die praktische Nutzung solcher Vorrichtungen dar. Um diese Belastung zu verringern, sind daher bereits eine Anzahl sprecheradaptive Verfahren vorgeschlagen worden, um eine Spracherkennungsvorrichtung mit einer relativ geringen Trainingsdatenmenge an den Sprecher anzupassen.
  • Ein sprecheradaptives Verfahren definiert die Ähnlichkeit akustischer Ereignisse nach Bezugsmustern, die bekannten Sprachsignalen entsprechen, und Vokalisationsdaten eines neuen Sprechers zur Anpassung, wobei im wesentlichen der körperliche Abstand zwischen den Merkmalsvektoren als Maßstab dient, und führt auf der Basis dieser Ähnlichkeit eine Anpassung durch Abschätzung aus, wobei die Parameter des Modells akustischen Ereignissen entsprechen, die in den Vokalisationsdaten für die Anpassung nicht vorhanden sind.
  • Ein solches Anpassungsverfahren, das auf einer Abschätzung basiert, die sich allein auf den körperlichen Abstand stützt, liefert zwar einer etwas höhere Erkennungsrate als vor der Anpassung, ist jedoch bei der Erkennung weit weniger effektiv als ein Verfahren mit Verwendung von Bezugsmustern, die mit einem bestimmten Sprecher übereinstimmen und aus einer großen Menge von Sprachdaten bestehen. (Weitere Details siehe K. Shikano, K. F. Lee und R. Reddy, "Speaker Adaptation through Vector Quantization" (Sprecheranpassung durch Vektorquantisierung), Proc. ICASSP-86, Tokyo (1986) 2643-2646.)
  • Als Mittel zur Verbesserung der Erkennungsrate haben die Erfinder der vorliegenden Erfindung inzwischen ein Mustererkennungsverfahren vorgeschlagen, das auf der Voraussage der obenerwähnten Zeitreihenmuster basiert. Bei Verwendung mehrschichtiger Perzeptrons (MLPs), die auf einem neuronalen Netz basieren, als Voraussageeinrichtungen für die Zeitreihenmuster bilden die Ausgabesignale der MLPs Bezugsmuster. Die Erfinder nannten die Bezugsmuster das "neuronale Voraussagemodell" (NPM). Dieses NPM wird hier nicht ausführlich beschrieben, da detaillierte Erläuterungen dazu in K. Iso und T. Watanabe, "Speaker-Independent Word Recognition Using a Neural Prediction Model" (Sprecherunabhängige Worterkennung unter Verwendung eines neuronalen Voraussagemodells) Proc. ICASSP-90, New Mexico (1990) 441-444, und in der anhängigen US-A-07-521 625 zu finden sind. Bei dem in diesen Quellen beschriebenen NPM berechnet ein Prädiktor (MLP) im n-ten Zustand eines Bezugsmustermodells, das aus einem Übergangsnetz mit endlichen bzw. finiten Zuständen besteht, einen vorausgesagten Vektor für den Merkmalsvektor der Eingabemuster zur Zeit aus mehreren Merkmalsvektoren zur Zeit und davor. Es wird vorausgesetzt, daß der Abstand zwischen diesem vorausgesagten Vektor und dem Merkmalsvektor des Eingabemusters zur Zeit der lokale Abstand zwischen den zwei Merkmalsvektoren ist. Bei dem in den oben zitierten Quellen beschriebenen NPM wird das Quadrat des Abstandes oder dergleichen zwischen den Vektoren als dieser lokale Abstand verwendet.
  • KURZE ZUSAMMENFASSUNG DER ERFINDUNG Aufgabe der Erfindung
  • Eine Aufgabe der Erfindung besteht darin, relativ gesehen, die Beiträge von Komponenten mit schlechterer Voraussagegenauigkeit (d. h. mit größeren Schwankungen) unter den Komponenten der vorausgesagten Vektoren zu verringern, dadurch die Voraussagegenauigkeit des Prädiktors zu erhöhen und die Genauigkeit der Erkennung durch das NPM zu verbessern.
  • Zusammenfassung der Erfindung
  • Ein erfindungsgemäßes Mustererkennungsverfahren erkennt die Zeitreihenmuster von Merkmalsvektoren, die Eingabesprachsignale darstellen, unter Verwendung des NPM, welches das Übergangsnetz mit endlichen Zuständen bildet. Jeder Zustand dieses Übergangsnetzes mit endlichen Zuständen weist einen Prädiktor auf, um aus mehreren Merkmalsvektoren der Eingabe- Zeitreihenmuster zur Zeit und davor und mehreren Merkmalsvektoren zur Zeit und danach einen vorausgesagten Vektor zu berechnen. Dieser vorausgesagte Vektor wird mit dem Merkmalsvektor der Zeitreihenmuster zur Zeit verglichen. Als der lokale Abstand, der durch das Ergebnis dieses Vergleichs angezeigt wird, d. h. als der lokale Abstand zwischen dem Merkmalsvektor der Eingabe-Zeitreihenmuster zur Zeit (Eingabemerkmalsvektor und dem -ten Zustand des Übergangsnetzes mit endlichen Zuständen (vorausgesagter Merkmalsvektor) wird der Voraussagerest verwendet, der aus dem Eingabemerkmalsvektor, dem vorausgesagten Merkmalsvektor und einer Kovarianzmatrix berechnet wird, die mit dem -ten Zustand im voraus verbunden ist. Die Gesamtdifferenz zwischen den Zeitreihenmustern und dem Bezugsmustermodell ist durch einen kumulativen Wert gegeben, der auf den Zustandsübergang des lokalen Abstands folgt. Dieser kumulative Wert wird für jede Kategorie des Bezugsmustermodells berechnet, und die Kategorie mit dem kleinsten kumulativen Wert wird als Erkennungsausgabesignal ausgewählt.
  • Das erfindungsgemäße NPM bildet durch Lernen das Bezugsmustermodell. Zuerst werden die Anfangswerte für die Parameter des Prädiktors und der Kovarianzmatrix eingestellt, die mit jedem Zustand des Übergangsnetzes mit endlichen Zuständen verbunden ist. Als nächstes wird der Gesamtabstand zwischen dem Lernmuster, dessen Kategorie bekannt ist, und dem Bezugsmustermodell mit der gleichen Kategorie wie der obengenannten berechnet, und die Parameter des Prädiktors und der Kovarianzmatrix jedes Zustands werden in Richtung einer Verminderung des Gesamtabstands durch einen vorgegebenen Algorithmus mit Sicherheit korrigiert. Diese Korrektur wird wiederholt, und das Mustermodell, das vorgegebene Konvergenzbedingungen erfüllt, wird schließlich als Bezugsmustermodell ausgewählt.
  • Kurze Beschreibung der Zeichnungen
  • Die obenerwähnten und weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden anhand der folgenden ausführlichen Beschreibung der Erfindung in Verbindung mit den beigefügten Zeichnungen klarer erkennbar. Dabei zeigen:
  • Fig. 1 die Konfiguration des mehrschichtigen Perzeptrons (MLP), das bei der Erfindung als Prädiktor verwendet wird;
  • Fig. 2 die endlichen bzw. finiten Zustandsübergänge eines neuronalen Voraussagemodells (NPM), welches das erfindungsgemäße Bezugsmustermodell bildet;
  • Fig. 3 die Konfiguration des erfindungsgemäßen Erkennungsalgorithmus;
  • Fig. 4 ein Erkennungsablaufdiagramm, welches das erfindungsgemäße Mustererkennungsverfahren darstellt;
  • Fig. 5 ein detailliertes Ablaufdiagramm des Initialisierungsabschnitts von Fig. 4;
  • Fig. 6 ein detailliertes Ablaufdiagramm zur Berechnung des lokalen Abstands in Fig. 4;
  • Fig. 7 ein Ablaufdiagramm, welches das erfindungsgemäße Bezugsmusterlernverfahren erläutert;
  • Fig. 8 ein Blockschaltbild einer Spracherkennungsvorrichtung, die eine bevorzugte Ausführungsform der Erfindung darstellt;
  • Fig. 9 ein detailliertes Ablaufdiagramm zur Berechnung des vorausgesagten Vektors im Schritt 601 in Fig. 6;
  • Fig. 10 ein detailliertes Ablaufdiagramm zur Berechnung des lokalen Abstands im Schritt 602 in Fig. 6;
  • Fig. 11 ein detailliertes Ablaufdiagramm der Initialisierung im Schritt 701 in Fig. 7;
  • Fig. 12 ein detailliertes Ablaufdiagramm zur Berechnung der optimalen Trajektorie im Schritt 704 in Fig. 7;
  • Fig. 13 ein detailliertes Ablaufdiagramm zur Berechnung der Parameterkorrekturgrößen im Schritt 706 in Fig. 7;
  • Fig. 14 ein detailliertes Ablaufdiagramm zur Berechnung der Kovarianzmatrix im Schritt 711 in Fig. 7; und
  • Fig. 15 ein detailliertes Ablaufdiagramm zur Konvergenzentscheidung im Schritt 712 in Fig. 7.
  • ALLGEMEINE BESCHREIBUNG
  • Zur Erläuterung des Prinzips der Spracherkennung gemäß der vorliegenden Erfindung in Bezug auf Fig. 1 läßt sich sagen, daß der bei der Erfindung verwendete Prädiktor aus mehr schichtigen Perzeptoren (MLPs) besteht. Wie ausführlich in M. Funahashi, "On the Approximate Realization of Continuous Mappings by Neural Networks" (Zur angenäherten Realisierung stetiger Abbildungen durch neuronale Netze), Neural Networks 2 (1989) 183-192, beschrieben, approximieren MLPs jede (nichtlineare) stetige Funktion mit jeder gewünschten Genauigkeit.
  • In der Abbildung bestehen die in die MLPs einzugebenden Zeitreihenmuster aus Merkmalsvektoren at - γF,, ..., at-1 für die "Vorwärtsvoraussage" und at+1,... at+γB für die "Rückwärtsvoraussage". Die auf der Zeitachse rückwärts gerichtete Voraussage der letzteren wird zur Vorwärtsvoraussage der ersteren hinzugefügt, um die Voraussagegenauigkeit der Zeitreihenmuster zu verbessern, die auf der Zeitachse rückwärts eine enge Korrelation aufweisen. Da zum Beispiel der Verschlußteil eines Verschlußlauts mit dem Übergangsteil des nachfolgenden Vokals enger korreliert ist als mit dem geschlossenen Teil vor dem Verschluß, erweist sich diese Rückwärtsvoraussage als effektiv für Verschlußlaute.
  • Das Ausgabemuster der MLPs ist der vorausgesagte Vektor ât für den Merkmalsvektor at der Eingabesprache zum Zeitpunkt t. Dieser vorausgesagte Vektor läßt sich unter Verwendung der Eingabe-Ausgabe-Beziehung der MLPs durch die folgenden Gleichungen darstellen:
  • wobei W&sub0;, W&sub1;F,..., WγFF, W&sub1;B,..., WγBB die Matrix der Kopplungskoeffizienten zwischen den MLP-Einheiten darstellen; θ&sub0; und θ&sub1; Schwellwertvektoren sind und f(·) ein Vektor ist, den man durch Anwenden der Sigmoidfunktion auf jede Komponente des Subtrahendenvektors erhält.
  • Wie oben festgestellt, ermöglicht die Zusammensetzung eines Prädiktors aus MLPs, die kausale Beziehung zwischen benachbarten Merkmalsvektoren in der Zeitreihe von Sprachmerkmalsvektoren als eine durch die MLPs gebildete nichtlineare Abbildung zu beschreiben. Die relative Genauigkeit der Voraus sage kann durch Verwendung des vorausgesagten Vektors ât, der das Ausgabesignal der MLPs ist, und des Merkmalsvektors at der tatsächlichen Eingabesprache als Voraussagerest beurteilt werden.
  • Ein NPM, welches das Bezugsmustermodell einer Grundeinheit der Spracherkennung bildet, wie z. B. des Wortes oder der Silbe, wird durch ein Übergangsnetz mit endlichen (in diesem Falle vier) Zuständen (die endlichen Zustände schließen die Zustände 201 bis 204 ein) dargestellt, und jeder Zustand besteht aus dem Prädiktor, der sich aus MLPs zusammensetzt. Ein NPM, das eine größere Einheit (wie z. B. einen Satz) darstellt, kann durch Verbinden vieler NPMs für Erkennungsgrundeinheiten zusammengesetzt werden.
  • Als nächstes geht der Erkennungsalgorithmus unter Verwendung der NPMs im wesentlichen von einer Musteranpassung zwischen Eingabesprache und einem Bezugsmustermodell aus. Das Bezugsmustermodell für diskrete Erkennung ist ein NPNf für eine Erkennungsgrundeinheit, während dasjenige für kontinuierliche Erkennung ein NPM ist, das man durch Verbinden von Grundeinheit-NPMs erhält, und in beiden Fällen handelt es sich um ein Übergangsnetz mit endlichen Zuständen, das mit dem MLP-Prädiktor verbunden ist. Gemäß der vorliegenden Erfindung wird die kontinuierliche Erkennung erreicht, indem die Lautelemente der Sprachsignale und daher die enge Korrelation der Merkmalsvektoren auf der Zeitachse berücksichtigt werden. Aus diesem Grunde besteht das Übergangsnetz mit endlichen Zuständen aus einem Links-Rechts-Muster, wie in Fig. 2 dargestellt.
  • Der Abstand (der lokale Abstand) dt(n) zwischen dem Merkmalsvektor at der Eingabesprache zur Zeit und dem -ten Zustand eines NPM ist durch die folgende Gleichung gegeben:
  • dt(n) = (at - ât(n))TΣn&supmin;¹(at - ât(n)) + 1n Σn (3)
  • wobei ât(n) der durch den MLP-Prädiktor im -ten Zustand vorausgesagte Vektor und Σn die Kovarianzmatrix im -ten Zustand ist. Der Voraussagerest wird durch dt(n) dargestellt, und Σn in der Gleichung ist eine Größe, die eingeführt wird, um die verschiedenen Schwankungsgrade des Voraussagerests von einer Komponente des Merkmalsvektors zur anderen zu normieren. Gleichung (3) kann als die logarithmische Wahrscheinlichkeit interpretiert werden, die man erhält, wenn die Wahrscheinlichkeit, mit welcher der Merkmalsvektor at im -ten Zustand des NPM beobachtet wird, durch eine Gaußsche Verteilung angenähert wird, dargestellt durch die folgende Gleichung:
  • Wenn die nichtdiagonalen Terme der Kovarianzmatrix Σn vernachlässigbar klein sind, läßt sich Gleichung (3) durch die folgende Gleichung annähern:
  • wobei der untere Index eine Komponente eines C-dimensionalen Merkmalsvektors und δ²nc die c-te Komponente der Kovarianzmatrix Σn bedeuten. Wenn ferner δ²nc = 1 (die Kovarianzmatrix eine Einheitsmatrix) ist, dann läßt sich hier Gleichung (3) zu der folgenden Gleichung vereinfachen:
  • dt(n) = at - ât(n) ² (6)
  • Diese Gleichung (6) ist der Maßstab des Abstands, der in bekannten NPMs verwendet wird, in denen Unterschiede im Schwankungsgrad des Voraussagerests von einer Komponente des Merkmalsvektors zur anderen nicht berücksichtigt werden.
  • Der (globale) Abstand D zwischen der Eingabesprache und einem NPM ist durch die folgende Gleichung als kumulative Summe lokaler Abstände gegeben:
  • wobei nt die Kennummer des NPM ist, das die Voraussage des Merkmalsvektors der Eingabesprache zur Zeit ausführt. Die Minimierung in Gleichung (7) bedeutet die Auswahl aus möglichen Trajektorien n&sub1;, n&sub2;, ..., nt, ..., nT (mögliche Zustandsübergänge in dem Übergangsnetz mit endlichen Zuständen) zwischen Eingabesprache und einem NPM, die den globalen Abstand (den akkumulierten Voraussagerest) D minimiert. Falls das in Fig. 2 dargestellte sprungfreie Links-Rechts-Muster als NPM verwendet werden soll, sollte nt die folgenden Nebenbedingungen erfüllen:
  • n&sub1; = 1 (8)
  • nT = N (9)
  • nt = nt-1 oder nt-1 + 1 (1 < t &le; T) (10)
  • wobei T die Länge der Merkmalsvektor-Zeitreihenmuster der Eingabesprachesignale und N die Anzahl der NPM-Zustände (die Kennummer des Endzustands) ist. Unter diesen Nebenbedingungen kann das Minimierungsproblem durch dynamische Programmierung (DP) unter Verwendung der folgenden Rekursionsformel gelöst werden (wegen Details zur DP kann auf H. Sakoe und S. Chiba, "Dynamic Programming Algorithm Optimization for Spoken Word Recognition" (Optimierung für die Erkennung gesprochener Wörter mit einem dynamischen Programmierungsalgorithmus); IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-26 (I), Februar 1978, S. 43-49, verwiesen werden):
  • wobei gt(n) die Partialsumme der lokalen Abstände dt(n) ist und der globale Abstand D durch die folgende Gleichung gegeben ist:
  • D = gT(N) (12)
  • Durch Zurückverfolgen der Ergebnisse kann man die optimale Trajektorie nt* zum Minimieren des akkumulierten Voraussagerests erhalten. Diese Information wird bei dem nachstehend zu beschreibenden Trainingsalgorithmus verwendet. Beim Erkennen kontinuierlicher Sprache oder dergleichen kann die Wortfolge des Erkennungsergebnisses aus dieser Information festgestellt werden. Fig. 3 stellt eine Skizze des bisher beschriebenen Erkennungsalgorithmus dar.
  • Als nächstes wird der Erkennungsalgorithmus zur automatischen Bestimmung der Parameter von NPMs (der Gewichtungsparameter für das neuronale Netz, welches den Prädiktor bildet, und der Parameter der Kovarianzmatrix) unter Verwendung bekannter Sprachdaten beschrieben. Der Zweck des Trainings besteht darin, Modellparameter zu finden, die den obenerwähnten akkumulierten Voraussagerest für die zum Training verwendeten Sprachdaten minimieren würden. Dies läßt sich auf die folgende als ein Minimierungsproblem formulieren, dessen Auswertungs- bzw. Bewertungsfunktion die Gesamtsumme Dtotal des akkumulierten Voraussagerests für die gesamten Trainingssprachdaten ist:
  • wobei M die Gesamtzahl der Trainingsdatensätze und D(m) der akkumulierte Voraussagerest für den -ten Trainingsdatensatz ist. D(m) kann durch den im vorhergehenden Abschnitt formulierten Algorithmus unter Verwendung der dynamischen Programmierung (DP) berechnet werden. Die Bewertungsfunktion Dtotal kann auf optimale Weise durch den weiter unten angegebenen iterativen Algorithmus minimiert werden, der DP und Rückwärtsfortpflanzung (BP = back propagation) miteinander kombiniert (wegen weiterer Details über BP kann auf R. P. Lippmann, "An Introduction to Computing with Neural Nets" (Einführung in das Rechnen mit neuronalen Netzen), IEEE ASSP Magazine 3 (1987) 4- 22, verwiesen werden)
  • Schritt 1: Alle NPM-Parameter initialisieren (einschließlich der Matrizen der Einheitenkopplungskoeffizienten, der Schwellwertvektoren und Kovarianzmatrizen sowie aller MLP-Prädiktoren)
  • Schritt 2: m = 1
  • Schritt 3: Akkumulierten Voraussagerest D(m) für den m-ten Trainingsdatensatz mittels DP berechnen. Optimale Trajektorie {nt*} durch Rückverfolgung suchen.
  • Schritt 4: t = 1
  • Schritt 5: Dem Ausgabe-ât(nt*) des nt*-ten MLP-Prädiktors der Bezugsmuster ist ein wünschenswerter Ausgabe-at zuzuweisen, und die Korrekturgröße jedes Parameters ist mittels BP zu berechnen.
  • Schritt 6: t = t + 1
  • Schritt 7: Wenn t nicht größer als Tm ist (Tm ist die Anzahl der Rahmen des -ten Trainingsdatensatzes), Rücksprung zu Schritt 5.
  • Schritt 8: m = m + 1
  • Schritt 9: Wenn m nicht größer als M ist, Rücksprung zu Schritt 3.
  • Schritt 10: Alle NPM-Parameter gemäß den in Schritt S berechneten Korrekturgrößen aktualisieren.
  • Schritt 11: Wenn die Konvergenzbedingungen nicht erfüllt sind, Rücksprung zu Schritt 2.
  • Bei den Parameterkorrekturen mittels BP im vorstehenden Algorithmus wird zwar die determinierte Methode des schnellsten Abstiegs bzw. Sattelpunktmethode benutzt, nach der alle Korrekturen gemeinsam im Schritt 10 ausgeführt werden, aber die Korrekturen können auch nacheinander nach der Zufallsmethode des schnellsten Abstiegs ausgeführt werden. Hinsichtlich der Konvergenzbedingungen im Schritt 11 wird die Konvergenz dann als erreicht betrachtet, wenn zum Beispiel das Dekrement der Bewertungsfunktion Dtotal unter einen bestimmten Wert abfällt.
  • Wenn eine Kovarianzmatrix in die Skala der lokalen Abstände eingeführt wird, erfordert die Größe des Rückfortpflanzungsfehlers durch BP die folgende Korrektur (übrigens sind die nichtdiagonalen Terme der Kovarianzmatrix vernachlässigbar klein). Der Betrag des Rückfortpflanzungsfehlers der -ten Einheit der Ausgabeschicht des MLP-Prädiktors im nt-ten Zustand &delta;tv(nt*) ist:
  • Dies unterscheidet sich von dem Betrag des Rückfortpflanzungsfehlers, in dem keine Kovarianzmatrix berücksichtigt ist, um den reziproken Wert der Varianz. Der Schätzwert der Kovarianzmatrix wird so bestimmt, daß die Bewertungsfunktion Dtotal minimiert wird. Auf diese Weise wird aus der folgenden Optimierungsbedingung
  • die folgende Abschätzungsformel (Neubewertungsformel zur Verwendung in Schritt 10) der Kovarianzmatrix hergeleitet:
  • wobei Tm die Anzahl der Rahmen des -ten Trainingsdatensatzes, &delta;nn ein Kronecker-Symbol ist.
  • Die Konvergenz des vorstehenden iterativen Trainingsalgorithmus läßt sich wie folgt beweisen. Folglich ist der Wert D der Bewertungsfunktion in der k-ten Iteration vor der Parameterkorrektur (unmittelbar vor dem Schritt 10) gleich der Summe der Voraussagereste, die in Übereinstimmung mit der optimalen (den akkumulierten Voraussagerest minimierenden) Trajektorie {n }, ermittelt durch DP für jeden Trainingsdatensatz, akkumuliert wird. Die nach der Parameterkorrektur in Schritt 10 in Übereinstimmung mit der gleichen Trajektorie akkumulierte Summe der Voraussagereste wird durch D dar gestellt. Während die Parameterkorrektur mittels BP hier so ausgeführt wird, daß sich der quadratische Fehler in der Ausgabeschicht jedes MLP-Prädiktors vermindert, wird im Falle von NPM, wo dieser quadratische Fehler mit dem Voraussagerest identisch ist, der akkumulierte Voraussagerest mit Sicherheit durch die Parameterkorrektur vermindert. (Die Neubewertung der Kovarianzmatrix wird zusammen mit BP betrachtet.)
  • Wenn jedoch die Parameter mittels BP korrigiert werden, geht die Optimalität der im Schritt 3 erzielten optimalen Trajektorie verloren. Daher wird die optimale Trajektorie für die Modellparameter gesucht, die in der ( )-ten Iteration mittels DP korrigiert werden. Da die DP die optimale Trajektorie zum Minimieren des Voraussagerests liefert:
  • lassen die Formeln 18 und 19 schließlich erkennen, daß die Bewertungsfunktion durch Iteration monoton verkleinert wird.
  • Qualitativ läßt sich verstehen, daß dieser iterative Algorithmus deshalb konvergiert, weil DP und BP Minimierungsverfahren für die gleiche Bewertungsfunktion (die akkumulierte Summe von Voraussageresten) sind und nacheinander angewandt werden.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Nachstehend wird die vorliegende Erfindung näher erläutert, wobei auf Fig. 4 bis 6, welche die Ablaufdiagramme der Erkennung nach dem erfindungsgemäßen Spracherkennungsverfahren darstellen, Fig. 7, die ein Ablaufdiagramm für das Lernen von Bezugsmustern nach dem erfindungsgemäßen Spracherkennungsverfahren darstellt, und Fig. 8, ein Blockschaltbild einer erfindungsgemäßen Spracherkennungsvorrichtung, Bezug genommen wird.
  • Eine Spracheingabeeinheit 8101 in Fig. 8, die unter anderem aus einem Mikrofon, einem Verstärker und einem Analog- Digital-Wandler (AD-Wandler) besteht, digitalisiert Sprachsignale, die vom Benutzer hervorgebrachte Sprachlaute darstellen, und führt sie dem anschließenden akustischen Analysator 8102 zu. Der akustische Analysator 8102 unterwirft diese digitalisierten Sprachsignale einer Spektralanalyse durch schnelle Fouriertransformation (FFT) oder dergleichen und wandelt sie in ein Zeitreihenmuster von Merkmalsvektoren um. Die Spektralanalyse kann außer durch FFT auch durch lineare Prädiktionscodierung (LPC) oder nach der Cepstrum-Methode ausgeführt werden.
  • Ein Bezugsmuster-Speicherabschnitt 8103 speichert die Parameter der Bezugsmustermodelle aller Wortkategorien, welche die Erkennungsgegenstände bilden. Wenn zum Beispiel 10 Ziffern erkannt werden sollen, werden die Parameter des Bezugsmustermodells jeder der Ziffern von 0 bis 9 gespeichert. Hierbei ist das Bezugsmustermodell jeder Kategorie ein Übergangsnetz mit endlichen Zuständen, wobei jeder der Zustände des Netzes mit einem MLP-Prädiktor verbunden ist.
  • Was im Speicherabschnitt 8103 gespeichert wird, sind die Parameter der MLP-Prädiktoren verschiedener Zustände und die Kovarianzmatrizen der jeweiligen Zustände. Falls MLP- Prädiktoren mit je einer verborgenen Schicht, wie in Fig. 1 dargestellt, verwendet werden, sind die Parameter &tau;F Matrizen von Einheitenkopplungskoeffizienten, W&sub1;F,...,W&tau;FF (jede Matrix besteht aus H Zeilen und C Spalten, wobei C die Anzahl der Einheiten mit verborgenen Schichten und H die Anzahl der Merkmalsvektoren ist) für die Vorwärtsvoraussage, &tau;B Matrizen von Einheitenkopplungskoeffizienten, W&sub1;F,..., W&tau;BB (jede Matrix besteht aus H Zeilen und C Spalten) für die Rückwärtsvoraussage, eine Matrix W von Einheitenkopplungskoeffizienten (bestehend aus C Zeilen und H Spalten), der Schwellwertvektor &theta;&sub1; der verborgenen Schicht (H-dimensionaler Vektor) und der Schwellwertvektor &theta;&sub0; der Ausgabeschicht (C-dimensionaler Vektor). Jede Kovarianzmatrix ist eine symmetrische Matrix mit C Zeilen und C Spalten, und die Anzahl der unabhängigen Komponenten beträgt C(C + 1)/2.
  • Ein Abstandsrechner 8104 berechnet den Abstand zwischen dem von dem akustischen Analysator 8102 vorgegebenen Merkmalsvektor-Zeitreihenmuster und dem Bezugsmustermodell jeder der obenerwähnten Kategorien und führt das Ergebnis der Berechnung einem Erkennungsergebnis-Ausgabeabschnitt 8105 zu. Der Abstand zwischen dem Merkmalsvektor-Zeitreihenmuster der Eingabesprache und dem Bezugsmustermodell ist der durch die oben zitierte Gleichung (7) definierte globale Abstand D. Das Berechnungsverfahren ist durch den Ablauf von Schritt 401 bis 414 in Fig. 4 gegeben. In Fig. 4 ist eine Variable, welche die Zeitachse des Merkmalsvektor-Zeitreihenmusters der Eingabesprache darstellt, und nimmt einen der ganzzahligen Werte von 1 bis T an; ist eine Variable, welche die Kategorie der Erkennungsgegenstände darstellt, und nimmt einen der ganzzahligen Werte von 1 bis S an - falls die Erkennungsgegenstände 10 Ziffern sind, ist = 10; ist eine Variable, welche den Zustand des Bezugsmustermodells jeder Kategorie darstellt, und nimmt einen der ganzzahligen Werte von 1 bis N(s) an (N(s) ist die Nummer des Zustands des Bezugsmustermodells der Kategorie ); dt(s)(n) ist eine Variable zum Speichern des lokalen Abstandes zwischen dem -ten Zustand der Kategorie s und dem Merkmalsvektor at der Eingabesprache zur Zeit ; und gt(s)(n ist eine Variable zum Speichern des akkumulierten Voraussagerests des -ten Zustands der Kategorie zur Zeit t.
  • Im Schritt 401 werden die Variablen initialisiert, um den globalen Abstand D von Gleichung (7) mittels DP zu berechnen. Wie aus Fig. 5 ersichtlich, die diesen Schritt 401 im Detail darstellt, wird in den Schritten 501 bis 503 ein Zähler initialisiert. Im Schritt SO&sub4; werden die Speicherbereiche für den lokalen Abstand dst(n) und den akkumulierten Voraussagerest gst(n) initialisiert. In den Schritten 505 bis 510 werden das Inkrement und die Bedingungen des Zählers beurteilt, und die Initialisierung im Schritt SO&sub4; wird bezüglich aller Werte von , und angewandt. Dann wird in den Schritten 511 bis 514 der Anfangswert des akkumulierten Voraussagerests jeder Kategorie gesetzt.
  • Als nächstes berechnet, wie aus Fig. 6 erkennbar, die den Schritt 405 zur Berechnung des lokalen Abstands im Detail darstellt, im Schritt 601 ein mit dem -ten Zustand der Kategorie verbundener MLP-Prädiktor den vorausgesagten Vektor ât, der mit dem Eingabesprachen-Merkmalsvektor at zur Zeit verglichen werden soll. In Fig. 9, welche diese durch die oben zitierten Gleichungen (1) und (2) dargestellte Berechnung noch näher erläutert, ist X eine skalare Variable; Y die Anordnung in der H-Dimension (Y(h) ist das h-te Element); Z die Anordnung in der C-Dimension (Z(c) ist das c-te Element); H die Anzahl der Einheiten mit verborgenen Schichten und C die Dimensionszahl des Merkmalsvektors. Ferner ist (&theta;&sub1;)h im Schritt 9202 die h-te Komponente des Schwellwertvektors &theta; : (W )hc im Schritt 9205 ist das Element in der h-ten Zeile und der c-ten Spalte der Kopplungskoeffizientenmatrix W , &tau;F bzw. &tau;B bedeuten die Anzahlen von Merkmalsvektoren der Eingabesprache, die für die obenerwähnte Vorwärtsvoraussage bzw. Rückwärtsvoraussage verwendet werden, wobei, präzise gesagt, die Werte &tau;F = 2 und &tau;B = 1 verwendet werden. Die in Fig. 9 gezeigte Berechnung liefert den vorausgesagten Vektor ât als Vektoranordnung Z mit C Komponenten.
  • Als nächstes wird, wie ferner aus Fig. 6 erkennbar, im Schritt 602 aus dem Eingabesprachen-Merkmalsvektor at zur Zeit und dem vorausgesagten Vektor ât, der im Schritt 601 durch den mit dem -ten Zustand der Kategorie verbundenen MLP- Prädiktor berechnet wird, der Abstand d (n) berechnet. Im Schritt 10301 von Fig. 10, welche diese durch die oben zitierte Gleichung (3) dargestellte Berechnung ausführlicher darstellt, ist &Sigma; die Determinante der Kovarianzmatrix im nten Zustand der Kategorie s. Das Verfahren zur Berechnung der Determinante wird hier nicht erläutert, da es aus der elementaren linearen Algebra bekannt ist. Im Schritt 10301 wird der natürliche Logarithmus der Determinante der Kovarianzmatrix für eine Variable X eingesetzt. Die Variablen Y und X in Fig. 10 sind beide in der C-Dimension angeordnet. Im Schritt 10305 ist (at)c2 die c-te Komponente des Eingabesprachen-Merkmalsvektors at, und (a (n))c2 ist der Vektor, der durch den mit dem n-ten Zustand der Kategorie verbundenen MLP-Prädiktor vorausgesagt wird, beide berechnet im Schritt 601. Im Schritt 10306 ist &Sigma; c1c2 die Komponente der c&sub1;-ten Zeile und der c&sub2;-ten Spalte der inversen Matrix der Kovarianzmatrix &Sigma; . Das Verfahren zur Berechnung der inversen Matrix wird hier nicht erläutert, da es aus der elementaren linearen Algebra bekannt ist. Die in Fig. 10 dargestellte Verarbeitung speichert den Wert des lokalen Abstands d (n) in die Variable X.
  • Durch die Verarbeitung bis zum Schritt 414 in Fig. 4 wird der globale Abstand D zwischen dem Merkmalsvektor-Zeitreihenmuster der Eingabesprache und dem Bezugsmustermodell berechnet. Zu diesem Zeitpunkt erhält man den globalen Abstand D zwischen den obenerwähnten Mustern der Kategorie als akkumulierten Voraussagerest gT(N(S)) des Endzustands N(s) jedes Bezugsmustermodells zur Zeit T (dem Endpunkt eines Zeitreihenmusters).
  • Der Erkennungsergebnis-Ausgabeabschnitt 8105 wählt den kürzesten Abstand zwischen dem Merkmalsvektor-Zeitreihenmuster der Eingabesprache und dem Bezugsmustermodell jeder vom Abstandsrechner 8104 vorgegebenen Kategorie aus und liefert deren Kategoriebezeichnung als Erkennungsergebnis. Sein spezifischer Verarbeitungsschritt ist der Schritt 415 in Fig. 4.
  • Ein Trainingssprachdatenbank-Speicherabschnitt 8106 speichert die Sprachdaten aller Wort/Silben-Kategorien, die Gegenstand der Erkennung sind, d. h. die Zeitreihenmuster von Merkmalsvektoren, die jeder Kategorie entsprechen.
  • Ein Bezugsmusterkorrektor 8107 berechnet die Korrekturgrößen, die für die Parameter des Bezugsmustermodells jeder Kategorie erforderlich sind, das aus dem Bezugsmuster-Speicherabschnitt 8103 eingelesen wird, auf der Basis der Traingssprachdaten aus dem Traingssprachdatenbank-Speicherabschnitt 8106 und korrigiert die obenerwähnten Parameter entsprechend den im Bezugsmuster-Speicherabschnitt 8103 gespeicherten Bezugsmustern.
  • Wie aus Fig. 7 erkennbar, welche die Signalverarbeitung darstellt, werden die Parameter der Bezugsmustermodelle aller Kategorien (einschließlich der Einheitenkopplungskoeffizienten der MLP-Prädiktoren in verschiedenen Zuständen, der Schwellwertvektoren und Kovarianzmatrizen) im Schritt 701 mit Zufallszahlen initialisiert. Diese Verarbeitung ist ausführlich in Fig. 11 dargestellt. Hierbei ist s eine Variable, welche die Kategorie des Erkennungsgegenstands darstellt, und nimmt, wenn 10 Ziffern erkannt werden sollen, einen der ganzzahligen Werte von 1 bis 10 an; und ist eine Variable, die den -ten Zustand des Bezugsmustermodells der s-ten Kategorie darstellt, und nimmt einen der ganzzahligen Werte von 1 bis N(s) an. Im Schritt 11406 ist (WtF)hc das Element in der h-ten Zeile und der c-ten Spalte der -ten Einheitenkopplungsmatrix WtF für Vorwärtsvoraussage des MLP-Prädiktors, der mit dem -ten Zustand des Bezugsmustermodells der -ten Kategorie verbunden ist. Hierbei bedeutet "zufällig" Zufallszahlen, die typischerweise zwischen -0,3 und 0,3 liegen. Entsprechend wird in den folgenden Schritten 11416, 11424, 11429 und 11432 angenommen, daß der Objektparameter der Parameter des -ten Zustands des Bezugsmustermodells der -ten Kategorie ist. Im Schritt 11439 werden Variable D1 und D2, die anschließend für die Konvergenzentscheidung im Schritt 712 verwendet werden, und eine weitere Variable P initialisiert.
  • Im Schritt 704 werden die optimalen Trajektorien zwischen dem -ten Trainingsdatensatz der s-ten Kategorie (der Merkmalsvektor-Zeitreihe mit der Länge Tm(s) und den Bezugsmustermodellen der -ten Kategorie ermittelt. Details dieser Verarbeitung sind in Fig. 12 dargestellt. Der Initialisierungsabschnitt 2 von Schritt 12501 resultiert aus der Festlegung der Variablen , welche die Kategorie darstellt, die bei der in Fig. 4 (Schritt 401) angegebenen Initialisierung zu verarbeiten ist. Genauer gesagt, diese Verarbeitung wird durch Entfernen der Schritte 502, 507, 508, 511 und 514 von Fig. 5 erreicht. Der Abstandsberechnungsabschnitt 2 von Schritt 12502 resultiert aus der Festlegung der Variablen , welche die Kategorie darstellt, die in dem in Fig. 4 vorgegebenen Abstandsberechnungsverfahren von Schritt 402 bis 414 zu verarbeiten ist. Genauer gesagt, diese Verarbeitung wird durch Entfernen der Schritte 403, 411 und 412 ausgeführt. Für die anschließende Konvergenzentscheidung wird der durch die Verarbeitung bis zum Schritt 414 berechnete akkumulierte Voraussagerest gT(s)(N(S)) im voraus zu der Variablen D1 für die Konvergenzentscheidung addiert (D1 = D1 + gT(s)(NS). Die optimalen Trajektorien n&sub1;, ..., nT erhält man durch die Verarbeitung von &Sigma;chritt 12503 bis 12510.
  • Wie wiederum aus Fig. 7 erkennbar, werden im Schritt 706 die Parameter des mit dem nt*-ten Zustand verbundenen MLP- Prädiktors, bei gegebener Übereinstimmung mit dem Merkmalsvektor aT des -ten Trainingsdatensatzes der -ten Kategorie zur Zeit im Schritt 704, durch Rückwärtsfortpflanzung korrigiert. Details dieser Verarbeitung sind in Fig. 13 dargestellt. Im Schritt 13602 wird der vorausgesagte Vektor für den Merkmalsvektor at zur Zeit berechnet. Dieses Verfahren ist in Fig. 9 dargestellt (auf die oben Bezug genommen wird). Bei der Verarbeitung in den folgenden Schritten 13603 bis 13634 ist Y eine H-dimensionale Anordnung, die das im Schritt 13602 berechnete Ausgabesignal der Einheit mit verborgener Schicht darstellt; &Delta;Z ist eine C-dimensionale Anordnung, die den Fehler bezüglich der Ausgabeschichteinheit darstellt; &Delta;Y ist eine H-dimensionale Anordnung, die den Fehler bezüglich der Einheit mit verborgener Schicht darstellt; und &epsi; ist ein vorgegebener Lernkoeffizient, (der typischerweise den Wert 0,1 oder dergleichen annimmt). Hierbei sind die nichtdiagonalen Terme der Kovarianzmatrix vernachlässigbar klein, und die Matrix wird dementsprechend als Diagonalmatrix behandelt, deren -te Komponente im Schritt 13607 gleich (&Sigma;n)cc ist. Durch die in Fig. 13 dargestellte Verarbeitung werden die Parameter des nt*-ten MLP-Prädiktors der -ten Kategorie so korrigiert, daß die Voraussagereste vermindert werden. Durch die Verarbeitung von Schritt 703 bis 710 wird das oben beschriebene Korrekturtraining auf alle Trainingsdatensätze der -ten Kategorie angewandt.
  • Im Schritt 711 wird auf der Basis der oben angegebenen Gleichung (16) eine neue Kovarianzmatrix berechnet. Das Verfahren im Schritt 711 ist in Fig. 14 dargestellt, wobei Variable X bzw. Y Anordnungen von N(T) Zeilen bzw. C Spalten sind. Die Berechnung der optimalen Trajektorie im Schritt 14709 erfolgt auf die gleiche Weise wie im Schritt 704, wie ausführlich in Fig. 12 dargestellt. Die Verarbeitung durch den Berechnungsabschnitt für den vorausgesagten Vektor im Schritt 14712 ist die gleiche wie im Schritt 13602, dessen Details in Fig. 9 dargestellt sind. Das Zeichen (âT (n)) im Schritt 14714 bezeichnet die -te Komponente des im Schritt 14712 berechneten vorausgesagten Vektors, und (&Sigma;n)cc im Schritt 14724 bedeutet die -te Diagonalkomponente der Kovarianzmatrix des -ten Zustandes.
  • Die Konvergenzentscheidung im Schritt 712 erkennt Konvergenz, wenn festgestellt wird, daß die berechnete Änderungsgeschwindigkeit der Variablen D1 (des akkumulierten Voraussagerests für alle Trainingsdatensätze) kleiner ist als ein vorgegebener Schwellwert. Die Verarbeitung ist in Fig. 15 dargestellt. Im Schritt 15802 wird der Absolutwert der Änderungsgeschwindigkeit des akkumulierten Voraussagerests für alle Trainingsdatensätze mit einem vorgegebenen Schwellwert Th (tatsächlich mit 0,001 oder dergleichen) verglichen. Durch die Verarbeitung in diesen Schritten 701 bis 714 wird das iterative Training für alle Trainingsdatensätze ausgeführt, um die optimalen Modellparameter zu liefern.
  • Wie bisher beschrieben, ist das erfindungsgemäße Spracherkennungsverfahren dadurch gekennzeichnet, daß Übergangsnetze mit endlichen Zuständen des Links-Rechts-Musters, die mit MLP-Prädiktoren mit Verwendung neuronaler Netze verbunden sind, NPMs bilden, die Bezugsmustermodelle sowohl mit Vorwärts- als auch mit Rückwärtsvoraussage sind, daß die lokalen Abstände zwischen diesen NPMs und den Zeitreihenmustern von Eingabesprachen-Merkmalsvektoren durch Anpassung mittels dynamischer Programmierung (DP) berechnet werden, und daß Kovarianzmatrizen in diese Berechnung lokaler Abstände eingeführt werden. Als Ergebnis ist das erfindungsgemäße Spracherkennungsverfahren an die Sprache jedes nicht spezifizierten Sprechers anpassungsfähig und ermöglicht Spracherkennung, insbesondere kontinuierliche Spracherkennung, mit einer hohen Erkennungsrate.
  • Die Erfindung ist zwar vorstehend anhand einer bestimmten Ausführungsform (oder bestimmter Ausführungsformen) beschrieben worden, aber diese Beschreibung soll nicht in einschränkendem Sinne ausgelegt werden. Verschiedene Modifikationen der offenbarten Ausführungsform sowie andere Ausführungsformen der Erfindung werden für Fachleute auf diesem Gebiet nach dem Durchlesen der Beschreibung der Erfindung offensichtlich sein.

Claims (4)

1. Mustererkennungsverfahren zum Erkennen von Silben und Lautelementen auf der Basis eines Vergleichs von Eingabezeitreihenmustern, die als Merkmalsvektoren der Silben und Lautelemente ausgedrückt werden, mit Bezugsmustermodellen unter Verwendung eines Übergangsnetzes mit endlichen Zuständen, wobei jeder Zustand des Übergangsnetzes mit endlichen Zuständen einen Prädiktor zur Berechnung eines vorausgesagten Vektors zur Zeit aus mehreren Merkmalsvektoren der Eingabezeitreihenmuster zur Zeit und davor und mehreren Merkmalsvektoren zur Zeit und danach aufweist; und zur Berechnung eines durch den Eingabemerkmalsvektor bestimmten Voraussagerests, des vorausgesagten Merkmalsvektors durch den Prädiktor des -ten Zustands zur Zeit , der dem Eingabemerkmalsvektor entspricht, und wobei eine mit dem -ten Zustand verbundene Kovarianzmatrix als lokaler Abstand zwischen dem Merkmalsvektor der Eingabezeitreihenmuster zur Zeit , d. h. dem Eingabemerkmalsvektor, und dem -ten Zustand des Übergangsnetzes mit endlichen Zuständen verwendet wird.
2. Spracherkennungsverfahren nach Anspruch 1, wobei Entsprechungen zwischen den Eingabezeitreihenmustern und den Prädiktoren durch dynamische Programmierung so ermittelt werden, daß der akkumulierte Wert der lokalen Abstände entlang den Zustandsübergängen minimiert wird, und wobei der akkumulierte Wert als Abstand zwischen den Eingabezeitreihenmustern und den Bezugsmustermodellen verwendet wird.
3. Spracherkennungsverfahren nach Anspruch 2, wobei der akkumulierte Wert für jede Kategorie von Wörtern berechnet wird und die Kategorie mit den kleinsten berechneten akkumulierten Werten als Erkennungsausgabesignal verwendet wird.
4. Spracherkennungsverfahren nach Anspruch 2 oder 3, wobei Anfangswerte für die Parameter des Prädiktors und der mit jedem Zustand des Übergangsnetzes mit endlichen Zuständen verbundenen Kovarianzmatrix eingestellt werden, wobei der Ab stand zwischen dem Eingabezeitreihenmuster zum Lernen, dessen Kategorie bekannt ist, und dem Bezugsmustermodell, das der gleichen wie der bekannten Kategorie entspricht, berechnet wird; wobei die Parameter des Prädiktors und die Kovarianzmatrix jedes Zustands in Richtung einer Verminderung des Abstands iterativ korrigiert werden; und wobei man dadurch das Bezugsmustermodell erhält, für das der Abstand vorgegebene Konvergenzbedingungen erfüllt.
DE69226804T 1991-04-24 1992-04-23 Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk Expired - Fee Related DE69226804T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3119086A JP2979711B2 (ja) 1991-04-24 1991-04-24 パターン認識方式および標準パターン学習方式

Publications (2)

Publication Number Publication Date
DE69226804D1 DE69226804D1 (de) 1998-10-08
DE69226804T2 true DE69226804T2 (de) 1999-01-21

Family

ID=14752548

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69226804T Expired - Fee Related DE69226804T2 (de) 1991-04-24 1992-04-23 Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk

Country Status (5)

Country Link
US (1) US5600753A (de)
EP (1) EP0510632B1 (de)
JP (1) JP2979711B2 (de)
CA (1) CA2066952C (de)
DE (1) DE69226804T2 (de)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06333022A (ja) * 1993-05-27 1994-12-02 Hitachi Ltd 連続手話認識装置および入力装置
US5699441A (en) * 1992-03-10 1997-12-16 Hitachi, Ltd. Continuous sign-language recognition apparatus and input apparatus
US5809461A (en) * 1992-03-30 1998-09-15 Seiko Epson Corporation Speech recognition apparatus using neural network and learning method therefor
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
DE19531967C2 (de) * 1995-08-30 1997-09-11 Siemens Ag Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems
US6134537A (en) 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
DE19740565A1 (de) * 1997-09-15 1999-03-18 Max Planck Gesellschaft Verfahren zur Erfassung zeitabhängiger Moden dynamischer Systeme
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
DE69941999D1 (de) * 1998-10-09 2010-03-25 Sony Corp Erkennungsvorrichtung, Erkennungsverfahren und Aufzeichnungsmedium
US6782362B1 (en) * 2000-04-27 2004-08-24 Microsoft Corporation Speech recognition method and apparatus utilizing segment models
US6845357B2 (en) * 2001-07-24 2005-01-18 Honeywell International Inc. Pattern recognition using an observable operator model
DE10145913A1 (de) * 2001-09-18 2003-04-03 Philips Corp Intellectual Pty Verfahren zur Bestimmung von zu Nichtterminalen einer Grammatik gehörigen Sequenzen von Terminalen oder von Terminalen und Platzhaltern
EP1886303B1 (de) * 2005-06-01 2009-12-23 Loquendo S.p.A. Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung
JP5004743B2 (ja) * 2007-10-10 2012-08-22 東芝情報システム株式会社 データ処理装置
US8560488B2 (en) * 2008-08-08 2013-10-15 Nec Corporation Pattern determination devices, methods, and programs
DE602008000303D1 (de) * 2008-09-03 2009-12-31 Svox Ag Sprachsynthese mit dynamischen Einschränkungen
US8972254B2 (en) * 2011-06-28 2015-03-03 Utah State University Turbo processing for speech recognition with local-scale and broad-scale decoders
US9401148B2 (en) 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9514753B2 (en) 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9520128B2 (en) 2014-09-23 2016-12-13 Intel Corporation Frame skipping with extrapolation and outputs on demand neural network for automatic speech recognition
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN108780464A (zh) * 2016-03-31 2018-11-09 马鲁巴公司 用于处理输入查询的方法和系统
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
DE102021212857A1 (de) * 2021-11-16 2023-05-17 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren, Vorrichtung und Computerprogramm zum Bestimmen von Trajektorien aus einer Menge von Trajektorien für Messungen an einem technischen System

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
US4876731A (en) * 1988-02-19 1989-10-24 Nynex Corporation Neural network model in pattern recognition using probabilistic contextual information
JP2545982B2 (ja) * 1989-05-10 1996-10-23 日本電気株式会社 パターン認識方法および標準パターン学習方法

Also Published As

Publication number Publication date
DE69226804D1 (de) 1998-10-08
JP2979711B2 (ja) 1999-11-15
JPH04324500A (ja) 1992-11-13
CA2066952A1 (en) 1992-10-25
CA2066952C (en) 1997-03-04
EP0510632B1 (de) 1998-09-02
EP0510632A2 (de) 1992-10-28
EP0510632A3 (en) 1993-12-15
US5600753A (en) 1997-02-04

Similar Documents

Publication Publication Date Title
DE69226804T2 (de) Spracherkennung durch ein zum Bezugmusterlernen angepasstes neuronales Netzwerk
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69420891T2 (de) Mustererkennung mit Baumstruktur für Referenzmustermerkmalsvektoren oder für &#34;HMM&#34;
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69127961T2 (de) Verfahren zur Spracherkennung
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE3852608T2 (de) Design und Konstruktion eines binären Entscheidungsbaumsystems zur Sprachmodellierung.
DE69229124T2 (de) Mehrteiliger expertsystem
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE3874049T2 (de) Schnelle anpassung eines spracherkenners an einen neuen sprecher auf grund der daten eines referenzsprechers.
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69318447T2 (de) Erkennungssystem
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE3853880T2 (de) Einrichtung zur mustererkennung.
DE69613293T2 (de) Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69517571T2 (de) Verfahren zur Erkennung von Mustern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee