-
Die Erfindung betrifft ein Spracherkennungsverfahren
und insbesondere ein Spracherkennungsverfahren, das eine hohe
Erkennungsrate aufweist, ohne ein Lernen mit einer besonders
großen Menge Trainingsdaten zu erfordern.
-
Sprachsignale werden in Zeitreihenmustern von
Merkmalsvektoren ausgedrückt, und die Spracherkennung basiert auf dem
Grad der Identität zwischen einem Bezugsmuster, das ein
bekanntes Sprachbruchstück bzw. -element darstellt, und dem
Muster des Eingabesprachsignals. Für diese Zeitreihenmuster
verwendet man weitgehend das Verborgene Markovsche Modell (HMM),
wie in den Patentbeschreibungen der US-A-4 587 670 und 4 582
180 ausführlich beschrieben. Das HMM selbst wird hier nicht
näher erläutert, da seine ausführliche Beschreibung, außer in
den US-Patentschriften, in S. E. Levinson, "Structural Method
in Automatic Speech Recognition" (Strukturelles Verfahren bei
der automatischen Spracherkennung), Proc. IEEE 73, 11 (1985)
1625-1650, zu finden ist.
-
Das HMM nimmt an, daß die Zeitreihen von
Merkmalsvektoren durch dem Markovschen Wahrscheinlichkeitsprozeß erzeugt
werden. Die Standardmuster des HMM werden in mehreren
Zuständen und Übergängen zwischen den Zuständen dargestellt, und
jeder Zustand gibt einen Merkmalsvektor entsprechend einer
vorgegebenen Wahrscheinlichkeitsdichteverteilung aus, während
jeder Übergang zwischen Zuständen mit einer vorgegebenen
Übergangswahrscheinlichkeit verbunden ist. Die Likelihood bzw.
Stichprobenwahrscheinlichkeit, die den Grad der Anpassung bzw.
Übereinstimmung zwischen dem Eingabemuster und einem
Bezugsmuster darstellt, ist durch die Wahrscheinlichkeit des
Markovschen Wahrscheinlichkeitsmodells zur Erzeugung einer Reihe von
Eingabemustervektoren gegeben. Die Wahrscheinlichkeit des
Übergangs zwischen Zuständen und der Parameter zur Definition
der Funktion der Wahrscheinlichkeitsdichteverteilung, die
jedes Bezugsmuster charakterisiert, können mit dem Baum-Welch-
Algorithmus unter Verwendung mehrerer Vokalisationsdatensätze
für das Trainingsziel bestimmt werden.
-
Der Baum-Welch-Algorithmus, der ein statistisches
Lernverfahren ist, benötigt jedoch eine große Menge
Trainingsdaten, um die Parameter des Modells zu bestimmen, das den
Bezugsmustern entspricht. Daher ist die Vokalisationsbelastung
bei neu beginnender Verwendung einer
Spracherkennungsvorrichtung äußerst groß, und dies stellt ein schwerwiegendes
Hindernis für die praktische Nutzung solcher Vorrichtungen dar.
Um diese Belastung zu verringern, sind daher bereits eine
Anzahl sprecheradaptive Verfahren vorgeschlagen worden, um eine
Spracherkennungsvorrichtung mit einer relativ geringen
Trainingsdatenmenge an den Sprecher anzupassen.
-
Ein sprecheradaptives Verfahren definiert die
Ähnlichkeit akustischer Ereignisse nach Bezugsmustern, die bekannten
Sprachsignalen entsprechen, und Vokalisationsdaten eines neuen
Sprechers zur Anpassung, wobei im wesentlichen der körperliche
Abstand zwischen den Merkmalsvektoren als Maßstab dient, und
führt auf der Basis dieser Ähnlichkeit eine Anpassung durch
Abschätzung aus, wobei die Parameter des Modells akustischen
Ereignissen entsprechen, die in den Vokalisationsdaten für die
Anpassung nicht vorhanden sind.
-
Ein solches Anpassungsverfahren, das auf einer
Abschätzung basiert, die sich allein auf den körperlichen Abstand
stützt, liefert zwar einer etwas höhere Erkennungsrate als vor
der Anpassung, ist jedoch bei der Erkennung weit weniger
effektiv als ein Verfahren mit Verwendung von Bezugsmustern, die
mit einem bestimmten Sprecher übereinstimmen und aus einer
großen Menge von Sprachdaten bestehen. (Weitere Details siehe
K. Shikano, K. F. Lee und R. Reddy, "Speaker Adaptation through
Vector Quantization" (Sprecheranpassung durch
Vektorquantisierung), Proc. ICASSP-86, Tokyo (1986) 2643-2646.)
-
Als Mittel zur Verbesserung der Erkennungsrate haben
die Erfinder der vorliegenden Erfindung inzwischen ein
Mustererkennungsverfahren vorgeschlagen, das auf der Voraussage der
obenerwähnten Zeitreihenmuster basiert. Bei Verwendung
mehrschichtiger Perzeptrons (MLPs), die auf einem neuronalen Netz
basieren, als Voraussageeinrichtungen für die Zeitreihenmuster
bilden die Ausgabesignale der MLPs Bezugsmuster. Die Erfinder
nannten die Bezugsmuster das "neuronale Voraussagemodell"
(NPM). Dieses NPM wird hier nicht ausführlich beschrieben, da
detaillierte Erläuterungen dazu in K. Iso und T. Watanabe,
"Speaker-Independent Word Recognition Using a Neural
Prediction Model" (Sprecherunabhängige Worterkennung unter
Verwendung eines neuronalen Voraussagemodells) Proc. ICASSP-90, New
Mexico (1990) 441-444, und in der anhängigen US-A-07-521 625
zu finden sind. Bei dem in diesen Quellen beschriebenen NPM
berechnet ein Prädiktor (MLP) im n-ten Zustand eines
Bezugsmustermodells, das aus einem Übergangsnetz mit endlichen bzw.
finiten Zuständen besteht, einen vorausgesagten Vektor für den
Merkmalsvektor der Eingabemuster zur Zeit aus mehreren
Merkmalsvektoren zur Zeit und davor. Es wird vorausgesetzt,
daß der Abstand zwischen diesem vorausgesagten Vektor und dem
Merkmalsvektor des Eingabemusters zur Zeit der lokale
Abstand zwischen den zwei Merkmalsvektoren ist. Bei dem in den
oben zitierten Quellen beschriebenen NPM wird das Quadrat des
Abstandes oder dergleichen zwischen den Vektoren als dieser
lokale Abstand verwendet.
KURZE ZUSAMMENFASSUNG DER ERFINDUNG
Aufgabe der Erfindung
-
Eine Aufgabe der Erfindung besteht darin, relativ
gesehen, die Beiträge von Komponenten mit schlechterer
Voraussagegenauigkeit (d. h. mit größeren Schwankungen) unter den
Komponenten der vorausgesagten Vektoren zu verringern, dadurch die
Voraussagegenauigkeit des Prädiktors zu erhöhen und die
Genauigkeit der Erkennung durch das NPM zu verbessern.
Zusammenfassung der Erfindung
-
Ein erfindungsgemäßes Mustererkennungsverfahren erkennt
die Zeitreihenmuster von Merkmalsvektoren, die
Eingabesprachsignale darstellen, unter Verwendung des NPM, welches das
Übergangsnetz mit endlichen Zuständen bildet. Jeder Zustand
dieses Übergangsnetzes mit endlichen Zuständen weist einen
Prädiktor auf, um aus mehreren Merkmalsvektoren der Eingabe-
Zeitreihenmuster zur Zeit und davor und mehreren
Merkmalsvektoren zur Zeit und danach einen vorausgesagten Vektor
zu berechnen. Dieser vorausgesagte Vektor wird mit dem
Merkmalsvektor der Zeitreihenmuster zur Zeit verglichen. Als der
lokale Abstand, der durch das Ergebnis dieses Vergleichs
angezeigt wird, d. h. als der lokale Abstand zwischen dem
Merkmalsvektor der Eingabe-Zeitreihenmuster zur Zeit
(Eingabemerkmalsvektor und dem -ten Zustand des Übergangsnetzes mit
endlichen Zuständen (vorausgesagter Merkmalsvektor) wird der
Voraussagerest verwendet, der aus dem Eingabemerkmalsvektor,
dem vorausgesagten Merkmalsvektor und einer Kovarianzmatrix
berechnet wird, die mit dem -ten Zustand im voraus verbunden
ist. Die Gesamtdifferenz zwischen den Zeitreihenmustern und
dem Bezugsmustermodell ist durch einen kumulativen Wert
gegeben, der auf den Zustandsübergang des lokalen Abstands folgt.
Dieser kumulative Wert wird für jede Kategorie des
Bezugsmustermodells berechnet, und die Kategorie mit dem kleinsten
kumulativen Wert wird als Erkennungsausgabesignal ausgewählt.
-
Das erfindungsgemäße NPM bildet durch Lernen das
Bezugsmustermodell. Zuerst werden die Anfangswerte für die
Parameter des Prädiktors und der Kovarianzmatrix eingestellt, die
mit jedem Zustand des Übergangsnetzes mit endlichen Zuständen
verbunden ist. Als nächstes wird der Gesamtabstand zwischen
dem Lernmuster, dessen Kategorie bekannt ist, und dem
Bezugsmustermodell mit der gleichen Kategorie wie der obengenannten
berechnet, und die Parameter des Prädiktors und der
Kovarianzmatrix jedes Zustands werden in Richtung einer Verminderung
des Gesamtabstands durch einen vorgegebenen Algorithmus mit
Sicherheit korrigiert. Diese Korrektur wird wiederholt, und
das Mustermodell, das vorgegebene Konvergenzbedingungen
erfüllt, wird schließlich als Bezugsmustermodell ausgewählt.
Kurze Beschreibung der Zeichnungen
-
Die obenerwähnten und weitere Aufgaben, Merkmale und
Vorteile der vorliegenden Erfindung werden anhand der
folgenden ausführlichen Beschreibung der Erfindung in Verbindung mit
den beigefügten Zeichnungen klarer erkennbar. Dabei zeigen:
-
Fig. 1 die Konfiguration des mehrschichtigen
Perzeptrons (MLP), das bei der Erfindung als Prädiktor verwendet
wird;
-
Fig. 2 die endlichen bzw. finiten Zustandsübergänge
eines neuronalen Voraussagemodells (NPM), welches das
erfindungsgemäße Bezugsmustermodell bildet;
-
Fig. 3 die Konfiguration des erfindungsgemäßen
Erkennungsalgorithmus;
-
Fig. 4 ein Erkennungsablaufdiagramm, welches das
erfindungsgemäße Mustererkennungsverfahren darstellt;
-
Fig. 5 ein detailliertes Ablaufdiagramm des
Initialisierungsabschnitts von Fig. 4;
-
Fig. 6 ein detailliertes Ablaufdiagramm zur Berechnung
des lokalen Abstands in Fig. 4;
-
Fig. 7 ein Ablaufdiagramm, welches das erfindungsgemäße
Bezugsmusterlernverfahren erläutert;
-
Fig. 8 ein Blockschaltbild einer
Spracherkennungsvorrichtung, die eine bevorzugte Ausführungsform der Erfindung
darstellt;
-
Fig. 9 ein detailliertes Ablaufdiagramm zur Berechnung
des vorausgesagten Vektors im Schritt 601 in Fig. 6;
-
Fig. 10 ein detailliertes Ablaufdiagramm zur Berechnung
des lokalen Abstands im Schritt 602 in Fig. 6;
-
Fig. 11 ein detailliertes Ablaufdiagramm der
Initialisierung im Schritt 701 in Fig. 7;
-
Fig. 12 ein detailliertes Ablaufdiagramm zur Berechnung
der optimalen Trajektorie im Schritt 704 in Fig. 7;
-
Fig. 13 ein detailliertes Ablaufdiagramm zur Berechnung
der Parameterkorrekturgrößen im Schritt 706 in Fig. 7;
-
Fig. 14 ein detailliertes Ablaufdiagramm zur Berechnung
der Kovarianzmatrix im Schritt 711 in Fig. 7; und
-
Fig. 15 ein detailliertes Ablaufdiagramm zur
Konvergenzentscheidung im Schritt 712 in Fig. 7.
ALLGEMEINE BESCHREIBUNG
-
Zur Erläuterung des Prinzips der Spracherkennung gemäß
der vorliegenden Erfindung in Bezug auf Fig. 1 läßt sich
sagen, daß der bei der Erfindung verwendete Prädiktor aus
mehr
schichtigen Perzeptoren (MLPs) besteht. Wie ausführlich in M.
Funahashi, "On the Approximate Realization of Continuous
Mappings by Neural Networks" (Zur angenäherten Realisierung
stetiger Abbildungen durch neuronale Netze), Neural Networks 2
(1989) 183-192, beschrieben, approximieren MLPs jede
(nichtlineare) stetige Funktion mit jeder gewünschten Genauigkeit.
-
In der Abbildung bestehen die in die MLPs einzugebenden
Zeitreihenmuster aus Merkmalsvektoren at - γF,, ..., at-1 für die
"Vorwärtsvoraussage" und at+1,... at+γB für die
"Rückwärtsvoraussage". Die auf der Zeitachse rückwärts gerichtete
Voraussage der letzteren wird zur Vorwärtsvoraussage der
ersteren hinzugefügt, um die Voraussagegenauigkeit der
Zeitreihenmuster zu verbessern, die auf der Zeitachse rückwärts eine
enge Korrelation aufweisen. Da zum Beispiel der Verschlußteil
eines Verschlußlauts mit dem Übergangsteil des nachfolgenden
Vokals enger korreliert ist als mit dem geschlossenen Teil vor
dem Verschluß, erweist sich diese Rückwärtsvoraussage als
effektiv für Verschlußlaute.
-
Das Ausgabemuster der MLPs ist der vorausgesagte Vektor
ât für den Merkmalsvektor at der Eingabesprache zum Zeitpunkt
t. Dieser vorausgesagte Vektor läßt sich unter Verwendung der
Eingabe-Ausgabe-Beziehung der MLPs durch die folgenden
Gleichungen darstellen:
-
wobei W&sub0;, W&sub1;F,..., WγFF, W&sub1;B,..., WγBB die Matrix der
Kopplungskoeffizienten zwischen den MLP-Einheiten darstellen; θ&sub0; und θ&sub1;
Schwellwertvektoren sind und f(·) ein Vektor ist, den man
durch Anwenden der Sigmoidfunktion auf jede Komponente des
Subtrahendenvektors erhält.
-
Wie oben festgestellt, ermöglicht die Zusammensetzung
eines Prädiktors aus MLPs, die kausale Beziehung zwischen
benachbarten Merkmalsvektoren in der Zeitreihe von
Sprachmerkmalsvektoren als eine durch die MLPs gebildete nichtlineare
Abbildung zu beschreiben. Die relative Genauigkeit der
Voraus
sage kann durch Verwendung des vorausgesagten Vektors ât, der
das Ausgabesignal der MLPs ist, und des Merkmalsvektors at der
tatsächlichen Eingabesprache als Voraussagerest beurteilt
werden.
-
Ein NPM, welches das Bezugsmustermodell einer
Grundeinheit der Spracherkennung bildet, wie z. B. des Wortes oder der
Silbe, wird durch ein Übergangsnetz mit endlichen (in diesem
Falle vier) Zuständen (die endlichen Zustände schließen die
Zustände 201 bis 204 ein) dargestellt, und jeder Zustand
besteht aus dem Prädiktor, der sich aus MLPs zusammensetzt. Ein
NPM, das eine größere Einheit (wie z. B. einen Satz)
darstellt, kann durch Verbinden vieler NPMs für
Erkennungsgrundeinheiten zusammengesetzt werden.
-
Als nächstes geht der Erkennungsalgorithmus unter
Verwendung der NPMs im wesentlichen von einer Musteranpassung
zwischen Eingabesprache und einem Bezugsmustermodell aus. Das
Bezugsmustermodell für diskrete Erkennung ist ein NPNf für eine
Erkennungsgrundeinheit, während dasjenige für kontinuierliche
Erkennung ein NPM ist, das man durch Verbinden von
Grundeinheit-NPMs erhält, und in beiden Fällen handelt es sich um ein
Übergangsnetz mit endlichen Zuständen, das mit dem
MLP-Prädiktor verbunden ist. Gemäß der vorliegenden Erfindung wird die
kontinuierliche Erkennung erreicht, indem die Lautelemente der
Sprachsignale und daher die enge Korrelation der
Merkmalsvektoren auf der Zeitachse berücksichtigt werden. Aus diesem
Grunde besteht das Übergangsnetz mit endlichen Zuständen aus
einem Links-Rechts-Muster, wie in Fig. 2 dargestellt.
-
Der Abstand (der lokale Abstand) dt(n) zwischen dem
Merkmalsvektor at der Eingabesprache zur Zeit und dem -ten
Zustand eines NPM ist durch die folgende Gleichung gegeben:
-
dt(n) = (at - ât(n))TΣn&supmin;¹(at - ât(n)) + 1n Σn (3)
-
wobei ât(n) der durch den MLP-Prädiktor im -ten Zustand
vorausgesagte Vektor und Σn die Kovarianzmatrix im -ten Zustand
ist. Der Voraussagerest wird durch dt(n) dargestellt, und Σn
in der Gleichung ist eine Größe, die eingeführt wird, um die
verschiedenen Schwankungsgrade des Voraussagerests von einer
Komponente des Merkmalsvektors zur anderen zu normieren.
Gleichung (3) kann als die logarithmische Wahrscheinlichkeit
interpretiert werden, die man erhält, wenn die
Wahrscheinlichkeit, mit welcher der Merkmalsvektor at im -ten Zustand des
NPM beobachtet wird, durch eine Gaußsche Verteilung angenähert
wird, dargestellt durch die folgende Gleichung:
-
Wenn die nichtdiagonalen Terme der Kovarianzmatrix Σn
vernachlässigbar klein sind, läßt sich Gleichung (3) durch die
folgende Gleichung annähern:
-
wobei der untere Index eine Komponente eines C-dimensionalen
Merkmalsvektors und δ²nc die c-te Komponente der
Kovarianzmatrix Σn bedeuten. Wenn ferner δ²nc = 1 (die Kovarianzmatrix
eine Einheitsmatrix) ist, dann läßt sich hier Gleichung (3) zu
der folgenden Gleichung vereinfachen:
-
dt(n) = at - ât(n) ² (6)
-
Diese Gleichung (6) ist der Maßstab des Abstands, der
in bekannten NPMs verwendet wird, in denen Unterschiede im
Schwankungsgrad des Voraussagerests von einer Komponente des
Merkmalsvektors zur anderen nicht berücksichtigt werden.
-
Der (globale) Abstand D zwischen der Eingabesprache und
einem NPM ist durch die folgende Gleichung als kumulative
Summe lokaler Abstände gegeben:
-
wobei nt die Kennummer des NPM ist, das die Voraussage des
Merkmalsvektors der Eingabesprache zur Zeit ausführt. Die
Minimierung in Gleichung (7) bedeutet die Auswahl aus
möglichen Trajektorien n&sub1;, n&sub2;, ..., nt, ..., nT (mögliche
Zustandsübergänge in dem Übergangsnetz mit endlichen Zuständen)
zwischen Eingabesprache und einem NPM, die den globalen Abstand
(den akkumulierten Voraussagerest) D minimiert. Falls das in
Fig. 2 dargestellte sprungfreie Links-Rechts-Muster als NPM
verwendet werden soll, sollte nt die folgenden
Nebenbedingungen erfüllen:
-
n&sub1; = 1 (8)
-
nT = N (9)
-
nt = nt-1 oder nt-1 + 1 (1 < t ≤ T) (10)
-
wobei T die Länge der Merkmalsvektor-Zeitreihenmuster der
Eingabesprachesignale und N die Anzahl der NPM-Zustände (die
Kennummer des Endzustands) ist. Unter diesen Nebenbedingungen
kann das Minimierungsproblem durch dynamische Programmierung
(DP) unter Verwendung der folgenden Rekursionsformel gelöst
werden (wegen Details zur DP kann auf H. Sakoe und S. Chiba,
"Dynamic Programming Algorithm Optimization for Spoken Word
Recognition" (Optimierung für die Erkennung gesprochener
Wörter mit einem dynamischen Programmierungsalgorithmus); IEEE
Transactions on Acoustics, Speech, and Signal Processing,
ASSP-26 (I), Februar 1978, S. 43-49, verwiesen werden):
-
wobei gt(n) die Partialsumme der lokalen Abstände dt(n) ist
und der globale Abstand D durch die folgende Gleichung gegeben
ist:
-
D = gT(N) (12)
-
Durch Zurückverfolgen der Ergebnisse kann man die optimale
Trajektorie nt* zum Minimieren des akkumulierten
Voraussagerests erhalten. Diese Information wird bei dem nachstehend zu
beschreibenden Trainingsalgorithmus verwendet. Beim Erkennen
kontinuierlicher Sprache oder dergleichen kann die Wortfolge
des Erkennungsergebnisses aus dieser Information festgestellt
werden. Fig. 3 stellt eine Skizze des bisher beschriebenen
Erkennungsalgorithmus dar.
-
Als nächstes wird der Erkennungsalgorithmus zur
automatischen Bestimmung der Parameter von NPMs (der
Gewichtungsparameter für das neuronale Netz, welches den Prädiktor bildet,
und der Parameter der Kovarianzmatrix) unter Verwendung
bekannter Sprachdaten beschrieben. Der Zweck des Trainings
besteht darin, Modellparameter zu finden, die den obenerwähnten
akkumulierten Voraussagerest für die zum Training verwendeten
Sprachdaten minimieren würden. Dies läßt sich auf die folgende
als ein Minimierungsproblem formulieren, dessen Auswertungs-
bzw. Bewertungsfunktion die Gesamtsumme Dtotal des
akkumulierten Voraussagerests für die gesamten Trainingssprachdaten ist:
-
wobei M die Gesamtzahl der Trainingsdatensätze und D(m) der
akkumulierte Voraussagerest für den -ten Trainingsdatensatz
ist. D(m) kann durch den im vorhergehenden Abschnitt
formulierten Algorithmus unter Verwendung der dynamischen
Programmierung (DP) berechnet werden. Die Bewertungsfunktion Dtotal
kann auf optimale Weise durch den weiter unten angegebenen
iterativen Algorithmus minimiert werden, der DP und
Rückwärtsfortpflanzung (BP = back propagation) miteinander kombiniert
(wegen weiterer Details über BP kann auf R. P. Lippmann, "An
Introduction to Computing with Neural Nets" (Einführung in das
Rechnen mit neuronalen Netzen), IEEE ASSP Magazine 3 (1987) 4-
22, verwiesen werden)
-
Schritt 1: Alle NPM-Parameter initialisieren (einschließlich
der Matrizen der Einheitenkopplungskoeffizienten,
der Schwellwertvektoren und Kovarianzmatrizen
sowie aller MLP-Prädiktoren)
-
Schritt 2: m = 1
-
Schritt 3: Akkumulierten Voraussagerest D(m) für den m-ten
Trainingsdatensatz mittels DP berechnen. Optimale
Trajektorie {nt*} durch Rückverfolgung suchen.
-
Schritt 4: t = 1
-
Schritt 5: Dem Ausgabe-ât(nt*) des nt*-ten MLP-Prädiktors der
Bezugsmuster ist ein wünschenswerter Ausgabe-at
zuzuweisen, und die Korrekturgröße jedes
Parameters ist mittels BP zu berechnen.
-
Schritt 6: t = t + 1
-
Schritt 7: Wenn t nicht größer als Tm ist (Tm ist die Anzahl
der Rahmen des -ten Trainingsdatensatzes),
Rücksprung zu Schritt 5.
-
Schritt 8: m = m + 1
-
Schritt 9: Wenn m nicht größer als M ist, Rücksprung zu
Schritt 3.
-
Schritt 10: Alle NPM-Parameter gemäß den in Schritt S
berechneten Korrekturgrößen aktualisieren.
-
Schritt 11: Wenn die Konvergenzbedingungen nicht erfüllt sind,
Rücksprung zu Schritt 2.
-
Bei den Parameterkorrekturen mittels BP im vorstehenden
Algorithmus wird zwar die determinierte Methode des schnellsten
Abstiegs bzw. Sattelpunktmethode benutzt, nach der alle
Korrekturen gemeinsam im Schritt 10 ausgeführt werden, aber die
Korrekturen können auch nacheinander nach der Zufallsmethode
des schnellsten Abstiegs ausgeführt werden. Hinsichtlich der
Konvergenzbedingungen im Schritt 11 wird die Konvergenz dann
als erreicht betrachtet, wenn zum Beispiel das Dekrement der
Bewertungsfunktion Dtotal unter einen bestimmten Wert abfällt.
-
Wenn eine Kovarianzmatrix in die Skala der lokalen
Abstände eingeführt wird, erfordert die Größe des
Rückfortpflanzungsfehlers durch BP die folgende Korrektur (übrigens sind
die nichtdiagonalen Terme der Kovarianzmatrix vernachlässigbar
klein). Der Betrag des Rückfortpflanzungsfehlers der -ten
Einheit der Ausgabeschicht des MLP-Prädiktors im nt-ten
Zustand δtv(nt*)
ist:
-
Dies unterscheidet sich von dem Betrag des
Rückfortpflanzungsfehlers, in dem keine Kovarianzmatrix berücksichtigt ist, um
den reziproken Wert der Varianz. Der Schätzwert der
Kovarianzmatrix wird so bestimmt, daß die Bewertungsfunktion Dtotal
minimiert wird. Auf diese Weise wird aus der folgenden
Optimierungsbedingung
-
die folgende Abschätzungsformel (Neubewertungsformel zur
Verwendung in Schritt 10) der Kovarianzmatrix hergeleitet:
-
wobei Tm die Anzahl der Rahmen des -ten Trainingsdatensatzes,
δnn ein Kronecker-Symbol ist.
-
Die Konvergenz des vorstehenden iterativen
Trainingsalgorithmus läßt sich wie folgt beweisen. Folglich ist der Wert
D der Bewertungsfunktion in der k-ten Iteration vor der
Parameterkorrektur (unmittelbar vor dem Schritt 10) gleich der
Summe der Voraussagereste, die in Übereinstimmung mit der
optimalen (den akkumulierten Voraussagerest minimierenden)
Trajektorie {n }, ermittelt durch DP für jeden
Trainingsdatensatz, akkumuliert wird. Die nach der Parameterkorrektur in
Schritt 10 in Übereinstimmung mit der gleichen Trajektorie
akkumulierte Summe der Voraussagereste wird durch D
dar
gestellt. Während die Parameterkorrektur mittels BP hier so
ausgeführt wird, daß sich der quadratische Fehler in der
Ausgabeschicht jedes MLP-Prädiktors vermindert, wird im Falle von
NPM, wo dieser quadratische Fehler mit dem Voraussagerest
identisch ist, der akkumulierte Voraussagerest mit Sicherheit
durch die Parameterkorrektur vermindert. (Die Neubewertung der
Kovarianzmatrix wird zusammen mit BP betrachtet.)
-
Wenn jedoch die Parameter mittels BP korrigiert werden, geht
die Optimalität der im Schritt 3 erzielten optimalen
Trajektorie verloren. Daher wird die optimale Trajektorie für die
Modellparameter gesucht, die in der ( )-ten Iteration mittels
DP korrigiert werden. Da die DP die optimale Trajektorie zum
Minimieren des Voraussagerests liefert:
-
lassen die Formeln 18 und 19 schließlich erkennen, daß die
Bewertungsfunktion durch Iteration monoton verkleinert wird.
-
Qualitativ läßt sich verstehen, daß dieser iterative
Algorithmus deshalb konvergiert, weil DP und BP
Minimierungsverfahren für die gleiche Bewertungsfunktion (die akkumulierte
Summe von Voraussageresten) sind und nacheinander angewandt
werden.
AUSFÜHRLICHE BESCHREIBUNG
-
Nachstehend wird die vorliegende Erfindung näher
erläutert, wobei auf Fig. 4 bis 6, welche die Ablaufdiagramme der
Erkennung nach dem erfindungsgemäßen Spracherkennungsverfahren
darstellen, Fig. 7, die ein Ablaufdiagramm für das Lernen von
Bezugsmustern nach dem erfindungsgemäßen
Spracherkennungsverfahren darstellt, und Fig. 8, ein Blockschaltbild einer
erfindungsgemäßen Spracherkennungsvorrichtung, Bezug genommen wird.
-
Eine Spracheingabeeinheit 8101 in Fig. 8, die unter
anderem aus einem Mikrofon, einem Verstärker und einem Analog-
Digital-Wandler (AD-Wandler) besteht, digitalisiert
Sprachsignale, die vom Benutzer hervorgebrachte Sprachlaute
darstellen, und führt sie dem anschließenden akustischen Analysator
8102 zu. Der akustische Analysator 8102 unterwirft diese
digitalisierten Sprachsignale einer Spektralanalyse durch
schnelle Fouriertransformation (FFT) oder dergleichen und
wandelt sie in ein Zeitreihenmuster von Merkmalsvektoren um. Die
Spektralanalyse kann außer durch FFT auch durch lineare
Prädiktionscodierung (LPC) oder nach der Cepstrum-Methode
ausgeführt werden.
-
Ein Bezugsmuster-Speicherabschnitt 8103 speichert die
Parameter der Bezugsmustermodelle aller Wortkategorien, welche
die Erkennungsgegenstände bilden. Wenn zum Beispiel 10 Ziffern
erkannt werden sollen, werden die Parameter des
Bezugsmustermodells jeder der Ziffern von 0 bis 9 gespeichert. Hierbei ist
das Bezugsmustermodell jeder Kategorie ein Übergangsnetz mit
endlichen Zuständen, wobei jeder der Zustände des Netzes mit
einem MLP-Prädiktor verbunden ist.
-
Was im Speicherabschnitt 8103 gespeichert wird, sind
die Parameter der MLP-Prädiktoren verschiedener Zustände und
die Kovarianzmatrizen der jeweiligen Zustände. Falls MLP-
Prädiktoren mit je einer verborgenen Schicht, wie in Fig. 1
dargestellt, verwendet werden, sind die Parameter τF Matrizen
von Einheitenkopplungskoeffizienten, W&sub1;F,...,WτFF (jede Matrix
besteht aus H Zeilen und C Spalten, wobei C die Anzahl der
Einheiten mit verborgenen Schichten und H die Anzahl der
Merkmalsvektoren ist) für die Vorwärtsvoraussage, τB Matrizen von
Einheitenkopplungskoeffizienten, W&sub1;F,..., WτBB (jede Matrix
besteht aus H Zeilen und C Spalten) für die Rückwärtsvoraussage,
eine Matrix W von Einheitenkopplungskoeffizienten (bestehend
aus C Zeilen und H Spalten), der Schwellwertvektor θ&sub1; der
verborgenen Schicht (H-dimensionaler Vektor) und der
Schwellwertvektor θ&sub0; der Ausgabeschicht (C-dimensionaler
Vektor). Jede Kovarianzmatrix ist eine symmetrische Matrix mit
C Zeilen und C Spalten, und die Anzahl der unabhängigen
Komponenten beträgt C(C + 1)/2.
-
Ein Abstandsrechner 8104 berechnet den Abstand zwischen
dem von dem akustischen Analysator 8102 vorgegebenen
Merkmalsvektor-Zeitreihenmuster und dem Bezugsmustermodell jeder
der obenerwähnten Kategorien und führt das Ergebnis der
Berechnung einem Erkennungsergebnis-Ausgabeabschnitt 8105 zu.
Der Abstand zwischen dem Merkmalsvektor-Zeitreihenmuster der
Eingabesprache und dem Bezugsmustermodell ist der durch die
oben zitierte Gleichung (7) definierte globale Abstand D. Das
Berechnungsverfahren ist durch den Ablauf von Schritt 401 bis
414 in Fig. 4 gegeben. In Fig. 4 ist eine Variable, welche
die Zeitachse des Merkmalsvektor-Zeitreihenmusters der
Eingabesprache darstellt, und nimmt einen der ganzzahligen Werte
von 1 bis T an; ist eine Variable, welche die Kategorie der
Erkennungsgegenstände darstellt, und nimmt einen der
ganzzahligen Werte von 1 bis S an - falls die Erkennungsgegenstände
10 Ziffern sind, ist = 10; ist eine Variable, welche den
Zustand des Bezugsmustermodells jeder Kategorie darstellt, und
nimmt einen der ganzzahligen Werte von 1 bis N(s) an (N(s) ist
die Nummer des Zustands des Bezugsmustermodells der Kategorie
); dt(s)(n) ist eine Variable zum Speichern des lokalen
Abstandes zwischen dem -ten Zustand der Kategorie s und dem
Merkmalsvektor at der Eingabesprache zur Zeit ; und gt(s)(n ist
eine Variable zum Speichern des akkumulierten Voraussagerests
des -ten Zustands der Kategorie zur Zeit t.
-
Im Schritt 401 werden die Variablen initialisiert, um
den globalen Abstand D von Gleichung (7) mittels DP zu
berechnen. Wie aus Fig. 5 ersichtlich, die diesen Schritt 401 im
Detail darstellt, wird in den Schritten 501 bis 503 ein Zähler
initialisiert. Im Schritt SO&sub4; werden die Speicherbereiche für
den lokalen Abstand dst(n) und den akkumulierten
Voraussagerest gst(n) initialisiert. In den Schritten 505 bis 510 werden
das Inkrement und die Bedingungen des Zählers beurteilt, und
die Initialisierung im Schritt SO&sub4; wird bezüglich aller Werte
von , und angewandt. Dann wird in den Schritten 511 bis
514 der Anfangswert des akkumulierten Voraussagerests jeder
Kategorie gesetzt.
-
Als nächstes berechnet, wie aus Fig. 6 erkennbar, die
den Schritt 405 zur Berechnung des lokalen Abstands im Detail
darstellt, im Schritt 601 ein mit dem -ten Zustand der
Kategorie verbundener MLP-Prädiktor den vorausgesagten Vektor
ât, der mit dem Eingabesprachen-Merkmalsvektor at zur Zeit
verglichen werden soll. In Fig. 9, welche diese durch die oben
zitierten Gleichungen (1) und (2) dargestellte Berechnung noch
näher erläutert, ist X eine skalare Variable; Y die Anordnung
in der H-Dimension (Y(h) ist das h-te Element); Z die
Anordnung in der C-Dimension (Z(c) ist das c-te Element); H die
Anzahl der Einheiten mit verborgenen Schichten und C die
Dimensionszahl des Merkmalsvektors. Ferner ist (θ&sub1;)h im Schritt
9202 die h-te Komponente des Schwellwertvektors θ : (W )hc im
Schritt 9205 ist das Element in der h-ten Zeile und der c-ten
Spalte der Kopplungskoeffizientenmatrix W , τF bzw. τB
bedeuten die Anzahlen von Merkmalsvektoren der Eingabesprache, die
für die obenerwähnte Vorwärtsvoraussage bzw.
Rückwärtsvoraussage verwendet werden, wobei, präzise gesagt, die Werte τF = 2
und τB = 1 verwendet werden. Die in Fig. 9 gezeigte Berechnung
liefert den vorausgesagten Vektor ât als Vektoranordnung Z mit
C Komponenten.
-
Als nächstes wird, wie ferner aus Fig. 6 erkennbar, im
Schritt 602 aus dem Eingabesprachen-Merkmalsvektor at zur Zeit
und dem vorausgesagten Vektor ât, der im Schritt 601 durch
den mit dem -ten Zustand der Kategorie verbundenen MLP-
Prädiktor berechnet wird, der Abstand d (n) berechnet. Im
Schritt 10301 von Fig. 10, welche diese durch die oben
zitierte Gleichung (3) dargestellte Berechnung ausführlicher
darstellt, ist Σ die Determinante der Kovarianzmatrix im
nten Zustand der Kategorie s. Das Verfahren zur Berechnung der
Determinante wird hier nicht erläutert, da es aus der
elementaren linearen Algebra bekannt ist. Im Schritt 10301
wird der natürliche Logarithmus der Determinante der
Kovarianzmatrix für eine Variable X eingesetzt. Die Variablen
Y und X in Fig. 10 sind beide in der C-Dimension angeordnet.
Im Schritt 10305 ist (at)c2 die c-te Komponente des
Eingabesprachen-Merkmalsvektors at, und (a (n))c2 ist der
Vektor, der durch den mit dem n-ten Zustand der Kategorie
verbundenen MLP-Prädiktor vorausgesagt wird, beide berechnet
im Schritt 601. Im Schritt 10306 ist Σ c1c2 die Komponente
der c&sub1;-ten Zeile und der c&sub2;-ten Spalte der inversen Matrix der
Kovarianzmatrix Σ . Das Verfahren zur Berechnung der
inversen Matrix wird hier nicht erläutert, da es aus der
elementaren linearen Algebra bekannt ist. Die in Fig. 10
dargestellte Verarbeitung speichert den Wert des lokalen
Abstands d (n) in die Variable X.
-
Durch die Verarbeitung bis zum Schritt 414 in Fig. 4
wird der globale Abstand D zwischen dem
Merkmalsvektor-Zeitreihenmuster der Eingabesprache und dem Bezugsmustermodell
berechnet. Zu diesem Zeitpunkt erhält man den globalen Abstand D
zwischen den obenerwähnten Mustern der Kategorie als
akkumulierten Voraussagerest gT(N(S)) des Endzustands N(s) jedes
Bezugsmustermodells zur Zeit T (dem Endpunkt eines
Zeitreihenmusters).
-
Der Erkennungsergebnis-Ausgabeabschnitt 8105 wählt den
kürzesten Abstand zwischen dem Merkmalsvektor-Zeitreihenmuster
der Eingabesprache und dem Bezugsmustermodell jeder vom
Abstandsrechner 8104 vorgegebenen Kategorie aus und liefert
deren Kategoriebezeichnung als Erkennungsergebnis. Sein
spezifischer Verarbeitungsschritt ist der Schritt 415 in Fig. 4.
-
Ein Trainingssprachdatenbank-Speicherabschnitt 8106
speichert die Sprachdaten aller Wort/Silben-Kategorien, die
Gegenstand der Erkennung sind, d. h. die Zeitreihenmuster von
Merkmalsvektoren, die jeder Kategorie entsprechen.
-
Ein Bezugsmusterkorrektor 8107 berechnet die
Korrekturgrößen, die für die Parameter des Bezugsmustermodells jeder
Kategorie erforderlich sind, das aus dem
Bezugsmuster-Speicherabschnitt 8103 eingelesen wird, auf der Basis der
Traingssprachdaten aus dem Traingssprachdatenbank-Speicherabschnitt
8106 und korrigiert die obenerwähnten Parameter entsprechend
den im Bezugsmuster-Speicherabschnitt 8103 gespeicherten
Bezugsmustern.
-
Wie aus Fig. 7 erkennbar, welche die Signalverarbeitung
darstellt, werden die Parameter der Bezugsmustermodelle aller
Kategorien (einschließlich der Einheitenkopplungskoeffizienten
der MLP-Prädiktoren in verschiedenen Zuständen, der
Schwellwertvektoren und Kovarianzmatrizen) im Schritt 701 mit
Zufallszahlen initialisiert. Diese Verarbeitung ist ausführlich
in Fig. 11 dargestellt. Hierbei ist s eine Variable, welche
die Kategorie des Erkennungsgegenstands darstellt, und nimmt,
wenn 10 Ziffern erkannt werden sollen, einen der ganzzahligen
Werte von 1 bis 10 an; und ist eine Variable, die den -ten
Zustand des Bezugsmustermodells der s-ten Kategorie darstellt,
und nimmt einen der ganzzahligen Werte von 1 bis N(s) an. Im
Schritt 11406 ist (WtF)hc das Element in der h-ten Zeile und
der c-ten Spalte der -ten Einheitenkopplungsmatrix WtF für
Vorwärtsvoraussage des MLP-Prädiktors, der mit dem -ten
Zustand des Bezugsmustermodells der -ten Kategorie verbunden
ist. Hierbei bedeutet "zufällig" Zufallszahlen, die
typischerweise zwischen -0,3 und 0,3 liegen. Entsprechend wird
in den folgenden Schritten 11416, 11424, 11429 und 11432
angenommen, daß der Objektparameter der Parameter des -ten
Zustands des Bezugsmustermodells der -ten Kategorie ist. Im
Schritt 11439 werden Variable D1 und D2, die anschließend für
die Konvergenzentscheidung im Schritt 712 verwendet werden,
und eine weitere Variable P initialisiert.
-
Im Schritt 704 werden die optimalen Trajektorien
zwischen dem -ten Trainingsdatensatz der s-ten Kategorie (der
Merkmalsvektor-Zeitreihe mit der Länge Tm(s) und den
Bezugsmustermodellen der -ten Kategorie ermittelt. Details
dieser Verarbeitung sind in Fig. 12 dargestellt. Der
Initialisierungsabschnitt 2 von Schritt 12501 resultiert aus
der Festlegung der Variablen , welche die Kategorie
darstellt, die bei der in Fig. 4 (Schritt 401) angegebenen
Initialisierung zu verarbeiten ist. Genauer gesagt, diese
Verarbeitung wird durch Entfernen der Schritte 502, 507, 508, 511
und 514 von Fig. 5 erreicht. Der Abstandsberechnungsabschnitt
2 von Schritt 12502 resultiert aus der Festlegung der
Variablen , welche die Kategorie darstellt, die in dem in Fig. 4
vorgegebenen Abstandsberechnungsverfahren von Schritt 402 bis
414 zu verarbeiten ist. Genauer gesagt, diese Verarbeitung
wird durch Entfernen der Schritte 403, 411 und 412 ausgeführt.
Für die anschließende Konvergenzentscheidung wird der durch
die Verarbeitung bis zum Schritt 414 berechnete akkumulierte
Voraussagerest gT(s)(N(S)) im voraus zu der Variablen D1 für die
Konvergenzentscheidung addiert (D1 = D1 + gT(s)(NS). Die optimalen
Trajektorien n&sub1;, ..., nT erhält man durch die Verarbeitung von
Σchritt 12503 bis 12510.
-
Wie wiederum aus Fig. 7 erkennbar, werden im Schritt
706 die Parameter des mit dem nt*-ten Zustand verbundenen MLP-
Prädiktors, bei gegebener Übereinstimmung mit dem
Merkmalsvektor aT des -ten Trainingsdatensatzes der -ten
Kategorie zur Zeit im Schritt 704, durch Rückwärtsfortpflanzung
korrigiert. Details dieser Verarbeitung sind in Fig. 13
dargestellt. Im Schritt 13602 wird der vorausgesagte Vektor für den
Merkmalsvektor at zur Zeit berechnet. Dieses Verfahren ist
in Fig. 9 dargestellt (auf die oben Bezug genommen wird). Bei
der Verarbeitung in den folgenden Schritten 13603 bis 13634
ist Y eine H-dimensionale Anordnung, die das im Schritt 13602
berechnete Ausgabesignal der Einheit mit verborgener Schicht
darstellt; ΔZ ist eine C-dimensionale Anordnung, die den
Fehler bezüglich der Ausgabeschichteinheit darstellt; ΔY ist eine
H-dimensionale Anordnung, die den Fehler bezüglich der Einheit
mit verborgener Schicht darstellt; und ε ist ein vorgegebener
Lernkoeffizient, (der typischerweise den Wert 0,1 oder
dergleichen annimmt). Hierbei sind die nichtdiagonalen Terme der
Kovarianzmatrix vernachlässigbar klein, und die Matrix wird
dementsprechend als Diagonalmatrix behandelt, deren -te
Komponente im Schritt 13607 gleich (Σn)cc ist. Durch die in Fig.
13 dargestellte Verarbeitung werden die Parameter des nt*-ten
MLP-Prädiktors der -ten Kategorie so korrigiert, daß die
Voraussagereste vermindert werden. Durch die Verarbeitung von
Schritt 703 bis 710 wird das oben beschriebene
Korrekturtraining auf alle Trainingsdatensätze der -ten Kategorie
angewandt.
-
Im Schritt 711 wird auf der Basis der oben angegebenen
Gleichung (16) eine neue Kovarianzmatrix berechnet. Das
Verfahren im Schritt 711 ist in Fig. 14 dargestellt, wobei
Variable X bzw. Y Anordnungen von N(T) Zeilen bzw. C Spalten sind.
Die Berechnung der optimalen Trajektorie im Schritt 14709
erfolgt auf die gleiche Weise wie im Schritt 704, wie
ausführlich in Fig. 12 dargestellt. Die Verarbeitung durch den
Berechnungsabschnitt für den vorausgesagten Vektor im Schritt
14712 ist die gleiche wie im Schritt 13602, dessen Details in
Fig. 9 dargestellt sind. Das Zeichen (âT (n)) im Schritt 14714
bezeichnet die -te Komponente des im Schritt 14712
berechneten vorausgesagten Vektors, und (Σn)cc im Schritt
14724 bedeutet die -te Diagonalkomponente der Kovarianzmatrix
des -ten Zustandes.
-
Die Konvergenzentscheidung im Schritt 712 erkennt
Konvergenz, wenn festgestellt wird, daß die berechnete
Änderungsgeschwindigkeit der Variablen D1 (des akkumulierten
Voraussagerests für alle Trainingsdatensätze) kleiner ist als ein
vorgegebener Schwellwert. Die Verarbeitung ist in Fig. 15
dargestellt. Im Schritt 15802 wird der Absolutwert der
Änderungsgeschwindigkeit des akkumulierten Voraussagerests für alle
Trainingsdatensätze mit einem vorgegebenen Schwellwert Th
(tatsächlich mit 0,001 oder dergleichen) verglichen. Durch die
Verarbeitung in diesen Schritten 701 bis 714 wird das
iterative Training für alle Trainingsdatensätze ausgeführt, um die
optimalen Modellparameter zu liefern.
-
Wie bisher beschrieben, ist das erfindungsgemäße
Spracherkennungsverfahren dadurch gekennzeichnet, daß
Übergangsnetze mit endlichen Zuständen des Links-Rechts-Musters,
die mit MLP-Prädiktoren mit Verwendung neuronaler Netze
verbunden sind, NPMs bilden, die Bezugsmustermodelle sowohl mit
Vorwärts- als auch mit Rückwärtsvoraussage sind, daß die
lokalen Abstände zwischen diesen NPMs und den Zeitreihenmustern
von Eingabesprachen-Merkmalsvektoren durch Anpassung mittels
dynamischer Programmierung (DP) berechnet werden, und daß
Kovarianzmatrizen in diese Berechnung lokaler Abstände
eingeführt werden. Als Ergebnis ist das erfindungsgemäße
Spracherkennungsverfahren an die Sprache jedes nicht spezifizierten
Sprechers anpassungsfähig und ermöglicht Spracherkennung,
insbesondere kontinuierliche Spracherkennung, mit einer hohen
Erkennungsrate.
-
Die Erfindung ist zwar vorstehend anhand einer
bestimmten Ausführungsform (oder bestimmter Ausführungsformen)
beschrieben worden, aber diese Beschreibung soll nicht in
einschränkendem Sinne ausgelegt werden. Verschiedene
Modifikationen der offenbarten Ausführungsform sowie andere
Ausführungsformen der Erfindung werden für Fachleute auf diesem Gebiet
nach dem Durchlesen der Beschreibung der Erfindung
offensichtlich sein.