DE69417273T2 - Verfahren und Vorrichtung zur Mustererkennung - Google Patents
Verfahren und Vorrichtung zur MustererkennungInfo
- Publication number
- DE69417273T2 DE69417273T2 DE69417273T DE69417273T DE69417273T2 DE 69417273 T2 DE69417273 T2 DE 69417273T2 DE 69417273 T DE69417273 T DE 69417273T DE 69417273 T DE69417273 T DE 69417273T DE 69417273 T2 DE69417273 T2 DE 69417273T2
- Authority
- DE
- Germany
- Prior art keywords
- vector
- feature vector
- reference pattern
- word
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 11
- 238000000034 method Methods 0.000 title description 21
- 239000013598 vector Substances 0.000 claims description 152
- 230000007704 transition Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012567 pattern recognition method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000003936 working memory Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zum automatischen Erkennen eines Musters, das in dem zeitlichen Ablauf eines Merkmalvektors, z. B. eines Sprachsignals, gegeben ist.
- Für das Erkennen eines Zeitablaufmusters sind verschiedene Technologien in einem Mustererkennungssystem entwickelt worden. Eines der hiervon am besten begründeten und ein häufig genutztes Verfahren ist das "Hidden-Markow- Modell (HMM)". Das Prinzip des HMM wird nachstehend erörtert.
- Unter der Annahme, daß ein Wortname durch eine Zahl w bezeichnet wird, kann das Ziel für die Erkennung eine Wortmenge sein, welche durch:
- {w w = 1, 2, ... W} (1)
- gegeben sein kann. Das Referenzmuster jedes Wortes kann durch eine Folge von Zuständen gegeben sein. Der n-te Zustand des Wortes w besitzt eine Vektor-Ausgabewahrscheinlichkeitsverteilung aus der
- mehrdimensionalen Gaußschen Verteilung bwn(x), die bestimmt ist durch:
- eine Menge aus dem Durchschnittsvektor uwn und der kovarianten Matrix Σwn, (uwn, Σwn) (2)
- wobei P eine Dimension des Vektors x und des Durchschnittsvektors uwn ist und
- (Σwn)&supmin;¹ die inverse Matrix der kovarianten Matrix aus P Zeilen und P Spalten ist.
- Die Hochstellung bezeichnet die Transponierung. Dem Übergang in den jeweiligen Zustand sind Übergangswahrscheinlichkeiten zugeordnet. In Fig. 6 ist (falls die Anzahl der Zustände Nw ist) ein Beispiel eines Referenzmusters eines Wortes gezeigt. In Fig. 6 besitzt der n-te Zustand eine
- (Übergangswahrscheinlichkeit = awn,n)
- zu sich selbst und eine
- (Übergangswahrscheinlichkeit = awn,n+)
- zu dem benachbarten n+1-ten Zustand.
- Eine Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w) des Referenzmusters des Wortes w für die Ausgabe der Merkmalvektor-Folge a&sub1;, ..., aT ist durch die folgende Gleichung definiert:
- Hier stellen n&sub1;, ..., nT den Übergang des Zustandes dar, welcher sich zum Zeitpunkt t = 1 bei n&sub1; aufhält und zu einem Zeitpunkt t = T nT erreicht. In den vorangehenden Gleichungen stellen die Summenzeichen die Summen über alle möglichen Zustandsübergänge dar. Die Zustandsübergänge können an dem Gitter (treris) in Fig. 7 gezeigten treris erörtert werden. In Fig. 7 entspricht die waagerechte Achse dem Merkmalvektor, während die senkrechte Achse der Zustandsfolge (siehe Fig. 6) des Referenzmusters des Wortes entspricht. Der Zustandsübergang ist auf dem Weg (dicke Linie) in dem Gitter bezeichnet. n&sub1;, ..., nT drücken dieses auf dem Weg über die Gleichung aus. P(a&sub1;, ..., aT n&sub1;, ..., nT, w) in der Gleichung (4) ist eine Wahrscheinlichkeit, wann der Zustandsübergang festgestellt wird, während P(n&sub1;, ..., nT, w) eine Wahrscheinlichkeit des Auftretens des Zustandsüberganges ist. Diese Wahrscheinlichkeiten werden aus einer Vektor-Ausgabewahrscheinlichkeitsverteilung und einer Übergangswahrscheinlichkeit wie folgt berechnet:
- Das wirksame Verfahren der Berechnung der Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w), das durch die Gleichung (4) gegeben ist, ist als "Vorwärtsrechnungsverfahren" bekannt gewesen. Das "Vorwärtsrechnungsverfahren" ist als "Vorwärtsalgorithmus" in einer Veröffentlichung "Speech Recognition by Probability Model", Seite 42, Algorithmus 3.2 erörtert worden. Im Ergebnis wird
- eine akkumulierte Wahrscheinlichkeit awt (n)
- für das Aufhalten in dem Zustand n zum Zeitpunkt t gemäß der folgenden Gleichung initialisiert:
- Durch das fortschreitende Ausführen der Berechnung von einem Zeitpunkt 2 zu einem Zeitpunkt T gemäß der folgenden Gleichung:
- kann die Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w) als
- P(a&sub1;, ..., aT w) = awT (Nw) (9)
- erhalten werden.
- Das Viterbi-Berechnungsverfahren, in welchem eine Summe aus dem möglichen Gesamt-Zustandsübergang nach Maßgabe des Zustandsübergangs, der die maximale Wahrscheinlichkeit bereitstellt, angenähert wird, ist z. B. in der oben identifizierten Veröffentlichung auf Seite 46, Algorithmus 3.4, erörtert. In dem "Viterbi-Berechnungsverfahren" wird die folgende Gleichung anstelle der vorangehenden Gleichung (4) verwendet:
- Durch Modifizieren der Berechnung für das Ableiten des maximalen Wertes der Summe in der Gleichung (8) in dem Vorwärtsrechnungsverfahren sind in diesem Fall die anderen die gleichen.
- Durch Verwendung des "Vorwärtsrechnungsverfahrens" oder des "Viterbi-Berechnungsverfahrens" kann eine Wort-Ausgabewahrscheinlichkeit für das Ausgeben der Merkmalvektor- Folge des Eingangssignals gestützt auf das bekannte Referenzmuster des zu erkennenden Zielwortes berechnet werden. Dann kann die Erkennung durch Auswählen des Wortnamens ausgeführt werden, der als Ergebnis der Erkennung die maximale Wort-Ausgabewahrscheinlichkeit von allen besitzt.
- In dem oben dargelegten HMM-Verfahren ist das Referenzmuster des Wortes als Zustandsfolge gegeben, die eine mehrdimensionale Gaußsche Verteilung besitzt. Wird nämlich angenommen, daß das Referenzmuster des Wortes w die Zustandsfolge von Nw Zuständen ist, wird der Eingang in Nw Abschnitte geteilt, so daß jeder Abschnitt durch eine Gaußsche Verteilung modelliert wird. Die Art dieser Modellierung ist in Fig. 8 erläutert. In Fig. 8 sind auf der waagerechten Achse der Zeitpunkt des Eingangssignals und auf der senkrechten Achse der Wert at des Merkmalvektors aufgetragen. Für die Dimension des Merkmalvektors wird hier zur Veranschaulichung eine einzige Dimension verwendet. uwn ist ein Durchschnittsvektor der Gaußschen Verteilung des Zustandes n. uwn+1 stellt den Durchschnittsvektor der Gaußschen Verteilung dar. In Fig. 8 ist durch Extraktion eines Zustandsüberganges, welcher sich von einem Zeitpunkt tn bis zu dem Zeitpunkt tn+1 in dem Zustand n und von dem Zeitpunkt tn+1 bis tn+2 in dem Zustand n + 1 aufhält, die Art der Anpassung des Referenzmusters und des Eingangssignals erläutert. Wie aus Fig. 8 hervorgeht, approximiert das HMM das Eingangssignal in den den jeweiligen Zuständen entsprechenden Abschnitten durch den Durchschnittswert und die Verteilung in der Umgebung. Zum Beispiel wird der sich gleichmäßig ändernde Teil des Eingangssignals von dem Zeitpunkt tn bis tn+1 durch einen konstanten Durchschnittswert uwn approximiert. Um ein Modell für sich dynamisch ändernde Signale, z. B. das Sprachsignal, anhand des flachen Mustersystems (Durchschnittsvektor) in dem Abschnitt zu errichten, sind sehr große Mengen von Abschnitten (Zuständen) erforderlich. Das Anwachsen der Anzahl der Zustände führt jedoch zu einem Anwachsen der Anzahl der Parameter (Durchschnittsvektoren der jeweiligen Zustände und die kovariante Matrix). Um darüber hinaus die Parameter mit einer zuverlässigen Genauigkeit abzuschätzen, wird eine sehr große Menge von Trainingsdaten notwendig.
- Es ist eine Aufgabe der Erfindung, ein Verfahren und ein System für das Erkennen eines Musters zu schaffen, das den Mangel in dem HMM-Verfahren verbessert, daß es eine sehr große Menge von Modell-Parametern erfordert, um ein Modell mit hoher Modellierungsgenauigkeit eines Signals in flachen Mustersystemen in Abschnitten zu erzeugen, wobei es folglich eine hohe Genauigkeit des Modellierens mit einer kleineren Anzahl von Parametern erlaubt, um ein preiswertes Hochleistungs-Mustererkennungssystem zu realisieren.
- Um die obenerwähnte Aufgabe zu lösen, enthält ein Mustererkennungsverfahren gemäß einem Aspekt der Erfindung die folgenden Schritte:
- Vorsehen einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines zu erkennenden Zielwortes enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
- Ableiten eines Vorhersagevektors eines t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
- Ableiten einer Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist;
- Ableiten einer Wort-Ausgabewahrscheinlichkeit für das Referenzmuster des zu erkennenden Zielwortes, Ausgeben der Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten; und
- Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter sämtlichen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
- Die Länge des Referenzmusters mit der Länge Nw des zu erkennenden Zielwortes ist vorzugsweise die Folge aus Nw Wörtern und der Vorhersagevektor âwt (n) wird dann, wenn der n-te Zustand des Referenzmusters den Steuersignalvektor cwn besitzt, aus der Funktion f(·) von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors P ist und die Dimension des Steuersignalvektors Q ist, und unter Verwendung des (t-1)-ten Merkmalvektors at-1 zu âwt = f (at-1, cwn) abgeleitet.
- Gemäß einem weiteren Aspekt der Erfindung enthält ein Mustererkennungssystem:
- eine Referenzmuster-Speichereinrichtung zum Speichern einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines Zielwortes für die Erkennung enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
- eine Vorhersagevektor-Ableitungseinrichtung zum Ableiten eines Vorhersagevektors des t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
- einer Merkmalvektor-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist;
- einer Wort-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer Wort-Ausgabewahrscheinlichkeit für das Referenzmuster des zu erkennenden Zielwortes, wobei die Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten ausgegeben wird; und
- einer Erkennungsergebnis-Ausgabeeinrichtung zum Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter allen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
- Das Mustererkennungssystem kann ferner enthalten eine Merkmal-Extraktionseinrichtung zum Umwandeln des Eingangssignals in eine Merkmalvektor-Folge; und eine Merkmalvektor-Speichereinrichtung zum Speichern des Merkmalvektors. Die vorhergesagte Vektor-Ableitungseinrichtung kann eine Operation ausführen, gemäß der dann, wenn die Länge des Referenzmusters der Länge Nw des zu erkennenden Zielwortes die Folge von Nw Wörtern ist und der n-te Zustand des Referenzmusters den Steuersignalvektor cwn besitzt, der Vorhersagevektor âwt (n) aus der Funktion f (·) von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors P ist und die Dimension des Steuersignalvektors Q ist, und unter Verwendung des (t-1)-ten Merkmalvektors at-1 als âwt = f(at-1, cwn) abgeleitet wird.
- Die vorliegende Erfindung wird durch die folgende ausführliche Beschreibung und durch die beigefügte Zeichnung der zweckmäßigen Ausführung besser verständlich, welche jedoch nicht als die Erfindung einschränkend anzusehen ist, sondern lediglich der Erklärung und dem Verständnis dient.
- In der Zeichnung ist:
- Fig. 1 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
- Fig. 2 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
- Fig. 3 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
- Fig. 4 ein Blockschaltbild, das eine Ausführung eines Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt;
- Fig. 5 ein Flußdiagramm, das einen Prozeß des Mustererkennungssystems nach Fig. 4 zeigt;
- Fig. 6 eine Darstellung, die ein Beispiel eines Referenzmusters des Zustandsüberganges eines Wortes zeigt;
- Fig. 7 eine Darstellung eines Gitters zur Erläuterung des Referenzmusters des Zustandsüberganges des Wortes; und
- Fig. 8 eine Darstellung, die eine Art der Erzeugung eines Modells durch eine Gaußsche Verteilung für Nw Abschnitte in dem Fall zeigt, in dem das Referenzmuster des Wortes eine Folge von Nw Zuständen enthält.
- Die zweckmäßige Ausführung eines Verfahrens und eines Systems für das Erkennen eines Musters gemäß der vorliegenden Erfindung wird unter Bezugnahme auf die beigefügte Zeichnung ausführlich erörtert.
- Das Merkmal des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung ist, daß ein Durchschnittsvektor einer mehrdimensionalen Gaußschen Verteilung bei jedem Zustand des Referenzmusters in dem obenerwähnten HMM- Verfahren nicht als eine Konstante angenommen wird und ein vorhergesagter Vektor verwendet wird, der durch einen Prädiktor anhand eines Merkmalvektors eines Eingangssignals in einer vorangegangenen Periode berechnet wird, so daß das sich dynamisch ändernde Eingangssignal, z. B. ein Sprachsignal, mit einer kleineren Menge von Parametern effektiv dargestellt werden kann.
- In dem Fall des HMM-Verfahrens ist die Länge des Referenzmusters mit der Länge Nw des Wortes w eine Folge von Nw Zuständen. Der n-te Zustand enthält eine mehrdimensionale Gaußsche Verteilung bwn (X), die durch:
- eine Kombination aus einem Durchschnittsvektor uwn und der kovarianten Matrix Σwn, (uwn, Σwn) (12)
- als Vektor-Ausgabewahrscheinlichkeitsverteilung bestimmt ist:
- Im Fall der vorliegenden Erfindung ist die Länge des Referenzmusters mit der Länge Nw des Wortes w eine Folge von Nw Zuständen. Der n-te Zustand enthält
- eine Kombination aus einem Steuersignalvektor cwn und einer kovarianten Matrix Σwn, (cwn, Σwn)
- Die Vektor-Ausgabewahrscheinlichkeit, daß der n-te Zustand den t-ten Merkmalvektor des Eingangssignals ausgibt, kann aus der folgenden mehrdimensionalen Gaußschen Verteilung berechnet werden.
- Unter Verwendung dieser Vektor-Ausgabewahrscheinlichkeitsverteilung wird die Wort-Ausgabewahrscheinlichkeit aus der vorangehenden Gleichung (4) berechnet.
- Hier ist im Unterschied zu dem herkömmlichen HMM-Verfahren der Durchschnittsvektor der Gaußschen Verteilung uwn keine Konstante, sondern ein Vorhersagevektor âwt (n). Der keine Konstante, sondern ein Vorhersagevektor âwt (n). Der Vorhersagevektor wird durch einen Prädiktor f(·) unter Verwendung des Steuervektors cwn berechnet, der den n-ten Zustand und den (t-1)-ten Merkmalvektor at-1 des Eingangssignals besitzt.
- âwt(n) = f (at-1, cwn) (15)
- Hier ist die Funktion f eine Funktion von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors die Dimension P ist und die Dimension des Steuervektors die Dimension Q ist. Die Funktion f(·) kann als ein Prädiktor betrachtet werden, der den Merkmalvektor zu einem Zeitpunkt t aus dem Merkmalvektor zu einem Zeitpunkt t-1 vorhersagt. Die Art dieser Vorhersage wird unter Bezugnahme auf Fig. 1 erörtert. Fig. 1 erläutert graphisch die Anpassung der Merkmalvektor-Folge a&sub1;, ..., at, ..., aT des Eingangssignals der Länge T und der Länge von Nw des Referenzmusters, welches dem Gitter (Fig. 7) des HMM-Verfahrens entspricht. Hier wird am Gitterpunkt (t, n) des Gitters, der durch den Zeitpunkt t des Eingangssignals und den Zustand n des Referenzmusters bezeichnet ist, der Vorhersagevektor âwt (n) als Durchschnittsvektor der mehrdimensionalen Gaußschen Verteilung unter Verwendung des Prädiktors f(·) berechnet, um die Vektor-Ausgabewahrscheinlichkeit bwn(at) zu berechnen. Wie aus der Zeichnung hervorgeht, werden der Steuersignalvektor cwn, der den n-ten Zustand besitzt, und der Merkmalvektor at-1 des Eingangssignals in einer vorangegangenen Periode für die Berechnung des Vorhersagevektors verwendet.
- Wie erläutert worden ist, ist gemäß der vorliegenden Erfindung der Durchschnittsvektor uwn der Gaußschen Verteilung des n-ten Zustandes durch den Vorhersagevektor âwt (n), welcher von Zeitpunkt zu Zeitpunkt von dem Ein gangssignal abhängt, ersetzt. Deshalb kann das Problem gelöst werden, das durch das Ausdrücken der dynamischen Veränderung des Eingangssignals durch den Durchschnittsvektor verursacht wird, wie in dem HMM-Verfahren gezeigt worden ist, wobei folglich die Anpassung des Referenzmusters an die Eingangssprache unter Verwendung des Durchschnittsvektors, welcher sich dynamisch ändert und dem Eingangssignal folgt, mit hoher Genauigkeit geschaffen werden kann. Die Art wird in Fig. 2 für den Vergleich mit der in Fig. 8 erläutert. Wie aus dem Vergleich dieser Figuren ebenfalls deutlich hervorgeht, ist die vorliegende Erfindung dem Stand der Technik hinsichtlich der Genauigkeit der Parameter überlegen.
- Als nächstes wird der in der vorliegenden Erfindung verwendete Prädiktor f(·) diskutiert. Der Prädiktor, der x und z als Vektoren in der Dimension P und y als einen Vektor in der Dimension Q verwendet, ist durch:
- z = f (x, y) (16)
- gegeben. Verschiedene Funktionen können als Funktionen von der Dimension P + Q in die Dimension P betrachtet werden.
- Als lineare Funktion kann eine Matrix verwendet werden.
- Hier stellen zi, xi und yi die Komponenten des Vektors dar. Der Prädiktor ist durch eine Matrix Fij aus P Zeilen und P Spalten, eine Matrix Gib aus P Zeilen und Q Spalten und einem Vektor Hi in der Dimension P gegeben. Die Anzahl der Parameter in dem Prädiktor ist P(P + Q + 1).
- Als nichtlineare Funktion besitzt ein hierarchisches neuronales Netz P + Q Eingabeeinheiten und P Ausgabeeinheiten. Das hierarchische neuronale Netz ist in Hideki Aso, "Neural Network Information Processing", Sangyo Tosho, ausführlich erörtert worden. Die Konstruktion in dem Fall, in dem ein 3-Schichten-Netz mit H verborgenen Einheiten verwendet wird, ist in Fig. 3 gezeigt. Die Parameter des Prädiktors sind (P + Q)H Kopplungskoeffizienten von der Eingangsschicht zur verborgenen Schicht, H Schwellenwerte der verborgenen Schicht, HP Kopplungskoeffizienten von der verborgenen Schicht zu der Ausgangsschicht und P Schwellenwerte der Ausgangsschicht.
- Der in der vorliegenden Erfindung verwendete Prädiktor ist als die oben dargelegte Funktion verwirklicht. Der gleiche Prädiktor ist auf alle Zustände der Referenzmuster von allen möglichen zu erkennenden Zielwörtern anwendbar. In jedem Zustand des Referenzmusters von jedem zu erkennenden Zielwort werden von dem gleichen Merkmalvektor at-1 abhängig von dem Wort oder Zustand verschiedene Vorhersagevektoren (Durchschnittsvektoren) âwt ausgegeben, weil der Prädiktor wechselseitig verschiedene Steuersignale verwendet.
- Fig. 4 zeigt eine Ausführung des Mustererkennungssystems, für das das Mustererkennungsverfahren der vorliegenden Erfindung verwendet wird. Ein Sprachsignaleingang von einem Mikrophon 10 wird durch einen analysierenden Teil 20 abgetastet und modelliert und in einen Mikroprozessor 30 eingegeben, mit Transformation in den Merkmalvektor at durch eine schnelle Fourier-Transformation oder dergleichen. An den Mikroprozessor 30 sind ein Referenzmuster- Speicherteil 40, ein Prädiktorparameter-Speicherteil 50, ein Merkmalvektor-Speicherteil 60 und ein Arbeitsspeicher 70 als Speicher angeschlossen.
- In dem Referenzmuster-Speicherteil 40 sind eine Folge (n = 1, ..., Nw) des Steuersignalvektors cwn und die kovariante Matrix Σwn und eine Übergangswahrscheinlichkeit awm,n (m, n = 1, ..., Nw) als Parameter des Referenzmusters jedes Wortes w gespeichert. In dem Prädiktorparameter-Speicherteil 50 sind die Parameter des Prädiktors gespeichert (wenn der lineare Prädiktor als Prädiktor verwendet wird, lauten die Parameter Fij, Gi, Hi). Der Merkmalvektor- Speicherteil 60 erhält den Merkmalvektor at-1 der einen vorangegangenen Periode aufrecht. Der Arbeitsspeicher ist ein Arbeitsbereich für das vorübergehende Speichern der Vektor-Ausgabewahrscheinlichkeit und der akkumulierten Wahrscheinlichkeit aufgrund der Berechnung der Wort- Ausgabewahrscheinlichkeit gemäß dem Referenzmuster jedes zu erkennenden Zielwortes. Dieser Referenzmuster-Speicherteil 40, der Prädiktormuster-Speicherteil 50, der Merkmalvektor-Speicherteil 60 und der Arbeitsspeicher 70 können in einem getrennten Speicherbereich in einem Hauptspeicher des Mikroprozessors definiert sein.
- Der Erkennungsprozeß wird durch ein Programm durch den Mikroprozessor 30 ausgeführt. Für den führenden Merkmalvektor a&sub1; des Eingangssignals wird die folgende Initialisierung für jeden Zustand jedes Zielwortes ausgeführt (w = 1, ..., W, ... n = 1, ..., Nw, worin Nw die Anzahl der Zustände des Referenzmusters des Wortes w ist).
- Das entspricht dem Anfangszustand der Gleichung (7) des Vorwärtsrechnungsverfahrens (oder des Viterbi-Berechnungsverfahrens). Der Merkmalvektor at ist ebenfalls in dem Merkmal-Speicherteil 60 gespeichert.
- Anschließend wird der Prozeß, der in dem Ablaufplan nach Fig. 5 gezeigt ist, durch den Mikroprozessor 30 bei jedem Auftreten der Eingabe des Merkmalvektors des Eingangssignals ausgeführt. In der Zeichnung ist 101 der Block für die Berechnung des vorhergesagten Vektors durch die Gleichung (15) aus dem Merkmalvektor at-1 von einer vorangegangenen Periode und dem Steuersignalvektor cwn, der in dem Referenzmuster-Speicherteil 40 gespeichert ist. Wird der vorhergesagte Vektor als der Durchschnittsvektor genommen, wird die Vektor-Ausgabewahrscheinlichkeit bwn(at) gemäß der Gleichung (14) in dem Block 102 berechnet und dann als eine Variable b in dem Arbeitsspeicher gespeichert. In dem Block 103 wird die akkumulierte Wahrscheinlichkeit aw (n) im Block 103 mit der aus dem Referenzmuster-Speicherteil ausgelesenen Übergangswahrscheinlichkeit awt multipliziert und dann in dem Arbeitsspeicher 70 als Variable P gespeichert. Im Block 104 wird die aus dem Arbeitsspeicher ausgelesene akkumulierte Wahrscheinlichkeit awt-1(n - 1) mit der aus dem Referenzmuster-Speicherteil ausgelesenen Übergangswahrscheinlichkeit awn-1,n multipliziert. Dieser Prozeß vom Block 103 zum Block 104 entspricht dem Prozeß gemäß Gleichung (8).
- Sobald der obenerwähnte Prozeß abgeschlossen ist, wird der Zeitpunkt des Eingangssignals um eine Periode erhöht. Dann wird der gleiche Prozeß als Antwort auf einen weiteren Merkmalvektor at ausgeführt. Nach dem Ende des Eingangssignals und nachdem der abschließende Merkmalvektor verarbeitet worden ist, führt der Mikroprozessor 30 intern die nachfolgende Verarbeitung aus. Die akkumulierte Wahrscheinlichkeit aw (Nw) jedes in dem Arbeitsspeicher 70 gespeicherten Wortes schafft die Wort- Ausgabewahrscheinlichkeit des Referenzmusters jedes Worts, das das Eingangssignal ausgibt. Durch das fortschreitende Vergleichen dieser wird der maximale Wert abgeleitet, um dazu entsprechend w = als Ergebnis der Erkennung auszugeben.
- Wie oben dargelegt wurde, kann das preiswerte Hochleistungs-Mustererkennungssystem durch Modifizieren des Vorhersagevektors durch den Prädiktor von Zeitpunkt zu Zeitpunkt abhängig vom Eingangssignal anstelle des Verwendens des Durchschnittsvektors der Gaußschen Verteilung des HMM-Verfahrens durch Erzeugen von Modellen der Signale bei höherer Genauigkeit mit einer kleineren Anzahl von Zuständen und einer kleineren Anzahl von Parametern realisiert werden.
- Obwohl die Erfindung unter Bezugnahme auf eine ihrer beispielhaften Ausführungen erläutert und beschrieben worden ist, können Fachleute selbstverständlich die vorangehenden und verschiedene andere Änderungen, Auslassungen und Hinzufügungen vornehmen, ohne von dem Umfang der vorliegenden Erfindung abzuweichen. Daher soll die vorliegende Erfindung nicht als auf die oben angegebene spezifische Ausführung eingeschränkt verstanden werden, sondern alle möglichen Ausführungen umfassen, die innerhalb des gegebenen Umfangs ausgeführt werden können.
Claims (5)
1. Mustererkennungsverfahren, das die folgenden
Schritte aufweist:
Vorsehen einer Menge aus einem Steuersignalvektor
und einer kovarianten Matrix, die jeweilige Zustände
eines Referenzmusters eines zu erkennenden Zielwortes
enthalten, wobei das Referenzmuster durch mehrere
Zustände und Übergänge zwischen den Zuständen sowie durch
Übergangswahrscheinlichkeiten zwischen jeweiligen
Zuständen gegeben ist;
Ableiten eines Vorhersagevektors eines t-ten
Merkmalvektors anhand des (t-1)-ten Merkmalvektors und
des Steuersignalvektors;
Ableiten einer
Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-
ten Zustand des Referenzmusters des zu erkennenden
Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung,
die durch den Vorhersagevektor und die kovariante Matrix
unter Verwendung des Vorhersagevektors als
Durchschnittsvektor bestimmt ist,
Ableiten einer Wort-Ausgabewahrscheinlichkeit für
das Referenzmuster des zu erkennenden Zielwortes,
Ausgeben der Merkmalvektor-Folge des Eingangssignals unter
Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit
und der in den jeweiligen Zuständen des Referenzmusters
enthaltenen Übergangswahrscheinlichkeiten; und
Ausgeben einer der
Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der
Erkennung des Wortes unter sämtlichen
Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort
abgeleitet wurden.
2. Mustererkennungsverfahren nach Anspruch 1, bei
dem die Länge des Referenzmusters mit der Länge Nw des zu
erkennenden Zielwortes die Folge aus Nw Wörtern ist und
der Vorhersagevektor âwt (n) dann, wenn der n-te Zustand
des Referenzmusters den Steuersignalvektor cwn enthält,
aus der Funktion f(·) von der Dimension P + Q in die
Dimension P abgeleitet wird als âwt = f(at-1, cwn), und zwar
unter der Annahme, daß die Dimension des Merkmalvektors P
ist und daß die Dimension des Steuersignalvektors Q ist
sowie unter Verwendung des (t-1)-ten Merkmalvektors at-1.
3. Mustererkennungssystem, mit:
einer Referenzmuster-Speichereinrichtung (40) zum
Speichern einer Menge aus einem Steuersignalvektor und
einer kovarianten Matrix, die jeweilige Zustände eines
Referenzmusters eines Zielwortes für die Erkennung
enthalten, wobei das Referenzmuster durch mehrere Zustände
und Übergänge zwischen den Zuständen sowie durch
Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen
gegeben ist;
eine Vorhersagevektor-Ableitungseinrichtung zum
Ableiten eines Vorhersagevektors des t-ten Merkmalvektors
anhand des (t-1)-ten Merkmalvektors und des
Steuersignalvektors;
einer Merkmalvektor-Ausgabewahrscheinlichkeit-
Ableitungseinrichtung zum Ableiten einer Merkmalvektor-
Ausgabewahrscheinlichkeit für die Ausgabe des t-ten
Merkmalvektors im n-ten Zustand des Referenzmusters des
zu erkennenden Zielwortes aus einer mehrdimensionalen
Gaußschen Verteilung, die durch den Vorhersagevektor und
die kovariante Matrix unter Verwendung des
Vorhersagevektors als Durchschnittsvektor bestimmt ist;
einer
Wort-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer
Wort-Ausgabewahrschein
lichkeit für das Referenzmuster des zu erkennenden
Zielwortes, wobei die Merkmalvektor-Folge des Eingangssignals
unter Verwendung der
Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des
Referenzmusters enthaltenen Übergangswahrscheinlichkeiten
ausgegeben wird; und
einer Erkennungsergebnis-Ausgabeeinrichtung zum
Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit
der maximalen Wahrscheinlichkeit als Ergebnis der
Erkennung des Wortes unter allen
Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet
wurden.
4. Mustererkennungssystem nach Anspruch 3, das
ferner eine Merkmal-Extraktionseinrichtung zum Umwandeln
des Eingangssignals in eine Merkmalvektor-Folge; und
eine Merkmalvektor-Speichereinrichtung (60) zum
Speichern des Merkmalvektors aufweist.
5. Mustererkennungsverfahren nach Anspruch 1, bei
dem die Ableitung des Vorhersagevektors eine Operation
ausführt, gemäß der dann, wenn die Länge des
Referenzmusters der Länge Nw des zu erkennenden Zielwortes die
Folge von Nw Wörtern ist und wenn der n-te Zustand des
Referenzmusters den Steuersignalvektor cwn enthält, der
Vorhersagevektor âwt (n) aus der Funktion f(·) von der
Dimension P + Q in die Dimension P als âwt = f(at-1, cwn)
abgeleitet wird, und zwar unter der Annahme, daß die
Dimension des Merkmalvektors P ist und daß die Dimension
des Steuersignalvektors Q ist sowie unter Verwendung des
(t-1)-ten Merkmalvektors at-1.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5003647A JPH0776880B2 (ja) | 1993-01-13 | 1993-01-13 | パターン認識方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69417273D1 DE69417273D1 (de) | 1999-04-29 |
DE69417273T2 true DE69417273T2 (de) | 1999-12-09 |
Family
ID=11563277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69417273T Expired - Fee Related DE69417273T2 (de) | 1993-01-13 | 1994-01-13 | Verfahren und Vorrichtung zur Mustererkennung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5920839A (de) |
EP (1) | EP0606913B1 (de) |
JP (1) | JPH0776880B2 (de) |
CA (1) | CA2113316C (de) |
DE (1) | DE69417273T2 (de) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL122258A (en) * | 1997-11-20 | 2002-08-14 | Israel Aircraft Ind Ltd | Method and system for determining temperature and/or emissivity function of objects by remote sensing |
US6772152B2 (en) * | 2001-03-22 | 2004-08-03 | International Business Machines Corporation | System and method for mining patterns from a dataset |
US6691110B2 (en) | 2001-03-22 | 2004-02-10 | International Business Machines Corporation | System and method for discovering patterns with noise |
JP5200712B2 (ja) | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
JP5089655B2 (ja) * | 2009-06-22 | 2012-12-05 | 日本電信電話株式会社 | 音響モデル作成装置、その方法及びプログラム |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8478711B2 (en) | 2011-02-18 | 2013-07-02 | Larus Technologies Corporation | System and method for data fusion with adaptive learning |
CN104064179B (zh) * | 2014-06-20 | 2018-06-08 | 哈尔滨工业大学深圳研究生院 | 一种基于动态hmm事件数的提高语音识别准确率的方法 |
CN104064183B (zh) * | 2014-06-20 | 2017-12-08 | 哈尔滨工业大学深圳研究生院 | 一种基于动态hmm观察符号数的提高语音识别准确率的方法 |
DE112016006218B4 (de) * | 2016-02-15 | 2022-02-10 | Mitsubishi Electric Corporation | Schallsignal-Verbesserungsvorrichtung |
US11256869B2 (en) * | 2018-09-06 | 2022-02-22 | Lg Electronics Inc. | Word vector correction method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
JP2545982B2 (ja) * | 1989-05-10 | 1996-10-23 | 日本電気株式会社 | パターン認識方法および標準パターン学習方法 |
JP2964507B2 (ja) * | 1989-12-12 | 1999-10-18 | 松下電器産業株式会社 | Hmm装置 |
US5696877A (en) * | 1990-05-10 | 1997-12-09 | Nec Corporation | Pattern recognition using a predictive neural network |
US5193142A (en) * | 1990-11-15 | 1993-03-09 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems |
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
-
1993
- 1993-01-13 JP JP5003647A patent/JPH0776880B2/ja not_active Expired - Fee Related
-
1994
- 1994-01-12 CA CA002113316A patent/CA2113316C/en not_active Expired - Fee Related
- 1994-01-13 EP EP94100445A patent/EP0606913B1/de not_active Expired - Lifetime
- 1994-01-13 DE DE69417273T patent/DE69417273T2/de not_active Expired - Fee Related
-
1997
- 1997-02-10 US US08/797,888 patent/US5920839A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2113316C (en) | 1999-11-02 |
EP0606913B1 (de) | 1999-03-24 |
US5920839A (en) | 1999-07-06 |
DE69417273D1 (de) | 1999-04-29 |
EP0606913A2 (de) | 1994-07-20 |
CA2113316A1 (en) | 1994-07-14 |
JPH0776880B2 (ja) | 1995-08-16 |
JPH06208392A (ja) | 1994-07-26 |
EP0606913A3 (de) | 1994-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69626344T2 (de) | Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE102007001025B4 (de) | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems | |
DE69417273T2 (de) | Verfahren und Vorrichtung zur Mustererkennung | |
EP2112568B1 (de) | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems | |
DE60204374T2 (de) | Spracherkennungsvorrichtung | |
DE19623033C1 (de) | Verfahren und Anordnung zur Mustererkennung auf statistischer Basis | |
EP3701433B1 (de) | Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes | |
WO2019206775A1 (de) | Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neurona-len netzes | |
DE69330021T2 (de) | Verbessertes System zur Mustererkennung für Sonar und andere Anwendungen | |
DE69223447T2 (de) | Lernverfahren für neuronales Netzwerk und Klassifizieranlage zum Anwenden dieses Verfahrens | |
DE69327997T2 (de) | Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür | |
DE69224778T2 (de) | Anpassungssystem mit dynamischer Programmierung zur Spracherkennung | |
DE69126983T2 (de) | Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung | |
DE2133638B2 (de) | Verfahren zum Betrieb eines lernfähigen Systems aus in Kaskade geschalteten, zur nicht linearen Datenverarbeitung geeigneten lernfähigen Datenverarbeitungseinheiten | |
DE69820497T2 (de) | Neuronales netzwerk und seine anwendung für die spracherkennung | |
DE69130387T2 (de) | Lernmaschine mit hierarchischer Struktur ohne wechselseitige Verbindungen innerhalb eines Schichtes | |
DE102019210507A1 (de) | Vorrichtung und computerimplementiertes Verfahren für die Verarbeitung digitaler Sensordaten und Trainingsverfahren dafür | |
EP3786853A1 (de) | Komprimieren eines tiefen neuronalen netzes | |
DE69514573T2 (de) | Vorrichtung zur Spracherkennung | |
EP3785178B1 (de) | Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes | |
DE69132761T2 (de) | Hochgeschwindigkeitserkennung einer Wortreihe verbunden mit einer Grammatik durch dynamische Programmiervergleiche | |
DE202019103924U1 (de) | Vorrichtung für die Verarbeitung digitaler Sensordaten | |
DE102018220608A1 (de) | Maschinelles Lernsystem, sowie ein Verfahren, ein Computerprogramm und eine Vorrichtung zum Erstellen des maschinellen Lernsystems | |
EP0703567B1 (de) | Verfahren und Einrichtung zur Bestimmung eines Masses der Übereinstimmung zwischen zwei Mustern sowie Spracherkennungseinrichtung damit und Programmmodul dafür |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |