DE69417273T2 - Verfahren und Vorrichtung zur Mustererkennung - Google Patents

Verfahren und Vorrichtung zur Mustererkennung

Info

Publication number
DE69417273T2
DE69417273T2 DE69417273T DE69417273T DE69417273T2 DE 69417273 T2 DE69417273 T2 DE 69417273T2 DE 69417273 T DE69417273 T DE 69417273T DE 69417273 T DE69417273 T DE 69417273T DE 69417273 T2 DE69417273 T2 DE 69417273T2
Authority
DE
Germany
Prior art keywords
vector
feature vector
reference pattern
word
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69417273T
Other languages
English (en)
Other versions
DE69417273D1 (de
Inventor
Ken-Ichi Iso
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69417273D1 publication Critical patent/DE69417273D1/de
Application granted granted Critical
Publication of DE69417273T2 publication Critical patent/DE69417273T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zum automatischen Erkennen eines Musters, das in dem zeitlichen Ablauf eines Merkmalvektors, z. B. eines Sprachsignals, gegeben ist.
  • Beschreibung der verwandten Technik
  • Für das Erkennen eines Zeitablaufmusters sind verschiedene Technologien in einem Mustererkennungssystem entwickelt worden. Eines der hiervon am besten begründeten und ein häufig genutztes Verfahren ist das "Hidden-Markow- Modell (HMM)". Das Prinzip des HMM wird nachstehend erörtert.
  • Unter der Annahme, daß ein Wortname durch eine Zahl w bezeichnet wird, kann das Ziel für die Erkennung eine Wortmenge sein, welche durch:
  • {w w = 1, 2, ... W} (1)
  • gegeben sein kann. Das Referenzmuster jedes Wortes kann durch eine Folge von Zuständen gegeben sein. Der n-te Zustand des Wortes w besitzt eine Vektor-Ausgabewahrscheinlichkeitsverteilung aus der
  • mehrdimensionalen Gaußschen Verteilung bwn(x), die bestimmt ist durch:
  • eine Menge aus dem Durchschnittsvektor uwn und der kovarianten Matrix Σwn, (uwn, Σwn) (2)
  • wobei P eine Dimension des Vektors x und des Durchschnittsvektors uwn ist und
  • (Σwn)&supmin;¹ die inverse Matrix der kovarianten Matrix aus P Zeilen und P Spalten ist.
  • Die Hochstellung bezeichnet die Transponierung. Dem Übergang in den jeweiligen Zustand sind Übergangswahrscheinlichkeiten zugeordnet. In Fig. 6 ist (falls die Anzahl der Zustände Nw ist) ein Beispiel eines Referenzmusters eines Wortes gezeigt. In Fig. 6 besitzt der n-te Zustand eine
  • (Übergangswahrscheinlichkeit = awn,n)
  • zu sich selbst und eine
  • (Übergangswahrscheinlichkeit = awn,n+)
  • zu dem benachbarten n+1-ten Zustand.
  • Eine Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w) des Referenzmusters des Wortes w für die Ausgabe der Merkmalvektor-Folge a&sub1;, ..., aT ist durch die folgende Gleichung definiert:
  • Hier stellen n&sub1;, ..., nT den Übergang des Zustandes dar, welcher sich zum Zeitpunkt t = 1 bei n&sub1; aufhält und zu einem Zeitpunkt t = T nT erreicht. In den vorangehenden Gleichungen stellen die Summenzeichen die Summen über alle möglichen Zustandsübergänge dar. Die Zustandsübergänge können an dem Gitter (treris) in Fig. 7 gezeigten treris erörtert werden. In Fig. 7 entspricht die waagerechte Achse dem Merkmalvektor, während die senkrechte Achse der Zustandsfolge (siehe Fig. 6) des Referenzmusters des Wortes entspricht. Der Zustandsübergang ist auf dem Weg (dicke Linie) in dem Gitter bezeichnet. n&sub1;, ..., nT drücken dieses auf dem Weg über die Gleichung aus. P(a&sub1;, ..., aT n&sub1;, ..., nT, w) in der Gleichung (4) ist eine Wahrscheinlichkeit, wann der Zustandsübergang festgestellt wird, während P(n&sub1;, ..., nT, w) eine Wahrscheinlichkeit des Auftretens des Zustandsüberganges ist. Diese Wahrscheinlichkeiten werden aus einer Vektor-Ausgabewahrscheinlichkeitsverteilung und einer Übergangswahrscheinlichkeit wie folgt berechnet:
  • Das wirksame Verfahren der Berechnung der Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w), das durch die Gleichung (4) gegeben ist, ist als "Vorwärtsrechnungsverfahren" bekannt gewesen. Das "Vorwärtsrechnungsverfahren" ist als "Vorwärtsalgorithmus" in einer Veröffentlichung "Speech Recognition by Probability Model", Seite 42, Algorithmus 3.2 erörtert worden. Im Ergebnis wird
  • eine akkumulierte Wahrscheinlichkeit awt (n)
  • für das Aufhalten in dem Zustand n zum Zeitpunkt t gemäß der folgenden Gleichung initialisiert:
  • Durch das fortschreitende Ausführen der Berechnung von einem Zeitpunkt 2 zu einem Zeitpunkt T gemäß der folgenden Gleichung:
  • kann die Wort-Ausgabewahrscheinlichkeit P(a&sub1;, ..., aT w) als
  • P(a&sub1;, ..., aT w) = awT (Nw) (9)
  • erhalten werden.
  • Das Viterbi-Berechnungsverfahren, in welchem eine Summe aus dem möglichen Gesamt-Zustandsübergang nach Maßgabe des Zustandsübergangs, der die maximale Wahrscheinlichkeit bereitstellt, angenähert wird, ist z. B. in der oben identifizierten Veröffentlichung auf Seite 46, Algorithmus 3.4, erörtert. In dem "Viterbi-Berechnungsverfahren" wird die folgende Gleichung anstelle der vorangehenden Gleichung (4) verwendet:
  • Durch Modifizieren der Berechnung für das Ableiten des maximalen Wertes der Summe in der Gleichung (8) in dem Vorwärtsrechnungsverfahren sind in diesem Fall die anderen die gleichen.
  • Durch Verwendung des "Vorwärtsrechnungsverfahrens" oder des "Viterbi-Berechnungsverfahrens" kann eine Wort-Ausgabewahrscheinlichkeit für das Ausgeben der Merkmalvektor- Folge des Eingangssignals gestützt auf das bekannte Referenzmuster des zu erkennenden Zielwortes berechnet werden. Dann kann die Erkennung durch Auswählen des Wortnamens ausgeführt werden, der als Ergebnis der Erkennung die maximale Wort-Ausgabewahrscheinlichkeit von allen besitzt.
  • In dem oben dargelegten HMM-Verfahren ist das Referenzmuster des Wortes als Zustandsfolge gegeben, die eine mehrdimensionale Gaußsche Verteilung besitzt. Wird nämlich angenommen, daß das Referenzmuster des Wortes w die Zustandsfolge von Nw Zuständen ist, wird der Eingang in Nw Abschnitte geteilt, so daß jeder Abschnitt durch eine Gaußsche Verteilung modelliert wird. Die Art dieser Modellierung ist in Fig. 8 erläutert. In Fig. 8 sind auf der waagerechten Achse der Zeitpunkt des Eingangssignals und auf der senkrechten Achse der Wert at des Merkmalvektors aufgetragen. Für die Dimension des Merkmalvektors wird hier zur Veranschaulichung eine einzige Dimension verwendet. uwn ist ein Durchschnittsvektor der Gaußschen Verteilung des Zustandes n. uwn+1 stellt den Durchschnittsvektor der Gaußschen Verteilung dar. In Fig. 8 ist durch Extraktion eines Zustandsüberganges, welcher sich von einem Zeitpunkt tn bis zu dem Zeitpunkt tn+1 in dem Zustand n und von dem Zeitpunkt tn+1 bis tn+2 in dem Zustand n + 1 aufhält, die Art der Anpassung des Referenzmusters und des Eingangssignals erläutert. Wie aus Fig. 8 hervorgeht, approximiert das HMM das Eingangssignal in den den jeweiligen Zuständen entsprechenden Abschnitten durch den Durchschnittswert und die Verteilung in der Umgebung. Zum Beispiel wird der sich gleichmäßig ändernde Teil des Eingangssignals von dem Zeitpunkt tn bis tn+1 durch einen konstanten Durchschnittswert uwn approximiert. Um ein Modell für sich dynamisch ändernde Signale, z. B. das Sprachsignal, anhand des flachen Mustersystems (Durchschnittsvektor) in dem Abschnitt zu errichten, sind sehr große Mengen von Abschnitten (Zuständen) erforderlich. Das Anwachsen der Anzahl der Zustände führt jedoch zu einem Anwachsen der Anzahl der Parameter (Durchschnittsvektoren der jeweiligen Zustände und die kovariante Matrix). Um darüber hinaus die Parameter mit einer zuverlässigen Genauigkeit abzuschätzen, wird eine sehr große Menge von Trainingsdaten notwendig.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe der Erfindung, ein Verfahren und ein System für das Erkennen eines Musters zu schaffen, das den Mangel in dem HMM-Verfahren verbessert, daß es eine sehr große Menge von Modell-Parametern erfordert, um ein Modell mit hoher Modellierungsgenauigkeit eines Signals in flachen Mustersystemen in Abschnitten zu erzeugen, wobei es folglich eine hohe Genauigkeit des Modellierens mit einer kleineren Anzahl von Parametern erlaubt, um ein preiswertes Hochleistungs-Mustererkennungssystem zu realisieren.
  • Um die obenerwähnte Aufgabe zu lösen, enthält ein Mustererkennungsverfahren gemäß einem Aspekt der Erfindung die folgenden Schritte:
  • Vorsehen einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines zu erkennenden Zielwortes enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
  • Ableiten eines Vorhersagevektors eines t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
  • Ableiten einer Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist;
  • Ableiten einer Wort-Ausgabewahrscheinlichkeit für das Referenzmuster des zu erkennenden Zielwortes, Ausgeben der Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten; und
  • Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter sämtlichen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
  • Die Länge des Referenzmusters mit der Länge Nw des zu erkennenden Zielwortes ist vorzugsweise die Folge aus Nw Wörtern und der Vorhersagevektor âwt (n) wird dann, wenn der n-te Zustand des Referenzmusters den Steuersignalvektor cwn besitzt, aus der Funktion f(·) von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors P ist und die Dimension des Steuersignalvektors Q ist, und unter Verwendung des (t-1)-ten Merkmalvektors at-1 zu âwt = f (at-1, cwn) abgeleitet.
  • Gemäß einem weiteren Aspekt der Erfindung enthält ein Mustererkennungssystem:
  • eine Referenzmuster-Speichereinrichtung zum Speichern einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines Zielwortes für die Erkennung enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
  • eine Vorhersagevektor-Ableitungseinrichtung zum Ableiten eines Vorhersagevektors des t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
  • einer Merkmalvektor-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist;
  • einer Wort-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer Wort-Ausgabewahrscheinlichkeit für das Referenzmuster des zu erkennenden Zielwortes, wobei die Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten ausgegeben wird; und
  • einer Erkennungsergebnis-Ausgabeeinrichtung zum Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter allen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
  • Das Mustererkennungssystem kann ferner enthalten eine Merkmal-Extraktionseinrichtung zum Umwandeln des Eingangssignals in eine Merkmalvektor-Folge; und eine Merkmalvektor-Speichereinrichtung zum Speichern des Merkmalvektors. Die vorhergesagte Vektor-Ableitungseinrichtung kann eine Operation ausführen, gemäß der dann, wenn die Länge des Referenzmusters der Länge Nw des zu erkennenden Zielwortes die Folge von Nw Wörtern ist und der n-te Zustand des Referenzmusters den Steuersignalvektor cwn besitzt, der Vorhersagevektor âwt (n) aus der Funktion f (·) von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors P ist und die Dimension des Steuersignalvektors Q ist, und unter Verwendung des (t-1)-ten Merkmalvektors at-1 als âwt = f(at-1, cwn) abgeleitet wird.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Die vorliegende Erfindung wird durch die folgende ausführliche Beschreibung und durch die beigefügte Zeichnung der zweckmäßigen Ausführung besser verständlich, welche jedoch nicht als die Erfindung einschränkend anzusehen ist, sondern lediglich der Erklärung und dem Verständnis dient.
  • In der Zeichnung ist:
  • Fig. 1 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
  • Fig. 2 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
  • Fig. 3 eine erläuternde Darstellung, die ein Prinzip des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung zeigt;
  • Fig. 4 ein Blockschaltbild, das eine Ausführung eines Mustererkennungssystems gemäß der vorliegenden Erfindung zeigt;
  • Fig. 5 ein Flußdiagramm, das einen Prozeß des Mustererkennungssystems nach Fig. 4 zeigt;
  • Fig. 6 eine Darstellung, die ein Beispiel eines Referenzmusters des Zustandsüberganges eines Wortes zeigt;
  • Fig. 7 eine Darstellung eines Gitters zur Erläuterung des Referenzmusters des Zustandsüberganges des Wortes; und
  • Fig. 8 eine Darstellung, die eine Art der Erzeugung eines Modells durch eine Gaußsche Verteilung für Nw Abschnitte in dem Fall zeigt, in dem das Referenzmuster des Wortes eine Folge von Nw Zuständen enthält.
  • BESCHREIBUNG DER ZWECKMÄßIGEN AUSFÜHRUNG
  • Die zweckmäßige Ausführung eines Verfahrens und eines Systems für das Erkennen eines Musters gemäß der vorliegenden Erfindung wird unter Bezugnahme auf die beigefügte Zeichnung ausführlich erörtert.
  • Das Merkmal des Mustererkennungsverfahrens gemäß der vorliegenden Erfindung ist, daß ein Durchschnittsvektor einer mehrdimensionalen Gaußschen Verteilung bei jedem Zustand des Referenzmusters in dem obenerwähnten HMM- Verfahren nicht als eine Konstante angenommen wird und ein vorhergesagter Vektor verwendet wird, der durch einen Prädiktor anhand eines Merkmalvektors eines Eingangssignals in einer vorangegangenen Periode berechnet wird, so daß das sich dynamisch ändernde Eingangssignal, z. B. ein Sprachsignal, mit einer kleineren Menge von Parametern effektiv dargestellt werden kann.
  • In dem Fall des HMM-Verfahrens ist die Länge des Referenzmusters mit der Länge Nw des Wortes w eine Folge von Nw Zuständen. Der n-te Zustand enthält eine mehrdimensionale Gaußsche Verteilung bwn (X), die durch:
  • eine Kombination aus einem Durchschnittsvektor uwn und der kovarianten Matrix Σwn, (uwn, Σwn) (12)
  • als Vektor-Ausgabewahrscheinlichkeitsverteilung bestimmt ist:
  • Im Fall der vorliegenden Erfindung ist die Länge des Referenzmusters mit der Länge Nw des Wortes w eine Folge von Nw Zuständen. Der n-te Zustand enthält
  • eine Kombination aus einem Steuersignalvektor cwn und einer kovarianten Matrix Σwn, (cwn, Σwn)
  • Die Vektor-Ausgabewahrscheinlichkeit, daß der n-te Zustand den t-ten Merkmalvektor des Eingangssignals ausgibt, kann aus der folgenden mehrdimensionalen Gaußschen Verteilung berechnet werden.
  • Unter Verwendung dieser Vektor-Ausgabewahrscheinlichkeitsverteilung wird die Wort-Ausgabewahrscheinlichkeit aus der vorangehenden Gleichung (4) berechnet.
  • Hier ist im Unterschied zu dem herkömmlichen HMM-Verfahren der Durchschnittsvektor der Gaußschen Verteilung uwn keine Konstante, sondern ein Vorhersagevektor âwt (n). Der keine Konstante, sondern ein Vorhersagevektor âwt (n). Der Vorhersagevektor wird durch einen Prädiktor f(·) unter Verwendung des Steuervektors cwn berechnet, der den n-ten Zustand und den (t-1)-ten Merkmalvektor at-1 des Eingangssignals besitzt.
  • âwt(n) = f (at-1, cwn) (15)
  • Hier ist die Funktion f eine Funktion von der Dimension P + Q in die Dimension P unter der Annahme, daß die Dimension des Merkmalvektors die Dimension P ist und die Dimension des Steuervektors die Dimension Q ist. Die Funktion f(·) kann als ein Prädiktor betrachtet werden, der den Merkmalvektor zu einem Zeitpunkt t aus dem Merkmalvektor zu einem Zeitpunkt t-1 vorhersagt. Die Art dieser Vorhersage wird unter Bezugnahme auf Fig. 1 erörtert. Fig. 1 erläutert graphisch die Anpassung der Merkmalvektor-Folge a&sub1;, ..., at, ..., aT des Eingangssignals der Länge T und der Länge von Nw des Referenzmusters, welches dem Gitter (Fig. 7) des HMM-Verfahrens entspricht. Hier wird am Gitterpunkt (t, n) des Gitters, der durch den Zeitpunkt t des Eingangssignals und den Zustand n des Referenzmusters bezeichnet ist, der Vorhersagevektor âwt (n) als Durchschnittsvektor der mehrdimensionalen Gaußschen Verteilung unter Verwendung des Prädiktors f(·) berechnet, um die Vektor-Ausgabewahrscheinlichkeit bwn(at) zu berechnen. Wie aus der Zeichnung hervorgeht, werden der Steuersignalvektor cwn, der den n-ten Zustand besitzt, und der Merkmalvektor at-1 des Eingangssignals in einer vorangegangenen Periode für die Berechnung des Vorhersagevektors verwendet.
  • Wie erläutert worden ist, ist gemäß der vorliegenden Erfindung der Durchschnittsvektor uwn der Gaußschen Verteilung des n-ten Zustandes durch den Vorhersagevektor âwt (n), welcher von Zeitpunkt zu Zeitpunkt von dem Ein gangssignal abhängt, ersetzt. Deshalb kann das Problem gelöst werden, das durch das Ausdrücken der dynamischen Veränderung des Eingangssignals durch den Durchschnittsvektor verursacht wird, wie in dem HMM-Verfahren gezeigt worden ist, wobei folglich die Anpassung des Referenzmusters an die Eingangssprache unter Verwendung des Durchschnittsvektors, welcher sich dynamisch ändert und dem Eingangssignal folgt, mit hoher Genauigkeit geschaffen werden kann. Die Art wird in Fig. 2 für den Vergleich mit der in Fig. 8 erläutert. Wie aus dem Vergleich dieser Figuren ebenfalls deutlich hervorgeht, ist die vorliegende Erfindung dem Stand der Technik hinsichtlich der Genauigkeit der Parameter überlegen.
  • Als nächstes wird der in der vorliegenden Erfindung verwendete Prädiktor f(·) diskutiert. Der Prädiktor, der x und z als Vektoren in der Dimension P und y als einen Vektor in der Dimension Q verwendet, ist durch:
  • z = f (x, y) (16)
  • gegeben. Verschiedene Funktionen können als Funktionen von der Dimension P + Q in die Dimension P betrachtet werden.
  • Als lineare Funktion kann eine Matrix verwendet werden.
  • Hier stellen zi, xi und yi die Komponenten des Vektors dar. Der Prädiktor ist durch eine Matrix Fij aus P Zeilen und P Spalten, eine Matrix Gib aus P Zeilen und Q Spalten und einem Vektor Hi in der Dimension P gegeben. Die Anzahl der Parameter in dem Prädiktor ist P(P + Q + 1).
  • Als nichtlineare Funktion besitzt ein hierarchisches neuronales Netz P + Q Eingabeeinheiten und P Ausgabeeinheiten. Das hierarchische neuronale Netz ist in Hideki Aso, "Neural Network Information Processing", Sangyo Tosho, ausführlich erörtert worden. Die Konstruktion in dem Fall, in dem ein 3-Schichten-Netz mit H verborgenen Einheiten verwendet wird, ist in Fig. 3 gezeigt. Die Parameter des Prädiktors sind (P + Q)H Kopplungskoeffizienten von der Eingangsschicht zur verborgenen Schicht, H Schwellenwerte der verborgenen Schicht, HP Kopplungskoeffizienten von der verborgenen Schicht zu der Ausgangsschicht und P Schwellenwerte der Ausgangsschicht.
  • Der in der vorliegenden Erfindung verwendete Prädiktor ist als die oben dargelegte Funktion verwirklicht. Der gleiche Prädiktor ist auf alle Zustände der Referenzmuster von allen möglichen zu erkennenden Zielwörtern anwendbar. In jedem Zustand des Referenzmusters von jedem zu erkennenden Zielwort werden von dem gleichen Merkmalvektor at-1 abhängig von dem Wort oder Zustand verschiedene Vorhersagevektoren (Durchschnittsvektoren) âwt ausgegeben, weil der Prädiktor wechselseitig verschiedene Steuersignale verwendet.
  • Fig. 4 zeigt eine Ausführung des Mustererkennungssystems, für das das Mustererkennungsverfahren der vorliegenden Erfindung verwendet wird. Ein Sprachsignaleingang von einem Mikrophon 10 wird durch einen analysierenden Teil 20 abgetastet und modelliert und in einen Mikroprozessor 30 eingegeben, mit Transformation in den Merkmalvektor at durch eine schnelle Fourier-Transformation oder dergleichen. An den Mikroprozessor 30 sind ein Referenzmuster- Speicherteil 40, ein Prädiktorparameter-Speicherteil 50, ein Merkmalvektor-Speicherteil 60 und ein Arbeitsspeicher 70 als Speicher angeschlossen.
  • In dem Referenzmuster-Speicherteil 40 sind eine Folge (n = 1, ..., Nw) des Steuersignalvektors cwn und die kovariante Matrix Σwn und eine Übergangswahrscheinlichkeit awm,n (m, n = 1, ..., Nw) als Parameter des Referenzmusters jedes Wortes w gespeichert. In dem Prädiktorparameter-Speicherteil 50 sind die Parameter des Prädiktors gespeichert (wenn der lineare Prädiktor als Prädiktor verwendet wird, lauten die Parameter Fij, Gi, Hi). Der Merkmalvektor- Speicherteil 60 erhält den Merkmalvektor at-1 der einen vorangegangenen Periode aufrecht. Der Arbeitsspeicher ist ein Arbeitsbereich für das vorübergehende Speichern der Vektor-Ausgabewahrscheinlichkeit und der akkumulierten Wahrscheinlichkeit aufgrund der Berechnung der Wort- Ausgabewahrscheinlichkeit gemäß dem Referenzmuster jedes zu erkennenden Zielwortes. Dieser Referenzmuster-Speicherteil 40, der Prädiktormuster-Speicherteil 50, der Merkmalvektor-Speicherteil 60 und der Arbeitsspeicher 70 können in einem getrennten Speicherbereich in einem Hauptspeicher des Mikroprozessors definiert sein.
  • Der Erkennungsprozeß wird durch ein Programm durch den Mikroprozessor 30 ausgeführt. Für den führenden Merkmalvektor a&sub1; des Eingangssignals wird die folgende Initialisierung für jeden Zustand jedes Zielwortes ausgeführt (w = 1, ..., W, ... n = 1, ..., Nw, worin Nw die Anzahl der Zustände des Referenzmusters des Wortes w ist).
  • Das entspricht dem Anfangszustand der Gleichung (7) des Vorwärtsrechnungsverfahrens (oder des Viterbi-Berechnungsverfahrens). Der Merkmalvektor at ist ebenfalls in dem Merkmal-Speicherteil 60 gespeichert.
  • Anschließend wird der Prozeß, der in dem Ablaufplan nach Fig. 5 gezeigt ist, durch den Mikroprozessor 30 bei jedem Auftreten der Eingabe des Merkmalvektors des Eingangssignals ausgeführt. In der Zeichnung ist 101 der Block für die Berechnung des vorhergesagten Vektors durch die Gleichung (15) aus dem Merkmalvektor at-1 von einer vorangegangenen Periode und dem Steuersignalvektor cwn, der in dem Referenzmuster-Speicherteil 40 gespeichert ist. Wird der vorhergesagte Vektor als der Durchschnittsvektor genommen, wird die Vektor-Ausgabewahrscheinlichkeit bwn(at) gemäß der Gleichung (14) in dem Block 102 berechnet und dann als eine Variable b in dem Arbeitsspeicher gespeichert. In dem Block 103 wird die akkumulierte Wahrscheinlichkeit aw (n) im Block 103 mit der aus dem Referenzmuster-Speicherteil ausgelesenen Übergangswahrscheinlichkeit awt multipliziert und dann in dem Arbeitsspeicher 70 als Variable P gespeichert. Im Block 104 wird die aus dem Arbeitsspeicher ausgelesene akkumulierte Wahrscheinlichkeit awt-1(n - 1) mit der aus dem Referenzmuster-Speicherteil ausgelesenen Übergangswahrscheinlichkeit awn-1,n multipliziert. Dieser Prozeß vom Block 103 zum Block 104 entspricht dem Prozeß gemäß Gleichung (8).
  • Sobald der obenerwähnte Prozeß abgeschlossen ist, wird der Zeitpunkt des Eingangssignals um eine Periode erhöht. Dann wird der gleiche Prozeß als Antwort auf einen weiteren Merkmalvektor at ausgeführt. Nach dem Ende des Eingangssignals und nachdem der abschließende Merkmalvektor verarbeitet worden ist, führt der Mikroprozessor 30 intern die nachfolgende Verarbeitung aus. Die akkumulierte Wahrscheinlichkeit aw (Nw) jedes in dem Arbeitsspeicher 70 gespeicherten Wortes schafft die Wort- Ausgabewahrscheinlichkeit des Referenzmusters jedes Worts, das das Eingangssignal ausgibt. Durch das fortschreitende Vergleichen dieser wird der maximale Wert abgeleitet, um dazu entsprechend w = als Ergebnis der Erkennung auszugeben.
  • Wie oben dargelegt wurde, kann das preiswerte Hochleistungs-Mustererkennungssystem durch Modifizieren des Vorhersagevektors durch den Prädiktor von Zeitpunkt zu Zeitpunkt abhängig vom Eingangssignal anstelle des Verwendens des Durchschnittsvektors der Gaußschen Verteilung des HMM-Verfahrens durch Erzeugen von Modellen der Signale bei höherer Genauigkeit mit einer kleineren Anzahl von Zuständen und einer kleineren Anzahl von Parametern realisiert werden.
  • Obwohl die Erfindung unter Bezugnahme auf eine ihrer beispielhaften Ausführungen erläutert und beschrieben worden ist, können Fachleute selbstverständlich die vorangehenden und verschiedene andere Änderungen, Auslassungen und Hinzufügungen vornehmen, ohne von dem Umfang der vorliegenden Erfindung abzuweichen. Daher soll die vorliegende Erfindung nicht als auf die oben angegebene spezifische Ausführung eingeschränkt verstanden werden, sondern alle möglichen Ausführungen umfassen, die innerhalb des gegebenen Umfangs ausgeführt werden können.

Claims (5)

1. Mustererkennungsverfahren, das die folgenden Schritte aufweist:
Vorsehen einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines zu erkennenden Zielwortes enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
Ableiten eines Vorhersagevektors eines t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
Ableiten einer Merkmalvektor-Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n- ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist,
Ableiten einer Wort-Ausgabewahrscheinlichkeit für das Referenzmuster des zu erkennenden Zielwortes, Ausgeben der Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten; und
Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter sämtlichen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
2. Mustererkennungsverfahren nach Anspruch 1, bei dem die Länge des Referenzmusters mit der Länge Nw des zu erkennenden Zielwortes die Folge aus Nw Wörtern ist und der Vorhersagevektor âwt (n) dann, wenn der n-te Zustand des Referenzmusters den Steuersignalvektor cwn enthält, aus der Funktion f(·) von der Dimension P + Q in die Dimension P abgeleitet wird als âwt = f(at-1, cwn), und zwar unter der Annahme, daß die Dimension des Merkmalvektors P ist und daß die Dimension des Steuersignalvektors Q ist sowie unter Verwendung des (t-1)-ten Merkmalvektors at-1.
3. Mustererkennungssystem, mit:
einer Referenzmuster-Speichereinrichtung (40) zum Speichern einer Menge aus einem Steuersignalvektor und einer kovarianten Matrix, die jeweilige Zustände eines Referenzmusters eines Zielwortes für die Erkennung enthalten, wobei das Referenzmuster durch mehrere Zustände und Übergänge zwischen den Zuständen sowie durch Übergangswahrscheinlichkeiten zwischen jeweiligen Zuständen gegeben ist;
eine Vorhersagevektor-Ableitungseinrichtung zum Ableiten eines Vorhersagevektors des t-ten Merkmalvektors anhand des (t-1)-ten Merkmalvektors und des Steuersignalvektors;
einer Merkmalvektor-Ausgabewahrscheinlichkeit- Ableitungseinrichtung zum Ableiten einer Merkmalvektor- Ausgabewahrscheinlichkeit für die Ausgabe des t-ten Merkmalvektors im n-ten Zustand des Referenzmusters des zu erkennenden Zielwortes aus einer mehrdimensionalen Gaußschen Verteilung, die durch den Vorhersagevektor und die kovariante Matrix unter Verwendung des Vorhersagevektors als Durchschnittsvektor bestimmt ist;
einer Wort-Ausgabewahrscheinlichkeit-Ableitungseinrichtung zum Ableiten einer Wort-Ausgabewahrschein lichkeit für das Referenzmuster des zu erkennenden Zielwortes, wobei die Merkmalvektor-Folge des Eingangssignals unter Verwendung der Merkmalvektor-Ausgabewahrscheinlichkeit und der in den jeweiligen Zuständen des Referenzmusters enthaltenen Übergangswahrscheinlichkeiten ausgegeben wird; und
einer Erkennungsergebnis-Ausgabeeinrichtung zum Ausgeben einer der Wort-Ausgabewahrscheinlichkeiten mit der maximalen Wahrscheinlichkeit als Ergebnis der Erkennung des Wortes unter allen Wort-Ausgabewahrscheinlichkeiten, die für das zu erkennende Zielwort abgeleitet wurden.
4. Mustererkennungssystem nach Anspruch 3, das ferner eine Merkmal-Extraktionseinrichtung zum Umwandeln des Eingangssignals in eine Merkmalvektor-Folge; und
eine Merkmalvektor-Speichereinrichtung (60) zum Speichern des Merkmalvektors aufweist.
5. Mustererkennungsverfahren nach Anspruch 1, bei dem die Ableitung des Vorhersagevektors eine Operation ausführt, gemäß der dann, wenn die Länge des Referenzmusters der Länge Nw des zu erkennenden Zielwortes die Folge von Nw Wörtern ist und wenn der n-te Zustand des Referenzmusters den Steuersignalvektor cwn enthält, der Vorhersagevektor âwt (n) aus der Funktion f(·) von der Dimension P + Q in die Dimension P als âwt = f(at-1, cwn) abgeleitet wird, und zwar unter der Annahme, daß die Dimension des Merkmalvektors P ist und daß die Dimension des Steuersignalvektors Q ist sowie unter Verwendung des (t-1)-ten Merkmalvektors at-1.
DE69417273T 1993-01-13 1994-01-13 Verfahren und Vorrichtung zur Mustererkennung Expired - Fee Related DE69417273T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5003647A JPH0776880B2 (ja) 1993-01-13 1993-01-13 パターン認識方法および装置

Publications (2)

Publication Number Publication Date
DE69417273D1 DE69417273D1 (de) 1999-04-29
DE69417273T2 true DE69417273T2 (de) 1999-12-09

Family

ID=11563277

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69417273T Expired - Fee Related DE69417273T2 (de) 1993-01-13 1994-01-13 Verfahren und Vorrichtung zur Mustererkennung

Country Status (5)

Country Link
US (1) US5920839A (de)
EP (1) EP0606913B1 (de)
JP (1) JPH0776880B2 (de)
CA (1) CA2113316C (de)
DE (1) DE69417273T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL122258A (en) * 1997-11-20 2002-08-14 Israel Aircraft Ind Ltd Method and system for determining temperature and/or emissivity function of objects by remote sensing
US6772152B2 (en) * 2001-03-22 2004-08-03 International Business Machines Corporation System and method for mining patterns from a dataset
US6691110B2 (en) 2001-03-22 2004-02-10 International Business Machines Corporation System and method for discovering patterns with noise
JP5200712B2 (ja) 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
JP5089655B2 (ja) * 2009-06-22 2012-12-05 日本電信電話株式会社 音響モデル作成装置、その方法及びプログラム
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8478711B2 (en) 2011-02-18 2013-07-02 Larus Technologies Corporation System and method for data fusion with adaptive learning
CN104064179B (zh) * 2014-06-20 2018-06-08 哈尔滨工业大学深圳研究生院 一种基于动态hmm事件数的提高语音识别准确率的方法
CN104064183B (zh) * 2014-06-20 2017-12-08 哈尔滨工业大学深圳研究生院 一种基于动态hmm观察符号数的提高语音识别准确率的方法
DE112016006218B4 (de) * 2016-02-15 2022-02-10 Mitsubishi Electric Corporation Schallsignal-Verbesserungsvorrichtung
US11256869B2 (en) * 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
JP2545982B2 (ja) * 1989-05-10 1996-10-23 日本電気株式会社 パターン認識方法および標準パターン学習方法
JP2964507B2 (ja) * 1989-12-12 1999-10-18 松下電器産業株式会社 Hmm装置
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition

Also Published As

Publication number Publication date
CA2113316C (en) 1999-11-02
EP0606913B1 (de) 1999-03-24
US5920839A (en) 1999-07-06
DE69417273D1 (de) 1999-04-29
EP0606913A2 (de) 1994-07-20
CA2113316A1 (en) 1994-07-14
JPH0776880B2 (ja) 1995-08-16
JPH06208392A (ja) 1994-07-26
EP0606913A3 (de) 1994-12-28

Similar Documents

Publication Publication Date Title
DE69626344T2 (de) Ein hierarchisch strukturiertes Wörterbuch verwendender Spracherkenner
DE69127961T2 (de) Verfahren zur Spracherkennung
DE102007001025B4 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE69417273T2 (de) Verfahren und Vorrichtung zur Mustererkennung
EP2112568B1 (de) Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE60204374T2 (de) Spracherkennungsvorrichtung
DE19623033C1 (de) Verfahren und Anordnung zur Mustererkennung auf statistischer Basis
EP3701433B1 (de) Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes
WO2019206775A1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neurona-len netzes
DE69330021T2 (de) Verbessertes System zur Mustererkennung für Sonar und andere Anwendungen
DE69223447T2 (de) Lernverfahren für neuronales Netzwerk und Klassifizieranlage zum Anwenden dieses Verfahrens
DE69327997T2 (de) Gerät zur spracherkennung mit neuronalem netzwerk und lernverfahren dafür
DE69224778T2 (de) Anpassungssystem mit dynamischer Programmierung zur Spracherkennung
DE69126983T2 (de) Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung
DE2133638B2 (de) Verfahren zum Betrieb eines lernfähigen Systems aus in Kaskade geschalteten, zur nicht linearen Datenverarbeitung geeigneten lernfähigen Datenverarbeitungseinheiten
DE69820497T2 (de) Neuronales netzwerk und seine anwendung für die spracherkennung
DE69130387T2 (de) Lernmaschine mit hierarchischer Struktur ohne wechselseitige Verbindungen innerhalb eines Schichtes
DE102019210507A1 (de) Vorrichtung und computerimplementiertes Verfahren für die Verarbeitung digitaler Sensordaten und Trainingsverfahren dafür
EP3786853A1 (de) Komprimieren eines tiefen neuronalen netzes
DE69514573T2 (de) Vorrichtung zur Spracherkennung
EP3785178B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE69132761T2 (de) Hochgeschwindigkeitserkennung einer Wortreihe verbunden mit einer Grammatik durch dynamische Programmiervergleiche
DE202019103924U1 (de) Vorrichtung für die Verarbeitung digitaler Sensordaten
DE102018220608A1 (de) Maschinelles Lernsystem, sowie ein Verfahren, ein Computerprogramm und eine Vorrichtung zum Erstellen des maschinellen Lernsystems
EP0703567B1 (de) Verfahren und Einrichtung zur Bestimmung eines Masses der Übereinstimmung zwischen zwei Mustern sowie Spracherkennungseinrichtung damit und Programmmodul dafür

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee