DE69924769T2 - Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen - Google Patents

Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen Download PDF

Info

Publication number
DE69924769T2
DE69924769T2 DE69924769T DE69924769T DE69924769T2 DE 69924769 T2 DE69924769 T2 DE 69924769T2 DE 69924769 T DE69924769 T DE 69924769T DE 69924769 T DE69924769 T DE 69924769T DE 69924769 T2 DE69924769 T2 DE 69924769T2
Authority
DE
Germany
Prior art keywords
pattern
standard patterns
input
matrix
pattern recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69924769T
Other languages
English (en)
Other versions
DE69924769D1 (de
Inventor
Ikuo Kawagoe-shi Fujita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Publication of DE69924769D1 publication Critical patent/DE69924769D1/de
Application granted granted Critical
Publication of DE69924769T2 publication Critical patent/DE69924769T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Description

  • Die vorliegende Erfindung betrifft eine Mustererkennungsvorrichtung, wie zum Beispiel eine Spracherkennungsvorrichtung, und insbesondere eine Mustererkennungsvorrichtung zum Durchführen einer Berechnung, um ein Muster durch Ausdrücken einer Verteilung des erkannten Musters mit einer mehrdimensionalen Normalverteilung zu erkennen.
  • Es gibt ein Mustererkennungsverfahren für unterschiedliche Information, welche von einem Menschen wahrnehmbar ist, durch die Verwendung eines Computers. Insbesondere ist eine Spracherkennung für die Erkennung einer von einem Menschen ausgesprochenen Sprache und das Verständnis des Inhalts von dessen Sprache als eine elementare Technik einer Mensch/Maschine-Schnittstelle wichtig.
  • Im Falle einer Durchführung einer derartigen von der Spracherkennung dargestellten Mustererkennung unter Verwendung eines Computers ist ein Mustererkennungsverfahren bekannt, auf welches ein Wahrscheinlichkeitsmodell als eine statistische Eigenschaft einer Informationsquelle angewendet wird. Beispielsweise ist das verborgene Markov Modell (HMM), welches einen Übergang des Zustandes aufgrund einer Zeitfolge eines Sprachmusters unter Verwendung einer Wahrscheinlichkeit ausdrückt, repräsentativ. In diesem Verfahrenstyp wird ein zum Erkennen des Musters erforderlicher charakteristischer Vektor aus der Informationsquelle extrahiert, und der extrahierte charakteristische Vektor mit einem modellierten Standardmuster auf der Basis einer Wahrscheinlichkeitsberechnung verglichen, um so das Muster zu erkennen. Die Wahrscheinlichkeitsverteilung dieses Standardmusters wird durch eine mehrdimensionale Normalverteilung ausgedrückt, und wird durch einen Durchschnittsvektor und eine Kovarianzmatrix beschrieben. Hier wird in einem Falle, dass die Dimensionszahl des charakteristischen Vektors N ist, die Kovarianzmatrix zu einer N × M Matrix. Somit ist in diesem Falle ein Berechnungsaufwand der Wahrscheinlichkeitsberechnung proportional zu dem Quadrat der Dimensionszahl N erforderlich. Ferner nimmt im Falle, dass die Gesamtanzahl der Standardmuster M ist, dieser Berechnungsaufwand proportional zu der Gesamtzahl M zu.
  • Es kann jedoch erforderlich sein, die Dimensionszahl N des charakteristischen Vektors zu erhöhen, um beispielsweise einen Codierungsprozess zu bewältigen, und es kann auch erforderlich sein, die Gesamtanzahl M der Standardmuster zu erhöhen, um einen feineren Erkennungsprozess durchzuführen. Wie es vorstehend erläutert wurde, kann, da der Berechnungsaufwand proportional zu dem Quadrat der Dimensionszahl N und der Gesamtanzahl M der Standardmuster in der Wahrscheinlichkeitsberechnung ansteigt, ein enormer Berechnungsaufwand in einem Falle erforderlich sein, dass die Werte dieser N und M erhöht sind. Ferner kann der Speicherbedarf entsprechend dem Berechnungsaufwand ebenfalls in selbem Maße erhöht sein.
  • Andererseits sollten im Falle einer Durchführung des Erkennungsprozesses in der Spracherkennungsvorrichtung und so weiter, da sie in oft in Echtzeit durchgeführt wird, um die Zunahme des Berechnungsaufwandes und des Speicherbedarfs zu beherrschen, eine CPU (Central Processing Unit) mit einer hohen Verarbeitungsrate, ein Speicher mit einer hohen Speicherkapazität und so weiter, welche ziemlich teuere Teile sind verwendet werden, was zu einer deutlichen Zunahme der Kosten der Vorrichtung führt. Es liegt hier nämlich ein Problem vor, dass es schwierig ist, eine Mustererkennungsvorrichtung mit relativ niedrigen Kosten zu realisieren, während gleichzeitig eine bestimmte Qualität durch die Verwendung des Wahrscheinlichkeitsmodells erhalten bleibt.
  • Unified techniques for vector quantisation and hidden Markov modelling using semicontinuous models, ICASSP 1989 Glasgow, Mai 1989, Volume 1, pages 639 to 642 offenbart ein Mustererkennungsverfahren, das ein Wahrscheinlichkeitsmodell verwendet, in welchem jedes von einer Vielzahl von Standardmustern als eine durch ein Durchschnittsvektor definierte Wahrscheinlichkeitsverteilung ausgedrückt wird.
  • Das Dokument "On text independent speaker identification using and quadratic classifier with optimal features, Cohen A. und Froind I., Speech Communication 8, 1989, pages 35–44 offenbart ein Sprecheridentifikationssystem, welches die Durchschnittsmatrix der Kovarianzmatrix aller Standardmuster in dem Wahrscheinlichkeitsmodell verwendet.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung eine Mustererkennungsvorrichtung und ein Verfahren sowie eine Programmspeichervorrichtung für eine Mustererken nung bereitzustellen, welche den erforderlichen Berechnungsaufwand und den erforderlichen Speicherbedarf für die Wahrscheinlichkeitsberechnung reduzieren können, während gleichzeitig die Erkennungsfähigkeit auf einem relativ hohem Wert erhalten bleibt.
  • Gemäss der vorliegenden Erfindung wird ein Musterkennungsverfahren zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells bereitgestellt, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, wobei das Mustererkennungsverfahren die Schritte umfasst:
    Klassifizieren der Standardmuster in eine vorbestimmte Anzahl von Klassen;
    für jede von den Klassen, Berechnen einer Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse;
    Extrahieren eines charakteristischen Vektors, welcher ein charakteristisches Merkmal des Eingabemusters darstellt;
    Durchführen eines Vergleichs auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Standardmustern unter Verwendung der Durchschnittsmatrix der Klasse, zu welcher das jeweilige Muster gehört, als die Kovarianzmatrix für das jeweilige von den Standardmustern; und
    Erkennen des Eingabemusters auf der Basis eines Ergebnisses des durchgeführten Vergleichs.
  • Gemäss der vorliegenden Erfindung wird auch eine Musterkennungsvorrichtung zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells bereitgestellt, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, wobei die Mustererkennungsvorrichtung umfasst:
    eine Klassifizierungseinrichtung, um, im Einsatz, die Standardmuster in eine vorbestimmte Anzahl von Klassen zu klassifizieren;
    eine Berechnungseinrichtung, um, im Einsatz, für jede von den Klassen eine Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse zu berechnen;
    eine Extraktionseinrichtung, um, im Einsatz, einen charakteristischen Vektor zu extrahieren, welcher ein charakteristisches Merkmal des Eingabemusters darstellt;
    eine Vergleichsdurchführungseinrichtung, die dafür eingerichtet ist, im Einsatz, einen Vergleich auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Standardmustern unter Verwendung der Durchschnittsmatrix der Klasse durchzuführen, zu welcher das jeweilige Muster als die Kovarianzmatrix für das jeweilige von den Standardmustern gehört; und
    eine Erkennungseinrichtung, um, im Einsatz, das Eingabemuster auf der Basis eines Ergebnisses des durchgeführten Vergleichs zu erkennen.
  • Gemäss der vorliegenden Erfindung wird auch eine durch einen Computer für Mustererkennung lesbare Programmspeichereinrichtung bereitgestellt, die berührbar ein Programm von durch den Computer ausführbaren Anweisungen verkörpert, um Verfahrensprozesse zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, durchzuführen, wobei die Verfahrensprozesse die Schritte umfassen:
    Klassifizieren der Standardmuster in eine vorbestimmte Anzahl von Klassen;
    für jede von den Klassen, Berechnen einer Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse;
    Extrahieren eines charakteristischen Vektors, welcher ein charakteristisches Merkmal des Eingabemusters darstellt;
    Durchführen eines Vergleichs auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Standardmustern unter Verwendung der Durchschnittsmatrix der Klasse, zu welcher das jeweilige Muster gehört, als die Kovarianzmatrix für das jeweilige von den Standardmustern; und
    Erkennen des Eingabemusters auf der Basis eines Ergebnisses des durchgeführten Vergleichs.
  • Die Art, der Nutzen und weitere Merkmale dieser Erfindung werden deutlicher aus der nachfolgenden detaillierten Beschreibung im Hinblick auf bevorzugte Ausführungsformen der Erfindung ersichtlich, wenn diese in Verbindung mit den nachstehend kurz beschriebenen Zeichnungen gelesen wird.
  • In den Zeichnungen ist:
  • 1 eine Darstellung, die ein Konzept des in einer Ausführung der vorliegenden Erfindung verwendeten HMM (Hidden Markov Modell) darstellt;
  • 2A eine grafische Darstellung, welche das HMM des diskreten Verteilungstyps darstellt;
  • 2B eine grafische Darstellung, welche das HMM des kontinuierlichen Verteilungstyps darstellt;
  • 3 eine Blockdarstellung einer Spracherkennungsvorrichtung als Ausführungsform; und
  • 4 eine Vorderansicht der Spracherkennungsvorrichtung.
  • Unter Bezugnahme auf die beigefügten Zeichnungen wird eine Ausführungsform der vorliegenden Erfindung nun erläutert. In der nachstehend beschriebenen Ausführungsform wird die vorliegende Erfindung auf eine Spracherkennungsvorrichtung angewendet.
  • Zuerst wird eine Spracherkennung mittels des in der Ausführungsform verwendeten HMM unter Bezugnahme auf 1 bis 2B erläutert.
  • Das HMM ist eine Art des Markov Modells, das dadurch gekennzeichnet ist, dass es eine Vielzahl von Zuständen besitzt, welche miteinander über eine Zustandsübergangswahrscheinlichkeit in Beziehung stehen, und dass es eine vorbestimmte Symbolfolge ausgibt, wenn ein Zustand in einen anderen Zustand übergeht. In einer Spracherkennung kann das Markomodell des Links/Rechts-Typs verwendet werden, in welchem die Zeit nicht rückwärts verläuft.
  • In der Spracherkennungsvorrichtung mittels des HMM, werden die HMMs für alle Worte als Objekte für die Erkennung erzeugt und in einem Wörterbuch gespeichert. Somit werden während der Spracherkennung die HMMs eines nach dem anderen aus dem Wörterbuch ausgelesen und eine Wahrscheinlichkeit (d.h., eine Mutmasslichkeit) der Ausgabe der beobachteten Symbolfolge, welche dieselbe wie die der Eingabesprache ist, für jedes von dem HMMs berechnet. Das Wort, welches dem HMM entspricht, das die größte Wahrscheinlichkeit unter diesen ausgegebenen ergibt, wird als das Erkennungsergebnis ausgegeben.
  • 1 stellt ein Beispiel des HMM dar. Dieses HMM ist ein Beispiel eines Modells, welches in der Lage ist, zwei Symbole a und b auszugeben und welches drei Zustände S1 bis S3 als interne Zustände besitzt. Der Zustand beginnt mit dem Zustand S1 und endet bei dem Zustand S3. Die Zustände S1 bis S3 verbindende Pfeile stellen jeweils Zustandsübergänge dar. Neben jede Pfeillinie geschriebene Markierungen aij stellen jeweils Zugangsübergangswahrscheinlichkeiten dar, und Markierungen cij stellen jeweils den Markierungen aij entsprechende Symbolausgabewahrscheinlichkeiten dar. Ein oberes Element in ⌷ der Symbolausgabewahrscheinlichkeit stellt die Ausgabewahrscheinlichkeit des Symbols a dar, und ein unteres Element in ⌷ der Symbolausgabewahrscheinlichkeit stellt eine Ausgabewahrscheinlichkeit des Symbols b dar.
  • Nun wird unter der Annahme, dass die beobachtete Symbolfolge der Eingabesprache gleich (aab) beispielsweise ist, die Wahrscheinlichkeit (d.h., die Mutmasslichkeit), dass das in 1 dargestellte HMM diese beobachtete Symbolfolge (aab) ausgibt, wie folgt berechnet (siehe Ohgauchi Masaaki, "Voice Recognition by the Markov Model", Electric Information Transmission Academy Papers, vol. April (1987).
  • Zu allererst ist die Länge der Silbe der beobachteten Symbolfolge (aab) gleich "3" aus /a/a/b/. Zu diesem Zeitpunkt ist der Übergangsweg (Pfad), über welchen die beobachtete Symbolfolge (aab) in dem HMM von 1 ausgegeben werden kann, auf eine von drei Wegen S1 → S1→ S2 → S3, S1 → S2 → S2 → S3 und S1 → S1 → S1 → S3 beschränkt.
  • Die Wahrscheinlichkeit, dass die beobachtete Symbolfolge (aab) für jeden Übergangsweg ausgegeben wird, wird wie folgt erhalten, da sie durch das Produkt der Symbolausgabewahrscheinlichkeiten cij und die Zustandsübergangswahrscheinlichkeiten aij entlang des Übergangswegs ausgedrückt wird.
  • Im Falle S1 → S1 → S2 → S3: 0,3 × 0,8 × 0,5 × 1,0 × 0,6 × 0,5 = 0,036
  • Im Falle S1 → S2 → S2 → S3: 0,5 × 1,0 × 0,4 × 0,3 × 0,6 × 0,5 = 0,018
  • Im Falle von S1 → S1 → S1 → S3: 0,3 × 0,8 × 0,3 × 0,8 × 0,2 × 1,0 = 0,01152
  • Da die Wahrscheinlichkeit der Ausgabe der beobachteten Symbolfolge (aab) in jedem der vorstehend erwähnten drei Übergangswege vorhanden ist, ist die Summe dieser drei Wahrscheinlichkeiten wie folgt die Wahrscheinlichkeit (Mutmasslichkeit) der Ausgabe der beobachteten Symbolfolge (ab) in der HMM von 1: 0,036 + 0,018 + 0,01152 = 0,06552
  • Im übrigen kann der größte Wert 0,036 der vorstehend berechneten drei Wahrscheinlichkeiten in einer vereinfachten Weise als ein Repräsentant der Wahrscheinlichkeit des HMM verwendet werden.
  • Durch Durchführen der vorstehend erläuterten Berechnung der Wahrscheinlichkeit für alle in dem Wörterbuch registrierten HMM und durch Ausgeben eines dem HMM entsprechenden Wortes, welches den größten Wert von den erhaltenen Wahrscheinlichkeiten als ein Erkennungsergebnis ergibt, kann die Eingabesprache erkannt werden.
  • Es gibt (i) das HMM des diskreten Verteilungstyps, in welchem sich die Symbolausgabewahrscheinlichkeiten cij in einer diskontinuierlichen Weise gemäß Darstellung in 2A verändern, und (ii) das HMM des kontinuierlichen Verteilungstyps, in welchem sich die Symbolausgabewahrscheinlichkeiten cij in einer kontinuierlichen Weise gemäß Darstellung in 2B verändern. Von diesen zwei Typen, ist es, da ein Quantisierungsfehler im Falle des HMM des diskreten Verteilungstyps erzeugt wird, zu bevorzugen, das HMM des kontinuierlichen Verteilungstyps für die Spracherkennung zu verwenden.
  • Gemäß Darstellung in 2B verändert sich im Falle der Symbolausgabewahrscheinlichkeiten cij des kontinuierlichen Verteilungstyps die Wahrscheinlichkeitsverteilung konform zu der normalen Verteilung. Damit kann diese Verteilung durch den Durchschnittsvektor μ und die Varianz Σ der Symbole beschrieben werden. Daher wird im Falle des HMM des kontinuierlichen Verteilungstyps das gesamte Modell durch drei Parameter der Zustandsübergangswahrscheinlichkeiten aij (siehe 1), den Durchschnittsvektor μ und die Varianz Σ der Symbole beschrieben.
  • Um das vorstehend erwähnte HMM für jedes Wort auszuführen, können die vorstehend erwähnten drei Parameter durch Lernen einer großen Anzahl von Probewerten in der die Sprachmodelle ausdrückenden Population abgeschätzt werden. Als konkrete Beispiele dieses Abschätzverfahrens gibt es verschiedene Algorithmen, wie zum Beispiel einen Vorwärts- und Rückwärts-Algorithmus.
  • Hinsichtlich des Berechnungsverfahrens für die Wahrscheinlichkeit (Mutmasslichkeit), in welcher das in 1 dargestellte HMM die vorbestimmte beobachtete Symbolfolge (aeb) ausgibt, gibt es verschiedene Algorithmen, wie zum Beispiel den Vorwärts-Algorithmus und den Viterbi-Algorithmus.
  • Anschließend wird der Aufbau der Spracherkennungsvorrichtung der vorliegenden Erfindung unter Bezugnahme auf 3 und 4 erläutert. Gemäß Darstellung in 3 ist die Spracherkennungsvorrichtung der vorliegenden Erfindung ausgestattet mit: einem Mikrofon 1; einer Extraktionseinheit 2 für charakteristische Merkmale zum Extrahieren des charakteristischen Vektors, welcher ein Vektor des Parameters ist, der das Merkmal der Sprache charakterisiert, indem die über das Mikrofon eingegebene Sprache analysiert wird; einem Wörterbuch 3 zum Speichern des HMM für jedes Wort; einer Wahrscheinlichkeitsberechnungseinheit 4 und einer Entscheidungseinheit 5. Im übrigen wird die Spracherkennungsvorrichtung der vorliegenden Ausführungsform durch ihre Funktionsblöcke ausgedrückt, welche in Software unter Verwendung eines Mikrocomputers oder eines DSP (Digital Signal Processor) mit einem Mikrofon 1 und weiteren Komponenten zum Aufbau der gesamten Vorrichtung realisiert sind.
  • Gemäß Darstellung in 4 kann ein Programm zur Funktion als die Mustererkennungsvorrichtung der vorliegenden Ausführungsform in einem Speichermedium 200, wie zum Beispiel einem ROM, einer CD-ROM, einer Floppy Disc oder dergleichen gespeichert sein, welche von einem Computer 100 lesbar ist. Der Computer 100 ist ausgestattet mit: einer Lesevorrichtung 100a zum Lesen des Speichermediums 200; einer Anzeigevorrichtung 100b zum Darstellen verschiedener Information, einschließlich des Erkennungsergebnisses, und einem Hauptkörper 100c, mit welchem das Mikrofon 1 verbunden ist. Dann kann durch die Installation des Programms auf den Computer 100 unter Verwendung des Aufzeichnungsmediums 200 so, dass der Computer 100 das installierte Programm ausführen kann, die Mustererkennungsvorrichtung (welche umfasst: eine als die Extraktionseinheit 2 des charakteristischen Merkmals, die Wahrscheinlichkeitsberechnungseinheit 4 und eine Entscheidungseinheit 5 funktionierende CPU; und einen als das in 3 dargestellte Wörterbuch 3 funktionierenden Speicher) realisiert werden.
  • In 3 wird, wenn eine Sprache in das Mikrofon 1 gesprochen wird, dessen eingegebenes Sprachsignal für jede geeignete Fensterlänge (d.h., Rahmenlänge) durch die Extraktionseinheit 2 für das charakteristische Merkmal abgefragt und in die vorbestimm te beobachtete Symbolreihe für jede Rahmenlänge (zum Beispiel 10-dimensionale Mel-Frequenz-Cepstralkoeffizienten) zur Ausgabe an die Wahrscheinlichkeitsberechnungseinheit 4 umgewandelt.
  • Die Wahrscheinlichkeitsberechnungseinheit 4 liest alle von dem in dem Wörterbuch 3 gespeicherten HMMs nacheinander aus und berechnet die Wahrscheinlichkeit (Mutmasslichkeit) der Erzeugung der vorstehend erwähnten Symbolfolge für jedes HMM.
  • Die Entscheidungseinheit 5 wählt das der größten Wahrscheinlichkeit von den berechneten Wahrscheinlichkeiten entsprechende HMM aus und gibt dieses als das der Eingabe entsprechende Erkennungsergebnis aus.
  • Hier wird der von der Wahrscheinlichkeitsberechnungseinheit 4 und der Entscheidungseinheit 5 durchgeführte Erkennungsprozess konkret erläutert.
  • Die von der Extraktionseinheit 2 für das charakteristische Merkmal extrahierten charakteristischen Vektoren werden kollektiv als ein Vektor für jeden Rahmen oder für jede vorbestimmte Anzahl von Rahmen als eine Einheit für die Verarbeitung der eingegebenen Sprache behandelt, um einen charakteristischen Vektor y aufzubauen. Dann wird ein Vergleich zwischen jeder Verteilung θi der Standardmuster des in dem Wörterbuch 3 gespeicherten HMM und diesen charakteristischen Vektor y durchgeführt. Hier wird die Dimensionszahl des Vektors durch N und die Anzahl der Verteilungen θi, der in dem Wörterbuch 3 gespeicherten Standardmuster durch M dargestellt.
  • Die Verteilungen θi der Standardmuster werden durch den N-dimensionalen Durchschnittsvektor μi jeder Verteilung und die N × M dimensionale Kovarianzmatrix Σi ausgedrückt. Wenn dann der Vergleich zwischen der Verteilung θi jedes Standardmusters und des charakteristischen Vektor y durchgeführt wird, wird eine Wahrscheinlichkeitsdichtefunktion bi durch Berechnen eines nachstehenden Ausdruckes erhalten. bi(y, μi Σi) = {1/((2π)π/2|Σi|1/2)} × e–(1/2)Di
  • In dem vorstehenden Ausdruck stellt Di ein Abstand zwischen den charakteristischen Vektor und jedem Standardmuster dar, und wird durch einen nachstehenden Ausdruck ausgedrückt. Di = (y, μi)Σi – 1/(y – μi)wobei ein Zeichen "t" eine Transposition darstellt und ein Zeichen "–1" eine inverse Matrix darstellt.
  • Um ein Erkennungsergebnis auf der Basis der vorstehenden Berechnung zu erhalten, kann die Berechnung für alle Standardmuster in dem Wörterbuch 3 durchgeführt werden. Zu diesem Zeitpunkt ist, da die Terme (y – μi)t und (y – μi) N-dimensional sind, während der Term Σi – 1 gleich N × M-dimensional ist und die Anzahl der Verteilungen θi = M ist, die Anzahl der Berechnungen etwa M × (N2 + N) Male erforderlich. Ferner ist bezüglich des Speichers zum Speichern des Ablaufs der Berechnung die dieser Anzahl von Berechnungen entsprechende Speicherkapazität erforderlich. Daher wird, wenn die Dimensionszahl N groß eingestellt wird, sowohl der Verarbeitungsaufwand als auch der Speicherbedarf für den Erkennungsprozess drastisch erhöht, was dazu führt, dass zu ein Hindernis insbesondere im Falle wird, dass eine Echtzeit-Verarbeitung erforderlich ist.
  • In der vorliegenden veranschaulichenden Ausführungsform wird zum Lösen dieses Problems die Reduzierung des Verarbeitungsaufwandes und des Speicherbedarfs für den Erkennungsprozess durch das nachstehend erläuterten Verfahren realisiert.
  • Es wird nämlich zuerst eine Durchschnittsmatrix Σa für die M Verteilungen θi der Kovarianzmatrix Σi berechnet. Dann wird, wenn der vorstehend erwähnte Abstand Di berechnet wird, die Kovarianzmatrix Σi jeder Verteilung angenähert durch Σa ersetzt. Hier kann sie, da die inverse Matrix Σa – 1 der Matrix Sa eine symmetrische Matrix ist, zu einem Produkt der N-dimensionalen Matrix A, wie durch den nachstehenden Ausdruck ausgedrückt, zerlegt werden. Σa – 1 = AtA.
  • Daher kann der Abstand Di durch einen nachstehenden Ausdruck berechnet werden. Di = (y – μi)tΣa – 1(y – μi) = (y – μi)Ata(y – μi) = (Ay – Aμi)t(Ay – Aμi).
  • Hier reicht es, um den Abstand Di in dieser Weise zu berechnen aus, die Berechnung des Terms Aμi nur in einem Falle auszuführen, dass die Standardmuster in dem Wörterbuch 3 verändert sind. Mit anderen Worten, es ist nicht erforderlich, die Berechnung des Terms Aμi für jeden Erkennungsprozess auszuführen. Ferner reicht es aus, die Berechnung des Terms Ay nur einmal auszuführen, bevor der Vergleich zwischen ihm und allen M Verteilungen θi durchgeführt wird.
  • Somit ist die Anzahl der Berechnungen, die zum Erzielen des Abstandes Di erforderlich sind, etwa N2 + M × N Male und was den Speicher zum Speichern des Ablaufs der Berechnung betrifft, ist nur die dieser Anzahl von Berechnungen entsprechende Speicherkapazität erforderlich. Daher kann sowohl der erforderliche Berechnungsaufwand als auch der erforderliche Speicherbedarf deutlich im Falle einer Nicht-Verwendung der Durchschnittsmatrix Σa im Vergleich zu den M × (N2 + N) Malen reduziert werden. Ferner wird, sobald die Gesamtanzahl M der Standardmuster und der Dimensionszahl N größer gemacht werden, der Reduzierungseffekt des Berechnungsaufwandes und des Speicherbedarfs größer.
  • Auf diese Weise kann im Falle, dass die Kovarianzmatrix Σi von jedem Standardmuster durch die Durchschnittsmatrix Σa ersetzt wird, um so eine angenäherte Wahrscheinlichkeitsberechnung durchzuführen, die Genauigkeit im Vergleich zu dem Falle einer Durchführung der genauen Wahrscheinlichkeitsberechnung etwas verringert sein. Jedoch übt sie in der Kovarianzmatrix in dem Wahrscheinlichkeitsmodell, da der Unterschied zwischen jeder Verteilung beispielsweise im Vergleich zu dem Durchschnittssektor μi relativ klein ist, kein wesentlichen Einfluss auf das Enderkennungsergebnis in dem Mustererkennungsprozess selbst dann aus, wenn eine derartige Annäherungsrechnung durchgeführt wird. Dieser Punkt ist experimentell bestätigt.
  • In der vorstehend beschriebenen Ausführungsform ist es möglich, die Durchschnittsmatrix Σa im Voraus zu berechnen und die berechnete Durchschnittsmatrix Σa in dem ROM und so weiter zu speichern, um so die gespeicherte Durchschnittsmatrix Σa für die Wahrscheinlichkeitsberechnung zu nutzen, indem sie ausgelesen wird, wenn der Erkennungsprozess durchgeführt wird. Alternativ ist es auch möglich, die Durchschnittsmatrix Σa in Echtzeit zu berechnen, wenn der Erkennungsprozess tatsächlich durchgeführt wird, um so die berechnete Durchschnittsmatrix Σa für die Wahrscheinlichkeitsberechnung ohne Vorausberechnung und Speicherung dieser zu verwenden. Das erstere Verfahren ist vorteilhaft, da der Verarbeitungsaufwand im Vergleich zu dem letzteren Verfahren relativ klein ist, während das letztere Verfahren vorteilhaft ist, da es flexibel einen derartigen Fall beherrschen kann, dass die Verbesserung oder Korrektur des Wertes der Durchschnittsmatrix Σa zusammen mit einer Änderung der Kombination der Standarddaten oder dergleichen erforderlich ist.
  • Anschließend ist es, obwohl in dem vorstehend beschriebenen Berechnungsverfahren nur eine Durchschnittsmatrix der Kovarianzmatrix im Bezug auf eine Vielzahl von Standardmustern erhalten wird, die in dem Wörterbuch 3 gespeichert sind, es gemäß der vorliegenden Erfindung möglich, eine Vielzahl von Durchschnittsmatrizen zu erhalten. Konkreter gesagt werden die Verteilungen θi der Standardmuster in K (K < M) Klassen abhängig von den entsprechenden charakteristischen Merkmalen klassifiziert und die Durchschnittsmatrix für die Kovarianzmatrix in jeder von diesen Klassen erhalten, um so schließlich den Abstand Di unter Verwendung der Durchschnittsmatrix in jeder dieser Klassen zu berechnen. Dadurch ist die Anzahl der zum Erhalten von Di erforderlichen Berechnungen etwa K × N2 + N × M Male, und was den Speicher zum Speichern des Ablaufs der Berechnung betrifft, ist nur der dieser Anzahl von Berechnungen entsprechende Speicherbedarf erforderlich.
  • Daher kann, obwohl der Effekt der Reduzierung des Berechnungsaufwands und des Speicherbedarfs etwas kleiner als im dem Fall der Erzielung einer Durchschnittsmatrix gemacht wird, die Genauigkeit der Wahrscheinlichkeitsberechnung verbessert werden. Demzufolge ist es zu bevorzugen dieses Berechnungsverfahren insbesondere im Falle einer Durchführung der Mustererkennung anzuwenden, welche speziell ist und in welchem die hohe Genauigkeit erforderlich ist.
  • Im übrigen ist die vorliegende Erfindung in den beigefügten Ansprüchen definiert.
  • Das Programm, das als die Mustererkennungsvorrichtung der vorliegenden Ausführungsform funktioniert, kann auf einem Aufzeichnungsmedium 200 (siehe 1), wie zum Beispiel einem ROM, einer CD-ROM, einer Floppy Disc oder dergleichen gespeichert sein, welche von einem Computer 100 lesbar ist. Dann kann durch Installation des Programms in dem Computer 100 unter Verwendung des Aufzeichnungsmediums 200 so, dass der Computer 200 das installierte Programm ausführen kann, die vorstehend beschriebene Mustererkennungsvorrichtung realisiert werden.

Claims (13)

  1. Musterkennungsverfahren zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, wobei das Mustererkennungsverfahren die Schritte umfasst: Klassifizieren der Standardmuster in eine vorbestimmte Anzahl von Klassen; für jede von den Klassen, Berechnen einer Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse; Extrahieren eines charakteristischen Vektors, welcher ein charakteristisches Merkmal des Eingabemusters darstellt; Durchführen eines Vergleichs auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Standardmustern unter Verwendung der Durchschnittsmatrix der Klasse, zu welcher das jeweilige Muster gehört, als die Kovarianzmatrix für das jeweilige von den Standardmustern; und Erkennen des Eingabemusters auf der Basis eines Ergebnisses des durchgeführten Vergleichs.
  2. Mustererkennungsverfahren nach Anspruch 1, wobei das Eingabemuster ein Muster einer ausgesprochenen Sprache umfasst, welche durch ein über ein Mikrophon (1) eingegebenes Eingabesprachsignal dargestellt wird.
  3. Mustererkennungsverfahren nach Anspruch 2, wobei in dem Extraktionsprozess das Eingabesprachsignal für jede Fensterlänge analysiert wird, und in eine Reihe beobachteter Symbole für jede Fensterlänge umgewandelt wird.
  4. Mustererkennungsverfahren nach einem der Ansprüche 1 bis 3, wobei das Verfahren ferner einen Prozess zur Berechnung der Durchschnittsmatrix im Voraus und zur Speicherung der berechneten Durchschnittsmatrix umfasst, wobei in dem Durchführungsprozess der Vergleich unter Verwendung der in dem Berechnungsprozess gespeicherten Durchschnittsmatrix durchgeführt wird.
  5. Mustererkennungsverfahren nach Anspruch 4, wobei der Berechnungsprozess durchgeführt wird, wenn wenigstens eines von Vielzahl von Standardmustern verändert ist.
  6. Musterkennungsvorrichtung zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, wobei die Mustererkennungsvorrichtung umfasst: eine Klassifizierungseinrichtung, um, im Einsatz, die Standardmuster in eine vorbestimmte Anzahl von Klassen zu klassifizieren; eine Berechnungseinrichtung, um, im Einsatz, für jede von den Klassen eine Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse zu berechnen; eine Extraktionseinrichtung (2), um, im Einsatz, einen charakteristischen Vektor zu extrahieren, welcher ein charakteristisches Merkmal des Eingabemusters darstellt; eine Vergleichsdurchführungseinrichtung (3, 4), die dafür eingerichtet ist, im Einsatz, einen Vergleich auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Stan dardmustern unter Verwendung der Durchschnittsmatrix der Klasse durchzuführen, zu welcher das jeweilige Muster als die Kovarianzmatrix für das jeweilige von den Standardmustern gehört; und eine Erkennungseinrichtung (5), um, im Einsatz, das Eingabemuster auf der Basis eines Ergebnisses des durchgeführten Vergleichs zu erkennen.
  7. Mustererkennungsvorrichtung nach Anspruch 6, wobei die Vorrichtung ferner eine Speichereinrichtung (3) zum Speichern der Durchschnittsmatrix umfasst, welche im Voraus berechnet wird.
  8. Mustererkennungsvorrichtung nach einem der Ansprüche 6 oder 7, wobei die Vorrichtung ferner eine Speichereinrichtung (3) zum Speichern der Standardmuster umfasst, welche im Voraus vorbereitet werden.
  9. Mustererkennungsvorrichtung nach einem der Ansprüche 6 bis 8, wobei das Eingabemuster ein Muster einer ausgesprochenen Sprache umfasst, welche durch ein über ein Mikrophon (1) eingegebenes Sprachsignal dargestellt wird.
  10. Mustererkennungsvorrichtung nach Anspruch 9, wobei in der Extraktionseinrichtung (2) das Eingabesprachsignal für jede Fensterlänge analysiert wird, und in eine Reihe beobachteter Symbole für jede Fensterlänge umgewandelt wird.
  11. Durch einen Computer (100) für Mustererkennung lesbare Programmspeichereinrichtung (200), die berührbar ein Programm von durch den Computer ausführbaren Anweisungen verkörpert, um Verfahrensprozesse zum Erkennen eines Eingabesprachmusters unter Verwendung eines Wahrscheinlichkeitsmodells, in welchem jedes von einer Vielzahl von Standardmustern als eine durch einen Durchschnittsvektor bzw. eine Kovarianzmatrix definierte Wahrscheinlichkeitsverteilung ausgedrückt wird, durchzuführen, wobei die Verfahrensprozesse die Schritte umfassen: Klassifizieren der Standardmuster in eine vorbestimmte Anzahl von Klassen; für jede von den Klassen, Berechnen einer Durchschnittsmatrix der Kovarianzmatrizen der Standardmuster in der Klasse; Extrahieren eines charakteristischen Vektors, welcher ein charakteristisches Merkmal des Eingabemusters darstellt; Durchführen eines Vergleichs auf der Basis einer Wahrscheinlichkeitsberechnung zwischen dem extrahierten charakteristischen Vektor und dem jeweiligen von den Standardmustern unter Verwendung der Durchschnittsmatrix der Klasse, zu welcher das jeweilige Muster gehört, als die Kovarianzmatrix für das jeweilige von den Standardmustern; und Erkennen des Eingabemusters auf der Basis eines Ergebnisses des durchgeführten Vergleichs.
  12. Programmspeichereinrichtung (200) nach Anspruch 11, wobei das Eingabemuster ein Muster einer ausgesprochenen Sprache umfasst, welche durch ein über ein Mikrophon (1) eingegebenes Sprachsignal dargestellt wird.
  13. Programmspeichereinrichtung (200) nach Anspruch 12, wobei in dem Extraktionsprozess das Eingabesprachsignal für jede Fensterlänge analysiert wird, und in eine Reihe beobachteter Symbole für jede Fensterlänge umgewandelt wird.
DE69924769T 1998-01-23 1999-01-22 Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen Expired - Fee Related DE69924769T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1090198A JPH11212591A (ja) 1998-01-23 1998-01-23 パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
JP1090198 1998-01-23

Publications (2)

Publication Number Publication Date
DE69924769D1 DE69924769D1 (de) 2005-05-25
DE69924769T2 true DE69924769T2 (de) 2006-03-09

Family

ID=11763215

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69924769T Expired - Fee Related DE69924769T2 (de) 1998-01-23 1999-01-22 Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen

Country Status (3)

Country Link
EP (1) EP0932143B1 (de)
JP (1) JPH11212591A (de)
DE (1) DE69924769T2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1217315C (zh) * 2001-06-22 2005-08-31 英特尔公司 具有帧相关性的隐藏马尔可夫模型
KR100408524B1 (ko) * 2001-08-22 2003-12-06 삼성전자주식회사 음성인식방법 및 그 장치
CN102651218A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于创建语音标签的方法以及设备
CN114067834A (zh) * 2020-07-30 2022-02-18 中国移动通信集团有限公司 一种不良前导音识别方法、装置、存储介质和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58108600A (ja) * 1981-09-14 1983-06-28 リア−・シ−グラ−・インコ−ポレイテツド スピ−チ認識システム
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition

Also Published As

Publication number Publication date
EP0932143B1 (de) 2005-04-20
DE69924769D1 (de) 2005-05-25
EP0932143A3 (de) 1999-12-29
JPH11212591A (ja) 1999-08-06
EP0932143A2 (de) 1999-07-28

Similar Documents

Publication Publication Date Title
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE10133333C1 (de) Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
EP0604476B1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE60309142T2 (de) System zur Schätzung von Parametern eines Gauß`schen Mixturmodells (GMM) oder eines GMM-basierten Hidden-Markov-Modells
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
DE69815067T2 (de) Verfahren zur bestimmung modell-spezifischer faktoren für die mustererkennung im insbesonderen für sprachmuster
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE60204374T2 (de) Spracherkennungsvorrichtung
DE602004003512T2 (de) Kompression gausscher Modelle
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
EP0862161A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE60310687T2 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE69924769T2 (de) Sprachmustererkennung unter Verwendung von Durchschnitts-Kovarianzmatrizen
DE602004007223T2 (de) Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee