DE602005000603T2

DE602005000603T2 - Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell

Info

Publication number: DE602005000603T2
Application number: DE602005000603T
Authority: DE
Inventors: Hagai Attias; Leo Lee; Li Deng
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-01-20
Filing date: 2005-01-13
Publication date: 2007-06-21
Anticipated expiration: 2025-01-14
Also published as: CN100589180C; EP1557823A2; JP2005208648A; EP1701337A2; ATE450031T1; EP1557823A3; ATE355589T1; CN1645476A; DE602005000603D1; US7480615B2; KR20050076696A; KR101120765B1; DE602005017871D1; EP1701337B1; EP1557823B1; EP1701337A3; US20050159951A1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf die Mustererkennung. Insbesondere bezieht sich die vorliegende Erfindung auf die Spracherkennung.
Ein Mustererkennungssystem, wie etwa ein Spracherkennungssystem nimmt ein Eingangssignal und versucht das Signal zu decodieren, um ein Muster zu finden, das von diesem Signal dargestellt wird. Bei einem Spracherkennungssystem wird beispielsweise ein Sprachsignal (oft auch als Testsignal bezeichnet) vom Erkennungssystem empfangen und decodiert, um eine Folge von Wörtern zu identifizieren, die vom Sprachsignal dargestellt werden.
Viele Spracherkennungssysteme verwenden Hidden-Markov-Modelle, bei denen phonetische Einheiten, die auch als akustische Einheiten oder Spracheinheiten bezeichnet werden, durch eine einzige Reihe verbundener Zustände dargestellt werden. Unter Verwendung eines Trainingssignals werden die Wahrscheinlichkeitsverteilungen zur Belegung der Zustände und für den Übergang zwischen den Zuständen für jede der phonetischen Einheiten bestimmt. Um ein Sprachsignal zu decodieren, wird das Signal in Rahmen bzw. Frames unterteilt, wobei jeder Frame in einen Eigenschaftsvektor umgewandelt wird. Die Eigenschaftsvektoren werden anschließend mit den Verteilungen für die Zustände verglichen, um die wahrscheinlichtes Sequenz von HMM-Zuständen zu identifizieren, die durch die Frames dargestellt werden können. Die phonetische Einheit, die dieser Sequenz entspricht, wird anschließend gewählt.
Obwohl HHM-basierte Erkennungssysteme bei zahlreichen relativ einfachen Spracherkennungsaufgaben gut arbeiten, modellieren sie einige wichtige dyna mische Aspekte der Sprache nicht direkt (und sind dafür bekannt, das sie bei schwierigen Aufgaben, wie etwa der Sprache bei Unterhaltungen, unzureichend arbeiten). Demzufolge sind sie nicht in der Lage, sich dynamischen Artikulationsunterschieden zwischen den Sprachsignalen, die für das Lernen verwendet werden, und dem Sprachsignal anzupassen, das decodiert wird.
Es wurden Alternativen für HMM-Systeme vorgeschlagen. Insbesondere wurde vorgeschlagen, dass die statistisch festgelegte Trajektorie oder das Verhalten eines erzeugungsspezifischen Parameters des Sprachsignals direkt modelliert werden sollen. Da die erzeugungsspezifischen Werte nicht direkt gemessen werden können, sind diese Modelle als verborgene dynamische Modelle (HDM) bekannt. Verborgene dynamische Modelle sind ein Beispiel einer Klasse von Modellen, die als wechselndes Zustandsraummodelle bekannt sind, die zwei Typen verborgener Zustände erzeugen. Die beiden Typen der verborgenen Zustände bilden zwei Markov-Ketten erster Ordnung, wobei die kontinuierliche durch die diskrete Kette bestimmt ist.
Ein Problem bei den wechselnden Zustandsraummodellen besteht darin, dass es Schwierigkeiten bereitet, diese lernen zu lassen, da gebräuchliche Lernalgorithmen, wie etwa der Erwartungs-Maximierungs-Algorithmus, bei wechselnden Zustandsraummodellen schwer zu bewältigen ist. Insbesondere nimmt diese Berechnung mit jedem zusätzlichen Frame des Sprachsignals exponential zu.
Somit ist ein Lernsystem erforderlich, das es gestattet, dass die Parameter eines wechselnden Zustandsraummodells wirkungsvoll einem Lernvorgang unterzogen werden können.
Z. Ghahramani et al. "Variational learning for switching state-space models", Neural Computation 12, 831–864 (2000) ist ein Artikel, der ein statistisches Modell für Zeitfolgen einführt, das Daten iterativ in Ordnungen mit beinahe linearer Dynamik segmentiert und die Parameter jeder dieser linearen Ordnungen lernt.
Lee L J et al. "Variational interference and learning for segmental switching state space models für hidden speech dynamics", IEEE ICASSP 2003, beschreibt einen abweichenden Ansatz zum Lernenlassen des wechselnden Zustandsraummodells.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild einer Berechungsumgebung, bei der die vorliegende Erfindung verwendet werden kann.
2 ist ein Blockschaltbild einer alternativen Berechnungsumgebung, bei der die vorliegende Ausführungsform verwendet werden kann.
3 ist ein Flussdiagramm eines Verfahrens zum Einstellen von A-posteriori-Wahrscheinlichkeits-Parametern unter Verwendung überlappender Fenster in einer Ausführungsform der vorliegenden Erfindung.
4 ist ein Graph, die überlappende Fenster in einer Ausführungsform der vorliegenden Erfindung zeigt.
5 ist ein Blockschaltbild eines Spracherkennungssystems.
DETAILLIERTE BESCHREIBUNG BEISPIELHAFTER AUSFÜHRUNGSFORMEN
1 zeigt ein Beispiel einer geeigneten Berechnungssystem-Umgebung 100, in der die Erfindung verwendet werden kann. Die Berechnungssystem-Umgebung 100 ist lediglich ein Beispiel einer geeigneten Berechnungsumgebung und soll nicht den Geltungsbereich der Verwendung oder die Funktionalität der Erfindung einschränken. Darüber hinaus sollte die Berechnungsumgebung 100 nicht so verstanden werden, als dass sie eine wie auch immer geartete Abhängigkeit oder eine Erfordernis hat, die sich auf einen Bestandteil oder eine Kombination aus diesen beziehen, die in der beispielhaften Berechnungsumgebung 100 dargestellt sind.
Die Erfindung kann mit zahlreichen anderen Berechnungssystem-Umgebungen oder -Konfigurationen für allgemeine oder spezielle Zwecke verwendet werden. Beispiele hinlänglich bekannter Berechnungs-Systeme, -Umgebungen und/oder -Konfigurationen, die sich für die Verwendung mit der Erfindung eignen können, beinhalten, ohne darauf beschränkt zu sein, PCs, Serverrechner, Hand- oder Labtopgeräte, Multiprozessorsysteme, mikroprozessorbasierte Systeme, Vorschaltgeräte, programmierbare Verbraucherelektronikgeräte, Netzwerkrechner, Minicomputer, Großrechner, Telefonsysteme, verteilte Computerumgebungen, die eines der oben genannten Systeme oder der Vorrichtungen enthalten, und dergleichen.
Die Erfindung kann im allgemeinen Zusammenhang von von einem Computer ausführbaren Befehlen, wie etwa Programmmodulen, beschrieben werden, die von einem Computer ausgeführt werden. Im allgemeinen umfassen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen und dergleichen, die spezielle Aufgaben ausführen oder spezielle abstrakte Datentypen implementieren. Die Erfindung ist darauf ausgelegt, in verteilten Berechnungsumgebungen eingesetzt zu werden, in denen Aufgaben von entfernten Verarbeitungsvorrichtungen ausgeführt werden, die durch ein Kommunikationsnetzwerk miteinander verbunden sind. In einer verteilten Berechnungsumgebung befinden sich Programmmodule sowohl in lokalen als auch entfernten Computerspeichermedien, die Speicher-Speichervorrichtungen beinhalten.
Unter Bezugnahme auf 1 enthält ein beispielhaftes System zur Ausführung der Erfindung eine Berechnungsvorrichtung für allgemeine Zwecke in Gestalt eines Computers 110. Komponenten des Computers 110 können, ohne darauf beschränkt zu sein, eine Verarbeitungseinheit 120, einen Systemspeicher 130 und einen Systembus 121 beinhalten, der unterschiedliche Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinheit 120 koppelt. Der Systembus 121 kann einen beliebigen Typ eines Busaufbaus haben, wie etwa eines Speicherbus' oder Speicher-Controllers, eines Peripheriebus' und eines lokalen Bus', bei denen eine beliebige einer Vielzahl von Busarchitekturen Verwendung findet. Beispielsweise umfassen derartige Architekturen, ohne darauf beschränkt zu sein, den ISA-Bus (ISA – Industry Standard Architecture), den MCA-Bus (MCA – Micro Channel Architecture), den EISA-Bus (EISA – Enhanced-ISA), den lokalen VESA-Bus (VESA – Video Electronics Standards Assiciation) und den PCI-Bus (PCI – Peripheral Component Interconnect), der auch als Mezzanine-Bus bekannt ist.
Der Computer 110 enthält normalerweise eine Vielfalt von computerlesbaren Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die der Computer 110 zugreifen kann, und enthalten sowohl flüchtige als auch nicht flüchtige, entnehmbare und nicht entnehmbare Medien. Beispielsweise, und ohne darauf beschränkt zu sein, können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien enthalten sowohl flüchtige als auch nicht flüchtige, entnehmbare und nicht entnehmbare Medien, die bei einem beliebigen Verfahren oder einer beliebigen Technologie zum Speichern von Informationen, wie etwa computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten, verwendet werden können. Computerspeichermedien umfassen, ohne darauf beschränkt zu sein, einen RAM, einen ROM, einen EPROM, einen Flash-Speicher oder andere Speichertechnologie, ein CD-ROM, eine DVD oder einen anderen optischen Plattenspeicher, Magnetkassetten, ein Magnetband, einen Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das verwendet werden kann, um die gewünschten Informationen zu speichern, und auf das von einem Computer 110 zugegriffen werden kann. Das Kommunikationsmedium verkörpert computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie etwa eine Trägerwelle oder einen anderen Transportmechanismus und verfügt über beliebige Informationszustellungsmedien. Der Begriff "moduliertes Datensignal" bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigenschaften derart eingestellt oder geändert werden, dass Informationen im Signal codiert werden. Beispielsweise umfassen Kommunikationsmedien, ohne darauf beschränkt zu sein, drahtgebunden Medien, wie etwa ein drahtgebundenes Netzwerk oder eine direkt verkabelte Verbindung, und drahtlose Medien, wie etwa Akustik-HF- oder Infratormedien und andere drahtlose Medien. Kombinationen beliebiger der oben genannten Medien sollten im Geltungsbereich computerlesbarer Medien enthalten sein.
Der Systemspeicher 130 enthält ein Computerspeichermedium in Gestalt eines flüchtigen und/oder nicht flüchtigen Speichers, wie etwa eines ROM 131 und eines RAM 132. Ein BIOS 133 (Basis-Eingabe-/Ausgabesystem), das die Basisroutinen enthält, die dabei hilfreich sind, Informationen zwischen Elementen innerhalb des Computers 110, wie etwa während des Startens, zu übertragen, ist im ROM 131 gespeichert. Der RAM 132 enthält normalerweise Daten- und/oder Programmmodule, auf die von der Verarbeitungseinheit 120 unmittelbar zugegriffen werden kann und/oder die von dieser momentan ausgeführt werden. Beispielhaft, und ohne dabei eine Einschränkung darzustellen, zeigt 1 ein Betriebssystem 134, Applikationsprogramme 135, andere Programmmodule 136 und Programmdaten 137.
Der Computer 110 kann zudem andere entnehmbare/nicht entnehmbare, flüchtige/nicht flüchtige Computerspeichermedien enthalten. Lediglich Beispielhaft zeigt 1 ein Festplattenlaufwerk 141, das von einem nicht entnehmbaren, nicht flüchtigen Magnetmedium liest oder auf dieses schreibt, ein Magnetplattenlaufwerk 151, das von einer entnehmbaren, nicht flüchtigen Magnetplatte 152 liest oder auf diese schreibt, sowie ein optisches Plattenlaufwerk 155, das von einer entnehmbaren, nicht flüchtigen optischen Platte 156, wie etwa einer CD-ROM oder einem anderen optischen Medium liest oder auf dieses schreibt. Andere entnehmbare/nicht entnehmbare, flüchtige/nicht flüchtige Computerspeichermedien, die in der beispielhaften Betriebsumgebung verwendet werden können, beinhalten, ohne darauf beschränkt zu sein, Magnetbandkassetten, Flash-Speicherkarten, DVDs, ein digitales Videoband, einen Festkörper-RAM, einen Festkörper-ROM und dergleichen. Das Festplattenlaufwerk 141 ist normalerweise mit dem Systembus 121 durch eine nicht entnehmbare Speicherschnittstelle, wie etwa die Schnittstelle 140 verbunden, und das Magnetplattenlaufwerk 151 sowie das optische Plattenlaufwerk 155 sind normalerweise mit dem Systembus 121 durch eine entnehmbare Speicherschnittstelle, wie etwa die Schnittstelle 150 verbunden.
Die Laufwerke und ihre zugehörigen Computerspeichermedien, die oben beschrieben und in 1 dargestellt sind, stellen einen Speicher für computerlesbare Anweisungen, Datenstrukturen, Programmmodule und andere Daten für den Computer 1110 bereit. In 1 ist das Festplattenlaufwerk 141 beispielsweise so dargestellt, dass es ein Betriebssystem 144, Applikationsprogramme 145, andere Programmmodule 146 und Programmdaten 147 speichert. Es wird darauf hinge wiesen, dass diese Bestandteile dieselben wie das Betriebssystem 134, die Applikationsprogramme 135, die anderen Programmmodule 135 und die Programmdaten 137 sein oder sich von diesen unterscheiden können. Das Betriebssystem 144, die Applikationsprogramme 145, die anderen Programmmodule 146 und die Programmdaten 147 sind hier mit anderen Zahlen versehen, um darzustellen, dass sie wenigsten andere Kopien sind.
Ein Benutzer kann Befehle und Informationen in den Computer 110 durch Eingabevorrichtungen, wie etwa eine Tastatur 162, ein Mikrophon 163 und eine Zeigevorrichtung 161, wie etwa eine Maus, einen Trackball, oder ein Tastfeld, eingeben. Andere Eingabevorrichtungen (nicht gezeigt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder dergleichen beinhalten. Diese und andere Vorrichtungen sind in vielen Fällen mit der Verarbeitungseinheit 120 durch eine Benutzereingabeschnittstelle 160 verbunden, die mit dem Systembus gekoppelt ist, können jedoch durch eine andere Schnittstelle und Busstrukturen angeschlossen sein, wie etwa durch einen Parallelanschluss, einen Spieleanschluss oder einen USB (USB – Universal Serial Bus). Ein Monitor 191 oder eine andere Art einer Anzeigevorrichtung ist ebenfalls mit dem Systembus 121 über eine Schnittstelle, wie etwa eine Videoschnittstelle 190 angeschlossen. Zusätzlich zum Monitor können Computer darüber hinaus andere Peripherieausgabevorrichtungen, wie etwa Lautsprecher 197 und einen Drucker 196 enthalten, die durch eine Ausgabe-Peripherieschnittstelle 195 angeschlossen sein können.
Der Computer 110 wird in einer Netzwerkumgebung unter Verwendung logischer Verbindungen zu einem oder mehreren entfernten Computern, wie etwa einem entfernten Computer 180, betrieben. Der entfernte Computer 180 kann ein PC, eine Handvorrichtung, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Vorrichtung oder ein anderer Netzwerkknoten sein und enthält normalerweise viele oder sämtliche der Elemente, die oben im Bezug auf den Computer 110 beschrieben wurden. Die logischen Verbindungen, die in 1 dargestellt sind, umfassen ein LAN (LAM – Local Area Network) 171 ein WAN (WAN – Wide Area Network) 173, können jedoch auch andere Netzwerke beinhalten. Derartige Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet allgemein üblich.
Bei der Verwendung in einer LAN-Netzwerkumgebung ist der Computer 110 mit dem LAN 171 durch eine Netzwerkschnittstelle oder einen Adapter 170 verbunden. Bei der Verwendung in einer WAN-Netzwerkumgebung enthält der Computer 110 normalerweise ein Modem 172 oder eine andere Einrichtung zur Einrichtung von Kommunikationen über das WAN 173, wie etwa das Internet. Das Modem 172, das intern oder extern sein kann, kann mit dem Systembus 121 über die Benutzereingabeschnittstelle 160 oder einen anderen geeigneten Mechanismus verbunden sein. In einer Netzwerkumgebung können Programmmodule, die im Bezug auf den Computer 110 dargestellt sind, oder Teile derselben in der entfernten Speichervorrichtung gespeichert sein. Beispielsweise, und ohne einschränkend zu wirken, zeigt 1 entfernte Applikationsprogramme 185, die sich im entfernten Computer 180 befinden. Es wird darauf hingewiesen, dass die dargestellten Netzwerkverbindungen beispielhaft sind und anderen Einrichtungen zum Einrichten einer Kommunikationsverbindung zwischen den Computern verwendet werden können.
2 ist ein Blockschaltbild einer mobilen Vorrichtung 200, die sich in einer beispielhaften Berechnungsumgebung befindet. Die mobile Vorrichtung 200 enthält einen Mikroprozessor 202, einen Speicher 204, Eingabe-/Ausgabe-(I/O-) Komponenten 206 und eine Kommunikationsschnittstelle 208 für die Kommunikation mit entfernten Computern oder anderen mobilen Vorrichtungen. Bei einer Ausführungsform sind die zuvor erwähnten Komponenten zur Kommunikation miteinander über einen geeigneten Bus 210 verbunden.
Der Speicher 204 ist als nicht flüchtiger elektronischer Speicher, wie etwa als RAM mit einem Batterie-Sicherungsmodul (nicht gezeigt), ausgeführt, so dass Informationen, die im Speicher 204 gespeichert sind, nicht verloren gehen, wenn der Hauptstrom zur mobilen Vorrichtung 200 abgeschaltet wird. Ein Abschnitt des Speichers 204 ist vorzugsweise als adressierbarer Speicher zur Ausführung von Programmen zugeordnet, während ein weiterer Abschnitt des Speichers 204 vorzugsweise zu Speicherung verwendet wird, wie etwa um eine Speicherung auf einem Plattenlaufwerk zu simulieren.
Der Speicher 204 enthält ein Betriebssystem 212, Applikationsprogramme 214, wie auch einen Objektspeicher 216. Während des Betriebs wird das Betriebssystem 212 vorzugsweise durch den Prozessor 202 vom Speicher 204 ausgeführt. Das Betriebssystem 212 ist bei einer bevorzugten Ausführungsform das Betriebssystem WINDOWS^®, das von der Microsoft Corporation vertrieben wird. Das Betriebssystem 212 ist vorzugsweise auf mobile Vorrichtungen ausgelegt und setzt Datenbankfunktionen ein, die von Applikationen 214 durch einen Satz von exponierten Applikations-Programmier-Schnittstellen und -Verfahren verwendet werden können. Die Objekte im Objektspeicher 216 werden durch die Applikationen 214 und das Betriebssystem 212 wenigstens teilweise in Erwiderung auf Anrufe zu den exponierten Applikations-Programmier-Schnittstellen und -Verfahren instand gehalten.
Die Kommunikationsschnittstelle 208 repräsentiert zahlreiche Vorrichtungen und Technologien, die es einer mobilen Vorrichtung 200 gestatten, Informationen zu senden und zu empfangen. Die Vorrichtungen beinhalten drahtgebundene und drahtlose Modems, Satellitenempfänger und Rundfunkempfänger, um einige wenige zu nennen. Die mobile Vorrichtung 200 kann zudem direkt mit einem Computer verbunden sein, um mit diesem Daten auszutauschen. In diesen Fällen kann die Kommunikationsschnittstelle 208 ein Infrarot-Sendeempfänger oder eine serielle oder parallele Kommunikationsverbindung sein, die allesamt in der Lage sind Streaming-Informationen zu senden.
Die Eingabe-/Ausgabekomponenten 206 umfassen eine Vielfalt von Eingabevorrichtungen, wie etwa einen tastempfindlichen Bildschirm, Taster, Walzen und ein Mikrofon wie auch eine Vielfalt von Ausgabevorrichtungen, die einen Audiogenerator, eine Vibrationsvorrichtung und eine Anzeigeeinrichtung beinhalten. Die oben aufgeführten Vorrichtungen dienen als Beispiel und müssen nicht allesamt in einer mobilen Vorrichtung 200 enthalten sein. Darüber hinaus können andere Eingabe-/Ausgabevorrichtungen an der mobilen Vorrichtung 200 angebracht sein oder sich an dieser befinden, die innerhalb des Geltungsbereiches der vorliegenden Erfindung liegen.
Die vorliegende Erfindung gibt ein generatives Sprachmodell an. In diesem Modell wird Sprache als die Ausgabe eines Versuches durch den Sprecher dargestellt, eine linguistische Definition einer Sequenz von Spracheinheiten phonetisch einzusetzen. Während dieses Versuches erzeugt der Sprecher einen erzeugungsspezifischen Wert, der einer statistisch definierten Trajektorie folgt (unter Verwendung der Zustandsraum-Formulierung mit rekursiven Geräuschen), für ein Ziel, das einer momentanen Spracheinheit zugeordnet ist. Bei Ausführungsformen der vorliegenden Erfindung wird diese Trajektorie als wechselndes Zustandsraummodell modelliert.
Das Modell der vorliegenden Erfindung ist eine spezielle Form eines verborgenen Trajektorien-Modells, bei dem die Trajektorie rekursiv definiert wird, wobei bei jedem Frame Geräusche hinzugefügt sind. Dieses wechselnde Zustandsraummodell hat zwei Typen verborgener Variablen (die auch als Zustände bezeichnet werden): diskret und kontinuierlich. Diese Zustände werden als verborgen betrachtet, da sie nicht direkt gemessen werden können. Jeder Typ eines verborgenen Zustandes bildet eine Markov-Kette aus, wobei die kontinuierliche Kette des verborgenen Zustandes durch die diskrete Kette des verborgenen Zustandes bedingt ist.
Die beiden unterschiedlichen Typen verborgener Zustände erzeugen ein Modell, das zwei Ebenen enthält, eine Dynamik- oder Trajektorien-Modellkomponente, die verborgene, kontinuierliche, erzeugungsspezifische Parameter (wie etwa Sprachtrakt-Resonanzfrequenzen) beschreibt, und eine Abbildungs-Modellkomponente, die die erzeugungsspezifischen Parameter in beobachtbare akustische Merkmale, wie etwa Mel-Frequenz-Cepstral-Koeffizienten, übersetzt. Die Zustandsgleichung im Zustandsraummodel sagt eine Sequenz kontinuierlicher Zustandswerte (x₁, ..., x_n, ..., x_n) für einen erzeugungsspezifischen Parameter voraus. Das Abbildungsmodell oder die Beobachtungsgleichung sagt eine Abfolge von akustischen Beobachtungsvektoren y_n bei der gegebenen Sequenz von kontinuierlichen verborgenen Zustandwerten voraus.
Das rekursiv definierte Trajektorienmodell und das Abbildungsmodell können kurz durch die folgenden beiden Gleichungen ausgedrückt werden: xn = ASxn-1 + as + w Gl.1 yn = Csxn + cs + v Gl.2wobei n ein Frame-Nummerindex ist, s der verborgene diskrete Zustand ist, der eine Spracheinheit darstellt, x der verborgene erzeugungsspezifische Zustand ist, y der akustische Eigenschaftsvektor ist, A_S und C_S spracheinheitsabhängige Systemmatrizen sind, a_s eine spracheinheitsabhängige Steuereingabe ist (die äquivalent als spracheinheitsabhängiges Ziel dargestellt werden kann), c_s eine spracheinheitsabhängige Konstante ist und w sowie v Gauß'sche Geräusch-Terme sind.
Bei einer Ausführungsform werden die Modelle der Gleichungen 1 und 2 in Termen der Wahrscheinlichkeitsverteilung dargestellt als: p(sn = s|sn-1 = s' = ΠSS' Gl.3 p(xn|sn = s,xn-1) = N(xn|Asxn-1 + as, Bs) Gl.4 p(yn|sn = s,xn) = N(yn|Csxn + Cs, Ds) Gl.5mit den Ausgangsbedingungen: p(s0 = s) = Πs 0 p(x0|s0 = s) = N(x0|as 0, Bs 0 wobei B_s, B_s ⁰ und D_s Präzisionsmatrizen (die Umkehrung einer Kovarianzmatrix) sind, die auf einer Varianz basieren, die den Geräusch-Termen w und v zugeordnet ist.
Im allgemeinen erfordert der Lernvorgang für die Modellparameter der Gleichungen 3 bis 5 einen iterativen Zweischrittvorgang. Der erste Schritt ist als Inferenz bekannt, während dessen eine A-posteriori-Verteilung p(s_1:N,x_1:N|y_1:N) bei einem gegebenen Ausgangssatz von Modellparametern berechnet wird. Während des zweiten Schrittes, der als Lernen oder Parameterschätzung bekannt ist, werden die Modellparameter aktualisiert. Diese Schritte werden wiederholt, bis die Mo dellparameter konvergieren oder eine bestimmte Maximalzahl von Iterationen erreicht ist. Wenn das generalisierte Erwartungsmaximierungs-Lernen ausgeführt wird, ist der E-Schritt der Inferenzschritt und der M-Schritt der Lernschritt.
Der Inferenzschritt kann für die Modelle der Gleichungen 3 bis 5 nicht direkt ausgeführt werden, da die A-posteriori-Berechnung unlösbar ist. Eine Ausführungsform der vorliegenden Erfindung überwindet dieses Problem durch Nähern der A-posteriori-Verteilung unter Verwendung von HMM-A-posteriori-Verteilungen. Insbesondere wird die A-posteriori-Verteilung p(s_1:N,x_1:N|y_1:N) mit Hilfe einer HMM-Aposteriori-Verteilung genähert, der definiert ist als:
Durch Minimieren einer Divergenz zwischen der Annäherung und der tatsächlichen A-posteriori-Verteilung, haben die Erfinder herausgefunden, dass die Wahrscheinlichkeit q(x_n|s_n,y_1:N) der Gauß'schen Verteilung folgt: q(xn|sn,y1:N) = N(xn|ps,n,Γs,n) Gl.7wobei der Mittelwert p und die Präzision Γ gegeben sind durch:
wobei η _s's,n-1 eine A-posteriori-Übergangswahrscheinlichkeit für den Übergang von einem Zustand s' zu einem Zeitpunkt n – 1 zu einem Zustand s zu einem Zeitpunkt n bei einem gegebenen Zustand s zum Zeitpunkt n: η_s's,n-1 = q(s_n-1 = s'|s_n = s,y_1:N) ist und η_s's,n+1 eine A-posteriori-Übergangswahrscheinlichkeit für den Übergang von einem Zustand s zum Zeitpunkt n zu einem Zustand s' zu einem Zeitpunkt n + 1 η_s's,n+1 = q(s_n+1 = s'|s_n = s,y_1:N) ist.
Die A-posteriori-Übergangswahrscheinlichkeiten werden rekursiv durch einen Backward Pass berechnet, der für n = N, K, 1 beschrieben ist:
wobei <> ein Skalar bezeichnet, das man durch Summieren des elementweisen Produktes zweier Vektoren gleicher Größe oder Matrizen erhält, und s' ein Index für Spracheinheiten der Summierungen ist.
Da die Berechnung eines momentanen p_s,n in der Gleichung von p_s,n-1 zu einem vorherigen Zeitpunkt n – 1 und p_s,n+1 zu einem nächsten Zeitpunkt n + 1 abhängig ist, war eine Lösung eines Satzes von simultanen Gleichungen, die Werte für p_s,n über sämtliche Frames abdeckt, erforderlich, um die Werte zu berechnen. Dies erfolgte normalerweise durch Organisieren der Sätze von Gleichungen in Gestalt einer Matrix und durch Ausführen einer Matrixumkehrung. Diese Berechnung hat eine Komplexität der Ordnung O((NS)³), wobei N die Zahl von Zeitpunkten und S die Zahl von möglichen Zuständen zu jedem Zeitpunkt ist. Für ein angemessenes Sprachsignal wird diese Berechnung derart zeitaufwendig, dass sie in einem System der Praxis nicht durchgeführt werden kann.
Ein Verfahren zur Verringerung der Komplexität dieser Berechnung bei der vorliegenden Erfindung ist im Flussdiagramm von 3 dargestellt. Bei Schritt 300 von 3 werden Ausgangswerte für die Modellparameter gespeichert. Diese Ausgangswerte können zufallsartig oder auf der Basis einer geeigneten Schätzung bei gegebenen bekannten Eigenschaften von Formanten und der erwarteten Beziehung zwischen Formanten und Beobachtungsvektoren eingestellt werden. Bei Schritt 301 werden Frames des Sprachsignals in Beobachtungsvektoren umgewandelt. Bei Schritt 302 wird eine schnelle Formant-Verfolgungseinrichtung verwendet, um eine Ausgangsschätzung von p_s,n für jeden der Frames des Sprachsignals einzurichten. Es wird darauf hingewiesen, dass der Ausgangswert von p_s,n zum Zeitpunkt n für sämtliche Zustände s derselbe ist. Diese Ausführungsform verwendet eine Formant-Verfolgungseinrichtung für die Ausgangsschätzungen auf der Basis der Annahme, dass der verborgene erzeugungsspezifische Parameter ein Sprachresonanzwert ist, der einem Formanten gleicht. Ist der verborgene erzeugungsspezifische Parameter ein anderer Werttyp, können andere Techniken verwendet werden, um die Ausgangswerte für p_s,n zu schätzen.
Bei Schritt 303 werden die Ausgangswerte für p_s,n verwendet, um die A-posteriori-Übergangswahrscheinlichkeiten mit Hilfe der Gleichungen 10 bis 12 zu bestimmen. Sobald die Übergangswahrscheinlichkeiten bestimmt sind, wird ein Fenster von M Frames des Sprachsignals bei Schritt 304 gewählt, das beim zweiten Frame im Sprachsignal beginnt, wobei M geringer ist als die Gesamtzahl der Frames N. 4 zeigt ein Beispiel eines Fensters 400, das die Frames 402, 404, 406 und 408 enthält.
Bei Schritt 306 werden Γ_s,n und p_s,n für jeden Zustand s bei jedem Frame n innerhalb des Fensters von M Frames berechnet. Um diese Berechnung auszuführen, ist ein Wert p_s,n für den Frame vor dem Fenster und den Frame nach dem Fenster erforderlich. Für das erste Fenster werden beide Werte aus der Ausgangsschätzung von p_s,n genommen, die von der Formant-Verfolgungseinrichtung erzeugt wird. Für jedes Fenster nach dem ersten Fenster wird der Wert von p_s,n für den Frame vor dem Fenster aus der Berechung genommen, die für das vorherige Fenster ausgeführt wird. Der Wert von p_s,n für den Frame nach dem Fenster wird fortwährend aus den Ausgangswerten genommen, die durch die Formant-Verfolgungseinrichtung bestimmt werden.
Da das Fenster weitaus kleiner ist als das gesamte Sprachsignal, nimmt diese Berechnung weitaus weniger Zeit in Anspruch, als vorherige Berechnungen, die sich auf das gesamte Sprachsignal bezogen. Bei einer Ausführungsform beinhaltet diese Berechung das Lösen eines Satzes simultaner Gleichungen mit Hilfe einer Matrixumkehrung.
Nachdem die Werte von Γ_s,n und p_s,n für jeden Frame im Fenster ermittelt wurden, bestimmt der Vorgang in Schritt 308, ob es keine weiteren Frames gibt, die verarbeitete werden sollen. Gibt es weitere Frames, wird das Fenster um J Frames bei Schritt 310 verschoben. Der Vorgang kehrt anschließend zu Schritt 306 zurück, um die Werte von Γ_s,n und p_s,n für die M Frames zu berechnen, die vom verschobenen Fenster abgedeckt werden.
In 4 ist ein Beispiel eines verschobenen Fensters als Fenster 410 dargestellt, das die Frames 406, 408, 412 und 414 überspannt. Es wird darauf hingewiesen, dass bei dieser Ausführungsform das verschobene Fenster 410 das Fenster 400 teilweise überlappt. Dies ist bei der Verringerung von Diskontinuitäten der Werte von Γ_s,n und p_s,n hilfreich.
Da die Werte von p_s,n von den Übergangswahrscheinlichkeiten abhängig sind und die Werte der Übergangswahrscheinlichkeiten von p_s,n abhängig sind, werden bei einigen Ausführungsformen der vorliegenden Erfindung zahlreiche Iterationen ausgeführt, bei denen die Werte der Übergangswahrscheinlichkeiten bei Schritt 302 auf der Basis des neuen p_s,n aktualisiert werden, worauf die Werte von p_s,n bei Schritt 306 auf der Basis der aktualisierten Übergangswahrscheinlichkeiten aktualisiert werden. Bei Schritt 312 bestimmt der Vorgang, ob eine weitere Iteration zur Aktualisierung dieser Werte ausgeführt werden soll. Ist eine zusätzliche Iteration erforderlich, kehrt der Vorgang zu Schritt 302 zurück. Wenn keine weiteren Iterationen erforderlich sind, endet der Vorgang bei Schritt 314.
Die Berechnung, die vom Vorgang aus 3 ausgeführt wird, ist weitaus effizienter als vorherige Techniken zur Berechung von p_s,n. Insbesondere hat der Vorgang von 3 eine Berechungskomplexität der Ordnung O((MS)²N/J), die weitaus geringer ist als die Komplexität O((NS)³) des Standes der Technik.
Nachdem der Inferenzschritt abgeschlossen ist, werden die Werte für Γ_s,n und p_s,n beim Lernschritt verwendet, um die Werte der Modellparameter Θ = {Π_ss',A_1:S,a_1:S,B_1:S,C_1:S,c_1:S,D_1:S} wie folgt einzustellen:
{Π_s's wird durch ein separat trainiertes Sprachmodell oder ein phonotaktisches Modell eingestellt, das beschreibt, wie unterschiedliche Laute aufeinander folgen können. Dieses Modell kann vereinheitlicht werden, sofern eine derartige Erfahrung nicht verfügbar ist.

wobei γ_s,n rekursiv durch einen Forward Pass ermittelt wird:
Die Inferenz- und Lernschritte können einige Male wiederholt werden, um den Lernvorgang zu vervollständigen.
Spracherkennung
Nachdem der Lernvorgang der Modellparameter abgeschlossen wurde, können die Modellparameter und die Näherungswerte verwendet werden, um die Spracherkennung auszuführen. Dies beinhaltet das Identifizieren einer wahrscheinlichsten Sequenz von Spracheinheiten, wie etwa Lauten, bei einer gegebenen Sequenz von Beobachtungsmerkmalvektoren, die ein Sprachsignal darstellen.
In der Vergangenheit verlangte die Spracherkennung die Bestimmung von γ_s,n, wodurch die Wahrscheinlichkeit eines Zustandes zu einem Zeitpunkt n über das gesamte Sprachsegment erzeugt wird, wobei eine Backward-Forward-Rekursion erforderlich ist. Infolgedessen konnte die Spracherkennung nicht direkt in einem Viterbi-Decoder eingesetzt werden, wenn die Frames der Sprache empfangen wurden. Bei der Viterbi-Decodierung wird ein Path-Score für jeden Pfad in einen Zustand bei Frame n erzeugt. Der Pfad mit dem höchsten Path-Score in einen Zustand wird zurückgehalten, und die übrigen Pfade in diesen Zustand werden durch Pruning von einer weiteren Berücksichtigung ausgeschlossen. Bei einer Ausführungsform der vorliegenden Erfindung wird eine neue Formulierung für einen Path-Score bereitgestellt, der eine Sprachdecodierung gestattet, ohne dass die Bestimmung von γ_s,n explizit oder direkt erforderlich ist.
Der Path-Score beim vorliegenden Beispiel ist auf der Basis der Entdeckung der Erfinder aufgebaut, dass: p ~(yn|sn = s',sn-1 = s) = e∫s's,n|πs's Gl.22 p(sn = s'|sn-1 = s) = πs's Gl.23
Die Gleichungen 22 und 23 können kombiniert werden, um einen Path-Score zum Eintreten in den Zustand s aus dem Zustand s' zu erzeugen, der definiert ist als: Path_Score = e∫s's,n Gl.24
5 zeigt ein Blockschaltbild eines Spracherkennungssystems, bei dem dieser Path-Score Verwendung findet. In 5 werden die generativen Modellparameter, die mit dem oben beschriebenen Lernvorgang bestimmt werden, als generatives Modell 528 gespeichert.
Die Erkennung beginnt, wenn ein Sprecher 500 in ein Mikrofon 504 spricht. Das Mikrofon 504 empfängt daneben zusätzliche Geräusche von einer oder mehreren Geräuschquellen 502. Die Audiosignale, die vom Mikrofon 504 erfasst werden, werden in elektrische Signale umgewandelt, die einem Analog-Digital-Wandler 506 zugeführt werden.
Der A-D-Wandler 505 wandelt das analoge Signal vom Mikrofon 504 in eine Abfolge von Digitalwerten um. Bei einem Beispiel tastet der A-D-Wandler 506 das analoge Signal bei 16 kHz und 16 Bits pro Abtastung ab, wodurch er 32 kB von Sprachdaten pro Sekunde erzeugt. Die Digitalwerte werden einer Frame-Bildungseinrichtung 507 zugeführt, die bei einem Beispiel die Werte zu 25-Millisekunden-Frames gruppiert, die mit 10 Millisekunden Abstand beginnen.
Die Frames der Daten, die von der Frame-Bildungseinrichtung 507 erzeugt werden, werden einer Merkmal-Extrahiereinrichtung 508 zugeführt, die ein Merkmal aus jedem Frame extrahiert. Beispiele für Merkmal-Extrahier-Module beinhalten Module für die Ausführung einer LPC (LPC – Linear Predictive Coding), eines von der LPC abgeleiteten Cepstrums, einer PLP (PLP – Perceptive Linear Prediction), der Gehörmodell-Merkmal-Extraktion, und der MFCC-Merkmal-Extraktion (MFCC – Mel-Frequency Cepstrum Coefficients). Es wird darauf hingewiesen, dass das Beispiel nicht auf diese Merkmal-Extraktions-Module beschränkt ist, und dass andere Module im Zusammenhang mit dem vorliegenden Beispiel verwendet werden können.
Die Abfolge von Merkmalvektoren wird einer Lerneinrichtung 524 zugeführt, die nacheinander Sätze von Γ_s,n und p_s,n bestimmt, wobei jeder Satz einem überlappenden Fenster zugeordnet ist, wie es in 4 gezeigt ist. Insbesondere verwendet die Lerneinrichtung 524 die Parameter des generativen Modells 528 in den obigen Gleichungen 8 und 9 sowie die Beobachtungsvektoren für die Frames, die sich bei der momentanen Position des Fensters finden. Beobachtungsvektoren für Frames nach dem Fenster werden nicht verwendet, um die Werte von Γ_s,n und p_s,n für Frames in diesem Fenster zu bestimmen. Für Frames, die sich in mehr als einem Fenster finden, wird die Berechnung für das letzte Fenster, in dem sich der Frame befindet, als Wert von Γ_s,n und p_s,n für diesen Frame verwendet. Bei der Berechnung der Gleichungen 8 und 9 werden die A-posteriori-Übergangswahrscheinlichkeiten durch die Gleichungen 10 bis 12 eingestellt. Mit Hilfe der Fenstertechnik kann das vorliegende System beinahe in zeitlicher Abfolge arbeiten.
Sobald die Werte von Γ_s,n und p_s,n für einen Frame ermittelt wurden, werden sie in einem A-posteriori-Näherungsmodell 5127 angeordnet. Der Decoder 512 identifiziert anschließend die wahrscheinlichste Abfolge von Wörtern auf der Basis des Stroms von Merkmalvektoren, eines Wörterbuchs 514, eines Sprachmodells 516, des Näherungsmodells 527 und des generativen Modells 528.
Insbesondere verwendet der Decoder 512 den Path-Score von Gleichung 24, um einen wahrscheinlichsten Pfad in jeden Zustand für jeden Frame im momentanen Fenster zu bestimmen und zu wählen, das nicht vom nächsten Fenster überlappt wird. Da diese Art der Viterbi-Decodierung beim HMM-System des Standes der Technik allgemein Verwendung findet, ist der Decoder des vorliegenden Beispiels in der Lage, die Techniken, die entwickelt wurden, um die Effizienz der Viterbi-Decodierung zu verbessern, einschließlich unterschiedlicher Pruning-Techniken zum Verwerfen des wahrscheinlichsten Pfads in einige der Zustände zu nutzen, wodurch die Zahl von Path-Scores verringert wird, die bestimmt werden müssen. Mit anderen Worten entfernt das Pruning den besten Pfad, der für einige der Zustände gewählt wurde, wodurch Zustände erzeugt werden, die keine Pfade aufweisen, die in diese führen.
Die wahrscheinlichste Abfolge von Hypothesewörtern wird einem Konfidenz-Messmodul 520 zugeführt. Das Konfidenz-Messmodul 529 identifiziert teilweise auf der Basis eines zweiten akustischen Modells (nicht gezeigt), welche Wörter mit höchster Wahrscheinlichkeit durch die Spracherkennungseinrichtung unpas send identifiziert wurden. Das Zuverlässigkeits-Messmodul 520 führt anschließend die Abfolge von Hypothesewörtern einem Ausgabemodul 522 zusammen mit Identifikatoren zu, die kennzeichnen, welche Wörter unpassend identifiziert worden sein könnten. Der Fachmann wird erkennen, dass das Zuverlässigkeits-Messmodul 520 für die praktische Umsetzung des vorliegenden Beispiels nicht erforderlich ist.
Wenngleich die vorliegende Erfindung unter Bezugnahme auf spezielle Ausführungsformen beschrieben wurde, wird der Fachmann erkennen, dass Änderungen in Form und Detail vorgenommen werden können, ohne vom Geltungsbereich der Erfindung abzuweichen.

Claims

Verfahren zum Einstellen von A-posteriori-Wahrscheinlichkeits-Parametern für ein wechselndes Zustandsraummodell (switching state space model), wobei die A-posterion-Wahrscheinlichkeit die Likelihood eines Satzes verborgener Zustände für eine Sequenz von Rahmen auf Basis von Eingangswerten erzeugt, die mit der Sequenz von Rahmen verknüpft sind, und das Verfahren umfasst: Definieren (304) eines Fensters, das wenigstens zwei, jedoch weniger als alle der Rahmen in der Sequenz von Rahmen enthält; Bestimmen (306) eines separaten A-posteriori-Wahrscheinlichkeits-Parameters für jeden Rahmen in dem Fenster; Verschieben (310) des Fensters, so dass es wenigstens einen folgenden Rahmen in der Sequenz von Rahmen enthält, um ein verschobenes Fenster auszubilden; und Bestimmen (306) eines separaten A-posteriori-Wahrscheinlichkeits-Parameters für jeden Rahmen in dem verschobenen Fenster.
Verfahren nach Anspruch 1, wobei das verschobene Fenster wenigstens einen Rahmen enthält, der vor dem Verschieben in dem Fenster vorhanden war.
Verfahren nach Anspruch 1, wobei Bestimmen eines separaten A-posteriori-Wahrscheinlichkeits-Parameters für jeden Rahmen in einem Fenster Lösen eines Satzes simultaner Gleichungen für alle Rahmen in dem Fenster umfasst.
Verfahren nach Anspruch 3, wobei die verborgenen Zustände kontinuierlich sind.
Verfahren nach Anspruch 4, wobei Bestimmen eines separaten A-posteriori-Wahrscheinlichkeits-Parameters für jeden Rahmen des Weiteren Bestimmen eines separaten A-posterion-Wahrscheinlichkeits-Parameters für jeden eines Satzes diskreter verborgener Zustände umfasst, die sich von den kontinuierlichen verborgenen Zuständen unterscheiden.
Verfahren nach Anspruch 4, wobei die A-posteriori-Wahrscheinlichkeit die Wahrscheinlichkeit eines kontinuierlichen verborgenen Zustandes bereitstellt, wenn ein diskreter verborgener Zustand und ein Eingangswert vorgegeben sind.
Verfahren nach Anspruch 5, das des Weiteren vor Verschieben des Fensters Verwenden des A-posteriori-Wahrscheinlichkeits-Parameters, der für einen Rahmen bestimmt wird, zum Erzeugen eines Path-Scores zum Eintreten in einen diskreten verborgenen Zustand während des Rahmens umfasst.
Verfahren nach Anspruch 7, wobei Erzeugen eines Path-Scores Erzeugen eines Path-Scores als Teil einer Viterbi-Decodierung umfasst.