DE602004002312T2

DE602004002312T2 - Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells

Info

Publication number: DE602004002312T2
Application number: DE602004002312T
Authority: DE
Inventors: Issam Bazzi; Li Deng; Alejandro Acero
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-04-01
Filing date: 2004-04-01
Publication date: 2006-12-28
Anticipated expiration: 2024-04-02
Also published as: EP1465153A2; JP4718789B2; ATE339756T1; EP1465153B1; CN100562926C; DE602004002312D1; CN1534596A; JP2004310091A; EP1465153A3; KR20040088364A; US7424423B2; US20040199382A1; KR101026632B1

Description

Die vorliegende Erfindung bezieht sich auf Spracherkennungssysteme und im Besonderen auf Spracherkennungssysteme, die Formanten in der Sprache nutzen.
In der menschlichen Sprache ist eine erhebliche Informationsmenge in den ersten drei Resonanzfrequenzen oder Formanten des Sprachsignals enthalten. Insbesondere, wenn ein Sprecher einen Vokal ausspricht, zeigen die Frequenzen und Bandbreiten der Formanten an, welcher Vokal gesprochen wird.
Um Formanten zu ermitteln, analysierten Systeme nach dem Stand der Technik den spektralen Inhalt eines Rahmens des Sprachsignals. Da ein Formant in jeder Frequenz auftreten kann, hat man nach dem Stand der Technik versucht, den Suchraum einzugrenzen, bevor der wahrscheinlichste Formantenwert identifziert wird. Bei einigen der Systeme gemäß dem Stand der Technik wird der Suchraum möglicher Formanten durch die Identifizierung von Spitzen im spektralen Inhalt des Rahmens eingeschränkt. Üblicherweise erfolgt dies mit einer linearen prädiktiven Codierung (LPC), die versucht, ein Polynom zu finden, das den spektralen Inhalt eines Rahmens des Sprachsignals darstellt. Jede der Wurzeln dieses Polynoms stellt eine mögliche Resonanzfrequenz im Signal und somit einen möglichen Formanten dar. Daher wird unter Verwendung von LPC der Suchraum auf solche Frequenzen eingeengt, die die Wurzeln des LPC-Polynoms bilden.
In anderen Formanten-Verfolgungssystemen nach dem Stand der Technik wird der Suchraum reduziert, indem der spektrale Inhalt des Rahmens mit einem Satz von spektralen Vorlagen verglichen wird, in dem Formanten von einem Experten identifiziert wurden. Die engsten "n" Vorlagen werden dann ausgewählt und damit die Formanten für den Rahmen berechnet. Somit schränken diese Systeme den Suchraum auf diejenigen Formanten ein, die mit den engsten Vorlagen verbunden sind.
Obwohl Systeme, die den Suchraum einschränken, effizient arbeiten, sind sie fehleranfällig, weil sie die Frequenz des tatsächlichen Formantens bei der Einengung des Suchraums ausschließen können. Da darüber hinaus der Suchraum auf der Basis des Eingabesignals eingeengt wird, werden Formanten in verschiedenen Rahmen des Eingangssignals mit Hilfe unterschiedlicher Formaten-Suchräume identifiziert. Dies ist nicht ideal, da hiermit eine weitere Ebene möglicher Fehler in den Suchprozess eingeführt wird.
Daher ist ein Formantenverfolgungssystem erforderlich, das den Suchraum nicht dergestalt einschränkt, dass die Formanten in den verschiedenen Rahmen der Sprachsignale mit Hilfe unterschiedlicher Formanten-Suchräume identifiziert werden.
„Using Formant Frequencies in Speech Recognition", Eurospeech 1997, Seiten 2083 bis 2086, von J. N. et al., bezieht sich auf die Nutzung von Formanten-Frequenzen in der Spracherkennung. Es wird vorgeschlagen, dass ein Speicher von etwa 150 typischen Querschnitten verwendet wird, von denen jeder mit einem oder mehreren Sätzen plausibler Bezeichnungen der niedrigsten drei Formanten verknüpft wird. Jeder spektraler Eingangsquerschnitt wird zuerst mit allen gespeicherten Muster verglichen, um einige wenige auszuwählen, die die ähnlichste allgemeine Spektralform aufweisen. Diese wenigen Muster werden dann mittels einer dynamischen Programmiertechnik mit dem Eingangssignal in dem Frequenzbereich verglichen, um die Frequenzskalenverzerrung der gespeicherten Muster zu ermitteln, die die beste Abbildung der Eingabe darstellt. Die Kostenfunktion der dynamischen Programmierung enthält Komponenten, die von der Spektralebene, der Spektralneigung und der Umfang der Frequenzskalenverzerrung abhängen. Das Muster mit der besten dynamischen Programmierungsauswertung und etwaige engere Mitbewerber werden für eine weitere Betrachtung ausgewählt.
Es ist das Ziel der vorliegenden Erfindung, eine verbesserte Verfolgung von Formanten in einem Sprachsignal zu liefern.
Das Ziel wird durch die vorliegende Erfindung erreicht, die durch die Hauptansprüche definiert wird.
Die bevorzugten Ausführungsformen der vorliegenden Erfindung werden in den Unteransprüchen definiert.
Kurzbeschreibung der Zeichnungen
1 ist ein Blockdiagramm einer allgemeinen Computing-Umgebung, in der die Ausführungsformen der vorliegenden Erfindung ausgeübt werden können.
2 ist ein Graph des Größenspektrums eines Sprachsignals.
3 ist ein Flussdiagramm eines Verfahrens nach der vorliegenden Erfindung.
4 ist ein Blockdiagramm eines Trainingssystems zum Trainieren eines Residual-Modells nach einer Ausführungsform der vorliegenden Erfindung.
5 zeigt ein Blockdiagramm des Formanten-Verfolgungssystems in einer Ausführungsform der vorliegenden Erfindung.
Detaillierte Beschreibung der erklärenden Ausführungsformen
1 veranschaulicht ein Beispiel einer geeigneten Computing-System-Umgebung 100, in der die Erfindung implementiert werden kann. Die Computing-System-Umgebung 100 ist nur ein Beispiel einer geeigneten Computing-Umgebung und soll keine Einschränkung des Verwendungsbereichs oder der Funktionalität der Erfindung darstellen. Ebenso sollte die Computing-Umgebung 100 nicht so interpretiert werden, dass eine Abhängigkeit oder eine Erfordernis bezüglich einer oder der Kombination von Komponenten besteht, die in der beispielhaften Betriebsumgebung 100 veranschaulicht werden.
Die Erfindung funktioniert mit vielzähligen anderen allgemeinen oder Spezial-Computing-System-Umgebungen oder -Konfigurationen. Beispiele bekannter Computing-Systeme, – Umgebungen und/oder Konfigurationen, die für die Verwendung mit der Erfindung geeignet sein können, umfassen, sind aber nicht darauf beschränkt, Personal Computer, Server, Hand-held- oder Laptop-Geräte, Multiprozessorsysteme, Mikroprozessorbasierte Systeme, Settop-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframe-Computer, Telefonsysteme, verteilte Computing-Umgebungen, die beliebige der obigen Systeme oder Geräte enthalten oder Ähnliches.
Die Erfindung kann im allgemeinen Kontext von vom Computer ausführbaren Anweisungen beschrieben werden, wie Programmmodule, die von einem Computer ausgeführt werden. Im Allgemeinen enthalten die Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen etc., die bestimmte Aufgaben ausführen oder bestimmte abstrakten Datentypen implementieren. Die Erfindung ist konzipiert, um in verteilten Computing-Umgebungen ausgeübt zu werden, wobei Aufgaben durch entfernte Verarbeitungsgeräte ausgeführt werden, die über ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Computing-Umgebung befinden sich die Programmmodule auf Speichermedien von sowohl lokalen wie entfernten Computern einschließlich Hauptspeicher-Speichergeräten.
Bezugnehmend auf 1 enthält ein beispielhaftes System für die Implementierung der Erfindung ein allgemeines Computing-Gerät in Form eines Computers 110. Komponenten des Computers 110 können umfassen, sind aber nicht darauf beschränkt, eine Verarbeitungseinheit 120, einen Systemspeicher 130 und einen Systembus 121, der die verschiedenen Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinheit 120 koppelt. Der Systembus 121 kann einer von verschiedenen Arten von Busstrukturen sein, einschließlich eines Speicherbusses oder einer Speicher-Steuereinheit, einem peripheren Bus und einem lokalen Bus unter Verwendung einer aus einer Vielzahl von Busarchitekturen. Zu diesen Architekturen gehören zum Beispiel, was nicht aber als Einschränkung zu verstehen ist, der Industry Standard Architecture (ISA)-Bus, Micro Channel Architecture (MCA)-Bus, Enhanced ISA (EISA)-Bus, der lokale Video Electronics Standards Association (VESA)-Bus und der Peripheral Component Interconnect (PCI)-Bus, der auch als Mezzanine-Bus bezeichnet wird.
Der Computer 110 enthält üblicherweise eine Vielzahl von Computer-lesbaren Medien. Computer-lesbare Medien können beliebige verfügbare Medien sein, auf die der Computer 110 zugreifen kann, und enthalten sowohl flüchtige wie auch nicht flüchtige Medien sowie entfernbare und nicht entfernbare Medien. Computer-lesbare Medien können beispielsweise, was aber nicht als Einschränkung zu verstehen ist, Computer-Speichermedien und Kommunikationsmedien umfassen. Computer-Speichermedien umfassen sowohl flüchtige wie auch nicht flüchtige sowie entfernbare und nicht entfernbare Medien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen implementiert sein können, wie Computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten. Computer-Speichermedien umfassen, sind aber nicht darauf beschränkt, RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder anderen optischen Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplatten oder andere magnetische Speichergeräte oder jedes andere Medium, das zur Speicherung der gewünschten Informationen verwendet werden und auf das der Computer 110 zugreifen kann. Kommunikationsmedien enthalten üblicherweise Computer-lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem moduliertem Datensignal wie einer Trägerwelle oder einem anderen Transportmechanismus und umfassen beliebige Medien zur Bereitstellung der Informationen. Der Begriff "moduliertes Datensignal" bedeutet ein Signal, das eine oder mehrere Eigenschaften dergestalt eingestellt oder geändert hat, dass damit Informationen in dem Signal kodiert werden. Als Beispiel, und nicht als Einschränkung zu verstehen, umfassen Kommunikationsmedien drahtgebundene Medien, wie ein drahtgebundenes Netzwerk oder direktverbundenes Netzwerk, und zu den drahtlosen Medien gehören Akustik, Funk, Infrarot und andere drahtlose Medien. Kombinationen aus den obigen Elementen sollen auch im Geltungsbereich der Computer-lesbaren Medien enthalten sein.
Der Systemspeicher 130 umfasst Computer-Speichermedien in Form von flüchtigen und/oder nicht flüchtigem Speicher, wie Read Only Memory (ROM) 131 und Random Access Memory (RAM) 132. Ein Eingangs-/Ausgangs-Basissystem 133 (BIOS), das die grundlegenden Routinen enthält, mit denen Informationen zwischen den Elementen im Computer 110 übertragen werden, wie beim Hochfahren, wird üblicherweise im ROM 131 gespeichert. RAM 132 enthält üblicherweise Daten und/oder Programmmodule, auf die sofort zugegriffen werden kann und/oder die gegenwärtig von der Verarbeitungseinheit 120 betrieben werden. Als Beispiel, und nicht als Einschränkung zu verstehen, veranschaulicht 1 das Betriebssystem 134, die Anwendungsprogramme 135, weitere Programmmodule 136 und die Programmdaten 137.
Der Computer 110 kann auch weitere entfernbare/nicht entfernbare, flüchtige/nicht flüchtige Computer-Speichermedien enthalten. Nur als Beispiel veranschaulicht 1 ein Festplattenlaufwerk 141, das von dem nicht entfernbaren, nicht flüchtigem magnetischen Medium liest oder darauf schreibt, einem magnetischen Plattenlaufwerk 151, das von einer nicht entfernbaren, nicht flüchtigen magnetischen Platte 152 liest oder darauf schreibt, und einem optischen Plattenlaufwerk 155, das von einer entfernbaren, nicht flüchtigen optischen Platte 156, wie einer CD-ROM oder einem anderen optischen Medium, liest oder darauf schreibt. Weitere entfernbare/nicht-entfernbare, flüchtige/nicht flüchtige Computer-Speichermedien, die in einer beispielhaften Betriebsumgebung verwendet werden können, umfassen, sind aber nicht darauf beschränkt, magnetische Bandkassetten, Flash-Speicherkarten, Digital Versatile Disks, digitales Videoband, Halbleiter-RAM, Halbleiter-ROM und Ähnliches. Das Festplattenlaufwerk 141 ist üblicherweise mit dem Systembus 121 über eine nicht entfernbare Speicherschnittstelle wie die Schnittstelle 140 verbunden. Das magnetischen Plattenlaufwerk 151 und das optische Laufwerk 155 sind üblicherweise mit dem Systembus 121 durch eine entfernbare Speicherschnittstelle, wie die Schnittstelle 150, verbunden.
Die oben erörterten und in 1 dargestellten Laufwerke und die zugehörigen Computer-Speichermedien bieten Speicher für Computer-lesbare Anweisungen, Datenstrukturen, Programmmodule und andere Daten für den Computer 110. In 1 wird zum Beispiel ein Festplattenlaufwerk 141 zum Speichern des Betriebssystems 144, von Anwendungsprogrammen 145, weiteren Programmmodulen 146 und Programmdaten 147 veranschaulicht. Diese Komponenten können entweder mit dem Betriebssystem 134, Anwendungsprogrammen 135, anderen Programmmodulen 136 und Programmdaten 137 identisch oder davon verschieden sein. Betriebssystem 144, Anwendungsprogramme 145, weiter Programmmodule 146 und Programmdaten 147 werden hier mit unterschiedlichen Nummern versehen, um hier zu veranschaulichen, dass es sich zumindest um verschiedene Exemplare handelt.
Ein Benutzer kann Befehle und Informationen in den Computer 110 über Eingabegeräte wie die Tastatur 162, ein Mikrofon 163 und ein Zeigegerät 161, wie eine Maus, einen Trackball oder ein Touch Pad, eingeben. Zu den anderen Eingabegeräten (nicht dargestellt) können ein Joystick, ein Spielfeld (Garne Pad), eine Satellitenschüssel oder Ähnliches gehören. Diese und andere Eingangsgeräte werden oftmals mit der Verarbeitungseinheit 120 über die Benutzereingangsschnittstelle 160 verbunden, die mit dem Systembus gekoppelt ist, können aber auch durch andere Schnittstellen und Busstrukturen angeschlossen werden, wie der Parallel-Port, der Spiele-Port oder die USB (Universal Serial Bus)-Schnittstelle. Ein Bildschirm 191 oder eine andere Art von Anzeigegerät ist ebenso mit dem Systembus 121 über eine Schnittstelle verbunden, wie eine Videoschnittstelle 190. Zusätzlich zu dem Bildschirm können Computer auch andere periphere Ausgangsgeräte wie Lautsprecher 197 und Drucker 196 umfassen, die über eine periphere Ausgangsschnittstelle 195 verbunden sind.
Der Computer 110 wird in einer vernetzten Umgebung mit logischen Verbindungen zu einem oder mehreren entfernten Computern betrieben, wie einem entfernten Computer 180. Der entfernte Computer 180 kann ein Personal Computer, ein Hand-held-Gerät, ein Server, ein Router, ein Netzwerk-PC, ein gleichrangiges Gerät oder ein anderer allgemeiner Netzwerkknoten sein und enthält in der Regel viele oder alle der Elemente, die oben in Bezug auf Computer 110 beschrieben wurden. Die in 1 dargestellten logischen Verbindungen umfassen auch ein lokales Netzwerk (LAN) 171 und ein Fernnetzwerk (WAN) 173, können aber auch andere Netzwerke umfassen. Solche Netzwerkumgebungen sind in Büros, unternehmensweiten Computer-Netzwerken, Intranets und im Internet Gang und Gäbe.
Wenn in einer LAN-Netzwerkumgebung eingesetzt, wird der Computer 110 mit dem LAN 171 über die Netzwerkschnittstelle oder dem -adapter 170 verbunden. Wenn in einer WAN-Netzwerkumgebung eingesetzt, enthält der Computer 110 in der Regel ein Modem 172 oder eine andere Einrichtung zur Errichtung der Kommunikation über das WAN 173, wie dem Internet. Das Modem 172, das intern oder extern sein kann, kann an dem Systembus 121 über die Benutzereingangsschnittstelle 160 oder andere geeignete Mechansimen verbunden werden. In einer vernetzten Umgebung können die in Bezug auf den Computer 110 dargestellten Programmmodule oder Teile davon auf einem entfernten Speicher-Speicherungsgerät gespeichert werden. Als Beispiel und nicht als Einschränkung veranschaulicht 1 die entfernten Anwendungsprogramme 185 als sich auf einem entfernten Computer 180 befindend. Es sollte verstanden werden, dass die gezeigten Netzwerkverbindungen Beispiele sind und andere Mittel zur Errichtung einer Kommunikationsverbindung zwischen den Computern verwendet werden können.
2 ist ein Graph des Frequenzspektrums eines Abschnitt einer menschlichen Äußerung. In 2 wird die Frequenz entlang einer horizontalen Achse 200 und die Größe der Frequenzkomponenten wird entlang der vertikalen Achse 202 gezeigt. Der Graph von 2 zeigt, dass die menschliche Sprache Resonanzen oder Formanten enthält, wie den ersten Formanten 204, den zweiten Formanten 206, den dritten Formanten 208 und den vierten Formanten 210. Jeder Formant wird durch seine Mittenfrequenz F und seine Bandbreite B beschrieben.
Die vorliegende Erfindung stellt Verfahren zur Identifizierung der Formantenfrequenzen und -bandbreiten in einem Sprachsignal zur Verfügung. 3 ist ein allgemeines Flussdiagramm für diese Verfahren.
In Schritt 300 von 3 wird ein Formanten-Codebuch durch Quantisierung der möglichen Frequenzen und Bandbreiten der Formanten erstellt, um einen Satz quantisierter Werte und dann Einträge für unterschiedliche Kombinationen der quantisierten Werte zu bilden. Somit enthält das daraus entstehende Codebuch Einträge, die Vektoren der Frequenzen und Bandbreiten von Formanten sind. Wenn zum Beispiel das Codebuch Einträge für drei Formanten enthält, ist der i-te Eintrag im Codebuch x[i] ein Vektor [F_1i,B_1i,F_2i,B_2i,F_3i,B_3i], wobei F_1i,F_2i und F_3i die Frequenzen der ersten, zweiten und dritten Formanten und B_1i, B_2i und B_3i die Bandbreite für die ersten, zweiten und dritten Formanten darstellen.
Nach einer Ausführungsform werden die Formanten und Bandbreiten quantisiert gemäß den Einträgen in der unten stehenden Tabelle 1, wobei Min(Hz) der Mindestwert für den Formanten oder die Bandbreite in Hertz ist und Max(Hz) der Maximalwert in Hertz, sowie "Anzahl der Quant." die Anzahl der Quantisierungszustände. In den meisten Ausführungsformen werden die Formantenfrequenzen innerhalb der Bereiche auf eine Mel-Frequenzskala abgebildet und dann einheitlich quantisiert. Bei den Bandbreiten wird der Bereich zwischen dem Minimum und dem Maximum durch die Anzahl der Quantisierungszustände dividiert, um die Trennung zwischen allen Quantisierungszuständen zu liefern. Zum Beispiel wird für die Bandbreite B₁ in Tabelle 1 der Bereich von 260 Hz dergestalt gleichmäßig durch die Quantisierungszustände dividiert, dass jeder Zustand von den anderen Zuständen um 65 Hz getrennt ist. (d.h., 40, 105, 170, 235, 300).
Tabelle 1
Die Anzahl der Quantisierungszustände in Tabelle 1 könnte zusammen die Gesamtzahl von 1 Million verschiedener Formanten-Sätze ergeben. Da aber die Zwangsbedingung F₁ < F₂ < F₃ gilt, gibt es nur 767.500 Formanten-Sätze in dem Formanten-Suchraum, der durch das Codebuch definiert wird.
Nachdem das Codebuch gebildet wurde, wird jeder Eintrag x[i] im Codebuch auf einem simulierten Merkmalsvektor F(x[i]) in Schritt 302 abgebildet. Elemente, die für die Ausführung dieses Schrittes in einer Ausführungsform verwendet werden, werden in 4 dargestellt.
In der Ausführungsform 4 wird ein simulierter Merkmalsvektor für einen Eintrag in einem Codebuch 400 zuerst gebildet, indem eine z-Transferfunktion 402 auf der Basis des Eintrags durchgeführt wird. Diese z-Transferfunktion stellt ein allpoliges Modell des Sprachproduktionssystems dar, das nur auf den Formanten im Eintrag basiert.
Insbesondere ist die z-Transfer-Funktion definiert als:
wobei H(z) die Transferfunktion darstellt, G ist ein Verstärkungswert, der in den meisten Ausführungsformen eingestellt ist auf
wobei f eine Frequenz ist, F_S eine Abtastfrequenz ist, mit der Eingangssprachsignale abgetastet werden, F_k die Frequenz des k-ten von K Formanten im Eintrag und B_k die Bandbreite des k-ten Formanten ist.
Mit der Transferfunktion H(z) wird dann eine simulierte Sprachverteilung 404 generiert, die den Frequenzinhalt eines Sprachsignals darstellt, das nur aus den Formanten des Eintrags besteht. Dies erfolgt über die Berechnung des Wertes von H(z) für eine Vielzahl unterschiedlicher Frequenzen f.
Die spektrale Verteilung wird dann auf einen Satz von Filterbänken 406 angewendet, die bestimmte Frequenzbänder in der spektralen Verteilung betonen, wie in der Technik wohl bekannt ist. Die gefilterte Verteilung wird dann einer diskreten Cosinus-Umwandlungsfunktion 408 zugeordnet, die den Merkmalsvektor 410 für den Eintrag erzeugt. Der ursprüngliche Vektor enthält üblicherweise ein Element für den Gleichstrom- oder 0 Hz-Beitrag zum Sprachsignal. Um die Leistung des Systems zu verbessern, wird dieses Element in den meisten Ausführungsformen der vorliegenden Erfindung aus dem Merkmalsvektor entfernt.
Der oben beschriebene Prozess wird für jeden Eintrag im Codebuch wiederholt, so dass in jedem Eintrag ein eigener simulierter Merkmalsvektor besteht.
Wenn die simulierten Merkmalsvektoren F(x[i]) 410 gebildet wurden, werden Sie in Schritt 304 dazu verwendet, ein Residual-Modell zu trainieren. Das Residual-Modell ist ein Modell der Unterschiede zwischen einem Satz der beobachteten Training-Merkmalsvektoren und den simulierten Merkmalsvektoren. In Form einer Gleichung ausgedrückt: rt = ot – F(x) EQ.4wobei r_t das Residual ist, o_t der beobachtete Trainings-Merkmalsvektor zum Zeitpunkt t, und F(x) ein simulierter Merkmalsvektor ist.
In einer Ausführungsform wird r_t als einfache Gaußglocke mit einem Mittelwert μ und einer Kovarianz F modelliert, wobei μ ein Vektor mit einem eigenen Mittelwert für jede Komponente ist und F eine diagonale Kovarianzmatrix mit einem eigenen Wert für jede Komponente des Merkmalsvektors.
Um die beobachteten Trainings-Merkmalsvektoren zu erstellen, die zum Training des Residual-Modells verwendet werden, erzeugt ein menschlicher Sprecher 412 ein akustisches Signal, das durch ein Mikrofon 416 erkannt wird, das auch zusätzliche Geräusche 414 erkennt. Das Mikrophon 416 wandelt die akustischen Signale in ein analoges elektrisches Signal um, das an einen Analog-Digital (A/D)-Wandler 418 übergeben wird. Das analoge Signal wird durch den A/D-Wandler 418 mit der Abtastfrequenz F_S abgetastet und die daraus entstehenden Abtastungen werden in digitale Werte umgewandelt. In einer Ausführungsform tastet der A/D-Wandler 418 das analoge Signal bei 16 kHz mit 16 Bit pro Abtastung ab und erstellt so 32 KB an Sprachdaten pro Sekunde. Die digitalen Abtastungen werden an einen Rahmenerzeuger 420 übergeben, der die Abtastungen in Rahmen gruppiert. In einer Ausführungsform erstellt der Rahmenerzeuger 420 alle 10 Millisekunden einen neuen Rahmen, der für 25 Millisekunden Daten enthält.
Die Rahmen der Daten werden an einen Merkmalsextrahierer 422 übergeben, der in einer Ausführungsform aus einer Fast Fourier Transform (FFT) 424, einer Filterbank 426 und einer diskreten Cosinus-Transformation 428 besteht. FFT 424 wandelt die digitalen Werte des Zeitbereichs in einen Satz von digitalen Werten des Frequenzbereichs um, in dem der spektrale Inhalt des Rahmens dargestellt wird. Der spektrale Inhalt wird dann durch die Filterbank 426 und die diskrete Cosinus-Transformation 428 übergeben, die den spektralen Inhalt in einer ähnlichen Weise filtern und transformieren, wie die Filterbank 406 und die diskrete Cosinus-Transformation 408 die spektrale Verteilung für die Einträge in dem Formanten-Codebuch filtern und transformieren. Der Ausgang der diskreten Cosinus-Transformation 428 ist ein Satz von Trainings-Merkmalsvektoren 430, die das Trainings-Sprachsignal darstellen. Man beachte, dass die Gleichstrom- oder 0 Hz-Komponente des Trainingsvektors entfernt ist, wenn dieses Element aus den simulierten Merkmalsvektoren entfernt wurde.
Die Filterbänke 406 und 426 und die diskreten Cosinus-Transformationen 408 und 428 können durch andere Elemente ersetzt werden, solange dieselbe Verarbeitung bei der spektralen Verteilung der Einträge im Formanten-Codebuch und des spektralen Inhalts der Rahmen der Trainingssprache durchgeführt wird. Somit ist die vorliegende Erfindung nicht auf eine bestimmte Art von Merkmalsvektor beschränkt.
Die simulierten Merkmalsvektoren 410 und die Trainings-Merkmalvektoren 430 werden von einem Residual-Modell-Trainer 432 verwendet, um ein Residual-Modell 434 zu bilden. In einer Ausführungsform verwendet der Residual-Modell-Trainer 432 einen Erwartungsmaximierungs-Algorithmus (EM), um den Mittelwert μ und die Kovarianzmatrix F des Residual-Modells zu trainieren. Mit den standardmäßigen EM-Berechnungen und unter der Annahme, dass verborgene Formantenwerte einheitlich verteilt werden, lauten Aktualisierungsgleichungen für den Mittelwert und die Kovarianz wie folgt:
wobei
der aktualisierte Mittelwert ist,
der aktualisierte Kovarianzwert, N((o_t – F(x[i]))); μ', Σ' das Gaußsche Residual-Modell mit einem Mittelwert μ' ist, der in einer vorherigen Trainingsiteration bestimmt wurde, und eine Kovarianzmatrix Σ', die in einer vorherigen Trainingsiteration bestimmt wurde. I ist die Anzahl der Einträge im Codebuch und T die Anzahl der Rahmen in der Trainings-Äußerung. Man beachte, dass die EQ. 5 und 6 für jede Komponente des Mittelwertvektors und jede Zelle der Kovarianzmatrix gelöst werden. Somit werden in den EQ. 5 und 6 die Differenzen (o_t – F(x[i] – ǔ) und (o_t – F(x[i])) Komponente für Komponente berechnet.
Der Residual-Modell-Trainer 432 aktualisiert den Mittelwert und die Kovarianz mehrere Male, wobei jedes Mal der Mittelwert und die Kovarianz aus der vorherigen Iteration verwendet wird, um das in den EQ. 5 und 6 verwendete Modell zu definieren. Nachdem der Mittelwert und die Kovarianz stabile Werte erreicht haben, werden sie als Residual-Modell 434 gespeichert.
Nachdem das Residual-Modell 434 erstellt wurde, kann es in Schritt 306 von 3 zur Identifizierung von Formanten in einem Eingangssprachsignal verwendet werden Ein Blockdiagramm eines Systems zur Identifizierung von Formanten wird in 5 dargestellt.
In 5 wird ein Sprachsignal durch einen Lautsprecher 512 erzeugt. Das Sprachsignal und die zusätzlichen Geräusche 514 werden in einem Strom von Merkmalsvektoren 530 durch ein Mikrophon 516, einen A/D-Wandler 518, einen Rahmererzeuger 520 und einen Merkmalsextrahierer 522 umgewandelt, die aus einer FFT 524, Filterbänken 526 und einer diskreten Cosinus-Transformation 528 bestehen. Man beachte, dass das Mikrophon 516, der A/D-Wandler 518, der Rahmenerzeuger 520 und ein Merkmalsextrahierer 522 in ähnlicher Weise arbeiten wie das Mikrophon 416, der A/D-Wandler 418, der Rahmenerzeuger 420 und der Merkmalsextrahierer 422 von 4. Man beachte, dass wenn die Gleichstromkomponente des Merkmalsvektors aus den simulierten Merkmalsvektoren entfernt wurde, diese auch aus den Eingangs-Merkmalsvektoren entfernt wird, die von dem Merkmalsextrahierer 522 erstellt wurden.
Der Strom des Merkmalsvektors 530 wird einem Formanten-Verfolger 532 zusammen mit dem Residual-Modell 434 und den simulierten Merkmalsvektoren 410 übergeben. Der Formanten-Verfolger 532 verwendet eine von mehreren Techniken nach der vorliegenden Erfindung, um einen Satz von Formanten für jedem Rahmen des Sprachsignals zu identifizieren.
Bei einem Satz von Techniken der vorliegenden Erfindung bestimmt der Formanten-Verfolger 532 die Formanten für jeden Rahmen unabhängig dergestalt, das die Formanten eines aktuellen Rahmens nicht von den Formanten in anderen Rahmen abhängen. Bei einer solchen Technik wird eine Bestimmung der höchsten Wahrscheinlichkeit vorgenommen, bei der der Formanten-Eintrag x[i] im Codebuch, der die Wahrscheinlichkeit im Residual-Modell maximiert, als der Formanten-Satz für den Rahmen ausgewählt wird. In Form einer Gleichung ausgedrückt:
Die Ausführungsform von EQ. 7 ist auf das Ermitteln von Formanten beschränkt, die sich in den quantisierten Einträgen im Codebuch befinden. Um diese Beschränkung zu vermeiden, identifiziert eine zweite Ausführungsform der vorliegenden Erfindung die Formanten eines Rahmens mit Hilfe einer Schätzung des kleinsten mittleren quadrierten Fehlers (Minimum Mean Squared Error, MMSE), die gegeben ist durch:
wobei EQ. 8 für jede Komponente des x[i]-Vektors ausgewertet wird. Somit ist jede Frequenz und Bandbreite der Formanten im letztendlich identifizierten Vektor
eine gewichtete Summe der Frequenzen und Bandbreiten der Formanten in den Einträgen im Codebuch, wobei der Gewichtungswert die Wahrscheinlichkeit ist, die vom Residual-Modell unter Verwendung des Codebuch-Eintrags generiert wird. Unter Verwendung von EQ. 8 sind fortlaufende Werte der Frequenzen und Bandbreiten der Formanten möglich.
In anderen Ausführungsformen der vorliegenden Erfindung nutzt der Formanten-Verfolger 532 Kontinuitäts-Zwangsbedingungen bei der Identifizierung von Formanten. In einer solchen Ausführungsform hängen die Werte der Formanten im aktuellen Rahmen von den Werten der Formanten in einem vorherigen Rahmen ab, so dass: xt = xt-1 + wt EQ.9wobei x_t der Satz von Frequenzen und Bandbreiten von Formanten im Rahmen t ist, x_t-1 der Satz von Frequenzen und Bandbreiten von Formanten im vorherigen Rahmen t-1 ist, und w eine Gaußglocke mit einem Null-Mittwelwert und einer diagonalen Kovarianz Σ_w, die so festgelegt ist, dass jeder Wert entlang der Diagonalen proportional zu einem Quantisierungsfehler ist, der mit einer bestimmten Komponente in den Vektoren des Codebuchs verknüpft ist. Dieser Quantisierungsfehler entspricht dem Bereich der möglichen Werte für das Element des Formanten-Vektors geteilt durch die Anzahl der Quantisierungszustände für das Element. Die Varianz, die zum Beispiel mit der Frequenz des Formanten F₁ verknüpft ist, wäre proportional zum Verhältnis des Bereichs möglicher Werte für die Frequenz des Formanten F₁ (700 Hz) zur Anzahl der Quantisierungszustände, die zur Quantisierung der Frequenz des Formanten F₁(20) genutzt werden. Somit wäre die Varianz für die Frequenz von Formanten F₁ proportional zu 35.
Unter Verwendung dieses Modells wird die Wahrscheinlichkeit des Übergangs von einem Satz von Formanten in einem vorherigen Rahmen auf einen Satz von Formanten in einem aktuellen Rahmen, p(x[i_t]x[x_t-1]), ermittelt, indem auf einen Satz von Formanten des aktuellen Rahmens eine Gaussche Verteilung angewendet wird, wobei der Mittelwert gleich der Menge von Formanten für den vorherigen Rahmen und einer Kovarianzmatrix gleich S_W ist.
Die Folge von Formanten in einer Folge von Merkmalsvektoren kann dann identifiziert werden durch eine Verwendung der MAP-Schätzung:
wobei das erste Produkt auf der rechten Seite die Wahrscheinlichkeit einer Folge von Sätzen von Formanten ist, wie durch das Residual-Modell vorhergesagt, und die restlichen Produkte Übergangswahrscheinlichkeiten für den Übergang zwischen Sätzen von Formanten sind. Daher liefert EQ. 10 die Gesamtwahrscheinlichkeit einer Folge von Sätzen von Formanten für eine Folge von Rahmen des Sprachsignals.
EQ. 10 kann mit einer standardmäßigen Viterbi-Suche berechnet werden, bei der für jeden Eintrag ein eigener Knoten im Formanten-Codebuch in jedem Rahmen vorliegt. Die Suche beinhaltet dann das Durchlaufen der Rahmen, wobei die Pfade in die Knoten in jedem neuen Rahmen mit EQ. 10 erweitert werden. Bei jedem Rahmen können Pfade mit geringer Wahrscheinlichkeit abgeschnitten werden, so dass die Anzahl der zu betrachtenden aktiven Pfade reduziert wird. Wenn der letzte Rahmen erreicht ist, wurde ein Gitter der führenden „n" Pfade erzeugt. Der wahrscheinlichste Pfad wird dann ausgewählt und die Sätze von Formanten, die mit den Knoten entlang diesem Pfad verknüpft sind, werden als Formantenfolge für das Sprachsignal identifiziert.
In einer weiteren Ausführungsform der vorliegenden Erfindung wird die oben beschriebene Viterbi-Suche erweitert, um eine Schätzung des kleinsten mittleren quadrierten Fehlers (MMSE) der Formanten zu bilden. Anstatt der Auswahl des wahrscheinlichsten Pfades beim letzten Rahmen, wird jeder der „n" besten Pfade zur Bildung einer MMSE-Schätzung von Formanten in jedem Rahmen genutzt. Für jeden gegebenen Rahmen ist die MMSE-Schätzung gleich der gewichteten Summe der Formantenknoten, die Pfade aufweisen, die sie im Rahmen durchlaufen. Der gewichtete Wert, der einem Knoten zugeordnet wird, ist gleich der Wahrscheinlichkeit des wahrscheinlichsten Pfades, der in diesen Knoten führt, mal der Wahrscheinlichkeit des wahrscheinlichsten Pfades, der den Knoten verlässt. In Form einer Gleichung ausgedrückt:
wobei
und V einen Satz von Knoten in den Rahmen definiert, die sich in den Pfaden befinden, die durch die Viterbi-Decodierung identifiziert werden.
Obwohl die vier Techniken zur Verfolgung von Formanten unter Verwendung eines Residual-Modells und einer Abbildung (mapping) aus dem Formantenraum auf dem Merkmalsvektorraum oben beschrieben wurden, ist die vorliegende Erfindung nicht auf diese Formantenverfolgungstechniken beschränkt. Weitere Techniken, die ein Residual-Modell und/oder eine Abbildung aus dem Formantenraum auf dem Merkmalsvektorraum nutzen, liegen im Geltungsbereich der vorliegenden Erfindung.
Obwohl die vorliegende Erfindung mit Bezug auf bestimmte Ausführungsformen beschrieben wurde, werden Kenner der Technik erkennen, dass Änderungen in der Form und im Detail gemacht werden können, ohne vom Geltungsbereich der Erfindung abzuweichen.

Claims

Verfahren zum Verfolgen von Formanten in einem Sprachsignal, das aus Rahmen besteht, wobei das Verfahren umfasst: Definieren eines Formanten-Suchraums, der Sätze von Formanten umfasst; und Identifizieren von Formanten in einem ersten Rahmen des Sprachsignals unter Verwendung der Gesamtheit des Formanten-Suchraums durch Nutzung einer Abbildungs-Beziehung (mapping) zwischen einem Satz von Formanten und einem Merkmalsvektor; dadurch gekennzeichnet, dass der Schritt des Identifizierens von Formanten in einem ersten Rahmen des Sprachsignals des Weiteren Nutzen eines Residual-Modells umfasst, das eine Differenz zwischen einem Eingangs-Merkmalsvektor, der einen Rahmen des Sprachsignals repräsentiert, und dem Merkmalsvektor modelliert, der aus einem Satz von Formanten abgebildet wird.
Verfahren nach Anspruch 1, wobei das Residual-Modell unter Verwendung eines Erwartungsmaximierungs-Algorithmus trainiert wird.
Verfahren nach Anspruch 1, wobei Nutzen des Residual-Modells sequenzielles Anwenden von Merkmalsvektoren, die von jedem der Sätze von Formanten in dem Formanten-Suchraum abgebildet werden, auf das Residual-Modell umfasst, um eine Wahrscheinlichkeit für jeden Satz von Formanten zu identifizieren.
Verfahren nach Anspruch 3, wobei Identifizieren einer Wahrscheinlichkeit für einen Satz von Formanten des Weiteren Bestimmen einer Wahrscheinlichkeit zum Übergehen von einem Satz von in einem vorangehenden Rahmen identifizierter Formanten zu dem Satz von Formanten in dem ersten Rahmen umfasst.
Verfahren nach Anspruch 4, das des Weiteren Identifizieren einer Gesamtwahrscheinlichkeit für jede einer Vielzahl von Sequenzen eines Satzes von Formanten für eine Sequenz von Rahmen in dem Sprachsignal umfasst.
Verfahren nach Anspruch 5, wobei Identifizieren eines Satzes von Formanten für den ersten Rahmen Auswählen der Sequenz von Sätzen von Formanten mit der höchsten Gesamtwahrscheinlichkeit umfasst.
Verfahren nach Anspruch 5, wobei Identifizieren eines Satzes von Formanten für den ersten Rahmen Anstellen einer Berechnung des minimalen mittleren quadratischen Fehlers unter Verwendung der Sätze von Formanten, die auf den ersten Rahmen in jeder der Sequenzen von Sätzen von Formanten ausgerichtet sind, umfasst.
Computerlesbares Medium, das durch Computer ausführbare Befehle zum Durchführen von Schritten aufweist, die umfassen: Empfangen eines Eingangs-Merkmalsvektors, der einen Rahmen eines Sprachsignals repräsentiert; und Abbilden eines Satzes von Formanten auf einem simulierten Merkmalsvektor; und gekennzeichnet durch Anwenden des Eingangs-Merkmalsvektors und des simulierten Merkmalsvektors auf ein Residual-Modell, das eine Differenz zwischen dem Eingangs-Merkmalsvektor und dem simulierten Merkmalsvektor modelliert, um eine Wahrscheinlichkeit zu bestimmen, dass der Satz von Formanten in dem Rahmen des Sprachsignals vorhanden ist.
Computerlesbares Medium nach Anspruch 8, wobei Abbilden eines Satzes von Formanten Bestimmen einer Übergangsfunktion aus dem Satz von Formanten, Erzeugen einer spektralen Verteilung auf Basis der Übergangsfunktion und Schaffen eines Merkmalsvektors auf Basis der spektralen Verteilung umfasst.
Computerlesbares Medium nach Anspruch 8, wobei Abbilden eines Satzes von Formanten Abbilden einer Vielzahl von Sätzen von Formanten auf eine Vielzahl simulierter Merkmalsvektoren vor Empfangen eines Eingangs-Merkmalsvektors umfasst.
Computerlesbares Medium nach Anspruch 10, das des Weiteres Trainieren des Residual-Modells unter Verwendung simulierter Merkmalsvektoren und einer Vielzahl von Trainings-Merkmalsvektoren umfasst, die aus einem Trainings-Sprachsignal erzeugt werden.
Computerlesbares Medium nach Anspruch 10 oder Verfahren nach Anspruch 3, wobei Identifizieren eines Satzes von Formanten Identifizieren des Satzes von Formanten mit der höchsten Wahrscheinlichkeit als den Satz von Formanten für den Rahmen umfasst.
Computerlesbares Medium nach Anspruch 10 oder Verfahren nach Anspruch 3, wobei Identifizieren eines Satzes von Formanten Durchführen einer Berechnung des minimalen mittleren quadratischen Fehlers unter Verwendung der Wahrscheinlichkeit für den Satz von Formanten umfasst.