DE602004007223T2 - Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen - Google Patents

Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen Download PDF

Info

Publication number
DE602004007223T2
DE602004007223T2 DE602004007223T DE602004007223T DE602004007223T2 DE 602004007223 T2 DE602004007223 T2 DE 602004007223T2 DE 602004007223 T DE602004007223 T DE 602004007223T DE 602004007223 T DE602004007223 T DE 602004007223T DE 602004007223 T2 DE602004007223 T2 DE 602004007223T2
Authority
DE
Germany
Prior art keywords
vocal tract
linear
tract resonance
vector
equation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004007223T
Other languages
English (en)
Other versions
DE602004007223D1 (de
Inventor
Alejandro c/o Microsof Acero
Hagai c/o Microsof Attias
Leo J. c/o Microsof Lee
Li c/o Microsof Deng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602004007223D1 publication Critical patent/DE602004007223D1/de
Application granted granted Critical
Publication of DE602004007223T2 publication Critical patent/DE602004007223T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Spracherkennungssysteme, und insbesondere betrifft die Erfindung Spracherkennungssysteme, die sich Vokaltraktresonanzen in der Sprache zu Nutze machen.
  • Bei der menschlichen Sprache ist ein Großteil der Informationen in den ersten drei oder vier Resonanzfrequenzen des Sprachsignals enthalten. Genauer gesagt bedeutet dies, dass, wenn ein Sprecher einen Vokal ausspricht, die Frequenzen (und zu einem geringeren Grad, die Bandbreiten) dieser Resonanzen anzeigen, welcher Vokal gesprochen wird.
  • Solche Resonanzfrequenzen und Resonanzbandbreiten werden in ihrer Gesamtheit oftmals als Formanten bezeichnet. Im Verlauf der sonoren Sprache, die typischerweise stimmhaft ist, können Formanten als Spektralprominenzen in einer Frequenzrepräsentation des Sprachsignals vorgefunden werden. Im Verlauf der nicht sonoren Sprache können die Formanten jedoch nicht direkt als Spektralprominenzen vorgefunden werden. Aufgrund dieser Tatsache wurde der Begriff „Formanten" mitunter so interpretiert, dass er sich lediglich auf die sonoren Bestandteile der Sprache bezog. Um Verwirrung zu vermeiden, verwenden einige Forscher den Begriff „Vokaltraktresonanz", um sich auf Formanten zu beziehen, die während der sonoren und der nicht sonoren Sprache auftreten. In beiden Fällen bezieht sich die Resonanz lediglich auf den Abschnitt des Oraltraktes des Vokaltraktes.
  • Um Formanten zu erfassen, analysierten Systeme des Standes der Technik den Spektralinhalt eines Rahmens (Frame) eines Sprachsignals. Da ein Formant bei einer beliebigen Frequenz liegen kann, unternahmen Systeme des Standes der Technik den Versuch, den Suchraum zu begrenzen, bevor ein Formantenwert identifiziert wurde, der am wahrscheinlichsten erschien. In Übereinstimmung mit einigen Systemen des Standes der Technik wird der Suchraum von möglichen Formanten durch Identifizieren von Spit zen in dem Spektralinhalt des Rahmens reduziert. Typischerweise wird dies durch Verwendung der linearen Vorhersage (LPC – linear predictive coding) erreicht, die versucht, ein Polynom zu finden, das den Spektralinhalt eines Rahmens des Sprachsignals darstellt. Jede der Wurzeln dieses Polynoms repräsentiert eine mögliche Resonanzfrequenz in dem Signal und demzufolge einen möglichen Formanten. Auf diese Weise wird unter Verwendung von LPC der Suchraum auf jene Frequenzen begrenzt, die Wurzeln des LPC-Polynoms bilden.
  • In anderen Systemen zum Verfolgen von Formanten entsprechend dem Stand der Technik wird der Suchraum begrenzt, indem der Spektralinhalt des Rahmens mit einem Satz aus Spektralmuster, in denen die Formanten durch einen Experten identifiziert worden sind, verglichen wird. Die am nächsten liegenden „n" Muster werden anschließend ausgewählt und zum Berechnen der Formanten für den Rahmen verwendet. Auf diese Weise reduzieren diese Systeme den Suchraum auf jene Formanten, die mit den am nächsten liegenden Mustern assoziiert sind.
  • In dem Dokument „Formant Tracking with Quasilinearization" (G. Rigoll, 1988, International Conference on Acoustics, Speech, and Signal Processing ICASSP, 11. April 1988, Seiten 306 bis 310) wird ein neuer Algorithmus für die Berechnung von Formant-Spuren aus einem Sprachsignal präsentiert. Er basiert auf dem Verfahren der Quasilinearisierung, einem Schätzungsverfahren für nichtlineare Parameter. Da der Algorithmus Formanten direkt mit Hilfe eines Schätzungsverfahrens für Parameter herleitet, stützt es sich auf ein Modell für die Spracherzeugung, welches direkt die Formanten als Parameter hat.
  • Ein System des Standes der Technik, welches durch dieselben Erfinder wie die der vorliegenden Erfindung entwickelt wurde, verwendete einen konsistenten Suchraum, der derselbe für jeden Rahmen eines Eingangssignals war. Jeder Satz von Formanten in dem Suchraum wurde auf einem Merkmalsvektor abgebildet. Jeder dieser Merkmalsvektoren wurde anschließend auf ein Modell angewendet, mit dem bestimmt wurde, welcher Satz an Formanten der wahrscheinlichste ist.
  • Dieses System funktioniert gut, ist jedoch hinsichtlich des Rechenaufwandes kostenintensiv, da es typischerweise Mel-Frequenz-Cepstrum-Koeffizienten-Frequenzvektoren verwendet, die die Anwendung eines Satzes von Frequenzen auf ein komplexes Filter, das auf sämtlichen Formanten in dem Satz von Formanten, der abgebildet wird, basiert, gefolgt von einem Fensterbildungs-Schritt und einem Schritt der diskreten Kosinustransformation, um die Formanten auf den Merkmalsvektoren abzubilden, erforderlich machen. Diese Berechnung erwies sich als zu zeitraubend, als dass sie während der Laufzeit durchgeführt werden könnte, und demzufolge mussten sämtliche der Sätze von Formanten vor der Laufzeit abgebildet werden, und die abgebildeten Merkmalsvektoren mussten in einer sehr großen Tabelle gespeichert werden. Diese Situation entspricht nicht wirklich dem Idealfall, da es eine beachtliche Menge an Speicherplatz zum Speichern von sämtlichen der abgebildeten Merkmalsvektoren erfordert.
  • In einem weiteren System, das durch die vorliegenden Erfinder entwickelt worden ist, wird ein Satz an diskreten Vokaltrakt-Resonanzvektoren in einer Codetabelle gespeichert. Jeder dieser diskreten Vektoren wird in einen simulierten Merkmalsvektor umgewandelt, der mit einem eingegebenen Merkmalsvektor verglichen wird, um zu bestimmen, welcher diskrete Vektor ein eingegebenes Sprachsignal am besten repräsentiert. Dieses System entspricht nicht wirklich dem Idealfall, da es keine kontinuierlichen Werte für die Vokaltrakt-Resonanzvektoren bestimmt, sondern eines der diskreten Vokaltrakt-Resonanzcodewörter auswählt. Diskretisierte Vokaltrakt-Resonanzvektoren werden in dem Dokument: „Tracking vocal tract resonances using an analytical nonlinear predictor and a target-guided temporal constraint" von Deng L et al, in Proc. Eurospeech 2003, Seiten 73 bis 76 offenbart.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Erfindung stellt ein Verfahren zum Verfolgen von Vokaltrakt-Resonanzfrequenz in einem Sprachsignal gemäß mit Anspruch 1 und ein entsprechendes computerlesbares Medium bereit.
  • Ein Verfahren und eine Vorrichtung verfolgen Vokaltrakt-Resonanzkomponenten in einem Sprachsignal. Die Komponenten werden durch Definieren einer Zustandsgleichung, die in Bezug auf einen vergangenen Vokaltrakt-Resonanzvektor linear ist und einen aktuellen Vokaltrakt-Resonanzvektor vorhersagt, verfolgt. Darüber hinaus wird eine Beobachtungsgleichung definiert, die in Bezug auf einen aktuellen Vokaltrakt- Resonanzvektor linear ist und die wenigstens eine Komponente eines Beobachtungsvektors vorhersagt. Die Zustandsgleichung, die Beobachtungsgleichung und eine Sequenz von Beobachtungsvektoren werden zum Identifizieren einer Sequenz von Vokaltrakt-Resonanzvektoren verwendet. In Übereinstimmung mit einer Ausführungsform wird die Beobachtungsgleichung auf Basis einer linearen Näherung an eine nicht lineare Funktion definiert. Die Parameter der linearen Näherung werden auf Basis eines Schätzwertes eines Vokaltrakt-Resonanzvektors ausgewählt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm einer allgemeinen Rechenumgebung, in der die Ausführungsformen der vorliegenden Erfindung umgesetzt werden können.
  • 2 ist ein Graph des Magnitudenspektrums eines Sprachsignals.
  • 3 ist ein Diagramm, das eine stückweise lineare Näherung an eine Exponentialfunktion darstellt.
  • 4 ist ein Diagramm, das eine stückweise lineare Näherung an eine Sinusfunktion darstellt.
  • 5 ist ein Ablaufdiagramm eines Verfahrens in Übereinstimmung mit der vorliegenden Erfindung.
  • 6 ist ein Blockdiagramm eines Trainingssystems zum Trainieren eines Restwertmodells.
  • 7 ist ein Blockdiagramm eines Systems zum Verfolgen von Formanten in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER ILLUSTRATIVEN AUSFÜHRUNGSFORMEN
  • 1 illustriert ein Beispiel einer geeigneten Rechensystemumgebung 100, in der die Erfindung implementiert werden kann. Die Rechensystemumgebung 100 ist lediglich ein Beispiel einer geeigneten Rechenumgebung, und es ist nicht beabsichtigt, dass sie irgendeine Einschränkung hinsichtlich des Umfanges der Verwendung oder der Funktionalität der Erfindung suggeriert. Darüber hinaus sollte die Rechenumgebung 100 auch nicht dahingehend interpretiert werden, dass sie in irgendeiner Form eine Abhängigkeit hinsichtlich einer beliebigen oder einer Kombination der in der exemplarischen Betriebsumgebung 100 dargestellten Komponenten aufweist oder dass diese zwingend erforderlich sind.
  • Die Erfindung kann mit einer Vielzahl von anderen Universal- oder Spezialrechensystemumgebungen oder -konfigurationen betrieben werden. Beispiele von gut bekannten Rechenssystemen, Rechenumgebungen und/oder Rechenkonfigurationen, die möglicherweise für die Verwendung mit der Erfindung geeignet sind, umfassen, sind jedoch nicht beschränkt auf, Personalcomputer, Servercomputer, Handgeräte oder Laptop-Vorrichtungen, Multiprozessorsysteme, auf Mikroprozessoren basierende Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronikgeräte, Netzwerk-PCs, Minicomputer, Großrechner, Telefoniesysteme, verteilte Rechenumgebungen, die beliebige der voranstehend erwähnten Systeme oder Vorrichtungen umfassen, oder Ähnliches.
  • Die Erfindung kann im allgemeinen Kontext von durch Computer ausführbaren Befehlen, wie beispielsweise Programmmodulen, die durch einen Computer ausgeführt werden, beschrieben werden. Im Allgemeinen umfassen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, und so weiter, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung ist so eingerichtet, dass sie in verteilten Rechenumgebungen umgesetzt wird, in denen Aufgaben durch dezentrale Verarbeitungsvorrichtungen, die über ein Kommunikationsnetzwerk verbunden sind, ausgeführt werden. In einer verteilten Rechenumgebung sind Programmmodule sowohl in lokalen als auch dezentralen Computerspeichermedien einschließlich Speichervorrichtungen angeordnet.
  • In Bezug auf 1 umfasst ein exemplarisches System zum Implementieren der Erfindung eine Universalrechenvorrichtung in Form eines Computers 110. Komponenten des Computers 110 können eine Verarbeitungseinheit 120, einen Systemspeicher 130 und einen Systembus 121, der verschiedene Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinheit 120 koppelt, umfassen, sie sind jedoch nicht auf die Genannten beschränkt. Der Systembus 121 kann ein beliebiger von mehreren Typen von Busstrukturen einschließlich eines Speicherbuses oder einer Speichersteuereinheit, eines Peripheriebuses und eines lokalen Buses, der eine beliebige Architektur von einer Reihe verschiedener Busarchitekturen verwendet, sein. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen solche Architekturen den ISA-(Industry Standard Architecture) Bus, den MCA-(Micro Channel Architecture) Bus, den EISA-(Enhanced ISA) Bus, den lokalen VESA-(Video Electronics Standards Association) Bus, und den PCI-(Peripheral Component Interconnect) Bus, ebenfalls bekannt als Mezzanine-Bus.
  • Der Computer 110 umfasst typischerweise eine Reihe verschiedener computerlesbarer Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die durch den Computer 110 zugegriffen werden kann, und sie umfassen sowohl flüchtige als auch nicht-flüchtige Medien, entnehmbare und nicht-entnehmbare Medien. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien umfassen sowohl flüchtige als auch nicht-flüchtige, entnehmbare und nicht-entnehmbare Medien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen wie beispielsweise computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten implementiert sind. Computerspeichermedien umfassen, sind jedoch nicht beschränkt auf einen Direktzugriffspeicher RAM, einen Festwertspeicher ROM, einen elektronisch löschbaren programmierbaren Lesespeicher EEPROM, einen Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, DVD (Digital Versatile Disk) oder andere optische Plattenspeicher, Magnetkassetten, ein Magnetband, einen Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet werden kann und auf das durch den Computer 110 zugegriffen werden kann. Kommunikationsmedien verkörpern typischerweise computerlesbare Befehle, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus und umfassen beliebige Informationsübertragungsmedien. Der Begriff „moduliertes Datensignal" bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigen schaften so eingestellt oder verändert sind, dass Informationen in dem Signal kodiert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, sowie drahtlose Medien, wie beispielsweise akustische, HF-, Infrarot- oder andere drahtlose Medien. Kombinationen beliebiger der voranstehend Erwähnten sollten ebenfalls in den Umfang der computerlesbaren Medien einbezogen werden.
  • Der Systemspeicher 130 enthält Computerspeichermedien in Form eines flüchtigen und/oder eines nicht-flüchtigen Speichers, wie beispielsweise eines Festwertspeichers (ROM) 131 und eines Direktzugriffsspeichers (RAM) 132. Ein Basis-Eingabe/Ausgabesystem 133 (BIOS), das die allgemeinen Routinen enthält, welche das Übertragen von Informationen zwischen den Elementen innerhalb des Computers 110, wie beispielsweise während des Hochfahrens unterstützt, ist in dem ROM 131 gespeichert. Der RAM 132 enthält typischerweise Daten und/oder Programmmodule, auf die unmittelbar durch die Verarbeitungseinheit 120 zugegriffen werden kann und/oder die gleichzeitig durch die Verarbeitungseinheit 120 verarbeitet werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 ein Betriebssystem 134, Anwendungsprogramme 135, weitere Programmmodule 136 und Programmdaten 137.
  • Der Computer 110 kann darüber hinaus auch andere entnehmbare/nicht-entnehmbare flüchtige/nicht-flüchtige Computerspeichermedien umfassen. Im Sinne eines Beispiels illustriert 1 ein Festplattenlaufwerk 141 zum Lesen von oder Schreiben auf nichtentnehmbare, nicht-flüchtiges Magnetmedien, ein Magnetplattenlaufwerk 151 zum Lesen von oder Schreiben auf eine entnehmbare, nicht-flüchtige Magnetplatte 152, sowie ein optisches Plattenlaufwerk 155 zum Lesen von oder Schreiben auf eine entnehmbare, nicht-flüchtige optische Platte 156, wie beispielsweise eine CD-ROM oder andere optische Medien. Weitere entnehmbare/nicht-entnehmbare flüchtige/nicht-flüchtige Computerspeichermedien, die in der exemplarischen Betriebsumgebung verwendet werden können, umfassen, sind jedoch nicht beschränkt auf Magnetbandkassetten, Flash-Speicherkarten, DVDs (Digital Versatile Disks), digitales Videoband, Solid State RAM, Solid State ROM und Ähnliches. Das Festplattenlaufwert 141 ist typischerweise über eine Schnittstelle für nicht-entnehmbare Speicher, wie beispielsweise die Schnittstelle 140 mit dem Systembus 121 verbunden, und das Magnetplattenlaufwerk 151 und das opti sche Plattenlaufwerk 155 sind typischerweise durch eine Schnittstelle für entnehmbare Speicher, wie beispielsweise die Schnittstelle 150 mit dem Systembus verbunden.
  • Die Laufwerke und ihre verbundenen Computerspeichermedien, die voranstehend diskutiert wurden und in 1 dargestellt sind, stellen das Speichern von computerlesbaren Befehlen, Datenstrukturen, Programmmodulen und anderen Daten für den Computer 110 bereit. In 1 wird das Festplattenlaufwert 141 beispielsweise so dargestellt, dass es das Betriebssystem 144, Anwendungsprogramme 145, andere Programmmodule 146 sowie Programmdaten 147 speichert. Hierbei ist zu beachten, dass diese Komponenten entweder dieselben sein können, wie die des Betriebssystems 134, der Anwendungsprogramme 135 oder der anderen Programmmodule 136 und der Programmdaten 137 oder auch von diesen abweichen können. Das Betriebssystem 144, die Anwendungsprogramme 145 oder die anderen Programmmodule 146 sowie die Programmdaten 147 werden hier mit anderen Zahlen versehen, um zu illustrieren, dass es sich hierbei wenigstens um unterschiedliche Kopien handelt.
  • Ein Benutzer kann Befehle und Informationen über Eingabegeräte, wie beispielsweise eine Tastatur 162, ein Mikrofon 163 und eine Zeigevorrichtung 161, wie beispielsweise eine Maus, ein Trackball oder ein Touchpad in den Computer 110 eingeben. Andere Eingabegeräte (nicht dargestellt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder Ähnliches umfassen. Diese und andere Eingabegeräte sind oftmals über eine Benutzereingabeschnittstelle 160, die an den Systembus angeschlossen ist, mit der Verarbeitungseinheit 120 verbunden, wobei die Eingabegeräte auch durch andere Schnittstellen und Busstrukturen, wie beispielsweise einen Parallelanschluss, einen Gameanschluss oder einen Universal Serial Bus (USB) verbunden sein können. Ein Monitor 191 oder ein anderer Typ von Anzeigegerät ist ebenfalls über eine Schnittstelle, wie beispielsweise einen Videoadapter 190 mit dem Systembus 121 verbunden. Zusätzlich zu dem Monitor können Computer auch andere Peripherieausgabegeräte, wie beispielsweise Lautsprecher 197 und Drucker 196 umfassen, die über eine Ausgabeperipherieschnittstelle verbunden sein können.
  • Der Computer 110 wird in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren dezentralen Computern, wie beispielsweise dem dezentralen Computer 180 betrieben. Bei dem dezentralen Computer 180 kann es sich um einen Personalcomputer, ein Handgerät, einen Server, einen Router, einen Netzwerk-PC, ein Partnergerät oder einen anderen allgemeinhin verwendeten Netzwerkknoten handeln, und er umfasst typischerweise viele oder sämtliche der voranstehend im Zusammenhang mit dem Computer 110 beschriebenen Elemente. Die in 1 dargestellten logischen Verbindungen umfassen ein Local Area Network (LAN) 171 und ein Wide Area Network (WAN) 173, sie können jedoch auch andere Netzwerke umfassen. Solche Netzwerkumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet weit verbreitet.
  • Wenn der Computer 110 in einer LAN-Netzwerkumgebung verwendet wird, ist er über eine Netzwerkschnittstelle oder einen Adapter 170 an das lokale Netz LAN 171 angeschlossen. Wenn der Computer 110 in einer WAN-Netzwerkumgebung verwendet wird, umfasst er typischerweise ein Modem 172 oder eine andere Vorrichtung zum Herstellen von Verbindungen über das Wide Area Network (WAN) 173, wie beispielsweise dem Internet. Das Modem 172, das ein internes oder ein externes Modem sein kann, ist über die Benutzereingabeschnittstelle 160 oder einen anderen geeigneten Mechanismus an den Systembus 121 angeschlossen. In einer Netzwerkumgebung können die im Zusammenhang mit dem Computer 110 dargestellten Programmmodule oder Abschnitte davon in der dezentralen Speichervorrichtung gespeichert sein. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 dezentrale Anwendungsprogramme 185, die auf dem dezentralen Computer 180 installiert sind. Es wird offensichtlich sein, dass die dargestellten Netzwerkverbindungen exemplarischen Charakter besitzen und dass andere Vorrichtungen zum Herstellen einer Kommunikationsverbindung zwischen den Computern verwendet werden können.
  • 2 ist ein Graph des Frequenzspektrums eines Abschnittes menschlicher Sprache. In 2 wird die Frequenz entlang der horizontalen Achse 200 dargestellt, und die Magnitude der Frequenzkomponenten wird entlang der vertikalen Achse 202 dargestellt. Der Graph von 2 zeigt, dass sonore menschliche Sprache Resonanzen oder Formanten enthält, so wie beispielsweise den ersten Formant 204, den zweiten Formant 206, den dritten Formant 208 und den vierten Formant 210. Jeder Formant wird durch seine Mittenfrequenz, F, und seine Bandbreite, B, beschrieben.
  • Die vorliegende Erfindung stellt Verfahren zum Identifizieren von Frequenzen und Bandbreiten von Formanten in einem Sprachsignal in einem kontinuierlichen Bereich von Formanten-Frequenzen und Formanten-Bandbreiten, sowohl in der sonoren als auch in der nicht sonoren Sprache bereit. Dementsprechend ist die vorliegende Erfindung in der Lage, Vokaltrakt-Resonanzfrequenzen und Vokaltrakt-Resonanzbandbreiten zu verfolgen.
  • Um dieses Ziel zu erreichen, erstellt die vorliegende Erfindung ein Modell der versteckten Vokaltrakt-Resonanzfrequenzen und Vokaltrakt-Resonanzbandbreiten als eine Sequenz von versteckten Zuständen, die jeweils eine Beobachtung erzeugen. In einer bestimmten Ausführungsform wird ein Modell der versteckten Vokaltrakt-Resonanzfrequenzen und Vokaltrakt-Resonanzbandbreiten unter Verwendung einer Zustandsgleichung erstellt, die wie folgt lautet:
    Figure 00100001
    und einer Beobachtungsgleichung, die wie folgt lautet, erstellt:
    Figure 00100002
    wobei xt, ein versteckter Vokaltrakt-Resonanzvektor zum Zeitpunkt t ist, der aus xt = {f1, b1, f2, b2, f3, b3, f4, b4} gebildet ist, xt–1 ist ein versteckter Vokaltrakt-Resonanzvektor zu einem vorhergehenden Zeitpunkt t–1, I ist die Identitätsmatrix, T ist ein Zielvektor für die Vokaltrakt-Resonanzfrequenzen und die Vokaltrakt-Resonanzbandbreiten, wt ist Geräusch in der Zustandsgleichung, ot ist ein beobachteter Vektor, C(xt) ist eine Abbildungsfunktion von dem versteckten Vokaltrakt-Resonanzvektor auf den Beobachtungsvektor, und νt, ist das Geräusch in der Beobachtung. In Übereinstimmung mit einer Ausführungsform ist Φ eine diagonale Matrix, bei der jeder Eintrag einen Wert zwischen 0,7 und 0,9 aufweist, der empirisch bestimmt worden ist, und T ist ein Vektor, der in einer Ausführungsform den folgenden Wert aufweist:
    (500 1500 2500 3500 200 300 400 400)T
  • In Übereinstimmung mit dieser Ausführungsform weisen die Geräuschvektoren wt und νt Werte auf, die durch Gaußsche Zufallsmuster mit einem gemittelten Null-Vektor und mit diagonalen Kovarianzmatrizen bestimmt werden. Die diagonalen Elemente dieser Matrizen in dieser Ausführungsform weisen Werte zwischen 10 und 30.000 für wt und Werte zwischen 0,8 und 78 für νt auf.
  • In Übereinstimmung mit einer Ausführungsform ist der beobachtete Vektor ein LPC-(Linear Predictive Coding – Linearvorhersage) Cepstrum-Vektor, bei dem jede Komponente des Vektors eine LPC-Ordnung darstellt. Als Ergebnis kann die Abbildungsfunktion C(xt) auf genaue Weise durch eine analytische nicht lineare Funktion bestimmt werden. Die n-te Komponente der vektor-gewerteten Funktion C(xt) für den Rahmen t ist:
    Figure 00110001
    wobei Cn(xt) das n-te Element in einer N-ten Ordnung des LPC-Cepstrum-Merkmalsvektors ist, K ist die Anzahl von Vokaltrakt-Resonanz-(VTR) Frequenzen, fk(t) ist die k-te VTR-Frequenz für den Rahmen t, bk(t) ist die k-te VTR-Bandbreite für den Rahmen t, und f3 ist die Abtastfrequenz, die in vielen Ausführungsformen bei 8 kHz liegt und die in anderen Ausführungsformen 16 kHz beträgt. Das C0-Element wird so eingestellt, dass es logG entspricht, wobei G eine Verstärkung ist.
  • Um eine Sequenz von versteckten Vokaltrakt-Resonanzvektoren aus einer Sequenz von Beobachtungsvektoren zu identifizieren, verwendet die vorliegende Erfindung ein Kalman-Filter. Ein Kalman-Filter stellt ein rekursives Verfahren bereit, mit dessen Hilfe man einen besten Schätzwert der kontinuierliche Werte aufweisenden Vokaltrakt-Resonanzvektoren in dem linearen dynamischen System, das durch die Gleichungen 1 und 2 repräsentiert wird, bestimmen kann. Solche Kalman-Filter sind auf dem Gebiet der Technik gut bekannt.
  • Das Kalman-Filter erfordert, dass die rechte Seite der Gleichungen 1 und 2 in Bezug auf den versteckten Vokaltrakt-Resonanzvektor linear ist. Die in Gleichung 3 dargestellte Abbildungsfunktion ist jedoch in Bezug auf den Vokaltrakt-Resonanzvektor nicht linear. Um dieses Problem zu lösen, verwendet die vorliegende Erfindung stückweise lineare Näherungen anstelle des Exponententerms und des Kosinusterms in Gleichung 3. In Übereinstimmung mit einer Ausführungsform wird der Exponententerm durch fünf lineare Bereiche dargestellt, und der Kosinusterm wird durch zehn lineare Bereiche dargestellt.
  • 3 zeigt ein Beispiel einer stückweise linearen Näherung an den Exponententerm in Gleichung 3. Der Wert des Exponenten wird entlang der vertikalen Achse 300 dargestellt, und der Wert der Bandbreite bk für die k-te VTR-Bandbreite wird entlang der horizontalen Achse 302 dargestellt. In 3 werden fünf lineare Segmente 304, 306, 308, 310 und 312 für die Näherung des Graphs des Exponenten 314 verwendet. Die folgende Tabelle stellt Bereiche von Exponentenwerten dar, die jedes der linearen Segmente abdeckt.
  • Figure 00120001
    Tabelle 1
  • 4 zeigt ein Beispiel einer stückweise linearen Näherung an den Kosinusterm in Gleichung 3. Der Wert der Kosinusfunktion wird entlang der vertikalen Achse 400 dargestellt, und der Wert der Frequenz fk für die k-te VTR-Frequenz wird entlang der horizontalen Achse 402 dargestellt. In 4 wird ein einzelner Zyklus der Kosinusfunktion dargestellt, es wird den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik jedoch offensichtlich sein, dass dieselben stückweise linearen Näherungen für jeden Zyklus der Kosinusfunktion verwendet werden können. In Übereinstimmung mit 4 wird die Kosinusfunktion 424 um zehn lineare Segmente 404, 406, 408, 410, 412, 414, 416, 418, 420 und 422 genähert. Die untenstehende Tabelle 2 stellt den nicht einheitlichen Bereich von Kosinuswerten dar, die durch jedes lineare Segment abgedeckt sind, wobei angenommen wird, dass der volle Zyklus den Frequenzbereich von 0 Hz bis 8000 Hz abdeckt.
  • Figure 00130001
    Tabelle 2
  • Durch Verwendung dieser linearen Näherungen wird die Gleichung 3 wie folgt umgestellt:
    Figure 00130002
    wobei αkx der Anstieg ist und βkx der Abschnitt des linearen Segmentes ist, der den Exponententerm nähert, γkx ist der Anstieg, und δkx ist der Abschnitt des linearen Segmentes, der den Kosinusterm nähert. Hierbei ist zu beachten, dass alle vier Terme von xt abhängen, da die linearen Segmente, die zum Nähern der nicht linearen Funktionen verwendet werden, auf Basis des Bereiches ausgewählt werden, der durch den Wert von xt in Übereinstimmung mit Tabelle 1 und Tabelle 2 bestimmt wird.
  • Die Form der Abbildungsfunktion in Gleichung 4 ist aufgrund des quadratischen Terms in xt immer noch nicht linear. In Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung wird der ansteigende Abschnitt dieses Terms nicht berücksichtigt, was in einer linearen Gleichung von xt zu Cn(xt) resultiert.
  • In dieser Form wird, so lange die Parameter auf Basis der Bereiche des in den Tabellen 1 und 2 exemplarisch dargestellten Segmentes festgelegt werden, ein Kalman-Filter direkt angewendet, um die Sequenz von kontinuierlich gewerteten Zuständen x1:T aus einer Sequenz von beobachteten LPC-Merkmalsvektoren o1:T zu erhalten.
  • 5 stellt ein allgemeines Ablaufdiagramm eines Verfahrens zum Auswählen von linearen Näherungen und zum Verwenden der Näherung in einem Kalman-Filter, um eine Sequenz von kontinuierlich gewerteten Zuständen unter Verwendung der Gleichungen 1, 2 und 4 zu erhalten, wobei der ansteigenden Abschnitt des quadratischen Terms in Gleichung 4 nicht berücksichtigt wird, dar. Die 6 und 7 stellen Blockdiagramme von Komponenten, die in dem in 5 dargestellten Verfahren verwendet werden, dar.
  • In Schritt 500 der 5 wird eine Vokaltraktresonanz-(VTR) Codetabelle, die in einer Tabelle gespeichert wird, durch Quantisieren der möglichen VTR-Frequenzen und VTR-Bandbreiten, um einen Satz von quantisierten Werten zu bilden, und um anschließend Einträge für verschiedene Kombinationen der quantisierten Werte zu bilden, dargestellt. Auf diese Weise enthält die resultierende Codetabelle Einträge, die Vektoren der VTR-Frequenzen und der VTR-Bandbreiten sind. Wenn beispielsweise die Codetabelle Einträge für vier VTR enthält, wäre der i-te Einträg x[i] in der Codetabelle ein Vektor aus [F1i, B1i, F2i, B2i, F3i, B3i, F4i, B4i], wobei F1i, F2i, F3i und F4i die Frequenzen der ersten, der zweiten, der dritten und der vierten VTR sind, und B1i, B2i, B3i und B4i die Bandbreiten der ersten, der zweiten, der dritten und der vierten VTR sind. In der untenstehenden Diskussion wird der Index der Codetabelle austauschbar mit dem Wert verwendet, der an diesem Index gespeichert ist x[i]. Wenn der Index untenstehend allein verwendet wird, wird es beabsichtigt, den Wert zu repräsentieren, der an diesem Index gespeichert ist.
  • In Übereinstimmung mit einer Ausführungsform werden die Formanten und die Bandbreiten entsprechend den Einträgen in der untenstehenden Tabelle 3 quantisiert, wobei Min(Hz) der Mindestwert für die Frequenz oder die Bandbreite in Hertz ist, Max(Hz) der Höchstwert in Hertz ist, und „Num. Quant." die Anzahl von Quantisierungszuständen ist. Für die Frequenzen und die Bandbreiten wird der Bereich zwischen dem Mindestwert und dem Höchstwert durch die Anzahl von Quantisierungszuständen dividiert, um die Trennung zwischen einem jeden der Zustände zu erhalten. So wird beispielsweise für die in Tabelle 3 dargestellte Bandbreite B1 der Bereich von 260 Hz gleichmäßig durch die 5 Quantisierungszustände dividiert, so dass ein jeder Zustand um 65 Hz von den anderen Zuständen getrennt ist (das heißt, 40, 105, 170, 235, 300).
  • Figure 00150001
    Tabelle 3
  • Die Anzahl der Quantisierungszustände in Tabelle 3 könnte eine Gesamtanzahl von mehr als 100 Millionen unterschiedlichen Sätzen von VTR ergeben. Aufgrund der Einschränkung F1 < F2 < F3 < F4 sind jedoch wesentlich weniger Sätze von VTR in der Codetabelle vorhanden.
  • Nachdem die Codetabelle gebildet worden ist, werden die Einträge in der Codetabelle verwendet, um in Schritt 502 die Parameter zu trainieren, die eine Restwert-Zufallsvariable beschreiben. Die Restwert-Zufallsvariable ist die Differenz zwischen einem Satz von Beobachtungstrainings-Merkmalsvektoren und einem Satz von simulierten Merkmalsvektoren. In Form einer Gleichung ausgedrückt, bedeutet dies Folgendes:
    Figure 00150002
    wobei νt der Restwert ist, ot der beobachtete Trainings-Merkmalsvektor zum Zeitpunkt t ist und S(xt[i]) ein simulierter Merkmalsvektor ist.
  • Wie dies in 6 dargestellt ist, werden die simulierten Merkmalsvektoren S(xt[i]) 610 bei Bedarf durch Anwenden eines Satzes von VTR xt[i] in der VTR-Codetabelle 600 auf eine LPC-Cepstrum-Recheneinrichtung 602 erzeugt, wobei der Rechner die folgende Gleichung ausführt:
    Figure 00160001
    wobei Sn(xt[i]) das n-te Element in einem LPC-Cepstrum-Merkmalsvektor der n-ten Ordnung ist, K ist die Anzahl an VTR, ft ist die k-te VTR-Frequenz, bk ist die k-te VTR-Bandbreite, und fS ist die Abtastfrequenz, die in vielen Ausführungsformen bei 8 Hz liegt. Das S0-Element wird so eingestellt, dass es logG entspricht, wobei G eine Verstärkung ist.
  • Um die beobachteten Trainings-Merkmalsvektoren ot zu erzeugen, die zum Trainieren des Restwert-Modells verwendet werden, erzeugt ein menschlicher Sprecher 612 ein akustisches Signal, das durch ein Mikrofon 616 erfasst wird, welches ebenfalls Zusatzgeräusch 614 erfasst. Das Mikrofon 616 wandelt die akustischen Signale in ein analoges elektrisches Signal um, das einem Analog/Digital-(A/D) Wandler 618 zugeführt wird. Das analoge Signal wird durch den Analog/Digital-(A/D) Wandler 618 bei der Abtastfrequenz f abgetastet, und die resultierenden Abtastwerte werden in digitale Werte umgewandelt. In einer Ausführungsform tastet der Analog/Digital-(A/D) Wandler 618 das analoge Signal bei 8 Hz mit 16 Bits pro Abtastwert ab, wodurch 16 Kilobytes an Sprachdaten pro Sekunde erzeugt werden. In anderen Ausführungsformen tastet der Analog/Digital-(A/D) Wandler 618 das analoge Signal bei 16 Hz ab. Die digitalen Abtastwerte werden einer Rahmen-Erzeugungseinrichtung 620 zugeführt, die die Abtastwerte in Rahmen gruppiert. In Übereinstimmung mit einer Ausführungsform erzeugt die Rahmenerzeugungseinrichtung 620 aller 10 Millisekunden einen neuen Rahmen, der Daten einer Menge von 25 Millisekunden enthält.
  • Die Rahmen von Daten werden einer LPC-Cepstrum-Merkmals-Extrahiereinrichtung 622 zugeführt, die das Signal unter Verwendung der schnellen Fourier-Transformation (Fast Fourier Transformation – FFT) 624 in den Frequenzbereich umwandelt und anschließend unter Verwendung eines LPC-Koeffizientensystems 626 ein Polynom identifiziert, das den Spektralinhalt eines Rahmens des Sprachsignals repräsentiert. Die LPC-Koeffzienten werden unter Verwendung einer Rekursion 628 in LPC-Cepstrum- Koeffizienten umgewandelt. Die Ausgabe der Rekursion ist ein Satz von Trainings-Merkmalsvektoren 630, die das Trainings-Sprachsignal repräsentieren.
  • Die simulierten Merkmalsvektoren 610 und die Trainings-Merkmalsvektoren 630 werden der Restwert-Trainingseinrichtung 632 zugeführt, die die Parameter für den Restwert νt trainiert.
  • In Übereinstimmung mit einer Ausführungsform ist νt ein einzelner Gaußscher Wert mit dem Mittelwert h und einer Präzision D, wobei h ein Vektor mit einem separaten Mittelwert für jede Komponente des Merkmalsvektors ist und D eine diagonale Präzisionsmatrix mit einem separaten Wert für jede Komponente des Merkmalsvektors ist.
  • Diese Parameter werden in Übereinstimmung mit einer Ausführungsform unter Verwendung eines Expectation-Maximization-(EM) Algorithmus trainiert. Während des E-Schrittes dieses Algorithmus wird eine Posteriorwahrscheinlichkeit γt (i) = p(xt[i]∣⁣ot N) bestimmt. In Übereinstimmung mit einer Ausführungsform wird diese Posteriorwahrscheinlichkeit unter Verwendung einer Vorwärts-Rückwärts-Rekursion bestimmt, die folgendermaßen definiert ist:
    Figure 00170001
    wobei pt(i) und σt(i) rekursiv folgendermaßen bestimmt werden:
    Figure 00170002
  • In Übereinstimmung mit einem Aspekt der Erfindung werden die Übergangswahrscheinlichkeiten p(xt[i]∣⁣xt–1[j]) und p(xt[i]∣⁣xt+1[j]) unter Verwendung der obenstehenden Gleichung 1 bestimmt, die an dieser Stelle unter Verwendung der Indexbezeichnung der Codetabelle aus Gründen eines leichteren Verständnisses wiederholt wird:
    Figure 00180001
    wobei xt[i] der Wert der VTR an dem Rahmen t ist, xt–1[j] ist der Wert der VTR an dem vorhergehenden Rahmen t – 1, Φ ist eine Rate, T ist ein Ziel für die VTR, die mit dem Rahmen t assoziiert sind, und wt ist das Geräusch an dem Rahmen t, von dem in einer Ausführungsform angenommen wird, dass er in einer Ausführungsform ein gemittelter Gaußscher Nullwert mit einer Präzisionsmatrix B ist.
  • Durch Verwendung dieses dynamischen Modells können die Übergangswahrscheinlichkeiten als Gaußsche Funktionen beschrieben werden:
    Figure 00180002
  • Alternativ dazu kann die Posteriorwahrscheinlichkeit γt(i) = p(xt[i]∣⁣ot N) dadurch geschätzt werden, dass es so eingerichtet wird, dass die Wahrscheinlichkeit lediglich von dem aktuellen Beobachtungsvektor und nicht der Sequenz von Vektoren abhängig ist, so dass die Posteriorwahrscheinlichkeit folgenden Ausdruck annimmt:
    Figure 00180003
    die folgendermaßen berechnet werden kann:
    Figure 00180004
    wobei
    Figure 00180005
    der Mittelwert des Restwertes ist, und
    Figure 00180006
    die Präzision des Restwertes, wie dieser anhand einer vorhergehenden Iteration des EM-Algorithmus bestimmt wurde, oder wie dieser anfänglich eingestellt wird, wenn es sich um die erste Iteration handelt, ist.
  • Nachdem der E-Schritt durchgeführt ist, um die Posteriorwahrscheinlichkeit γt(i) = p(xt[i]∣⁣ot N) zu identifizieren, wird ein M-Schritt durchgeführt, um den Mittelwert h und jedes diagonale Element d–1 der Varianz D–1 (das Inverse der Präzisionsmatrix) des Restwertes unter Verwendung der folgenden Gleichungen zu bestimmen:
    Figure 00190001
    wobei N die Anzahl von Rahmen in der Trainings-Aussprache ist, I ist die Anzahl von Quantisierungskombinationen für die VTR, ot ist der beobachtete Merkmalsvektor zum Zeitpunkt t und S(xt[i]) ist ein simulierter Merkmalsvektor für die VTR xt[i].
  • Die Restwert-Trainingseinrichtung 632 aktualisiert den Mittelwert und die Varianz mehrere Male durch Iterieren des E-Schrittes und des M-Schrittes, wobei jedes Mal der Mittelwert und die Varianz der vorhergehenden Iteration verwendet werden. Nachdem der Mittelwert und die Varianz stabile Werte erreicht haben, werden sie als Restwert-Parameter 634 gespeichert.
  • Wenn die Restwert-Parameter 634 erzeugt worden sind, können sie in Schritt 504 von 5 verwendet werden, um die VTR-Vektoren in einem eingegebenen Sprachsignal zu identifizieren. Ein Blockdiagramm eines Systems zum Identifizieren von VTR-Vektoren ist in 7 dargestellt.
  • In 7 wird durch einen Sprecher 712 ein Sprachsignal erzeugt. Das Sprachsignal sowie zusätzliches Geräusch 714 werden durch ein Mikrofon 716, einen A/D-Wandler 718, eine Rahmen-Erzeugungseinrichtung 722 und eine Merkmals-Extrahiereinrichtung 722, die aus einer Fast Fourier Transformation FTT 724 gebildet ist, einem LPC-System 726 und einer Rekursion 728 in einen Strom von Merkmalsvektoren 730 umgewandelt.
  • Hierbei ist zu beachten, dass das Mikrofon 716, der A/D-Wandler 718, die Rahmen-Erzeugungseinrichtung 720 und die Merkmals-Extrahiereinrichtung 722 auf ähnliche Weise wie das Mikrofon 616, der A/D-Wandler 618, die Rahmen-Erzeugungseinrichtung 620 und die Merkmals-Extrahiereinrichtung 622 aus 6 arbeiten.
  • Der Strom an Merkmalsvektoren 730 wird zusammen mit den Restwert-Parametern 634 und den simulierten Merkmals-Vektoren 610 einer VTR-Verfolgungseinrichtung 732 zugeführt. Die VTR-Verfolgungseinrichtung 732 verwendet ein dynamisches Programmieren, um eine Sequenz der wahrscheinlichsten VTR-Vektoren 734 zu identifizieren. Genauer gesagt, verwendet die Einrichtung einen Viterbi-Decodierungsalgorithmus, bei dem jeder Knoten in dem Trellis-Diagramm einen optimalen Teilwert hat, der wie folgt lautet:
    Figure 00200001
  • Auf Basis des Optimalitätsprinzips kann die optimale Teilwahrscheinlichkeit in der Verarbeitungsstufe von t + 1 unter Verwendung der folgenden Viterbi-Rekursion berechnet werden:
    Figure 00200002
  • In Gleichung 18 wird die „Übergangs"-Wahrscheinlichkeit p(xt+1[i] = x[i]∣⁣xt[i] = x[i']) unter Verwendung der voranstehenden Zustandsgleichung 10 zum Erzeugen einer Gaußschen Verteilung, die wie folgt definiert ist, berechnet:
    Figure 00200003
    wobei Φxt[i] + (I – Φ)T der Mittelwert der Verteilung ist und B die Präzision der Verteilung ist.
  • Die Beobachtungswahrscheinlichkeit p(ot+1∣⁣x1+j[i] = x[i]) von Gleichung 18 wird als ein Gaußscher Wert behandelt und wird anhand der Beobachtungsgleichung 5 und den Restwert-Parametern h und D auf eine solche Weise berechnet, dass sich Folgendes ergibt:
    Figure 00210001
  • Das Zurückverfolgen des optimalen Quantisierungsindexes i' in Gleichung 20 liefert die anfängliche VTR-Sequenz 734.
  • Um die Anzahl von Rechenschritten zu reduzieren, die durchgeführt werden müssen, kann anstelle der strengen Viterbi-Suche eine Suche mit Pruning-Technik und Verwerfen eines Strahls (pruning beam search) durchgeführt werden. In einer Ausführungsform wird eine extreme Form des Verwerfens (Pruning) durchgeführt, bei der lediglich ein Index für jeden Rahmen identifiziert wird.
  • Nachdem die anfängliche VTR-Sequenz 734 in Schritt 504 identifiziert worden ist, wird die anfängliche VTR-Sequenz einer Schätzeinrichtung für lineare Parameter 736 zugeführt, die in Schritt 506 die Parameter für die linearen Näherungen der obenstehenden Gleichung 4 auswählt. Genauer gesagt bedeutet dies, dass für jeden Rahmen der anfängliche VTR-Vektor für den Rahmen dafür verwendet wird, um die Werte der linearen Parameter αkx, βkx, γkx, δkx für jeden Vokaltrakt-Resonanzindex k und jede LPC-Ordnung n zu bestimmen.
  • In Übereinstimmung mit einer Ausführungsform werden die Werte der linearen Parameter αkx und βkx für eine LPC-Ordnung n durch Anwenden der Bandbreite bk des anfänglichen VTR-Vektors auf den Exponententerm
    Figure 00210002
    bestimmt. Das lineare Segment, das in 3 dargestellt ist, das den Wert des Exponenten umspannt, wird im Anschluss daran ausgewählt, wodurch die linearen Parameter αkx und βkx ausgewählt werden, die das lineare Segment definieren. Hierbei ist zu beachten, dass jeder dieser Parameter ein Vektor ist, der für jede Vektorkomponente mit Ausnahme der mit der Bandbreite bk assoziierten Vektorkomponente einen Wert von Null aufweist.
  • In Übereinstimmung mit einer Ausführungsform werden die Werte der linearen Parameter γkx und δkx für eine LPC-Ordnung n durch Anwenden der Frequenz fk des anfänglichen VTR-Vektors auf den Kosinusterm
    Figure 00220001
    und Bewerten des Kosinus bestimmt. Das lineare Segment, das in 4 dargestellt ist, das den Wert des Kosinus umspannt, wird im Anschluss daran ausgewählt, wodurch die linearen Parameter γkx und δkx die das lineare Segment definieren, ausgewählt werden. Hierbei ist zu beachten, dass jeder dieser Parameter ein Vektor ist, der für jede Vektorkomponente mit Ausnahme der mit der Frequenz fk assoziierten Vektorkomponente einen Wert von Null aufweist.
  • In Schritt 508 werden die linearen Parameter für jeden Rahmen auf Gleichung 4 angewendet. Indem der ansteigende Abschnitt des quadratischen Terms in Gleichung 4 nicht berücksichtigt wird, wird Gleichung 4 in Gleichung 2 verwendet. Die Gleichungen 1 und 2 werden anschließend einem Kalman-Filter 738 zugeführt, der eine erneute Schätzung der VTR-Vektoren 734 für jeden Rahmen durchführt. In Schritt 510 bestimmt der Prozess, ob weitere Iterationen durchgeführt werden müssen. Wenn weitere Iterationen durchzuführen sind, kehrt der Schritt zurück zu Schritt 506, wobei die linearen Parameter erneut anhand der neuen VTR-Vektoren geschätzt werden. Die neuen linearen Vektoren werden anschließend über Gleichung 4 auf Gleichung 2 angewendet, und die Gleichungen 1 und 2 werden anschließend in Schritt 508 in dem Kalman-Filter 738 verwendet, um die VTR-Vektoren erneut zu schätzen. Die Schritte 506, 508 und 510 werden so lange iteriert, bis in Schritt 510 eine Bestimmung dahingehend getroffen wird, dass keine weiteren Iterationen erforderlich sind. Zu diesem Zeitpunkt endet der Prozess in Schritt 512, und der letzte Schätzwert der VTR-Vektoren 734 wird als Sequenz der Vokaltrakt-Resonanzfrequenzen und Vokaltraktresonanz-Bandbreiten für das eingegebene Signal verwendet.
  • Hierbei ist zu beachten, dass das Kalman-Filter 738 kontinuierliche Werte für die Vokaltrakt-Resonanzvektoren bereitstellt. Auf diese Weise ist die resultierende Sequenz von Vokaltrakt-Resonanzfrequenzen und Vokaltraktresonanz-Bandbreiten nicht auf die diskreten Werte beschränkt, die in der VTR-Codetabelle 600 vorzufinden sind.
  • Obgleich die vorliegende Erfindung in Bezug auf bestimmte Ausführungsformen beschrieben wurde, ist es den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik offensichtlich, dass Änderungen in der Form und an Einzelheiten vorgenommen werden können, ohne dabei von Umfang der Erfindung abzuweichen.

Claims (14)

  1. Verfahren zum Verfolgen von Vokaltrakt-Resonanzfrequenz in einem Sprachsignal, das umfasst: Definieren einer Zustandsgleichung, die in Bezug auf einen vergangenen Vokaltrakt-Resonanzvektor linear ist und einen aktuellen Vokaltrakt-Resonanzvektor vorhersagt; gekennzeichnet durch Definieren einer Beobachtungsgleichung, die in Bezug auf einen aktuellen Vokaltrakt-Resonanzvektor linear ist und die wenigstens eine Komponente eines Beobachtungsvektors vorhersagt; und Verwenden der Zustandsgleichung, der Beobachtungsgleichung und einer Sequenz von Beobachtungsvektoren, um eine Sequenz von Vokaltrakt-Resonanzvektoren zu identifizieren, wobei jeder Vokaltrakt-Resonanzvektor wenigstens eine Vokaltrakt-Resonanzfrequenz umfasst.
  2. Verfahren nach Anspruch 1, wobei Verwenden der Zustandsgleichung, der Beobachtungsgleichung und der Sequenz von Beobachtungsvektoren zum Identifizieren einer Sequenz von Vokaltrakt-Resonanzvektoren Anwenden der Zustandsgleichung, der Beobachtungsgleichung und der Sequenz von Beobachtungsvektoren auf ein Kalman-Filter umfasst.
  3. Verfahren nach Anspruch 1, wobei Identifizieren eines Vokaltrakt-Resonanzvektors Identifizieren eines Vokaltrakt-Resonanzvektors aus einem kontinuierlichen Satz von Werten umfasst.
  4. Verfahren nach Anspruch 1, wobei Definieren der Beobachtungsgleichung Definieren einer linearen Näherung an eine Funktion umfasst, die in Bezug auf den Vokaltrakt-Resonanzvektor nicht linear ist.
  5. Verfahren nach Anspruch 4, wobei Definieren der Beobachtungsgleichung des Weiteren Definieren einer linearen Näherung an das Produkt von zwei Funktionen umfasst, die beide in Bezug auf den Vokaltrakt-Resonanzvektor nicht linear sind.
  6. Verfahren nach Anspruch 5, wobei eine der Funktionen, die in Bezug auf den Vokaltrakt-Resonanzvektor nicht linear sind, eine Exponentialfunktion ist, die in Bezug auf die Bandbreitenkomponenten des Vokaltrakt-Resonanzvektors nicht linear ist.
  7. Verfahren nach Anspruch 5, wobei eine der Funktionen, die in Bezug auf den Vokaltrakt-Resonanzvektor nicht linear sind, eine Sinusfunktion ist, die in Bezug auf die Frequenzkomponenten des Vokaltrakt-Resonanzvektors nicht linear ist.
  8. Verfahren nach Anspruch 4, wobei Definieren einer linearen Näherung Auswählen einer linearen Näherung aus einem Satz linearer Näherungen umfasst, die zusammen eine stückweise lineare Näherung an die nicht lineare Funktion bilden.
  9. Verfahren nach Anspruch 4, wobei Definieren einer linearen Näherung Bewerten der nicht linearen Funktion auf Basis eines Schätzwertes eines Vokaltrakt-Resonanzvektors, um einen nicht linearen Funktionswert zu erzeugen, und Verwenden des nicht linearen Funktionswertes zum Auswählen von Parametern für die lineare Näherung umfasst.
  10. Verfahren nach Anspruch 9, wobei Definieren einer linearen Näherung des Weiteren Verwenden des nicht linearen Funktionswertes zum Auswählen einer linearen Näherung aus einem Satz linearer Näherungen umfasst, die zusammen eine stückweise lineare Näherung an die nicht lineare Funktion bilden.
  11. Verfahren nach Anspruch 1, das des Weiteren umfasst: Verwenden der identifizierten Vokaltrakt-Resonanzvektoren, um die Beobachtungsgleichung neu zu definieren; und Verwenden der neu definierten Beobachtungsgleichung, der Zustandsgleichung und der Beobachtungsvektoren, um eine neue Sequenz von Vokaltrakt-Resonanzvektoren zu identifizieren.
  12. Verfahren nach Anspruch 11, wobei Neudefinieren der Beobachtungsgleichung Verwenden eines identifizierten Vokaltrakt-Resonanzvektors zum Auswählen von Parametern für wenigstens eine lineare Näherung an eine Funktion umfasst, die in Bezug auf einen Vokaltrakt-Resonanzvektor nicht linear ist.
  13. Verfahren nach Anspruch 12, wobei Verwenden eines identifizierten Vokaltrakt-Resonanzvektors zum Auswählen von Parametern Bewerten der nicht linearen Funktion unter Verwendung des Vokaltrakt-Resonanzvektors zum Erzeugen eines nicht linearen Funktionswertes und Verwenden des nicht linearen Funktionswertes zum Auswählen von Parametern für wenigstens eine lineare Näherung umfasst.
  14. Computerlesbares Medium, das durch Computer ausführbare Befehle aufweist, die einen Computer veranlassen, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 13 durchzuführen, wenn die Befehle auf dem Computer ausgeführt werden.
DE602004007223T 2003-11-26 2004-10-26 Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen Active DE602004007223T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/723,995 US20050114134A1 (en) 2003-11-26 2003-11-26 Method and apparatus for continuous valued vocal tract resonance tracking using piecewise linear approximations
US723995 2003-11-26

Publications (2)

Publication Number Publication Date
DE602004007223D1 DE602004007223D1 (de) 2007-08-09
DE602004007223T2 true DE602004007223T2 (de) 2007-10-11

Family

ID=34465720

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004007223T Active DE602004007223T2 (de) 2003-11-26 2004-10-26 Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen

Country Status (7)

Country Link
US (1) US20050114134A1 (de)
EP (1) EP1536411B1 (de)
JP (1) JP2005157350A (de)
KR (1) KR20050050533A (de)
CN (1) CN1624765A (de)
AT (1) ATE365960T1 (de)
DE (1) DE602004007223T2 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003042648A1 (fr) * 2001-11-16 2003-05-22 Matsushita Electric Industrial Co., Ltd. Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal
US7079342B1 (en) 2004-07-26 2006-07-18 Marvell International Ltd. Method and apparatus for asymmetry correction in magnetic recording channels
US7653535B2 (en) * 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
CN101281744B (zh) * 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
US8164845B1 (en) 2007-08-08 2012-04-24 Marvell International Ltd. Method and apparatus for asymmetry correction in magnetic recording channels
US20100145687A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Removing noise from speech
CN101693371B (zh) * 2009-09-30 2011-08-24 深圳先进技术研究院 跟踪音乐节拍跳舞的机器人
US10466967B2 (en) 2016-07-29 2019-11-05 Qualcomm Incorporated System and method for piecewise linear approximation

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4790016A (en) * 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
JP2600871B2 (ja) * 1987-12-16 1997-04-16 松下電器産業株式会社 Hmm作成装置及びそれを用いた尤度計算装置、時系列パターン認識装置
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
JPH03181999A (ja) * 1989-12-12 1991-08-07 Matsushita Electric Ind Co Ltd Hmm装置
WO1996035269A1 (en) * 1995-05-03 1996-11-07 Sony Corporation Non-linearly quantizing an information signal
JPH10111862A (ja) * 1996-08-13 1998-04-28 Fujitsu Ltd 再帰型ニューラルネットワークに基づく時系列解析装置および方法
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6567777B1 (en) * 2000-08-02 2003-05-20 Motorola, Inc. Efficient magnitude spectrum approximation

Also Published As

Publication number Publication date
EP1536411A1 (de) 2005-06-01
CN1624765A (zh) 2005-06-08
US20050114134A1 (en) 2005-05-26
DE602004007223D1 (de) 2007-08-09
KR20050050533A (ko) 2005-05-31
ATE365960T1 (de) 2007-07-15
JP2005157350A (ja) 2005-06-16
EP1536411B1 (de) 2007-06-27

Similar Documents

Publication Publication Date Title
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE112012002524B4 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69318447T2 (de) Erkennungssystem
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69826446T2 (de) Stimmumwandlung
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE3244476C2 (de)
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69229124T2 (de) Mehrteiliger expertsystem
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69321656T2 (de) Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition