DE60126564T2

DE60126564T2 - Verfahren und Anordnung zur Sprachsysnthese

Info

Publication number: DE60126564T2
Application number: DE60126564T
Authority: DE
Inventors: Min Haidian District Chu; Hu Haidian District Peng
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-12-04
Filing date: 2001-12-03
Publication date: 2007-10-31
Anticipated expiration: 2021-12-04
Also published as: EP1213705A2; US20020099547A1; US6978239B2; EP1213705B1; ATE354155T1; US7127396B2; DE60126564D1; EP1213705A3; US20050119891A1; US20040148171A1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft Sprachsynthese. Im Besonderen betrifft die Erfindung Prosodie bei Sprachsynthese.
Durch Text-zu-Sprache-Technologie sind computerisierte Systeme in der Lage, über synthetisierte Sprache mit Benutzern zu kommunizieren. Die Qualität dieser Systeme wird typischerweise daran gemessen, wie natürlich oder menschlich die synthetisierte Sprache klingt.
Es kann eine sehr natürlich klingende Sprache erzeugt werden, indem einfach eine Aufnahme eines ganzen Satzes oder eines Abschnittes von Sprache wieder abgespielt wird. Aufgrund der Komplexität der menschlichen Sprachen und der beschränkten Speicherkapazität von Computern, erweist es sich jedoch als unmögliches Unterfangen, jeden vorstellbaren Satz zu speichern, der möglicherweise in einem Text auftritt. Aus diesem Grund wurde auf dem Gebiet der Technik ein konkatenativer Ansatz für die Sprachsynthese eingeführt, der zum Erzeugen von Sprache anhand eines beliebigen Textes verwendet werden kann. Dieser konkatenativer Ansatz kombiniert gespeicherte Sprachaufnahmen, die kleine Spracheinheiten, wie beispielsweise Phoneme, Diphone, Triphone oder Silben repräsentieren, um ein größeres Sprachsignal zu bilden.
Ein bekanntes Text-zu-Sprache-System wird in dem Dokument „Recent improvements on Microsoft's trainable text-to-speech system Whistler" von HUANG X ET AL, in A-COUSTICS, SPEECH, AND SIGNAL PROCESSING, der ICASSP-97, MÜNCHEN, 21. bis 24. April, 1997, Seiten 959 bis 962, offenbart.
Ein Problem bei solchen konkatenativen Systemen besteht darin, dass eine gespeichertes Sprachaufnahme eine Grundfrequenz (Pitch) und eine Tondauer aufweist, die durch den Kontext, in dem die Sprachaufnahme gesprochen wurde, vorgegeben ist. So wei sen beispielsweise in dem Satz „Joe went to the store" [Joe ging in das Geschäft] die mit dem Wort „store" [Geschäft] verbundenen Spracheinheiten eine niedrigere Grundfrequenz auf als in der Frage „Joe went to the store?" [Joe ging in das Geschäft?]. Aufgrund dieser Tatsache weisen, wenn gespeicherte Sprachaufnahmen einfach abgerufen werden, ohne Bezug auf ihre Grundfrequenz oder ihre Tondauer zu nehmen, einige dieser Sprachaufnahmen die falsche Grundfrequenz und/oder Tondauer für den Satz auf, was in einer unnatürlich klingenden Sprache resultiert.
Ein Verfahren zum Lösen dieses Problems besteht im Identifizieren der angemessenen Grundfrequenz und der Tondauer für jede Sprachaufnahme. Auf Basis von diesen Informationen zur Prosodie kann eine bestimmte Sprachaufnahme ausgewählt und/oder modifiziert werden, so dass eine Übereinstimmung mit der Ziel-Grundfrequenz und der Ziel-Tondauer gefunden wird.
Das Identifizieren der angemessenen Grundfrequenz und Tondauer ist als Prosodievorhersage bekannt. Typischerweise umfasst sie das Erzeugen eines Modells, das die Grundfrequenz und Tondauer für jede Spracheinheit, die in einem Text gegeben ist, beschreibt, die am wahrscheinlichsten sind. Das Ergebnis dieser Vorhersage ist eine Gruppe von in Zahlen ausgedrückten Zielen für die Grundfrequenz und Tondauer eines jeden Sprachsegmentes.
Diese Ziele können anschließend zum Auswählen und/oder Modifizieren eines gespeicherten Sprachsegmentes verwendet werden. So können die Ziele beispielsweise verwendet werden, um zuerst das Sprachsegment auszuwählen, das die engste Übereinstimmung mit der Grundfrequenz und der Tondauer der Ziel-Grundfrequenz und Ziel-Tondauer aufweist. Dieses Segment kann anschließend direkt verwendet oder weiter modifiziert werden, um eine noch bessere Übereinstimmung mit den Ziel-Werten zu finden.
So ist beispielsweise ein dem Stand der Technik entsprechendes Verfahren zum Modifizieren der Prosodie von Sprachsegmenten das so genannte TD-PSOLA-(Time-Domain Pitch-Synchronous Overlap-and-Add) Verfahren, das in dem Dokument „Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones", von E. Moulines und F. Carpentier, in Speech Communication, Bnd. 9, Nr. 5, Seiten 453 bis 467, 1990 beschrieben ist. Unter Verwendung dieses Verfahrens wird entsprechend dem Stand der Technik die Grundfrequenz eines Sprachsegmentes durch Identifizieren eines für die Grundfrequenz verantwortlichen Abschnittes des Sprachsegmentes erhöht. Bei diesem Abschnitt handelt es sich um eine komplexe Wellenform, die eine Summe aus Sinuskurven bei Vielfachen einer grundlegenden Häufigkeit F₀ ist. Die Periode der Grundfrequenz wird durch den Abstand zwischen zwei Grundfrequenzspitzen in der Wellenform definiert.
Um die Grundfrequenz zu erhöhen, wird entsprechend dem Stand der Technik ein Segment der komplexen Wellenform, das so lang wie die Grundfrequenzperiode ist, kopiert. Dieses kopierte Segment wird anschließend um einen Teil des Abschnittes der Grundfrequenzperiode verschoben und erneut in die Wellenform eingefügt. Um beispielsweise die Grundfrequenz zu verdoppeln, würde das kopierte Segment um die Hälfte der Grundfrequenzperiode verschoben werden, wodurch eine neue Spitze in die Mitte zwischen zwei vorhandenen Spitzen eingefügt wird und die Tonhöhenperiode zur Hälfte geteilt wird.
Um ein Sprachsegment zu verlängern, wird entsprechend dem Stand der Technik ein Abschnitt des Sprachsegmentes kopiert und die Kopie in die komplexe Wellenform eingefügt. Mit anderen Worten bedeutet dies, dass der gesamte Abschnitt des Sprachsegmentes nach dem kopierten Segment um die Länge des kopierten Abschnittes zeitverschoben wird, so dass die Dauer der Spracheinheit verlängert wird.
Ungünstigerweise haben diese Verfahren zum Modifizieren der Prosodie einer Spracheinheit nicht hundertprozentig zufriedenstellende Ergebnisse geliefert. Insbesondere erzeugen diese Modifizierungsverfahren oftmals mechanisch oder „summend" klingende Sprache.
In Anbetracht dessen wäre es wünschenswert, in der Lage zu sein, eine gespeicherte Einheit auszuwählen, die eine gute Prosodie ohne Modifizierung gewährleistet. Aufgrund von beschränkten Speicherkapazitäten können Sprachaufnahmen jedoch nicht für sämtliche der möglichen prosodischen Kontexte gespeichert werden, in denen eine Spracheinheit verwendet werden kann. Stattdessen muss eine begrenzte Gruppe von Sprachaufnahmen für die Speicherung ausgewählt werden. Aufgrund dieser Tatsache ist die Leistung eines Systems, das gespeicherte Sprachaufnahmen ohne Prosodiemodifizierung verwendet, davon abhängig, welche Sprachaufnahmen gespeichert sind.
Dementsprechend besteht ein anhaltender Bedarf an einem verbesserten Auswählen dieser gespeicherten Sprachaufnahmen in Systemen, die die Prosodie der gespeicherten Sprachaufnahmen nicht modifizieren. Es besteht darüber hinaus ein anhaltender Bedarf daran, die mit dem Identifizieren der angemessenen Prosodie für die Spracheinheiten verbundene Rechenkomplexität zu reduzieren.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist die Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zum verbesserten Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus, das bei Sprachsynthese verwendet wird, bereitzustellen.
Diese Aufgabe wird durch die Erfindung gemäß Beanspruchung derselben in den unabhängigen Ansprüchen gelöst.
Bevorzugte Ausführungsformen werden in den abhängigen Ansprüchen definiert.
Es wird eine Sprachsynthese-Einrichtung bereitgestellt, die gespeicherte Sprachaufnahmen von Spracheinheiten konkateniert (zusammenfügt), ohne eine Modifizierung der Prosodie der Sprachaufnahmen durchzuführen. Die vorliegende Erfindung ist in der Lage, ein hohes Maß an natürlichem Klang der synthetisierten Sprache mit einem sorgfältig angelegten Sprachkorpus zu erzielen, indem Sprachaufnahmen auf Basis des prosodischen und des phonetischen Kontexts, in dem sie auftreten, gespeichert werden. Insbesondere begrenzen einige Ausführungsformen der vorliegenden Erfindung den Trainingstext auf jene Sätze, die die am häufigsten auftretenden Gruppen prosodischer Kontexte für jede Spracheinheit erzeugen. Weitere Ausführungsformen der vorliegenden Erfindung stellen darüber hinaus einen Mehrfach-Auswählmechanismus zum Auswählen einer Gruppe von Sprachaufnahmen bereit, die die Sprache mit dem natürlichsten Klang erzeugen.
In Übereinstimmung mit denjenigen Ausführungsformen, die den Trainingstext begrenzen, wird lediglich eine begrenzte Gruppe der Sätze in einem sehr großen Textkorpus ausgewählt und durch eine Person in einen Trainings-Sprachkorpus gelesen, aus dem Sprachaufnahmen von Einheiten ausgewählt werden, um natürlich klingende Sprache zu erzeugen. Um die Sätze zu identifizieren, die gelesen werden sollen, bestimmen Ausführungsformen der vorliegenden Erfindung eine Häufigkeit des Auftretens eines jeden mit einer Spracheinheit verbundenen Kontextvektors. Kontextvektoren, die eine Häufigkeit des Auftretens besitzen, die größer ist als ein bestimmter Schwellenwert, werden als erforderliche Kontextvektoren identifiziert. Sätze, die die meisten erforderlichen Kontextvektoren enthalten, werden so lange für die Aufzeichnung ausgewählt, bis alle der erforderlichen Kontextvektoren in der ausgewählten Subgruppe von Sätzen enthalten sind.
In den Ausführungsformen, die ein Verfahren mit Mehrfachauswahl verwenden, wird eine Gruppe mit Kandidaten-Sprachsegmenten für jede Spracheinheit identifiziert, indem der eingegebene Kontextvektor mit den mit den Sprachsegmenten verbundenen Kontextvektoren verglichen wird. Anschließend wird auf Basis von Differenzen zwischen den eingegebenen Kontextvektoren und den gespeicherten Kontextvektoren sowie einigen Glättungsaufwandes, der die Glättung des resultierenden konkatenierten Sprachsignals anzeigt, ein Pfad durch die Kandidaten-Sprachsegmente ausgewählt. In Übereinstimmung mit einer Ausführungsform wird durch den Glättungsaufwand bevorzugt eine Reihe von Sprachsegmenten ausgewählt, die in dem Trainingskorpus nebeneinander auftraten.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm einer allgemeinen Rechenumgebung, in der die vorliegende Erfindung ausgeführt sein kann.
2 ist ein Blockdiagramm einer Mobilvorrichtung, in der die vorliegende Erfindung ausgeführt sein kann.
3 ist ein Blockdiagramm eines Sprachsynthesesystems.
4 ist ein Blockdiagramm eines Systems zum Auswählen einer Trainingstext-Subgruppe aus einem sehr großen Trainingskorpus.
5 ist ein Ablaufplan zum Erstellen eines Entscheidungsbaumes in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung.
6 ist ein Blockdiagramm eines Mehrfach-Auswählsystems zum Auswählen von Sprachsegmenten in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung.
7 ist ein Ablaufplan eines Mehrfach-Auswählsystems zum Auswählen von Sprachsegmenten in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung.
AUSFÜHRLICHE BESCHREIBUNG DER ILLUSTRATIVEN AUSFÜHRUNGSFORMEN
1 illustriert ein Beispiel einer geeigneten Rechensystemumgebung 100, in der die Erfindung implementiert sein kann. Die Rechensystemumgebung 100 ist lediglich ein Beispiel einer geeigneten Rechenumgebung, und es ist nicht beabsichtigt, dass diese irgendeine eine Beschränkung hinsichtlich des Umfanges der Verwendung oder der Funktionalität der Erfindung suggeriert. Die Rechenumgebung 100 sollte darüber hinaus auch nicht dahingehend interpretiert werden, dass sie in irgendeiner Form von irgendeiner Komponente oder einer Kombination von Komponenten, die in der exemplarischen Betriebsumgebung 100 dargestellt ist, abhängig ist, oder darauf angewiesen ist.
Die Erfindung kann mit einer Vielzahl von anderen Universal- oder Spezial-Rechensystemumgebungen oder Konfigurationen betrieben werden. Beispiele von gut bekannten Rechensystemen, Rechenumgebungen und/oder Konfigurationen, die für die Verwendung mit der Erfindung geeignet sind, umfassen, sind jedoch nicht beschränkt auf, Personalcomputer, Servercomputer, tragbare oder Laptopcomputer, Multiprozessorsysteme, auf Mikroprozessoren basierende Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronikgeräte, Netzwerk-PCs, Minicomputer, Mainframe- Computer, verteilte Rechenumgebungen, die beliebige der voranstehend erwähnten Systeme oder Vorrichtungen enthalten, und Ähnliches.
Die Erfindung kann im allgemeinen Kontext von durch Computer ausführbaren Befehlen, wie beispielsweise Programmmodulen, die durch einen Computer ausgeführt werden, beschrieben werden. Im Allgemeinen umfassen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, und so weiter, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung kann darüber hinaus auch in verteilten Rechenumgebungen ausgeführt sein, in denen Aufgaben durch dezentrale Verarbeitungsvorrichtungen, die über ein Kommunikationsnetzwerk verbunden sind, ausgeführt werden. In einer verteilten Rechenumgebung können die Programmmodule sowohl auf lokalen als auch dezentralen Computerspeichermedien einschließlich Speichervorrichtungen lokalisiert sein.
In Bezug auf 1 enthält ein exemplarisches System zum Implementieren der Erfindung eine allgemeine Rechenvorrichtung in Form eines Computers 110. Die Komponenten des Computers 110 können eine Verarbeitungseinrichtung 120, einen Systemspeicher 130 und einen Systembus 121 umfassen, der verschiedene Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinrichtung 120 koppelt, jedoch sind die Komponenten nicht auf die Genannten beschränkt. Der Systembus 121 kann ein beliebiger von mehreren Typen von Busstrukturen sein, einschließlich eines Speicherbuses oder einer Speichersteuerung, eines Peripheriebuses und eines Lokalbuses, der beliebige einer Reihe verschiedener Busstrukturen verwendet. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen solche Architekturen einen ISA-(Industry Standard Architecture) Bus, einen MCA-(Micro Channel Architecture) Bus, einen EISA-(Enhanced ISA) Bus, einen lokalen VESA-(Video Electronics Standards Association) Bus und einen PCI-(Peripheral Component Interconnect) Bus, auch als Mezzanine-Bus bekannt.
Der Computer 110 enthält typischerweise eine Reihe verschiedener computerlesbarer Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die durch den Computer 110 zugegriffen werden kann, und sie umfassen sowohl flüchtige als auch nicht-flüchtige Medien, entnehmbare und nicht-entnehmbare Medien. Im Sinne eines Beispieles und nicht im restriktiven Sinne zu erachten, können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien umfassen sowohl flüchtige als auch nicht-flüchtige, entnehmbare und nicht-entnehmbare Speichermedien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise computerlesbare Befehle, Datenstrukturen, Programmmodule oder andere Daten, implementiert sind. Computerspeichermedien umfassen, sind jedoch nicht beschränkt auf, Direktzugriffsspeicher RAM, Festwertspeicher ROM, elektronisch löschbare programmierbare Lesespeicher EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder andere optische Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet wird und auf das durch den Computer 100 zugegriffen werden kann.
Kommunikationsmedien werden typischerweise durch computerlesbare Befehle, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus repräsentiert, und sie umfassen beliebige Informationsverbreitungsmedien. Der Begriff „moduliertes Datensignal" bezieht sich auf ein Signal, das eine oder mehrere seiner Eigenschaften auf solch eine Weise eingestellt oder geändert hat, dass Informationen in dem Signal kodiert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen Kommunikationsmedien kabelbasierte Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung und drahtlose Medien, wie beispielsweise akustische, HF-, Infrarot- oder andere drahtlose Medien. Kombinationen aus beliebigen der voranstehend Genannten sollten ebenfalls mit in den Umfang der computerlesbaren Medien einbezogen werden.
Der Systemspeicher 130 enthält Computerspeichermedien in Form von flüchtigen und/oder nicht-flüchtigen Speichern, wie beispielsweise Nur-Lese-Speicher (ROM) 131, und Schreib-/Lesespeichern (RAM) 132. Ein Basiseingabe/Ausgabesystem (BIOS), 133 das die Basisroutinen enthält, die das Übertragen von Informationen zwischen Elementen innerhalb des Computers 110, wie zum Beispiel während des Hochfahrens, unterstützen, ist typischerweise in dem Nur-Lese-Speicher ROM 131 gespeichert. Der Schreib-/Lesespeicher RAM 132 enthält typischerweise Daten und/oder Programmmodule, auf die durch die Verarbeitungseinrichtung 120 unmittelbar zugegriffen werden kann und/oder die in Kürze durch sie verarbeitet werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 ein Betriebssystem 134, Anwendungsprogramme 135, weitere Programmmodule 136 sowie Programmdaten 137.
Der Computer 110 kann darüber hinaus auch andere entnehmbare/nicht-entnehmbare, flüchtige/nicht-flüchtige Computerspeichermedien umfassen. Lediglich im Sinne eines Beispiels illustriert 1 ein Festplattenlaufwerk 141, das von nicht-entnehmbaren, nicht-flüchtigen Magnetmedien liest und auf diese schreibt, ein Magnetplattenlaufwerk 151, das von einer entnehmbaren, nicht-flüchtigen Magnetplatte 152 liest und auf diese schreibt und ein optisches Plattenlaufwerk 155, das von einer entnehmbaren, nichtflüchtigen optischen Platte 156, wie beispielsweise einer CD-ROM oder einem anderen optischen Medium liest oder auf dieses schreibt. Andere entnehmbare/nicht-entnehmbare, flüchtige/nicht-flüchtige Computerspeichermedien, die in der exemplarischen Betriebsumgebung verwendet werden können, umfassen, sind jedoch nicht beschränkt auf, Magnetbandkassetten, Flash-Speicherkarten, Digital Versatile Disks (DVDs), Digitalvideoband, Solid-State-RAMs, Solid-State-ROMs und Ähnliches. Das Festplattenlaufwerk 141 ist typischerweise über eine nicht-entnehmbare Speicherschnittstelle, wie beispielsweise die Schnittstelle 140, mit dem Systembus 121 verbunden, und das Magnetplattenlaufwerk 151 und das optische Plattenlaufwerk 155 sind typischerweise durch eine entnehmbare Speicherschnittstelle, wie zum Beispiel der Schnittstelle 150 mit dem Systembus 121 verbunden.
Die Laufwerke und ihre assoziierten Speichermedien, die voranstehend beschrieben wurden und in 1 dargestellt sind, gewährleisten die Speicherung von computerlesbaren Befehlen, Datenstrukturen, Programmmodulen und anderen Daten für den Computer 110. In 1 sind beispielsweise ein Festplattenlaufwerk 141 als speicherndes Betriebssystem 144, Anwendungsprogramme 145, weitere Programmmodule 146 und Programmdaten 147 dargestellt. Hierbei ist zu beachten, dass diese die gleichen wie das Betriebssystem 134, die Anwendungsprogramme 135, weitere Programmmodule 136 und Programmdaten 137 sein können, oder von diesen abweichen. Das Betriebssystem 144, Anwendungsprogramme 145, weitere Programmmodule 146 und Programmdaten 147 sind in diesem Fall mit anderen Nummern versehen, um zu illustrieren, dass es sich bei ihnen zumindest um andere Exemplare handelt.
Ein Benutzer kann über Eingabegeräte, wie beispielsweise eine Tastatur 162, ein Mikrophon 163 und ein Zeigegerät, wie beispielsweise eine Maus, ein Trackball oder ein Tastfeld, Befehle und Informationen in den Computer 110 eingegeben. Andere Eingabegeräte (nicht dargestellt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder Ähnliches umfassen. Diese und andere Eingabegeräte sind oftmals über eine Benutzereingabeschnittstelle 160, die mit dem Systembus gekoppelt ist, mit der Verarbeitungseinrichtung 120 verbunden, sie können jedoch auch durch andere Schnittstellen und Busstrukturen, wie beispielsweise einen Parallelanschluss, einen Game-Port oder einen Universalserienbus (USB) verbunden sein. Ein Monitor 191 oder ein anderer Typ von Anzeigevorrichtung ist ebenfalls über eine Schnittstelle, wie beispielsweise eine Videoschnittstelle 190 mit dem Systembus 121 verbunden. Zusätzlich zu dem Monitor können Computer auch andere Peripherie-Ausgabegeräte, wie beispielsweise Lautsprecher 197 und Drucker 196 enthalten, die über eine Ausgabe-Peripherieschnittstelle 190 verbunden sein können.
Der Computer 110 kann in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren dezentralen Computern, wie beispielsweise einem dezentralen Computer 180 betrieben werden. Bei dem dezentralen Computer 180 kann es sich um einen Personalcomputer, eine tragbare Vorrichtung, einen Server, einen Router, einen Netzwerk-PC, ein Peer-Gerät oder einen anderen allgemein verwendeten Netzwerkknoten handeln, und er enthält typischerweise viele oder alle der in Bezug auf den Computer 110 voranstehend beschriebenen Elemente. Die in 1 dargestellten logischen Verbindungen umfassen ein lokales Netz (LAN) 171 und ein Großraumnetzwerk (WAN) 173, sie können jedoch auch andere Netzwerke umfassen. Solche Netzwerkumgebungen werden weit verbreitet in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet eingesetzt.
Wenn der Computer 110 in einer LAN-Netzwerkumgebung verwendet wird, ist er über eine Netzwerkschnittstelle oder einen Adapter 170 mit dem LAN 171 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, enthält der Computer 110 typischerweise ein Modem 172 oder eine andere Vorrichtung zum Herstellen von Verbindungen über das Großraumnetzwerk WAN 173, wie beispielsweise dem Internet. Das Modem 172, das ein externes oder ein internes Modem sein kann, kann über die Benutzereingabeschnittstelle 160 oder einen anderen geeigneten Mechanismus mit dem Sys tembus 121 verbunden sein. In einer Netzwerkumgebung können die in Bezug zu dem Computer 110 dargestellten Programmmodule oder Abschnitte davon in der dezentralen Speichervorrichtung gespeichert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 dezentrale Anwendungsprogramme 185, wie diese auf dem dezentralen Computer 180 installiert sind. Es wird offensichtlich sein, dass die dargestellten Netzwerkverbindungen exemplarischen Charakter besitzen und dass auch andere Vorrichtungen zum Herstellen einer Kommunikationsverbindung zwischen den Computern verwendet werden können.
2 ist ein Blockdiagramm einer Mobilvorrichtung 200, bei der es sich um eine exemplarische Rechenumgebung handelt. Die Mobilvorrichtung 200 enthält einen Mikroprozessor 202, einen Speicher 204, Eingabe-/Ausgabe-(I/O) Komponenten 206 und eine Kommunikationsschnittstelle 208 zum Kommunizieren mit dezentralen Computern oder anderen Mobilvorrichtungen. In einer Ausführungsform sind die voranstehend genannten Komponenten über einen geeigneten Bus 210 für die Kommunikation miteinander gekoppelt.
Der Speicher 204 ist als nicht-flüchtiger, elektronischer Speicher, wie beispielsweise als Direktzugriffsspeicher (RAM) mit einem Batterie-Backup-Modul (nicht dargestellt) auf eine Weise implementiert, dass in dem Speicher gespeicherte Informationen 204 nicht verloren gehen, wenn der Hauptstrom zur Mobilvorrichtung 200 abgeschaltet wird. Ein Abschnitt des Speichers 204 ist vorzugsweise als adressierbarer Speicher für die Programmausführung vorgesehen, während ein anderer Abschnitt des Speichers 204 vorzugsweise so für die Speicherung verwendet wird, dass Speicherung auf einem Plattenlaufwerk simuliert wird.
Der Speicher 204 enthält ein Betriebssystem 212, Anwendungsprogramme 214, ebenso wie einen Objektspeicher 216. Während des Betriebs wird das Betriebssystem 212 vorzugsweise durch den Prozessor 202 von dem Speicher 204 ausgeführt. In einer bevorzugten Ausführungsform ist das Betriebssystem 212 ein Marken-Betriebssystem der Marke WINDOWS^® CE, das von der Microsoft Corporation erhältlich ist. Das Betriebssystem 212 ist vorzugsweise für Mobilvorrichtungen entwickelt und implementiert Datenbankfunktionen, die über einen Satz exponierter Anwendungsprogrammierschnittstellen und -verfahren durch Anwendungen 214 verwendet werden können. Die Objekte in dem Objektspeicher 216 werden durch die Anwendungen 214 und das Betriebssystem 212 wenigstens zum Teil in Reaktion auf Rufe zu den exponierten Anwendungsprogrammierschnittstellen und -verfahren beibehalten.
Die Kommunikationsschnittstelle 208 repräsentiert eine Vielzahl von Vorrichtungen und Technologien, die es der Mobilvorrichtung 200 gestatten, Informationen zu senden und zu empfangen. Die Vorrichtungen enthalten verkabelte und kabellose Modems, Satellitenempfänger und Rundfunktuner, um nur einige zu nennen. Die Mobilvorrichtung 200 kann auch direkt mit einem Computer verbunden sein, um Daten mit diesem auszutauschen. In solchen Fällen kann die Kommunikationsschnittstelle 208 ein Infrarot-Sende-Empfangs-Gerät oder eine serielle oder parallele Kommunikationsverbindung sein, von denen alle in der Lage sind, Streaming-Informationen zu senden.
Die Eingabe-/Ausgabe-Komponenten 206 umfassen eine Reihe verschiedener Eingabegeräte, wie beispielsweise einen berührungsempfindlichen Bildschirm, Tasten, Roller und ein Mikrofon, ebenso wie eine Reihe verschiedener Ausgabegeräte, einschließlich eines Audio-Generators, einer Vibrationsvorrichtung und einer Anzeige. Die voranstehend aufgelisteten Vorrichtungen sind von exemplarischem Charakter und müssen nicht notwendigerweise alle in der Mobilvorrichtung 200 vorhanden sein. Zusätzlich dazu können innerhalb des Umfangs der vorliegenden Erfindung auch andere Eingabe-/Ausgabegeräte mit der Mobilvorrichtung 200 verbunden oder in dieser vorhanden sein.
In Übereinstimmung mit der vorliegenden Erfindung wird eine Sprachsynthese-Vorrichtung bereitgestellt, die gespeicherte Sprachaufnahmen von Spracheinheiten konkateniert, ohne dabei die Prosodie der Sprachaufnahmen zu modifizieren. Die vorliegende Erfindung ist in der Lage, mit einem sorgfältig angelegten Sprachkorpus ein hohes Maß von natürlichem Klang bei der synthetisierten Sprache zu erzielen, indem Sprachaufnahmen auf Basis des prosodischen und phonetischen Kontextes, in dem sie auftreten, gespeichert werden. Insbesondere begrenzt die vorliegende Erfindung den Trainingstext auf diejenigen Sätze, die die am häufigsten auftretenden Gruppen prosodischer Kontexte für jede Spracheinheit erzeugen. Die vorliegende Erfindung stellt darüber hinaus einen Mehrfach-Auswählmechanismus zum Auswählen einer Gruppe von Sprachaufnahmen bereit, die die am natürlichsten klingende Sprache erzeugen.
3 ist ein Blockdiagramm einer Sprachsynthese-Vorrichtung 300, die in der Lage ist, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung eine synthetisierte Sprache 302 anhand eines eingegebenen Textes 304 zu erzeugen.
Bevor die Sprachsynthese-Vorrichtung 300 zum Erzeugen von Sprache verwendet werden kann, muss sie mit aus einem Trainingstext 306, der als Trainingssprache 308 in die Sprachsynthese-Einrichtung 300 gelesen wird, entnommenen Sprachaufnahmen von Spracheinheiten initialisiert werden.
Wie dies voranstehend beschrieben wurde, unterliegen die Sprachsynthese-Vorrichtungen Einschränkungen aufgrund einer begrenzten Größe des Speichers. Aufgrund dieser Tatsache muss die Größe des Trainingstextes 306 begrenzt werden, so dass dieser in den Speicher passt. Wenn jedoch der Trainingstext zu klein ist, werden darin nicht ausreichend Sprachaufnahmen von Trainingssprache sein, um die konkatenative Synthese ohne Modifizierungen der Prosodie zu ermöglichen. Ein Aspekt der vorliegenden Erfindung löst dieses Problem durch den Versuch, eine Gruppe Spracheinheiten in einem sehr großen Textkorpus zu identifizieren, der in den Trainingstext eingefügt werden muss, um eine konkatenative Synthese ohne Modifizierungen der Prosodie zu ermöglichen.
4 zeigt ein Blockdiagramm von Komponenten, die zum Identifizieren eines kleineren Textes 306, der in 3 dargestellt ist, aus einem sehr großen Textkorpus 400 verwendet werden. In Übereinstimmung mit einer Ausführungsform handelt es sich bei dem sehr großen Textkorpus 400 um einen Korpus von Text aus fünf Jahren des „People's Daily", einer Chinesischen Tageszeitung, und er enthält ungefähr 97 Millionen Chinesische Schriftzeichen.
Zu Beginn wird der große Textkorpus 400 durch eine Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 in Zeichenketten von einzelnen Spracheinheiten zerlegt (geparst). In Übereinstimmung mit den meisten Ausführungsformen der Erfindung, insbesondere denen, die zum Erzeugen von chinesischer Sprache verwendet werden, sind die Spracheinheiten Tonsilben. Es können jedoch innerhalb des Umfanges der Erfindung auch andere Spracheinheiten, wie beispielsweise Phoneme, Diphone oder Triphone verwendet werden.
Die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 identifiziert darüber hinaus auch hochgradig prosodische Informationen über jeden Satz, der der Syntaxanalyseeinrichtung (Parser) zugeführt wird. Diese hochgradig prosodischen Informationen umfassen die vorhergesagten Tonstufen für jede Spracheinheit ebenso wie das Gruppieren von Spracheinheiten in prosodische Wörter und Wortgruppen. In den Ausführungsformen, in denen Tonsilben als Spracheinheiten verwendet werden, identifiziert die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 darüber hinaus auch das erste und das letzte Phonem in jeder Spracheinheit.
Die Zeichenketten der anhand des Trainingstextes erzeugten Spracheinheiten werden einer Erzeugungseinrichtung für Kontextvektoren 404 zugeführt, die einen deskriptiven Spracheinheit-abhängigen Kontextänderungs-Vektor SDDCVV (Speech-unit-Dependent Descriptive Contextual Variation Vector, im Folgenden als Kontextvektor bezeichnet) erzeugt. Der Kontextvektor beschreibt mehrere Kontextvariablen, die die Prosodie der Spracheinheit beeinflussen können. In Übereinstimmung mit einer Ausführungsform beschreibt der Kontextvektor sechs Variablen beziehungsweise Koordinaten. Diese sind die folgenden:

Position innerhalb der Phrase: die Position der aktuellen Spracheinheit in ihrer tragenden prosodischen Phrase.
Position innerhalb des Wortes: die Position der aktuellen Spracheinheit in ihrem tragenden prosodischen Wort.
Linker phonetischer Kontext: die Kategorie des letzten Phonems in der Spracheinheit links von der aktuellen Spracheinheit.
Rechter phonetischer Kontext: die Kategorie des ersten Phonems in der Spracheinheit rechts von der aktuellen Spracheinheit.
Linker Tonkontext: die Tonkategorie der Spracheinheit links von der aktuellen Spracheinheit.
Rechter Tonkontext: die Tonkategorie der Spracheinheit rechts von der aktuellen Spracheinheit.

In Übereinstimmung mit einer Ausführungsform können die Koordinate der Position innerhalb der Phrase und die Koordinate der Position innerhalb des Wortes jeweils einen von vier Werten haben, die Koordinate des linken phonetischen Kontextes kann einen von elf Werten haben, die Koordinate des rechten phonetischen Kontextes kann einen von sechsundzwanzig Werten haben, und die Koordinaten des linken und des rechten Tonkontextes können jeweils einen von zwei Werten haben. In Übereinstimmung mit dieser Ausführungsform gibt es 4·4·11·26·2·2 = 18304 mögliche Kontextvektoren für jede Spracheinheit.
Die durch die Erzeugungseinrichtung für Kontextvektoren 404 erzeugten Kontextvektoren werden auf Basis ihrer Spracheinheit gruppiert. Für jede Spracheinheit identifiziert eine auf Häufigkeit basierende Sortiereinrichtung 406 die für jede Spracheinheit am häufigsten auftretenden Kontextvektoren. Die für jede Spracheinheit am häufigsten auftretenden Kontextvektoren werden anschließend in einer Liste erforderlicher Kontextvektoren 408 gespeichert. In einer Ausführungsform werden die obersten Kontextvektoren, deren akkumulative Häufigkeit des Auftretens nicht kleiner ist als die Hälfte der gesamten Häufigkeit des Auftretens sämtlicher Einheiten, in der Liste gespeichert.
Das durch die Sortiereinrichtung durchgeführte Sortieren und Kürzen (Pruning) basiert auf einer Erkenntnis, zu der die vorliegenden Erfinder gelangt sind. Insbesondere haben die vorliegenden Erfinder herausgefunden, dass bestimmte Kontextvektoren wiederholt in dem Korpus auftreten. Durch Sicherstellen, dass diese Kontextvektoren in dem Trainingskorpus gefunden werden, erhöht die vorliegende Erfindung die Chancen, dass eine exakte Kontextübereinstimmung für einen eingegebenen Text gefunden wird, ohne dass die Größe des Trainingskorpus in großem Maße vergrößert werden muss. So haben die vorliegenden Erfinder beispielsweise herausgefunden, dass durch Sicherstellen, dass die obersten zwei Prozent der Kontextvektoren in dem Trainingskorpus vorhanden sind, eine exakte Kontextübereinstimmung für eine eingegebene Text-Spracheinheit in über 50 Prozent der Fälle gefunden wird.
Unter Verwendung der Liste erforderlicher Kontextvektoren 408 wählt eine Textauswähl-Einrichtung 410 Sätze aus einem sehr großen Textkorpus 400 aus, um eine Trainingstext-Subgruppe 306 zu erzeugen. In einer bestimmten Ausführungsform verwendet die Textauswähl-Einrichtung 410 einen Greedy-Algorithmus zum Auswählen der Sätze aus dem Korpus 400. In Übereinstimmung mit diesem Greedy-Algorithmus tastet die Textauswähl-Einrichtung 410 alle Sätze in dem Korpus ab und greift einen pro Mal heraus, um diesen zu der ausgewählten Gruppe hinzuzufügen.
Während des Abtastens bestimmt die Textauswähl-Einrichtung 410, wie viele Kontextvektoren in der Liste 408 in jedem Satz gefunden werden. Der Satz, der die maximale Anzahl von erforderlichen Kontextvektoren enthält, wird anschließend zu dem Trainingstext 306 hinzugefügt. Die Kontextvektoren, die der Satz enthält, werden aus der Liste 408 entfernt, und der Satz wird aus dem sehr großen Textkorpus 400 entfernt. Das Abtasten wird so lange wiederholt, bis sämtliche der Kontextvektoren aus der Liste 408 entfernt worden sind.
Nachdem die Trainingstext-Subgruppe 306 erzeugt worden ist, wird sie von einer Person gelesen und zu einem Trainings-Sprachkorpus digitalisiert. Sowohl der Trainingstext als auch die Trainingssprache können zum Initialisieren der in 3 dargestellten Sprachsynthese-Vorrichtung 300 verwendet werden. Diese Initialisierung beginnt durch eine syntaktische Zerlegung der Sätze des Textes 306 in einzelne Spracheinheiten, die mit hochgradig prosodischen Informationen versehen sind. In 3 wird dies durch eine Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 durchgeführt, die der in 4 dargestellten Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 ähnlich ist. Die syntaktisch zerlegten Spracheinheiten und ihre hochgradig prosodische Beschreibung werden anschließend einer Erzeugungseinrichtung für Kontextvektoren 312 bereitgestellt, die der in 4 dargestellten Erzeugungseinrichtung für Kontextvektoren 404 ähnlich ist.
Die durch die Erzeugungseinrichtung für Kontextvektoren 312 erzeugten Kontextvektoren werden zusammen mit durch eine Sprachaufnahmen-Erzeugungseinrichtung 316 aus einem Trainingssprache-Signal 308 erzeugten Sprachaufnahmen einer Komponenten-Speichereinrichtung 314 zugeführt. Jede Sprachaufnahme, die durch die Sprachaufnahmen-Erzeugungseinrichtung 316 bereitgestellt wird, entspricht einer Sprachein heit, die durch die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 identifiziert wurde. Die Komponenten-Speichereinrichtung 314 indexiert jede Sprachaufnahme nach ihrem Kontextvektor, um eine indexierte Gruppe gespeicherter Sprachkomponenten 318 zu erhalten.
In Übereinstimmung mit einer Ausführungsform werden die Muster durch einen Prosodie-abhängigen Entscheidungsbaum (PDDT prosody-dependent decision tree) indexiert, der automatisch unter Verwendung eines Klassifizierungs- und Regressionsbaumes (CART, classification and regression tree) erzeugt wird. Der CART stellt einen Mechanismus zum Auswählen von Fragen bereit, die zum Unterteilen der gespeicherten Sprachkomponenten in kleine Gruppen ähnlicher Sprachaufnahmen verwendet werden können. Typischerweise wird jede Frage dafür verwendet, um eine Gruppe Sprachkomponenten in zwei kleinere Gruppen zu unterteilen. Mit jeder Frage werden die Komponenten in den kleineren Gruppen homogener. Der Prozess für die Verwendung von CART zum Bilden des Entscheidungsbaumes ist in 5 dargestellt.
In dem in 5 dargestellten Schritt 500 wird eine Liste von Kandidaten-Fragen für den Entscheidungsbaum erzeugt. In Übereinstimmung mit einer Ausführungsform wird jede Frage an eine Koordinate oder eine Kombination von Koordinaten in dem Kontextvektor gerichtet.
In Schritt 502 wird ein erwarteter quadratischer Fehler für alle der Trainings-Sprachaufnahmen von der Sprachaufnahmen-Erzeugungseinrichtung 316 bestimmt. Der erwartete quadratische Fehler gibt ein Maß der Distanzen innerhalb einer Gruppe von Merkmalen einer jeden Sprachaufnahme in einer Gruppe an. In einer bestimmten Ausführungsform handelt es sich bei den Merkmalen um prosodische Merkmale einer durchschnittlichen grundlegenden Häufigkeit (F_a), einer durchschnittlichen Dauer (F_b) und des Bereiches der grundlegenden Häufigkeit (F_c) für eine Einheit. Für diese Ausführungsform lautet der erwartete quadratische Fehler wie folgt: ESE(t) = E(WaEe + WbEb + WcEc) Gleichung 1wobei ESE(t) der erwartete quadratische Fehler für alle Sprachaufnahmen X auf dem Knoten t in dem Entscheidungsbaum ist, E_a, E_b und E_c sind jeweils der quadratische Fehler für jeweils F_a, F_b und F_c, W_a, W_b und W_c sind Gewichtungen, und der Vorgang des Bestimmens des erwarteten Wertes der Summe der quadratischen Fehler wird durch das äußere E() angezeigt.
Anschließend wird jeder quadratische Fehler wie folgt bestimmt: Ej = |Fj – R(Fj)|2,j = a, b, c Gleichung 2wobei R(F_j) ein Regressionswert ist, der anhand der Sprachaufnahmen X an dem Knoten t berechnet wird. In dieser Ausführungsform ist der Regressionswert der erwartete Wert des Merkmals, wie dies anhand der Sprachaufnahmen X an dem Knoten t berechnet wird: Rj(Fj) = E(Fj|X ∈ Knoten1).
Wenn der erwartete quadratische Fehler in Schritt 502 bestimmt worden ist, wird in Schritt 504 die erste Frage aus der Frageliste ausgewählt. Die ausgewählte Frage wird in Schritt 506 auf die Kontextvektoren angewendet, um die Muster in Kandidaten-Subknoten für den Baum zu gruppieren. Der erwartete quadratische Fehler eines jeden Sub-Knotens wird anschließend in Schritt 508 unter Verwendung der obenstehenden Gleichungen 1 und 2 bestimmt.
In Schritt 510 wird eine Reduzierung des erwarteten quadratischen Fehlers, die durch das Erstellen der zwei Sub-Knoten erzeugt wurde, bestimmt. In Übereinstimmung mit einer Ausführungsform wird diese Reduzierung wie folgt berechnet: ΔWESE(t) = ESE(t)P(t) – (ESE(l)P(l) + ESE(r)P(r)) Gleichung 3wobei ΔWESE(t) die Reduzierung des erwarteten quadratischen Fehlers ist, ESE(t) der erwartete quadratische Fehler des Knotens t ist, auf den die Frage angewendet wurde, P(t) ist der Prozentsatz von Sprachaufnahmen in dem Knoten t, ESE(l) und ESE(r) sind die erwarteten quadratischen Fehler der linken und der rechten Sub-Knoten, die jeweils durch die Frage gebildet wurden, und P(l) und P(r) ist jeweils der Prozentsatz von Sprachaufnahmen in dem linken und dem rechten Knoten.
Die Reduzierung des erwarteten quadratischen Fehlers, die durch die aktuelle Frage geliefert wird, wird gespeichert, und der CART-Prozess bestimmt in Schritt 512, ob die aktuelle Frage die letzte Frage in der Liste ist. Wenn noch weitere Fragen in der Liste vorhanden sind, wird die nächste Frage in Schritt 514 ausgewählt, und der Prozess kehrt zurück zu Schritt 506, um den aktuellen Knoten auf Basis der neuen Frage in Sub-Knoten zu unterteilen.
Nachdem in Schritt 512 jede Frage auf den aktuellen Knoten angewendet wurde, werden die durch jede Frage gelieferten Reduzierungen des quadratischen Fehlers verglichen, und die Frage, die die größte Reduzierung liefert, wird in Schritt 515 als die Frage für den aktuellen Knoten des Entscheidungsbaumes eingestellt.
In Schritt 516 wird eine Entscheidung dahingehend getroffen, ob der aktuelle Satz an Blattknoten weiter unterteilt werden sollte. Diese Bestimmung kann auf Basis der Anzahl von Sprachaufnahmen in jedem Blattknoten oder der Größe der Reduzierung des quadratischen Fehlers, die bei weiterer Unterteilung möglicherweise zustande kommt, getroffen werden.
Wenn, in Übereinstimmung mit einer Ausführungsform, der Entscheidungsbaum in seiner abschließenden Form vorliegt, enthält jeder Blattknoten eine Anzahl von Sprachaufnahmen für eine Spracheinheit. Diese Sprachaufnahmen weisen eine leicht voneinander abweichende Prosodie auf. So können sie beispielsweise voneinander abweichende phonetische Kontexte oder unterschiedliche Tonkontexte aufweisen.
Durch Aufrechterhalten dieser geringfügigen Unterschiede innerhalb eines Blattknotens führt diese Ausführungsform eine leichte Abwechslung in der Prosodie ein, was beim Entfernen von monotoner Prosodie hilfreich ist.
Wenn die aktuellen Blattknoten in Schritt 516 weiter unterteilt werden sollen, wird in Schritt 518 ein Blattknoten ausgewählt, und der Prozess kehrt zurück zu Schritt 504, um eine Frage zu suchen, die mit dem ausgewählten Knoten verbunden werden soll. Wenn der Entscheidungsbaum in Schritt 516 vollständig ist, endet der Prozess von 5 in Schritt 520.
Der Prozess von 5 resultiert in einem Prosodie-abhängigen Entscheidungsbaum 320 aus 3 und einer Gruppe gespeicherter Sprachaufnahmen 318, die durch den Entscheidungsbaum 320 indexiert sind. Nach ihrer Erstellung können der Entscheidungsbaum 320 und die Sprachaufnahmen 318 in Übereinstimmung mit weiteren Aspekten der vorliegenden Erfindung verwendet werden, um konkatenative Sprache zu erzeugen, ohne dass dabei Prosodiemodifizierung durchgeführt werden muss.
Der Prozess zum Erzeugen von konkatenativer Sprache beginnt mit der syntaktischen Analyse eines Satzes in dem eingegebenen Text 304 unter Verwendung der Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 und mit dem Identifizieren von hochgradig prosodischen Informationen für jede Spracheinheit, die durch die syntaktische Analyse erzeugt wurde. Diese prosodischen Informationen werden anschließend der Einrichtung zur Erzeugung von Kontextvektoren 312 zugeführt, die einen Kontextvektor für jede in der syntaktischen Analyse erzeugte Spracheinheit erzeugt. Das Zerlegen durch syntaktische Analyse und das Erzeugen der Kontextvektoren werden auf die gleiche Weise durchgeführt, wie dies während des Trainings des Prosodie-Entscheidungsbaumes 320 der Fall war.
Die Kontextvektoren werden einer Komponenten-Lokalisierungseinrichtung 322 zugeführt, die die Vektoren zum Identifizieren einer Gruppe Sprachaufnahmen für den Satz verwendet. In Übereinstimmung mit einer Ausführungsform verwendet die Komponenten-Lokalisierungseinrichtung 322 einen Algorithmus zur Mehrfachauswahl einer nichteinheitlichen Einheit zum Identifizieren der Muster Sprachaufnahmen der Kontextvektoren.
Die 6 und 7 zeigen ein Blockdiagramm und einen Ablaufplan für den Algorithmus zur Mehrfachauswahl einer nicht-einheitlichen Einheit. In Schritt 700 wird jeder Vektor in der Gruppe eingegebener Kontextvektoren auf den Prosodie-abhängigen Entscheidungsbaum 320 angewendet, um eine Blattknotenanordnung 600 zu identifizieren, die einen Blattknoten für jeden Kontextvektor enthält. In Schritt 702 wird eine Gruppe Distanzen durch eine Distanz-Berechnungseinrichtung 602 für jeden eingegebenen Kontextvektor bestimmt. Insbesondere wird eine separate Distanz zwischen dem eingegebenen Kontextvektor und jedem Kontextvektor berechnet, der in seinem jeweiligen Blattknoten gefunden wird. In Übereinstimmung mit einer Ausführungsform wird jede Distanz wie folgt berechnet:
wobei D_c die Kontextdistanz ist, D_i ist die Distanz für die Koordinate i des Kontextvektors, W_ci ist eine Gewichtung, die mit der Koordinate i verbunden ist, und l ist die Anzahl von Koordinaten in einem jeden Kontextvektor.
In Schritt 704 werden die N Sprachaufnahmen mit den am meisten übereinstimmenden Kontextvektoren einbehalten, während die verbleibenden Sprachaufnahmen aus der Knotenanordnung 600 entfernt werden, um eine gekürzte Blattknotenanordnung 604 zu bilden. Die Anzahl von Sprachaufnahmen, N, die in den gekürzten Knoten gelassen werden sollen, wird durch Abgleichen von Verbesserungen der Prosodie mit einer verbesserten Verarbeitungszeit bestimmt. Im Allgemeinen bedeuten mehr Sprachaufnahmen, die in den gekürzten Knoten beibehalten werden, eine bessere Prosodie zu ungunsten einer längeren Verarbeitungszeit.
In Schritt 706 wird die gekürzte Anordnung einem Viterbi-Dekodierer 606 zugeführt, der einen Pfad des geringsten Aufwandes durch die gekürzte Anordnung identifiziert. In Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung mit Einfachauswahl wird der Pfad des geringsten Aufwandes durch einfaches Auswählen der Sprachaufnahme mit den am meisten übereinstimmenden Kontextvektoren in jedem Knoten identifiziert. In Übereinstimmung mit einer Ausführungsform mit Mehrfachauswahl wird die Aufwandfunktion so modifiziert, dass sie Folgendes ergibt:
wobei C_c der Konkatenationsaufwand für den gesamten Satz ist, W_c ist eine Gewichtung, die mit dem Distanzmaß des Konkatenationsaufwandes verbunden ist, D_cj ist die Distanz, die in Gleichung 4 für die j-te Spracheinheit in dem Satz berechnet wird, W_s ist eine Gewichtung, die mit einem Glättungsmaß des Konkatenationsaufwandes verbunden ist, C_sj ist ein Glättungsmaß für jede j-te Spracheinheit, und J ist eine Anzahl von Spracheinheiten in dem Satz.
Der Glättungsaufwand in Gleichung 5 wird definiert, um ein Maß der prosodischen Nicht-Übereinstimmung zwischen der Sprachaufnahme j und den Sprachaufnahmen bereitzustellen, die durch den Viterbi-Dekodierer als Nachbarn zu der Sprachaufnahme j vorgeschlagen wurden. In Übereinstimmung mit einer Ausführungsform wird der Glättungsaufwand auf Basis der Tatsache bestimmt, ob eine Sprachaufnahme und ihre Nachbarn bei einer Realisierung („utterance") in dem Trainingskorpus als Muster aufgefunden wurden. Wenn eine Sprachaufnahme neben ihren Nachbarn in dem Trainingskorpus auftritt, beträgt der Glättungsaufwand Null, da die Sprachaufnahmen die angemessene Prosodie aufweisen, um miteinander kombiniert werden zu können. Wenn eine Sprachaufnahme nicht neben ihren Nachbarn in dem Trainingskorpus aufgetreten ist, wird der Glättungsaufwand auf Eins eingestellt.
Wenn unter Verwendung des Mehrfachauswahl-Ansatzes für eine uneinheitliche Einheit ein großer Block von Spracheinheiten, wie beispielsweise ein Wort oder eine Phrase in dem eingegebenen in dem Trainingskorpus vorhanden ist, werden sämtliche Sprachaufnahmen, die mit diesem Block von Spracheinheiten verbunden sind, bevorzugt ausgewählt. Hierbei ist jedoch zu beachten, dass, wenn der Block von Spracheinheiten innerhalb eines anderen prosodischen Kontextes auftrat, die Distanz zwischen den Kontextvektoren wahrscheinlich dazu führen wird, das andere Sprachaufnahmen ausgewählt werden als die, die mit dem Block verbunden sind.
Wenn der Pfad mit dem geringsten Glättungsaufwand durch den Viterbi-Dekodierer 606 identifiziert ist, werden die identifizierten Sprachaufnahmen 608 der Spracherzeugungseinrichtung 303 zugeführt. Mit Ausnahme von geringen Maßen an Glättung an den Grenzen zwischen den Spracheinheiten führt die Spracherzeugungseinrichtung 303 ein einfaches Konkatenieren der Spracheinheiten durch, um synthetisierte Sprache 302 zu erzeugen. Auf diese Weise werden die Spracheinheiten kombiniert, ohne dass dabei ihre Prosodie geändert werden muss.
Obgleich die vorliegende Erfindung in Bezug auf bestimmte Ausführungsformen beschrieben wurde, wird es den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik offensichtlich sein, dass Änderungen an der Form und im Detail vorgenommen werden können, ohne vom Umfang der Erfindung abzuweichen. Genauer gesagt bedeutet dies, dass, obgleich voranstehend Kontextvektoren beschrieben wurden, auch andere Darstellungen der Kontextinformationen innerhalb des Umfanges der Erfindung verwendet werden können.

Claims

Verfahren zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus (306), das bei Sprachsynthese verwendet wird, wobei das Verfahren umfasst: Identifizieren (402, 404) einer Gruppe prosodischer Kontextinformationen für jede einer Gruppe von Spracheinheiten; Bestimmen (406) einer Häufigkeit des Auftretens für jeden einzelnen Kontextvektor, der in einem sehr großen Textkorpus erscheint; Verwenden (406) der Häufigkeit des Auftretens der Kontextvektoren zum Identifizieren einer Liste (408) erforderlicher Kontextvektoren; und Auswählen (410) von Sätzen in dem sehr großen Textkorpus zum Lesen in das Trainings-Sprachkorpus, wobei jeder ausgewählte Satz wenigstens einen erforderlichen Kontextvektor enthält.
Verfahren nach Anspruch 1, wobei Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Gruppe erforderlicher Kontextinformationen umfasst: Bestimmen der Häufigkeit des Auftretens einer Gruppe prosodischer Kontextinformationen über ein sehr großes Textkorpus (400), und Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Sätze erforderlicher Kontextinformationen auf Basis der Häufigkeit ihres Auftretens.
Verfahren nach Anspruch 2, wobei Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Gruppen erforderlicher Kontextinformationen des Weiteren umfasst: Sortieren (406) der Gruppen von Kontextinformationen nach der Häufigkeit ihres Auftretens in absteigender Reihenfolge; Bestimmen einer Schwelle F für akkumulative Häufigkeit oberster Kontextvektoren; und Auswählen der obersten Kontextvektoren, deren akkumulative Häufigkeit nicht kleiner ist als F, für jede Spracheinheit als Gruppen erforderlicher prosodischer Kontextinformationen.
Verfahren nach Anspruch 1, das des Weiteren Indexieren nur der Spachsegmente umfasst, die mit Sätzen in dem kleineren Trainingstext verbunden sind, und wobei Indexieren Indexieren unter Verwendung eines Entscheidungsbaums umfasst.
Verfahren nach Anspruch 4, wobei Indexieren des Weiteren Indexieren der Sprachsegmente in dem Entscheidungsbaum auf Basis von Informationen in den Gruppen von Kontextinformationen umfasst.
Verfahren nach Anspruch 5, wobei der Entscheidungsbaum Blattknoten umfasst und wenigstens ein Blattknoten wenigstens zwei Sprachsegmente für die gleiche Spracheinheit umfasst.
Computerlesbares Medium, das durch Computer ausführbare Befehle zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus aufweist, das bei Sprachsynthese verwendet wird, durch Durchführen jedes Schrittes des Verfahrens nach einem der Ansprüche 1 bis 6, wenn es auf einem Computer ausgeführt wird.
Vorrichtung zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus (306), das bei Sprachsynthese verwendet wird, wobei die Vorrichtung umfasst: eine Einrichtung zum Identifizieren einer Gruppe prosodischer Kontextinformationen für jede einer Gruppe von Spracheinheiten; eine Einrichtung zum Bestimmen einer Häufigkeit des Auftretens für jeden einzelnen Kontextvektor, der in einem sehr großen Textkorpus erscheint; eine Einrichtung zum Verwenden der Häufigkeit des Auftretens der Kontextvektoren zum Identifizieren einer Liste erforderlicher Kontextvektoren; und eine Einrichtung zum Auswählen von Sätzen in dem sehr großen Textkorpus zum Lesen in das Trainings-Sprachkorpus, wobei jeder ausgewählte Satz wenigstens einen erforderlichen Kontextvektor enthält.
Vorrichtung nach Anspruch 8, die des Weiteren Einrichtungen umfasst, die zum Durchführen aller Schritte des Verfahrens nach einem der Ansprüche 2 bis 6 eingerichtet sind.