DE60126564T2 - Verfahren und Anordnung zur Sprachsysnthese - Google Patents

Verfahren und Anordnung zur Sprachsysnthese Download PDF

Info

Publication number
DE60126564T2
DE60126564T2 DE60126564T DE60126564T DE60126564T2 DE 60126564 T2 DE60126564 T2 DE 60126564T2 DE 60126564 T DE60126564 T DE 60126564T DE 60126564 T DE60126564 T DE 60126564T DE 60126564 T2 DE60126564 T2 DE 60126564T2
Authority
DE
Germany
Prior art keywords
speech
context
corpus
context information
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60126564T
Other languages
English (en)
Other versions
DE60126564D1 (de
Inventor
Min Haidian District Chu
Hu Haidian District Peng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE60126564D1 publication Critical patent/DE60126564D1/de
Application granted granted Critical
Publication of DE60126564T2 publication Critical patent/DE60126564T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Sprachsynthese. Im Besonderen betrifft die Erfindung Prosodie bei Sprachsynthese.
  • Durch Text-zu-Sprache-Technologie sind computerisierte Systeme in der Lage, über synthetisierte Sprache mit Benutzern zu kommunizieren. Die Qualität dieser Systeme wird typischerweise daran gemessen, wie natürlich oder menschlich die synthetisierte Sprache klingt.
  • Es kann eine sehr natürlich klingende Sprache erzeugt werden, indem einfach eine Aufnahme eines ganzen Satzes oder eines Abschnittes von Sprache wieder abgespielt wird. Aufgrund der Komplexität der menschlichen Sprachen und der beschränkten Speicherkapazität von Computern, erweist es sich jedoch als unmögliches Unterfangen, jeden vorstellbaren Satz zu speichern, der möglicherweise in einem Text auftritt. Aus diesem Grund wurde auf dem Gebiet der Technik ein konkatenativer Ansatz für die Sprachsynthese eingeführt, der zum Erzeugen von Sprache anhand eines beliebigen Textes verwendet werden kann. Dieser konkatenativer Ansatz kombiniert gespeicherte Sprachaufnahmen, die kleine Spracheinheiten, wie beispielsweise Phoneme, Diphone, Triphone oder Silben repräsentieren, um ein größeres Sprachsignal zu bilden.
  • Ein bekanntes Text-zu-Sprache-System wird in dem Dokument „Recent improvements on Microsoft's trainable text-to-speech system Whistler" von HUANG X ET AL, in A-COUSTICS, SPEECH, AND SIGNAL PROCESSING, der ICASSP-97, MÜNCHEN, 21. bis 24. April, 1997, Seiten 959 bis 962, offenbart.
  • Ein Problem bei solchen konkatenativen Systemen besteht darin, dass eine gespeichertes Sprachaufnahme eine Grundfrequenz (Pitch) und eine Tondauer aufweist, die durch den Kontext, in dem die Sprachaufnahme gesprochen wurde, vorgegeben ist. So wei sen beispielsweise in dem Satz „Joe went to the store" [Joe ging in das Geschäft] die mit dem Wort „store" [Geschäft] verbundenen Spracheinheiten eine niedrigere Grundfrequenz auf als in der Frage „Joe went to the store?" [Joe ging in das Geschäft?]. Aufgrund dieser Tatsache weisen, wenn gespeicherte Sprachaufnahmen einfach abgerufen werden, ohne Bezug auf ihre Grundfrequenz oder ihre Tondauer zu nehmen, einige dieser Sprachaufnahmen die falsche Grundfrequenz und/oder Tondauer für den Satz auf, was in einer unnatürlich klingenden Sprache resultiert.
  • Ein Verfahren zum Lösen dieses Problems besteht im Identifizieren der angemessenen Grundfrequenz und der Tondauer für jede Sprachaufnahme. Auf Basis von diesen Informationen zur Prosodie kann eine bestimmte Sprachaufnahme ausgewählt und/oder modifiziert werden, so dass eine Übereinstimmung mit der Ziel-Grundfrequenz und der Ziel-Tondauer gefunden wird.
  • Das Identifizieren der angemessenen Grundfrequenz und Tondauer ist als Prosodievorhersage bekannt. Typischerweise umfasst sie das Erzeugen eines Modells, das die Grundfrequenz und Tondauer für jede Spracheinheit, die in einem Text gegeben ist, beschreibt, die am wahrscheinlichsten sind. Das Ergebnis dieser Vorhersage ist eine Gruppe von in Zahlen ausgedrückten Zielen für die Grundfrequenz und Tondauer eines jeden Sprachsegmentes.
  • Diese Ziele können anschließend zum Auswählen und/oder Modifizieren eines gespeicherten Sprachsegmentes verwendet werden. So können die Ziele beispielsweise verwendet werden, um zuerst das Sprachsegment auszuwählen, das die engste Übereinstimmung mit der Grundfrequenz und der Tondauer der Ziel-Grundfrequenz und Ziel-Tondauer aufweist. Dieses Segment kann anschließend direkt verwendet oder weiter modifiziert werden, um eine noch bessere Übereinstimmung mit den Ziel-Werten zu finden.
  • So ist beispielsweise ein dem Stand der Technik entsprechendes Verfahren zum Modifizieren der Prosodie von Sprachsegmenten das so genannte TD-PSOLA-(Time-Domain Pitch-Synchronous Overlap-and-Add) Verfahren, das in dem Dokument „Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones", von E. Moulines und F. Carpentier, in Speech Communication, Bnd. 9, Nr. 5, Seiten 453 bis 467, 1990 beschrieben ist. Unter Verwendung dieses Verfahrens wird entsprechend dem Stand der Technik die Grundfrequenz eines Sprachsegmentes durch Identifizieren eines für die Grundfrequenz verantwortlichen Abschnittes des Sprachsegmentes erhöht. Bei diesem Abschnitt handelt es sich um eine komplexe Wellenform, die eine Summe aus Sinuskurven bei Vielfachen einer grundlegenden Häufigkeit F0 ist. Die Periode der Grundfrequenz wird durch den Abstand zwischen zwei Grundfrequenzspitzen in der Wellenform definiert.
  • Um die Grundfrequenz zu erhöhen, wird entsprechend dem Stand der Technik ein Segment der komplexen Wellenform, das so lang wie die Grundfrequenzperiode ist, kopiert. Dieses kopierte Segment wird anschließend um einen Teil des Abschnittes der Grundfrequenzperiode verschoben und erneut in die Wellenform eingefügt. Um beispielsweise die Grundfrequenz zu verdoppeln, würde das kopierte Segment um die Hälfte der Grundfrequenzperiode verschoben werden, wodurch eine neue Spitze in die Mitte zwischen zwei vorhandenen Spitzen eingefügt wird und die Tonhöhenperiode zur Hälfte geteilt wird.
  • Um ein Sprachsegment zu verlängern, wird entsprechend dem Stand der Technik ein Abschnitt des Sprachsegmentes kopiert und die Kopie in die komplexe Wellenform eingefügt. Mit anderen Worten bedeutet dies, dass der gesamte Abschnitt des Sprachsegmentes nach dem kopierten Segment um die Länge des kopierten Abschnittes zeitverschoben wird, so dass die Dauer der Spracheinheit verlängert wird.
  • Ungünstigerweise haben diese Verfahren zum Modifizieren der Prosodie einer Spracheinheit nicht hundertprozentig zufriedenstellende Ergebnisse geliefert. Insbesondere erzeugen diese Modifizierungsverfahren oftmals mechanisch oder „summend" klingende Sprache.
  • In Anbetracht dessen wäre es wünschenswert, in der Lage zu sein, eine gespeicherte Einheit auszuwählen, die eine gute Prosodie ohne Modifizierung gewährleistet. Aufgrund von beschränkten Speicherkapazitäten können Sprachaufnahmen jedoch nicht für sämtliche der möglichen prosodischen Kontexte gespeichert werden, in denen eine Spracheinheit verwendet werden kann. Stattdessen muss eine begrenzte Gruppe von Sprachaufnahmen für die Speicherung ausgewählt werden. Aufgrund dieser Tatsache ist die Leistung eines Systems, das gespeicherte Sprachaufnahmen ohne Prosodiemodifizierung verwendet, davon abhängig, welche Sprachaufnahmen gespeichert sind.
  • Dementsprechend besteht ein anhaltender Bedarf an einem verbesserten Auswählen dieser gespeicherten Sprachaufnahmen in Systemen, die die Prosodie der gespeicherten Sprachaufnahmen nicht modifizieren. Es besteht darüber hinaus ein anhaltender Bedarf daran, die mit dem Identifizieren der angemessenen Prosodie für die Spracheinheiten verbundene Rechenkomplexität zu reduzieren.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist die Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zum verbesserten Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus, das bei Sprachsynthese verwendet wird, bereitzustellen.
  • Diese Aufgabe wird durch die Erfindung gemäß Beanspruchung derselben in den unabhängigen Ansprüchen gelöst.
  • Bevorzugte Ausführungsformen werden in den abhängigen Ansprüchen definiert.
  • Es wird eine Sprachsynthese-Einrichtung bereitgestellt, die gespeicherte Sprachaufnahmen von Spracheinheiten konkateniert (zusammenfügt), ohne eine Modifizierung der Prosodie der Sprachaufnahmen durchzuführen. Die vorliegende Erfindung ist in der Lage, ein hohes Maß an natürlichem Klang der synthetisierten Sprache mit einem sorgfältig angelegten Sprachkorpus zu erzielen, indem Sprachaufnahmen auf Basis des prosodischen und des phonetischen Kontexts, in dem sie auftreten, gespeichert werden. Insbesondere begrenzen einige Ausführungsformen der vorliegenden Erfindung den Trainingstext auf jene Sätze, die die am häufigsten auftretenden Gruppen prosodischer Kontexte für jede Spracheinheit erzeugen. Weitere Ausführungsformen der vorliegenden Erfindung stellen darüber hinaus einen Mehrfach-Auswählmechanismus zum Auswählen einer Gruppe von Sprachaufnahmen bereit, die die Sprache mit dem natürlichsten Klang erzeugen.
  • In Übereinstimmung mit denjenigen Ausführungsformen, die den Trainingstext begrenzen, wird lediglich eine begrenzte Gruppe der Sätze in einem sehr großen Textkorpus ausgewählt und durch eine Person in einen Trainings-Sprachkorpus gelesen, aus dem Sprachaufnahmen von Einheiten ausgewählt werden, um natürlich klingende Sprache zu erzeugen. Um die Sätze zu identifizieren, die gelesen werden sollen, bestimmen Ausführungsformen der vorliegenden Erfindung eine Häufigkeit des Auftretens eines jeden mit einer Spracheinheit verbundenen Kontextvektors. Kontextvektoren, die eine Häufigkeit des Auftretens besitzen, die größer ist als ein bestimmter Schwellenwert, werden als erforderliche Kontextvektoren identifiziert. Sätze, die die meisten erforderlichen Kontextvektoren enthalten, werden so lange für die Aufzeichnung ausgewählt, bis alle der erforderlichen Kontextvektoren in der ausgewählten Subgruppe von Sätzen enthalten sind.
  • In den Ausführungsformen, die ein Verfahren mit Mehrfachauswahl verwenden, wird eine Gruppe mit Kandidaten-Sprachsegmenten für jede Spracheinheit identifiziert, indem der eingegebene Kontextvektor mit den mit den Sprachsegmenten verbundenen Kontextvektoren verglichen wird. Anschließend wird auf Basis von Differenzen zwischen den eingegebenen Kontextvektoren und den gespeicherten Kontextvektoren sowie einigen Glättungsaufwandes, der die Glättung des resultierenden konkatenierten Sprachsignals anzeigt, ein Pfad durch die Kandidaten-Sprachsegmente ausgewählt. In Übereinstimmung mit einer Ausführungsform wird durch den Glättungsaufwand bevorzugt eine Reihe von Sprachsegmenten ausgewählt, die in dem Trainingskorpus nebeneinander auftraten.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm einer allgemeinen Rechenumgebung, in der die vorliegende Erfindung ausgeführt sein kann.
  • 2 ist ein Blockdiagramm einer Mobilvorrichtung, in der die vorliegende Erfindung ausgeführt sein kann.
  • 3 ist ein Blockdiagramm eines Sprachsynthesesystems.
  • 4 ist ein Blockdiagramm eines Systems zum Auswählen einer Trainingstext-Subgruppe aus einem sehr großen Trainingskorpus.
  • 5 ist ein Ablaufplan zum Erstellen eines Entscheidungsbaumes in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung.
  • 6 ist ein Blockdiagramm eines Mehrfach-Auswählsystems zum Auswählen von Sprachsegmenten in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung.
  • 7 ist ein Ablaufplan eines Mehrfach-Auswählsystems zum Auswählen von Sprachsegmenten in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER ILLUSTRATIVEN AUSFÜHRUNGSFORMEN
  • 1 illustriert ein Beispiel einer geeigneten Rechensystemumgebung 100, in der die Erfindung implementiert sein kann. Die Rechensystemumgebung 100 ist lediglich ein Beispiel einer geeigneten Rechenumgebung, und es ist nicht beabsichtigt, dass diese irgendeine eine Beschränkung hinsichtlich des Umfanges der Verwendung oder der Funktionalität der Erfindung suggeriert. Die Rechenumgebung 100 sollte darüber hinaus auch nicht dahingehend interpretiert werden, dass sie in irgendeiner Form von irgendeiner Komponente oder einer Kombination von Komponenten, die in der exemplarischen Betriebsumgebung 100 dargestellt ist, abhängig ist, oder darauf angewiesen ist.
  • Die Erfindung kann mit einer Vielzahl von anderen Universal- oder Spezial-Rechensystemumgebungen oder Konfigurationen betrieben werden. Beispiele von gut bekannten Rechensystemen, Rechenumgebungen und/oder Konfigurationen, die für die Verwendung mit der Erfindung geeignet sind, umfassen, sind jedoch nicht beschränkt auf, Personalcomputer, Servercomputer, tragbare oder Laptopcomputer, Multiprozessorsysteme, auf Mikroprozessoren basierende Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronikgeräte, Netzwerk-PCs, Minicomputer, Mainframe- Computer, verteilte Rechenumgebungen, die beliebige der voranstehend erwähnten Systeme oder Vorrichtungen enthalten, und Ähnliches.
  • Die Erfindung kann im allgemeinen Kontext von durch Computer ausführbaren Befehlen, wie beispielsweise Programmmodulen, die durch einen Computer ausgeführt werden, beschrieben werden. Im Allgemeinen umfassen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, und so weiter, die bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung kann darüber hinaus auch in verteilten Rechenumgebungen ausgeführt sein, in denen Aufgaben durch dezentrale Verarbeitungsvorrichtungen, die über ein Kommunikationsnetzwerk verbunden sind, ausgeführt werden. In einer verteilten Rechenumgebung können die Programmmodule sowohl auf lokalen als auch dezentralen Computerspeichermedien einschließlich Speichervorrichtungen lokalisiert sein.
  • In Bezug auf 1 enthält ein exemplarisches System zum Implementieren der Erfindung eine allgemeine Rechenvorrichtung in Form eines Computers 110. Die Komponenten des Computers 110 können eine Verarbeitungseinrichtung 120, einen Systemspeicher 130 und einen Systembus 121 umfassen, der verschiedene Systemkomponenten einschließlich des Systemspeichers mit der Verarbeitungseinrichtung 120 koppelt, jedoch sind die Komponenten nicht auf die Genannten beschränkt. Der Systembus 121 kann ein beliebiger von mehreren Typen von Busstrukturen sein, einschließlich eines Speicherbuses oder einer Speichersteuerung, eines Peripheriebuses und eines Lokalbuses, der beliebige einer Reihe verschiedener Busstrukturen verwendet. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen solche Architekturen einen ISA-(Industry Standard Architecture) Bus, einen MCA-(Micro Channel Architecture) Bus, einen EISA-(Enhanced ISA) Bus, einen lokalen VESA-(Video Electronics Standards Association) Bus und einen PCI-(Peripheral Component Interconnect) Bus, auch als Mezzanine-Bus bekannt.
  • Der Computer 110 enthält typischerweise eine Reihe verschiedener computerlesbarer Medien. Computerlesbare Medien können beliebige verfügbare Medien sein, auf die durch den Computer 110 zugegriffen werden kann, und sie umfassen sowohl flüchtige als auch nicht-flüchtige Medien, entnehmbare und nicht-entnehmbare Medien. Im Sinne eines Beispieles und nicht im restriktiven Sinne zu erachten, können computerlesbare Medien Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien umfassen sowohl flüchtige als auch nicht-flüchtige, entnehmbare und nicht-entnehmbare Speichermedien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise computerlesbare Befehle, Datenstrukturen, Programmmodule oder andere Daten, implementiert sind. Computerspeichermedien umfassen, sind jedoch nicht beschränkt auf, Direktzugriffsspeicher RAM, Festwertspeicher ROM, elektronisch löschbare programmierbare Lesespeicher EEPROM, Flash-Speicher oder andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder andere optische Plattenspeicher, Magnetkassetten, Magnetbänder, Magnetplattenspeicher oder andere Magnetspeichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet wird und auf das durch den Computer 100 zugegriffen werden kann.
  • Kommunikationsmedien werden typischerweise durch computerlesbare Befehle, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einem anderen Transportmechanismus repräsentiert, und sie umfassen beliebige Informationsverbreitungsmedien. Der Begriff „moduliertes Datensignal" bezieht sich auf ein Signal, das eine oder mehrere seiner Eigenschaften auf solch eine Weise eingestellt oder geändert hat, dass Informationen in dem Signal kodiert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, umfassen Kommunikationsmedien kabelbasierte Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung und drahtlose Medien, wie beispielsweise akustische, HF-, Infrarot- oder andere drahtlose Medien. Kombinationen aus beliebigen der voranstehend Genannten sollten ebenfalls mit in den Umfang der computerlesbaren Medien einbezogen werden.
  • Der Systemspeicher 130 enthält Computerspeichermedien in Form von flüchtigen und/oder nicht-flüchtigen Speichern, wie beispielsweise Nur-Lese-Speicher (ROM) 131, und Schreib-/Lesespeichern (RAM) 132. Ein Basiseingabe/Ausgabesystem (BIOS), 133 das die Basisroutinen enthält, die das Übertragen von Informationen zwischen Elementen innerhalb des Computers 110, wie zum Beispiel während des Hochfahrens, unterstützen, ist typischerweise in dem Nur-Lese-Speicher ROM 131 gespeichert. Der Schreib-/Lesespeicher RAM 132 enthält typischerweise Daten und/oder Programmmodule, auf die durch die Verarbeitungseinrichtung 120 unmittelbar zugegriffen werden kann und/oder die in Kürze durch sie verarbeitet werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 ein Betriebssystem 134, Anwendungsprogramme 135, weitere Programmmodule 136 sowie Programmdaten 137.
  • Der Computer 110 kann darüber hinaus auch andere entnehmbare/nicht-entnehmbare, flüchtige/nicht-flüchtige Computerspeichermedien umfassen. Lediglich im Sinne eines Beispiels illustriert 1 ein Festplattenlaufwerk 141, das von nicht-entnehmbaren, nicht-flüchtigen Magnetmedien liest und auf diese schreibt, ein Magnetplattenlaufwerk 151, das von einer entnehmbaren, nicht-flüchtigen Magnetplatte 152 liest und auf diese schreibt und ein optisches Plattenlaufwerk 155, das von einer entnehmbaren, nichtflüchtigen optischen Platte 156, wie beispielsweise einer CD-ROM oder einem anderen optischen Medium liest oder auf dieses schreibt. Andere entnehmbare/nicht-entnehmbare, flüchtige/nicht-flüchtige Computerspeichermedien, die in der exemplarischen Betriebsumgebung verwendet werden können, umfassen, sind jedoch nicht beschränkt auf, Magnetbandkassetten, Flash-Speicherkarten, Digital Versatile Disks (DVDs), Digitalvideoband, Solid-State-RAMs, Solid-State-ROMs und Ähnliches. Das Festplattenlaufwerk 141 ist typischerweise über eine nicht-entnehmbare Speicherschnittstelle, wie beispielsweise die Schnittstelle 140, mit dem Systembus 121 verbunden, und das Magnetplattenlaufwerk 151 und das optische Plattenlaufwerk 155 sind typischerweise durch eine entnehmbare Speicherschnittstelle, wie zum Beispiel der Schnittstelle 150 mit dem Systembus 121 verbunden.
  • Die Laufwerke und ihre assoziierten Speichermedien, die voranstehend beschrieben wurden und in 1 dargestellt sind, gewährleisten die Speicherung von computerlesbaren Befehlen, Datenstrukturen, Programmmodulen und anderen Daten für den Computer 110. In 1 sind beispielsweise ein Festplattenlaufwerk 141 als speicherndes Betriebssystem 144, Anwendungsprogramme 145, weitere Programmmodule 146 und Programmdaten 147 dargestellt. Hierbei ist zu beachten, dass diese die gleichen wie das Betriebssystem 134, die Anwendungsprogramme 135, weitere Programmmodule 136 und Programmdaten 137 sein können, oder von diesen abweichen. Das Betriebssystem 144, Anwendungsprogramme 145, weitere Programmmodule 146 und Programmdaten 147 sind in diesem Fall mit anderen Nummern versehen, um zu illustrieren, dass es sich bei ihnen zumindest um andere Exemplare handelt.
  • Ein Benutzer kann über Eingabegeräte, wie beispielsweise eine Tastatur 162, ein Mikrophon 163 und ein Zeigegerät, wie beispielsweise eine Maus, ein Trackball oder ein Tastfeld, Befehle und Informationen in den Computer 110 eingegeben. Andere Eingabegeräte (nicht dargestellt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder Ähnliches umfassen. Diese und andere Eingabegeräte sind oftmals über eine Benutzereingabeschnittstelle 160, die mit dem Systembus gekoppelt ist, mit der Verarbeitungseinrichtung 120 verbunden, sie können jedoch auch durch andere Schnittstellen und Busstrukturen, wie beispielsweise einen Parallelanschluss, einen Game-Port oder einen Universalserienbus (USB) verbunden sein. Ein Monitor 191 oder ein anderer Typ von Anzeigevorrichtung ist ebenfalls über eine Schnittstelle, wie beispielsweise eine Videoschnittstelle 190 mit dem Systembus 121 verbunden. Zusätzlich zu dem Monitor können Computer auch andere Peripherie-Ausgabegeräte, wie beispielsweise Lautsprecher 197 und Drucker 196 enthalten, die über eine Ausgabe-Peripherieschnittstelle 190 verbunden sein können.
  • Der Computer 110 kann in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren dezentralen Computern, wie beispielsweise einem dezentralen Computer 180 betrieben werden. Bei dem dezentralen Computer 180 kann es sich um einen Personalcomputer, eine tragbare Vorrichtung, einen Server, einen Router, einen Netzwerk-PC, ein Peer-Gerät oder einen anderen allgemein verwendeten Netzwerkknoten handeln, und er enthält typischerweise viele oder alle der in Bezug auf den Computer 110 voranstehend beschriebenen Elemente. Die in 1 dargestellten logischen Verbindungen umfassen ein lokales Netz (LAN) 171 und ein Großraumnetzwerk (WAN) 173, sie können jedoch auch andere Netzwerke umfassen. Solche Netzwerkumgebungen werden weit verbreitet in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet eingesetzt.
  • Wenn der Computer 110 in einer LAN-Netzwerkumgebung verwendet wird, ist er über eine Netzwerkschnittstelle oder einen Adapter 170 mit dem LAN 171 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, enthält der Computer 110 typischerweise ein Modem 172 oder eine andere Vorrichtung zum Herstellen von Verbindungen über das Großraumnetzwerk WAN 173, wie beispielsweise dem Internet. Das Modem 172, das ein externes oder ein internes Modem sein kann, kann über die Benutzereingabeschnittstelle 160 oder einen anderen geeigneten Mechanismus mit dem Sys tembus 121 verbunden sein. In einer Netzwerkumgebung können die in Bezug zu dem Computer 110 dargestellten Programmmodule oder Abschnitte davon in der dezentralen Speichervorrichtung gespeichert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, illustriert 1 dezentrale Anwendungsprogramme 185, wie diese auf dem dezentralen Computer 180 installiert sind. Es wird offensichtlich sein, dass die dargestellten Netzwerkverbindungen exemplarischen Charakter besitzen und dass auch andere Vorrichtungen zum Herstellen einer Kommunikationsverbindung zwischen den Computern verwendet werden können.
  • 2 ist ein Blockdiagramm einer Mobilvorrichtung 200, bei der es sich um eine exemplarische Rechenumgebung handelt. Die Mobilvorrichtung 200 enthält einen Mikroprozessor 202, einen Speicher 204, Eingabe-/Ausgabe-(I/O) Komponenten 206 und eine Kommunikationsschnittstelle 208 zum Kommunizieren mit dezentralen Computern oder anderen Mobilvorrichtungen. In einer Ausführungsform sind die voranstehend genannten Komponenten über einen geeigneten Bus 210 für die Kommunikation miteinander gekoppelt.
  • Der Speicher 204 ist als nicht-flüchtiger, elektronischer Speicher, wie beispielsweise als Direktzugriffsspeicher (RAM) mit einem Batterie-Backup-Modul (nicht dargestellt) auf eine Weise implementiert, dass in dem Speicher gespeicherte Informationen 204 nicht verloren gehen, wenn der Hauptstrom zur Mobilvorrichtung 200 abgeschaltet wird. Ein Abschnitt des Speichers 204 ist vorzugsweise als adressierbarer Speicher für die Programmausführung vorgesehen, während ein anderer Abschnitt des Speichers 204 vorzugsweise so für die Speicherung verwendet wird, dass Speicherung auf einem Plattenlaufwerk simuliert wird.
  • Der Speicher 204 enthält ein Betriebssystem 212, Anwendungsprogramme 214, ebenso wie einen Objektspeicher 216. Während des Betriebs wird das Betriebssystem 212 vorzugsweise durch den Prozessor 202 von dem Speicher 204 ausgeführt. In einer bevorzugten Ausführungsform ist das Betriebssystem 212 ein Marken-Betriebssystem der Marke WINDOWS® CE, das von der Microsoft Corporation erhältlich ist. Das Betriebssystem 212 ist vorzugsweise für Mobilvorrichtungen entwickelt und implementiert Datenbankfunktionen, die über einen Satz exponierter Anwendungsprogrammierschnittstellen und -verfahren durch Anwendungen 214 verwendet werden können. Die Objekte in dem Objektspeicher 216 werden durch die Anwendungen 214 und das Betriebssystem 212 wenigstens zum Teil in Reaktion auf Rufe zu den exponierten Anwendungsprogrammierschnittstellen und -verfahren beibehalten.
  • Die Kommunikationsschnittstelle 208 repräsentiert eine Vielzahl von Vorrichtungen und Technologien, die es der Mobilvorrichtung 200 gestatten, Informationen zu senden und zu empfangen. Die Vorrichtungen enthalten verkabelte und kabellose Modems, Satellitenempfänger und Rundfunktuner, um nur einige zu nennen. Die Mobilvorrichtung 200 kann auch direkt mit einem Computer verbunden sein, um Daten mit diesem auszutauschen. In solchen Fällen kann die Kommunikationsschnittstelle 208 ein Infrarot-Sende-Empfangs-Gerät oder eine serielle oder parallele Kommunikationsverbindung sein, von denen alle in der Lage sind, Streaming-Informationen zu senden.
  • Die Eingabe-/Ausgabe-Komponenten 206 umfassen eine Reihe verschiedener Eingabegeräte, wie beispielsweise einen berührungsempfindlichen Bildschirm, Tasten, Roller und ein Mikrofon, ebenso wie eine Reihe verschiedener Ausgabegeräte, einschließlich eines Audio-Generators, einer Vibrationsvorrichtung und einer Anzeige. Die voranstehend aufgelisteten Vorrichtungen sind von exemplarischem Charakter und müssen nicht notwendigerweise alle in der Mobilvorrichtung 200 vorhanden sein. Zusätzlich dazu können innerhalb des Umfangs der vorliegenden Erfindung auch andere Eingabe-/Ausgabegeräte mit der Mobilvorrichtung 200 verbunden oder in dieser vorhanden sein.
  • In Übereinstimmung mit der vorliegenden Erfindung wird eine Sprachsynthese-Vorrichtung bereitgestellt, die gespeicherte Sprachaufnahmen von Spracheinheiten konkateniert, ohne dabei die Prosodie der Sprachaufnahmen zu modifizieren. Die vorliegende Erfindung ist in der Lage, mit einem sorgfältig angelegten Sprachkorpus ein hohes Maß von natürlichem Klang bei der synthetisierten Sprache zu erzielen, indem Sprachaufnahmen auf Basis des prosodischen und phonetischen Kontextes, in dem sie auftreten, gespeichert werden. Insbesondere begrenzt die vorliegende Erfindung den Trainingstext auf diejenigen Sätze, die die am häufigsten auftretenden Gruppen prosodischer Kontexte für jede Spracheinheit erzeugen. Die vorliegende Erfindung stellt darüber hinaus einen Mehrfach-Auswählmechanismus zum Auswählen einer Gruppe von Sprachaufnahmen bereit, die die am natürlichsten klingende Sprache erzeugen.
  • 3 ist ein Blockdiagramm einer Sprachsynthese-Vorrichtung 300, die in der Lage ist, in Übereinstimmung mit Ausführungsformen der vorliegenden Erfindung eine synthetisierte Sprache 302 anhand eines eingegebenen Textes 304 zu erzeugen.
  • Bevor die Sprachsynthese-Vorrichtung 300 zum Erzeugen von Sprache verwendet werden kann, muss sie mit aus einem Trainingstext 306, der als Trainingssprache 308 in die Sprachsynthese-Einrichtung 300 gelesen wird, entnommenen Sprachaufnahmen von Spracheinheiten initialisiert werden.
  • Wie dies voranstehend beschrieben wurde, unterliegen die Sprachsynthese-Vorrichtungen Einschränkungen aufgrund einer begrenzten Größe des Speichers. Aufgrund dieser Tatsache muss die Größe des Trainingstextes 306 begrenzt werden, so dass dieser in den Speicher passt. Wenn jedoch der Trainingstext zu klein ist, werden darin nicht ausreichend Sprachaufnahmen von Trainingssprache sein, um die konkatenative Synthese ohne Modifizierungen der Prosodie zu ermöglichen. Ein Aspekt der vorliegenden Erfindung löst dieses Problem durch den Versuch, eine Gruppe Spracheinheiten in einem sehr großen Textkorpus zu identifizieren, der in den Trainingstext eingefügt werden muss, um eine konkatenative Synthese ohne Modifizierungen der Prosodie zu ermöglichen.
  • 4 zeigt ein Blockdiagramm von Komponenten, die zum Identifizieren eines kleineren Textes 306, der in 3 dargestellt ist, aus einem sehr großen Textkorpus 400 verwendet werden. In Übereinstimmung mit einer Ausführungsform handelt es sich bei dem sehr großen Textkorpus 400 um einen Korpus von Text aus fünf Jahren des „People's Daily", einer Chinesischen Tageszeitung, und er enthält ungefähr 97 Millionen Chinesische Schriftzeichen.
  • Zu Beginn wird der große Textkorpus 400 durch eine Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 in Zeichenketten von einzelnen Spracheinheiten zerlegt (geparst). In Übereinstimmung mit den meisten Ausführungsformen der Erfindung, insbesondere denen, die zum Erzeugen von chinesischer Sprache verwendet werden, sind die Spracheinheiten Tonsilben. Es können jedoch innerhalb des Umfanges der Erfindung auch andere Spracheinheiten, wie beispielsweise Phoneme, Diphone oder Triphone verwendet werden.
  • Die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 identifiziert darüber hinaus auch hochgradig prosodische Informationen über jeden Satz, der der Syntaxanalyseeinrichtung (Parser) zugeführt wird. Diese hochgradig prosodischen Informationen umfassen die vorhergesagten Tonstufen für jede Spracheinheit ebenso wie das Gruppieren von Spracheinheiten in prosodische Wörter und Wortgruppen. In den Ausführungsformen, in denen Tonsilben als Spracheinheiten verwendet werden, identifiziert die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 darüber hinaus auch das erste und das letzte Phonem in jeder Spracheinheit.
  • Die Zeichenketten der anhand des Trainingstextes erzeugten Spracheinheiten werden einer Erzeugungseinrichtung für Kontextvektoren 404 zugeführt, die einen deskriptiven Spracheinheit-abhängigen Kontextänderungs-Vektor SDDCVV (Speech-unit-Dependent Descriptive Contextual Variation Vector, im Folgenden als Kontextvektor bezeichnet) erzeugt. Der Kontextvektor beschreibt mehrere Kontextvariablen, die die Prosodie der Spracheinheit beeinflussen können. In Übereinstimmung mit einer Ausführungsform beschreibt der Kontextvektor sechs Variablen beziehungsweise Koordinaten. Diese sind die folgenden:
    • Position innerhalb der Phrase: die Position der aktuellen Spracheinheit in ihrer tragenden prosodischen Phrase.
    • Position innerhalb des Wortes: die Position der aktuellen Spracheinheit in ihrem tragenden prosodischen Wort.
    • Linker phonetischer Kontext: die Kategorie des letzten Phonems in der Spracheinheit links von der aktuellen Spracheinheit.
    • Rechter phonetischer Kontext: die Kategorie des ersten Phonems in der Spracheinheit rechts von der aktuellen Spracheinheit.
    • Linker Tonkontext: die Tonkategorie der Spracheinheit links von der aktuellen Spracheinheit.
    • Rechter Tonkontext: die Tonkategorie der Spracheinheit rechts von der aktuellen Spracheinheit.
  • In Übereinstimmung mit einer Ausführungsform können die Koordinate der Position innerhalb der Phrase und die Koordinate der Position innerhalb des Wortes jeweils einen von vier Werten haben, die Koordinate des linken phonetischen Kontextes kann einen von elf Werten haben, die Koordinate des rechten phonetischen Kontextes kann einen von sechsundzwanzig Werten haben, und die Koordinaten des linken und des rechten Tonkontextes können jeweils einen von zwei Werten haben. In Übereinstimmung mit dieser Ausführungsform gibt es 4·4·11·26·2·2 = 18304 mögliche Kontextvektoren für jede Spracheinheit.
  • Die durch die Erzeugungseinrichtung für Kontextvektoren 404 erzeugten Kontextvektoren werden auf Basis ihrer Spracheinheit gruppiert. Für jede Spracheinheit identifiziert eine auf Häufigkeit basierende Sortiereinrichtung 406 die für jede Spracheinheit am häufigsten auftretenden Kontextvektoren. Die für jede Spracheinheit am häufigsten auftretenden Kontextvektoren werden anschließend in einer Liste erforderlicher Kontextvektoren 408 gespeichert. In einer Ausführungsform werden die obersten Kontextvektoren, deren akkumulative Häufigkeit des Auftretens nicht kleiner ist als die Hälfte der gesamten Häufigkeit des Auftretens sämtlicher Einheiten, in der Liste gespeichert.
  • Das durch die Sortiereinrichtung durchgeführte Sortieren und Kürzen (Pruning) basiert auf einer Erkenntnis, zu der die vorliegenden Erfinder gelangt sind. Insbesondere haben die vorliegenden Erfinder herausgefunden, dass bestimmte Kontextvektoren wiederholt in dem Korpus auftreten. Durch Sicherstellen, dass diese Kontextvektoren in dem Trainingskorpus gefunden werden, erhöht die vorliegende Erfindung die Chancen, dass eine exakte Kontextübereinstimmung für einen eingegebenen Text gefunden wird, ohne dass die Größe des Trainingskorpus in großem Maße vergrößert werden muss. So haben die vorliegenden Erfinder beispielsweise herausgefunden, dass durch Sicherstellen, dass die obersten zwei Prozent der Kontextvektoren in dem Trainingskorpus vorhanden sind, eine exakte Kontextübereinstimmung für eine eingegebene Text-Spracheinheit in über 50 Prozent der Fälle gefunden wird.
  • Unter Verwendung der Liste erforderlicher Kontextvektoren 408 wählt eine Textauswähl-Einrichtung 410 Sätze aus einem sehr großen Textkorpus 400 aus, um eine Trainingstext-Subgruppe 306 zu erzeugen. In einer bestimmten Ausführungsform verwendet die Textauswähl-Einrichtung 410 einen Greedy-Algorithmus zum Auswählen der Sätze aus dem Korpus 400. In Übereinstimmung mit diesem Greedy-Algorithmus tastet die Textauswähl-Einrichtung 410 alle Sätze in dem Korpus ab und greift einen pro Mal heraus, um diesen zu der ausgewählten Gruppe hinzuzufügen.
  • Während des Abtastens bestimmt die Textauswähl-Einrichtung 410, wie viele Kontextvektoren in der Liste 408 in jedem Satz gefunden werden. Der Satz, der die maximale Anzahl von erforderlichen Kontextvektoren enthält, wird anschließend zu dem Trainingstext 306 hinzugefügt. Die Kontextvektoren, die der Satz enthält, werden aus der Liste 408 entfernt, und der Satz wird aus dem sehr großen Textkorpus 400 entfernt. Das Abtasten wird so lange wiederholt, bis sämtliche der Kontextvektoren aus der Liste 408 entfernt worden sind.
  • Nachdem die Trainingstext-Subgruppe 306 erzeugt worden ist, wird sie von einer Person gelesen und zu einem Trainings-Sprachkorpus digitalisiert. Sowohl der Trainingstext als auch die Trainingssprache können zum Initialisieren der in 3 dargestellten Sprachsynthese-Vorrichtung 300 verwendet werden. Diese Initialisierung beginnt durch eine syntaktische Zerlegung der Sätze des Textes 306 in einzelne Spracheinheiten, die mit hochgradig prosodischen Informationen versehen sind. In 3 wird dies durch eine Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 durchgeführt, die der in 4 dargestellten Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 402 ähnlich ist. Die syntaktisch zerlegten Spracheinheiten und ihre hochgradig prosodische Beschreibung werden anschließend einer Erzeugungseinrichtung für Kontextvektoren 312 bereitgestellt, die der in 4 dargestellten Erzeugungseinrichtung für Kontextvektoren 404 ähnlich ist.
  • Die durch die Erzeugungseinrichtung für Kontextvektoren 312 erzeugten Kontextvektoren werden zusammen mit durch eine Sprachaufnahmen-Erzeugungseinrichtung 316 aus einem Trainingssprache-Signal 308 erzeugten Sprachaufnahmen einer Komponenten-Speichereinrichtung 314 zugeführt. Jede Sprachaufnahme, die durch die Sprachaufnahmen-Erzeugungseinrichtung 316 bereitgestellt wird, entspricht einer Sprachein heit, die durch die Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 identifiziert wurde. Die Komponenten-Speichereinrichtung 314 indexiert jede Sprachaufnahme nach ihrem Kontextvektor, um eine indexierte Gruppe gespeicherter Sprachkomponenten 318 zu erhalten.
  • In Übereinstimmung mit einer Ausführungsform werden die Muster durch einen Prosodie-abhängigen Entscheidungsbaum (PDDT prosody-dependent decision tree) indexiert, der automatisch unter Verwendung eines Klassifizierungs- und Regressionsbaumes (CART, classification and regression tree) erzeugt wird. Der CART stellt einen Mechanismus zum Auswählen von Fragen bereit, die zum Unterteilen der gespeicherten Sprachkomponenten in kleine Gruppen ähnlicher Sprachaufnahmen verwendet werden können. Typischerweise wird jede Frage dafür verwendet, um eine Gruppe Sprachkomponenten in zwei kleinere Gruppen zu unterteilen. Mit jeder Frage werden die Komponenten in den kleineren Gruppen homogener. Der Prozess für die Verwendung von CART zum Bilden des Entscheidungsbaumes ist in 5 dargestellt.
  • In dem in 5 dargestellten Schritt 500 wird eine Liste von Kandidaten-Fragen für den Entscheidungsbaum erzeugt. In Übereinstimmung mit einer Ausführungsform wird jede Frage an eine Koordinate oder eine Kombination von Koordinaten in dem Kontextvektor gerichtet.
  • In Schritt 502 wird ein erwarteter quadratischer Fehler für alle der Trainings-Sprachaufnahmen von der Sprachaufnahmen-Erzeugungseinrichtung 316 bestimmt. Der erwartete quadratische Fehler gibt ein Maß der Distanzen innerhalb einer Gruppe von Merkmalen einer jeden Sprachaufnahme in einer Gruppe an. In einer bestimmten Ausführungsform handelt es sich bei den Merkmalen um prosodische Merkmale einer durchschnittlichen grundlegenden Häufigkeit (Fa), einer durchschnittlichen Dauer (Fb) und des Bereiches der grundlegenden Häufigkeit (Fc) für eine Einheit. Für diese Ausführungsform lautet der erwartete quadratische Fehler wie folgt: ESE(t) = E(WaEe + WbEb + WcEc) Gleichung 1wobei ESE(t) der erwartete quadratische Fehler für alle Sprachaufnahmen X auf dem Knoten t in dem Entscheidungsbaum ist, Ea, Eb und Ec sind jeweils der quadratische Fehler für jeweils Fa, Fb und Fc, Wa, Wb und Wc sind Gewichtungen, und der Vorgang des Bestimmens des erwarteten Wertes der Summe der quadratischen Fehler wird durch das äußere E() angezeigt.
  • Anschließend wird jeder quadratische Fehler wie folgt bestimmt: Ej = |Fj – R(Fj)|2,j = a, b, c Gleichung 2wobei R(Fj) ein Regressionswert ist, der anhand der Sprachaufnahmen X an dem Knoten t berechnet wird. In dieser Ausführungsform ist der Regressionswert der erwartete Wert des Merkmals, wie dies anhand der Sprachaufnahmen X an dem Knoten t berechnet wird: Rj(Fj) = E(Fj|X ∈ Knoten1).
  • Wenn der erwartete quadratische Fehler in Schritt 502 bestimmt worden ist, wird in Schritt 504 die erste Frage aus der Frageliste ausgewählt. Die ausgewählte Frage wird in Schritt 506 auf die Kontextvektoren angewendet, um die Muster in Kandidaten-Subknoten für den Baum zu gruppieren. Der erwartete quadratische Fehler eines jeden Sub-Knotens wird anschließend in Schritt 508 unter Verwendung der obenstehenden Gleichungen 1 und 2 bestimmt.
  • In Schritt 510 wird eine Reduzierung des erwarteten quadratischen Fehlers, die durch das Erstellen der zwei Sub-Knoten erzeugt wurde, bestimmt. In Übereinstimmung mit einer Ausführungsform wird diese Reduzierung wie folgt berechnet: ΔWESE(t) = ESE(t)P(t) – (ESE(l)P(l) + ESE(r)P(r)) Gleichung 3wobei ΔWESE(t) die Reduzierung des erwarteten quadratischen Fehlers ist, ESE(t) der erwartete quadratische Fehler des Knotens t ist, auf den die Frage angewendet wurde, P(t) ist der Prozentsatz von Sprachaufnahmen in dem Knoten t, ESE(l) und ESE(r) sind die erwarteten quadratischen Fehler der linken und der rechten Sub-Knoten, die jeweils durch die Frage gebildet wurden, und P(l) und P(r) ist jeweils der Prozentsatz von Sprachaufnahmen in dem linken und dem rechten Knoten.
  • Die Reduzierung des erwarteten quadratischen Fehlers, die durch die aktuelle Frage geliefert wird, wird gespeichert, und der CART-Prozess bestimmt in Schritt 512, ob die aktuelle Frage die letzte Frage in der Liste ist. Wenn noch weitere Fragen in der Liste vorhanden sind, wird die nächste Frage in Schritt 514 ausgewählt, und der Prozess kehrt zurück zu Schritt 506, um den aktuellen Knoten auf Basis der neuen Frage in Sub-Knoten zu unterteilen.
  • Nachdem in Schritt 512 jede Frage auf den aktuellen Knoten angewendet wurde, werden die durch jede Frage gelieferten Reduzierungen des quadratischen Fehlers verglichen, und die Frage, die die größte Reduzierung liefert, wird in Schritt 515 als die Frage für den aktuellen Knoten des Entscheidungsbaumes eingestellt.
  • In Schritt 516 wird eine Entscheidung dahingehend getroffen, ob der aktuelle Satz an Blattknoten weiter unterteilt werden sollte. Diese Bestimmung kann auf Basis der Anzahl von Sprachaufnahmen in jedem Blattknoten oder der Größe der Reduzierung des quadratischen Fehlers, die bei weiterer Unterteilung möglicherweise zustande kommt, getroffen werden.
  • Wenn, in Übereinstimmung mit einer Ausführungsform, der Entscheidungsbaum in seiner abschließenden Form vorliegt, enthält jeder Blattknoten eine Anzahl von Sprachaufnahmen für eine Spracheinheit. Diese Sprachaufnahmen weisen eine leicht voneinander abweichende Prosodie auf. So können sie beispielsweise voneinander abweichende phonetische Kontexte oder unterschiedliche Tonkontexte aufweisen.
  • Durch Aufrechterhalten dieser geringfügigen Unterschiede innerhalb eines Blattknotens führt diese Ausführungsform eine leichte Abwechslung in der Prosodie ein, was beim Entfernen von monotoner Prosodie hilfreich ist.
  • Wenn die aktuellen Blattknoten in Schritt 516 weiter unterteilt werden sollen, wird in Schritt 518 ein Blattknoten ausgewählt, und der Prozess kehrt zurück zu Schritt 504, um eine Frage zu suchen, die mit dem ausgewählten Knoten verbunden werden soll. Wenn der Entscheidungsbaum in Schritt 516 vollständig ist, endet der Prozess von 5 in Schritt 520.
  • Der Prozess von 5 resultiert in einem Prosodie-abhängigen Entscheidungsbaum 320 aus 3 und einer Gruppe gespeicherter Sprachaufnahmen 318, die durch den Entscheidungsbaum 320 indexiert sind. Nach ihrer Erstellung können der Entscheidungsbaum 320 und die Sprachaufnahmen 318 in Übereinstimmung mit weiteren Aspekten der vorliegenden Erfindung verwendet werden, um konkatenative Sprache zu erzeugen, ohne dass dabei Prosodiemodifizierung durchgeführt werden muss.
  • Der Prozess zum Erzeugen von konkatenativer Sprache beginnt mit der syntaktischen Analyse eines Satzes in dem eingegebenen Text 304 unter Verwendung der Syntaxanalyseeinrichtung/semantische Identifizierungseinrichtung 310 und mit dem Identifizieren von hochgradig prosodischen Informationen für jede Spracheinheit, die durch die syntaktische Analyse erzeugt wurde. Diese prosodischen Informationen werden anschließend der Einrichtung zur Erzeugung von Kontextvektoren 312 zugeführt, die einen Kontextvektor für jede in der syntaktischen Analyse erzeugte Spracheinheit erzeugt. Das Zerlegen durch syntaktische Analyse und das Erzeugen der Kontextvektoren werden auf die gleiche Weise durchgeführt, wie dies während des Trainings des Prosodie-Entscheidungsbaumes 320 der Fall war.
  • Die Kontextvektoren werden einer Komponenten-Lokalisierungseinrichtung 322 zugeführt, die die Vektoren zum Identifizieren einer Gruppe Sprachaufnahmen für den Satz verwendet. In Übereinstimmung mit einer Ausführungsform verwendet die Komponenten-Lokalisierungseinrichtung 322 einen Algorithmus zur Mehrfachauswahl einer nichteinheitlichen Einheit zum Identifizieren der Muster Sprachaufnahmen der Kontextvektoren.
  • Die 6 und 7 zeigen ein Blockdiagramm und einen Ablaufplan für den Algorithmus zur Mehrfachauswahl einer nicht-einheitlichen Einheit. In Schritt 700 wird jeder Vektor in der Gruppe eingegebener Kontextvektoren auf den Prosodie-abhängigen Entscheidungsbaum 320 angewendet, um eine Blattknotenanordnung 600 zu identifizieren, die einen Blattknoten für jeden Kontextvektor enthält. In Schritt 702 wird eine Gruppe Distanzen durch eine Distanz-Berechnungseinrichtung 602 für jeden eingegebenen Kontextvektor bestimmt. Insbesondere wird eine separate Distanz zwischen dem eingegebenen Kontextvektor und jedem Kontextvektor berechnet, der in seinem jeweiligen Blattknoten gefunden wird. In Übereinstimmung mit einer Ausführungsform wird jede Distanz wie folgt berechnet:
    Figure 00210001
    wobei Dc die Kontextdistanz ist, Di ist die Distanz für die Koordinate i des Kontextvektors, Wci ist eine Gewichtung, die mit der Koordinate i verbunden ist, und l ist die Anzahl von Koordinaten in einem jeden Kontextvektor.
  • In Schritt 704 werden die N Sprachaufnahmen mit den am meisten übereinstimmenden Kontextvektoren einbehalten, während die verbleibenden Sprachaufnahmen aus der Knotenanordnung 600 entfernt werden, um eine gekürzte Blattknotenanordnung 604 zu bilden. Die Anzahl von Sprachaufnahmen, N, die in den gekürzten Knoten gelassen werden sollen, wird durch Abgleichen von Verbesserungen der Prosodie mit einer verbesserten Verarbeitungszeit bestimmt. Im Allgemeinen bedeuten mehr Sprachaufnahmen, die in den gekürzten Knoten beibehalten werden, eine bessere Prosodie zu ungunsten einer längeren Verarbeitungszeit.
  • In Schritt 706 wird die gekürzte Anordnung einem Viterbi-Dekodierer 606 zugeführt, der einen Pfad des geringsten Aufwandes durch die gekürzte Anordnung identifiziert. In Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung mit Einfachauswahl wird der Pfad des geringsten Aufwandes durch einfaches Auswählen der Sprachaufnahme mit den am meisten übereinstimmenden Kontextvektoren in jedem Knoten identifiziert. In Übereinstimmung mit einer Ausführungsform mit Mehrfachauswahl wird die Aufwandfunktion so modifiziert, dass sie Folgendes ergibt:
    Figure 00210002
    wobei Cc der Konkatenationsaufwand für den gesamten Satz ist, Wc ist eine Gewichtung, die mit dem Distanzmaß des Konkatenationsaufwandes verbunden ist, Dcj ist die Distanz, die in Gleichung 4 für die j-te Spracheinheit in dem Satz berechnet wird, Ws ist eine Gewichtung, die mit einem Glättungsmaß des Konkatenationsaufwandes verbunden ist, Csj ist ein Glättungsmaß für jede j-te Spracheinheit, und J ist eine Anzahl von Spracheinheiten in dem Satz.
  • Der Glättungsaufwand in Gleichung 5 wird definiert, um ein Maß der prosodischen Nicht-Übereinstimmung zwischen der Sprachaufnahme j und den Sprachaufnahmen bereitzustellen, die durch den Viterbi-Dekodierer als Nachbarn zu der Sprachaufnahme j vorgeschlagen wurden. In Übereinstimmung mit einer Ausführungsform wird der Glättungsaufwand auf Basis der Tatsache bestimmt, ob eine Sprachaufnahme und ihre Nachbarn bei einer Realisierung („utterance") in dem Trainingskorpus als Muster aufgefunden wurden. Wenn eine Sprachaufnahme neben ihren Nachbarn in dem Trainingskorpus auftritt, beträgt der Glättungsaufwand Null, da die Sprachaufnahmen die angemessene Prosodie aufweisen, um miteinander kombiniert werden zu können. Wenn eine Sprachaufnahme nicht neben ihren Nachbarn in dem Trainingskorpus aufgetreten ist, wird der Glättungsaufwand auf Eins eingestellt.
  • Wenn unter Verwendung des Mehrfachauswahl-Ansatzes für eine uneinheitliche Einheit ein großer Block von Spracheinheiten, wie beispielsweise ein Wort oder eine Phrase in dem eingegebenen in dem Trainingskorpus vorhanden ist, werden sämtliche Sprachaufnahmen, die mit diesem Block von Spracheinheiten verbunden sind, bevorzugt ausgewählt. Hierbei ist jedoch zu beachten, dass, wenn der Block von Spracheinheiten innerhalb eines anderen prosodischen Kontextes auftrat, die Distanz zwischen den Kontextvektoren wahrscheinlich dazu führen wird, das andere Sprachaufnahmen ausgewählt werden als die, die mit dem Block verbunden sind.
  • Wenn der Pfad mit dem geringsten Glättungsaufwand durch den Viterbi-Dekodierer 606 identifiziert ist, werden die identifizierten Sprachaufnahmen 608 der Spracherzeugungseinrichtung 303 zugeführt. Mit Ausnahme von geringen Maßen an Glättung an den Grenzen zwischen den Spracheinheiten führt die Spracherzeugungseinrichtung 303 ein einfaches Konkatenieren der Spracheinheiten durch, um synthetisierte Sprache 302 zu erzeugen. Auf diese Weise werden die Spracheinheiten kombiniert, ohne dass dabei ihre Prosodie geändert werden muss.
  • Obgleich die vorliegende Erfindung in Bezug auf bestimmte Ausführungsformen beschrieben wurde, wird es den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik offensichtlich sein, dass Änderungen an der Form und im Detail vorgenommen werden können, ohne vom Umfang der Erfindung abzuweichen. Genauer gesagt bedeutet dies, dass, obgleich voranstehend Kontextvektoren beschrieben wurden, auch andere Darstellungen der Kontextinformationen innerhalb des Umfanges der Erfindung verwendet werden können.

Claims (9)

  1. Verfahren zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus (306), das bei Sprachsynthese verwendet wird, wobei das Verfahren umfasst: Identifizieren (402, 404) einer Gruppe prosodischer Kontextinformationen für jede einer Gruppe von Spracheinheiten; Bestimmen (406) einer Häufigkeit des Auftretens für jeden einzelnen Kontextvektor, der in einem sehr großen Textkorpus erscheint; Verwenden (406) der Häufigkeit des Auftretens der Kontextvektoren zum Identifizieren einer Liste (408) erforderlicher Kontextvektoren; und Auswählen (410) von Sätzen in dem sehr großen Textkorpus zum Lesen in das Trainings-Sprachkorpus, wobei jeder ausgewählte Satz wenigstens einen erforderlichen Kontextvektor enthält.
  2. Verfahren nach Anspruch 1, wobei Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Gruppe erforderlicher Kontextinformationen umfasst: Bestimmen der Häufigkeit des Auftretens einer Gruppe prosodischer Kontextinformationen über ein sehr großes Textkorpus (400), und Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Sätze erforderlicher Kontextinformationen auf Basis der Häufigkeit ihres Auftretens.
  3. Verfahren nach Anspruch 2, wobei Identifizieren einer Sammlung von Gruppen prosodischer Kontextinformationen als Gruppen erforderlicher Kontextinformationen des Weiteren umfasst: Sortieren (406) der Gruppen von Kontextinformationen nach der Häufigkeit ihres Auftretens in absteigender Reihenfolge; Bestimmen einer Schwelle F für akkumulative Häufigkeit oberster Kontextvektoren; und Auswählen der obersten Kontextvektoren, deren akkumulative Häufigkeit nicht kleiner ist als F, für jede Spracheinheit als Gruppen erforderlicher prosodischer Kontextinformationen.
  4. Verfahren nach Anspruch 1, das des Weiteren Indexieren nur der Spachsegmente umfasst, die mit Sätzen in dem kleineren Trainingstext verbunden sind, und wobei Indexieren Indexieren unter Verwendung eines Entscheidungsbaums umfasst.
  5. Verfahren nach Anspruch 4, wobei Indexieren des Weiteren Indexieren der Sprachsegmente in dem Entscheidungsbaum auf Basis von Informationen in den Gruppen von Kontextinformationen umfasst.
  6. Verfahren nach Anspruch 5, wobei der Entscheidungsbaum Blattknoten umfasst und wenigstens ein Blattknoten wenigstens zwei Sprachsegmente für die gleiche Spracheinheit umfasst.
  7. Computerlesbares Medium, das durch Computer ausführbare Befehle zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus aufweist, das bei Sprachsynthese verwendet wird, durch Durchführen jedes Schrittes des Verfahrens nach einem der Ansprüche 1 bis 6, wenn es auf einem Computer ausgeführt wird.
  8. Vorrichtung zum Auswählen von Sätzen zum Lesen in ein Trainings-Sprachkorpus (306), das bei Sprachsynthese verwendet wird, wobei die Vorrichtung umfasst: eine Einrichtung zum Identifizieren einer Gruppe prosodischer Kontextinformationen für jede einer Gruppe von Spracheinheiten; eine Einrichtung zum Bestimmen einer Häufigkeit des Auftretens für jeden einzelnen Kontextvektor, der in einem sehr großen Textkorpus erscheint; eine Einrichtung zum Verwenden der Häufigkeit des Auftretens der Kontextvektoren zum Identifizieren einer Liste erforderlicher Kontextvektoren; und eine Einrichtung zum Auswählen von Sätzen in dem sehr großen Textkorpus zum Lesen in das Trainings-Sprachkorpus, wobei jeder ausgewählte Satz wenigstens einen erforderlichen Kontextvektor enthält.
  9. Vorrichtung nach Anspruch 8, die des Weiteren Einrichtungen umfasst, die zum Durchführen aller Schritte des Verfahrens nach einem der Ansprüche 2 bis 6 eingerichtet sind.
DE60126564T 2000-12-04 2001-12-03 Verfahren und Anordnung zur Sprachsysnthese Expired - Lifetime DE60126564T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US25116700P 2000-12-04 2000-12-04
US251167P 2000-12-04
US850527 2001-05-07
US09/850,527 US6978239B2 (en) 2000-12-04 2001-05-07 Method and apparatus for speech synthesis without prosody modification

Publications (2)

Publication Number Publication Date
DE60126564D1 DE60126564D1 (de) 2007-03-29
DE60126564T2 true DE60126564T2 (de) 2007-10-31

Family

ID=26941450

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60126564T Expired - Lifetime DE60126564T2 (de) 2000-12-04 2001-12-03 Verfahren und Anordnung zur Sprachsysnthese

Country Status (4)

Country Link
US (3) US6978239B2 (de)
EP (1) EP1213705B1 (de)
AT (1) ATE354155T1 (de)
DE (1) DE60126564T2 (de)

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1266313A2 (de) 1999-03-19 2002-12-18 Trados GmbH System zum verwalten von arbeitsabläufen
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
DE10117367B4 (de) * 2001-04-06 2005-08-18 Siemens Ag Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
GB0113587D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
GB0113581D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Speech synthesis apparatus
GB2376394B (en) * 2001-06-04 2005-10-26 Hewlett Packard Co Speech synthesis apparatus and selection method
US7574597B1 (en) 2001-10-19 2009-08-11 Bbn Technologies Corp. Encoding of signals to facilitate traffic analysis
US7263479B2 (en) * 2001-10-19 2007-08-28 Bbn Technologies Corp. Determining characteristics of received voice data packets to assist prosody analysis
KR100438826B1 (ko) * 2001-10-31 2004-07-05 삼성전자주식회사 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20030154080A1 (en) * 2002-02-14 2003-08-14 Godsey Sandra L. Method and apparatus for modification of audio input to a data processing system
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
KR100486734B1 (ko) 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US7983896B2 (en) * 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7788098B2 (en) * 2004-08-02 2010-08-31 Nokia Corporation Predicting tone pattern information for textual information used in telecommunication systems
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
KR101056567B1 (ko) * 2004-09-23 2011-08-11 주식회사 케이티 코퍼스 기반 음성 합성기에서의 합성 유닛 선택 장치 및그 방법
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8224647B2 (en) * 2005-10-03 2012-07-17 Nuance Communications, Inc. Text-to-speech user's voice cooperative server for instant messaging clients
US20070203706A1 (en) * 2005-12-30 2007-08-30 Inci Ozkaragoz Voice analysis tool for creating database used in text to speech synthesis system
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US7584104B2 (en) * 2006-09-08 2009-09-01 At&T Intellectual Property Ii, L.P. Method and system for training a text-to-speech synthesis system using a domain-specific speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US20080077407A1 (en) * 2006-09-26 2008-03-27 At&T Corp. Phonetically enriched labeling in unit selection speech synthesis
CN101202041B (zh) * 2006-12-13 2011-01-05 富士通株式会社 一种汉语韵律词组词方法及装置
WO2008102710A1 (ja) * 2007-02-20 2008-08-28 Nec Corporation 音声合成装置及び方法とプログラム
CA2661890C (en) * 2007-03-07 2016-07-12 International Business Machines Corporation Speech synthesis
BRPI0808289A2 (pt) 2007-03-21 2015-06-16 Vivotext Ltd "biblioteca de amostras de fala para transformar texto em falta e métodos e instrumentos para gerar e utilizar o mesmo"
US9251782B2 (en) 2007-03-21 2016-02-02 Vivotext Ltd. System and method for concatenate speech samples within an optimal crossing point
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) * 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
GB2474839A (en) * 2009-10-27 2011-05-04 Sdl Plc In-context exact matching of lookup segment to translation memory source text
GB0922608D0 (en) * 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US10007724B2 (en) * 2012-06-29 2018-06-26 International Business Machines Corporation Creating, rendering and interacting with a multi-faceted audio cloud
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US10249321B2 (en) * 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN105593936B (zh) * 2013-10-24 2020-10-23 宝马股份公司 用于文本转语音性能评价的系统和方法
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
EP0788648B1 (de) * 1995-08-28 2000-08-16 Koninklijke Philips Electronics N.V. Verfahren und system zur mustererkennung mittels dynamischer erzeugung einer untermenge von referenzvektoren
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
JP2000075878A (ja) 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
EP1138038B1 (de) * 1998-11-13 2005-06-22 Lernout &amp; Hauspie Speech Products N.V. Sprachsynthese durch verkettung von sprachwellenformen
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
KR20010089811A (ko) * 1999-11-11 2001-10-08 요트.게.아. 롤페즈 음성 인식 시스템
GB2357943B (en) * 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
WO2002027709A2 (en) * 2000-09-29 2002-04-04 Lernout & Hauspie Speech Products N.V. Corpus-based prosody translation system
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Also Published As

Publication number Publication date
EP1213705A2 (de) 2002-06-12
US20020099547A1 (en) 2002-07-25
US6978239B2 (en) 2005-12-20
EP1213705B1 (de) 2007-02-14
ATE354155T1 (de) 2007-03-15
US7127396B2 (en) 2006-10-24
DE60126564D1 (de) 2007-03-29
EP1213705A3 (de) 2004-12-22
US20050119891A1 (en) 2005-06-02
US20040148171A1 (en) 2004-07-29

Similar Documents

Publication Publication Date Title
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system

Legal Events

Date Code Title Description
8364 No opposition during term of opposition