DE69917415T2 - Sprachsynthese mit Prosodie-Mustern - Google Patents

Sprachsynthese mit Prosodie-Mustern Download PDF

Info

Publication number
DE69917415T2
DE69917415T2 DE69917415T DE69917415T DE69917415T2 DE 69917415 T2 DE69917415 T2 DE 69917415T2 DE 69917415 T DE69917415 T DE 69917415T DE 69917415 T DE69917415 T DE 69917415T DE 69917415 T2 DE69917415 T2 DE 69917415T2
Authority
DE
Germany
Prior art keywords
pattern
prosody
data
intonation
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69917415T
Other languages
English (en)
Other versions
DE69917415D1 (de
Inventor
Frode Santa Barbara Holm
Kazue Santa Barbara Hata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69917415D1 publication Critical patent/DE69917415D1/de
Publication of DE69917415T2 publication Critical patent/DE69917415T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im Allgemeinen auf Systeme für Text-zu-Sprache (TTS) und Sprachsynthese. Insbesondere bezieht sich die Erfindung auf ein System zur Bereitstellung natürlich klingenderer Prosodie durch die Verwendung von Prosodie-Mustern.
  • Die Aufgabe, natürliche, menschlich klingende Prosodie für Text-zu-Sprache und Sprachsynthese zu generieren, ist historisch eines der schwierigsten Probleme gewesen, mit dem Forscher und Entwickler konfrontiert wurden. Systeme für Text-zu-Sprache sind im Allgemeinen wegen ihrer "roboterhaften" Intonationen berüchtigt geworden. Um dieses Problem anzusprechen, haben einige frühere Systeme neuronale Netze und Vektor-Clustering-Algorithmen beim Versuch verwendet, natürlich klingende Prosodie zu simulieren. Abgesehen von ihrem nur geringen Erfolg geben diese „Black-Box"-Rechentechniken dem Entwickler kein Feedback darüber, was die kritischen Parameter für natürlich klingende Prosodie sind.
  • Die vorliegende Erfindung, wie in Anspruch 1 beansprucht, verwendet einen anderen Ansatz, wobei Beispiele echter menschlicher Sprache benutzt werden, um Prosodie-Muster zu entwickeln. Die Muster definieren eine Beziehung zwischen Silbenbetonungsmustern und bestimmten prosodischen Variablen, wie beispielsweise Intonation (F0) und Zeitdauer. Deshalb verwendet die Erfindung im Gegensatz zu früheren algorithmischen Ansätzen natürlich vorkommende lexikalische und akustische Attribute (z. B., Betonungsmuster, Silbenzahl, Intonation, Zeitdauer), die vom Forscher bzw. Entwickler direkt beobachtet und verstanden werden können.
  • Die EP 083330482 offenbart die Verwendung einer Prosodie-Datenbank, die Grundfrequenzmuster für die Verwendung in der Sprachsynthese enthält. Eine Prosodie-Datenbank wird zum Speichern einer Folge gewichteter Grundfrequenzen für die Silben eines Satzes benutzt.
  • Die gegenwärtig bevorzugte Implementierung speichert die Prosodie-Muster in einer Datenbank, auf die durch Spezifizieren der Silbenzahl und des mit einem jeweiligen Wort assoziierten Betonungsmusters zugegriffen werden kann. Ein Wörterbuch ist bereitgestellt, um dem System die erforderliche Information hinsichtlich Silbenzahl und Betonungsmustern zu liefern. Der Textprozessor generiert unter Verwendung des Wörterbuchs phonemische Repräsentationen von Eingabewörtern, um das Betonungsmuster der eingegebenen Wörter zu identifizieren. Ein Prosodie-Modul greift dann auf die Musterdatenbank zu und verwendet die Information über Silbenzahl und Betonungsmuster für den Zugriff auf die Datenbank. Von der Datenbank wird dann ein Prosodie-Modul abgerufen und dazu benutzt, um Prosodie-Information an das Tonerzeugungsmodul zu liefern, das synthetisierte Sprache auf Basis der phonemischen Repräsentation und der Prosodie-Information generiert.
  • Die gegenwärtig bevorzugte Implementierung konzentriert sich auf Sprache auf Wortebene. Wörter werden in Silben unterteilt und repräsentieren so die Grundeinheit von Prosodie. Das bevorzugte System setzt voraus, dass das durch die Silben definierte Betonungsmuster die wahrnehmbar wichtigsten Merkmale von sowohl Intonation (F0) als auch Zeitdauer bestimmt. Auf dieser Zuordnungseinheitsstufe ist der Satz von Mustern ziemlich kleiner Größenordnung und in Systemen für Text-zu-Sprache und Sprachsynthese leicht zu implementieren. Obwohl eine prosodische Analyse auf Wortebene unter Verwendung von Silben gegenwärtig bevorzugt wird, lassen sich die Prosodie-Mustertechniken der Erfindung in Systemen benutzen, die andere Zuordnungseinheitsstufen aufweisen. Beispielsweise lässt sich der Satz von Mustern erweitern, um mehr Merkmalbestimmer, sowohl auf Silben- als auch Wortebene, zu ermöglichen. In dieser Hinsicht können durch Konsonantentyp, Stimme, Eigentonhöhe von Vokalen und Segmentstruktur in einer Silbe verursachte mikroskopische F0 Störungen als Attribute verwendet werden, mit denen sich gewisse prosodische Muster kategorisieren lassen. Außerdem lassen sich die Techniken über die F0 Konturen und Zeitmuster der Wortebene hinaus auf Analysen auf Phrasen- und Satzebene erweitern.
  • Um die Erfindung, ihre Zielsetzung und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Sprachgenerators unter Verwendung von Prosodie-Mustern in Übereinstimmung mit der Erfindung;
  • 2A und B ist ein Blockdiagramm, das darstellt, wie Prosodie-Muster entwickelt werden könnten;
  • 3 ist eine graphische Verteilungsdarstellung für ein beispielhaftes Betonungsmuster;
  • 4 ist ein Graph der durchschnittlichen F0 Kontur für das Betonungsmuster von 3;
  • 5 ist eine Serie von Graphen, die die durchschnittliche Kontur für beispielhafte zweisilbige und dreisilbige Daten darstellen.
  • 6 ist ein Flussdiagramm, das den vom bevorzugten Ausführungsbeispiel verwendeten Entnormalisierungsvorgang darstellt.
  • 7 ist ein Datenbankdiagramm, das die Beziehungen unter Datenbankentitäten im bevorzugten Ausführungsbeispiel zeigt.
  • Beschreibung des bevorzugten Ausführungsbeispiels
  • Wenn Text von einem menschlichen Sprecher gelesen wird, hebt und senkt sich die Tonhöhe, Silben werden mit größerer oder geringerer Intensität artikuliert, Vokale werden gedehnt oder verkürzt und Pausen werden eingeschoben, was der gesprochenen Passage einen bestimmten Rhythmus verleiht. Diese Merkmale umfassen einige der Attribute, die Sprachforscher mit Prosodie bezeichnen. Menschliche Sprecher fügen, wenn sie eine Textpassage laut lesen, automatisch prosodische Information bei. Die prosodische Information vermittelt die Interpretation des Materials durch den Leser. Diese Interpretierung ist ein Artefakt menschlicher Erfahrung, da der gedruckte Text wenig direkte prosodische Information enthält.
  • Wenn ein computerimplementiertes Sprachsynthesesystem eine Textpassage liest oder rezitiert, fehlt diese menschlich klingende Prosodie in konventionellen Systemen. Der Text selbst enthält praktisch keine prosodische Information und der konventionelle Sprachgenerator hat daher wenig, woraus er die fehlende Prosodie-Information generieren kann. Wie bereits festgestellt, haben sich frühere Versuche, Prosodie-Information hinzuzufügen, auf regelbasierte Techniken und neuronale Netz- oder algorithmische Techniken, wie beispielsweise Vektor-Clusterbildungstechniken, konzentriert. Regelbasierte Techniken klingen einfach nicht natürlich und neuronale Netz- und algorithmische Techniken können nicht adaptiert werden und lassen sich nicht verwenden, um Schlussfolgerungen zu ziehen, die für die weitere Modifikation oder für die Anwendung außerhalb des Trainings-Set gebraucht werden, mit dem sie generiert wurden.
  • Die vorliegende Erfindung spricht das Prosodie-Problem durch Verwendung von Prosodie-Mustern an, die mit den in gesprochenen Wörtern vorgefundenen Silben-Betonungsmustern verbunden sind. Insbesondere speichern die prosodischen Muster F0 Intonations- und Zeitdauerinformation. Diese gespeicherte Prosodie-Information wird in einer Datenbank erfasst und Silben-Betonungsmustern gemäß angeordnet. Das gegenwärtig bevorzugte Ausführungsbeispiel definiert drei verschiedene Betonungsstufen. Diese sind mit den Nummern 0, 1 und 2 bezeichnet. Die Betonungsstufen beinhalten Folgendes:
    0 keine Betonung
    1 primäre Betonung
    2 sekundäre Betonung
  • Laut dem bevorzugten Ausführungsbeispiel haben einsilbige Wörter ein einfaches Betonungsmuster, das der primären Betonungsstufe '1' entspricht. Mehrsilbige Wörter können verschiedene Kombinationen von Betonungsstufenmustern haben. Beispielsweise könnten zweisilbige Wörter Betonungsmuster '10', '01' und '12' haben.
  • Das gegenwärtig bevorzugte Ausführungsbeispiel setzt ein Prosodie-Muster für jede verschiedene Betonungsmusterkombination ein. Deshalb hat das Betonungsmuster '1' ein erstes Prosodie-Muster, das Betonungsmuster '10' ein anderes Prosodie-Muster usw. Jedes Prosodie-Muster enthält Prosodie-Information wie Intonations- und Zeitdauerinformation und optional auch andere Informationen.
  • 1 illustriert einen Sprachgenerator, der die Prosodie-Mustertechnologie der vorliegenden Erfindung verwendet. Bezugnehmend auf die 1 wird ein Eingabetext 10 als eine Reihenfolge oder Kette von Buchstaben, die Wörter definieren, an das Textprozessormodul 12 geliefert. Der Textprozessor 12 hat ein zugehöriges Wörterbuch 14, das Informationen über eine Vielheit gespeicherter Wörter enthält. Im bevorzugten Ausführungsbeispiel hat das Wörterbuch eine bei 16 illustrierte Datenstruktur, gemäß der Wörter zusammen mit bestimmten phonemischen Repräsentations- und Betonungsmusterinformationen gespeichert werden. Insbesondere wird jedes Wort im Wörterbuch von seiner phonemischen Repräsentation, Information, die die Wortsilbengrenzen identifiziert, und Information, die festlegt, wie jeder Silbe Betonung zuzuordnen ist, begleitet. Deshalb enthält das Wörterbuch 14 in suchbarer elektronischen Form die Grundinformation, die zum Generieren einer Aussprache des Wortes erforderlich ist.
  • Der Textprozessor 12 ist weiter an das Prosodie-Modul 18 gekoppelt, das mit der Prosodie-Musterdatenbank 20 assoziiert ist. Im gegenwärtig bevorzugten Ausführungsbeispiel speichern die Prosodie-Muster Intonationsdaten (F0) und Zeitdauerdaten für jedes einer Vielheit von verschiedenen Betonungsmustern. Das Einzelwort-Betonungsmuster '1' umfasst ein erstes Muster, das zweisilbige Muster '10' ein zweites Muster, das Muster '01' umfasst noch ein weiteres Muster usw. Die Muster werden in der Datenbank, wie graphisch durch die Datenstruktur 22 in 1 gezeigt, nach Betonungsmuster gespeichert. Das mit einem gegebenen Wort assoziierte Betonungsmuster dient als Datenbank-Zugriffsschlüssel, mit dem das Prosodie-Modul 18 die assoziierte Intonations- und Zeitdauerinformation abruft. Das Prosodie-Modul 18 ermittelt das mit dem jeweiligen Wort assoziierte Betonungsmuster durch Information, die ihm über den Textprozessor 12 geliefert wird. Der Textprozessor 12 erhält diese Information durch Verwendung des Wörterbuchs 14.
  • Obwohl die gegenwärtig bevorzugten Prosodie-Muster Intonations- und Zeitdauerinformation speichern, lässt sich die Musterstruktur leicht erweitern, um andere Prosodie-Attribute einzuschließen.
  • Der Textprozessor 12 und das Prosodie-Modul 18 liefern beide Information an das Tonerzeugungsmodul 24. Im Besonderen liefert der Textprozessor 12 phonemische Information, die er aus dem Wörterbuch 14 erhält, und das Prosodie-Modul 18 liefert die Prosodie-Information (z. B. Intonation und Zeitdauer). Das Tonerzeugungsmodul generiert dann synthetisierte Sprache auf Basis der phonemischen und der Prosodie-Information.
  • Das gegenwärtig bevorzugte Ausführungsbeispiel codiert Prosodie-Information in einer standardisierten Form, in der die Prosodie-Information normalisiert und parametrisiert wird, um Speicherung und Abrufen aus der Datenbank 20 zu vereinfachen. Das Tonerzeugungsmodul 24 entnormalisiert und konvertiert die standardisierten Muster in eine Form, die sich auf die vom Textprozessor 12 gelieferte phonemische Information anwenden lässt. Die Details dieses Prozesses werden nachstehend ausführlicher beschrieben. Zunächst aber wird eine detaillierte Beschreibung der Prosodie-Muster und ihrer Konstruktion beschrieben.
  • Bezugnehmend auf 2A und 2B wird der Vorgang für die Generierung geeigneter Prosodie-Muster umrissen. Die Prosodie-Muster werden mit Hilfe menschlicher Trainingssprache konstruiert, die vorher aufgezeichnet und als eine Sammlung von Trainingssprachsätzen 30 geliefert werden kann. Unsere gegenwärtig bevorzugte Implementierung wurde mit ca. 3.000 Sätzen mit echten Hauptwörtern in der Satzanfangsposition konstruiert. Die Trainingssprachsammlung 30 wurde mit einer einzigen Sprecherin in amerikanischem Englisch zusammengetragen. Natürlich können auch andere Quellen für die Trainingssprache verwendet werden.
  • Die Trainingssprachdaten werden anfänglich durch eine Reihe von Schritten vorverarbeitet. Zuerst wird ein Etikettierwerkzeug 32 verwendet, um die Sätze in Worte zu segmentieren und die Worte in Silben und Silben in Phoneme zu segmentieren, die dann bei 34 gespeichert werden. Dann werden den Silben Betonungen, wie bei Schritt 36 gezeigt, zugeordnet. Bei der gegenwärtig bevorzugten Implementierung wurde eine dreistufige Betonungszuordnung verwendet, bei der '0' keine Betonung repräsentierte, '1' die primäre Betonung repräsentierte und '2' die sekundäre Betonung, wie bei 38 graphisch illustriert, repräsentierte. Die Unterteilung von Worten in Silben und Phoneme und das Zuordnen der Betonungsstufen lässt sich manuell oder mit Hilfe einer automatischen oder halbautomatischen Synchronisiervorrichtung, die F0 Editieren durchführt, vornehmen. In dieser Hinsicht ist die Vorverarbeitung von Trainingssprachdaten relativ zeitaufwändig, muss aber nur einmal während der Entwicklung der Prosodie-Muster durchgeführt werden. Exakt gekennzeichnete und betonungszugeordnete Daten sind erforderlich, um Genauigkeit sicherzustellen und den Rauschpegel bei der anschließenden statistischen Analyse zu reduzieren.
  • Nachdem die Wörter gekennzeichnet (etikettiert) und Betonungen zugeordnet worden sind, können sie nach Betonungsmustern gruppiert werden. Wie bei 40 illustriert, umfassen einsilbige Wörter eine erste Gruppe. Zweisilbige Wörter umfassen vier zusätzliche Gruppen, die Gruppe '10', die Gruppe '01', die Gruppe '12' und die Gruppe '21'. Auf ähnliche Weise lassen sich dreisilbige, viersilbige ... n-silbige Wörter entsprechend der Betonungsmuster gruppieren.
  • Als Nächstes werden für jede Betonungsmustergruppe die Grundtonhöhe oder Intonationsdaten F0 in Bezug auf Zeit normalisiert (dadurch wird die der jeweiligen Aufzeichnung spezifische Zeitdimension entfernt), wie bei Schritt 42 angezeigt. Dies lässt sich auf verschiedene Art erzielen. Die bei 44 beschriebene gegenwärtig bevorzugte Technik nimmt ein Resampling der Daten auf eine feste Zahl von F0 Punkten vor. Zum Beispiel können die Daten darauf abgetastet werden, 30 Proben pro Silbe zu umfassen.
  • Als Nächstes wird eine Reihe zusätzlicher Verarbeitungsschritte durchgeführt, um Basislinien-Tonhöhenkonstanten-Offsets, wie allgemein bei 46 angezeigt, zu eliminieren. Der gegenwärtig bevorzugte Ansatz beinhaltet das Transformieren der F0 Punkte für den ganzen Satz in die Log-Domäne wie bei 48 angezeigt. Sobald die Punkte in die Log-Domäne transformiert worden sind, können sie, wie bei 50 illustriert, der Musterdatenbank hinzugefügt werden. Bei der gegenwärtig bevorzugten Implementierung werden alle Log-Domänedaten für eine jeweilige Gruppe gemittelt und dieser Mittelwert wird benutzt, um das Prosodie-Muster mit Daten zu füllen. Daher tragen alle Wörter in einer gegebenen Gruppe (z. B. alle zweisilbigen Wörter des Musters '10') zum einzelnen Mittelwert bei, der benutzt wird, um das Muster für diese Gruppe mit Daten zu füllen. Obwohl arithmetisches Mitteln der Daten gute Resultate bringt, kann, wenn erwünscht, auch eine andere statistische Verarbeitung angewandt werden.
  • Zur Beurteilung der Robustheit des Prosodie-Musters kann eine zusätzliche Verarbeitung, wie in 2B beginnend bei Schritt 52 illustriert, durchgeführt werden. Die Log-Domänedaten werden verwendet, um eine lineare Regressionslinie für den ganzen Satz zu berechnen. Die Regressionslinie schneidet sich mit der Wortendgrenze, wie bei Schritt 54 angezeigt, und dieser Schnittpunkt wird als ein Elevationspunkt für das Zielwort verwendet. Bei Schritt 56 wird der Elevationspunkt auf einen gemeinsamen Bezugspunkt verschoben. Das bevorzugte Ausführungsbeispiel verschiebt die Daten entweder nach oben oder unten auf einen gemeinsamen Bezugspunkt von nominell 100 Hz.
  • Wie vorher festgestellt, bieten frühere neuronale Netztechniken dem Systemdesigner keine Möglichkeit, Parameter auf eine bedeutungsvolle Weise zu justieren oder zu entdecken, welche Faktoren zur Ausgabe beitragen. Die vorliegende Erfindung erlaubt dem Designer, relevante Parameter durch statistische Analyse zu erforschen. Dies ist beginnend bei Schritt 58 illustriert. Wenn erwünscht, werden die Daten bei 58 statistisch analysiert, indem jede Probe mit dem arithmetischen Mittel verglichen wird, um ein Abstandsmaß, wie beispielsweise den Flächenunterschied wie bei 60, zu berechnen. Wir verwenden ein Maß wie beispielsweise den Flächenunterschied zwischen zwei Vektoren, wie in der nachstehenden Gleichung dargelegt. Wir haben festgestellt, dass dieses Maß ziemlich gut ist, um nützliche Information darüber zu produzieren, wie ähnlich oder verschieden die Proben voneinander sind. Andere Abstandsmaße, einschließlich gewichteter Maße, die psycho-akustische Eigenschaften des sensor-neuronalen Systems berücksichtigen, können verwendet werden.
    Figure 00090001
    d = Maß des Unterschieds zwischen zwei Vektoren
    i = Index des zu vergleichenden Vektors
    Yi = F0 Konturvektor
    Y = arithmetischer Mittelvektor für Gruppe
    N = Proben in einem Vektor
    y = Probenwert
    vi = Stimmfunktion. 1 bei eingeschalteter Stimme, ansonsten 0.
    c = Skalierfaktor (optional)
  • Für jedes Muster wird dieses Abstandsmaß dann wie bei 62 tabelliert, und ein Histogramm lässt sich wie bei 64 konstruieren. Ein Beispiel für ein solches Histogramm erscheint in 3, welche die Verteilungsgrafik für Betonungsmuster '1' zeigt. In der Grafik befindet sich die x-Achse auf einer willkürlichen Skala und die y-Achse ist die Zählfrequenz für einen gegebenen Abstand. Ungleichförmigkeiten werden um ca. 1/3 auf der x-Achse signifikant.
  • Durch Konstruieren von Histogrammen wie oben beschrieben ist ein Zugriff auf die Prosodie-Muster möglich, um zu bestimmen, wie nahe die Proben aneinander liegen, und daher wie gut das resultierende Muster einer natürlich klingen Intonation entspricht. Anders ausgedrückt informiert das Histogramm, ob die Gruppierungsfunktion (Betonungsmuster) den beobachteten Formen angemessen Rechnung trägt. Eine breite Streuung zeigt, dass dies nicht der Fall ist, während eine große Konzentration nahe dem Mittel anzeigt, dass wir ein allein durch Betonung bestimmtes Muster und daher einen guten Kandidaten für das Prosodie-Muster gefunden haben. 4 zeigt eine entsprechende Grafik der mittleren F0 Kontur für das Muster '1'. Der Datengraph in 4 entspricht der Verteilungsgrafik in 3. Beachten Sie, dass die Grafik in
  • 4 normalisierte Log-Koordinaten repräsentiert. Der untere, mittlere und obere Teil entsprechen 50 Hz, 100 Hz bzw. 200 Hz. 4 zeigt, dass die durchschnittliche F0 Kontur für das einsilbige Muster eine langsam ansteigende Kontur ist.
  • 5 zeigt die Resultate unserer F0 Studie in Bezug auf die Familie der zweisilbigen Muster. In 5 ist das Muster '10' bei A, das Muster '01' bei B und das Muster '12' bei C gezeigt. Außerdem ist in 5 das durchschnittliche Konturmuster für die dreisilbige Gruppe '010' inbegriffen.
  • Beim Vergleich der zweisilbigen Muster in 5 ist zu beachten, dass sowohl die Spitzenposition als auch die Gesamtform der F0 Kontur verschieden ist. Das Muster '10' zeigt einen Anstieg-Abfall mit einem Spitzenwert bei ca. 80% in die erste Silbe, wogegen das Muster '01' ein Muster mit flachem Anstieg-Abfall mit einem Spitzenwert von ca. 60% in die zweite Silbe zeigt. In diesen Abbildungen bezeichnet die vertikale Linie die Silbengrenze.
  • Das Muster '12' ist dem Muster '10' sehr ähnlich, doch sobald F0 den Zielpunkt des Anstiegs erreicht, hat das Muster '12' in dieser höheren F0 Region eine längere Dehnung. Dies deutet darauf hin, dass eine sekundäre Betonung vorliegen kann.
  • Das Muster '010' des illustrierten dreisilbigen Wortes zeigt eine klare Glockenkurve in der Verteilung und einige Abnormitäten. Die durchschnittliche Kontur ist eine geringfügig flache Form, gefolgt von einer Anstieg-Abfall-Kontur, wobei der F0 Spitzenwert bei ca. 85% in die zweite Silbe liegt. Beachten Sie, dass einige der Abnormitäten in dieser Verteilung falsch ausgesprochenen Wörtern in den Trainingsdaten entsprechen können.
  • Die Histogramme und durchschnittlichen Konturkurven können für alle verschiedenen Muster berechnet werden, die in den Trainingsdaten reflektiert sind. Unsere Studien haben gezeigt, dass die auf diese Weise produzierten F0 Konturen und Zeitdauermuster denen eines menschlichen Sprechers nahe liegen oder mit ihnen identisch sind. Bei alleiniger Verwendung des Betonungsmusters als Unterscheidungsmerkmal haben wir festgestellt, dass fast alle Grafiken der F0 Kurvenähnlichkeitsverteilung eine deutliche Glockenkurvenform zeigen. Dies bestätigt, dass das Betonungsmuster ein sehr effektives Kriterium für das Zuordnen von Prosodie-Information ist.
  • Im Hinblick auf die Konstruktion der Prosodie-Muster wird jetzt das Tonerzeugungsmodul 24 (1) ausführlicher erläutert. Durch das Prosodie-Modul 18 entnommene Prosodie-Information wird in einem normalisierten, tonhöhenverschobenen und Log-Domäneformat gespeichert. Deshalb muss das Tonerzeugungsmodul, um die Prosodie-Muster verwenden zu können, zuerst die Information entnormalisieren, wie in 6 beginnend bei Schritt 70 illustriert. Der Entnormalisierungsprozess verschiebt das Muster (Schritt 72) zuerst auf eine Höhe, die der Tonhöhenkontur des Rahmensatzes (frame-sentence) entspricht. Diese Konstante wird als Teil der abgerufenen Daten für den Rahmensatz (frame-sentence) gegeben und durch die Regressionslinienkoeffizienten für die Tonhöhenkontur für diesen Satz berechnet. (Siehe 2 Schritt 5256).
  • Währenddessen wird auf das Zeitdauermuster zugegriffen und die Zeitdauerinformation wird entnormalisiert, um die Zeit (in Millisekunden) zu ermitteln, die mit jeder Silbe assoziiert ist. Die Log-Domänewerte des Musters werden dann bei Schritt 74 in lineare Hz-Werte transformiert. Danach wird, bei Schritt 76, jedes Silbensegment des Musters mit einer festen Zeitdauer für jeden Punkt (10 ms im gegenwärtigen Ausführungsbeispiel) einem Resampling unterzogen, so dass die Gesamtzeitdauer jeweils dem spezifizierten entnormalisierten Zeitwert entspricht. Dieses platziert die Intonationskontur wieder auf eine physikalische Zeitlinie. An dieser Stelle stehen die transformierten Musterdaten zur Verwendung durch das Tonerzeugungsmodul bereit. Natürlich lassen sich die Entnormalisierungsschritte von jedem der Module durchführen, das Prosodie-Information handhabt. Daher können die in 6 illustrierten Entnormalisierungsschritte entweder vom Tonerzeugungsmodul 24 oder vom Prosodie-Modul 18 durchgeführt werden.
  • Das gegenwärtig bevorzugte Ausführungsbeispiel speichert Zeitdauerinformation als Verhältnisse von Phonemwerten und global bestimmten Zeitdauerwerten. Die global bestimmten Werte entsprechen den mittleren Zeitdauerwerten, die über den ganzen Trainingskorpus beobachtet wurden. Die Pro-Silbe-Werte repräsentieren die Summe beobachteter Zeitdauerwerte für Phoneme oder Phonemgruppen innerhalb einer jeweiligen Silbe. Pro-Silbe/globale Verhältnisse werden berechnet und gemittelt, um jedes Element des Prosodie-Musters mit Daten zu füllen. Diese Verhältnisse werden im Prosodie-Muster gespeichert und zum Berechnen der tatsächlichen Zeitdauer jeder Silbe verwendet.
  • Das Erhalten detaillierter temporaler Prosodie-Muster ist etwas komplexer als dies für F0 Konturen der Fall ist. Dies beruht größtenteils auf der Tatsache, dass man einen hohen Grad prosodischer Absicht nicht von reinen Artikulationsbeschränkungen durch Untersuchung individueller Segmentdaten trennen kann.
  • Design der Prosodie-Datenbank
  • Die Struktur und Anordnung der gegenwärtig bevorzugten Prosodie-Datenbank wird weiter durch das Beziehungsdiagramm in 7 und durch die folgenden Datenbank-Konstruktionsspezifikation beschrieben. Die Spezifikation wird bereitgestellt, um ein bevorzugtes Ausführungsbeispiel der Erfindung zu illustrieren. Andere Datenbank-Konstruktionsspezifikationen sind ebenfalls möglich.
  • NORMDATA
    • ND1D-Primary Key
    • Target-Key (WordID)
    • Sentence-Key (SentID)
    • SentencePos-Text
    • Follow-Key (WordID)
    • Session-Key (SessID)
    • Recording-Text
    • Attributes-Text
  • WORD
    • WordID-Primary Key
    • Spelling-Text
    • Phonemes-Text
    • Syllables-Number
    • Stress-Text
    • Subwords-Number
    • Origin-Text
    • Feature1-Number (Submorphs)
    • Feature2-Number
  • FRAMESENTENCE
    • SentID-Primary Key
    • Sentence-Text
    • Type-Number
    • Syllables-Number
  • SESSION
    • SessID-Primary Key
    • Speaker-Text
    • Date Recorded-Date/Time
    • Tape-Text
  • F0DATA
    • NDID-Key
    • Index-Number
    • Value-Currency
  • DURDATA
    • NDID-Key
    • Index-Number
    • Value-Currency
    • Abs-Currency
  • PHONDATA
    • NDID-Key
    • Phones-Text
    • Dur-Currency
    • Stress-Text
    • SylPos-Number
    • PhonPos-Number
    • Rate-Number
    • Parse-Text
  • RECORDING
  • ID
    • Our
    • A (y = A + Bx)
    • B (y = A + Bx)
    • Descript
  • GROUP
    • GroupID-Primary Key
    • Syllables-Number
    • Stress-Text
    • Feature1-Number
    • Feature2-Number
    • SentencePos-Text
    • <Future exp.>
  • TEMPLATEF0
    • GroupID-Key
    • Index-Number
    • Value-Number
  • TEMPLATEDUR
    • GroupID-Key
    • Index-Number
    • Value-Number
  • DISTRIBUTIONF0
    • GroupID-Key
    • Index-Number
    • Value-Number
  • DISTRIBUTIONDUR
    • GroupID-Key
    • Index-Number
    • Value-Number
  • GROUPMEMBERS
    • GroupID-Key
    • NDID-Key
    • DistanceF0-Currency
    • DistanceDur-Currency
  • PHONSTAT
    • Phones-Text
    • Mean-Curr.
    • SSD-Curr.
    • Min-Curr.
    • Max-Curr.
    • CoVar-Currency
    • N-Number
    • Class-Text
  • FELDBESCHREIBUNGEN
  • NORMDATA
    • NDID Primärer Schlüssel
    • Target Zielwort. Schlüssel zur WORD Tabelle.
    • Sentence Quellen-Rahmensatz. Schlüssel zur FRAMESENTENCE Tabelle.
    • SentencePos Satzposition. ANFANG, MITTE, ENDE
    • Follow Wort, das dem Zielwort folgt. Schlüssel zur WORD Tabelle oder 0, wenn kein Wort folgt.
    • Session Zu welcher Sitzung die Aufnahme gehörte. Schlüssel zur SESSION Tabelle.
    • Recording Feldname für Aufnahme in Unix-Verzeichnissen (Urdaten).
    • Attributes Verschiedene Info. F = F0 Daten, die als anomal erachtet werden. D = Zeitdauerdaten, die als anomal erachtet werden. A = Alternative F0 B = Alternative Zeitdauer
  • PHONDATA
    • NDID Schlüssel zu NORMDATA
    • Phones Kette von 1 oder 2 Phons
    • Dur Gesamtzeitdauer für Phons
    • Stress Betonung der Silbe, zu der Phons gehören
    • SylPos Position der Silbe, die Phons enthält (ab 0 zählend)
    • PhonPos Position der Phoneme in der Silbe (ab 0 zählend)
    • Rate Sprechgeschwindigkeitsmaß der Äußerung
    • Parse L = Phon durch linkes Parsen realisiert R = Phon durch rechtes Parsen realisiert
  • PHONSTAT
    • Phones Kette von 1 oder 2 Phonemen
    • Mean Statistische mittlere Dauer für Phons
    • SSD Standardabweichung des Musters
    • Min Beobachteter Mindestwert
    • Max Beobachteter Höchstwert
    • CoVar Variationskoeffizient (Standardabweichung des Musters/Mittel)
    • N Zahl von Mustern für diese Phongruppe
    • Class Klassifikation A = Alle Muster inbegriffen
  • Anhand des Vorgenannten wird man erkennen, dass die vorliegende Erfindung eine Vorrichtung und Methode zum Generieren synthetisierter Sprache bereitstellt, wobei die normalerweise fehlende Prosodie-Information aus Mustern geliefert wird, die auf aus menschlicher Sprache entnommenen Daten beruhen. Wie wir vorgeführt haben, lässt sich diese Prosodie-Information aus einer Datenbank von Mustern auswählen und auf die phonemische Information durch einen Suchvorgang anwenden, der auf Betonungsmustern basiert, die mit dem Text von Eingabewörtern assoziiert sind.
  • Die Erfindung ist für eine breite Palette verschiedener Text-zu-Sprache- und Sprachsyntheseanwendungen, einschließlich großer Domäneanwendungen, wie Textbücher-Leseanwendungen, und begrenzteren Domäneanwendungen, wie Autonavigations- oder Phrasenbuch-Übersetzungsanwendungen, geeignet. Im Falle begrenzter Domänen kann ein kleines Set von „fixed-frame" Sätzen im Voraus designiert werden, und ein Zielwort im jeweiligen Satz kann durch ein willkürliches Wort (wie beispielsweise einen Eigennamen oder Straßennamen) ersetzt werden. In diesem Fall lässt sich Tonhöhe und Timing für die Rahmensätze (frame sentences) von wirklicher Sprache messen und speichern und daher eine sehr natürliche Prosodie für den größten Teil des Satzes sicherstellen. Das Zielwort ist dann die einzige Sache, die Tonhöhen- und Timingkontrolle mittels der Prosodie-Muster der Erfindung erfordert.

Claims (11)

  1. Ein Verfahren zum Trainieren eines Prosodie-Musters, unter Verwendung menschlicher Sprache, umfassend: Segmentieren von Wörtern eines Satzes (32) von der menschlichen Sprache in Phoneme, die mit Silben besagter Wörter assoziiert werden; Zuordnen von Betonungsgraden (36) an besagte Silben; Gruppieren besagter Wörter (40) gemäß besagten Betonungsgraden, um dadurch wenigstens eine Betonungsmustergruppe zu formen; Normalisieren von Intonationsdaten (42) für jedes Wort in einer gegebenen Betonungsmustergruppe in Bezug auf Zeit, um dadurch normalisierte Intonationsdaten zu formen; Einregeln des Pitch-Shifts (46) besagter normalisierten Intonationsdaten, um dadurch eingeregelte Intonationsdaten zu formen; und Berechnen eines Durchschnittswerts anhand der eingeregelten Intonationsdaten und Speichern des Durchschnittwerts in einer Prosodiedatenbank (50) als Muster.
  2. Das Verfahren des Anspruchs 1, worin besagte normalisierten Intonationsdaten auf Resampling besagter Intonationsdaten für eine Vielheit von Intonationspunkten beruhen.
  3. Das Verfahren des Anspruchs 1, worin der Schritt der Einregelung des Pitch-Shifts weiter das Umwandeln der normalisierten Intonationsdaten in eine Log-Domäne umfasst.
  4. Das Verfahren des Anspruchs 1, worin die Intonationsdaten weiter als Grundtondaten (F0) definiert sind.
  5. Verfahren des Anspruchs 3, das weiter folgenden Schritt umfasst: Formen (54) eines Elevationspunkts für besagtes Wort, wobei besagter Elevationspunkt auf linearer Regression der besagten umgewandelten Daten und einer Wortendgrenze beruht.
  6. Das Verfahren des Anspruchs 5, worin besagter Elevationspunkt (56) als gemeinsamer Bezugspunkt eingeregelt wird.
  7. Das Verfahren des Anspruchs 6, das das Produzieren einer Konstanten umfasst, die eine Entnormalisierung auf der Basis eines Regressionslinienkoeffizienten einer Rahmensatz-Pitchkontur repräsentiert.
  8. Verfahren des Anspruchs 6, das weiter folgenden Schritt umfasst: Beurteilen eines Zeitdauermusters, das betrieblich die Entnormalisierung einer Zeitdauerinformation zulässt, und dadurch mit jeder der besagten Silben einen Zeitwert assoziiert.
  9. Verfahren des Anspruchs 8, das weiter folgenden Schritt umfasst: Umwandeln (74) der Log-Domänenwerte besagten Zeitdauermusters in lineare Werte.
  10. Verfahren des Anspruchs 8, das weiter folgenden Schritt umfasst: Resampling (76) jedes Silbensegments des Musters für eine festgelegte Zeitdauer dermaßen, dass die Gesamtzeitdauer jedes besagten Silbensegments entnormalisierten besagten Zeitwerten entsprich, wodurch eine Intonationskontur mit einer physikalischen Zeitlinie assoziiert wird.
  11. Verfahren des Anspruchs 9, das weiter folgende Schritte umfasst: Speichern von Zeitdauerinformation als Verhältnisse von Phonemwerten nach global bestimmten Zeitdauerwerten, wobei besagte global bestimmten Zeitdauerwerte auf mittleren Zeitdauerwerten über einen ganzen Trainingskörper basieren; Basieren von Werten pro Silbe auf eine Summe des beobachteten Phonems; und Bestücken besagten Prosodie-Musters mit einem Verhältnis besagter Werte pro Silbe versus globaler Verhältnisse, die betriebsfähig sind die Berechnung einer Ist-Zeitdauer besagter jeden Silbe zuzulassen.
DE69917415T 1998-11-25 1999-11-22 Sprachsynthese mit Prosodie-Mustern Expired - Fee Related DE69917415T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US200027 1998-11-25
US09/200,027 US6260016B1 (en) 1998-11-25 1998-11-25 Speech synthesis employing prosody templates

Publications (2)

Publication Number Publication Date
DE69917415D1 DE69917415D1 (de) 2004-06-24
DE69917415T2 true DE69917415T2 (de) 2005-06-02

Family

ID=22740012

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69917415T Expired - Fee Related DE69917415T2 (de) 1998-11-25 1999-11-22 Sprachsynthese mit Prosodie-Mustern

Country Status (5)

Country Link
US (1) US6260016B1 (de)
EP (1) EP1005018B1 (de)
JP (1) JP2000172288A (de)
DE (1) DE69917415T2 (de)
ES (1) ES2218959T3 (de)

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
US7117532B1 (en) * 1999-07-14 2006-10-03 Symantec Corporation System and method for generating fictitious content for a computer
WO2001006386A1 (en) * 1999-07-14 2001-01-25 Recourse Technologies, Inc. System and method for dynamically changing a computer port or address
US6981155B1 (en) * 1999-07-14 2005-12-27 Symantec Corporation System and method for computer security
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7203962B1 (en) 1999-08-30 2007-04-10 Symantec Corporation System and method for using timestamps to detect attacks
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words
US7386450B1 (en) * 1999-12-14 2008-06-10 International Business Machines Corporation Generating multimedia information from text information using customized dictionaries
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US6785649B1 (en) * 1999-12-29 2004-08-31 International Business Machines Corporation Text formatting from speech
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
US6845358B2 (en) * 2001-01-05 2005-01-18 Matsushita Electric Industrial Co., Ltd. Prosody template matching for text-to-speech systems
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
US6513008B2 (en) * 2001-03-15 2003-01-28 Matsushita Electric Industrial Co., Ltd. Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7024362B2 (en) * 2002-02-11 2006-04-04 Microsoft Corporation Objective measure for estimating mean opinion score of synthesized speech
US20040198471A1 (en) * 2002-04-25 2004-10-07 Douglas Deeds Terminal output generated according to a predetermined mnemonic code
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US7200557B2 (en) * 2002-11-27 2007-04-03 Microsoft Corporation Method of reducing index sizes used to represent spectral content vectors
US6988069B2 (en) * 2003-01-31 2006-01-17 Speechworks International, Inc. Reduced unit database generation based on cost information
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
US7386451B2 (en) * 2003-09-11 2008-06-10 Microsoft Corporation Optimization of an objective measure for estimating mean opinion score of synthesized speech
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
RU2427077C2 (ru) * 2005-12-05 2011-08-20 Телефонактиеболагет Лм Эрикссон (Пабл) Обнаружение эхосигнала
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US8135590B2 (en) 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8175879B2 (en) * 2007-08-08 2012-05-08 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101814288B (zh) * 2009-02-20 2012-10-03 富士通株式会社 使语音合成时长模型自适应的方法和设备
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731931B2 (en) 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US8965768B2 (en) * 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9928832B2 (en) * 2013-12-16 2018-03-27 Sri International Method and apparatus for classifying lexical stress
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9685169B2 (en) * 2015-04-15 2017-06-20 International Business Machines Corporation Coherent pitch and intensity modification of speech signals
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5796916A (en) 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5642520A (en) 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5592585A (en) 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
US5696879A (en) 1995-05-31 1997-12-09 International Business Machines Corporation Method and apparatus for improved voice transmission
US5704009A (en) 1995-06-30 1997-12-30 International Business Machines Corporation Method and apparatus for transmitting a voice sample to a voice activated data processing system
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US5878393A (en) * 1996-09-09 1999-03-02 Matsushita Electric Industrial Co., Ltd. High quality concatenative reading system
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US5966691A (en) * 1997-04-29 1999-10-12 Matsushita Electric Industrial Co., Ltd. Message assembler using pseudo randomly chosen words in finite state slots

Also Published As

Publication number Publication date
EP1005018B1 (de) 2004-05-19
JP2000172288A (ja) 2000-06-23
US6260016B1 (en) 2001-07-10
EP1005018A3 (de) 2001-02-07
DE69917415D1 (de) 2004-06-24
ES2218959T3 (es) 2004-11-16
EP1005018A2 (de) 2000-05-31

Similar Documents

Publication Publication Date Title
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69620399T2 (de) Sprachsynthese
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE69519887T2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69413052T2 (de) Sprachsynthese
DE10042944C2 (de) Graphem-Phonem-Konvertierung
DE69617581T2 (de) System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60201262T2 (de) Hierarchische sprachmodelle
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE3886080T2 (de) Verfahren und System zur Spracherkennung.
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee