DE69917415T2 - Sprachsynthese mit Prosodie-Mustern - Google Patents
Sprachsynthese mit Prosodie-Mustern Download PDFInfo
- Publication number
- DE69917415T2 DE69917415T2 DE69917415T DE69917415T DE69917415T2 DE 69917415 T2 DE69917415 T2 DE 69917415T2 DE 69917415 T DE69917415 T DE 69917415T DE 69917415 T DE69917415 T DE 69917415T DE 69917415 T2 DE69917415 T2 DE 69917415T2
- Authority
- DE
- Germany
- Prior art keywords
- pattern
- prosody
- data
- intonation
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title description 7
- 238000003786 synthesis reaction Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 2
- 238000012952 Resampling Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000007493 shaping process Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 235000009037 Panicum miliaceum subsp. ruderale Nutrition 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 244000022185 broomcorn panic Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
- Hintergrund und Zusammenfassung der Erfindung
- Die vorliegende Erfindung bezieht sich im Allgemeinen auf Systeme für Text-zu-Sprache (TTS) und Sprachsynthese. Insbesondere bezieht sich die Erfindung auf ein System zur Bereitstellung natürlich klingenderer Prosodie durch die Verwendung von Prosodie-Mustern.
- Die Aufgabe, natürliche, menschlich klingende Prosodie für Text-zu-Sprache und Sprachsynthese zu generieren, ist historisch eines der schwierigsten Probleme gewesen, mit dem Forscher und Entwickler konfrontiert wurden. Systeme für Text-zu-Sprache sind im Allgemeinen wegen ihrer "roboterhaften" Intonationen berüchtigt geworden. Um dieses Problem anzusprechen, haben einige frühere Systeme neuronale Netze und Vektor-Clustering-Algorithmen beim Versuch verwendet, natürlich klingende Prosodie zu simulieren. Abgesehen von ihrem nur geringen Erfolg geben diese „Black-Box"-Rechentechniken dem Entwickler kein Feedback darüber, was die kritischen Parameter für natürlich klingende Prosodie sind.
- Die vorliegende Erfindung, wie in Anspruch 1 beansprucht, verwendet einen anderen Ansatz, wobei Beispiele echter menschlicher Sprache benutzt werden, um Prosodie-Muster zu entwickeln. Die Muster definieren eine Beziehung zwischen Silbenbetonungsmustern und bestimmten prosodischen Variablen, wie beispielsweise Intonation (F0) und Zeitdauer. Deshalb verwendet die Erfindung im Gegensatz zu früheren algorithmischen Ansätzen natürlich vorkommende lexikalische und akustische Attribute (z. B., Betonungsmuster, Silbenzahl, Intonation, Zeitdauer), die vom Forscher bzw. Entwickler direkt beobachtet und verstanden werden können.
- Die
EP 083330482 - Die gegenwärtig bevorzugte Implementierung speichert die Prosodie-Muster in einer Datenbank, auf die durch Spezifizieren der Silbenzahl und des mit einem jeweiligen Wort assoziierten Betonungsmusters zugegriffen werden kann. Ein Wörterbuch ist bereitgestellt, um dem System die erforderliche Information hinsichtlich Silbenzahl und Betonungsmustern zu liefern. Der Textprozessor generiert unter Verwendung des Wörterbuchs phonemische Repräsentationen von Eingabewörtern, um das Betonungsmuster der eingegebenen Wörter zu identifizieren. Ein Prosodie-Modul greift dann auf die Musterdatenbank zu und verwendet die Information über Silbenzahl und Betonungsmuster für den Zugriff auf die Datenbank. Von der Datenbank wird dann ein Prosodie-Modul abgerufen und dazu benutzt, um Prosodie-Information an das Tonerzeugungsmodul zu liefern, das synthetisierte Sprache auf Basis der phonemischen Repräsentation und der Prosodie-Information generiert.
- Die gegenwärtig bevorzugte Implementierung konzentriert sich auf Sprache auf Wortebene. Wörter werden in Silben unterteilt und repräsentieren so die Grundeinheit von Prosodie. Das bevorzugte System setzt voraus, dass das durch die Silben definierte Betonungsmuster die wahrnehmbar wichtigsten Merkmale von sowohl Intonation (F0) als auch Zeitdauer bestimmt. Auf dieser Zuordnungseinheitsstufe ist der Satz von Mustern ziemlich kleiner Größenordnung und in Systemen für Text-zu-Sprache und Sprachsynthese leicht zu implementieren. Obwohl eine prosodische Analyse auf Wortebene unter Verwendung von Silben gegenwärtig bevorzugt wird, lassen sich die Prosodie-Mustertechniken der Erfindung in Systemen benutzen, die andere Zuordnungseinheitsstufen aufweisen. Beispielsweise lässt sich der Satz von Mustern erweitern, um mehr Merkmalbestimmer, sowohl auf Silben- als auch Wortebene, zu ermöglichen. In dieser Hinsicht können durch Konsonantentyp, Stimme, Eigentonhöhe von Vokalen und Segmentstruktur in einer Silbe verursachte mikroskopische F0 Störungen als Attribute verwendet werden, mit denen sich gewisse prosodische Muster kategorisieren lassen. Außerdem lassen sich die Techniken über die F0 Konturen und Zeitmuster der Wortebene hinaus auf Analysen auf Phrasen- und Satzebene erweitern.
- Um die Erfindung, ihre Zielsetzung und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
- Kurzbeschreibung der Zeichnungen
-
1 ist ein Blockdiagramm eines Sprachgenerators unter Verwendung von Prosodie-Mustern in Übereinstimmung mit der Erfindung; -
2A undB ist ein Blockdiagramm, das darstellt, wie Prosodie-Muster entwickelt werden könnten; -
3 ist eine graphische Verteilungsdarstellung für ein beispielhaftes Betonungsmuster; -
4 ist ein Graph der durchschnittlichen F0 Kontur für das Betonungsmuster von3 ; -
5 ist eine Serie von Graphen, die die durchschnittliche Kontur für beispielhafte zweisilbige und dreisilbige Daten darstellen. -
6 ist ein Flussdiagramm, das den vom bevorzugten Ausführungsbeispiel verwendeten Entnormalisierungsvorgang darstellt. -
7 ist ein Datenbankdiagramm, das die Beziehungen unter Datenbankentitäten im bevorzugten Ausführungsbeispiel zeigt. - Beschreibung des bevorzugten Ausführungsbeispiels
- Wenn Text von einem menschlichen Sprecher gelesen wird, hebt und senkt sich die Tonhöhe, Silben werden mit größerer oder geringerer Intensität artikuliert, Vokale werden gedehnt oder verkürzt und Pausen werden eingeschoben, was der gesprochenen Passage einen bestimmten Rhythmus verleiht. Diese Merkmale umfassen einige der Attribute, die Sprachforscher mit Prosodie bezeichnen. Menschliche Sprecher fügen, wenn sie eine Textpassage laut lesen, automatisch prosodische Information bei. Die prosodische Information vermittelt die Interpretation des Materials durch den Leser. Diese Interpretierung ist ein Artefakt menschlicher Erfahrung, da der gedruckte Text wenig direkte prosodische Information enthält.
- Wenn ein computerimplementiertes Sprachsynthesesystem eine Textpassage liest oder rezitiert, fehlt diese menschlich klingende Prosodie in konventionellen Systemen. Der Text selbst enthält praktisch keine prosodische Information und der konventionelle Sprachgenerator hat daher wenig, woraus er die fehlende Prosodie-Information generieren kann. Wie bereits festgestellt, haben sich frühere Versuche, Prosodie-Information hinzuzufügen, auf regelbasierte Techniken und neuronale Netz- oder algorithmische Techniken, wie beispielsweise Vektor-Clusterbildungstechniken, konzentriert. Regelbasierte Techniken klingen einfach nicht natürlich und neuronale Netz- und algorithmische Techniken können nicht adaptiert werden und lassen sich nicht verwenden, um Schlussfolgerungen zu ziehen, die für die weitere Modifikation oder für die Anwendung außerhalb des Trainings-Set gebraucht werden, mit dem sie generiert wurden.
- Die vorliegende Erfindung spricht das Prosodie-Problem durch Verwendung von Prosodie-Mustern an, die mit den in gesprochenen Wörtern vorgefundenen Silben-Betonungsmustern verbunden sind. Insbesondere speichern die prosodischen Muster F0 Intonations- und Zeitdauerinformation. Diese gespeicherte Prosodie-Information wird in einer Datenbank erfasst und Silben-Betonungsmustern gemäß angeordnet. Das gegenwärtig bevorzugte Ausführungsbeispiel definiert drei verschiedene Betonungsstufen. Diese sind mit den Nummern 0, 1 und 2 bezeichnet. Die Betonungsstufen beinhalten Folgendes:
0 keine Betonung
1 primäre Betonung
2 sekundäre Betonung - Laut dem bevorzugten Ausführungsbeispiel haben einsilbige Wörter ein einfaches Betonungsmuster, das der primären Betonungsstufe '1' entspricht. Mehrsilbige Wörter können verschiedene Kombinationen von Betonungsstufenmustern haben. Beispielsweise könnten zweisilbige Wörter Betonungsmuster '10', '01' und '12' haben.
- Das gegenwärtig bevorzugte Ausführungsbeispiel setzt ein Prosodie-Muster für jede verschiedene Betonungsmusterkombination ein. Deshalb hat das Betonungsmuster '1' ein erstes Prosodie-Muster, das Betonungsmuster '10' ein anderes Prosodie-Muster usw. Jedes Prosodie-Muster enthält Prosodie-Information wie Intonations- und Zeitdauerinformation und optional auch andere Informationen.
-
1 illustriert einen Sprachgenerator, der die Prosodie-Mustertechnologie der vorliegenden Erfindung verwendet. Bezugnehmend auf die1 wird ein Eingabetext10 als eine Reihenfolge oder Kette von Buchstaben, die Wörter definieren, an das Textprozessormodul12 geliefert. Der Textprozessor12 hat ein zugehöriges Wörterbuch14 , das Informationen über eine Vielheit gespeicherter Wörter enthält. Im bevorzugten Ausführungsbeispiel hat das Wörterbuch eine bei16 illustrierte Datenstruktur, gemäß der Wörter zusammen mit bestimmten phonemischen Repräsentations- und Betonungsmusterinformationen gespeichert werden. Insbesondere wird jedes Wort im Wörterbuch von seiner phonemischen Repräsentation, Information, die die Wortsilbengrenzen identifiziert, und Information, die festlegt, wie jeder Silbe Betonung zuzuordnen ist, begleitet. Deshalb enthält das Wörterbuch14 in suchbarer elektronischen Form die Grundinformation, die zum Generieren einer Aussprache des Wortes erforderlich ist. - Der Textprozessor
12 ist weiter an das Prosodie-Modul18 gekoppelt, das mit der Prosodie-Musterdatenbank20 assoziiert ist. Im gegenwärtig bevorzugten Ausführungsbeispiel speichern die Prosodie-Muster Intonationsdaten (F0) und Zeitdauerdaten für jedes einer Vielheit von verschiedenen Betonungsmustern. Das Einzelwort-Betonungsmuster '1' umfasst ein erstes Muster, das zweisilbige Muster '10' ein zweites Muster, das Muster '01' umfasst noch ein weiteres Muster usw. Die Muster werden in der Datenbank, wie graphisch durch die Datenstruktur22 in1 gezeigt, nach Betonungsmuster gespeichert. Das mit einem gegebenen Wort assoziierte Betonungsmuster dient als Datenbank-Zugriffsschlüssel, mit dem das Prosodie-Modul18 die assoziierte Intonations- und Zeitdauerinformation abruft. Das Prosodie-Modul18 ermittelt das mit dem jeweiligen Wort assoziierte Betonungsmuster durch Information, die ihm über den Textprozessor12 geliefert wird. Der Textprozessor12 erhält diese Information durch Verwendung des Wörterbuchs14 . - Obwohl die gegenwärtig bevorzugten Prosodie-Muster Intonations- und Zeitdauerinformation speichern, lässt sich die Musterstruktur leicht erweitern, um andere Prosodie-Attribute einzuschließen.
- Der Textprozessor
12 und das Prosodie-Modul18 liefern beide Information an das Tonerzeugungsmodul24 . Im Besonderen liefert der Textprozessor12 phonemische Information, die er aus dem Wörterbuch14 erhält, und das Prosodie-Modul18 liefert die Prosodie-Information (z. B. Intonation und Zeitdauer). Das Tonerzeugungsmodul generiert dann synthetisierte Sprache auf Basis der phonemischen und der Prosodie-Information. - Das gegenwärtig bevorzugte Ausführungsbeispiel codiert Prosodie-Information in einer standardisierten Form, in der die Prosodie-Information normalisiert und parametrisiert wird, um Speicherung und Abrufen aus der Datenbank
20 zu vereinfachen. Das Tonerzeugungsmodul24 entnormalisiert und konvertiert die standardisierten Muster in eine Form, die sich auf die vom Textprozessor12 gelieferte phonemische Information anwenden lässt. Die Details dieses Prozesses werden nachstehend ausführlicher beschrieben. Zunächst aber wird eine detaillierte Beschreibung der Prosodie-Muster und ihrer Konstruktion beschrieben. - Bezugnehmend auf
2A und2B wird der Vorgang für die Generierung geeigneter Prosodie-Muster umrissen. Die Prosodie-Muster werden mit Hilfe menschlicher Trainingssprache konstruiert, die vorher aufgezeichnet und als eine Sammlung von Trainingssprachsätzen30 geliefert werden kann. Unsere gegenwärtig bevorzugte Implementierung wurde mit ca. 3.000 Sätzen mit echten Hauptwörtern in der Satzanfangsposition konstruiert. Die Trainingssprachsammlung30 wurde mit einer einzigen Sprecherin in amerikanischem Englisch zusammengetragen. Natürlich können auch andere Quellen für die Trainingssprache verwendet werden. - Die Trainingssprachdaten werden anfänglich durch eine Reihe von Schritten vorverarbeitet. Zuerst wird ein Etikettierwerkzeug
32 verwendet, um die Sätze in Worte zu segmentieren und die Worte in Silben und Silben in Phoneme zu segmentieren, die dann bei34 gespeichert werden. Dann werden den Silben Betonungen, wie bei Schritt36 gezeigt, zugeordnet. Bei der gegenwärtig bevorzugten Implementierung wurde eine dreistufige Betonungszuordnung verwendet, bei der '0' keine Betonung repräsentierte, '1' die primäre Betonung repräsentierte und '2' die sekundäre Betonung, wie bei38 graphisch illustriert, repräsentierte. Die Unterteilung von Worten in Silben und Phoneme und das Zuordnen der Betonungsstufen lässt sich manuell oder mit Hilfe einer automatischen oder halbautomatischen Synchronisiervorrichtung, die F0 Editieren durchführt, vornehmen. In dieser Hinsicht ist die Vorverarbeitung von Trainingssprachdaten relativ zeitaufwändig, muss aber nur einmal während der Entwicklung der Prosodie-Muster durchgeführt werden. Exakt gekennzeichnete und betonungszugeordnete Daten sind erforderlich, um Genauigkeit sicherzustellen und den Rauschpegel bei der anschließenden statistischen Analyse zu reduzieren. - Nachdem die Wörter gekennzeichnet (etikettiert) und Betonungen zugeordnet worden sind, können sie nach Betonungsmustern gruppiert werden. Wie bei
40 illustriert, umfassen einsilbige Wörter eine erste Gruppe. Zweisilbige Wörter umfassen vier zusätzliche Gruppen, die Gruppe '10', die Gruppe '01', die Gruppe '12' und die Gruppe '21'. Auf ähnliche Weise lassen sich dreisilbige, viersilbige ... n-silbige Wörter entsprechend der Betonungsmuster gruppieren. - Als Nächstes werden für jede Betonungsmustergruppe die Grundtonhöhe oder Intonationsdaten F0 in Bezug auf Zeit normalisiert (dadurch wird die der jeweiligen Aufzeichnung spezifische Zeitdimension entfernt), wie bei Schritt
42 angezeigt. Dies lässt sich auf verschiedene Art erzielen. Die bei44 beschriebene gegenwärtig bevorzugte Technik nimmt ein Resampling der Daten auf eine feste Zahl von F0 Punkten vor. Zum Beispiel können die Daten darauf abgetastet werden, 30 Proben pro Silbe zu umfassen. - Als Nächstes wird eine Reihe zusätzlicher Verarbeitungsschritte durchgeführt, um Basislinien-Tonhöhenkonstanten-Offsets, wie allgemein bei
46 angezeigt, zu eliminieren. Der gegenwärtig bevorzugte Ansatz beinhaltet das Transformieren der F0 Punkte für den ganzen Satz in die Log-Domäne wie bei48 angezeigt. Sobald die Punkte in die Log-Domäne transformiert worden sind, können sie, wie bei50 illustriert, der Musterdatenbank hinzugefügt werden. Bei der gegenwärtig bevorzugten Implementierung werden alle Log-Domänedaten für eine jeweilige Gruppe gemittelt und dieser Mittelwert wird benutzt, um das Prosodie-Muster mit Daten zu füllen. Daher tragen alle Wörter in einer gegebenen Gruppe (z. B. alle zweisilbigen Wörter des Musters '10') zum einzelnen Mittelwert bei, der benutzt wird, um das Muster für diese Gruppe mit Daten zu füllen. Obwohl arithmetisches Mitteln der Daten gute Resultate bringt, kann, wenn erwünscht, auch eine andere statistische Verarbeitung angewandt werden. - Zur Beurteilung der Robustheit des Prosodie-Musters kann eine zusätzliche Verarbeitung, wie in
2B beginnend bei Schritt52 illustriert, durchgeführt werden. Die Log-Domänedaten werden verwendet, um eine lineare Regressionslinie für den ganzen Satz zu berechnen. Die Regressionslinie schneidet sich mit der Wortendgrenze, wie bei Schritt54 angezeigt, und dieser Schnittpunkt wird als ein Elevationspunkt für das Zielwort verwendet. Bei Schritt56 wird der Elevationspunkt auf einen gemeinsamen Bezugspunkt verschoben. Das bevorzugte Ausführungsbeispiel verschiebt die Daten entweder nach oben oder unten auf einen gemeinsamen Bezugspunkt von nominell 100 Hz. - Wie vorher festgestellt, bieten frühere neuronale Netztechniken dem Systemdesigner keine Möglichkeit, Parameter auf eine bedeutungsvolle Weise zu justieren oder zu entdecken, welche Faktoren zur Ausgabe beitragen. Die vorliegende Erfindung erlaubt dem Designer, relevante Parameter durch statistische Analyse zu erforschen. Dies ist beginnend bei Schritt
58 illustriert. Wenn erwünscht, werden die Daten bei58 statistisch analysiert, indem jede Probe mit dem arithmetischen Mittel verglichen wird, um ein Abstandsmaß, wie beispielsweise den Flächenunterschied wie bei60 , zu berechnen. Wir verwenden ein Maß wie beispielsweise den Flächenunterschied zwischen zwei Vektoren, wie in der nachstehenden Gleichung dargelegt. Wir haben festgestellt, dass dieses Maß ziemlich gut ist, um nützliche Information darüber zu produzieren, wie ähnlich oder verschieden die Proben voneinander sind. Andere Abstandsmaße, einschließlich gewichteter Maße, die psycho-akustische Eigenschaften des sensor-neuronalen Systems berücksichtigen, können verwendet werden. d = Maß des Unterschieds zwischen zwei Vektoren
i = Index des zu vergleichenden Vektors
Yi = F0 Konturvektor
Y = arithmetischer Mittelvektor für Gruppe
N = Proben in einem Vektor
y = Probenwert
vi = Stimmfunktion. 1 bei eingeschalteter Stimme, ansonsten 0.
c = Skalierfaktor (optional) - Für jedes Muster wird dieses Abstandsmaß dann wie bei
62 tabelliert, und ein Histogramm lässt sich wie bei64 konstruieren. Ein Beispiel für ein solches Histogramm erscheint in3 , welche die Verteilungsgrafik für Betonungsmuster '1' zeigt. In der Grafik befindet sich die x-Achse auf einer willkürlichen Skala und die y-Achse ist die Zählfrequenz für einen gegebenen Abstand. Ungleichförmigkeiten werden um ca. 1/3 auf der x-Achse signifikant. - Durch Konstruieren von Histogrammen wie oben beschrieben ist ein Zugriff auf die Prosodie-Muster möglich, um zu bestimmen, wie nahe die Proben aneinander liegen, und daher wie gut das resultierende Muster einer natürlich klingen Intonation entspricht. Anders ausgedrückt informiert das Histogramm, ob die Gruppierungsfunktion (Betonungsmuster) den beobachteten Formen angemessen Rechnung trägt. Eine breite Streuung zeigt, dass dies nicht der Fall ist, während eine große Konzentration nahe dem Mittel anzeigt, dass wir ein allein durch Betonung bestimmtes Muster und daher einen guten Kandidaten für das Prosodie-Muster gefunden haben.
4 zeigt eine entsprechende Grafik der mittleren F0 Kontur für das Muster '1'. Der Datengraph in4 entspricht der Verteilungsgrafik in3 . Beachten Sie, dass die Grafik in -
4 normalisierte Log-Koordinaten repräsentiert. Der untere, mittlere und obere Teil entsprechen 50 Hz, 100 Hz bzw. 200 Hz.4 zeigt, dass die durchschnittliche F0 Kontur für das einsilbige Muster eine langsam ansteigende Kontur ist. -
5 zeigt die Resultate unserer F0 Studie in Bezug auf die Familie der zweisilbigen Muster. In5 ist das Muster '10' bei A, das Muster '01' bei B und das Muster '12' bei C gezeigt. Außerdem ist in5 das durchschnittliche Konturmuster für die dreisilbige Gruppe '010' inbegriffen. - Beim Vergleich der zweisilbigen Muster in
5 ist zu beachten, dass sowohl die Spitzenposition als auch die Gesamtform der F0 Kontur verschieden ist. Das Muster '10' zeigt einen Anstieg-Abfall mit einem Spitzenwert bei ca. 80% in die erste Silbe, wogegen das Muster '01' ein Muster mit flachem Anstieg-Abfall mit einem Spitzenwert von ca. 60% in die zweite Silbe zeigt. In diesen Abbildungen bezeichnet die vertikale Linie die Silbengrenze. - Das Muster '12' ist dem Muster '10' sehr ähnlich, doch sobald F0 den Zielpunkt des Anstiegs erreicht, hat das Muster '12' in dieser höheren F0 Region eine längere Dehnung. Dies deutet darauf hin, dass eine sekundäre Betonung vorliegen kann.
- Das Muster '010' des illustrierten dreisilbigen Wortes zeigt eine klare Glockenkurve in der Verteilung und einige Abnormitäten. Die durchschnittliche Kontur ist eine geringfügig flache Form, gefolgt von einer Anstieg-Abfall-Kontur, wobei der F0 Spitzenwert bei ca. 85% in die zweite Silbe liegt. Beachten Sie, dass einige der Abnormitäten in dieser Verteilung falsch ausgesprochenen Wörtern in den Trainingsdaten entsprechen können.
- Die Histogramme und durchschnittlichen Konturkurven können für alle verschiedenen Muster berechnet werden, die in den Trainingsdaten reflektiert sind. Unsere Studien haben gezeigt, dass die auf diese Weise produzierten F0 Konturen und Zeitdauermuster denen eines menschlichen Sprechers nahe liegen oder mit ihnen identisch sind. Bei alleiniger Verwendung des Betonungsmusters als Unterscheidungsmerkmal haben wir festgestellt, dass fast alle Grafiken der F0 Kurvenähnlichkeitsverteilung eine deutliche Glockenkurvenform zeigen. Dies bestätigt, dass das Betonungsmuster ein sehr effektives Kriterium für das Zuordnen von Prosodie-Information ist.
- Im Hinblick auf die Konstruktion der Prosodie-Muster wird jetzt das Tonerzeugungsmodul
24 (1 ) ausführlicher erläutert. Durch das Prosodie-Modul18 entnommene Prosodie-Information wird in einem normalisierten, tonhöhenverschobenen und Log-Domäneformat gespeichert. Deshalb muss das Tonerzeugungsmodul, um die Prosodie-Muster verwenden zu können, zuerst die Information entnormalisieren, wie in6 beginnend bei Schritt70 illustriert. Der Entnormalisierungsprozess verschiebt das Muster (Schritt72 ) zuerst auf eine Höhe, die der Tonhöhenkontur des Rahmensatzes (frame-sentence) entspricht. Diese Konstante wird als Teil der abgerufenen Daten für den Rahmensatz (frame-sentence) gegeben und durch die Regressionslinienkoeffizienten für die Tonhöhenkontur für diesen Satz berechnet. (Siehe2 Schritt52 –56 ). - Währenddessen wird auf das Zeitdauermuster zugegriffen und die Zeitdauerinformation wird entnormalisiert, um die Zeit (in Millisekunden) zu ermitteln, die mit jeder Silbe assoziiert ist. Die Log-Domänewerte des Musters werden dann bei Schritt
74 in lineare Hz-Werte transformiert. Danach wird, bei Schritt76 , jedes Silbensegment des Musters mit einer festen Zeitdauer für jeden Punkt (10 ms im gegenwärtigen Ausführungsbeispiel) einem Resampling unterzogen, so dass die Gesamtzeitdauer jeweils dem spezifizierten entnormalisierten Zeitwert entspricht. Dieses platziert die Intonationskontur wieder auf eine physikalische Zeitlinie. An dieser Stelle stehen die transformierten Musterdaten zur Verwendung durch das Tonerzeugungsmodul bereit. Natürlich lassen sich die Entnormalisierungsschritte von jedem der Module durchführen, das Prosodie-Information handhabt. Daher können die in6 illustrierten Entnormalisierungsschritte entweder vom Tonerzeugungsmodul24 oder vom Prosodie-Modul18 durchgeführt werden. - Das gegenwärtig bevorzugte Ausführungsbeispiel speichert Zeitdauerinformation als Verhältnisse von Phonemwerten und global bestimmten Zeitdauerwerten. Die global bestimmten Werte entsprechen den mittleren Zeitdauerwerten, die über den ganzen Trainingskorpus beobachtet wurden. Die Pro-Silbe-Werte repräsentieren die Summe beobachteter Zeitdauerwerte für Phoneme oder Phonemgruppen innerhalb einer jeweiligen Silbe. Pro-Silbe/globale Verhältnisse werden berechnet und gemittelt, um jedes Element des Prosodie-Musters mit Daten zu füllen. Diese Verhältnisse werden im Prosodie-Muster gespeichert und zum Berechnen der tatsächlichen Zeitdauer jeder Silbe verwendet.
- Das Erhalten detaillierter temporaler Prosodie-Muster ist etwas komplexer als dies für F0 Konturen der Fall ist. Dies beruht größtenteils auf der Tatsache, dass man einen hohen Grad prosodischer Absicht nicht von reinen Artikulationsbeschränkungen durch Untersuchung individueller Segmentdaten trennen kann.
- Design der Prosodie-Datenbank
- Die Struktur und Anordnung der gegenwärtig bevorzugten Prosodie-Datenbank wird weiter durch das Beziehungsdiagramm in
7 und durch die folgenden Datenbank-Konstruktionsspezifikation beschrieben. Die Spezifikation wird bereitgestellt, um ein bevorzugtes Ausführungsbeispiel der Erfindung zu illustrieren. Andere Datenbank-Konstruktionsspezifikationen sind ebenfalls möglich. - NORMDATA
-
- ND1D-Primary Key
- Target-Key (WordID)
- Sentence-Key (SentID)
- SentencePos-Text
- Follow-Key (WordID)
- Session-Key (SessID)
- Recording-Text
- Attributes-Text
- WORD
-
- WordID-Primary Key
- Spelling-Text
- Phonemes-Text
- Syllables-Number
- Stress-Text
- Subwords-Number
- Origin-Text
- Feature1-Number (Submorphs)
- Feature2-Number
- FRAMESENTENCE
-
- SentID-Primary Key
- Sentence-Text
- Type-Number
- Syllables-Number
- SESSION
-
- SessID-Primary Key
- Speaker-Text
- Date Recorded-Date/Time
- Tape-Text
- F0DATA
-
- NDID-Key
- Index-Number
- Value-Currency
- DURDATA
-
- NDID-Key
- Index-Number
- Value-Currency
- Abs-Currency
- PHONDATA
-
- NDID-Key
- Phones-Text
- Dur-Currency
- Stress-Text
- SylPos-Number
- PhonPos-Number
- Rate-Number
- Parse-Text
- RECORDING
- ID
-
- Our
- A (y = A + Bx)
- B (y = A + Bx)
- Descript
- GROUP
-
- GroupID-Primary Key
- Syllables-Number
- Stress-Text
- Feature1-Number
- Feature2-Number
- SentencePos-Text
- <Future exp.>
- TEMPLATEF0
-
- GroupID-Key
- Index-Number
- Value-Number
- TEMPLATEDUR
-
- GroupID-Key
- Index-Number
- Value-Number
- DISTRIBUTIONF0
-
- GroupID-Key
- Index-Number
- Value-Number
- DISTRIBUTIONDUR
-
- GroupID-Key
- Index-Number
- Value-Number
- GROUPMEMBERS
-
- GroupID-Key
- NDID-Key
- DistanceF0-Currency
- DistanceDur-Currency
- PHONSTAT
-
- Phones-Text
- Mean-Curr.
- SSD-Curr.
- Min-Curr.
- Max-Curr.
- CoVar-Currency
- N-Number
- Class-Text
- FELDBESCHREIBUNGEN
- NORMDATA
-
- NDID Primärer Schlüssel
- Target Zielwort. Schlüssel zur WORD Tabelle.
- Sentence Quellen-Rahmensatz. Schlüssel zur FRAMESENTENCE Tabelle.
- SentencePos Satzposition. ANFANG, MITTE, ENDE
- Follow Wort, das dem Zielwort folgt. Schlüssel zur WORD Tabelle oder 0, wenn kein Wort folgt.
- Session Zu welcher Sitzung die Aufnahme gehörte. Schlüssel zur SESSION Tabelle.
- Recording Feldname für Aufnahme in Unix-Verzeichnissen (Urdaten).
- Attributes Verschiedene Info. F = F0 Daten, die als anomal erachtet werden. D = Zeitdauerdaten, die als anomal erachtet werden. A = Alternative F0 B = Alternative Zeitdauer
- PHONDATA
-
- NDID Schlüssel zu NORMDATA
- Phones Kette von 1 oder 2 Phons
- Dur Gesamtzeitdauer für Phons
- Stress Betonung der Silbe, zu der Phons gehören
- SylPos Position der Silbe, die Phons enthält (ab 0 zählend)
- PhonPos Position der Phoneme in der Silbe (ab 0 zählend)
- Rate Sprechgeschwindigkeitsmaß der Äußerung
- Parse L = Phon durch linkes Parsen realisiert R = Phon durch rechtes Parsen realisiert
- PHONSTAT
-
- Phones Kette von 1 oder 2 Phonemen
- Mean Statistische mittlere Dauer für Phons
- SSD Standardabweichung des Musters
- Min Beobachteter Mindestwert
- Max Beobachteter Höchstwert
- CoVar Variationskoeffizient (Standardabweichung des Musters/Mittel)
- N Zahl von Mustern für diese Phongruppe
- Class Klassifikation A = Alle Muster inbegriffen
- Anhand des Vorgenannten wird man erkennen, dass die vorliegende Erfindung eine Vorrichtung und Methode zum Generieren synthetisierter Sprache bereitstellt, wobei die normalerweise fehlende Prosodie-Information aus Mustern geliefert wird, die auf aus menschlicher Sprache entnommenen Daten beruhen. Wie wir vorgeführt haben, lässt sich diese Prosodie-Information aus einer Datenbank von Mustern auswählen und auf die phonemische Information durch einen Suchvorgang anwenden, der auf Betonungsmustern basiert, die mit dem Text von Eingabewörtern assoziiert sind.
- Die Erfindung ist für eine breite Palette verschiedener Text-zu-Sprache- und Sprachsyntheseanwendungen, einschließlich großer Domäneanwendungen, wie Textbücher-Leseanwendungen, und begrenzteren Domäneanwendungen, wie Autonavigations- oder Phrasenbuch-Übersetzungsanwendungen, geeignet. Im Falle begrenzter Domänen kann ein kleines Set von „fixed-frame" Sätzen im Voraus designiert werden, und ein Zielwort im jeweiligen Satz kann durch ein willkürliches Wort (wie beispielsweise einen Eigennamen oder Straßennamen) ersetzt werden. In diesem Fall lässt sich Tonhöhe und Timing für die Rahmensätze (frame sentences) von wirklicher Sprache messen und speichern und daher eine sehr natürliche Prosodie für den größten Teil des Satzes sicherstellen. Das Zielwort ist dann die einzige Sache, die Tonhöhen- und Timingkontrolle mittels der Prosodie-Muster der Erfindung erfordert.
Claims (11)
- Ein Verfahren zum Trainieren eines Prosodie-Musters, unter Verwendung menschlicher Sprache, umfassend: Segmentieren von Wörtern eines Satzes (
32 ) von der menschlichen Sprache in Phoneme, die mit Silben besagter Wörter assoziiert werden; Zuordnen von Betonungsgraden (36 ) an besagte Silben; Gruppieren besagter Wörter (40 ) gemäß besagten Betonungsgraden, um dadurch wenigstens eine Betonungsmustergruppe zu formen; Normalisieren von Intonationsdaten (42 ) für jedes Wort in einer gegebenen Betonungsmustergruppe in Bezug auf Zeit, um dadurch normalisierte Intonationsdaten zu formen; Einregeln des Pitch-Shifts (46 ) besagter normalisierten Intonationsdaten, um dadurch eingeregelte Intonationsdaten zu formen; und Berechnen eines Durchschnittswerts anhand der eingeregelten Intonationsdaten und Speichern des Durchschnittwerts in einer Prosodiedatenbank (50 ) als Muster. - Das Verfahren des Anspruchs 1, worin besagte normalisierten Intonationsdaten auf Resampling besagter Intonationsdaten für eine Vielheit von Intonationspunkten beruhen.
- Das Verfahren des Anspruchs 1, worin der Schritt der Einregelung des Pitch-Shifts weiter das Umwandeln der normalisierten Intonationsdaten in eine Log-Domäne umfasst.
- Das Verfahren des Anspruchs 1, worin die Intonationsdaten weiter als Grundtondaten (F0) definiert sind.
- Verfahren des Anspruchs 3, das weiter folgenden Schritt umfasst: Formen (
54 ) eines Elevationspunkts für besagtes Wort, wobei besagter Elevationspunkt auf linearer Regression der besagten umgewandelten Daten und einer Wortendgrenze beruht. - Das Verfahren des Anspruchs 5, worin besagter Elevationspunkt (
56 ) als gemeinsamer Bezugspunkt eingeregelt wird. - Das Verfahren des Anspruchs 6, das das Produzieren einer Konstanten umfasst, die eine Entnormalisierung auf der Basis eines Regressionslinienkoeffizienten einer Rahmensatz-Pitchkontur repräsentiert.
- Verfahren des Anspruchs 6, das weiter folgenden Schritt umfasst: Beurteilen eines Zeitdauermusters, das betrieblich die Entnormalisierung einer Zeitdauerinformation zulässt, und dadurch mit jeder der besagten Silben einen Zeitwert assoziiert.
- Verfahren des Anspruchs 8, das weiter folgenden Schritt umfasst: Umwandeln (
74 ) der Log-Domänenwerte besagten Zeitdauermusters in lineare Werte. - Verfahren des Anspruchs 8, das weiter folgenden Schritt umfasst: Resampling (
76 ) jedes Silbensegments des Musters für eine festgelegte Zeitdauer dermaßen, dass die Gesamtzeitdauer jedes besagten Silbensegments entnormalisierten besagten Zeitwerten entsprich, wodurch eine Intonationskontur mit einer physikalischen Zeitlinie assoziiert wird. - Verfahren des Anspruchs 9, das weiter folgende Schritte umfasst: Speichern von Zeitdauerinformation als Verhältnisse von Phonemwerten nach global bestimmten Zeitdauerwerten, wobei besagte global bestimmten Zeitdauerwerte auf mittleren Zeitdauerwerten über einen ganzen Trainingskörper basieren; Basieren von Werten pro Silbe auf eine Summe des beobachteten Phonems; und Bestücken besagten Prosodie-Musters mit einem Verhältnis besagter Werte pro Silbe versus globaler Verhältnisse, die betriebsfähig sind die Berechnung einer Ist-Zeitdauer besagter jeden Silbe zuzulassen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US200027 | 1998-11-25 | ||
US09/200,027 US6260016B1 (en) | 1998-11-25 | 1998-11-25 | Speech synthesis employing prosody templates |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69917415D1 DE69917415D1 (de) | 2004-06-24 |
DE69917415T2 true DE69917415T2 (de) | 2005-06-02 |
Family
ID=22740012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69917415T Expired - Fee Related DE69917415T2 (de) | 1998-11-25 | 1999-11-22 | Sprachsynthese mit Prosodie-Mustern |
Country Status (5)
Country | Link |
---|---|
US (1) | US6260016B1 (de) |
EP (1) | EP1005018B1 (de) |
JP (1) | JP2000172288A (de) |
DE (1) | DE69917415T2 (de) |
ES (1) | ES2218959T3 (de) |
Families Citing this family (161)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076426B1 (en) * | 1998-01-30 | 2006-07-11 | At&T Corp. | Advance TTS for facial animation |
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
CN1168068C (zh) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
US7117532B1 (en) * | 1999-07-14 | 2006-10-03 | Symantec Corporation | System and method for generating fictitious content for a computer |
WO2001006386A1 (en) * | 1999-07-14 | 2001-01-25 | Recourse Technologies, Inc. | System and method for dynamically changing a computer port or address |
US6981155B1 (en) * | 1999-07-14 | 2005-12-27 | Symantec Corporation | System and method for computer security |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US7203962B1 (en) | 1999-08-30 | 2007-04-10 | Symantec Corporation | System and method for using timestamps to detect attacks |
US6496801B1 (en) * | 1999-11-02 | 2002-12-17 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words |
US7386450B1 (en) * | 1999-12-14 | 2008-06-10 | International Business Machines Corporation | Generating multimedia information from text information using customized dictionaries |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US6785649B1 (en) * | 1999-12-29 | 2004-08-31 | International Business Machines Corporation | Text formatting from speech |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6542867B1 (en) * | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
JP2002244688A (ja) * | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
US6810378B2 (en) * | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US7024362B2 (en) * | 2002-02-11 | 2006-04-04 | Microsoft Corporation | Objective measure for estimating mean opinion score of synthesized speech |
US20040198471A1 (en) * | 2002-04-25 | 2004-10-07 | Douglas Deeds | Terminal output generated according to a predetermined mnemonic code |
US20030202683A1 (en) * | 2002-04-30 | 2003-10-30 | Yue Ma | Vehicle navigation system that automatically translates roadside signs and objects |
US7200557B2 (en) * | 2002-11-27 | 2007-04-03 | Microsoft Corporation | Method of reducing index sizes used to represent spectral content vectors |
US6988069B2 (en) * | 2003-01-31 | 2006-01-17 | Speechworks International, Inc. | Reduced unit database generation based on cost information |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US7386451B2 (en) * | 2003-09-11 | 2008-06-10 | Microsoft Corporation | Optimization of an objective measure for estimating mean opinion score of synthesized speech |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
JP4738057B2 (ja) * | 2005-05-24 | 2011-08-03 | 株式会社東芝 | ピッチパターン生成方法及びその装置 |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
RU2427077C2 (ru) * | 2005-12-05 | 2011-08-20 | Телефонактиеболагет Лм Эрикссон (Пабл) | Обнаружение эхосигнала |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8135590B2 (en) | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8175879B2 (en) * | 2007-08-08 | 2012-05-08 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
CN101814288B (zh) * | 2009-02-20 | 2012-10-03 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8731931B2 (en) | 2010-06-18 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for unit selection text-to-speech using a modified Viterbi approach |
US8965768B2 (en) * | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9928832B2 (en) * | 2013-12-16 | 2018-03-27 | Sri International | Method and apparatus for classifying lexical stress |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9685169B2 (en) * | 2015-04-15 | 2017-06-20 | International Business Machines Corporation | Coherent pitch and intensity modification of speech signals |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5796916A (en) | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5642520A (en) | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
US5592585A (en) | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5696879A (en) | 1995-05-31 | 1997-12-09 | International Business Machines Corporation | Method and apparatus for improved voice transmission |
US5704009A (en) | 1995-06-30 | 1997-12-30 | International Business Machines Corporation | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US5878393A (en) * | 1996-09-09 | 1999-03-02 | Matsushita Electric Industrial Co., Ltd. | High quality concatenative reading system |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US5966691A (en) * | 1997-04-29 | 1999-10-12 | Matsushita Electric Industrial Co., Ltd. | Message assembler using pseudo randomly chosen words in finite state slots |
-
1998
- 1998-11-25 US US09/200,027 patent/US6260016B1/en not_active Expired - Lifetime
-
1999
- 1999-11-22 EP EP99309292A patent/EP1005018B1/de not_active Expired - Lifetime
- 1999-11-22 DE DE69917415T patent/DE69917415T2/de not_active Expired - Fee Related
- 1999-11-22 ES ES99309292T patent/ES2218959T3/es not_active Expired - Lifetime
- 1999-11-24 JP JP11332642A patent/JP2000172288A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1005018B1 (de) | 2004-05-19 |
JP2000172288A (ja) | 2000-06-23 |
US6260016B1 (en) | 2001-07-10 |
EP1005018A3 (de) | 2001-02-07 |
DE69917415D1 (de) | 2004-06-24 |
ES2218959T3 (es) | 2004-11-16 |
EP1005018A2 (de) | 2000-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE69719654T2 (de) | Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese | |
DE69620399T2 (de) | Sprachsynthese | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE69519887T2 (de) | Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69413052T2 (de) | Sprachsynthese | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE69617581T2 (de) | System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69828141T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE3886080T2 (de) | Verfahren und System zur Spracherkennung. | |
DE10306599B4 (de) | Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |