DE69909716T2 - Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich - Google Patents

Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich Download PDF

Info

Publication number
DE69909716T2
DE69909716T2 DE69909716T DE69909716T DE69909716T2 DE 69909716 T2 DE69909716 T2 DE 69909716T2 DE 69909716 T DE69909716 T DE 69909716T DE 69909716 T DE69909716 T DE 69909716T DE 69909716 T2 DE69909716 T2 DE 69909716T2
Authority
DE
Germany
Prior art keywords
filter
syllable
syllables
waveform
synthesizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69909716T
Other languages
English (en)
Other versions
DE69909716D1 (de
Inventor
Steve Santa Barbara Pearson
Nicholas Lompoc Kibre
Nancy Santa Barbara Niedzielski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69909716D1 publication Critical patent/DE69909716D1/de
Publication of DE69909716T2 publication Critical patent/DE69909716T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich im allgemeinen auf Sprachsynthese und insbesondere auf einen concatenativen Synthesizer auf der Basis eines Quellen-Filter-Modells, in dem das Quellensignal und die Filterparameter durch unabhängige Überblendungsmechanismen generiert werden.
  • Heutige Sprachsynthese involviert viele Kompromisse. Für begrenzte Vokabularanwendungen ist es normalerweise möglich ganze Wörter als digitale Proben zu speichern, die zur Wiedergabe zu Sätzen verkettet werden sollen. Unter Voraussetzung eines guten Verslehrenalgorithmus, um Betonung auf die passenden Wörter zu legen, neigen diese Systeme dazu ganz natürlich zu klingen, weil die individuellen Wörter genaue Reproduktionen tatsächlicher menschlicher Sprache sein können. Bei größeren Wörterverzeichnissen ist es jedoch nicht möglich komplette Wortproben tatsächlicher menschlicher Sprache zu speichern. Deshalb hat eine Reihe von Sprachsynthesisten damit experimentiert Sprache in kleinere Einheiten zu zerlegen und jene Einheiten zu Wörtern, Phrasen und letztlich zu Sätzen zu verketten.
  • Leider müssen sich Sprachsynthesisten beim Verketten von Subworteinheiten mehreren sehr schwierigen Problemen stellen. Um Systemspeicheranforderungen auf etwas Überschaubares zu reduzieren, ist es notwendig vielseitige Subworteinheiten zu entwickeln, die sich zur Bildung vieler verschiedener Wörter benutzen lassen. Solche vielseitigen Subworteinheiten lassen sich jedoch häufig nicht gut verketten. Bei der Wiedergabe verketteter Subworteinheiten gibt es häufig eine merkliche Verzerrung bzw. einen Störimpuls wo Subworteinheiten zusammengefügt werden. Außerdem wird, da die Subworteinheiten in Pitch und Dauer modifiziert werden müssen, um das beabsichtigte prosodische Schema zu realisieren, eine Verzerrung am häufigsten seitens aktueller Techniken zum Erzielen dieser Modifikationen verursacht. Abschließend, da die meisten Sprachsegmente durch benachbarte Segmente stark beeinflusst werden, gibt es keinen einfachen Satz von Verkettungseinheiten (wie beispielsweise Phoneme oder Diphone), die menschliche Sprache angemessen repräsentieren können.
  • Eine Reihe von Sprachsynthesisten haben verschiedene Lösungen der obigen Verkettungsprobleme vorgeschlagen, aber bisher hat noch keiner das Problem erfolgreich gelöst. Menschliche Sprache generiert komplexe zeitlich veränderliche Wellenformen, die einfachen Signalverarbeitungslösungen trotzen.
  • Das Dokument 'New algorithm for spectral smoothing and envelope modification for LP-PS'OLA synthesis' von Gimenez de los Galanes et al (Proceedings of ICASSP94, Seiten 1–573 – 6, New York), offenbart einen concatenativen Sprachsynthesizer mit einer Datenbank, die Wellenformdaten, eine Vielheit von Verkettungseinheiten, und Filterparameterdaten, die mit der Vielheit von Verkettungseinheiten verbunden sind, ein Filterwahlsystem, einen Filterparameter-Überblendungsmechanismus, und ein Filtermodul enthält, das für einen Satz zusammengesetzter Wellenformpegelfilterdaten empfänglich ist, um synthetisierte Sprache zu generieren.
  • Das Dokument 'Improving Naturalness in Text-to-speech Synthesis using Natural Glottal Source' von Kenji Matsui et al (ICASSP1991, New York, Seiten 769–772), offenbart einen Wellenform-Überblendungsmechanismus, der eine lineare Überblendung im Zeitbereich betreibt.
  • Unsere Arbeit hat uns überzeugt, dass sich eine erfolgreiche Lösung der Verkettungsprobleme nur im Zusammenhang mit der Entdeckung eines robusten Sprachsynthesemodells ergeben wird. Außerdem werden wir einen angemessenen Satz von Verkettungseinheiten und die weitere Fähigkeit benötigen diese Einheiten dynamisch zu modifizieren, um benachbarte Segmente zu reflektieren.
  • Deshalb wird ein concatenativer Sprachsynthesizer, wie in Anspruch 1 dargelegt, bereitgestellt.
  • Spezifische Ausführungsbeispiele sind wie in den Unteransprüchen dargelegt.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm und illustriert das grundlegende Quellen-Filter-Modell mit dem die Erfindung eingesetzt werden könnte;
  • 2 ist ein Diagramm von Sprachsynthesizertechnologie und illustriert das Spektrum möglicher Quellen-Filter-Kombinationen, und weist speziell auf den Bereich hin, in dem der Synthesizer der vorliegenden Erfindung besteht;
  • 3 ist ein Flussdiagramm und illustriert die Prozedur für das Konstruieren von Wellenformdatenbanken, die in der vorliegenden Erfindung verwendet werden;
  • 4A und 4B umfassen ein Flussdiagramm, das den Syntheseprozess gemäß der Erfindung illustriert.
  • 5 ist ein Wellenformdiagramm, das die Zeitbereichsüberblendung von Quellenwellenformstückchen illustriert;
  • 6 ist ein Blockdiagramm der momentan bevorzugten Vorrichtung, die zum Praktizieren der Erfindung nützlich ist;
  • 7 ist ein Flussdiagramm, das den Prozess in Übereinstimmung mit der Erfindung illustriert.
  • Detaillierte Beschreibung des bevorzugten Ausführungsbeispiels
  • Obwohl bisher viele Sprachsynthesemodelle vorgeschlagen worden sind, haben die meisten folgende Zweikomponenten-Signalverarbeitungsstruktur gemeinsam. Wie in 1 gezeigt, lässt sich Sprache als eine anfängliche Quellenkomponente 10 modellieren, die durch eine anschließende Filterkomponente 12 verarbeitet wird.
  • Abhängig vom Modell, entweder Quelle oder Filter, können beide sehr einfach oder sehr komplex sein. Beispielsweise verkettete eine frühere Form der Sprachsynthese hoch komplizierte PCM (pulscodemodulierte) Wellenformen als Quelle mit einem sehr einfachen (Verstärkungsfaktor Eins) Filter. Im PCM-Synthesizer war alles apriorische Wissen in die Quelle und keins im Filter eingebettet. Vergleichsweise verwendete ein anderes Synthetisierverfahren eine einfache Wiederholungsimpulsfolge als Quelle und einen verhältnismäßig komplexen Filter auf der Basis von LPC (Lineare Prädiktionscodierung). Beachten Sie bitte, dass keine dieser konventionellen Synthesetechniken versuchte die physikalischen Strukturen innerhalb des menschlichen Stimmapparats zu modellieren, die für das Produzieren der menschlichen Sprache verantwortlich sind.
  • Die vorliegende Erfindung setzt ein Synthesemodell auf Formantbasis ein, das die Quellen- und Filter-Synthesizerkomponenten eng an die physikalischen Strukturen des menschlichen Stimmapparats bindet. Insbesondere basiert der Synthesizer der vorliegenden Erfindung das Quellenmodell auf eine beste Schätzung des an der Glottis produzierten Quellensignals. Genauso beruht das Filtermodell auf den mitschwingenden (Formant produzierenden) Strukturen, die sich allgemein oberhalb der Glottis befinden. Aus diesen Gründen nennen wir unsere Synthesetechnik "formantbasiert".
  • Die 2 fasst verschiedene Quellen-Filter-Kombinationen zusammen, die auf der vertikalen Achse ein relatives Maß der Komplexität der entsprechenden Quellen- oder Filterkomponente zeigen. In der 2 sind die Quellen- und Filterkomponenten als vertikale Achsen Seite-an-Seite illustriert. Entlang der Quellenachse nimmt relative Komplexität von oben nach unten ab, wogegen entlang der Filterachse relative Komplexität von oben nach untern zunimmt. Mehrere allgemein horizontale oder diagonale Linien verbinden einen Punkt auf der Quellenachse mit einem Punkt auf der Filterachse, um einen speziellen Typ von Sprachsynthesizer zu repräsentieren. Beispielsweise verbindet die horizontale Linie 14 eine ziemlich komplexe Quelle mit einem ziemlich einfachen Filter, um den TD-PSOLA Synthesizer zu definieren, ein Beispiel eines Typs gut bekannter Synthesizertechnologie, bei der eine PCM-Quellenwellenform auf einen Identitätsfilter angewandt wird. Ebenso verbindet die horizontale Linie 16 eine relativ einfache Quelle mit einem relativ komplexen Filter, um einen weiteren bekannten Synthesizer des Phasen-Vocoder, einen harmonischen Synthesizer, zu definieren. Dieser Synthesizer verwendet im Wesentlichen eine einfache Form der Impulsfolgen-Quellenwellenform und einen komplexen Filter, der konzipiert ist Spektralanalysetechniken wie beispielsweise schnelle Fourier Transformationen /Fast Fourier Transforms (FFT) zu verwenden. Der klassische LPC-Synthesizer ist durch die diagonale Linie 17 repräsentiert, die eine Impulsfolgequelle mit einem LPC-Filter verbindet. Der Klatt-Synthesizer 18 wird durch eine parametrische Quelle definiert, die durch einen Filter angewandt wird, der Formanten und Nullstellen umfasst.
  • Im Gegensatz zur vorgenannten konventionellen Synthesizertechnologie nimmt die vorliegende Erfindung eine Stelle innerhalb der 2 ein, die allgemein durch die schattierte Region 20 illustriert ist. Mit anderen Worten, die vorliegende Erfindung kann eine Quellenwellenform verwenden, die von einer reinen glottalen Quelle bis zu einer glottalen Quelle mit gegenwärtigen Nasaleffekten reicht. Der Filter kann eine einfache Formantfilterbank oder ein etwas komplizierterer Filter mit Formanten und Nullstellen sein.
  • Unserem Wissen nach hat die concatenative Synthese des Stands der Technik größtenteils die Region 20 in der 2 vermieden. Die Region 20 entspricht so nahe wie praktisch der natürlichen Trennung beim Menschen zwischen der glottalen Sprechquelle und dem Stimmapparat (Filter).
  • Wir glauben, dass Operieren in der Region 20 einige innewohnende Vorteile, auf Grund seiner zentralen Position zwischen den zwei Extremen reiner Zeitbereichsrepräsentation (wie TD-PSOLA) und der reinen Frequenzbereichsrepräsentation (wie der Phasen-Vocoder oder harmonische Synthesizer) hat.
  • Die gegenwärtig bevorzugte Implementierung unseres Synthesizers auf Formantbasis verwendet eine Technik, die einen Filter und einen Umkehrfilter einsetzt, um Quellensignal- und Formantparameter aus der menschlichen Sprache auszublenden. Die ausgeblendeten Signale und Parameter werden dann im Quellen-Filter-Modell verwendet, das der Region 20 in der 2 entspricht. Die gegenwärtig bevorzugte Prozedur für das Ausblenden von Quellen- und Filterparametern aus menschlicher Sprache wird später in dieser Spezifikation beschrieben. Die vorliegende Beschreibung wird sich auf andere Gesichtspunkte des Synthesizers auf Formantbasis konzentrieren, nämlich jene, die sich auf die Wahl concatenativer Einheiten und Überblendung beziehen.
  • Der Synthesizer der Erfindung auf Formantbasis definiert Verkettungseinheiten, die kleine Stücke digitalisierter Sprache repräsentieren, die dann – zur Wiedergabe durch ein Synthesizertonmodul – miteinander verkettet werden. Die Überblendungstechniken der Erfindung lassen sich mit Verkettungseinheiten verschiedener Größen einsetzen. Für diesen Zweck ist die Silbe eine natürliche Einheit, aber wo Speichervermögen begrenzt ist, könnte die Wahl der Silbe als grundlegende Verkettungseinheit, was die Speicheranforderungen betrifft, untragbar sein. Demzufolge verwendet die vorliegende Implementierung die Halbsilbe als grundlegende Verkettungseinheit. Ein wichtiger Teil des Synthesizers auf Formantbasis involviert das Durchführen einer Überblendung, um benachbarte Halbsilben reibungslos miteinander zu verbinden, so dass die resultierenden Silben natürlich und ohne Störimpulse oder Verzerrung klingen. Wie nachstehend ausführlicher beschrieben werden wird, führt das vorliegende System diese Überblendung sowohl im Zeitbereich als auch im Frequenzbereich durch und involviert beide Komponenten des Quellen-Filter-Modells: die Quellenwellenformen und die Formantfilterparameter.
  • Das bevorzugte Ausführungsbeispiel speichert Quellenwellenformdaten und Filterparameterdaten in einer Wellenformdatenbank. In ihrer maximalen Form speichert die Datenbank digitalisierte Sprachwellenformen und Filterparameterdaten für wenigstens ein Beispiel jeder Halbsilbe, die in der natürlichen Sprache (d. h. Englisch) vorkommt. In einer speichersparenden Form, lässt sich die Datenbank kürzen, um redundante Sprachwellenformen zu eliminieren. Weil benachbarte Halbsilben einander beachtlich beeinträchtigen können, speichert das bevorzugte System Daten für jeden begegneten unterschiedlichen Kontext.
  • 3 zeigt die gegenwärtig bevorzugte Technik für das Konstruieren der Wellenformdatenbank. In der 3 (und ebenso in den nachfolgenden 4A und 4B) sollen die Kästen mit Doppellinien-Oberkanten Überschriften von Hauptverarbeitungsblöcken darstellen. Die Kästen mit Einzellinien unterhalb dieser Überschriften repräsentieren die individuellen Schritte oder Module, die den Hauptblock umfassen, der durch den Überschriftsblock designiert ist.
  • Unter Bezugnahme auf die 3 werden Daten für die Wellenformdatenbank wie bei 40 konstruiert, indem zuerst eine Liste von Halbsilben und Grenzsequenzen wie bei Schritt 42 dargestellt zusammengestellt wird. Dies wird durch Generieren aller möglichen Kombinationen von Halbsilben (Schritt 44) und danach durch Ausschließen jeglicher unbenutzter Kombinationen wie bei 46 erzielt. Schritt 44 kann vielleicht ein rekursiver Prozess sein wodurch alle verschiedenen Permutationen von Anfangs- und Endhalbsilben generiert werden. Diese vollständige Liste aller möglichen Kombinationen wird dann gekürzt, um die Größe der Datenbank zu reduzieren. Kürzen wird in Schritt 46 erzielt, indem ein Wörterbuch 48 konsultiert wird, das phonetische Transkriptionen aller Wörter enthält, die der Synthesizer aussprechen wird. Diese phonetischen Transkriptionen werden dazu verwendet jegliche Halbsilbenkombinationen auszusondern, die nicht in den Wörtern vorkommen, die der Synthesizer aussprechen wird.
  • Das bevorzugte Ausführungsbeispiel behandelt außerdem Grenzen zwischen Silben, wie beispielsweise solchen, die über Wortgrenzen oder Satzgrenzen auftreten. Diese Grenzeinheiten (häufig Konsonanten-Cluster) werden aus Diphonen konstruiert, die dem korrekten Text als Probe entnommen wurden. Eine Art, unbenutzte Kombinationen von Grenzeinheiten auszuschließen, ist einen Textkörper 50 bereitzustellen, der beispielhafte Sätze enthält, die mittels der im Wörterbuch 48 gefundenen Worte gebildet wurden. Diese Sätze werden dazu verwendet verschiedene Wortgrenzkontexte so zu definieren, dass Kombinationen von Grenzeinheiten, die im Textkörper nicht gefunden werden, bei Schritt 46 ausgeschlossen werden können.
  • Nach dem die Liste von Halbsilben und Grenzeinheiten zusammengestellt und gekürzt worden ist, werden die abgetasteten Wellenformdaten, die zu jeder Halbsilbe gehören, aufgezeichnet und bei Schritt 52 etikettiert. Dies macht die Anwendung phonetischer Markierer am Anfang und Ende des relevanten Teils jeder Halbsilbe, wie bei Schritt 54 angezeigt, erforderlich. Im Wesentlichen werden die relevanten Teile der abgetasteten Wellenformdaten ausgeblendet und etikettiert, indem man die herausgezogenen Teile mit der entsprechenden Halbsilbe oder Grenzeinheit verbindet, aus der die Probe abgeleitet wurde.
  • Der nächste Schritt involviert das Ausblenden von Quellen- und Filterdaten aus den etikettierten Wellenformdaten wie es im Allgemeinen bei Schritt 56 dargestellt ist. Der Schritt 56 involviert eine Technik, die nachstehend ausführlicher beschrieben ist, bei der tatsächliche menschliche Sprache, unter Benutzung einer Kostenfunktion, die hilft ein innewohnendes Quellensignal und Filterparameter aus jeden der etikettierten Wellenformdaten auszublenden, durch einen Filter und Umkehrfilter verarbeitet wird. Die ausgeblendeten Quellen- und Filterdaten werden dann bei Schritt 58 in der Wellenformdatenbank 60 gespeichert. Die maximale Wellenformdatenbank 60 enthält somit Quellendaten (Wellenform) und Filterparameterdaten für jede der etikettierten Halbsilben und Grenzeinheiten. Sobald die Wellenformdatenbank konstruiert worden ist, kann jetzt der Synthesizer verwendet werden.
  • Zur Verwendung des Synthesizers wird eine Eingabekette wie bei 62 in der 4a bereitgestellt. Die Eingabekette kann eine Phonemkette, die eine Phrase oder einen Satz repräsentiert, wie es bei 64 diagrammatisch gezeigt ist, sein. Die Phonemkette kann ausgerichtete Intonationsmuster 66 und Silbendauerinformation 68 einschließen. Die Intonationsmuster und Dauerinformation liefern Verslehreninformation, die der Synthesizer verwenden kann, um Pitch und Dauer von Silben selektiv zu ändern, um der Phrase oder dem Satz einen mehr natürlichen menschenähnlichen Tonfall zu geben.
  • Die Phonemkette wird durch eine Reihe von Schritten verarbeitet, wodurch Information aus der Wellenformdatenbank 60 ausgeblendet und durch den Überblendungsmechanismus vervollständigt wird. Zunächst wird, wie durch den Überschriftsblock 70 angezeigt, Einheitsselektion durchgeführt. Dies ist mit dem Anwenden von Kontextregeln wie bei 72, verbunden, um zu bestimmen welche Daten der Wellenformdatenbank 60 entnommen werden sollen. Die bei 74 diagrammatisch dargestellten Kontextregeln spezifizieren welche Halbsilben oder Grenzeinheiten unter bestimmten Bedingungen aus der Datenbank auszublenden sind. Wenn, beispielsweise, die Phonemkette eine Halbsilbe verlangt, die in der Datenbank direkt repräsentiert ist, so wird jene Halbsilbe selektiert. Die Kontextregeln berücksichtigen die Halbsilben benachbarter Klangeinheiten bei Selektionen aus der Wellenformdatenbank. Falls die erforderliche Halbsilbe nicht direkt in der Datenbank repräsentiert ist, so werden die Kontextregeln die beste Annäherungen die benötigte Halbsilbe spezifizieren. Die Kontextregeln sind konzipiert die Halbsilben zu selektieren, die nach Verketten am natürlichsten klingen werden. Daher beruhen die Kontextregeln auf linguistischen Grundsätzen.
  • Zur Illustration: Falls der erforderlichen Halbsilbe ein stimmhafter bilabialer Stopp (d. h., /b/) im synthetisierten Wort vorausgeht, die Halbsilbe aber in einem solchen Kontext nicht in der Datenbank gefunden wird, werden die Kontextregeln den nächst wünschenswerten Kontext spezifizieren. In diesem Fall, können die Regeln vielleicht ein Segment wählen, dem ein anderer Bilabiallaut, wie beispielsweise /p/, vorausgeht.
  • Als nächstes baut der Synthesizer eine akustische Kette von Silbenobjekten, die der als Eingabe bereitgestellten Phonemkette entsprechen. Dieser Schritt wird im Allgemeinen bei 76 angezeigt und ist mit dem Konstruieren von Quellendaten für die Kette von Halbsilben, wie bei der Einheitsselektion spezifiziert, verbunden. Diese Quellendaten entsprechen der Quellenkomponente des Quellen-Filter-Modells. Filterparameter werden ebenso aus der Datenbank ausgeblendet und manipuliert, um die akustische Kette zu bauen. Die Details der Filterparametermanipulation werden nachstehend ausführlicher erörtert. Das gegenwärtig bevorzugte Ausführungsbeispiel definiert die Kette von Silbenobjekten als eine verkettete Liste von Silben 78, die ihrerseits eine verkettete Liste von Halbsilben 80 umfasst. Die Halbsilben enthalten Wellenformstückchen 82, die aus der Wellenformdatenbank 60 beschafft wurden.
  • Sobald die Quellendaten erstellt worden sind, wird eine Reihe von Vervollständigungsschritten ausgeführt, um die Quellendaten im Zeitbereich zu überblenden und die Filterparameter unabhängig im Frequenzbereich zu überblenden. Die im Zeitbereich angewandten Vervollständigungsschritte beginnen bei Schritt 134 zu erscheinen. Die im Frequenzbereich angewandten Vervollständigungsschritte beginnen bei Schritt 110 (4B) zu erscheinen.
  • Die 5 illustriert die gegenwärtig bevorzugte Technik für das Durchführen einer Überblendung der Quellendaten im Zeitbereich. Unter Bezugnahme auf die 5 besteht eine Silbe der Dauer S aus Anfangs- und Endhalbsilben der Dauer A und B. Die Wellenformdaten der Halbsilbe A erscheinen bei 86 und die Wellenformdaten der Halbsilbe B erscheinen bei 88. Diese Wellenformstückchen werden so in Position geschoben (zeitlich arrangiert), dass beide Halbsilben in die Silbendauer S passen. Beachten Sie, dass zwischen Halbsilben A und B etwas Überlappung vorhanden ist.
  • Der Überblendungsmechanismus des bevorzugten Ausführungsbeispiels für eine lineare Überblendung im Zeitbereich durch. Dieser Mechanismus ist diagrammatisch bei 90 illustriert, wobei die lineare Überblendungsfunktion bei 92 repräsentiert wird. Beachten Sie, das bei Zeit = t0 die Halbsilbe A volle Betonung erhält, während die Halbsilbe B Null-Betonung erhält. Sowie die Zeit auf tS fortschreitet, wird die Betonung der Halbsilbe A allmählich reduziert, während die Betonung der Halbsilbe B allmählich erhöht wird. Dieses führt, wie bei 94 illustriert, zu einer zusammengesetzten oder überblendeten Wellenform für die ganze Silbe S.
  • Indem wir jetzt auf die 4B Bezug nehmen, wird ein separater Überblendungsprozess an den Filterparameterdaten ausgeführt, die zu den ausgeblendeten Halbsilben gehören. Die Prozedur beginnt mit der Anwendung der Filterselektionsregeln 98, um Filterparameterdaten aus der Datenbank 60 zu erhalten. Falls die angeforderte Silbe in einer Silben-Ausnahmenkomponente der Datenbank 60 direkt repräsentiert ist, so werden die jener Silbe entsprechenden Filterdaten wie bei Schritt 100 benutzt. Als Alternative, wenn die Filterdaten nicht als eine volle Silbe direkt in der Datenbank repräsentiert sind, werden neue Filterdaten wie bei Schritt 102, durch Anwendung eines Überblendungsvorgangs auf Daten von zwei Halbsilben im Frequenzbereich, generiert. Der Überblendungsvorgang ist mit dem Selektieren einer Überblendungsregion, über welche die Filterparameter aufeinander folgender Halbsilben überblendet werden, und dann mit der Anwendung einer geeigneten Überblendungsfunktion wie bei 106 verbunden. Die Überblendungsfunktion wird im Filterbereich angewandt und ist eine Sigmafunktion. Ob vom Silben-Ausnahmekomponenten der Datenbank direkt abgeleitet (wie bei Satz 100) oder durch den Überblendungsvorgang generiert, werden die Filterparameterdaten bei 108, zur späteren Verwendung im Synthesizer des Quellen-Filter-Modells, gespeichert.
  • Selektieren der geeigneten Überblendungsregion ist datenabhängig. Das Ziel der Durchführung von Überblendung im Frequenzbereich ist unerwünschte Störimpulse oder Resonanzen zu eliminieren ohne wichtige Diphthonge zu degradieren. Um dies zu erreichen müssen Überblendungsregionen identifiziert werden, in denen die Trajektorien der zusammenzusetzenden Spracheinheiten so ähnlich wie möglich sind. Beispielsweise könnten, bei der Konstruktion des Worts "house", zweisilbige Filtereinheiten für /haw/- und -/aws/ mit Überlappung in der Kernregion /a/ verkettet werden.
  • Sobald die Quellendaten und Filterdaten erstellt und gemäß den vorhergehenden Schritten vervollständigt worden sind, werden sie wie bei 110 an die jeweilige Quellenwellenformdatenbank 112 und Filterparameterdatenbank 114 zur Verwendung durch den Synthesizer 116 des Quellen-Filter-Modells ausgegeben, um synthetisierte Sprache auszugeben.
  • Quellensignal- und Filterparameterausblendung
  • Die 6 illustriert ein erfindungsgemäßes System durch das die Quellenwellenform aus einem komplexen Eingabesignal ausgeblendet werden kann. Ein Filter-/Umkehrfilterpaar kommt beim Ausblendprozess zur Verwendung.
  • In der 6, wird der Filter 110 durch sein Filtermodell 112 und Filterparameter 114 definiert. Die vorliegende Erfindung setzt außerdem einen Umkehrfilter 116 ein, welcher der Umkehrung des Filters 110 entspricht. Der Filter 116 würde, beispielsweise, dieselben Filterparameter wie der Filter 110 haben, würde aber an jeder Stelle wo der Filter 110 Pole hat, Nullstellen substituieren. Deshalb definieren der Filter 110 und der Umkehrfilter 116 ein reziprokales System, in dem der Effekt des Umkehrfilters 116 durch den Effekt des Filters 110 negiert oder umgekehrt wird. Deshalb resultiert, wie as illustriert, eine Spracheingabewellenform in den Umkehrfilter 116 und nachfolgende Verarbeitung durch den Filter 110 in einer Ausgabewellenform die, theoretisch, der Eingabewellenform identisch ist. In der Praxis würden geringfügige Variationen an Filtertoleranz oder geringfügige Differenzen zwischen Filtern 116 und 110 zu einer Ausgabewellenform führen, die etwas vom identischen Gegenstück der Eingabewellenform abweicht.
  • Wenn eine Sprachwellenform (oder andere komplexe Wellenform) durch den Umkehrfilter 116 verarbeitet wird, wird das Ausgaberestsignal bei Knoten 120 durch Anwendung einer Kostenfunktion 122 verarbeitet. Allgemein gesprochen analysiert diese Kostenfunktion das Restsignal gemäß einer oder mehreren einer Vielheit von Verarbeitungsfunktionen, die nachstehend ausführlicher beschrieben sind, um einen Kostenparameter zu produzieren. Der Kostenparameter wird dann in anschließenden Verarbeitungsschritten dazu verwendet Filterparameter 114 einzustellen, um zu versuchen den Kostenparameter zu minimieren. In der 1 repräsentiert der Kostenminimierblock 124 diagrammatisch den Prozess durch den Filterparameter selektiv eingestellt werden, um eine resultierende Verringerung im Kostenparameter zu produzieren. Dies könnte iterativ unter Verwendung eines Algorithmus durchgeführt werden, der Filterparameter, während der Suche der Minimumkosten, inkremental eingestellt.
  • Sobald die Minimumkosten erzielt worden sind, kann das resultierende Restsignal bei Knoten 120 dann dazu verwendet werden ein ausgeblendetes Quellensignal für nachfolgende Quellen-Filter-Modellsynthese zu repräsentieren. Die, die Minimumkosten produzierenden, Filterparameter 114 werden dann als die Filterparameter zum Definieren des Filters 110 zur Verwendung in nachfolgender Quellen-Filter-Modelsynthese benutzt werden.
  • Die 7 illustriert den Prozess, durch den das Quellensignal ausgeblendet wird und die Filterparameter identifiziert werden, um ein erfindungsgemäßes Quellen-Filter-Modellsynthesesystem zu erzielen.
  • Zunächst wird bei Schritt 150 ein Filtermodell definiert. Jedes passende Filtermodell, das sich für eine parametrisierte Repräsentation eignet, lässt sich benutzen. Ein anfänglicher Satz von Parametern wird dann bei Schritt 152 bereitgestellt. Beachten Sie, dass der anfängliche Satz von Parametern in nachfolgenden Schritten iterativ geändert werden wird, um die Parameter zu suchen, die einer minimierten Kostenfunktion entsprechen. Es können verschiedene Techniken verwendet werden, um eine, einem lokalen Minima entsprechende, suboptimale Lösung zu vermeiden. Beispielsweise lässt sich der anfängliche Satz der bei Schritt 152 verwendeten Parameter aus einem Satz oder einer Matrix von Parametern selektieren, die konzipiert sind mehrere verschiedene Startpunkte bereitzustellen, um die lokalen Minima zu vermeiden. Deshalb ist in der 7 zu beachten, dass der Schritt 152 viele Male für verschiedene anfängliche Sätze von Parametern ausgeführt werden kann.
  • Das bei 150 definierte Filtermodell und der bei 152 definierte anfängliche Satz von Parametern werden dann bei Schritt 154 dazu verwendet einen Filter (wie bei 156) und einen Umkehrfilter (wie bei 158) zu konstruieren.
  • Als nächstes wird das Sprachsignal bei 160 am Umkehrfilter angewandt, um ein Restsignal wie bei 164 auszublenden. Wie illustriert, verwendet das bevorzugte Ausführungsbeispiel ein Hanning-Fenster, das sich auf die gegenwärtige Pitch-Epoche zentriert und eingestellt wird, so dass es Zwei-Pitch-Perioden deckt. Andere Fenster sind ebenfalls möglich. Das Restsignal wird danach bei 166 verarbeitet, um Datenpunkte zur Verwendung in einer Bogenlängenkalkulation auszublenden.
  • Das Restsignal kann zum Ausblenden der Datenpunkte auf verschiedene Arten verarbeitet werden. Wie bei 168 illustriert, kann sich die Prozedur auf eine oder mehrere einer selektierten Klasse von Verarbeitungsroutinen verzweigen. Beispiele solcher Routinen sind bei 170 illustriert. Als nächstes wird die Kalkulation für Bogenlänge (oder Rechtecklänge) bei 172 ausgeführt. Der resultierende Wert dient als ein Kostenparameter.
  • Nach dem Kalkulieren der Kostenparameter für den anfänglichen Satz von Filterparametern, werden die Filterparameter bei Schritt 174 selektiv eingestellt und die Prozedur wird iterativ, wie bei 176 dargestellt, wiederholt bis die Minimumkosten erzielt sind.
  • Sobald die Minimumkosten erzielt sind, wird das ausgeblendete, jenen Minimumkosten entsprechende, Restsignal bei Schritt 178 als das Quellensignal verwendet. Die zu den Minimumkosten gehörigen Filterparameter werden als die Filterparameter (Schritt 180) in einem Quellen-Filter-Modell benutzt.
  • Für weitere Details hinsichtlich Quellensignal- und Filterparameterausblendung, ist auf das U.S.-Patent "Method and Apparatus to Extract Formant-Based Source-Filter Data for Coding and Synthesis Employing Cost Function and Inverse Filtering," Veröffentlichungsnummer US-B-6 195 632, veröffentlicht 27.02.2001 von Steve Pearson und übertragen auf den Rechtsnachfolger der vorliegenden Erfindung, Bezug zu nehmen.
  • Obwohl die Erfindung in ihrem gegenwärtig bevorzugtem Ausführungsbeispiel beschrieben worden ist, wird mit einbegriffen sein, dass die Erfindung gewisser Modifikation fähig ist, ohne vom Umfang der Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.

Claims (5)

  1. Ein verkettender Sprachsynthesizer, der umfasst: eine Datenbank (60), die (a) mit einer Vielheit von Halbsilben verbundene Halbsilben-Wellenformdaten und (b) mit besagter Vielheit von Halbsilben verbundene Filterparameterdaten enthält; ein Einheitsauswahlsystem (70) zum Extrahieren von ausgewählten Halbsilben-Wellenformdaten und Filterparametern aus besagter Datenbank, die einer zu synthetisierenden Eingabekette entsprechen; einen Wellenform-Überblendungsmechanismus (102) zum Verbinden von Paaren extrahierten Halbsilben-Wellenformdaten in Silben-Wellenformsignale; gekennzeichnet durch einen Filterparameter-Überblendungsmechanismus (106) zum Definieren eines Satzes von Filterdaten auf Silbenebene durch Ausführen sigmoidaler Interpolation zwischen den betreffenden extrahierten Filterparametern (108) von 2 Halbsilben; und ein Filtermodul (110, 112, 114, 116), das für besagten Satz von Filterdaten auf Silbenebene aufnahmebereit und funktionsfähig ist, besagte Silben-Wellenformsignale zu verarbeiten, um synthetische Sprache zu generieren.
  2. Der Synthesizer des Anspruchs 1, wobei besagter Wellenform-Überblendungsmechanismus im Zeitbereich arbeitet.
  3. Der Synthesizer des Anspruchs 1, wobei besagter Filterparameter-Überblendungsmechanismus im Frequenzbereich arbeitet.
  4. Der Synthesizer des Anspruchs 1, wobei besagter Wellenform-Überblendungsmechanismus eine lineare Überblendung auf zwei Halbsilben über eine festgelegte Dauer, die einer Silbe entspricht, ausführt.
  5. Der Synthesizer des Anspruchs 1, worin besagter Filterparameter-Überblendungsmechanismus zwischen den betreffenden extrahierten Filterparametern von zwei Halbsilben interpoliert.
DE69909716T 1998-11-25 1999-11-22 Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich Expired - Fee Related DE69909716T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/200,327 US6144939A (en) 1998-11-25 1998-11-25 Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US200327 1998-11-25

Publications (2)

Publication Number Publication Date
DE69909716D1 DE69909716D1 (de) 2003-08-28
DE69909716T2 true DE69909716T2 (de) 2004-08-05

Family

ID=22741247

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69909716T Expired - Fee Related DE69909716T2 (de) 1998-11-25 1999-11-22 Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich

Country Status (5)

Country Link
US (2) US6144939A (de)
EP (2) EP1347440A3 (de)
JP (1) JP3408477B2 (de)
DE (1) DE69909716T2 (de)
ES (1) ES2204071T3 (de)

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP3361291B2 (ja) * 1999-07-23 2003-01-07 コナミ株式会社 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7941481B1 (en) 1999-10-22 2011-05-10 Tellme Networks, Inc. Updating an electronic phonebook over electronic communication networks
US6807574B1 (en) 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6847931B2 (en) 2002-01-29 2005-01-25 Lessac Technology, Inc. Expressive parsing in computerized conversion of text to speech
US7308408B1 (en) * 2000-07-24 2007-12-11 Microsoft Corporation Providing services for an information processing system using an audio interface
US7143039B1 (en) 2000-08-11 2006-11-28 Tellme Networks, Inc. Providing menu and other services for an information processing system using a telephone or other audio interface
US7451087B2 (en) * 2000-10-19 2008-11-11 Qwest Communications International Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6990449B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. Method of training a digital voice library to associate syllable speech items with literal text syllables
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
JP3901475B2 (ja) * 2001-07-02 2007-04-04 株式会社ケンウッド 信号結合装置、信号結合方法及びプログラム
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
GB2392592B (en) * 2002-08-27 2004-07-07 20 20 Speech Ltd Speech synthesis apparatus and method
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
CN1604077B (zh) 2003-09-29 2012-08-08 纽昂斯通讯公司 对发音波形语料库的改进方法
US7571104B2 (en) 2005-05-26 2009-08-04 Qnx Software Systems (Wavemakers), Inc. Dynamic real-time cross-fading of voice prompts
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8024193B2 (en) * 2006-10-10 2011-09-20 Apple Inc. Methods and apparatus related to pruning for concatenative text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101281744B (zh) 2007-04-04 2011-07-06 纽昂斯通讯公司 语音分析方法和装置以及语音合成方法和装置
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8332215B2 (en) * 2008-10-31 2012-12-11 Fortemedia, Inc. Dynamic range control module, speech processing apparatus, and method for amplitude adjustment for a speech signal
US20100131268A1 (en) * 2008-11-26 2010-05-27 Alcatel-Lucent Usa Inc. Voice-estimation interface and communication system
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8559813B2 (en) 2011-03-31 2013-10-15 Alcatel Lucent Passband reflectometer
US8666738B2 (en) 2011-05-24 2014-03-04 Alcatel Lucent Biometric-sensor assembly, such as for acoustic reflectometry of the vocal tract
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
EP2634769B1 (de) * 2012-03-02 2018-11-07 Yamaha Corporation Tongenerierungsvorrichtung und Tongenerierungsverfahren
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP2954514B1 (de) 2013-02-07 2021-03-31 Apple Inc. Sprachtrigger für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
JPS62100027A (ja) * 1985-10-28 1987-05-09 Hitachi Ltd 音声符号化方式
JPS62102294A (ja) 1985-10-30 1987-05-12 株式会社日立製作所 音声符号化方式
JPS62194296A (ja) * 1986-02-21 1987-08-26 株式会社日立製作所 音声符号化方式
JPH0638192B2 (ja) 1986-04-24 1994-05-18 ヤマハ株式会社 楽音発生装置
JPS63127630A (ja) * 1986-11-18 1988-05-31 Hitachi Ltd 音声圧縮処理装置
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
JP3175179B2 (ja) * 1991-03-19 2001-06-11 カシオ計算機株式会社 デジタルピッチシフター
JPH06175692A (ja) 1992-12-08 1994-06-24 Meidensha Corp 音声合成装置のデータ接続方法
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JPH07177031A (ja) 1993-12-20 1995-07-14 Fujitsu Ltd 音声符号化制御方式
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
JP2976860B2 (ja) * 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
SG65729A1 (en) * 1997-01-31 1999-06-22 Yamaha Corp Tone generating device and method using a time stretch/compression control technique
US6041300A (en) * 1997-03-21 2000-03-21 International Business Machines Corporation System and method of using pre-enrolled speech sub-units for efficient speech synthesis
US6119086A (en) * 1998-04-28 2000-09-12 International Business Machines Corporation Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
DE69940747D1 (de) * 1998-11-13 2009-05-28 Lernout & Hauspie Speechprod Sprachsynthese mittels Verknüpfung von Sprachwellenformen
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US6496801B1 (en) * 1999-11-02 2002-12-17 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing concatenated prosodic and acoustic templates for phrases of multiple words

Also Published As

Publication number Publication date
EP1347440A3 (de) 2004-11-17
EP1347440A2 (de) 2003-09-24
EP1005017A2 (de) 2000-05-31
JP3408477B2 (ja) 2003-05-19
ES2204071T3 (es) 2004-04-16
US6144939A (en) 2000-11-07
JP2000172285A (ja) 2000-06-23
EP1005017A3 (de) 2000-12-20
USRE39336E1 (en) 2006-10-10
DE69909716D1 (de) 2003-08-28
EP1005017B1 (de) 2003-07-23

Similar Documents

Publication Publication Date Title
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69826446T2 (de) Stimmumwandlung
DE69933188T2 (de) Verfahren und Vorrichtung für die Extraktion von Formant basierten Quellenfilterdaten unter Verwendung einer Kostenfunktion und invertierte Filterung für die Sprachkodierung und Synthese
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69917960T2 (de) Phonembasierte Sprachsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
WO2000016310A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE3232835C2 (de)
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät
WO2001015138A1 (de) Digitales sprachsyntheseverfahren mit intonationsnachbildung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee