DE60118874T2 - Prosodiemustervergleich für Text-zu-Sprache Systeme - Google Patents

Prosodiemustervergleich für Text-zu-Sprache Systeme Download PDF

Info

Publication number
DE60118874T2
DE60118874T2 DE60118874T DE60118874T DE60118874T2 DE 60118874 T2 DE60118874 T2 DE 60118874T2 DE 60118874 T DE60118874 T DE 60118874T DE 60118874 T DE60118874 T DE 60118874T DE 60118874 T2 DE60118874 T2 DE 60118874T2
Authority
DE
Germany
Prior art keywords
prosody
pattern
template
syllable
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60118874T
Other languages
English (en)
Other versions
DE60118874D1 (de
Inventor
Nicholas Mountain View Kibre
Ted H. Santa Barbara Applebaum
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60118874D1 publication Critical patent/DE60118874D1/de
Application granted granted Critical
Publication of DE60118874T2 publication Critical patent/DE60118874T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Generieren von Prosodieinformationen zur Verwendung in einem Text-Sprachsynthetisatorsystem, welches folgende Schritte umfasst: Entgegennehmen einer Eingabetextfolge und Bestimmen eines der Eingabetextfolge zugehörigen Musters aus prosodischen Merkmalen.
  • Text-Sprachsynthetisatorsysteme wandeln zeichenbasierten Text (zum Beispiel maschinengeschriebenen Text) in synthetisierte gesprochene Audioinhalte um. Text-Sprachsynthetisatorsysteme werden in verschiedenen kommerziellen Anwendungen und Produkten für Endverbraucher benutzt, darunter etwa Telefon- und Voicemail-Bedienerführungen, Fahrzeugnavigationssysteme, automatisierte Rundfunkübertragungssysteme u.dgl.m.
  • Es sind verschiedene Methoden zum Generieren von Sprache aus bereitgestelltem Eingabetext bekannt. Einige Systeme benutzen einen modellbasierten Ansatz, bei welchem die Resonanzeigenschaften des menschlichen Vokaltrakts und die impulsartige Wellenform der menschlichen Glottis modelliert, parametrisiert und dann zur Simulation der Klänge natürlicher menschlicher Sprache benutzt werden. Andere Systeme benutzen kurze, digital aufgezeichnete Proben wirklicher menschlicher Sprache, die dann sorgfältig ausgewählt und aneinander gehängt werden, um gesprochene Wörter und Phrasen zu bilden, wenn die aneinander gehängten Folgen wiedergegeben werden.
  • In mehr oder weniger großem Ausmaße klingen alle aktuellen Synthesemethoden unnatürlich, sofern nicht Prosodieinformationen hinzugenommen werden. Prosodie bezeichnet die rhythmischen und intonationalen Gesichtspunkte einer gesprochenen Sprache. Wenn ein menschlicher Sprecher eine Phrase oder einen Satz ausspricht, setzt der Sprecher für gewöhnlich und ganz natürlich auf bestimmten Worten oder Phrasen Betonungen, um zu unterstreichen, was von dem Ausgesprochenen gemeint ist. Eine Text-Sprachsynthetisatorvorrichtung kann große Schwierigkeiten damit haben, den natürlichen Fluss und Tonfall der von einem Menschen gesprochenen Phrase oder des von einem Menschen gesprochenen Satzes zu simulieren, da nicht immer aus dem Text allein auf den angemessenen Tonfall geschlossen werden kann.
  • Wenn beispielsweise ein menschlicher Sprecher Anweisungen an einen Fahrer erteilt und ihn anweist, an der nächsten Kreuzung abzubiegen, könnte er sagen: „HIER abbiegen", und dabei könnte er das Wort „hier" betonen, um eine gewisse Dringlichkeit zum Ausdruck zu bringen. Eine Text-Sprachsynthetisatorvorrichtung, die einfach in Reaktion auf maschinengeschriebenen Eingabetext synthetisierte Sprache liefert, wüsste nicht, ob eine gewisse Dringlichkeit gerechtfertigt wäre oder nicht. Die Vorrichtung würde daher auf keinem der Wörter eine im Vergleich zum jeweils anderen Wort besondere Betonung setzen. Im Vergleich zu menschlicher Sprache neigte synthetisierte Sprache bisher dazu, eintöniger und monotoner zu klingen.
  • Im Rahmen von Anstrengungen, synthetisierter Sprache mehr Realität zu verleihen, ist es nun möglich, den Text-Sprachsynthetisator mit zusätzlichen Prosodieinformationen zu versehen, die dazu benutzt werden, die Art, auf welche die Synthetisatorausgabe generiert wird, abzuändern, um der sich ergebenden Sprache einen natürlicheren Rhythmikgehalt und eine natürlichere Intonation zu verleihen.
  • Bei einem typischen Sprachsynthetisator wirken sich Prosodieinformationen auf die Tonhöhenkonturen und/oder auf die Werte für die Dauer der Klänge aus, die als Antwort auf die Texteingabe generiert werden. Bei natürlicher Sprache erzeugt man betonte Silben, indem man die Tonhöhe seiner Stimme erhöht und/oder die Dauer des Vokalabschnitts der betonten Silbe verlängert. Indem er ebendiese Operationen durchführt, kann der Text-Sprachsynthetisator die Prosodie menschlicher Sprache nachahmen.
  • In der EP-A-1 100 072 wird ein Sprachsynthesesystem offenbart, bei welchem prosodische Informationen aus wirklicher Sprache extrahiert werden, die in Korrelation mit einer Phonemfolge und einer Position einer Betonung in einer Datenbank mit prosodischen Informationen gespeichert ist. Eine Sektion zum Abrufen prosodischer Informationen ruft auf Basis der Phonemfolge, bei der es sich um die einem Eingabetext entsprechende Ausgabe einer Sprachverarbeitungssektion handelt, prosodische Informationen mit minimalen Approximationskosten aus der Datenbank mit prosodischen Informationen ab. Eine Sektion zur Transformation prosodischer Informationen transformiert die abgerufenen prosodischen Informationen gemäß den Approximationskosten und den Transformationsregeln, die in einem Speicherabschnitt für Regeln zur Transformation prosodischer Informationen gespeichert sind. Gemäß der Transformation erzeugt ein elektroakustischer Wandler die synthetisierte Sprache.
  • Ein identifiziertes Problem besteht darin, dass es in dem Maße, wie die Größe der Sprachdomäne anwächst, zunehmend kostspielig wird, das erforderliche Datenvolumen zu speichern.
  • Gemäß der Erfindung werden geschaffen: ein Verfahren, wie in Anspruch 1 dargelegt, und ein System, wie in Anspruch 7 dargelegt. Ausführungsformen werden in den abhängigen Ansprüchen dargelegt.
  • Die Erfindung wird nun ausschließlich beispielhaft anhand der beigefügten Zeichnungen beschrieben. Es zeigen:
  • 1 einen Datenstrukturplan, welcher die vorliegend bevorzugten Datenstrukturen für den Prosodieschablonenabgleich veranschaulicht,
  • 2 ein Diagramm, das zeigt, wie in einer bevorzugten Ausführungsform Betonungsmuster für Wörter transkribiert und dargestellt werden,
  • 3 einen beispielhaften Schablonen-Verweisbaum, der zeigt, wie Wörter mit zwei Betonungsstufen dargestellt würden,
  • 4 einen ähnlichen Schablonen-Verweisbaum, der zeigt, wie Wörter mit drei Betonungsstufen dargestellt würden,
  • 5 ein Schablonenabgleichdiagramm, welches zeigt, wie ein beispielhaftes englisches Wort „avenue" unter Verwendung der Erfindung verarbeitet würde, und
  • 6 ein Schablonenabgleichdiagramm, welches veranschaulicht, wie die beispielhaften englischen Worte „Santa Clarita" unter Verwendung der Erfindung verarbeitet würden.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Es wird auf 1 und 2 Bezug genommen. Das System zum Prosodieschablonenabgleich der Erfindung stellt Betonungsmuster in Worten in einer Baumstruktur wie etwa dem Baum 10 dar. Die vorliegend bevorzugte Baumstruktur ist eine binäre Baumstruktur mit einem Wurzelknoten 12, unterhalb dessen Paare aus Tochterknoten, Enkelknoten usw. gruppiert sind. Die Knoten stellen unterschiedliche Betonungsmuster dar, die dem entsprechen, wie Silben betont werden, wenn das Wort oder die Phrase ausgesprochen wird.
  • Es wird auf 2 Bezug genommen, in welcher eine beispielhafte Wortliste zusammen mit den entsprechenden Betonungsmustern und prosodischen Transkriptionen für die einzelnen Wörter gezeigt ist. Zum Beispiel weist das englische Wort „Catalina" auf der dritten Silbe seine stärkste Betonung und auf der ersten Silbe eine weitere Nebenbetonung auf. Zur besseren Veranschaulichung wurden Zahlen verwendet, um verschiedene Betonungsstufen zu bezeichnen, die auf Silben angewandt werden, wobei „0" einer unbetonten Silbe, „1" einer stark betonten Silbe und „2" einer weniger stark betonten Silbe entspricht. Zwar werden hier numerische Darstellungen benutzt, um unterschiedliche Betonungsstufen zu bezeichnen, doch es versteht sich, dass auch andere Darstellungen benutzt werden können, um die Erfindung in der Praxis auszuführen. Außerdem konzentriert sich diese Beschreibung zwar primär auf die Betonung, die auf eine Silbe angewandt wird, doch können mit denselben, hier beschriebenen Methoden auch andere prosodische Merkmale dargestellt werden.
  • Es wird auf 1 Bezug genommen. Der Baum 10 dient als Komponente in dem Mechanismus zum Nachschlagen von Prosodiemustern, durch welchen Betonungsmuster auf die Ausgabe des Text-Sprachsynthetisators 14 angewandt werden. Text wird in das Textanalysemodul 14 eingegeben, welches Datenfolgen bestimmt, die schließlich dem Klangerzeugungsmodul 16 zugeführt werden. Teil dieser während der Textanalyse gefundenen Daten ist die silbenweise Gruppierung von Klängen und die Zuordnung von Betonungsstufen zu den einzelnen Silben. Dieses Muster aus silbenweise zugeordneten Betonungen wird von dem Prosodiemodul 18 benutzt, um auf prosodische Informationen zuzugreifen. Wie zuvor erörtert, sind prosodische Modifikationen, wie etwa das Ändern der Tonhöhenkontur und/oder der Dauer von Phonemen, erforderlich, um die Art und Weise zu simulieren, in welcher ein menschlicher Sprecher das Wort oder die Phrase im Kontext aussprechen würde. Der Text-Sprachsynthetisator und sein zugehöriges Wiedergabemodul und Prosodiemodul können auf einer beliebigen aus einer Vielzahl unterschiedlicher Synthesemethoden beruhen, darunter etwa Konkatenationssynthese und modellbasierte Synthese (z.B. Synthese auf Basis des Primärklangmodells).
  • Das Prosodiemodul modifiziert die Datenfolge, die von dem Text-Sprachsynthetisator 14 ausgegeben wird, basierend auf Prosodieinformationen, die in einer Verweistabelle 20 gespeichert sind. In der dargestellten Ausführungsform enthält Tabelle 20 sowohl Informationen zur Modifikation der Tonhöhe (in Spalte 22) als auch Informationen zur Modifikation der Dauer in Spalte 24. Natürlich können stattdessen in Abhängigkeit vom Typ des benutzten Text-Sprachsynthetisators andere Arten von Prosodieinformationen benutzt werden. Die Tabelle 20 enthält Prosodieinformationen (Tonhöhe und Dauer) für jedes aus einer Vielzahl unterschiedlicher Betonungsmuster, die in Spalte 26 gezeigt sind. Zum Beispiel könnten die Informationen zur Modifikation der Tonhöhe eine Liste mit Ganzzahlen oder Gleitkommazahlen umfassen, die benutzt werden, um die Höhe und die zeitliche Entwicklung der von dem Synthetisator benutzten Tonhöhe anzupassen. Um widerzuspiegeln, ob der Sprecher männlich oder weiblich ist, können jeweils unterschiedliche Anpassungswerte benutzt werden. Auf gleiche Weise können Informationen zur Dauer Ganzzahl- oder Gleitkommawerte umfassen, die anzeigen, um wie viel die Wiedergabedauer ausgewählter Klänge (in der Regel die Vokalklänge) ausgedehnt werden soll. Das dem Prosodiemodul 18 zugehörige Modul 28 zum Nachschlagen von Prosodiemustern greift auf den Baum 10 zu, um Zeiger in die Tabelle 20 zu erhalten, und ruft daraufhin die Informationen zur Tonhöhe und Dauer für das entsprechende Muster ab, so dass diese vom Prosodiemodul 18 benutzt werden können. Es versteht sich, dass der in 1 dargestellte Baum 10 stark gekürzt wurde, damit er auf die Seite passt. Bei einer wirklichen Ausführungsform enthalten der Baum 10 und seine zugehörige Tabelle 20 typischerweise mehr Knoten und mehr Tabelleneinträge. In dieser Hinsicht zeigt 3 die ersten drei Ebenen eines beispielhaften Baumes 10a, der typisch für ein Schablonensystem sein könnte, das zwei Betonungsstufen (betont und unbetont) zulässt, wohingegen 4 die ersten beiden Ebenen eines beispielhaften Baumes 10b zeigt, welcher veranschaulicht, wie ein System zum Nachschlagen von Schablonen implementiert werden könnte, wenn drei Betonungsstufen (unbetont, Hauptbetonung, Nebenbetonung) zulässig sind. Da die Anzahl von Ebenen in dem Baum der maximalen Silbenanzahl in der zugehörigen Prosodieschablone entspricht, können in der Praxis Bäume mit acht oder mehr Ebenen erforderlich sein.
  • Bei beiden Tabellen 10a (3) und 10b (4) sei darauf hingewiesen, dass etliche Knoten als „NIL" ausgewiesen sind. Andere Knoten enthalten Betonungsmuster-Ganzzah-len, die bestimmten Kombinationen aus Betonungsmustern entsprechen. Im allgemeinen Falle wäre es möglich, jeden der Knoten mit einem Betonungsmuster zu bevölkern, so dass keiner der Knoten NIL wäre. Jedoch kann es bei einem wirklichen, arbeitenden System viele Fälle geben, wo für bestimmte Betonungsmusterkombinationen keine Trainingsmuster verfügbar sind. Wenn keine Daten verfügbar sind, werden die entsprechenden Knoten im Baum einfach mit einem NIL-Wert geladen, so dass der Baum von Mutter- zu Tochterknoten oder umgekehrt durchlaufen werden kann, selbst wenn für jenen Knoten möglicherweise in Tabelle 20 keine Schablonendaten verfügbar sind. Anders ausgedrückt: Die NIL-Werte dienen als Platzhalter, um die topologische Struktur des Baums aufrechtzuerhalten, selbst wenn für diese Knoten keine Betonungsmuster verfügbar sind.
  • Unter Bezugnahme auf 1 sollte nun offensichtlich sein, wie die Baumstruktur benutzt wird, um auf Tabelle 20 zuzugreifen. Die Texteingabe 30 weist ein zugehöriges Betonungsmuster 32 auf, das von dem Textanalysemodul 14 bestimmt wird. Bei der dargestellten Ausführungsform würden diese zugehörigen Silbenbetonungsmuster als numerische Betonungsmuster dargestellt, die den im Baum 10 zu findenden numerischen Werten entsprechen.
  • Falls die Texteingabe etwa ein zweisilbiges Wort mit einer Hauptbetonung auf der ersten Silbe und keiner Betonung auf der zweiten Silbe ist (z.B. 10), durchläuft das Modul 28 zum Nachschlagen von Prosodiemustern den Baum 10, bis es den Knoten 40 findet, der das Muster „10" enthält. Der Knoten 40 speichert das Betonungsmuster „10", das einem zweisilbigen Wort entspricht, dessen erste Silbe betont und dessen zweite Silbe unbetont ist. Von da aus greift das Modul 28 zum Nachschlagen von Mustern auf Zeile 42 der Tabelle 20 zu, um die entsprechenden Informationen zur Tonhöhe und Dauer für das „10"-Muster zu erhalten. Die bei 44 gezeigten Informationen zur Tonhöhe und Dauer werden dann an das Prosodiemodul 18 geliefert, wo sie benutzt werden, um die Datenfolge vom Synthetisator 14 dergestalt zu modifizieren, dass die anfängliche Silbe betont und die zweite Silbe unbetont ist.
  • Zwar ist es möglich, eine Baumstruktur und eine entsprechende Tabelle aufzubauen, die alle möglichen Kombinationen aller Betonungsmuster enthalten, auf die das System treffen wird, doch es gibt viele Fälle, in denen dies nicht zweckmäßig bzw. nicht durchführbar ist. In einigen Fällen werden unzulängliche Trainingsdaten vorliegen, so dass einige Betonungsmusterkombinationen nicht vorhanden sein werden. Bei anderen Anwendungen, bei denen Speicherressourcen knapp sind, kann der Planer des Systems entscheiden, bestimmte Knoten zu trunkieren oder zu entvölkern, um die Größe des Baumes und seiner zugehörigen Verweistabelle zu verringern. Die vorliegende Erfindung ist darauf angelegt, diese Situationen zu handhaben, indem „on the fly" (d.h. dynamisch während des Betriebs) eine neue bzw. eine Ersatz-Prosodieschablone generiert wird. Das System tut dies, wie nachstehend ausführlicher erläutert wird, indem es das Betonungs muster des Eingabetextes mit einem oder mehreren Mustern abgleicht, die in dem Baum real vorhanden sind, und dann nach Bedarf zusätzliche Betonungsmusterwerte hinzufügt oder klont, so dass vorhandene Teilmuster aneinander gehängt werden können, um das gewünschte neue Muster zu bilden.
  • Das Modul 28 zum Nachschlagen von Prosodiemustern handhabt Situationen, in denen innerhalb des Baums 10 und dessen zugehöriger Tabelle 20 die vollständige Prosodieschablone für ein gegebenes Wort nicht in ihrer Gesamtheit vorhanden ist. Das Modul tut dies, indem es den Baum 10 beginnend beim Wurzelknoten 12 durchläuft und jedem Zweig bis hinunter zu jedem einzelnen Ende folgt. Während das Modul von Knoten zu Knoten fortschreitet, prüft es bei jedem Schritt, ob das im aktuellen Knoten gespeicherte Betonungsmuster mit dem Betonungsmuster der entsprechenden Silbe innerhalb des Wortes übereinstimmt.
  • Jedes Mal, wenn der in einem Knoten gespeicherte Betonungsmusterwert nicht mit dem Betonungswert der entsprechenden Silbe im Zielwort übereinstimmt, addiert das Nachschlagemodul eine festgelegte Strafe zu einer laufenden Summe hinzu, die für jeden der durchlaufenen Pfade geführt wird. Der Pfad mit der niedrigsten Strafpunktzahl ist derjenige Pfad, der am besten mit dem Betonungsmuster des Zielwortes übereinstimmt. Bei der bevorzugten Ausführungsform werden Strafpunktzahlen aus einer gespeicherten Matrix aus Strafwerten, die zu unterschiedlichen Kombinationen aus Betonung der Schablonensilbe und Betonung der Zielsilbe gehören, ausgewählt. Außerdem können diese im Voraus eingespeicherten Strafen basierend auf dem Kontext des Zielwortes innerhalb des gesprochenen Satzes oder der gesprochenen Phrase weiter modifiziert werden. Kontexte, die bei der Wahrneh mung hervorstechen, weisen zugehörige Strafmodifikatoren auf. Zum Beispiel ist in gesprochenem Englisch eine Nichtübereinstimmung der Prosodie bei Silben am Wortende sehr auffällig. Daher erhöht das System für Nichtübereinstimmungen, die bei Silben am Wortende auftreten, die aus der Strafmatrix ausgewählte Strafe.
  • Um Silben im Zielwort mit Silben in der Referenzschablone abzugleichen, wird eine Suche ausgeführt, welche die Strafe für Nichtübereinstimmung minimiert. Konzeptionell zählt die Suche alle möglichen Zuordnungen von Silben des Zielworts zu Silben der Referenzschablone auf. Tatsächlich ist es nicht notwendig, alle möglichen Zuordnungen aufzuzählen, da es bei dem Suchvorgang möglich ist, zu wissen, dass eine bestimmte Folge aus Silbenabgleichen prinzipiell nicht mit einer anderen konkurrieren und daher aufgegeben werden kann. Falls insbesondere die Strafe für Nichtübereinstimmung für eine Teilübereinstimmung die niedrigste Strafe für Nichtübereinstimmung für eine bereits ermittelte volle Übereinstimmung überschreitet, kann die Teilübereinstimmung problemlos aufgegeben werden.
  • Um das Konzept zu verstehen, nach welchem die Strafen angewandt werden, sei auf 3 verwiesen. Die Baumstruktur aus 3 kann vom Wurzelknoten über diverse Pfade bis zu jedem der acht Blattknoten an der Unterseite des Baums durchlaufen werden. Ein solcher Pfad ist bei 50 mit einer gestrichelten Linie dargestellt. Andere Pfade können ausgehend vom Wurzelknoten bis zu Zwischenknoten verfolgt werden, so etwa der Pfad 52. Der Pfad 50 endet bei dem Knoten, der das Muster „100" enthält, wohingegen der Pfad 52 bei dem Knoten endet, der das Muster „01" enthält. Der Pfad 52 könnte auch ebenso dergestalt erweitert werden, dass ein zusätzlicher Pfad definiert wird, der bei dem Knoten endet, der das Muster „010" enthält. Während das Modul 28 zum Nachschlagen von Prosodiemustern jeden der möglichen Pfade erkundet, sammelt es für jeden der Pfade eine Strafpunktzahl an. Bei dem Versuch, einen Pfad mit dem Betonungsmuster „01" eines als Eingabetext bereitgestellten Zielworts abzugleichen, würde der Pfad 52 eine Strafpunktzahl von null aufweisen, wohingegen alle anderen Pfade höhere Strafpunktzahlen aufweisen würden, da sie nicht exakt mit dem Betonungsmuster des Zielwortes übereinstimmen. Somit würde das Nachschlagemodul den Pfad 52 als den kostengünstigsten Pfad identifizieren und daraufhin den Knoten, der die „01" enthält, als den angemessenen, als Index in die Prosodie-Verweistabelle 20 (1) zu verwendenden Knoten identifizieren. Alle anderen Pfade mit höheren Strafpunktzahlen würden zurückgewiesen werden.
  • Wie oben angemerkt wurde, gibt es Fälle, bei denen mittels Durchlaufen jedes beliebigen Pfades durch den Baum keine perfekte Übereinstimmung gefunden werden kann. Das Modul 28 zum Nachschlagen von Prosodiemustern geht auf diese Situation mittels einer Methode zum Konstruieren von Knoten ein. 5 führt ein einfaches Beispiel dafür an, wie diese Methode angewandt wird.
  • Es wird auf 5 Bezug genommen. Das englische Zielwort „avenue" weist, wie von den Wörterbuchinformationen bei 60 angezeigt, ein Betonungsmuster von „102" auf. Somit würde das Modul zum Nachschlagen von Prosodiemustern im Baum 10 idealerweise gerne den das Betonungsmuster „102" enthaltenden Knoten finden. In diesem Fall jedoch kann das Betonungsmuster „102" nicht im Baum 10 gefunden werden. Das Modul 28 zum Nachschlagen von Prosodiemustern sucht in ei ner Baumstruktur, die nur zweisilbige Betonungsmuster enthält, nach einem dreisilbigen Betonungsmuster. Es gibt jedoch Knoten, die „10" und „12" enthalten und als Approximation des gewünschten Musters „102" dienen können. Somit generiert das Modul ein zusätzliches Betonungsmuster, indem es einen der Knoten in einem Baum dergestalt dupliziert oder klont, dass eine Silbe einer Schablone für zwei oder mehr aufeinanderfolgende Silben des Zielwortes verwendet werden kann.
  • In 5 ist das englische Zielwort „avenue" bei 62 in Silben unterteilt gezeigt. Zwei Knoten, namentlich der Knoten, der „10" enthält, und der Knoten, der „12" enthält, stimmen mit dem Betonungsmuster der ersten Silbe des Zielwortes überein. In 5 sei darauf hingewiesen, dass das bei 64 gezeigte Betonungsmuster der ersten Silbe des Zielworts mit den bei 66 bzw. 68 gezeigten Anfängen der Betonungsmuster der Knoten „10" und „12" übereinstimmt. Das bei 70 gezeigte Betonungsmuster der mittleren Silbe des Zielworts stimmt mit der bei 72 gezeigten zweiten Silbe des „10"-Knotens überein. Es stimmt jedoch nicht mit der bei 74 gezeigten zweiten Silbe des Knotens „12" überein. Da jedoch der Verweisbaum 10 nur ein- und zweisilbige Knoten enthält, muss eine dritte Silbe generiert werden. Die bevorzugte Ausführungsform tut dies, indem sie das Betonungsmuster einer benachbarten Silbe klont oder dupliziert. So wird bei 76 ein zusätzliches „0"-Betonungsmuster und bei 78 ein zusätzliches „2"-Betonungsmuster hinzugefügt. Beide resultierenden Pfade (einschließlich der hinzugefügten oder geklonten Silben) werden unter Verwendung der Matrix aus Strafen ausgewertet. Die Gesamtpunktzahlen beider Pfade werden bewertet, und es wird die Lösung mit der niedrigsten Punktzahl ausgewählt.
  • Die bevorzugte Ausführungsform berechnet die Strafe, indem sie aus einer Verweistabelle einen Anfangs-Strafwert ermittelt. Eine beispielhafte Verweistabelle wird wie folgt bereitgestellt:
  • Tabelle 1
    Figure 00140001
  • Dieser Anfangswert wird daraufhin modifiziert, um Kontexteffekte zu berücksichtigen, indem folgende Modifikationsregeln angewandt werden:
    Regel 1: Falls die Silbe der Schablone durch Wiederholen der vorhergehenden Silbe konstruiert wird, werden 4 Punkte zu dem Strafwert addiert.
    Regel 2: Falls die vorhergehende Silbe der Eingabe eine Betonungsstufe von 1 oder 2 aufweist, werden 4 Punkte zu dem Strafwert addiert.
    Regel 3: Falls die nachfolgende Silbe der Eingabe eine Betonungsstufe von 1 oder 2 aufweist, werden 4 Punkte zu dem Strafwert addiert.
    Regel 4: Falls die nicht übereinstimmende Silbe die letzte Silbe im Wort ist, wird die Gesamtstrafe mit 16 multipliziert.
  • Die obigen, den Kontext berücksichtigenden Modifikationsregeln beruhen auf prosodischen Merkmalen des Zielwortes, doch es versteht sich sofort, dass andere dem Zielwort oder der Zielphrase zugehörige phonetische Merkmale ebenfalls als Basis für den Kontext berücksichtigende Modifikationsregeln benutzt werden können.
  • Bei dem dargestellten Beispiel stimmt die erste generierte Lösung „100" mit Ausnahme der letzten Silbe exakt mit dem Zielwort „102" überein. Da eine Substitution auftrat, bei welcher eine gewünschte „2" durch eine „0" ersetzt wurde, fällt eine Anfangsstrafe von zwei an (siehe die Matrix aus Strafen in Tabelle 1). Darüber hinaus werden die den Kontext berücksichtigenden Modifikationsregeln auf die erste generierte Lösung angewandt. In diesem Falle wird die Anfangsstrafe gemäß Regel 1 um 4 erhöht und dann gemäß Regel 4 mit 16 multipliziert, so dass sich eine Strafpunktzahl von ((2 + 4)·16 =) 96 ergibt.
  • Eine analoge Analyse ergibt, dass die zweite Lösung „122" mit Ausnahme der Substitution einer „2" für die „0" in der zweiten Silbe exakt mit dem Zielwort „102" übereinstimmt. Bei einer Substitution von „2" für „0" fällt ebenfalls eine Strafe von zwei an. Darüber hinaus wird die Anfangsstrafe gemäß Regeln 1, 2 und 3 um 12 erhöht, so dass sich eine Strafpunktzahl von (2 + 4 + 4 + 4 =) 14 ergibt. Somit weist die zweite generierte Lösung „122" die niedrigere Gesamtstrafpunktzahl auf und wird als das am engsten mit dem Zielwort korrelierende Betonungsmuster ausgewählt. Für den Fall, dass Lösungen die gleiche Gesamtstrafpunktzahl tragen, kann das Modul zum Nachschlagen von Prosodiemustern einen Satz von Regeln enthalten, die dazu ausgelegt sind, Patts aufzulösen. Zum Beispiel werden bei der Auswahl einer Lösung aufeinanderfolgende, unbetonte Silben gegenüber aufeinanderfolgenden Silben mit mittleren Betonungen bevorzugt. Dieser Beschreibung ist im Anhang Pseudocode beigefügt, welcher diese bevorzugte Ausführungsform implementiert.
  • Es wird nun mit dem in 5 dargestellten Beispiel fortgefahren. Das Modul zum Nachschlagen von Prosodiemustern würde das Muster „10" benutzen, um auf die Tabelle zuzugreifen und die Informationen zur Tonhöhe und Dauer für dieses Muster abzurufen. Es würde dann zur Verwendung in der dritten Silbe des konstruierten „102"-Musters die Informationen zur Tonhöhe und Dauer aus der zweiten Silbe in dem „10"-Muster wiederholen. Die abgerufenen Prosodiedaten würden dann miteinander verbunden oder aneinander gehängt und zur Verwendung beim Modifizieren der vom Synthetisator 14 gesendeten Folgendaten dem Prosodiemodul 18 (1) zugeführt.
  • Ein etwas komplexeres Beispiel, das in 6 gezeigt wird, soll das Verfahren zur Behandlung ungenauer Übereinstimmungen durch das Nachschlagemodul näher erläutern. Das Beispiel aus 6 benutzt die englischen Zielwörter „Santa Clarita". Das gewünschte Betonungsmuster des Zielwortes lautet „20010". Der Schablonen-Verweisbaum weist die dreifach verzweigte Struktur des Baums 10b in 5 auf, erstreckt sich aber dergestalt über mehr Ebenen, dass er Muster aus bis zu fünf Silben umfasst. Einige der relevanten Zweige des Baums sind schematisch in 6 gezeigt.
  • Um zusammenzufassen, was in den vorhergegangenen Beispielen gezeigt wurde: Der bevorzugte Nachschlagealgorithmus steigt durch den Schablonen-Verweisbaum ab und versucht dabei, Betonungsstufen der Silben des Zielworts abzugleichen. Die Übereinstimmung muss dabei keine exakte sein. Stattdessen wird ein Maß für die Nähe geführt, indem die aus der Strafmatrix ermittelten Werte, modifiziert durch die kontextabhängigen Regeln zur Modifikation der Strafen, summiert werden. Bei der Erkundung verschiedener Zweige des Baumes müssen Pfade nicht vollständig verfolgt werden, falls die Gesamtstrafpunktzahl für einen zum Teil durchlaufenen Zweig diejenige des besten bisher gefundenen Zweigs überschreitet. Das System fügt Knoten ein, indem es einen vorhandenen Knoten dergestalt dupliziert oder klont, dass eine Silbe einer Schablone für zwei oder mehr aufeinanderfolgende Silben des Zielwortes verwendet werden kann. Natürlich wird die Aktion des Hinzufügens einer Silbe mit einer Strafe belegt, da das Hinzufügen einer geklonten Silbe einer Nichtübereinstimmung von Schablone und Ziel entspricht, wobei die Strafe mit den anderen, diesem Zweig beigemessenen angesammelten Strafen summiert wird.
  • Im Laufe des weiteren Abgleichens von Knoten in dem Baum mit Zielsilben durch den Algorithmus wird aufgezeichnet, welche Silben der Schablone mit den einzelnen Silben des Ziels abgeglichen wurden. Später beim Einsatz des Text-Sprachsynthetisators werden die prosodischen Merkmale der aufgezeichneten Silbe der Schablone auf die Daten angewandt, die dieser Silbe aus dem Zielwort entsprechen. Falls beim Abstieg durch einen Pfad ein Knoten geklont wurde, werden die prosodischen Informationen der entsprechenden Silbe der Schablone für beide bzw. alle Silben des Ziels benutzt, die der Abstiegsalgorithmus mit ihr abgeglichen hat. Bezüglich der Tonhöheninformationen bedeutet dies, dass die Kontur der Silbe der Schablone über die Dauer beider Silben des Ziels ausgedehnt werden sollte. Bezüglich der Informationen zur Dauer sollten beiden Silben des Ziels Werte für die Dauer entsprechend des relativen Werts für die Dauer der Silbe der Schablone zugewiesen werden.
  • Die bisher dargestellten Beispiele haben sich auf die Verwendung eines einzelnen Baums konzentriert. Die Erfindung kann auf die Verwendung mehrfacher Bäume erweitert werden, von denen jeder in einem unterschiedlichen Kontext genutzt wird. Zum Beispiel kann der Eingabetext, der dem Synthetisator zugeführt wird, analysiert oder geparst werden, um zu identifizieren, ob sich ein konkretes Wort am Anfang, in der Mitte oder am Ende des Satzes oder der Phrase befindet. Es kann erwünscht sein, abhängig davon, wo das Wort in der Phrase oder in dem Satz erscheint, unterschiedliche prosodische Regeln anzuwenden. Um dies einzurichten, kann das System mehrfache Bäume einsetzen, zu denen jeweils eine Verweistabelle gehört, welche die Informationen zur Tonhöhe und Dauer für den betreffenden Kontext enthält. Somit würde der zur Verwendung durch Wörter am Anfang vorgesehene Baum benutzt, wenn das System ein Wort am Satzanfang verarbeitet. Falls das Wort in der Mitte oder am Ende des Satzes auftritt, würden die entsprechenden anderen Bäume benutzt. Es ist natürlich ersichtlich, dass ein derartiges System mit mehreren Bäumen als einzelner großer Baum implementiert werden könnte, bei welchem die Startpunkte für Anfang, Mitte und Ende die ersten drei Tochterknoten eines einzelnen Wurzelknotens sind.
  • Der Algorithmus wurde vorliegend dergestalt beschrieben, dass er in „Von links nach rechts"-Manier von der ersten Silbe des Zielwortes zur letzten Silbe des Zielwortes fortschreitet. Falls jedoch die Daten in den Schablonen-Verweisbäumen geeignet umgeordnet werden, könnte der Algorithmus genauso gut in „Von rechts nach links"-Manier von der letzten Silbe des Zielwortes zur ersten Silbe des Zielwortes fortschreitend angewandt werden.
  • Aus dem Vorstehenden wird man verstehen, dass die vorliegende Erfindung benutzt werden kann, um bei einer Vielzahl unterschiedlicher Anwendungsfälle Prosodieschablonen für die Sprachsynthese auszuwählen. Zwar wurde die Erfindung in ihren vorliegend bevorzugten Ausführungsformen beschrieben, doch können Modifikationen an dem Vorstehenden vorgenommen werden, ohne vom Schutzumfang der Erfindung abzuweichen, der in den beigefügten Ansprüchen dargelegt wird.
  • ANHANG
    Figure 00200001
  • Figure 00210001
  • Figure 00220001
  • Figure 00230001
  • Figure 00240001
  • Figure 00250001

Claims (12)

  1. Verfahren zum Generieren von Prosodieinformationen zur Verwendung bei der Text-Sprachsynthese, welches folgende Schritte umfasst: Empfangen einer Eingabetextfolge (30) und Bestimmen eines der Eingabetextfolge (30) zugeordneten Musters aus prosodischen Merkmalen (14), Identifizieren einer ersten Prosodieschablone (18, 28) unter einer Vielheit von Prosodieschablonen (10), von denen jede Prosodieschablone ein Muster aus prosodischen Merkmalen darstellt, die einer Textfolge zugeordnet werden können, wobei die erste Prosodieschablone ein Muster aus prosodischen Merkmalen aufweist, die mit der Eingabetextfolge korrelieren, gekennzeichnet durch; Replizieren eines Abschnitts der ersten Prosodieschablone (76, 78), wenn das Muster für die erste Prosodieschablone kürzer als das Muster für die Eingabetextfolgen ist, und Anhängen des replizierten Abschnitts der ersten Prosodieschablone an das Muster der ersten Prosodieschablone (76, 78), wodurch eine generierte Prosodieschablone konstruiert wird, die enger mit der Eingabetextfolge korreliert.
  2. Verfahren nach Anspruch 1, welches ferner folgende Schritte umfasst: Benutzen der generierten Prosodieschablone, um Prosodieinformationen für die Eingabetextfolge abzurufen, und Umwandeln der Eingabetextfolge in hörbare Sprache (16) unter Verwendung der Prosodieinformationen.
  3. Verfahren nach Anspruch 1, wobei die einzelnen Prosodieschablonen ferner jeweils als Muster aus Betonungsstärken für die einzelnen Silbenabschnitte einer Textfolge definiert sind.
  4. Verfahren nach Anspruch 3, wobei der Schritt des Bestimmens eines Musters aus prosodischen Merkmalen ferner folgende Schritte umfasst: Segmentieren der Eingangstextfolge in Silbenabschnitte und Bestimmen einer Betonungsstärke für jeden Silbenabschnitt der Eingabetextfolge, wodurch ein Betonungsmuster für die Eingabetextfolge gebildet wird.
  5. Verfahren nach Anspruch 4, wobei der Schritt des Identifizierens einer ersten Prosodieschablone ferner den Schritt des Durchlaufens einer Baumstruktur n-ter Ordnung umfasst, um ein übereinstimmendes Muster aus prosodischen Merkmalen zu identifizieren, wobei die Baumstrukturen dergestalt auf Betonungsmustern basieren, dass jeder Knoten der Baumstruktur eine Betonungsstärke bereitstellt, die einem Silbenabschnitt einer Textfolge zugeordnet werden kann.
  6. Verfahren nach Anspruch 5, wobei der Schritt des Replizierens eines Abschnitts der ersten Prosodieschablone ferner folgende Schritte umfasst: Klonen einer Betonungsstärke aus einem angrenzenden Silbenabschnitt des übereinstimmenden Musters, wenn die Anzahl der Silbenabschnitte in der ersten Prosodieschablone kleiner ist als die Anzahl der Silbenabschnitte des Betonungsmusters für die Eingabetextfolge, und Anhängen der Betonungsstärke an das übereinstimmende Muster der ersten Prosodieschablone.
  7. System zum Generieren von Prosodieinformationen zur Verwendung in einem Text-Sprachgenerator, das Folgendes umfasst: Mittel zum Empfangen einer Eingabetextfolge (30), Mittel zum Bestimmen eines der Eingabetextfolge (30) zugeordneten Musters aus prosodischen Merkmalen (14), Mittel zum Identifizieren einer ersten Prosodieschablone (18, 28) unter einer Vielheit von Prosodieschablonen (10), von denen jede Prosodieschablone ein Muster aus prosodischen Merkmalen darstellt, die einer Textfolge zugeordnet werden können, wobei die erste Prosodieschablone ein Muster aus prosodischen Merkmalen aufweist, die mit der Eingabetextfolge korrelieren, gekennzeichnet durch Mittel zum Replizieren eines Abschnitts der ersten Prosodieschablone (76, 78), wenn das Muster für die erste Prosodieschablone kürzer als das Muster für die Eingabetextfolge ist, und Mittel zum Anhängen des replizierten Abschnitts der ersten Prosodieschablone an das Muster der ersten Prosodieschablone (76, 78), wodurch eine generierte Prosodieschablone konstruiert wird, die enger mit der Eingabetextfolge korreliert.
  8. System nach Anspruch 7, welches ferner dazu eingerichtet ist, die generierte Prosodieschablone zu benutzen, um Prosodieinformationen für die Eingabetextfolge abzurufen, und die Eingabetextfolge unter Verwendung der Prosodieinformationen in hörbare Sprache umzuwandeln.
  9. System nach Anspruch 7, wobei die einzelnen Prosodieschablonen ferner jeweils als Muster aus Betonungsstärken für die einzelnen Silbenabschnitte einer Textfolge definiert sind.
  10. System nach Anspruch 9, wobei, um ein Muster aus prosodischen Merkmalen zu bestimmen, ein System dazu eingerichtet ist, die Eingabetextfolge in Silbenabschnitte zu segmentieren und für jeden Silbenabschnitt der Eingabetextfolge eine Betonungsstärke zu bestimmen, wodurch ein Betonungsmuster für die Eingabetextfolge gebildet wird.
  11. System nach Anspruch 10, wobei, um eine erste Prosodieschablone zu identifizieren, das System dazu eingerichtet ist, eine Baumstruktur n-ter Ordnung zu durchlaufen, um ein übereinstimmendes Muster aus prosodischen Merkmalen zu identifizieren, wobei die Baumstrukturen dergestalt auf Betonungsmustern basieren, dass jeder Knoten der Baumstruktur eine Betonungsstärke bereitstellt, die einem Silbenabschnitt einer Textfolge zugeordnet werden kann.
  12. System nach Anspruch 11, wobei, um einen Abschnitt der ersten Prosodieschablone zu replizieren, das System ferner dazu eingerichtet ist, eine Betonungsstärke aus einem angrenzenden Silbenabschnitt des übereinstimmenden Musters zu klonen, wenn die Anzahl der Silbenabschnitte in der ersten Prosodieschablone kleiner ist als die Anzahl der Silbenabschnitte des Betonungsmusters für die Eingabetextfolge, und die Betonungsstärke an das übereinstimmende Muster der ersten Prosodieschablone anzuhängen.
DE60118874T 2001-01-05 2001-12-28 Prosodiemustervergleich für Text-zu-Sprache Systeme Expired - Fee Related DE60118874T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US755699 1996-11-25
US09/755,699 US6845358B2 (en) 2001-01-05 2001-01-05 Prosody template matching for text-to-speech systems

Publications (2)

Publication Number Publication Date
DE60118874D1 DE60118874D1 (de) 2006-05-24
DE60118874T2 true DE60118874T2 (de) 2006-09-14

Family

ID=25040261

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60118874T Expired - Fee Related DE60118874T2 (de) 2001-01-05 2001-12-28 Prosodiemustervergleich für Text-zu-Sprache Systeme

Country Status (6)

Country Link
US (1) US6845358B2 (de)
EP (1) EP1221693B1 (de)
JP (1) JP2002318595A (de)
CN (1) CN1182512C (de)
DE (1) DE60118874T2 (de)
ES (1) ES2261355T3 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950798B1 (en) * 2001-04-13 2005-09-27 At&T Corp. Employing speech models in concatenative speech synthesis
US7401020B2 (en) * 2002-11-29 2008-07-15 International Business Machines Corporation Application of emotion-based intonation and prosody to speech in text-to-speech systems
CN1604077B (zh) * 2003-09-29 2012-08-08 纽昂斯通讯公司 对发音波形语料库的改进方法
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
CN1811912B (zh) * 2005-01-28 2011-06-15 北京捷通华声语音技术有限公司 小音库语音合成方法
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
CN1956057B (zh) * 2005-10-28 2011-01-26 富士通株式会社 一种基于决策树的语音时长预测装置及方法
US9355092B2 (en) * 2006-02-01 2016-05-31 i-COMMAND LTD Human-like response emulator
JP4716116B2 (ja) * 2006-03-10 2011-07-06 株式会社国際電気通信基礎技術研究所 音声情報処理装置、およびプログラム
CN1835076B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种综合运用语音识别、语音学知识及汉语方言分析的语音评测方法
US20080027725A1 (en) * 2006-07-26 2008-01-31 Microsoft Corporation Automatic Accent Detection With Limited Manually Labeled Data
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
CN101814288B (zh) * 2009-02-20 2012-10-03 富士通株式会社 使语音合成时长模型自适应的方法和设备
US9626339B2 (en) * 2009-07-20 2017-04-18 Mcap Research Llc User interface with navigation controls for the display or concealment of adjacent content
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9171401B2 (en) 2013-03-14 2015-10-27 Dreamworks Animation Llc Conservative partitioning for rendering a computer-generated animation
US9589382B2 (en) 2013-03-15 2017-03-07 Dreamworks Animation Llc Render setup graph
US9811936B2 (en) 2013-03-15 2017-11-07 Dreamworks Animation L.L.C. Level-based data sharing for digital content production
US9514562B2 (en) 2013-03-15 2016-12-06 Dreamworks Animation Llc Procedural partitioning of a scene
US9218785B2 (en) 2013-03-15 2015-12-22 Dreamworks Animation Llc Lighting correction filters
US9208597B2 (en) * 2013-03-15 2015-12-08 Dreamworks Animation Llc Generalized instancing for three-dimensional scene data
US9659398B2 (en) 2013-03-15 2017-05-23 Dreamworks Animation Llc Multiple visual representations of lighting effects in a computer animation scene
US9230294B2 (en) 2013-03-15 2016-01-05 Dreamworks Animation Llc Preserving and reusing intermediate data
US9626787B2 (en) 2013-03-15 2017-04-18 Dreamworks Animation Llc For node in render setup graph
JP5807921B2 (ja) * 2013-08-23 2015-11-10 国立研究開発法人情報通信研究機構 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
CN103578465B (zh) * 2013-10-18 2016-08-17 威盛电子股份有限公司 语音辨识方法及电子装置
CN103793641B (zh) * 2014-02-27 2021-07-16 联想(北京)有限公司 一种信息处理方法、装置及电子设备
RU2015156411A (ru) * 2015-12-28 2017-07-06 Общество С Ограниченной Ответственностью "Яндекс" Способ и система автоматического определения положения ударения в словоформах
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
CN109599079B (zh) * 2017-09-30 2022-09-23 腾讯科技(深圳)有限公司 一种音乐的生成方法和装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2679623B2 (ja) * 1994-05-18 1997-11-19 日本電気株式会社 テキスト音声合成装置
JP3314116B2 (ja) * 1994-08-03 2002-08-12 シャープ株式会社 音声規則合成装置
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5592585A (en) 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
JP3340581B2 (ja) * 1995-03-20 2002-11-05 株式会社日立製作所 テキスト読み上げ装置及びウインドウシステム
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
JPH10171485A (ja) * 1996-12-12 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成装置
US5915237A (en) * 1996-12-13 1999-06-22 Intel Corporation Representing speech using MIDI
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
TW422967B (en) 1998-04-29 2001-02-21 Matsushita Electric Ind Co Ltd Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word
US6029132A (en) * 1998-04-30 2000-02-22 Matsushita Electric Industrial Co. Method for letter-to-sound in text-to-speech synthesis
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
JP3361066B2 (ja) * 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
JP3685648B2 (ja) * 1999-04-27 2005-08-24 三洋電機株式会社 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機

Also Published As

Publication number Publication date
EP1221693A2 (de) 2002-07-10
US20020128841A1 (en) 2002-09-12
DE60118874D1 (de) 2006-05-24
US6845358B2 (en) 2005-01-18
EP1221693B1 (de) 2006-04-19
CN1372246A (zh) 2002-10-02
CN1182512C (zh) 2004-12-29
EP1221693A3 (de) 2004-02-04
ES2261355T3 (es) 2006-11-16
JP2002318595A (ja) 2002-10-31

Similar Documents

Publication Publication Date Title
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60201262T2 (de) Hierarchische sprachmodelle
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE60305645T2 (de) System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee