DE60205421T2 - Verfahren und Vorrichtung zur Sprachsynthese - Google Patents

Verfahren und Vorrichtung zur Sprachsynthese Download PDF

Info

Publication number
DE60205421T2
DE60205421T2 DE60205421T DE60205421T DE60205421T2 DE 60205421 T2 DE60205421 T2 DE 60205421T2 DE 60205421 T DE60205421 T DE 60205421T DE 60205421 T DE60205421 T DE 60205421T DE 60205421 T2 DE60205421 T2 DE 60205421T2
Authority
DE
Germany
Prior art keywords
formant
pitch
speech
waveforms
functions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60205421T
Other languages
English (en)
Other versions
DE60205421D1 (de
Inventor
Masami Minato-ku Akamine
Takehiko Minato-ku Kagoshima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Application granted granted Critical
Publication of DE60205421D1 publication Critical patent/DE60205421D1/de
Publication of DE60205421T2 publication Critical patent/DE60205421T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Text-Sprache-Synthese, insbesondere auf ein Sprachsyntheseverfahren zum Generieren einer synthetisierten Sprache aus Information, wie etwa einer Phonemsymbolzeichenkette, Tonhöhe und Phonemdauer.
  • "Text-Sprache-Synthese" bedeutet Erzeugung künstlicher Sprache aus Text. Dieses Text-Sprache-Synthesesystem umfasst drei Stufen: einen linguistischen Prozessor, einen Satzrhythmusprozessor und einen Sprachsignalgenerator.
  • Zuerst wird der Eingangstext einer morphologischen Analyse oder Syntaxanalyse in einem linguistischen Prozessor unterzogen, und dann wird der Prozess von Akzent und Intonation in dem Satzrhythmusprozessor durchgeführt, und Information, wie etwa eine Phonemsymbolzeichenkette, ein Tonhöhenmuster (das Änderungsmuster von Stimmentonhöhe) und die Phonemdauer, wird ausgegeben. Ein Sprachsignalgenerator, d.h. Sprachsynthesizer, synthetisiert ein Sprachsignal aus Information, wie etwa Phonemsymbolzeichenketten, Tonhöhenmuster und Phonemdauer.
  • Gemäß dem Betriebsprinzip einer Sprachsynthesevorrichtung zum Sprachsynthetisieren einer gegebenen Phonemsymbolzeichenkette werden Basischarakteristik-Parametereinheiten (hierin nachstehend als "Syntheseeinheiten" bezeichnet), wie etwa Phon, Silbe, Diphone und Triphone, in einem Speicher gespeichert und selektiv ausgelesen. Die ausgelesenen Syntheseeinheiten sind verbunden, wobei ihre Tonhöhen und Phonemdauern gesteuert werden, wodurch eine Sprachsynthese durchgeführt wird.
  • Als ein Verfahren zum Generieren eines Sprachsignals eines gewünschten Tonhöhenmusters und einer Phonemdauer aus Information von Syntheseeinheiten ist das PSOLA-(Tonhöhen-Synchron-Überlappung-Hinzufügung, Pitch-Synchronous Overlap-add)Verfahren bekannt. Es ist bekannt, dass synthetisierte Sprache basierend auf PSOLA Sprachqualitätsverschlechterung wegen Tonhöhenperiodenvariation reduziert, und Sprachqualität verbessert, wenn die Tonhöhenperiodenvariation klein ist. PSOLA hat jedoch ein Problem dadurch, dass sich Sprachqualität verschlechtert, wenn die Tonhöhenperiodenvariation groß ist. Ferner gibt es ein Problem dadurch, dass Verzerrung in dem Spektrum wegen dem Glättungsprozess auftritt, der durchgeführt wird, wenn ein diskontinuierliches Spektrum auf tritt, wenn Syntheseeinheiten kombiniert werden, was zu einer Verschlechterung der Sprachqualität führt. Des weiteren macht PSOLA eine Änderung von Sprachvielfalt schwierig und ihm fehlt an Flexibilität, da die Wellenform selbst als eine Syntheseeinheit verwendet wird.
  • Ein alternatives Verfahren involviert eine Formantsynthese. Dieses System wurde gestaltet, die Weise menschlichen Sprechens zu emulieren. Das Formantsynthesesystem generiert ein Sprachsignal durch Anregen eines Filters, das die Eigenschaft des Stimmkanals modelliert, mit einem Sprachquellensignal, das durch Modellieren eines Signals erhalten wird, das von den Stimmbändern erzeugt wird.
  • In diesem System werden die Phoneme (/a/, /i/, /u/ etc.) und Stimmenvielfalt (männliche Stimme, weibliche Stimme etc.) synthetisierter Sprache durch Kombinieren der Formantfrequenz mit der Bandbreite bestimmt. Deshalb wird die Syntheseeinheiteninformation durch Kombinieren der Formantfrequenz mit der Bandbreite an Stelle der Wellenform generiert. Da das Formantsynthesesystem Parameter bezüglich Phonem und Stimmenvielfalt steuern kann, ist es dadurch von Vorteil, dass Vari ationen in der Stimmenvielfalt usw. flexibel gesteuert werden können. Es fehlt jedoch die Genauigkeit von Modellierung, was von Nachteil ist.
  • Mit anderen Worten kann das Formantsynthesesystem das fein detaillierte Spektrum eines realen Sprachsignals nicht nachmachen, da nur die Formantfrequenz und Bandbreite verwendet werden, was bedeutet, dass Sprachqualität inakzeptabel ist.
  • Der Artikel mit dem Titel "Control of Spectral Dynamics in Concatenative Speech Synthesis" von Wouters J. und Macon M. W. aus IEEE Transactions on Speech and Audio Processing, Vol. 9, Nr. 1, Januar 2001, Seiten 30 bis 38 beschreibt ein System, das sinusförmige Analyse und Synthese, sinusförmige und allpolige Modellierung zusammen mit TD-PSOLA verwendet, um Tonhöhe und Dauer von Diphoneinheiten zu steuern. Der Artikel mit dem Titel "Time-domain formant-wave-function synthesis" von Rodet X. aus Computer Music Journal, Vol. 8, 1984, Seiten 9 bis 11 beschreibt Foremant-Wellen-Funktionssynthese in der Zeitdomäne zum direkten Kalkulieren der Amplitude der Wellenform eines Signals als eine Funktion der Zeit.
  • Es ist ein Ziel der vorliegenden Erfindung, einen Sprachsynthesizer vorzusehen, der Sprachqualität verbessert und Stimmenvielfalt flexibel steuern kann.
  • Gemäß der Erfindung wird ein Sprachsyntheseverfahren vorgesehen, die Schritte umfassend:
    Generieren von Formantparametern;
    Auswählen vorbestimmter Formantparameter aus den Formantparametern gemäß einer Phonemsymbolzeichenkette;
    Generieren einer Vielzahl von Sinuswellen basierend auf der Formantfrequenz entsprechend den ausgewählten Formantparametern;
    Multiplizieren der Sinuswellen mit den Windowingfunktionen entsprechend jeweils den ausgewählten Formantparametern, um eine Vielzahl von Formantwellenformen zu generieren;
    Addieren der Formantwellenformen, um eine Vielzahl von Tonhöhenwellenformen zu generieren; und
    Überlagern der Tonhöhenwellenformen gemäß einer Tonhöhenperiode, um ein Sprachsignal zu generieren, gekennzeichnet durch Generieren der Windowingfunktionen durch Addieren von Basisfunktionen, die durch Gewichtungsfaktoren gewichtet sind.
  • Die Erfindung sieht auch einen Sprachsynthesizer vor, der mit einem Tonhöhenmuster, Phonemdauer und Phonemsymbolzeichenkette versehen wird, umfassend:
    Mittel (33) zum Generieren von Tonhöhenmarkierungen Bezug nehmend auf das Tonhöhenmuster und die Phonemdauer;
    Mittel (51) zum Generieren von Formantparametern;
    Mittel (52) zum Auswählen der Formantparameter für einen Rahmen entsprechend der Phonemsymbolzeichenkette;
    Mittel (4345) zum Generieren von Sinuswellen gemäß Formantfrequenzen der gelesenen Formantparameter;
    Mittel zum Multiplizieren der Sinuswellen mit Windowingfunktionen der ausgewählten Formantparameter, um Formantwellenformen zu generieren;
    Mittel zum Addieren der Formantwellenformen, um Tonhöhenwellenformen zu generieren;
    Mittel (35) zum Überlagern der Tonhöhenwellenformen in den Tonhöhenmarkierungen, um ein stimmhaftes Sprachsignal zu generieren;
    Mittel (32) zum Generieren einer stimmlosen Sprache; und
    Mittel zum Addieren der stimmhaften Sprache und der stimmlosen Sprache, um synthetisierte Sprache zu generieren, gekennzeichnet durch Mittel (56) zum Generieren der Windowingfunktionen durch Addieren von Basisfunktionen, die durch die Gewichtungsfaktoren gewichtet sind.
  • Die vorliegende Erfindung kann entweder in Hardware oder in Software auf einem Allzweckcomputer implementiert werden. Ferner kann die vorliegende Erfindung in einer Kombination von Hardware und Software implementiert werden. Die vorliegende Erfindung kann auch durch eine einzelne Verarbeitungsvorrichtung oder ein verteiltes Netz von Verarbeitungsvorrichtungen implementiert werden.
  • Da die vorliegende Erfindung durch Software implementiert werden kann, schließt die vorliegende Erfindung Computercode, ein, der für einen Allzweckcomputer auf einem beliebigen geeigneten Trägermedium bereitgestellt wird. Das Trägermedium kann ein beliebiges Speichermedium, wie etwa eine Floppy-Disk, eine CD-ROM, eine magnetische Einrichtung oder eine programmierbare Speichereinrichtung, oder ein beliebiges transientes Medium, wie etwa ein beliebiges Signal, z.B. ein elektrisches, optisches oder Mikrowellensignal, umfassen.
  • Diese Zusammenfassung der Erfindung beschreibt nicht notwendigerweise alle notwendigen Merkmale, sodass die Erfindung auch eine Teilkombination dieser beschriebenen Merkmale sein kann.
  • Die Erfindung kann aus der folgenden detaillierten Beschreibung vollständiger verstanden werden, wenn in Verbindung mit den begleitenden Zeichnungen aufgenommen, in denen:
  • 1 ein Blockdiagramm eines Sprachsynthesizers einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 einen Prozess zum Generieren stimmhafter Sprache durch Überlagern von Tonhöhenwellenformen zeigt;
  • 3 ein Blockdiagramm einer Tonhöhenwellenform-Erzeugungsvereinigung bezüglich der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ein Beispiel von Formantparametern zeigt;
  • 5 ein anderes Beispiel von Formantparametern zeigt;
  • 6 Sinuswellen, Windowingfunktionen (Fensterbildungsfunktionen), Formantwellenformen und Tonhöhenwellenformen zeigt;
  • 7 Leistungsspektren von Sinuswellen, Windowingfunktionen, Formantwellenformen und Tonhöhenwellenformen zeigt;
  • 8 ein Blockdiagramm eines Tonhöhenwellenformgenerators der zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 9 ein Blockdiagramm eines Tonhöhenwellenformgenerators bezüglich der dritten Ausführungsform der vorliegenden Erfindung zeigt;
  • 10 eine Steuerfunktion der Formantfrequenz zeigt;
  • 11 eine Steuerfunktion der Formantverstärkung zeigt;
  • 12 eine Abbildungsfunktion der Formantfrequenz zur Verwendung in Stimmenvielfaltkonvertierung zeigt;
  • 13 ein Blockdiagramm eines Tonhöhenwellenformgenerators der vierten Ausführungsform der vorliegenden Erfindung zeigt;
  • 14 ein Diagramm zum Erläutern von Glättung der Formant frequenz zeigt;
  • 15A und 15B ein anderes Diagramm zum Erläutern von Glättung der Formantfrequenz zeigen;
  • 16A und 16B Glättungszustände von Windowingfunktionen zeigen; und
  • 17A, 17B und 17C Flussdiagramme zum Erläutern von Prozessen des Sprachsynthesizers der vorliegenden Erfindung zeigen.
  • Es werden nun Ausführungsformen der vorliegenden Erfindung in Verbindung mit begleitenden Zeichnungen beschrieben.
  • 1 zeigt eine Konfiguration eines Sprachsynthesizers, der ein Sprachsyntheseverfahren gemäß der ersten Ausführungsform der vorliegenden Erfindung realisiert. Der Sprachsynthesizer empfängt ein Tonhöhenmuster 306, eine Phonemdauer 307 und eine Phonemsymbolzeichenkette 308 und gibt ein synthetisiertes Sprachsignal 305 aus. Der Sprachsynthesizer umfasst einen Synthesizer stimmhafter Sprache 31 und einen Synthesizer stimmenlosen Tons 32, und generiert das synthetisierte Sprachsignal 305 durch Addieren des stimmlosen Sprachsignals 304 und des stimmhaften Sprachsignals 303, die jeweils von den Synthesizern ausgegeben werden.
  • Der Synthesizer stimmloser Sprache 32 generiert das stimmlose Sprachsignal 304 Bezug nehmend auf Phonemdauer 307 und Phonemsymbolzeichenkette 308, wenn das Phonem hauptsächlich ein stimmloser Konsonant und ein stimmhafter Reibelaut ist. Der Synthesizer stimmloser Sprache 32 kann durch eine konventionelle Technik realisiert werden, wie etwa das Verfahren zum Anregen eines LPC-Synthesefilters mit weißem Rauschen.
  • Der Synthesizer stimmhafter Sprache 31 umfasst einen Tonhöhenmarkierungsgenerator 33, einen Tonhöhenwellenformgenerator 34 und eine Wellenformüberlagerungseinrichtung 35. Der Tonhöhenmarkierungsgenerator 33 generiert Tonhöhenmarkierungen 302, wie in 2 gezeigt, Bezug nehmend auf das Tonhöhenmuster 306 und die Phonemdauer 307. Die Tonhöhenmarkierungen 302 zeigen Positionen an, in denen die Tonhöhenwellenformen 301 überlagert sind. Das Intervall zwischen den Tonhöhenmarkierungen entspricht der Tonhöhenperiode. Der Tonhöhenwellenformgenerator 34 generiert Tonhöhenwellenformen 301 entsprechend den Tonhöhenmarkierungen 302, wie in 2 gezeigt, Bezug nehmend auf das Tonhöhenmuster 306, die Phonemdauer 307 und die Phonemsymbolzeichenkette 308. Die Wellenformüberlagerungseinrichtung 35 generiert ein Signal stimmhafter Sprache 303 durch Überlagern, in Positionen der Tonhöhenmarkierungen 302, der Tonhöhenwellenformen entsprechend den Tonhöhenmarkierungen 302.
  • Die Konfiguration des Tonhöhenwellenformgenerators von 1 wird detailliert wie folgt beschrieben.
  • Der Tonhöhenwellenformgenerator 34 umfasst einen Formantparameterspeicher 41, einen Parameterselektor 42 und Sinuswellengeneratoren 43, 44 und 45, wie in 3 gezeigt. Die For mantparameter werden in dem Formantparameterspeicher 41 in Einheiten einer Syntheseeinheit gespeichert.
  • 4 zeigt ein Beispiel von Formantparametern von Phonemen /a/ an. In diesem Beispiel umfassen die Phoneme /a/ drei Rahmen, jeder inkludierend drei Formante. Formantfrequenz, Formantphase und Windowingfunktionen werden in dem Formantparameterspeicher 41 als Parameter gespeichert, um die Charakteristika von jedem Formant auszudrücken.
  • Der Formantparameterselektor 42 selektiert und liest Formantparameter 401 für einen Rahmen entsprechend den Tonhöhenmarkierungen 302 von dem Formantparameterspeicher 41, Bezug nehmend auf das Tonhöhenmuster 306, Phonemdauer 307 und Phonemsymbolzeichenkette 308, die zu dem Tonhöhenwellenformgenerator 34 eingegeben werden.
  • Die Parameter entsprechend der Formantnummer 1 werden aus dem Formantparameterspeicher 41 als Formantfrequenz 402, Formantphase 403 und Windowingfunktionen 411 ausgelesen. Die Parameter entsprechend der Formantnummer 2 werden aus dem Formantparameterspeicher 41 als Formantfrequenz 404, Formantphase 405 und Windowingfunktionen 412 ausgelesen. Die Parameter entsprechend der Formantnummer 3 werden aus dem Formantparameterspeicher 41 als Formantfrequenz 406, Formantphase 407 und Windowingfunktionen 413 ausgelesen. Der Sinuswellengenerator 43 generiert eine Sinuswelle 408 gemäß der Formantfrequenz 402 und Formantphase 403. Die Sinuswelle 408 wird den Windowingfunktionen 411 unterzogen, um eine Formantwellenform 414 zu generieren. Die Formantwellenform y(t) wird durch die folgende Gleichung repräsentiert. y(t) = w(t)*sin(ωt + Φ) wobei ω die Formantfrequenz ist, Φ die Formantphase 403 ist und w(t) die Windowingfunktion 411 ist.
  • Der Sinuswellengenerator 44 gibt Sinuswelle 409 basierend auf der Formantfrequenz 404 und Formantphase 405 aus. Diese Sinuswelle 409 wird mit der Windowingfunktion 412 multipliziert, um eine Formantwellenform 415 zu generieren. Der Sinuswellengenerator 45 gibt eine Sinuswelle 410 basierend auf der Formantfrequenz 406 und Formantphase 407 aus. Diese Sinuswelle 410 wird mit der Windowingfunktion 413 multipliziert, um eine Formantwellenform 416 zu generieren.
  • Addieren der Formantwellenformen 414, 415 und 416 generiert die Tonhöhenwellenform 301. Beispiele der Sinuswellen, Windowingfunktionen, Formantwellenformen und Tonhöhenwellenformen werden in 6 gezeigt. Die Leistungsspektren dieser Wellenformen werden in 7 gezeigt. In 6 drückt die Abszissenachse die Zeit aus und die Ordinatenachsen drücken die Amplitude aus. In 7 drücken die Abszissenachsen die Frequenz aus und die Ordinatenachsen drücken die Amplitude aus.
  • Die Sinuswelle wird ein Linienspektrum mit einer scharfen Spitze, und die Windowingfunktion wird das Spektrum, konzentriert in einer Niederfrequenzdomäne. Das Windowing (Multiplikation) in der Zeitdomäne entspricht Faltung in der Frequenzdomäne. Aus diesem Grund zeigt das Spektrum der Formantwellenform eine Form an, erhalten durch paralleles Verlagern des Spektrums der Windowingfunktion zu der Position der Frequenz der Sinuswelle. Deshalb kann Steuern der Frequenz oder Phase der Sinuswelle die mittlere Frequenz oder Phase des Formants der Tonhöhenwellenform ändern. Steuern der Form der Windowingfunktion kann die Spektrumsform des Formants der Tonhöhenwellenform ändern.
  • Da die mittlere Frequenz, Phase und Spektrumsform des Formants unabhängig für jeden Formant gesteuert werden können, kann, wie somit beschrieben, ein äußerst flexibles Modell realisiert werden. Da die Windowingfunktion erlaubt, dass die äußerst detaillierte Struktur von Spektrum ausgedrückt wird, kann sich ferner die synthetisierte Sprache zu einer hohen Genauigkeit der Spektrumsstruktur natürlicher Sprache annähern, wobei so das Gefühl einer natürlichen Stimme erzeugt wird.
  • Der Tonhöhenwellenformgenerator 34 der zweiten Ausführungsform der vorliegenden Erfindung wird Bezug nehmend auf 8 beschrieben. In der zweiten Ausführungsform werden gleiche Bezugszeichen verwendet, um gleiche strukturelle Elemente entsprechend jenen in der ersten Ausführungsform zu bezeichnen. Es werden nur die Abschnitte beschrieben, die unterschiedlich sind.
  • In der vorliegenden Ausführungsform werden die Windowingfunktionen durch Basisfunktionen entwickelt, und eine Gruppe von Gewichtungsfaktoren wird in dem Speicher 51 an Stelle einer Speicherung der Windowingfunktionen als die Formantparameter gespeichert. Der neu hinzugefügte Windowingfunktionsgenerator 56 generiert Windowingfunktionen aus den Gewichtungsfaktoren.
  • Ein Beispiel der Formantparameter, die in dem Formantparameterspeicher 41 gespeichert sind, wird in 5 gezeigt. In dem Beispiel wird die Windowingfunktion durch die Summe von drei Basisfunktionen, gewichtet durch die Gewichtungsfaktoren, erhalten. Eine Menge von drei Faktoren wird in dem Speicher 51 als eine Menge von Windowingfunktions-Gewichtungsfaktoren gespeichert. Der Parameterselektor 42 gibt die Formantfrequenzen 402, 404 und 406 und Formantphasen 403, 405 und 407 in den ausgewählten Formantparametern 501 zu den Sinuswellengeneratoren 43, 44 und 45 aus, und gibt eine Menge von Windowingfunktions-Gewichtungsfaktoren 517, 518 und 519 zu dem Windowingfunktionsgenerator 56 aus.
  • Der Windowingfunktionsgenerator 56 generiert Windowingfunktionen 511, 512 und 513 basierend auf den Windowingfunktions-Gewichtungsfaktoren 517, 518 bzw. 519. Falls die Gewichtungsfaktoren als a1, a2 und a3, und die Basisfunktionen als b1(t), b2(t) und b3(t) dargestellt werden, wird die Windowingfunktion W(t) durch die folgende Gleichung ausgedrückt. W(t) = a1*b1(t) + a2*b2(t) + a3*b3(t)
  • Die Basisfunktionen können die DCT-Basis verwenden, und können Basisfunktionen verwenden, die durch Unterziehen der Windowingfunktionen einer KL-Expansion generiert werden. In der vorliegenden Ausführungsform ist der Basisgrad auf 3 gesetzt, ist aber nicht auf 3 begrenzt. Entwicklung der Windowingfunktionen zu den Basisfunktionen reduziert die Speicherkapazität des Formantparameterspeichers.
  • Der Tonhöhenwellenformgenerator 34 der dritten Ausführungsform der vorliegenden Erfindung wird Bezug nehmend auf 9 beschrieben. In der dritten Ausführungsform werden gleiche Bezugszeichen verwendet, um gleiche strukturelle Elemente entsprechend jenen in der ersten Ausführungsform zu bezeichnen. Es werden nur die Abschnitte beschrieben, die unterschiedlich sind. In der vorliegenden Ausführungsform wird ein Parameterumformer 67 neu hinzugefügt, und die Formantparameter werden gemäß dem Tonhöhenmuster 306 variiert.
  • Der Parameterumformer 67 gibt Formantfrequenz 720, Formantphase 721, Windowingfunktion 717, Formantfrequenz 722, Formantphase 723, Windowingfunktion 718, Formantfrequenz 724, Formantphase 725 und Windowingfunktion 719 durch Ändern der Formantfrequenz 402, Formantphase 403, Windowingfunktion 411, Formantfrequenz 404, Formantphase 405, Windowingfunktion 412, Formantfrequenz 406, Formantphase 407 und Windowingfunktion 413 gemäß dem Tonhöhenmuster 306 aus. Es können alle Parameter können geändert werden, und es kann ein Teil der Parameter geändert werden.
  • 10 zeigt ein Beispiel einer Steuerfunktion, wenn der Parameterumformer 67 die Formantfrequenz gemäß der Tonhöhenperiode steuert. Eine derartige Steuerfunktion kann für jedes Phonem, jeden Rahmen oder jede Formantnummer eingestellt werden. Die Formantfrequenz kann gemäß der Tonhöhenperiode durch Eingeben einer derartigen Steuerfunktion zu dem Parameterumformer 67 gesteuert werden. Es kann eine Steuerfunktion, um den differenziellen Wert und Verhältnis der Eingangs-/Ausgangs-Formantfrequenz zu steuern, an Stelle der Formantfrequenz selbst verwendet werden.
  • 11 zeigt die Steuerfunktion, um die Leistung vom Formant durch Multiplizieren der Verstärkung entsprechend der Tonhöhenperiode mit den Windowingfunktionen zu steuern. Es ist möglich, die Spektrumsänderung von Sprache gemäß der Änderung der Tonhöhenperiode durch Eingeben einer derartigen Steuerfunktion zu dem Parameterumformer 67 und Ändern der Parameter gemäß der Tonhöhenperiode zu modellieren. Als ein Ergebnis ist es möglich, synthetisierte Sprache hoher Qualität zu generieren, was nicht von der Tonhöhe der Stimme abhängig ist.
  • Durch Eingeben von Phonemsymbolzeichenkette 308 in den Parameterumformer 67 können ferner die Formantparameter gemäß einer Art vom vorhergehenden oder folgenden Phonem geändert werden. Als ein Ergebnis ist es möglich, ein variables Sprachspektrum basierend auf der Phonemumgebung zu modellieren, und Sprachqualität zu verbessern.
  • Des weiteren kann die Stimmenvielfaltinformation 309, die zu dem Parameterumformer 67 von einer externen Einrichtung (nicht gezeigt) eingegeben wird, geändert werden, um unterschiedliche Parameter zu erzeugen. In diesem Fall ist es möglich, synthetisierte Sprache verschiedener Stimmenqualitäten zu generieren.
  • 12 zeigt ein Beispiel einer Änderung der Stimmentonhöhe durch Ändern der Formantfrequenz. Falls alle Formantfrequenzen durch die Steuerfunktion (a) konvertiert werden, wird, da der Formant zu einer hohen Frequenzdomäne verlagert wird, eine dünne Stimme generiert. Die Steuerfunktion (b) generiert eine etwas dünne Stimme. Falls die Steuerfunktion (d) verwendet wird, wird, da sich die Formantfrequenz zu einer niederen Frequenzdomäne verlagert, eine tiefe Stimme generiert. Die Steuerfunktion (c) generiert eine tiefere Stimme.
  • Der Tonhöhenwellenformgenerator 34 der vierten Ausführungsform der vorliegenden Erfindung wird Bezug nehmend auf 13 beschrieben. In der vierten Ausführungsform werden gleiche Bezugszeichen verwendet, um gleiche strukturelle Elemente entsprechend jenen in der ersten Ausführungsform zu bezeichnen. Es werden nur die Abschnitte beschrieben, die unterschiedlich sind. In der vorliegenden Ausführungsform wird die Parameterglättungseinrichtung 77 hinzugefügt, um die Parameter zu glätten, sodass die zeitbasierte Änderung von jedem Formantparameter geglättet wird.
  • Die Parameterglättungseinrichtung 77 gibt Formantfrequenz 820, Formantphase 821, Windowingfunktion 817, Formantfrequenz 822, Formantphase 823, Windowingfunktion 818, Formantfrequenz 824, Formantphase 825 und Windowingfunktion 819 durch Glätten der Formantfrequenz 402, Formantphase 403, Windowingfunktion 411, Formantfrequenz 404, Formantphase 405, Windowingfunktion 412, Formantfrequenz 406, Formantphase 407 bzw. Windowing funktion 413 aus. Es können alle Parameter geglättet werden, oder lediglich teilweise geglättet werden.
  • 14 zeigt ein Beispiel einer Glättung vom Formant. X stellt die Formantfrequenzen 402, 404 und 406 vor einer Glättung dar. Die geglätteten Formantfrequenzen 820, 822 und 824, angezeigt durch O, werden durch Durchführen einer Glättung generiert, sodass eine Änderung zwischen entsprechenden Formantfrequenzen des aktuellen Rahmens und des vorausgehenden oder folgenden Rahmens geglättet werden.
  • Wenn die Formante zwischen Syntheseeinheiten nicht korrespondieren, stirbt der Formant entsprechend der Formantfrequenz 404 aus, wie durch X in 15A gezeigt. Da in diesem Fall eine große Diskontinuität zu dem Spektrum erzeugt wird und sich die Sprachqualität verschlechtert, wird die Formantfrequenz 822 durch Addieren von Formanten generiert, wie durch O gezeigt. Zu dieser Zeit wird die Leistung der Windowingfunktion 818 entsprechend der Formantfrequenz 822 gedämpft, wie in 15B gezeigt, um eine Diskontinuität der Formantleistung zu verhindern.
  • 16A und 16B zeigen Beispiele von Windowingfunktions-Positionsglättung. Glättung der Windowingfunktionspositionen, sodass die Spitzenposition der Windowingfunktion 411 zwischen Rahmen variiert, generiert die Windowingfunktion 817 nahtlos. Ferner können auch die Form und Leistung der Windowingfunktion geglättet werden.
  • Die obige Ausführungsform wird für 3 Formante erläutert. Die Zahl von Formanten ist nicht auf 3 begrenzt, und kann jeden Rahmen geändert werden.
  • Der Sinuswellengenerator der Ausführungsformen der vorliegenden Erfindung gibt eine Sinuswelle aus. Es kann jedoch eine Wellenform mit einem liniennahen Leistungsspektrum an Stelle einer vollständigen Sinuswelle verwendet werden. Im Fall, dass Berechnungsgenauigkeit des Sinuswellengenerators verschlechtert wird und der Sinuswellengenerator z.B. eine Tabelle umfasst, um die Berechnungskosten zu reduzieren, wird die vollständige Sinuswelle wegen einem Fehler nicht erhalten.
  • Ferner kann das Spektrum einer Formantwellenform nicht immer die Spitze des Spektrums eines Sprachsignals anzeigen, und das Spektrum der Tonhöhenwellenform, was die Summe von vielen Formantwellenformen ist, drückt ein Spektrum von Sprache aus.
  • Die obige Ausführungsform der vorliegenden Erfindung sieht einen Synthesizer für Text-Sprache-Synthese vor, aber eine andere Ausführungsform der vorliegenden Erfindung sieht einen Decoder für Geschwindigkeitskodierung vor. Mit anderen Worten erhält der Kodierer, aus dem Sprachsignal, Formantparameter, wie etwa Formantfrequenz, Formantphase, Windowingfunktion etc., und Tonhöhenperiode etc., durch Analyse, und kodiert sie und überträgt oder speichert Codes. Der Decoder dekodiert die Formantparameter und Tonhöhenperioden, und rekonstruiert das Sprachsignal ähnlich zu dem obigen Synthesizer.
  • Die obige Sprachsynthese kann durch eine Programmsteuerung gemäß einem Programm ausgeführt werden, das auf einem computerlesbaren Aufzeichnungsmedium gespeichert ist. Die Programmsteuerung wird Bezug nehmend auf 17A oder mehr 17C beschrieben. 17A zeigt ein Flussdiagramm des Sprachsyntheseprozesses, 17B zeigt ein Flussdiagramm des Generierungsprozesses stimmhafter Sprache des Sprachsyntheseprozesses und 17C zeigt ein Flussdiagramm des Tonhöhenwellenform-Generierungsprozesses des Generierungsprozesses stimmhafter Sprache von 17B.
  • In dem Sprachsyntheseprozess in 17A werden das Tonhöhenmuster 306, die Phonemdauer 307 und die Phonemsymbolzeichenkette 308 eingegeben (S11). Das Signal stimmhafter Sprache 303 wird basierend auf dem Tonhöhenmuster 306, der Phonemdauer 307 und der Phonemsymbolzeichenkette 308 generiert (S12). Das Signal stimmloser Sprache 304 wird Bezug nehmend auf die Phonemdauer 307 und Phonemsymbolzeichenkette 308 generiert (S13). Das Signal stimmhafter Sprache und das Signal stimmloser Sprache werden addiert, um das synthetisierte Sprachsignal 305 zu generieren (S14).
  • In dem Generierungsprozess stimmhafter Sprache in 17B wird die Tonhöhenmarkierung 302 Bezug nehmend auf das Tonhöhenmuster 306 und die Phonemdauer 307 generiert (S21). Die Tonhöhenwellenformen 301 werden entsprechend den Tonhöhenmarkierungen 302 Bezug nehmend auf das Tonhöhenmuster 306, die Phonemdauer 307 und die Phonemsymbolzeichenkette 308 generiert (S22). Die Tonhöhenwellenformen 301 werden in den Positionen überlagert, die durch die Tonhöhenmarkierungen 302 angezeigt werden, um eine stimmhafte Sprache zu generieren (S23).
  • In dem Tonhöhenwellenform-Generierungsprozess in 17C werden die Formantparameter 401 für 1 Rahmen entsprechend der Tonhöhenmarkierung 302 aus dem Formantparameterspeicher 41 Bezug nehmend auf das Tonhöhenmuster 306, die Phonemdauer 307 und die Phonemsymbolzeichenkette 308 ausgewählt (S31). Es werden viele Sinuswellen gemäß den Formantfrequenzen und Formantphasen entsprechend den Formantnummern der ausgewählten Formantparameter 401 generiert (S32). Die Formantwellenformen 414, 415 und 416 werden durch Multiplizieren der vielen Sinuswellen mit den Windowingfunktionen generiert (S33). Die Formantwellenformen werden addiert, um eine Tonhöhenwellenform zu generieren (S34).
  • Wie oben beschrieben ist es gemäß der vorliegenden Erfindung, da die Formantfrequenz und Formantform unabhängig für jeden Formant gesteuert werden, möglich, die Spektrumsänderung von Sprache wegen der Tonhöhenperiodenvariation und Stimmenvielfaltsänderung zwischen den Formanten auszudrücken, und Sprachsynthese hoher Flexibilität zu realisieren. Da die Form der Windowingfunktionen die detaillierte Struktur des Formantspektrums ausdrücken kann, kann synthetisierte Sprache hoher Qualität mit einem natürlichen Stimmengefühl generiert werden.

Claims (20)

  1. Sprachsyntheseverfahren, die Schritte umfassend zum: Generieren von Formantparametern; Auswählen vorbestimmter Formantparameter aus den Formantparametern gemäß einer Phonemsymbolzeichenkette; Generieren einer Vielzahl von Sinuswellen basierend auf der Formantfrequenz entsprechend den ausgewählten Formantparametern; Multiplizieren der Sinuswellen mit den Windowingfunktionen entsprechend jeweils den ausgewählten Formantparametern, um eine Vielzahl von Formantwellenformen zu generieren; Addieren der Formantwellenformen, um eine Vielzahl von Tonhöhenwellenformen zu generieren; und Überlagern der Tonhöhenwellenformen gemäß einer Tonhöhenperiode, um ein Sprachsignal zu generieren, gekennzeichnet durch Generieren der Windowingfunktionen durch Addieren von Basisfunktionen, die durch Gewichtungsfaktoren gewichtet sind.
  2. Sprachsyntheseverfahren, wie in Anspruch 1 definiert, gekennzeichnet dadurch, dass die Basisfunktionen DCT-Basis- oder KL-Erweiterungsbasisfunktionen verwenden.
  3. Sprachsyntheseverfahren, wie in Anspruch 1 oder 2 beansprucht, gekennzeichnet durch individuelles Ändern der Windowingfunktionen.
  4. Sprachsyntheseverfahren, wie in Anspruch 1 definiert, gekennzeichnet durch Inkludieren einer Änderung mindestens eines von Leistung von mindestens einer der Formantwellenformen, Form von mindestens einer der Windowingfunktionen, Position von mindestens einer der Windowingfunktionen und mindestens einer der Formantfrequenzen gemäß der Tonhöhenperiode.
  5. Sprachsyntheseverfahren, wie in Anspruch 1, 2 oder 3 definiert, gekennzeichnet dadurch, dass mindestens eines von Leistung von mindestens einer der Formantwellenformen, Form von mindestens einer der Windowingfunktionen, Position von mindestens einer der Windowingfunktionen und mindestens einer der Formantfrequenzen jedes Phonem, jeden Rahmen oder jede Formantzahl geändert wird.
  6. Sprachsyntheseverfahren, wie in Anspruch 1, 2 oder 3 definiert, gekennzeichnet durch Inkludieren einer Änderung mindestens eines von Leistung von mindestens einer der Formantwellenformen, Form von mindestens einer der Windowingfunktionen, Position von mindestens einer der Windowingfunktionen und mindestens einer der Formantfrequenzen gemäß einer Art von mindestens einem vorangehenden Phonem oder folgenden Phonem.
  7. Sprachsyntheseverfahren, wie in Anspruch 1, 2 oder 3 definiert, gekennzeichnet durch Inkludieren einer Änderung mindestens eines von Leistung von mindestens einer der Formantwellenformen, Form von mindestens einer der Windowingfunktionen, Position von mindestens einer der Windowingfunktionen und mindestens einer der Formantfrequenzen gemäß Information einer gegebenen Sprachvielfalt.
  8. Sprachsyntheseverfahren, wie in Anspruch 1, 2 oder 3 definiert, gekennzeichnet durch Inkludieren einer Änderung mindestens eines von Leistung von mindestens einer der Formantwellenformen, mindestens einer der Formantfrequenzen, Form von mindestens einer der Windowingfunktionen, Phase von mindestens einer der Sinuswellen und Position von mindestens einer der Windowingfunktionen gemäß mindestens einem von Leistung von mindestens einer der Formantwellenformen, mindestens einer der Formantfrequenzen, Form von mindestens einer der Windowingfunktionen, Phase von mindestens einer der Sinuswellen und Position von mindestens einer der Windowingfunktionen eines entsprechenden Formants von mindestens einer vorangehenden Tonhöhenwellenform oder einer folgenden Tonhöhenwellenform.
  9. Sprachsyntheseverfahren, wie in Anspruch 1, 2 oder 3 definiert, gekennzeichnet durch Inkludieren einer Änderung mindestens eines von Leistung von mindestens einer der Formantwellenformen, mindestens einer der Formantfrequenzen, Form von mindestens einer der Windowingfunktionen, Phase von mindestens einer der Sinuswellen und Position von mindestens einer der Windowingfunktionen gemäß Vorhandensein eines entsprechenden Formants von mindestens einer vorangehenden Tonhöhenwellenform oder einer folgenden Tonhöhenwellenform.
  10. Sprachsyntheseverfahren; wie in einem beliebigen der vorangehenden Ansprüche definiert, gekennzeichnet durch In kludieren selektiver Glättung der Formantfrequenzen, Formantphasen und Windowingfunktionen.
  11. Sprachsynthesizer, versorgt mit einem Tonhöhenmuster, Phonemdauer und Phonemsymbolzeichenkette, umfassend: Mittel (33) zum Generieren von Tonhöhenmarkierungen Bezug nehmend auf das Tonhöhenmuster und die Phonemdauer; Mittel (51) zum Generieren von Formantparametern; Mittel (52) zum Auswählen der Formantparameter für einen Rahmen entsprechend der Phonemsymbolzeichenkette; Mittel (4345) zum Generieren von Sinuswellen gemäß Formantfrequenzen der gelesenen Formantparameter; Mittel zum Multiplizieren der Sinuswellen mit Windowingfunktionen der ausgewählten Formantparameter, um Formantwellenformen zu generieren; Mittel zum Addieren der Formantwellenformen, um Tonhöhenwellenformen zu generieren; Mittel (35) zum Überlagern der Tonhöhenwellenformen in den Tonhöhenmarkierungen, um ein stimmhaftes Sprachsignal zu generieren; Mittel (32) zum Generieren einer stimmlosen Sprache; und Mittel zum Addieren der stimmhaften Sprache und der stimmlosen Sprache, um synthetisierte Sprache zu generieren, gekennzeichnet durch Mittel (56) zum Generieren der Windowingfunktionen durch Addieren von Basisfunktionen, die durch die Gewichtungsfaktoren gewichtet sind.
  12. Sprachsynthesizer, wie in Anspruch 11 definiert, gekennzeichnet durch Mittel (51) zum Speichern einer Vielzahl von Gewichtungsfaktoren.
  13. Sprachsynthesizer, wie in Anspruch 11 oder 12 definiert, gekennzeichnet durch individuelles Ändern der Windowingfunktionen.
  14. Sprachsynthesizer, wie in Anspruch 11, 12 oder 13 definiert, gekennzeichnet dadurch, dass das Mittel (56) zum Generieren der Windowingfunktionen als die Basisfunktionen DCT-Basis- oder KL-Erweiterungsbasisfunktionen verwendet.
  15. Sprachsynthesizer, wie in einem beliebigen von Ansprüchen 11 bis 14 definiert, gekennzeichnet durch Inkludieren von Mitteln (67) zum Transformieren der ausgewählten Formantparameter gemäß der Tonhöhenperiode.
  16. Sprachsynthesizer, wie in Anspruch 15 definiert, gekennzeichnet dadurch, dass das Transformierungsmittel (67) die ausgewählten Formantparameter jedes Phonem, jeden Rahmen oder jede Formantzahl transformiert.
  17. Sprachsynthesizer, wie in einem beliebigen von Ansprüchen 11 bis 14 definiert, gekennzeichnet durch Inkludieren von Mitteln (67) zum Transformieren der ausgewählten Formantparameter gemäß Information eines vorangehenden Phonems oder eines folgenden Phonems.
  18. Sprachsynthesizer, wie in einem beliebigen von Ansprüchen 11 bis 14 definiert, gekennzeichnet durch Inkludieren von Mitteln (67) zum Transformieren der ausgewählten Formantparameter gemäß gegebener Sprachvielfalt.
  19. Sprachsynthesizer, wie in beliebigen von Ansprüchen 11 bis 18 definiert, gekennzeichnet durch Inkludieren von Mitteln (77) zum Glätten der ausgewählten Formantparameter, die zeitlich variieren.
  20. Trägermedium, das computerlesbare Instruktionen trägt, zum Steuern eines Computers, das Verfahren nach einem beliebigen von Ansprüchen 1 bis 10 auszuführen.
DE60205421T 2001-03-26 2002-03-26 Verfahren und Vorrichtung zur Sprachsynthese Expired - Lifetime DE60205421T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001087041 2001-03-26
JP2001087041 2001-03-26
JP2002077096A JP3732793B2 (ja) 2001-03-26 2002-03-19 音声合成方法、音声合成装置及び記録媒体
JP2002077096 2002-03-19

Publications (2)

Publication Number Publication Date
DE60205421D1 DE60205421D1 (de) 2005-09-15
DE60205421T2 true DE60205421T2 (de) 2006-04-20

Family

ID=26612017

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60205421T Expired - Lifetime DE60205421T2 (de) 2001-03-26 2002-03-26 Verfahren und Vorrichtung zur Sprachsynthese

Country Status (5)

Country Link
EP (1) EP1246163B1 (de)
JP (1) JP3732793B2 (de)
KR (1) KR100457414B1 (de)
CN (1) CN1185619C (de)
DE (1) DE60205421T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003254398A1 (en) * 2002-09-10 2004-04-30 Leslie Doherty Phoneme to speech converter
JP2004294816A (ja) * 2003-03-27 2004-10-21 Yamaha Corp 携帯端末装置
JP4214842B2 (ja) 2003-06-13 2009-01-28 ソニー株式会社 音声合成装置及び音声合成方法
JP2005004105A (ja) * 2003-06-13 2005-01-06 Sony Corp 信号生成装置及び信号生成方法
JP2005234337A (ja) * 2004-02-20 2005-09-02 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP4469883B2 (ja) 2007-08-17 2010-06-02 株式会社東芝 音声合成方法及びその装置
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
JP6728843B2 (ja) * 2016-03-24 2020-07-22 カシオ計算機株式会社 電子楽器、楽音発生装置、楽音発生方法及びプログラム
CN108257613B (zh) * 2017-12-05 2021-12-10 北京小唱科技有限公司 修正音频内容音高偏差的方法及装置
CN108597527B (zh) * 2018-04-19 2020-01-24 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN110189743B (zh) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 波形拼接中的拼接点平滑方法、装置及存储介质

Also Published As

Publication number Publication date
CN1378199A (zh) 2002-11-06
KR20020076144A (ko) 2002-10-09
EP1246163A3 (de) 2003-08-13
JP3732793B2 (ja) 2006-01-11
CN1185619C (zh) 2005-01-19
KR100457414B1 (ko) 2004-11-16
DE60205421D1 (de) 2005-09-15
EP1246163A2 (de) 2002-10-02
JP2002358090A (ja) 2002-12-13
EP1246163B1 (de) 2005-08-10

Similar Documents

Publication Publication Date Title
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
Peterson et al. Segmentation techniques in speech synthesis
Moulines et al. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
DE19610019C2 (de) Digitales Sprachsyntheseverfahren
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE60313539T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
US7251601B2 (en) Speech synthesis method and speech synthesizer
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
WO2000016310A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
DE60131521T2 (de) Verfahren und Vorrichtung zur Steuerung des Betriebs eines Geräts bzw. eines Systems sowie System mit einer solchen Vorrichtung und Computerprogramm zur Ausführung des Verfahrens
JPH09179576A (ja) 音声合成方法

Legal Events

Date Code Title Description
8364 No opposition during term of opposition