DE69917961T2 - Phonembasierte Sprachsynthese - Google Patents

Phonembasierte Sprachsynthese Download PDF

Info

Publication number
DE69917961T2
DE69917961T2 DE69917961T DE69917961T DE69917961T2 DE 69917961 T2 DE69917961 T2 DE 69917961T2 DE 69917961 T DE69917961 T DE 69917961T DE 69917961 T DE69917961 T DE 69917961T DE 69917961 T2 DE69917961 T2 DE 69917961T2
Authority
DE
Germany
Prior art keywords
phoneme
duration
speech
value
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69917961T
Other languages
English (en)
Other versions
DE69917961D1 (de
Inventor
Mitsuru Ohta-ku Ohtsuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69917961D1 publication Critical patent/DE69917961D1/de
Application granted granted Critical
Publication of DE69917961T2 publication Critical patent/DE69917961T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Circuits (AREA)
  • Telephone Function (AREA)

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein Gerät zur Sprachanalyse unter Verwendung eines regelbasierenden Syntheseverfahrens und auf ein Speichermedium, das computerlesbare Programme zum Realisieren des Sprachsyntheseverfahrens speichert.
  • Als Verfahren zum Steuern einer Phonemdauer verwendet ein herkömmliches regelbasierendes Sprachsynthesegerät ein Steuerregelverfahren, das auf der Grundlage von Statistiken basiert, die sich auf eine Phonemdauer beziehen (Yoshinori KOUSAKA, Youichi TOUKURA, "Phoneme Duration Control for Rule-Based Speech Synthesis", The Journal of the Institute of Electronics and Communication Engineers of Japan, Band J67-A, Nr. 7 (1984), Seiten 629–636) oder ein Verfahren des Anwendens kategorischer multipler Regression als eine Technik der multiplen Regressionsanalyse (Tetsuya SAKAYORI, Shoichi SASAKI, Hiroo KITAGAWA, "Prosodies Control Using Categorical Multiple Regression for Rule-Based Synthesis, "Report of the 1986 Autumn Meeting of the Acoustic Society of Japan, 3-4-17 (1986-10).
  • Nach der obigen herkömmlichen Technik ist es jedoch schwierig, die Spracherzeugungszeit einer Phonemkette zu spezifizieren. Beispielsweise ist es bei dem Steuerregelverfahren schwierig, eine Steuerregel zu bestimmen, die einer spezifizierten Spracherzeugungszeit entspricht. Wenn eingegebene Daten eine Ausnahme im Steuerregelverfahren haben, oder wenn darüber hinaus ein befriedigender Schätzwert nicht im Verfahren der kategorischen multiplen Regression gewonnen wird, wird es schwierig, eine Phonemdauer zu erhalten, die einen natürlichen Klang hat.
  • Im Falle des Steuerns einer Phonemdauer unter Verwendung von Steuerregeln ist es erforderlich, die Statistiken zu wichten (Durchschnittswert, Standardabweichung usw.), während die Kombination vorangehender und nachfolgender Phoneme zu berücksichtigen ist, oder es ist erforderlich, einen Erweiterungskoeffizienten einzusetzen. Es gibt verschiedene Faktoren, die gehandhabt werden müssen, beispielsweise eine Kombination von Phonemen, die von jedem Fall abhängen, Parametern, wie Wichtungs- und Erweiterungskoeffizienten und dergleichen. Darüber hinaus muß das Betriebsverfahren (Steuerregeln) bestimmt werden durch eine Daumenregel. Im Falle, bei dem die Sprachproduktionszeit einer Phonemkette spezifiziert ist, wird folglich die Anzahl von Kombinationen der Phoneme äußerst groß. Des weiteren ist es schwierig, Steuerregeln zu bestimmen, die auf eine beliebige Kombination von Phonemen anwendbar sind, bei denen die Gesamtphonemdauer nahe an der spezifizierten Spracherzeugungszeit liegt.
  • Das Dokument WO 96/42079 beschreibt ein Sprachsynthesegerät, das eine Sprachsynthese gemäß einer eingegebenen Phonemkette ausführt, mit:
    einem Speichermittel, das statistische Daten bezüglich einer Phonemdauer eines jeden Phonems speichert;
    einem Bestimmungsmittel zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette;
    einem Einstellmittel zum Einstellen der Phonemdauer entsprechend der Sprachwiedergabezeit eines jeden Phonems, das die Phonemkette aufbaut, basierend auf statistischen Daten eines jeden aus dem Speichermittel gewonnenen Phonems; und mit
    einem Erzeugungsmittel, das eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer erzeugt.
  • Nach einem Aspekt ist die vorliegende Erfindung dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer eines jeden Phonems enthalten;
    das Gerät ein Anfangswertgewinnungsmittel enthält, um eine geschätzte Dauer des Phonems durch Mehrfachregressionsanalyse unter Verwendung der im Speichermittel gespeicherten Mehrfachregressionsanalysedaten zu gewinnen;
    das Einstellmittel eine Anfangsphonemdauer für jedes die Phonemkette aufbauende Phonem auf der Grundlage der geschätzten Dauer einstellt; und daß
    das Einstellmittel ein Rechenmittel enthält, das betriebsbereit ist zum Errechnen einer Phonemdauer durch Addieren eines auf den Standardabweichungsdaten vom aus dem Speichermittel gewonnenen Phonem basierend errechneten Wertes mit der für das Phonem eingestellten Anfangsphonemdauer, wobei die individuellen Phonemdauern bestimmt sind, um die vom Bestimmungsmittel bestimmte Spracherzeugungszeit aufzusummieren.
  • Nach weiteren Aspekten ist die Erfindung in den Patentansprüchen 10 und 19 angegeben.
  • Die vorliegende Erfindung hat den Vorteil, daß sie eine spezifizierte Spracherzeugungszeit erreicht und kann eine natürliche Phonemdauer schaffen, ungeachtet der Länge der Spracherzeugungszeit.
  • Des weiteren schafft die vorliegende Erfindung ein Sprachsyntheseverfahren, das vom obigen Sprachsynthesegerät ausgeführt wird. Darüber hinaus stellt die vorliegende Erfindung ein Speichermedium bereit, das Steuerprogramme speichert, um das obige Sprachsyntheseverfahren vom Computer zu realisieren.
  • Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit der beiliegenden Zeichnung deutlich, in der gleiche Bezugszeichen dieselben oder ähnliche Teile in allen Figuren bedeuten.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Die beiliegende Zeichnung, die einen Teil der Beschreibung bildet, veranschaulicht Beispiele der Erfindung und dient gemeinsam mit der Beschreibung der Erläuterung des erfinderischen Prinzips.
  • 1 ist ein Blockdiagramm, das ein Aufbau eines Sprachsynthesegerätes nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 2 ist ein Blockdiagramm, das eine Ablaufstruktur des Sprachsynthesegerätes nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 3 ist ein Ablaufdiagramm, das die Sprachsyntheseschritte nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 4 ist eine Tabelle, die die Konfiguration von Phonemdaten gemäß einem Beispiel der Sprachsynthese zeigt;
  • 5 ist ein Ablaufdiagramm, das einen Bestimmungsprozeß einer Phonemdauer nach dem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 6 ist eine Ansicht, die ein Beispiel einer eingegebenen Phonemkette zeigt;
  • 7 ist eine Tabelle, die eine Datenkonfiguration einer Koeffiziententabelle zeigt, die Koeffizienten aj,k für die kategorische multiple Regression nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
  • 8 ist eine Tabelle, die eine Datenkonfiguration von Phonemdaten nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
  • 9A und 9B sind Ablaufdiagramme, die einen Bestimmungsprozeß einer Phonemdauer nach einem zweiten Ausführungsbeispiel der vorliegenden Erfindung zeigen.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Ein Beispiel eines Sprachsyntheseverfahrens und ein Beispiel der vorliegenden Erfindung ist nachstehend anhand der beiliegenden Zeichnung beschrieben.
  • Beispiel
  • 1 ist ein Blockdiagramm, das den Aufbau eines Sprachsynthesegerätes nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt. Bezugszeichen 101 bedeutet eine CPU, die verschiedene Steuerungen im regelbasierenden Sprachsynthesegerät des vorliegenden Ausführungsbeispiels ausführt. Bezugszeichen 102 bedeutet einen ROM, bei dem verschiedene Parameter und Steuerprogramme gespeichert sind, die die CPU 101 ausführt. Bezugszeichen 103 bedeutet einen RAM, der Steuerprogramme speichert, die die CPU 101 ausführt, und dient auch als Arbeitsbereich der CPU 101. Bezugszeichen 104 bedeutet einen externen Speicher, beispielsweise eine Festplatte, eine Diskette, einen CD-ROM und dergleichen. Bezugszeichen 105 bedeutet eine Eingabeeinheit, die über eine Tastatur, eine Maus usw. verfügt. Bezugszeichen 106 bedeutet eine Anzeige zum Ausführen verschiedener Anzeigen gemäß der Steuerung von der CPU 101. Bezugszeichen 6 bedeutet einen Sprachsynthesizer zum Erzeugen synthetisierter Sprache. Bezugszeichen 107 bedeutet einen Lautsprecher, der Sprachsignale (elektrische Signale) umsetzt in Klang und abgibt, die vom Sprachsynthesizer 6 kommen.
  • 2 ist ein Blockdiagramm, das die Ablaufstruktur des Synthesegerätes nach dem Ausführungsbeispiel zeigt. Nachstehend zu beschreibende Funktionen realisiert die CPU 101, die Steuerprogramme ausführt, die der ROM 102 speichert, oder Steuerprogramme ausführt, die von einem externen Speicher 104 zum RAM 103 kommen.
  • Bezugszeichen 1 bedeutet eine Zeichenketteeingabeeinheit zur Eingabe einer Zeichenkette von zu synthetisierender Sprache, das heißt, phonetischer Text, der über die Eingabeeinheit 105 hereinkommt. Wenn beispielsweise die zu synthetisierende Sprache "O·N·S·E·I" ist, gibt die Zeichenketteneingabeeinheit eine Zeichenkette "o, n, s, e, i" ein. Diese Zeichenkette enthält gelegentlich eine Steuersequenz zur Eingabe der Spracherzeugungsgeschwindigkeit oder der Tonhöhe der Sprache. Bezugszeichen 2 bedeutet eine Steuerdatenspeichereinheit, die in internen Registern Informationen speichert, die man findet als Steuersequenz durch die Zeichenketteeingabeeinheit 1, und Steuerdaten, wie die Spracherzeugungsgeschwindigkeit und die Tonhöhe der Sprache oder dergleichen, die von einer Nutzerschnittstelle eingegeben werden. Bezugszeichen 3 bedeutet eine Phonemkettenerzeugungseinheit, die eine Zeichenkette umsetzt, die über die Zeichenketteneingabeeinheit 1 hereinkommt, und zwar in eine Phonemkette. Beispielsweise wird die Zeichenkette "o, n, s, e, i" umgesetzt in eine Phonemkette "o, X, s, e, i". Bezugszeichen 4 bedeutet eine Phonemkettenspeichereinheit, die die von der Phonemkettenerzeugungseinheit 3 erzeugte Phonemkette in internen Registern speichert. Angemerkt sei, daß der RAM 103 als zuvor genanntes internes Register dienen kann.
  • Bezugszeichen 5 bedeutet eine Phonemdauereinstelleinheit, die eine Phonemdauer gemäß den Steuerdaten einstellt, dargestellt durch Sprachwiedergabegeschwindigkeit, die in der Steuerdatenspeichereinheit 2 gespeichert ist, und die Art des Phonems, das in der Phonemkettenspeichereinheit 4 gespeichert ist. Bezugszeichen 6 bedeutet einen Sprachsynthesizer, der synthetisierte Sprache aus der Phonemkette erzeugt, in der die Phonemdauer von der Phonemdauereinstelleinheit 5 eingestellt ist, sowie den Steuerdaten, die die Tonhöhe der Sprache darstellen und in der Steuerdatenspeichereinheit 2 gespeichert sind.
  • Als nächstes beschrieben ist das Einstellen einer Phonemdauer, die ausgeführt wird von der Phonemdauereinstelleinheit 5. Die Prozedur erfolgt nicht gemäß der Erfindung, sondern wird beschrieben, um das Verständnis für das Ausführungsbeispiel der nachstehenden Erfindung zu erleichtern. In der folgenden Beschreibung zeigt Ω einen Satz von Phonemen auf. Als Beispiel von Ω kann folgendes verwendet werden:
    Ω = {a, e, i, o, u, X (silbenbildend nasal), b, d, g, m, n, r, w, y, z, ch, f, h, k, p, s, sh, t, ts, Q (Doppelkonsonant)}
  • Hier wird angenommen, daß der Phonemsdauereinstellabschnitt ein Ausatmungsabschnitt ist (Abschnitt zwischen Pausen). Die Phonemsdauer di für jedes Phonem αi und der Phonemkette wird so bestimmt, daß die Phonemkette, aufgebaut aus dem Phonemen αi (1 ≤ i ≤ N) im Phonemdauereinstellabschnitt betont ist innerhalb der Spracherzeugungszeit T, die bestimmt ist auf der Grundlage der Steuerdaten, die eine jede Spracherzeugungsgeschwindigkeit darstellen, gespeichert in der Steuerdatenspeichereinheit 2. Mit anderen Worten, die Phonemdauer di (Gleichung (1b)) für jedes αi (Gleichung (1a)) der Phonemkette wird so bestimmt, daß sie der Gleichung (1c) genügt.
  • Figure 00070001
  • Hier ist der Phonemdaueranfangswert des Phonems αi festgelegt mit dαi0. Der Phonemdaueranfangswert dαi0 wird gewonnen beispielsweise durch Teilen der Spracherzeugungszeit T durch die Anzahl N der Phonemkette. In Hinsicht auf das Phonem αi eines Durchschnittswertes werden die Standardabweichung und der Minimalwert der Phonemdauer jeweils festgelegt mit μαi, σαi, dαimin. Unter Verwendung dieser Werte wird der Anfangswert dαi durch die Gleichung (2) bestimmt, und der gewonnene Wert wird eingesetzt als neuer Phonemdaueranfangswert. Genauer gesagt, der Durchschnittswert, der Standardabweichungswert und der Minimalwert der Phonemdauer werden für jede Phonemart gewonnen (für jedes αi), gespeichert im Speicher, und der Anfangswert der Phonemdauer wird erneut unter Verwendung dieser Werte bestimmt.
  • Figure 00070002
  • Unter Verwendung des Phonemdaueranfangswertes dαi, der auf diese Weise gewonnen wird, kann die Phonemdauer di gemäß folgender Gleichung (3a) bestimmt werden. Angemerkt sei, daß die gewonnene Phonemdauer di der Beziehung di < θαi genügt θαi (> 0) ein Schwellwert ist, di wird gemäß Gleichung (3b) eingesetzt. Der Grund dafür ist der, daß θαi wiedergegebene Sprache ist, die unnatürlich klingt, wenn sie zu kurz ist.
  • Figure 00080001
  • Genauer gesagt, die Summe der aktualisierten Anfangswerte von der Phonemdauer wird subtrahiert von der Spracherzeugungszeit T, und der sich ergebende Wert wird geteilt durch die Quadratsumme der Standardabweichung σαi der Phonemdauer. Der resultierende Wert wird als Koeffizient ρ verwendet. Das Produkt des Koeffizienten ρ mit dem Quadrat der Standardabweichung σαi wird dem Anfangswert dαi der Phonemdauer hinzugefügt, und als Ergebnis wird die Phonemdauer di gewonnen.
  • Die vorstehende Operation ist nachstehend anhand des Ablaufdiagramms von 3 beschrieben.
  • Zunächst wird in Schritt S1 ein phonetischer Text eingegeben durch die Zeichenketteeingabeeinheit 1. In Schritt S2 werden Steuerdaten (Spracherzeugungsgeschwindigkeit, Tonhöhe der Sprache) extern eingegeben, und die Steuerdaten im phonetischen Text, eingegeben in Schritt S1, werden in die Steuerdatenspeichereinheit 2 gespeichert. In Schritt 53 wird eine Phonemkette erzeugt von der Phonemkettenerzeugungseinheit 3 auf der Grundlage des phonetischen Textes, der von der Zeichenketteneingabeeinheit 1 eingegeben wurde.
  • Als nächstes wird in Schritt S4 eine Phonemkette des nächsten Phonemdauereinstellabschnitts in die Phonemkettenspeichereinheit 4 gespeichert. In Schritt S5 setzt die Phonemdauereinstelleinheit 5 den Phonemdaueranfangswert dαi gemäß der Phonemart αi ein (Gleichung (2)). In Schritt S6 wird die Spracherzeugungszeit T des Phonemdauereinstellabschnitts auf der Grundlage der Steuerdaten eingestellt, die die Spracherzeugungsgeschwindigkeit repräsentieren, gespeichert in der Steuerdatenspeichereinheit 2. Eine Phonemdauer wird für jede Phonemkette des Phonemdauereinstellabschnitts unter Verwendung der oben beschriebenen Gleichungen (3a) und (3b) eingesetzt, so daß die Gesamtphonemdauer der Phonemkette im Phonemdauereinstellabschnitt der Spracherzeugungszeit T vom Phonemdauereinstellabschnitt gleicht.
  • In Schritt S7 wird synthetisierte Sprache auf der Grundlage der Phonemkette erzeugt, wobei die Phonemdauer eingestellt wird von der Phonemdauereinstelleinheit 5 und den Steuerdaten, die die Tonhöhe der Sprache darstellen, gespeichert in der Steuerdatenspeichereinheit 2. In Schritt S8 wird bestimmt, ob die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, und wenn es sich nicht um den letzten Phonemdauereinstellabschnitt handelt, werden die extern eingegebenen Steuerdaten in die Steuerdatenspeichereinheit 2 in Schritt S10 gespeichert, und dann kehrt der Prozeß zu Schritt S4 zurück, um die Verarbeitung fortzusetzen.
  • Wenn zwischenzeitlich in Schritt S8 bestimmt ist, daß die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, schreitet der Ablauf fort zu Schritt S9, um zu bestimmen, ob alle Eingaben abgeschlossen sind. Sind die Eingaben nicht abgeschlossen, kehrt der Ablauf zu Schritt S1 zurück, um die oben beschrieben Verarbeitung zu wiederholen.
  • Der Prozeß des Bestimmens der Dauer für jedes Phonem, ausgeführt in den Schritten S5 und S6, wird weiterhin in Einzelheiten beschrieben.
  • 4 ist eine Tabelle, die die Konfiguration der Phonemdaten gemäß dem ersten Ausführungsbeispiel zeigt. Wie in 4 gezeigt, enthalten die Phonemdaten den Durchschnittswert μ der Phonemdauer, die Standardabweichung σ, die den Minimalwert dmin und den Schwellwert θ in Hinsicht auf jedes Phonem (a, e, i, o, u, ...) des Satzes von Phonemen Ω.
  • 5 ist ein Ablaufdiagramm, das den Prozeß des Bestimmens einer Phonemdauer gemäß dem ersten Ausführungsbeispiel zeigt, wobei der detaillierte Prozeß der Schritte S5 und S6 in 3 dargestellt ist.
  • Die Anzahl von Komponenten i in der Phonemkette (gewonnen in Schritt S4 in 3) und jede der Komponenten α1 bis αI, gewonnen in Hinsicht auf den Ausatmungsabschnittsgegenstand zur Verarbeitung werden als erstes in Schritt S101 bestimmt. Wenn beispielsweise die Phonemkette "o, X, s, e, i" enthält, werden α1 bis α5 in der in 6 gezeigten Weise bestimmt, und die Anzahl der Komponenten I beträgt 5. In Schritt S102 wird die Variable i auf 1 initialisiert, und der Prozeß schreitet fort zu Schritt S103.
  • In Schritt S103 werden der Durchschnittswert μ, die Standardabweichung σ und der Minimalwert dmin für das Phonem αi auf der Grundlage der Phonemdaten gewonnen, die in 4 gezeigt sind. Unter Verwendung der gewonnenen Daten wird der Phonemdaueranfangswert dαi aus der obigen Gleichung (2) bestimmt. Das Errechnen des Phonemdaueranfangswertes dαi in Schritt S103 wird für alle Phonemketten Gegenstände ausgeführt zur Verarbeitung. Genauer gesagt, die variable i wird in Schritt S104 inkrementiert, und Schritt S103 wird so oft wiederholt, wie die Variable i kleiner als i in Schritt S105 ist.
  • Die vorstehenden Schritte S101 bis S105 entsprechen dem Schritt S5 in 3. In der oben beschrieben Weise wird der Phonemdaueranfangswert für alle Phonemketten in Hinsicht auf den Ausatmungsabschnitt bestimmt, der Gegenstand der Verarbeitung ist, und die Verarbeitung schreitet fort zu Schritt S106.
  • In Schritt S106 wird die Variable i auf 1 initialisiert. In Schritt S107 wird die Phonemdauer di für das Phonem αi so bestimmt, daß es mit der Spracherzeugungszeit T des Ausatmungsabschnitts übereinstimmt, auf der Grundlage des Phonemdaueranfangswertes für alle Phoneme im Ausatmungsabschnitt, der im vorherigen Prozeß gewonnen wurde, und der Standardabweichung des Phonems αi (das heißt, bestimmt gemäß Gleichung (3a)). Wenn die in Schritt S107 gewonnene Phonemdauer kleiner ist als ein Schwellwert θαi, eingestellt für das Phonem αi, wird der Schwellwert θα1 auf di gesetzt (Schritte S108 und S109).
  • Das Errechnend er Phonemdauer di in den Schritten S107 bis S109 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S110 inkrementiert, und die Schritte S107 bis S109 werden so lange wiederholt, wie die Variable i kleiner als i in Schritt S111 ist.
  • Die vorstehenden Schritte S106 bis S111 entsprechen Schritt S106 in 3. In der zuvor beschriebenen Weise wird die Phonemdauer aller Phonemketten zum Erzielen der Erzeugungszeit T in Hinsicht auf den Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist.
  • Gleichung (2) dient dem Verhindern, daß der Phonemdaueranfangswert auf einen unrealistischen Weg gesetzt wird, oder einen Wert mit geringer Auftrittswahrscheinlichkeit. Es wird angenommen, daß eine Wahrscheinlichkeitsdichte der Phonemdauer Normalverteilung hat, die Wahrscheinlichkeit, daß der Anfangswert in den Bereich des Durchschnittswertes zu einem Wert ± dem Dreifachen der Standartabweichung fällt, beträgt 0,996. Um des weiteren die Phonemdauer nicht auf einen zu kleinen Wert zu setzen, wird der Wert nicht kleiner als der Minimalwert einer Abtastgruppe natürlicher Spracherzeugung gesetzt.
  • Gleichung (3a) wird als Ergebnis des Ausführens maximaler Wahrscheinlichkeitsschätzung gewonnen, unter der Bedingung von Gleichung (1c), wobei angenommen wird, daß die Normalverteilung den Phonemdaueranfangswert hat, der in Gleichung (2) als Durchschnittswert eingestellt wurde und die Wahrscheinlichkeitsdichte Funktion für jede Phonemdauer ist. Die maximale Wahrscheinlichkeitsschätzung ist nachstehend beschrieben.
  • Es wird angenommen, daß die Standardabweichung einer Phonemdauer vom Phonem αi gleich σαi ist. Ebenfalls angenommen wird, daß die Wahrscheinlichkeitsdichteverteilung der Phonemdauer eine Normalverteilung hat (Gleichung (4a)). Unter dieser Bedingung wird die logarithmische Wahrscheinlichkeit der Phonemdauer als Gleichung (4b) ausgedrückt. Das Erzielen der größten logarithmischen Wahrscheinlichkeit ist hier equivalent dem Gewinnen des kleinsten Wertes K in Gleichung (4c). Die Phonemdauer di, die der obigen Gleichung (1c) genügt, wird so bestimmt, daß die logarithmische Wahrscheinlichkeit der Phonemdauer am größten ist.
    Figure 00120001
    wobei Pαi(di) die Wahrscheinlichkeitsdichte Funktion der Dauer des Phonems αi ist und
    L(di) die Wahrscheinlichkeit der Phonemdauer ist.
  • Wenn hier die variable Umsetzung wie in Gleichung (5a) erfolgt, werden die Gleichungen (4c) und (1c) durch die Gleichungen (5b) beziehungsweise (5c) ausgedrückt. Wenn eine Sphere (Gleichung (5b)) in Kontakt mit einer Ebene (Gleichung (5c)) kommt, das heißt, der Fall der Gleichung (5d) hat der Wert K seinen kleinsten Wert. Im Ergebnis wird Gleichung (3a) gewonnen.
  • Figure 00130001
  • Betrachtet man die Gleichungen (2), (3a) und (3b) mit der Verwendung der statistischen Werte (Durchschnittwert, Standardabweichung, Minimalwert), gewonnen aus einer Abtastgruppe natürlicher Spracherzeugung, die Phonemdauer auf den höchstwahrscheinlichen Wert gesetzt (höchste Maximalwahrscheinlichkeit), die einer gewünschten Spracherzeugungszeit entspricht (Gleichung (1c)). Folglich ist es möglich, eine natürliche Phonemdauer zu erhalten, das heißt, ein Fehler, der in der Phonemdauer auftritt, ist gering, wenn Sprache erzeugt wird, die der gewünschten Spracherzeugungszeit entspricht (Gleichung (1c)).
  • Ausführungsbeispiel der Erfindung
  • Im Beispiel wird die Phonemdauer di eines jeden Phonems αi nach einer Regel bestimmt, ohne daß die Spracherzeugungsgeschwindigkeit oder die Kategorie des Phonems berücksichtigt wird. Im Ausführungsbeispiel wird die Regel für das Bestimmen der Phonemdauer di gemäß der Spracherzeugungsgeschwindigkeit oder der Kategorie des Phonems variiert, um eine natürlichere Sprachsynthese zu realisieren. Angemerkt sei, daß der Hardwareaufbau und der Funktionsaufbau vom zweiten Ausführungsbeispiel demjenigen des ersten Ausführungsbeispiels gleichen (1 und 2).
  • Ein Phonem αi wird einer Kategorie zugeordnet, die der Spracherzeugungsgeschwindigkeit gemäß ist, und der Durchschnittswert, die Standardabweichung und der Maximalwert werden gewonnen. Beispielsweise werden die Kategorien der Spracherzeugungsgeschwindigkeit folgendermaßen unter Verwendung einer Durchschnittsmoradauer im Ausatmungsabschnitt ausgedrückt:
    1: geringer als 120 Millisekunden
    2: gleich oder größer als 120 Millisekunden und kleiner als 140 Millisekunden
    3: gleich oder größer als 140 Millisekunden und kleiner als 160 Millisekunden
    4: gleich oder größer als 160 Millisekunden und kleiner als 180 Millisekunden
    5: gleich oder größer als 180 Millisekunden.
  • Angemerkt sei, daß der numerische Wert, der einer jeden Kategorie zugewiesen ist, ein Kategorieindex ist, der einer jeden Spracherzeugungsgeschwindigkeit entspricht. Wenn hier der Kategorieindex gemäß einer Spracherzeugungsgeschwindigkeit festgelegt ist mit n, sind der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer auszudrücken mit μαi(n), σαi(n) beziehungsweise dαimin(n).
  • Der Phonemdaueranfangswert des Phonems αi ist festgelegt mit dαi0. In einem Satz von Phonemen Ωa wird der Phonemdaueranfangswert dαi0 bestimmt vom Durchschnittswert. In einem Satz von Phonemen Ωr wird der Phonemdaueranfangswert dαi0 bestimmt durch entweder die multiple Regressionsanalyse, kategorische multiple Regression (Technik zur Erläuterung einer Prädiktion eines quantitativen externen Bezugs auf der Grundlage qualitativer Daten). Phoneme Ω enthalten keine Elemente, die nicht entweder Ωa oder Ωr enthalten, oder Elemente, die sowohl Ωa als auch Ωr enthalten. Mit anderen Worten, die Sätze von Phonemen entsprechen den folgenden Gleichungen (6a) und (6b).
  • Figure 00140001
  • Wenn αi ∈ Ωa ist, das heißt αi gehört zu Ωa, wird der Phonemdaueranfangswert durch einen Durchschnittswert bestimmt. Genauer gesagt, der Kategorieindex n gemäß der Spracherzeugungsgeschwindigkeit wird gewonnen, und der Phonemdaueranfangswert wird durch folgende Gleichung (7) bestimmt: dαi0 = μαi(n) (7)
  • Wenn αi ∈ Ωr, das heißt αi gehört zu Ωr, wird zwischenzeitlich der Phonemdaueranfangswert durch kategorische multiple Regression bestimmt. Hier wird angenommen, daß der Index der Faktoren j (1 ≤ j ≤ J) ist, und der Kategorieindex entsprechend einem jedem Faktor ist k (1 ≤ k ≤ K(j)), wobei der Koeffizient zur kategorischen multiplen Regression (j, k) entsprechend aj,k ist.
  • Beispielsweise können folgende Faktoren benutzt werden.
    1: die Phoneme, zwei Phoneme, die dem Gegenstandsphonem vorangehen
    2: das Phonem, ein Phonem, dem das Gegenstandsphonem vorangeht
    3: Gegenstandsphonem
    4: das Phonem, ein Phonem, das dem Gegenstandsphonem nachfolgt
    5: das Phonem, zwei Phoneme, die dem Gegenstandsphonem folgen
    6: eine Durchschnittsmoradauer in einem Ausatmungsabschnitt
    7: Moraposition in einem Ausatmungsabschnitt
    8: Teil der Sprache des Wortes, das ein Gegenstandsphonem enthält
  • Die Zeichen, die einem jeden der obigen Faktoren zugeordnet sind, zeigen einen Index vom Faktor j.
  • Beispiele von Kategorien, die einem jeden Faktor entsprechen, sind hiernach bereitgestellt. Kategorien von Phonemen sind:
    1: a, 2: 2, 3: i, 4: 0, 5: u, 6: X, 7: b, 8: d, 9: g, 10: m, 11: n, 12: r, 13: w, 14: y, 15: z, 16: +, 17: c, 18: f, 19: h, 20: k, 21: p, 22: s, 23: sh, 24: t, 25: ts, 26: Q, 27: Pause. Wenn der Faktor das "Gegenstandsphonem", "Pause" ist, erfolgt eine Beseitigung. Obwohl der Ausatmungsabschnitt festgelegt ist als Phonemdauereinstellabschnitt im vorliegenden Ausführungsbeispiel, wird, da der Ausatmungsabschnitt keine Pause enthält, "Pause" aus dem Gegenstandsphänomen entfernt. Angemerkt sei, daß der Ausdruck "Ausatmungsabschnitt" einen Abschnitt zwischen Pausen festlegt (Start und Ende des Satzes), der keine Pause in der Mitte enthält.
  • Kategorien einer Durchschnittsmoradauer in einem Ausatmungsabschnitt enthalten folgende:
    1: kürzer als 120 Millisekunden
    2: gleich oder länger als 120 Millisekunden und geringer als 140 Millisekunden
    3: gleich oder länger als 140 Millisekunden und kürzer als 160 Millisekunden
    4: gleich oder länger als 160 Millisekunden und kürzer als 180 Millisekunden
    5: gleich oder länger als 180 Millisekunden.
  • Kategorien einer Moraposition enthalten folgende:
    1: erste Mora
    2: zweite Mora
    3: dritte Mora ab Beginn und dritte Mora vor Ende
    4: zweite Mora vor Ende
    5: Endmora
  • Kategorien eines Sprachteiles (nach japanischer Grammatik) enthalten folgende:
    1: Substantiv, 2: adverbisches Substantiv, 3: Pronomen, 4: Eigensubstantiv, 5: Zahl, 6: Verb, 7: Adjektiv, 8: adjektivisches Verb, 9: Adverb, 10: Attribut, 11: Konjunktion, 12: Interjektion, 13: Zusatzverb, 14: besonderer Fall, 15: untergeordnetes Teil, 16: Kollaterialteil, 17: Zusatzteil, 18: konjunktivisches Teil, 19: Schließteil, 20: Präfix, 21: Suffix, 22: adjektivisches Verbalsuffix, 23: sa-unregelmäßiges Konjugationssuffix, 24: adjektivisches Suffix, 25: verbales Suffix, 26: 26: Punze
  • Angemerkt sei, daß Faktoren (auch Punkte genannt) die Art qualitativer Daten aufzeigen, die bei der Prädiktion der kategorischen multiplen Regression verwendet werden. Die Kategorien zeigen mögliche Auswahlen für jeden Faktor auf. Folgendes basiert auf den obigen Beispielen.
    Indexfaktor j = 1: das Phonem, zwei Phoneme, die dem Gegenstandsphonem vorangehen
    Kategorie gemäß Index k = 1: a
    Kategorie gemäß Index k = 2: e
    Kategorie gemäß Index k = 3: i
    Kategorie gemäß Index k = 4: o
    ...
    Kategorie gemäß Index k = 26: Q
    Kategorie gemäß Index k = 27: Pause
    Index vom Faktor j = 2: das Phonem, ein Phonem, das dem Gegenstandsphonem vorangeht
    Kategorie gemäß Index k = 1: a
    Kategorie gemäß Index k = 2: e
    Kategorie gemäß Index k = 3: i
    Kategorie gemäß Index k = 4: o
    ...
    Kategorie gemäß Index k = 26: Q
    Kategorie gemäß Index k = 27: Pause
    Index vom Faktor j = 3, das Gegenstandsphonem
    Kategorie gemäß Index k = 1: a
    Kategorie gemäß Index k = 2: e
    Kategorie gemäß Index k = 3: i
    Kategorie gemäß Index k = 4: o
    ...
    Kategorie gemäß Index k = 26: Q
    Index vom Faktor j = 4: das Phonem, ein Phonem, das dem Gegenstandsphonem folgt
    Kategorie gemäß Index k = 1: a
    Kategorie gemäß Index k = 2: e
    Kategorie gemäß Index k = 3: i
    Kategorie gemäß Index k = 4: o
    ...
    Kategorie gemäß Index k = 26: Q
    Kategorie gemäß Index k = 27: Pause
    Index vom Faktor j = 5: das Phonem, zwei Phoneme, die dem Gegenstandsphonem folgen
    Kategorie gemäß Index k = 1: a
    Kategorie gemäß Index k = 2: e
    Kategorie gemäß Index k = 3: i
    Kategorie gemäß Index k = 4: o
    ...
    Kategorie gemäß Index k = 26: Q
    Kategorie gemäß Index k = 27: Pause
    Index vom Faktor j = 6: eine Durchschnittsmoradauer in einem Ausatmungsabschnitt
    Kategorie gemäß Index k = 1: kürzer als 120 Millisekunden
    Kategorie gemäß Index k = 2: gleich oder länger als 120 Millisekunden und kürzer als 140 Millisekunden
    Kategorie gemäß Index k = 3: gleich oder länger als 140 Millisekunden und kürzer als 160 Millisekunden
    Kategorie gemäß Index k = 4: gleich oder länger als 160 Millisekunden und kürzer als 180 Millisekunden
    Kategorie gemäß Index k = 5: gleich oder länger als 180 Millisekunden
    Index vom Faktor j = 7: Moraposition in einem Ausatmungsabschnitt
    Kategorie gemäß Index k = 1: erste Mora
    Kategorie gemäß Index k = 2: zweite Mora
    ...
    Kategorie gemäß Index k = 5: Endmora
    Index vom Faktor j = 8: Teil der Sprache des Wortes, das das Gegenstandsphonem enthält
    Kategorie gemäß Index k = 1: Substantiv
    Kategorie gemäß Index k = 2: adverbisches Substantiv
    ...
    Kategorie gemäß Index k = 26: Punze
  • Es ist einzustellen, daß der Durchschnittswert des Koeffizienten aj,k für jeden Faktor gleich 0 ist, das heißt, der Gleichung (8) muß genügt werden. Angemerkt sei, daß der Koeffizient aj,k im externen Speicher 104 gespeichert ist, wie später in 7 zu beschreiben.
  • Figure 00190001
  • Des weiteren wird eine Blindvariable vom Phonem αi folgendermaßen eingesetzt.
  • Figure 00200001
  • Eine der Summe der Produkte vom Koeffizienten und der Blindvariablen hinzuzufügenden Konstante ist c0. Ein geschätzter Wert einer Phonemdauer im Phonem αi nach der kategorischen multiplen Regression wird ausgedrückt gemäß Gleichung (10).
  • Figure 00200002
  • Unter Verwendung des Schätzwertes wird der Phonemdaueranfangswert des Phonems αi durch Gleichung (11) bestimmt. dαi0 = d ^αi0 (11)
  • Der Kategorieindex n gemäß der Spracherzeugungsgeschwindigkeit wird gewonnen, dann der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer in der Kategorie werden darüber hinaus gewonnen. Mit diesen werten wird der Phonemdaueranfangswert dαi0 durch folgende Gleichung (12) aktualisiert. Der gewonnene Anfangswert dαi0 wird als neuer Phonemdaueranfangswert eingesetzt.
  • Figure 00200003
  • Ein Koeffizient rσ der multipliziert ist mit der Standardabweichung in Gleichung (12) wird beispielsweise eingesetzt mit rσ = 3. Mit dem Phonemdaueranfangswert, gewonnen in der vorstehenden Weise, wird die Phonemdauer nach dem Verfahren bestimmt, das demjenigen des ersten Ausführungsbeispiels gleicht. Genauer gesagt, die Phonemdauer di wird bestimmt unter Verwendung folgender Gleichung (13a). Die Phonemdauer di wird bestimmt nach Gleichung (13b), wenn ein Schwellwert θαi (> 0) der Beziehung di < θαi genügt.
  • Figure 00210001
  • Die zuvor beschriebene Operation ist nachstehend anhand des Ablaufdiagramms von 3 beschrieben. In Schritt S1 wird ein phonetischer Text über die Zeichenketteneingabeeinheit 1 eingegeben. In Schritt S2 werden Steuerdaten (Spracherzeugungsgeschwindigkeit, Tonhöhe der Sprache) extern eingegeben, und die Steuerdaten im phonetischen Text, eingegeben in Schritt S1, werden in der Steuerdatenspeichereinheit 2 gespeichert. In Schritt S3 wird eine Phonemkette von der Phonemkettenerzeugungseinheit 3 auf der Grundlage des phonetischen Textes erzeugt, den die Zeichenketteneingabeeinheit 1 eingegeben hat. In Schritt S4 wird eine Phonemkette des nächsten Dauereinstellabschnitts in der Phonemkettenspeichereinheit 4 gespeichert.
  • In Schritt S5 stellt die Phonemdauereinstelleinheit 5 den Phonemdaueranfangswert gemäß der Phonemart (Kategorie) ein unter Verwendung des oben beschriebenen Verfahrens, das auf den Steuerdaten basiert, die die Sprachwiedergabegeschwindigkeit darstellen, die in der Steuerdatenspeichereinheit 2 gespeichert sind, der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer, und der Phonemdauerschätzwert, der durch kategorische multiple Regression geschätzt ist.
  • In Schritt S6 stellt die Phonemdauereinstelleinheit 5 die Spracherzeugungszeit des Phonemdauereinstellabschnitts auf der Grundlage der Steuerdaten ein, die die Sprachwiedergabegeschwindigkeit darstellen, gespeichert in der Steuerdatenspeichereinheit 2. Dann wird die Phonemdauer für jede Phonemkette des Phonemdauereinstellabschnitts eingestellt, und zwar unter Verwendung des zuvor beschriebenen Verfahrens, so daß die gesamte Phonemdauer der Phonemkette im Phonemdauereinstellabschnitt der Spracherzeugungszeit vom Phonemdauereinstellabschnitt gleicht.
  • In Schritt S7 wird synthetisierte Sprache auf der Grundlage der Phonemkette erzeugt, wobei die Phonemdauer eingestellt wird von der Phonemdauereinstelleinheit 5 und den Steuerdaten, die die Tonhöhe der Sprache repräsentieren, gespeichert in der Steuerdatenspeichereinheit 2. In Schritt S8 wird bestimmt, ob die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, und wenn es sich nicht um den letzten Phonemdauereinstellabschnitt handelt, schreitet die Verarbeitung fort zu Schritt S10. In Schritt S10 werden die Steuerdaten, extern eingegeben, in der Steuerdatenspeichereinheit 2 gespeichert, und dann kehrt der Prozeß zu Schritt S4 zurück, um die Verarbeitung fortzusetzen. Wenn zwischenzeitlich in Schritt S8 bestimmt ist, daß die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, schreitet die Verarbeitung fort zu Schritt S9, um zu bestimmen, ob alle Eingaben abgeschlossen sind. Ist der Abschluß noch nicht erreicht, kehrt die Verarbeitung zu Schritt S1 zurück, um die oben beschriebene Verarbeitung zu wiederholen.
  • Der Prozeß des Bestimmens der Dauer für jedes Phonem, der in den Schritten S5 und S6 im zweiten Ausführungsbeispiel durchgeführt wird, ist nachstehend in Einzelheiten beschrieben.
  • 7 ist eine Tabelle, die die Datenkonfiguration einer Koeffiziententabelle zeigt, die den Koeffizienten aj,k für die kategorische multiple Regression gemäß dem Ausführungsbeispiel speichert. Wie zuvor beschrieben, enthält der Faktor j des vorliegenden Ausführungsbeispiels die Faktoren 1 bis 8. Für jeden Faktor wird ein Koeffizient aj,k gemäß der Kategorie registriert.
  • Beispielsweise gibt es 27 Kategorien (Phonemkategorien) für den Faktor j = 1, und 27 Koeffizienten a1,1 bis a1,27 werden gespeichert.
  • 8 ist eine Tabelle, die die Datenkonfiguration von Phonemdaten gemäß dem Ausführungsbeispiel zeigt. Wie in 8 gezeigt, enthalten Phonemdaten ein Kennzeichen, das aufzeigt, ob ein Phonem zu Ωa oder Ωr, zur Blindvariablen δ (j,k) gehört, womit aufgezeigt ist, ob ein Phonem einen Wert für die Kategorie k mit dem Faktor j hat, einen Durchschnittswert μ, eine Standardabweichung σ, einen Minimalwert dmin und einen Schwellwert θ der Phonemdauer für jede Kategorie der Spracherzeugungsgeschwindigkeit in Hinsicht auf jedes Phonem (a, e, i, o, u, ...) des eingestellten Phonems Ω.
  • Mit den in den 7 und 8 gezeigten Daten werden die Schritte S5 und S6 in 3 ausgeführt. Hiernach ist dieser Prozeß in Einzelheiten anhand des Ablaufdiagramms der 9A und 9B erläutert.
  • Die Anzahl von Komponenten I der Phonemkette und einer jeden der Komponenten α1 bis αI, gewonnen in Hinsicht auf den Ausatmungsabschnittsgegenstand zur Verarbeitung (gewonnen in Schritt S4 in 3 werden in Schritt S201 in 9A bestimmt. Wenn beispielsweise die Phonemkette "o, X, s, e, e" enthält, werden α1 bis α5 in der in 6 gezeigten Weise bestimmt, und die Anzahl der Komponenten I beträgt 5. In Schritt S202 wird eine Kategorie n gemäß der Spracherzeugungsgeschwindigkeit bestimmt. Im vorliegenden Ausführungsbeispiel wird die Spracherzeugungszeit T des Ausatmungsabschnitts bestimmt auf der Grundlage einer Spracherzeugungsgeschwindigkeit, die durch Steuerdaten dargestellt wird. Die Zeit T wird geteilt durch die Anzahl von Komponenten I der Phonemkette in einem Ausatmungsabschnitt, um eine durchschnittliche Moradauer zu gewinnen, und die Kategorie n wird bestimmt. In Schritt S203 wird die Variable i auf 1 initialisiert, und der Phonemdaueranfangswert wird in den folgenden Schritten S204 bis S209 gewonnen.
  • In 8 gezeigte Phonemdaten werden in Schritt S204 als Bezug genommen, um zu bestimmen, ob das Phonem α1 zu Ωr gehört. Wenn das Phonem α1 zu Ωr gehört, schreitet die Verarbeitung fort zu Schritt S205, in dem der Koeffizient aj,k aus der in 7 gezeigten Koeffiziententabelle gewonnen wird, und die Blindvariable (δi(j,k)) des Phonems αi wird aus den in 8 gezeigten Phonemdaten gewonnen. Dann wird dαi0 errechnet unter Verwendung der vorgenannten Gleichungen (10) und (11). Wenn mittlerweile das Phonem αi zu Ωa in Schritt S204 gehört, schreitet der Prozeß fort zu Schritt S206, bei dem ein Durchschnittswert μ des Phonems αi in der Kategorie n aus der Phonemtabelle gewonnen wird, und dαi0 wird aus Gleichung (7) gewonnen.
  • Dann schreitet der Prozeß fort zu Schritt S207, bei dem der Phonemdaueranfangswert dαi des Phonems αi mit Gleichung (12) unter Verwendung von μ, σ, dmin des Phonems αi in der Kategorie n gewonnen wird, die man aus der Phonemtabelle entnimmt, und dαi0 wird in Schritt S205 oder in Schritt S206 gewonnen.
  • Die Errechnung des Phonemdaueranfangswertes dαi0 in den Schritten S204 bis S207 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S208 inkrementiert, und die Schritte S204 bis S207 werden solange wiederholt, wie die Variable i kleiner als I in Schritt S209 ist.
  • Die vorstehenden Schritte S201 bis S209 entsprechen dem Schritt S5 in 3. Auf die zuvor beschriebene Weise wird der Phonemdaueranfangswert aus den Phonemketten im Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist, und die Verarbeitung schreitet fort zu Schritt S211.
  • In Schritt S211 wird die Variable i auf 1 initialisiert. In Schritt S212 wird die Phonemdauer di für das Phonem αi bestimmt, um mit der Spracherzeugungszeit T des Ausatmungsabschnitts übereinzustimmen, und zwar auf der Grundlage des Phonemdaueranfangswertes für alle Phoneme im Ausatmungsabschnitt, der gewonnen wurde im vorhergehenden Prozeß und der Standardabweichung des Phonems αi in der Kategorie n (das heißt, bestimmt gemäß Gleichung (13a)). Ist die Phonemdauer di, die in Schritt S212 gewonnen wurde, kleiner als der Schwellwert θαi, der für das Phonem αi eingestellt ist, wird der Schwellwert θαi auf di gesetzt (Schritte S213, 214 und Gleichung (13b)).
  • Die Errechnung der Phonemdauer di in den Schritten S212 bis S214 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S215 inkrementiert, und die Schritte S212 bis S214 werden solange wiederholt, wie die Variable i kleiner als i in Schritt S216 ist.
  • Die vorigen Schritte S211 bis S216 entsprechen dem Schritt S6 in 3. In der zuvor beschriebenen Weise wird die Phonemdauer aller Phonemketten zum Gewinnen der Erzeugungszeit t in Hinsicht auf den Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist.
  • Angemerkt sei, daß der Aufbau des obigen Ausführungsbeispiels lediglich ein Ausführungsbeispiel der vorliegenden Erfindung darstellt. Somit sind verschiedene Modifikationen möglich. Ein Beispiel von Modifikationen enthält folgendes.
    • (1) Der Satz an Phonemen Ω ist lediglich ein Beispiel, womit ein Satz anderer Elemente verwendet werden kann. Elemente eines Satzes von Phonemen können bestimmt werden auf der Grundlage der Art der Sprache und der Phoneme. Die vorliegende Erfindung ist auch anwendbar auf andere Sprachen als auf japanisch.
    • (2) Der Ausatmungsabschnitt ist ein Beispiel des Phonemdauereinstellabschnitts. Somit können ein Wort, ein Morphem, ein Satzabschnitt, ein Satz und dergleichen als Phonemdauereinstellabschnitt eingesetzt werden. Angemerkt sei, daß wenn ein Satz als Phonemdauereinstellabschnitt eingesetzt ist, es erforderlich wird, die Pause zwischen Phonemen zu berücksichtigen.
    • (3) Eine Phonemdauer natürlicher Sprache kann verwendet werden als Anfangswert der Phonemdauer. In alternativer Weise kann ein durch andere Phonemdauersteuerregeln bestimmter Wert oder ein Wert verwendet werden, der durch kategorische multiple Regression bestimmt ist.
    • (4) Die Kategorie gemäß der Spracherzeugungsgeschwindigkeit, die verwendet wird für den Durchschnittswert der Phonemdauer, ist lediglich ein Beispiel, und andere Kategorien sind anwendbar.
    • (5) Die Faktoren für die kategorische multiple Regression und die Kategorien sind lediglich ein Beispiel, so daß andere Faktoren und Kategorien verwendet werden können.
    • (6) Der Koeffizient rn = 3, der mit der Standardabweichung multipliziert wird, um den Phonemdaueranfangswert einzustellen, ist ebenfalls lediglich ein Beispiel, womit andere Werte eingesetzt werden können.
  • Die Aufgabe der vorliegenden Erfindung kann des weiteren auch gelöst werden durch Bereitstellen eines Speichermediums, Speichersoftwareprogrammcodes, die die zuvor beschriebenen Funktionen des vorliegenden Ausführungsbeispiels erledigen, auf ein Computersystem oder Gerät, Lesen der Programmcodes vom Computer (beispielsweise CPU oder MPU) vom System oder Gerät aus dem Speichermedium und dann Ausführen des Programms.
  • In diesem Falle realisieren die Programmcodes aus dem Speichermedium die Funktionen gemäß dem zuvor beschriebenen Ausführungsbeispiel, und das Speichermedium speichert die Programmcodes, die die vorliegende Erfindung bilden.
  • Ein Speichermedium, beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, ein CD-ROM, CD-R, ein Magnetband, eine nicht flüchtige Speicherkarte und ein ROM können verwendet werden, um die Programmcodes bereitzustellen.
  • Neben den zuvor beschriebenen Funktionen nach dem obigen Ausführungsbeispiel, die realisiert werden durch Ausführen der Programmcodes, die ein Computer liest, enthält die vorliegende Erfindung des weiteren einen Fall, bei dem ein Betriebssystem oder dergleichen auf dem Computer arbeitet und einen Teil der gesamten Prozesse gemäß den Bestimmungen der Programmcodes ausführt und Funktionen gemäß den obigen Ausführungsbeispielen realisiert.
  • Die vorliegende Erfindung umfaßt des weiteren einen Fall, bei dem nach Auslesen der Programmcodes aus dem Speichermedium ein Einschreiben in eine Funktionserweiterungskarte erfolgt, die in den Computer eingesteckt wird, oder ein Speicher ist in einer Funktionserweiterung vorgesehen, die mit dem Computer verbunden ist, eine CPU oder dergleichen, die in der Funktionserweiterungskarte enthalten ist, oder eine Einheit führt einen Teil des gesamten Prozesses gemäß den Bestimmen der Programmcodes aus und realisiert Funktionen des obigen Ausführungsbeispiels.
  • Des weiteren können die Programmcodes in elektronischer Form gewonnen werden, beispielsweise durch Herunterladen des Codes über ein Netzwerk, wie über das Internet. Gemäß einem anderen Aspekt der vorliegenden Erfindung ist ein elektrischer Signalträgerprozessor vorgesehen, der Befehle zum Steuern eines Prozessors realisiert, um das zuvor beschriebene Verfahren auszuführen.
  • Wie zuvor im Zusammenhang mit der vorliegenden Erfindung beschrieben, kann die Phonemdauer einer Phonemkette so eingestellt werden, daß eine spezifizierte Spracherzeugungszeit erreicht wird. Somit ist es möglich, eine natürliche Phonemdauer zu erzielen, ungeachtet der Länge der Spracherzeugungszeit.
  • Wie viele weitestgehend unterschiedliche Ausführungsbeispiele der vorliegenden Erfindung ohne Abweichen vom Umfang derselben möglich sind, versteht es sich, daß die Erfindung nicht auf die spezifischen Ausführungsbeispiele beschränkt ist, mit Ausnahme auf die anliegenden Patentansprüche.

Claims (19)

  1. Sprachsynthesegerät, das eine Sprachsynthese gemäß einer eingegebenen Phonemkette ausführt, mit: einem Speichermittel (103), das statistische Daten bezüglich einer Phonemdauer eines jeden Phonems speichert; einem Bestimmungsmittel (101, 102, 103) zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette; einem Einstellmittel (5) zum Einstellen der Phonemdauer entsprechend der Sprachwiedergabezeit eines jeden Phonems, das die Phonemkette aufbaut, basierend auf statistischen Daten eines jeden aus dem Speichermittel erzielten Phonems; und mit einem Erzeugungsmittel, das eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer erzeugt; dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer eines jeden Phonems enthalten; das Gerät ein Anfangswerterzielungsmittel enthält, um eine geschätzte Dauer des Phonems durch Mehrfachregressionsanalyse unter Verwendung der im Speichermittel gespeicherten Mehrfachregressionsanalysedaten zu erzielen; das Einstellmittel eine Anfangsphonemdauer für jedes die Phonemkette aufbauende Phonem auf der Grundlage der geschätzten Dauer einstellt; und daß das Einstellmittel ein Rechenmittel (101, 102, 103) enthält, das betriebsbereit ist zum Errechnen einer Phonemdauer durch Addieren eines auf den Standardabweichungsdaten vom aus dem Speichermittel erzielten Phonem basierend errechneten Wertes mit der für das Phonem eingestellten Anfangsphonemdauer, wobei die individuellen Phonemdauern bestimmt sind, um die vom Bestimmungsmittel bestimmte Spracherzeugungszeit aufzusummieren.
  2. Sprachanalysiergerät nach Anspruch 1, dessen Einstellmittel ausgestattet ist mit einem ersten Einstellmittel zum Einstellen einer Anfangsdauer innerhalb eines vorbestimmten Zeitbereichs, bestimmt auf der Grundlage der im Speichermittel (103) gespeicherten statistischen Daten in Hinsicht auf jedes die Phonemkette aufbauenden Phonems.
  3. Sprachsynthesegerät nach Anspruch 1, bei dem die im Speichermittel (103) gespeicherten statistischen Daten einen Durchschnittswert, eine Standardabweichung und einen Minimalwert der Phonemdauer eines jeden Phonems enthalten, und wobei das Einstellmittel die Anfangsdauer so einstellt, daß sie in einen bestimmten Zeitbereich fällt, der auf der Grundlage des Durchschnittswertes, der Standardabweichung und dem Minimalwert der Phonemdauer in Hinsicht auf jedes Phonem bestimmt ist.
  4. Sprachsynthesegerät nach Anspruch 3, bei dem das Speichermittel (103) einen Schwellwert speichert, der die Minimalphonemerzeugungsdauer eines jeden Phonems aufzeigt, und wobei das Gerät des weiteren über ein Mittel enthält zum Ersetzen der vom Rechenmittel errechneten Phonemdauer durch den Schwellwert für jedes Phonem, wenn die errechnete Phonemerzeugungszeit kleiner als der Schwellwert ist.
  5. Sprachsynthesegerät nach Anspruch 1, bei dem das Rechenmittel einen Wert als Koeffizient verwendet, der durch Subtrahieren einer Gesamtanfangsphonemdauer aus der Spracherzeugungszeit und durch Teilen des subtrahierten Wertes durch eine Quadratsumme von Standardabweichungen gemäß einem jeden Phonem hervorgeht, und als Phonemdauer einen Wert einsetzt, der durch Addieren eines Produkts vom Koeffizienten mit dem Quadrat der Standardabweichung vom Phonem zur Anfangsphonemdauer hervorgeht.
  6. Sprachsynthesegerät nach Anspruch 1, bei dem das erste Anfangswerterzielungsmittel die geschätzte Dauer als die Anfangsphonemdauer einsetzt, wenn die geschätzte Dauer in einen vorbestimmten Zeitbereich fällt, während das erste Anfangswerterzielungsmittel die Anfangsphonemdauer so einsetzt, daß sie in den vorbestimmten Zeitbereich fällt, wenn die geschätzte Dauer den vorbestimmten Zeitbereich überschreitet.
  7. Sprachsynthesegerät nach Anspruch 1, das des weiteren über ein zweites Anfangswerterzielungsmittel verfügt, um eine geschätzte Dauer auf der Grundlage der Durchschnittszeit zu erhalten, erzielt durch Teilen der Spracherzeugungszeit durch eine Anzahl von die Phonemkette aufbauenden Phonemen für jedes Phonem, und wobei das Einstellmittel in selektiver Weise das erste Anfangswerterzielungsmittel gemäß einer Phonemart verwendet.
  8. Sprachsynthesegerät nach Anspruch 9, bei dem das Speichermittel (103) statistische Daten bezüglich einer Phonemdauer eines jeden Phonems für jede Kategorie auf der Grundlage einer Spracherzeugungsgeschwindigkeit speichert, und wobei das Rechenmittel eine Kategorie der Spracherzeugungsgeschwindigkeit auf der Grundlage der Spracherzeugungszeit und der Phonemkette bestimmt und die Phonemdauer eines jeden Phonems auf der Grundlage statistischer Daten errechnet, die zur vorbestimmten Kategorie sowie zur geschätzten Dauer gehören.
  9. Sprachsynthesegerät nach Anspruch 1, bei dem das Rechenmittel einen subtrahierten Wert errechnet, der erzielt ist durch Subtrahieren der Gesamtanfangsphonemdauer von der Spracherzeugungszeit, und eine Phonemdauer für jedes Phonem errechnet durch Addieren eines auf der Grundlage der Standardabweichungsdaten des Phonems und dem subtrahierten Wert errechneten Wertes.
  10. Sprachsyntheseverfahren zum Ausführen einer Sprachsynthese nach einer eingegebenen Phonemkette, mit den Verfahrensschritten: Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette in einem vorbestimmten Abschnitt; Einstellen einer Phonemdauer gemäß der Spracherzeugungszeit eines jeden die Phonemdauer aufbauenden Phonems auf der Grundlage statistischer Daten eines jeden Phonems aus der Speichereinheit (55, 56), und Erzeugen einer Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer ((57); dadurch gekennzeichnet, daß die in der Speichereinheit gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer für jedes Phonem enthalten; mit dem weiteren Verfahrensschritt Erzielen einer geschätzten Dauer eines jeden Phonems durch Mehrfachregressionsanalyse unter Verwendung der in der Speichereinheit gespeicherten Mehrfachregressionsanalysedaten; Einstellen einer Anfangsphonemdauer für jedes die Phonemkette aufbauenden Phonems auf der Grundlage der geschätzten Dauer (S103); und Errechnen der Phonemdauer durch Addieren eines Wertes, errechnet auf der Grundlage der Standardabweichungsdaten vom Phonem, erzielt aus der Speichereinheit, und der für das Phonem eingestellten Anfangsphonemdauer, wobei die jeweilige individuelle Phonemdauer durch Aufaddieren der im Bestimmungsschritt bestimmten Spracherzeugungszeit bestimmt wird (S107).
  11. Sprachsyntheseverfahren nach Anspruch 10, bei dem der Einstellschritt weiterhin umfaßt: einen ersten Einstellschritt zum Einstellen der Anfangsphonemdauer innerhalb eines bestimmten Zeitbereichs, bestimmt auf der Grundlage statistischer Daten, die in der Speichereinheit gespeichert sind, in Hinsicht auf jedes die Phonemkette aufbauenden Phonems im vorbestimmten Abschnitt.
  12. Sprachsyntheseverfahren nach Anspruch 10, bei dem die in der Speichereinheit gespeicherten statistischen Daten einen Mittelwert, eine Standardabweichung und einen Minimalwert der Phonemdauer eines jeden Phonems enthalten und bei dem der Einstellschritt (S103) die Anfangsdauer einstellt, damit sie in einen vorbestimmten Bereich fällt, der auf der Grundlage des Durchschnittswertes, der Standardabweichung und des Minimalwertes der Phonemdauer in Hinsicht auf jedes Phonem bestimmt ist.
  13. Sprachsyntheseverfahren nach Anspruch 12, bei dem die Speichereinheit einen Schwellwert speichert, der die minimale Phonemerzeugungsdauer eines jeden Phonems aufzeigt, und wobei das Verfahren des weiteren einen Schritt (S109) zum Ersetzen der im Errechnungsschritt durch den Schwellwert für jedes Phänomen errechneten Phonemdauer enthält, wenn die errechnete Phonemdauerzeit geringer als der Schwellwert ist.
  14. Sprachsyntheseverfahren nach Anspruch 10, bei dem der Rechenschritt (S107) als Koeffizient einen Wert benutzt, der durch Subtrahieren einer Gesamtanfangsphonemdauer von der Spracherzeugungszeit und durch Dividieren des subtrahierten Wertes durch die Quadratsumme der Standardabweichung entsprechend einem jeden Phonem entsteht, und bei dem als Phonemdauer ein durch Addieren eines Produktes vom Koeffizienten mit einem Quadrat der Standardabweichung vom Phonem zur Anfangsphonemdauer erzielter Wert eingesetzt wird.
  15. Sprachsyntheseverfahren nach Anspruch 10, bei dem der Einstellschritt die geschätzte Dauer als Anfangsphonemdauer einsetzt, wenn die geschätzte Dauer in den vorbestimmten Zeitbereich fällt, während wenn die geschätzte Dauer den vorbestimmten Zeitbereich überschreitet, der Einstellschritt die Anfangsphonemdauer so einstellt, daß sie in den vorbestimmten Zeitbereich fällt.
  16. Sprachsyntheseverfahren nach Anspruch 10, das des weiteren einen zweiten Anfangswerterzielungsschritt enthält, um eine geschätzte Dauer auf der Grundlage der Durchschnittszeit, durch Teilen der Spracherzeugungszeit durch die Anzahl von die Phonemkette aufbauenden Phonemen für jedes Phonem erzielt, und der Einstellschritt wendet in selektiver Weise den ersten Anfangswerterzielungsschritt oder den zweiten Anfangserzielungswertschritt gemäß der Phonemart an.
  17. Sprachsyntheseverfahren nach Anspruch 10, bei dem die Speichereinheit die statistischen Daten bezüglich der Phonemdauer eines jeden Phonems für jede Kategorie auf der Grundlage der Spracherzeugungsgeschwindigkeit speichert, und bei dem im Einstellschritt das Bestimmen einer Kategorie der Spracherzeugungsgeschwindigkeit auf der Grundlage der Spracherzeugungszeit und der Phonemkette erfolgt, und das Einstellen der Phonemdauer eines jeden Phonems erfolgt auf der Grundlage zu der bestimmten Kategorie gehörender statistischer Daten sowie der geschätzten Dauer.
  18. Sprachsyntheseverfahren nach Anspruch 10, bei dem der Rechenschritt (S107) einen subtrahierten Wert durch Subtrahieren einer Gesamtanfangsphonemdauer von der Spracherzeugungszeit und eine Phonemerzeugungszeit für jedes Phonem durch Addieren eines auf der Grundlage der Standardabweichungsdaten des Phonems und dem subtrahierten Wert errechneten Wertes errechnet.
  19. Speichermedium, das ein Steuerprogramm zum Anweisen eines Computers speichert, um eine Sprachsynthese entsprechend einer eingegebenen Phonemkette auszuführen, wobei das Programm folgendes umfaßt: einen Code zum Anweisen des Computers, die Spracherzeugungszeit für die eingegebene Phonemkette zu bestimmen; einen Code zum Anweisen des Computers, die Phonemdauer gemäß der Spracherzeugungszeit eines jeden die Phonemkette aufbauenden Phonems auf der Grundlage der statistischen Daten eines jeden aus dem Speichermittel erzielten Phonems einzustellen; und einen Code zum Anweisen des Computers, eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer zu erzeugen; dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phänomendauer eines jeden Phänomens enthalten; und daß das Programm des weiteren umfaßt einen Code zum Anweisen des Computers zum Erzielen einer geschätzten Dauer eines jeden Phonems durch Mehrfachregressionsanalyse unter Verwendung der Mehrfachregressionsanalysedaten, die das Speichermittel speichert; einen Code zum Anweisen des Computers, eine Anfangsphonemdauer für jedes die Phonemkette aufbauenden Phonems auf der Grundlage der geschätzten Dauer einzustellen; und einen Code zum Anweisen des Computers, eine Phonemdauer durch Hinzufügen eines Wertes, der auf der Grundlage der aus dem Speichermittel erzielten Standardabweichungsdaten vom Phonem errechnet ist, und der für das Phonem eingestellten Anfangsphonemdauer zu errechnen, wobei die individuellen Phonemdauern bestimmt werden, um so die Spracherzeugungszeit aufzuaddieren, die der Computer als Reaktion auf den Code zum Anweisen des Computers zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette bestimmt.
DE69917961T 1998-03-10 1999-03-09 Phonembasierte Sprachsynthese Expired - Lifetime DE69917961T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP05790098A JP3854713B2 (ja) 1998-03-10 1998-03-10 音声合成方法および装置および記憶媒体
JP5790098 1998-03-10

Publications (2)

Publication Number Publication Date
DE69917961D1 DE69917961D1 (de) 2004-07-22
DE69917961T2 true DE69917961T2 (de) 2005-06-23

Family

ID=13068881

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69917961T Expired - Lifetime DE69917961T2 (de) 1998-03-10 1999-03-09 Phonembasierte Sprachsynthese

Country Status (4)

Country Link
US (1) US6546367B2 (de)
EP (1) EP0942410B1 (de)
JP (1) JP3854713B2 (de)
DE (1) DE69917961T2 (de)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001282279A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
DE10033104C2 (de) * 2000-07-07 2003-02-27 Siemens Ag Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
GB2391143A (en) * 2002-04-17 2004-01-28 Rhetorical Systems Ltd Method and apparatus for scultping synthesized speech
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP4809913B2 (ja) * 2009-07-06 2011-11-09 日本電信電話株式会社 音素分割装置、方法及びプログラム
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
JP5999839B2 (ja) * 2012-09-10 2016-09-28 ルネサスエレクトロニクス株式会社 音声案内システム及び電子機器
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
JP6044490B2 (ja) * 2013-08-30 2016-12-14 ブラザー工業株式会社 情報処理装置、話速データ生成方法、及びプログラム
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6300328B2 (ja) * 2016-02-04 2018-03-28 和彦 外山 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN113793589A (zh) * 2020-05-26 2021-12-14 华为技术有限公司 语音合成方法及装置
CN113793590B (zh) * 2020-05-26 2024-07-05 华为技术有限公司 语音合成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3563772B2 (ja) 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
CA2221762C (en) * 1995-06-13 2002-08-20 British Telecommunications Public Limited Company Ideal phonetic unit duration adjustment for text-to-speech system
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system

Also Published As

Publication number Publication date
JP3854713B2 (ja) 2006-12-06
EP0942410A2 (de) 1999-09-15
DE69917961D1 (de) 2004-07-22
US6546367B2 (en) 2003-04-08
JPH11259095A (ja) 1999-09-24
EP0942410B1 (de) 2004-06-16
US20020107688A1 (en) 2002-08-08
EP0942410A3 (de) 2000-01-05

Similar Documents

Publication Publication Date Title
DE69917961T2 (de) Phonembasierte Sprachsynthese
DE3783154T2 (de) Spracherkennungssystem.
EP1168298B1 (de) Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
DE60201262T2 (de) Hierarchische sprachmodelle
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE60305645T2 (de) System und Verfahren zur Text-zu-Sprache Umsetzung mit einer Funktion zur Bereitstellung zusätzlicher Information
EP0797185A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3416238A1 (de) Extremschmalband-uebertragungssystem
DE60113787T2 (de) Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition