DE2740520A1 - Verfahren und anordnung zur synthese von sprache - Google Patents
Verfahren und anordnung zur synthese von spracheInfo
- Publication number
- DE2740520A1 DE2740520A1 DE19772740520 DE2740520A DE2740520A1 DE 2740520 A1 DE2740520 A1 DE 2740520A1 DE 19772740520 DE19772740520 DE 19772740520 DE 2740520 A DE2740520 A DE 2740520A DE 2740520 A1 DE2740520 A1 DE 2740520A1
- Authority
- DE
- Germany
- Prior art keywords
- phonemes
- output
- amplitude
- phoneme
- periods
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 25
- 238000003786 synthesis reaction Methods 0.000 title claims description 23
- 238000000034 method Methods 0.000 title claims description 17
- 230000015654 memory Effects 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 12
- 230000010355 oscillation Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 230000002035 prolonged effect Effects 0.000 claims 1
- 230000002485 urinary effect Effects 0.000 claims 1
- 238000003860 storage Methods 0.000 description 3
- 230000001944 accentuation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000035987 intoxication Effects 0.000 description 1
- 231100000566 intoxication Toxicity 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Analogue/Digital Conversion (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
BESCHREIBUNG
Die Erfindung betrifft ein Verfahren und eine Anordnung zur
Synthese von Sprache, welche in der Rechentechnik als Kommunikationsmittel zwischen der Rechenmaschine und dem Menschen
anwendbar sind.
Es sind ein Verfahren und eine Anordnung zur Synthese von Sprache bekannt, bei denen die Synthese aufgrund ganzer Wörter
oder Silben erfolgt, wobei die Anordnung einen Magnetplattenspeicher mit sehr großem Speichervermögen benötigt. Trotzdem
hat diese Anordnung einen sehr begrenzten Y/ortschatz.
Es sind auch ein Verfahren und eine Anordnung zur Synthese von Sprache bekannt, bei denen die Bildung der einzelnen Phoner^
durch Mischen von Sinusschwingungen mit geeigneter Amplitude und Frequenz erfolgt. Diese Anordnung ist ziemlich kompliziert
und benötigt Analog-Generatoren mit komplizierter Abstimmung.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Anordnung zur Synthese von Sprache zu entwickeln, wobei die
Anordnung einen kleinen Bedarf an Speicherplätzen hat und eine nicht komplizierte Abstimmung der Apparatur erfordert.
Diese Aufgabe v/ird erfindungsgemäß dadurch gelöst, daß die
Synthese der Sprache aufgrund von digitalen elektronischen Schaltungen synthetisierter Phoneme, die anschließend durch
Digital-Analog-Umwandler in Analogsignale umgesetzt v/erden, erfolgt. Die Synthetisierung der Phoneme aus einem gegebenen
Text erfolgt aufgrund der in einem Speicher eingespeicherten Laut-Perioden von Phonemen unterschiedlicher Forinant-Verteilungen,
Elemente von Rausch-Phonemen, Information für die Stellen der Betonungen, typische AmplitudencharaktorLstiken
der entsprechenden Phoneme, Folge von Laut- und Rausch-Elementen, die zur Synthese eines gegebenen Phonems notwendig
809816/OSdO
sind, Tabellen für die quasizufällige Veränderung der Phoneme,
sowie aus der Analyse des Satzes gewonnene EBten für die Intonation,
die Dauer der Pausen und die für die Hauptübergänge zwischen den Phonemen erforderlichen Iaut-Elemente. Die Sätze
des zu synthetisierenden Textes werden mit Hilfe eines Programms einer grammatischen Analyse unterworfen, um die Grundcharakteristiken
des betreffenden Satzes festzustellen - die Art der Veränderung der Stimmhöhe als Frequenzcharakteristik,
die Art der Veränderung der Stärke der Stimme als Amplitudencharakteristik und die Dauer der Pausen. Es wird auch die Folge
von Phonemen analysiert, um den Einfluß der Nachbar-Phoneme auszuwerten und die Plätze und die Art der Veränderung innerhalb
der Folge zu bestimmen. Bei festgelegten Grundcharakteristiken des Satzes v/erden jedem Phonem eine bestimmte Art und Anzahl
von Perioden von Lautschwingungen mit charakteristischer Formant
-V orte i lung , mit entsprechender Periodendauer und Amp]itudenwert,
sowie eine bestimmte Art und Anzahl von Elementen der Rausch-Phoneme mit entsprechender Dauer und Spektralverteilung
gegenübergestellt. Die erwähnten Perioden der Lautschwingungen
und die Elemente der Rausch-Phoneme, die für jede Sprache vorher bestimmt werden müssen, v/erden in digitaler Form
als Folge von Amplitudenwerten der entsprechenden Schwingung Jn einem Speicher eingespeichert. Zur Gev/innung der entsprechenden
Frequenzcharakteristiken der Phoneme kann der Lesevorgang der Schwingungswerte vor dem Ende der Periode unterbrochen
oder nach dem Ende der Periode mit Nullwerten weitergeführt v/erden. Um die Sprachnatürlichkeit erreichen zu können, wird
eine quasizufällige Veränderung der Längen und der Amplituden der Schwingungsperioden beim Lesen vorgenommen, und um gleichmäßige
Spektralverteilungen bei der Synthetisierung von Rauschund
Misch-Phonemen zu erreichen, werden Teile von Rausch-Phonemen
mit quasizufälliger Anfangsadresse, quasizufälliger Dauer und quasizufnlliger Leserichtung ausgelesen. Zur Gewinnung verschiedener
Phoneme aus gleichen eingespeichorten Elementen wird die Lesefrequenz der eingespeicherten Amplitudenwerte geändert,
zur Gewinnung verschiedener Phoneme aus gleichen eingespeicherten Elementen werden die Amplitudencharakteristiken der Phoneme
809816/0590
geändert und zur Gewinnung von Misch-Phonemen werden Kombinationen
von Laut-Perioden und Rauschteilen verwendet. Zur Realisierung glatter Phonemübergänge werden Perioden mit Formant-Verteilungen,
die dem Übergang zv/ischen den Phonemen entsprechen, verwendet, und zur Realisierung glatter Phonemübergänge werden die Amplituden im Bereich der betreffenden
übergänge vermindert. Die aufgrund der Analyse der Phonemzusammensetzung
und der Grundcharakteristiken des Satzes für die betreffenden Sprache vorbereiteten Daten werden zur Steuerung
der Wiedergabe der im Speicher eingespeicherten Sprachelemente benutzt. Die Amplitudencharakteristiken der Phoneme werden durch
Beeinflussen der Verstärkung des durch Umwandlung der digitalen Werte gewonnenen Signals der synthetisierten Phoneme
mittels einem Analogsignal, das den digitalen Werten der Amplitudencharakteristiken
der Phoneme entspricht, gebildet.
Die Anordnung zur Realisierung des Verfahrens besteht aus einer elektronischen Rechenmaschine, deren Ausgang an einem Adressenregister-Zähler
eines Festwertspeichers angeschlossen ist. Ein weiterer Ausgang der Rechenmaschine ist an einem Register für
die Zählrichtung angeschlossen, dessen Ausgang mit dem Adressenregister-Zähler verbunden ist. Zwei weitere Ausgänge der
Rechenmaschine sind entsprechend an einem Register zur Bestimmung der Zählfrequenz und an einem Register für die Anzahl
der Leseadressen angeschlossen, wobei die Ausgänge der beiden letzten Register an einem Impulsgenerator mit vorgegebener Anzahl
und Frequenz angeschlossen sind. Der Ausgang dieses Impulsgenerators ist mit dem Zahl-Eingang des Adressenregister-Zählers
verbunden. Ein weiterer Ausgang der Rechenmaschine ist mit einem Digital-Analog-Umwandler verbunden, dessen Ausgang
mit dem Eingang zur Änderung der Verstärkung eines Verstärker-Modulators
verbunden ist. Der Ausgang des Festwertspeichers ist an einen zweiten Digital-Analog-Umwandler angeschlossen,
dessen Ausgang mit dem Eingang des Verstärker-Modulators verbunden ist. Der Ausgang des Verstärker-Modulators ist an einen
Lautsprecher und einen Übertragungskanal angeschlossen. Der
809816/0890
Ausgang der Steuereinheit ist mit dem Eingang der Rechenmaschine
verbunden und ein weiterer Ausgang der Rechenmaschine ist mit dem Eingang der Steuereinheit verbunden.
Die Aufgabe ist weiterhin dadurch gelöst, daß die Veränderung der Periodendauer - 40 % betragen kann, und die quasizufällige
Veränderung der Periodendauer und der Amplituden der Schwingungen beim Lesen - 3 % betragen kann. Zur Verbesserung der
Natürlichkeit der Sprache werden auch quasizufällig die Perioden der Lautschwingungen, ihrer Amplitude, die Periode der
modulierten Amplituden-Rauschschwingungen zur Gewinnung von Misch-Phonemen, sowie die Periode der amplitudenmodulierten
Lautschwingungen zur Gewinnung des Phonems "P" bulgarisch ("R" lateinisch) geändert.
Die Erfindung hat die Vorteile, daß sie einen verhältnismäßig kleinen Speicher ohne mechanisch bewegte Elemente benötigt,
daß keine Generatoren für Analog-Kurven für die Synthese erforderlich
sind, daß sie eine große Vielfältigkeit bei der Synthetisierung der Phoneme gemäß den konkreten Anforderungen des
Satzes ermöglicht, daß die Veränderung der Art der Phoneme allein durch Austausch des Speicherinhaltes erfolgen kann, daß sie die
Nachahmung von quasizufälligen Änderungen der Periodizität der Lautschwingungen und ihrer Amplituden erlaubt und damit zur Natürlichkeit
der Sprache führt, daß sie die Bildung gewünschter Intonation und die erforderlichen Betonungen im Satz ermöglicht,
daß sie keine bestimmte Geschwindigkeit und Speicherplätze von der Rechenmaschine erfordert, daß sie die Wiedergabe wegen Ausfallen
der Abstimmungsoperationen erleichtert, daß die Anwendung von neuen elektronischen Elementen mit hoher Integration wie Speicher,
Mikrorechner usw. gestattet ist und daß sie zum Aufbau veon Einrichtungen mit kleineren Abmessungen und Gewicht, grös-
serer Zuverläßigkeit und niedrigem Preis führt.
Ein Ausführungsbeispiel der Anordnung, gemäß der Erfindung, ist
in den Zeichnungen dargestellt und wird nachfolgend näher erläutert.
809816/06Θ0
~10~ 27A0520
Es zeigen:
Figur 1 eine Block-Schaltung der Anordnung;
Figur 2 die Aufzeichnung der AmpIitudenkurve des Wortes "ΠΗΗΑ"
von einem Sprecher ausgesprochen;
Figur 3 Aufzeichnung der Amplitudenkurve des synthetisierten
Wortes "ΠΗΗΑ", gemäß der Erfindung;
Figur 4 Aufzeichnung der Amplitudenkurve des Wortes "MHMH",
von einem Sprecher ausgesprochen;
Figur 5 Aufzeichnung der Amplitudenkurve des synthetisierten V/ortes "MHMH", gemäß der Erfindung;
Figur 6 Sonagramm des V/ortes "MHMH", von einem Sprecher ausgesprochen;
Figur 7 Sonagramm des synthetisierten V/ortes "MHMH", gemäß der
Erfindung.
Die Anordnung, gemäß Figur 1 , besteht aus einer elektronischen Rechenmaschine 1, deren Ausgang 2 am Adressenregister-Zähler 3
des Festwertspeichers 4 angeschlossen ist. Der Ausgang 5 der Rechenmaschine 1 ist am Register 6 für die Zählrichtung angeschlossen,
dessen Ausgang mit dem Adressenregister-Zähler 3 verbunden ist. Die Ausgänge 7 und 8 der Rechenmaschine 1 sind am
Register 9 zur Bestimmung der Zählfrequenz bzw. am Register 10 für die Anzahl der Leseadressen angeschlossen, wobei die Ausgänge
der Register 9 und 10 mit dem Impulsgenerator 11 verbunden sind. Der Ausgang des Impulsgenerators 11 ist mit dem Zähl-Eingang
des Adressenregister-Zählers 3 verbunden. Der Ausgang 12 der Rechenmaschine 1 ist über das Register 13 zur Amplitudensteuerung
am Digital-Analog-Umwandler 14 angeschlossen, dessen Ausgang mit dem Eingang zur Änderung der Verstärkung des Verstärker-Modulators
15 verbunden ist. Der Ausgang des Festwertspeichers 4 ist am Digital-Analog-Umwandler 16, dessen Ausgang
mit dem Eingang des Verstärker-Modulators 15 verbunden ist, angeschlossen. Der Ausgang des Verstärker-Modulators 15 ist mit
dem Lautsprecher 17 und mit dem Ubertragungskanal 18 verbunden.
Der Ausgang der Steuereinheit 19 ist mit dem Eingang 21 der Rechenmaschine
1 verbunden und der Ausgang 20 der Rechenmaschine
809816/0590
ist mit dem Eingang der Steuereinheit ^\9 verbunden.
Im folgenden werden die wichtigsten von den verwendeten Begriffen erläutert:
Synthese von Sprache - ist die Erzeugung von einem akustischen Ausgangssignal irgendeiner Einrichtung gemeint, in dem eine
Sprache, nicht unbedingt bulgarisch, erkennbar ist;
Formant-Verteilungen - die Frequenzverteilung der entsprechenden
Komponenten eines bestimmten Phonems;
Sprachelemente - os sind Kurvenabschnitte gemeint, die die Sprache
als akustische Funktion kennzeichenen;
Die sprachbegleitenden Laute - z.B. der Laut bei Einatmung oder Ausatmung am Anfang und am Ende der Phrase, oder bei Interpunktion;
Laut-Periode - Perioden, die die Laut-Phoneme bilden.
Aufgrund einiger Besonderheiten, die auch mit der Methode ihrer Synthetisierung zusammenhängen, werden folgende Gruppen von
Phonemen betrachtet: Laut-Phoneme, Rausch-Phoneme und Misch-Phoneme.
Jede Gruppe enthält kurze und dauerhafte Phoneme.
Die Laut-Phoneme werden durch aufeinanderfolgende Wiedergabe einer
Folge von Laut-Perioden, die in einem Speicher eingespeichert und aus einer natürlichen Sprache gewonnen sind, oder vorher
synthetisiert sind und eine bestimmte Formant-Verteilung kennzeichnen,
gebildet. Die Anzahl und die Art der Perioden zur Synthese eines gegebenen Laut-Phonems werden gemäß dem Charakter
des Phonems in der betreffenden Sprache, der Art und dem Charakter der Nachbar-Phoneme, der Stelle der Betonung, der
Intonation des Satzes usw. festgestellt. Demzufolge entsprechen der linguistischen Einheit Phoneme nach dem Gesichtspunkt der
Methode zur Synthese einer Menge von verschiedenen Periodenfolgen.
809816/0590
Im konkreten Fall werden die erforderlichen Kombinationen von
Lautperioden, ihrer Anzahl, Dauer und Amplituden mit Hilfe eines Programms gemäß einem bestimmten Algorithmus in Real-Zeit ausgerechnet,
nachdem sie zu ihrer Wiedergabe in eine Wiedergabeeinrichtung
weitergeführt werden. Die Natürlichkeit der synthetisierten Sprache wird durch quasizufällige Modulation der Amplituden
und der Dauer der einzelnen Perioden erreicht.
Die Rausch-Phoneme werden durch Lesen aus dem Speicher eventuell mit Amplitudenmodulation oder durch aufeinanderfolgende Wiedergabe
quasizufällig ausgewühlter Teile eines eingespeicherten Abschnittes von dem entsprechenden Rausch-Phonem synthetisiert,
wobei die Amplitudenmodulation und die Dauer entsprechend dem Algorithmus der Synthese bestimmt werden.
Die Misch-Phoneme werden teilweise wie die Laut-Phoneme, teilweise
wie die Rausch-Phoneme mit zusätzlicher Amplitudenmodulation der Rausch-Teile mit der Periode der Laut-Phoneme synthethisiert.
Bei dem Phonem "P" ("R" lateinisch) wirddie synthetisierte Stimme einer Amplitudenmodulation mit der Schwingungsfrequenz der Zunge
unterworfen.
In der bulgarischen Sprache können als Laut-Phoneme "A", 11E",
"H", "0", "1B", «Υ», »Η», "Λ", »Μ», "H" und »Ρ», als Rausch-Phoneme
"Φ", "C", »1», "X", "II", "H", "K", "Π", und »T» und als Misch-Phoneme
"B", "3", "K", "B", 1W. "Γ", "Λ3" und »;ρκ" synthetisiert
werden.
Die Verbindung zwischen den Phonemen wird durch eventuelles Einfügen
von Laut-Perioden mit der für einen glatten übergang notwendigen
Formant-Verteilung hergestellt.
Der Hauptteil der Anordnung zur Synthese der Sprache ist der Festwertspeicher 4, in dem die Information, die zur Synthese
809816/0590
der Sprache gemäß des vorgeschlagenen Verfahrens verwendet wird, eingespeichert ist. Diese Information stellt digitale Werte der
Amplitude von Teilen der Laut- und Rausch-Phoneme und von Tönen, die die Sprache begleiten, dar. Die Anfangsadressen und die
Längen der Folgen von Amplitudenwerten der verschiedenen Sprachelemente , die im Festwertspeicher 4 eingespeichert sind, stellen
die Steuerinformation für den Lesevorgang dar und sind im Speicher
der Rechenmaschine leingespeichert. Der Auswahl der Sprachelemente,
die zur Synthese einer Sprache im Festwertspeicher eingeschrieben werden müssen, erfolgt gemäß der phonetischen Besonderheiten
der betreffenden Sprache, so daß die gewählten Elemente ein vollständiges System hinsichtlich der Phonetik der
Sprache darstellen. Im Speicher der Rechenmaschine 1 ist das Programm eingespeichert, das das vorgeschlagene Verfahren realisiert
und es berücksichtigt die Intonation und die Betonung der konkreten Sprache.
Eingangsinformation für das Programm ist eine Textkonstante,
die eventuell auch phonetische Zeichen enthält und die Aufzeichnung eines Satzes in der betreffenden Sprache ist. In der
Rechenmaschine 1 wird der Satz grammatisch und phonetisch nach den Regeln der betreffenden Sprache untersucht, um seinen Frequenz-
und Amplitudencharakteristiken, sowie auch die Stellen und die Dauer der Pausen und die die Sprache begleitenden Töne
festzustellen. Danach werden nach diesen Charakteristiken und dem Einfluß der Machbar-Phoneme im Satz die Zusammensetzung (die
Art der Perioden, von denen die Phoneme gebildet werden), die Amplitudencharakteristik und die Dauer jedes Phonems festgestellt.
Es werden auch für jedes Sprachelement, das in dem zu synthetisierenden Satz enthalten ist, die Amplitude, die Dauer,
die Anfangsadresse im Festwertspeicher 4 und die Leserichtung bestimmt. Auf diese Weise wird der Satz in einige Folgen von
Sprachelementen und Pausen untergliedert, die durch die obenerwähnten Größen gekennzeichnet sind. Alle das betreffende Sprachelement
kennzeichnenden Größen werden in der Rechenmaschine 1
mit Hilfe eines Programms in Real-Zeit ermittelt und durch die
809816/0590
Steuereinheit nacheinander den entsprechenden Blöcken bei Anforderung
zugeführt. Aufgrund dieser Daten wird aus dem Speicher 4 ein Sprachelement aus der im Adressenregister-Zähler
enthaltenen Anfangsadresse ausgelesen, wobei die Leserichtung
durch das Register zur Bestimmung der Leserichtung 6 angegeben wird. Die Lesegeschwindigkeit aus dem Festwertspeicher 4 wird
von dem im Register zur Bestimmung der Lesefrequenz 9 enthaltenen Wert bestimmt, und die Anzahl von den zu lesenden Daten
wird von dem im Register für die Anzahl der Leseadressen 10 enthaltenen
Wert bestimmt. Die im Register 9 und 10 enthaltene Information steuert die Arbeit des Impulsgenerators 11, der
seinerseits die Änderung des Inhaltes des Adressenregister-Zählers 3 in der Zeit steuert.
Die Amplitudenwerte des auf diese Weise bestimmten Sprachelementes
werden nacheinander dem Digital-Analog-Umwandler 16 mit der vom Register 9 vorgegebenen Lesegeschwindigkeit zugeführt.
Der Ausgang des Digital-Analog-Umwandlers 16 ist mit dem Eingang des Verstärker-Modulators 15 verbunden, dessen Verstärkung
durch den Ausgang des zur Umwandlung der digitalen Werte der Wiedergabeamplitude des in diesemMoment synthetisierten Sprachelementes
dienenden Digital-Analog-Umwandlers 14 gesteuert wird. Das im Verstärker-Modulator 15 verstärkte Signal wird zur Wiedergabe
dem Lautsprecher 17 und dem Übertragungskanal 18 zugeführt. Nach dem Ende der Wiedergabe des entsprechenden Elements
gibt die Steuereinheit der Rechenmaschine 1 Anweisung zur Herstellung von neuen Daten zum Weiterführen der Synthese.
Während des Auslesens aus dem Festwertspeicher 4 und der Wiedergabe
des entsprechenden Elementes ist die Rechenmaschine frei und führt die Analyse zur Vorbereitung von neuen Daten zur
Steuerung der Synthese durch.
Bei der Anwendung einer Rechenmaschine ausreichender Geschwindigkeit
ist es möglich, eine Rechenmaschine zur Steuerung mehrerer Anordnungen zur Synthese von Sprache zu verwenden. Als
809816/0590
Rechenmaschine 1 kann eine universale Rechenmaschine, ein Minirechner oder ein Mikroprozessor benutzt werden.
Aus der Figur 2 ist der kurze Explosivlaut "n" ersichtlich,
danach folgen einige Perioden von "H" und eine längere Folge von Perioden "A". Es folgen zwei Gruppen von Lautperioden, die
den Phonemen "H" und "A" entsprechen. Die aufgezeichnete Amplitudencharakteristik
gehört einem Wort, das von einem Sprecher ausgesprochen ist und bei dem die Glätte der Formant-Ubergänge
auf eine natürliche Weise zustande gekommen ist.
Im synthetisierten Wort, das in Figur 3 gezeigt ist, sind nacheinander
"n"f zwei Perioden von "H", Perioden von "E", die
einen glatten Formant-Ubergang zwischen "H" und das folgende
"A" gewährleisten, Perioden von den Laut-Phonemen "A", "H", und "A" mit Längen, die so ausgewählt sind, daß eine glatte
Veränderung des Grundtones gewährleistet ist, angeordnet.
In analoger Beziehtung stehen die Figuren 4 und 5, in denen das Einfügen des Phonems "U" zwischen dem ersten "M" und dem
ersten "K" zum Gewährleisten eines glatten Grundformant-Uberganges
ersichtlich ist.
Die Sonogramme der Wörter von Fig. 4 und 5 sind in Fig. 6 und
7 dargestellt. Das Sonagramm des Wortes von natürlichem Ursprung ( Fig. 6) ist viel reicher an Formanten, doch unabhängig
davon empfängt das Ohr das synthetisierte Wort richtig.
809816/0590
-46 ' Leerseite
Claims (5)
- PAT L . vJ TA .'ν WA LT J.SCHIFF ν. FUN F. R STREHL SC H ÜBEL-H OPF EBßlNGHAUS FlNCKMARIAHILFPLATZ 2 A 3, MUNCHtN 9O 2 / H U b 4U UPOSTAOfn-.SiiE: F5OSTFACH 95 OI GO, D-BOOO MÖNCHEN 95KARL LUOWIO SCMIFFDIPL. CHEM. nt-ΐ. ALEXANDER v. KÖNERDIPL. INO. Pf. TE-IR STREHLDIPL. CHlEM lift. LKiSLILA SCHÜHEL-HOPKDIPL. ING. DtECTER EBDINGHAUbDR. INCi. DITTi R FINCKEDINEIJ ZJSNTAR PO PIIYSIKADA-18 168TELEFON (OBO) 48SO64KILtX Γ. 23!5Gr, AURO LITELEGRAMMt-: AUROMARCPAT MÜNCHEN8. September 1977Verfahren und Anordnung; zur Synthese vnn SprachePATENTANSPRÜCHEf1.ι Vorfahren zur Synthese von Sprache, dadurch gekennzeichnet , daß jedes Phonem von in einem Speicher eingespeicherten Phonem-Elementen gebildet wird, daß diese Phonem-Elemente aus dem Speicher in Reihe, Geschwindigkeit, Richtung und Anzahl nach der Art und der Länge jedes Phonems gemäß den Satzcharakteristiken und der' Art der Nachbnr-Phoneme ausgelesen v/erden, und der zu synthetisierende Text grammatisch und phonetisch Satz für Satz nach den Regeln der Sprache zur Bestimmung der Grundcharakterisfciken - die Veränderung der Stjmmhöhe als Frequenzcharakteristik, die Veränderung der Stärke der Stimme als Amplitudencharakteristik und die Dauer der Pausen - des betreffenden Satzes, der als Textkonstnntc aufgeschrieben ist, die erforderlichenfalls auch phonetische Zeichen enthalten kann, analysiert wird, nachdem die Folge von Phonemen zur Auswertung des Einflußes der Nachbar-809816/0590274052QPhoneme analysiert wird und die Plätze und die Art der Veränderung der Phoneme innerhalb der Folge bestimmt werden, daß jedem Phonem bei Festhalten der Grundcharakteristiken des Satzes bestimmte Arten und eine Anzahl von Perioden von Lautschwingungen mit charakteristischer Formant-Verteilung, die aus einer natürlichen Sprache gewonnen sind und/oder künstlich synthetisiert sind, sowie bestimmte Arten und eine Anzahl von Zeit-Abschnitten von Rausch-Phonemen mit entsprechender Dauer, Amplituden und Spektralverteilung gegenübergestellt werden, daß die erwähnten Perioden der Lautschwingungen und die Elemente der Rausch-Phoneme, die für die Sprache vorbestimmt sind, in digitaler Form als Folge von Amplitudenwerten der entsprechenden Schwingung in einem Speicher eingespeichert sind, und zur Gewinnung der entsprechenden Frequenzcharakteristik der Phoneme der Lesevorgang der Amplitudenwerte der Schwingungen vor dem Ende der Periode zur Frequenzerhöhtuig unterbrochen und nach dem Ende der Periode zur Frequenzverminderung mit Nullwerten der Lesevorgang verlängert wird, daß zum Erreichen der Natürlichkeit der Sprache eine quasizufällige Veränderung der Längen der Perioden und der Amplituden der Schwingungen beim Lesen vorgenommen wird, daß zum Erreichen gleichmäßiger Spektral-Verteilungen bei der Synthetisierung von Rausch- und Misch-Phonemen Teile von Rausch-Elementen mit quasizufälliger Anfangeadresse, quasizufälliger Dauer und quasizufälliger Leserichtung ausgelesen werden, und zur Gewinnung verschiedener Phoneme aus gleichen eingespeicherten Rausch-Elementen die Lesefrequenz der eingespeicherten Amplitudenwerte geändert wird oder mit dem gleichen Ziel die Amplitudencharakteristiken der809816/0690Phoneme Reändert werden, daß die Gewinnung von Misch-Phonernen durch entsprechendes Verbinden von Laut-Perioden und Rausch-Teile realisiert, und die Realisierung glatter Phonem-Übergänge durch Benutzen von Perioden mit Formant --Verteilungen, die dem Charakter den Übergangs zwischen den Phonemen entsprechen, erreicht wird, daß zum Erreichen eines glatten Phonem-tiborgnngs die Amplituden der Schwingungen im Bereich des betreffenden Übergangs vermindert werden, daß die Steuerung der Wiedergabe der· im Speicher eingespeicherten Sprach-Elemente aufgrund der bei der Analyse der Phonem-Zusammensetzung und der Grundoharnkteristiken vorbereiteten Daten erfolgt, und daß die Amplituiencharaktcristiken der Phoneme durch Steuerung der Verstärkung des durch Umwandlung der digitalen Werte gewonnenen Analogsignale der synthetisierten Phoneme mittels einem Analogsignal, das den digitalen Werten der Amplitudencharnkteristjkon der Phoneme entspricht, gebildet werden.
- 2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß die Veränderung der Längen der Perioden i AO % betragen kann.
- 3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß die quasizufällige Veränderung der Längen der Perioden und der Amplituden beim Lesen - 3 % betragen kann.809816/0500
- 4. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß zum Erreichen der Natürlichkeit der Sprache quacizufällig die Periode der Lautschwingungen, ihrer Amplitude, die Periode der modulierten Amplituden-Rausch-Schwingungen zur Gewinnung von Misch-Phonemen und die Periode der amplitudenmoduliert en Laut-Schwingungen zur Gev/innung des Phonems "P" bulgarisch ("R" lateinisch) verändert werden.
- 5. Anordnung zur Synthese von Sprache, die eine Rechenmaschine benutzt, dadurch gekennzeichnet , daß ein Ausgang (2) der Rechenmaschine (1) an einem Adressenregister-Zähler (3) eines Festwertspeichers (4) angeschlossen ist, ein zweiter Ausgang (5) der Rechenmaschine (1) an einem Register (6) für Zählrichtung angeschlossen ist, dessen Ausgang mit dem Adressenregister-Zähler (3) verbunden ist, ein dritter und ein vierter Ausgang (7, 0) der Rechenmaschine (1) entsprechend an einem Register (9) zur Bestimmung der Zählfrequenz und an einem Register (10) für die Anzahl der Leseadressen angeschlossen sind, die Ausgänge der beiden letzten Register (9, 10) mit einem Impulsgenerator (11) mit vorgegebener Anzahl und Frequenz verbunden sind, dessen Ausgang mit dem Zähl-Eingang des Adressenregister-Zählers (3) verbunden ist, ein fünfter Ausgang (12) der Rechenmaschine (1) über ein Register (13) zur Amplitudensteuerung an einen Digital-Analog-Umwandler (14) angeschlossen ist, dessen Ausgang mit dem Eingang zur Änderung der Verstärkung eines Verstärker-Modulators (15) verbunden ist, der Ausgang des Festwertspeichers (4) an809816/0590einem zweiten Digital-Analog-Umwandler (16) angeschlossen ist, dessen Ausgang mit dem Eingang des Verstärker-Modulators (15) verbunden ist, der Ausgang des Verstärker-Modulators (15) mit einem Lautsprecher (17) und einem Ubertragungskanal (18) verbunden ist und der Ausgang der Steuereinheit (19) mit dem Eingang (21) der Rechenmaschine (1) verbunden ist, deren sechster Ausgang (20) mit dem Eingang der Steuereinheit (19) verbunden ist.809816/0690
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BG7600034160A BG24190A1 (en) | 1976-09-08 | 1976-09-08 | Method of synthesis of speech and device for effecting same |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2740520A1 true DE2740520A1 (de) | 1978-04-20 |
Family
ID=3902565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19772740520 Withdrawn DE2740520A1 (de) | 1976-09-08 | 1977-09-08 | Verfahren und anordnung zur synthese von sprache |
Country Status (10)
Country | Link |
---|---|
US (1) | US4278838A (de) |
JP (1) | JPS5953560B2 (de) |
BG (1) | BG24190A1 (de) |
DD (1) | DD143970A1 (de) |
DE (1) | DE2740520A1 (de) |
FR (1) | FR2364522A1 (de) |
GB (1) | GB1592473A (de) |
HU (1) | HU176776B (de) |
SE (1) | SE7709773L (de) |
SU (1) | SU691918A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2917161A1 (de) | 1978-04-28 | 1979-11-29 | Texas Instruments Inc | Elektronisches lernhilfegeraet |
DE19610019A1 (de) * | 1996-03-14 | 1997-09-18 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
Families Citing this family (195)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56161600A (en) * | 1980-05-16 | 1981-12-11 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
JPS58168096A (ja) * | 1982-03-29 | 1983-10-04 | 日本電気株式会社 | 複数言語音声合成装置 |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4579533A (en) * | 1982-04-26 | 1986-04-01 | Anderson Weston A | Method of teaching a subject including use of a dictionary and translator |
WO1983003914A1 (en) * | 1982-04-26 | 1983-11-10 | Gerald Myer Fisher | Electronic dictionary with speech synthesis |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
JPS6050600A (ja) * | 1983-08-31 | 1985-03-20 | 株式会社東芝 | 規則合成方式 |
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
JPS6145747U (ja) * | 1984-08-30 | 1986-03-26 | パイオニア株式会社 | カセツト型テ−プレコ−ダ |
US4695975A (en) * | 1984-10-23 | 1987-09-22 | Profit Technology, Inc. | Multi-image communications system |
US4788649A (en) * | 1985-01-22 | 1988-11-29 | Shea Products, Inc. | Portable vocalizing device |
JPS61145356U (de) * | 1985-02-27 | 1986-09-08 | ||
US4589138A (en) * | 1985-04-22 | 1986-05-13 | Axlon, Incorporated | Method and apparatus for voice emulation |
US5175803A (en) * | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
JP2595235B2 (ja) * | 1987-03-18 | 1997-04-02 | 富士通株式会社 | 音声合成装置 |
JPS63285598A (ja) * | 1987-05-18 | 1988-11-22 | ケイディディ株式会社 | 音素接続形パラメ−タ規則合成方式 |
DE68913669T2 (de) * | 1988-11-23 | 1994-07-21 | Digital Equipment Corp | Namenaussprache durch einen Synthetisator. |
JPH02239292A (ja) * | 1989-03-13 | 1990-09-21 | Canon Inc | 音声合成装置 |
US5091931A (en) * | 1989-10-27 | 1992-02-25 | At&T Bell Laboratories | Facsimile-to-speech system |
AU632867B2 (en) * | 1989-11-20 | 1993-01-14 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
US5400434A (en) * | 1990-09-04 | 1995-03-21 | Matsushita Electric Industrial Co., Ltd. | Voice source for synthetic speech system |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US6150011A (en) * | 1994-12-16 | 2000-11-21 | Cryovac, Inc. | Multi-layer heat-shrinkage film with reduced shrink force, process for the manufacture thereof and packages comprising it |
US5729741A (en) * | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6230135B1 (en) | 1999-02-02 | 2001-05-08 | Shannon A. Ramsay | Tactile communication apparatus and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR20020067921A (ko) * | 2000-10-23 | 2002-08-24 | 소니 가부시끼 가이샤 | 각식 로봇 및 각식 로봇의 행동 제어 방법, 및 기억 매체 |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US6988068B2 (en) * | 2003-03-25 | 2006-01-17 | International Business Machines Corporation | Compensating for ambient noise levels in text-to-speech applications |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN1831896A (zh) * | 2005-12-08 | 2006-09-13 | 曲平 | 一种语音发声装置 |
US8036894B2 (en) * | 2006-02-16 | 2011-10-11 | Apple Inc. | Multi-unit approach to text-to-speech synthesis |
KR100699050B1 (ko) | 2006-06-30 | 2007-03-28 | 삼성전자주식회사 | 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8027837B2 (en) * | 2006-09-15 | 2011-09-27 | Apple Inc. | Using non-speech sounds during text-to-speech synthesis |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102014665B1 (ko) | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6728755B2 (ja) * | 2015-03-25 | 2020-07-22 | ヤマハ株式会社 | 歌唱音発音装置 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
RU2591640C1 (ru) * | 2015-05-27 | 2016-07-20 | Александр Юрьевич Бредихин | Способ модификации голоса и устройство для его осуществления (варианты) |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN113593521B (zh) * | 2021-07-29 | 2022-09-20 | 北京三快在线科技有限公司 | 语音合成方法、装置、设备及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US4130730A (en) * | 1977-09-26 | 1978-12-19 | Federal Screw Works | Voice synthesizer |
-
1976
- 1976-09-08 BG BG7600034160A patent/BG24190A1/xx unknown
-
1977
- 1977-08-31 SE SE7709773A patent/SE7709773L/xx not_active Application Discontinuation
- 1977-09-01 DD DD77200850A patent/DD143970A1/de not_active IP Right Cessation
- 1977-09-05 HU HU77EI760A patent/HU176776B/hu unknown
- 1977-09-05 GB GB37045/77A patent/GB1592473A/en not_active Expired
- 1977-09-07 SU SU772520760A patent/SU691918A1/ru active
- 1977-09-07 FR FR7727129A patent/FR2364522A1/fr active Granted
- 1977-09-08 DE DE19772740520 patent/DE2740520A1/de not_active Withdrawn
- 1977-09-08 JP JP52108323A patent/JPS5953560B2/ja not_active Expired
-
1979
- 1979-08-02 US US06/063,169 patent/US4278838A/en not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2917161A1 (de) | 1978-04-28 | 1979-11-29 | Texas Instruments Inc | Elektronisches lernhilfegeraet |
DE2954377C2 (de) * | 1978-04-28 | 1988-11-03 | Texas Instruments Inc., Dallas, Tex., Us | |
DE19610019A1 (de) * | 1996-03-14 | 1997-09-18 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US6308156B1 (en) | 1996-03-14 | 2001-10-23 | G Data Software Gmbh | Microsegment-based speech-synthesis process |
Also Published As
Publication number | Publication date |
---|---|
FR2364522B3 (de) | 1980-07-04 |
BG24190A1 (en) | 1978-01-10 |
JPS5953560B2 (ja) | 1984-12-25 |
SU691918A1 (ru) | 1979-10-15 |
US4278838A (en) | 1981-07-14 |
HU176776B (en) | 1981-05-28 |
FR2364522A1 (fr) | 1978-04-07 |
GB1592473A (en) | 1981-07-08 |
DD143970A1 (de) | 1980-09-17 |
SE7709773L (sv) | 1978-03-09 |
JPS5367301A (en) | 1978-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
EP1168298B1 (de) | Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
EP0076234A1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
WO2001018792A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE2519483A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE69816049T2 (de) | Vorrichtung und verfahren zur prosodie-erzeugung bei der visuellen synthese | |
DE1811040A1 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE3006339A1 (de) | Verfahren und einrichtung zur sprachsynthese | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE3232835C2 (de) | ||
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
DE60025120T2 (de) | Amplitudensteuerung für die Sprachsynthese | |
DE2016572A1 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE3406540C1 (de) | Verfahren und Anordnung fuer die Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAR | Request for search filed | ||
OC | Search report available | ||
8128 | New person/name/address of the agent |
Representative=s name: VON FUENER, A., DIPL.-CHEM. DR.RER.NAT. EBBINGHAUS |
|
8141 | Disposal/no request for examination |