DE2740520A1 - Verfahren und anordnung zur synthese von sprache - Google Patents

Verfahren und anordnung zur synthese von sprache

Info

Publication number
DE2740520A1
DE2740520A1 DE19772740520 DE2740520A DE2740520A1 DE 2740520 A1 DE2740520 A1 DE 2740520A1 DE 19772740520 DE19772740520 DE 19772740520 DE 2740520 A DE2740520 A DE 2740520A DE 2740520 A1 DE2740520 A1 DE 2740520A1
Authority
DE
Germany
Prior art keywords
phonemes
output
amplitude
phoneme
periods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19772740520
Other languages
English (en)
Inventor
Ljubomir Jordanov Dipl Antonov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EDINEN ZENTAR PHYS
Original Assignee
EDINEN ZENTAR PHYS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EDINEN ZENTAR PHYS filed Critical EDINEN ZENTAR PHYS
Publication of DE2740520A1 publication Critical patent/DE2740520A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Analogue/Digital Conversion (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

BESCHREIBUNG
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Synthese von Sprache, welche in der Rechentechnik als Kommunikationsmittel zwischen der Rechenmaschine und dem Menschen anwendbar sind.
Es sind ein Verfahren und eine Anordnung zur Synthese von Sprache bekannt, bei denen die Synthese aufgrund ganzer Wörter oder Silben erfolgt, wobei die Anordnung einen Magnetplattenspeicher mit sehr großem Speichervermögen benötigt. Trotzdem hat diese Anordnung einen sehr begrenzten Y/ortschatz.
Es sind auch ein Verfahren und eine Anordnung zur Synthese von Sprache bekannt, bei denen die Bildung der einzelnen Phoner^ durch Mischen von Sinusschwingungen mit geeigneter Amplitude und Frequenz erfolgt. Diese Anordnung ist ziemlich kompliziert und benötigt Analog-Generatoren mit komplizierter Abstimmung.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Anordnung zur Synthese von Sprache zu entwickeln, wobei die Anordnung einen kleinen Bedarf an Speicherplätzen hat und eine nicht komplizierte Abstimmung der Apparatur erfordert.
Diese Aufgabe v/ird erfindungsgemäß dadurch gelöst, daß die Synthese der Sprache aufgrund von digitalen elektronischen Schaltungen synthetisierter Phoneme, die anschließend durch Digital-Analog-Umwandler in Analogsignale umgesetzt v/erden, erfolgt. Die Synthetisierung der Phoneme aus einem gegebenen Text erfolgt aufgrund der in einem Speicher eingespeicherten Laut-Perioden von Phonemen unterschiedlicher Forinant-Verteilungen, Elemente von Rausch-Phonemen, Information für die Stellen der Betonungen, typische AmplitudencharaktorLstiken der entsprechenden Phoneme, Folge von Laut- und Rausch-Elementen, die zur Synthese eines gegebenen Phonems notwendig
809816/OSdO
sind, Tabellen für die quasizufällige Veränderung der Phoneme, sowie aus der Analyse des Satzes gewonnene EBten für die Intonation, die Dauer der Pausen und die für die Hauptübergänge zwischen den Phonemen erforderlichen Iaut-Elemente. Die Sätze des zu synthetisierenden Textes werden mit Hilfe eines Programms einer grammatischen Analyse unterworfen, um die Grundcharakteristiken des betreffenden Satzes festzustellen - die Art der Veränderung der Stimmhöhe als Frequenzcharakteristik, die Art der Veränderung der Stärke der Stimme als Amplitudencharakteristik und die Dauer der Pausen. Es wird auch die Folge von Phonemen analysiert, um den Einfluß der Nachbar-Phoneme auszuwerten und die Plätze und die Art der Veränderung innerhalb der Folge zu bestimmen. Bei festgelegten Grundcharakteristiken des Satzes v/erden jedem Phonem eine bestimmte Art und Anzahl von Perioden von Lautschwingungen mit charakteristischer Formant -V orte i lung , mit entsprechender Periodendauer und Amp]itudenwert, sowie eine bestimmte Art und Anzahl von Elementen der Rausch-Phoneme mit entsprechender Dauer und Spektralverteilung gegenübergestellt. Die erwähnten Perioden der Lautschwingungen und die Elemente der Rausch-Phoneme, die für jede Sprache vorher bestimmt werden müssen, v/erden in digitaler Form als Folge von Amplitudenwerten der entsprechenden Schwingung Jn einem Speicher eingespeichert. Zur Gev/innung der entsprechenden Frequenzcharakteristiken der Phoneme kann der Lesevorgang der Schwingungswerte vor dem Ende der Periode unterbrochen oder nach dem Ende der Periode mit Nullwerten weitergeführt v/erden. Um die Sprachnatürlichkeit erreichen zu können, wird eine quasizufällige Veränderung der Längen und der Amplituden der Schwingungsperioden beim Lesen vorgenommen, und um gleichmäßige Spektralverteilungen bei der Synthetisierung von Rauschund Misch-Phonemen zu erreichen, werden Teile von Rausch-Phonemen mit quasizufälliger Anfangsadresse, quasizufälliger Dauer und quasizufnlliger Leserichtung ausgelesen. Zur Gewinnung verschiedener Phoneme aus gleichen eingespeichorten Elementen wird die Lesefrequenz der eingespeicherten Amplitudenwerte geändert, zur Gewinnung verschiedener Phoneme aus gleichen eingespeicherten Elementen werden die Amplitudencharakteristiken der Phoneme
809816/0590
geändert und zur Gewinnung von Misch-Phonemen werden Kombinationen von Laut-Perioden und Rauschteilen verwendet. Zur Realisierung glatter Phonemübergänge werden Perioden mit Formant-Verteilungen, die dem Übergang zv/ischen den Phonemen entsprechen, verwendet, und zur Realisierung glatter Phonemübergänge werden die Amplituden im Bereich der betreffenden übergänge vermindert. Die aufgrund der Analyse der Phonemzusammensetzung und der Grundcharakteristiken des Satzes für die betreffenden Sprache vorbereiteten Daten werden zur Steuerung der Wiedergabe der im Speicher eingespeicherten Sprachelemente benutzt. Die Amplitudencharakteristiken der Phoneme werden durch Beeinflussen der Verstärkung des durch Umwandlung der digitalen Werte gewonnenen Signals der synthetisierten Phoneme mittels einem Analogsignal, das den digitalen Werten der Amplitudencharakteristiken der Phoneme entspricht, gebildet.
Die Anordnung zur Realisierung des Verfahrens besteht aus einer elektronischen Rechenmaschine, deren Ausgang an einem Adressenregister-Zähler eines Festwertspeichers angeschlossen ist. Ein weiterer Ausgang der Rechenmaschine ist an einem Register für die Zählrichtung angeschlossen, dessen Ausgang mit dem Adressenregister-Zähler verbunden ist. Zwei weitere Ausgänge der Rechenmaschine sind entsprechend an einem Register zur Bestimmung der Zählfrequenz und an einem Register für die Anzahl der Leseadressen angeschlossen, wobei die Ausgänge der beiden letzten Register an einem Impulsgenerator mit vorgegebener Anzahl und Frequenz angeschlossen sind. Der Ausgang dieses Impulsgenerators ist mit dem Zahl-Eingang des Adressenregister-Zählers verbunden. Ein weiterer Ausgang der Rechenmaschine ist mit einem Digital-Analog-Umwandler verbunden, dessen Ausgang mit dem Eingang zur Änderung der Verstärkung eines Verstärker-Modulators verbunden ist. Der Ausgang des Festwertspeichers ist an einen zweiten Digital-Analog-Umwandler angeschlossen, dessen Ausgang mit dem Eingang des Verstärker-Modulators verbunden ist. Der Ausgang des Verstärker-Modulators ist an einen Lautsprecher und einen Übertragungskanal angeschlossen. Der
809816/0890
Ausgang der Steuereinheit ist mit dem Eingang der Rechenmaschine verbunden und ein weiterer Ausgang der Rechenmaschine ist mit dem Eingang der Steuereinheit verbunden.
Die Aufgabe ist weiterhin dadurch gelöst, daß die Veränderung der Periodendauer - 40 % betragen kann, und die quasizufällige Veränderung der Periodendauer und der Amplituden der Schwingungen beim Lesen - 3 % betragen kann. Zur Verbesserung der Natürlichkeit der Sprache werden auch quasizufällig die Perioden der Lautschwingungen, ihrer Amplitude, die Periode der modulierten Amplituden-Rauschschwingungen zur Gewinnung von Misch-Phonemen, sowie die Periode der amplitudenmodulierten Lautschwingungen zur Gewinnung des Phonems "P" bulgarisch ("R" lateinisch) geändert.
Die Erfindung hat die Vorteile, daß sie einen verhältnismäßig kleinen Speicher ohne mechanisch bewegte Elemente benötigt, daß keine Generatoren für Analog-Kurven für die Synthese erforderlich sind, daß sie eine große Vielfältigkeit bei der Synthetisierung der Phoneme gemäß den konkreten Anforderungen des Satzes ermöglicht, daß die Veränderung der Art der Phoneme allein durch Austausch des Speicherinhaltes erfolgen kann, daß sie die Nachahmung von quasizufälligen Änderungen der Periodizität der Lautschwingungen und ihrer Amplituden erlaubt und damit zur Natürlichkeit der Sprache führt, daß sie die Bildung gewünschter Intonation und die erforderlichen Betonungen im Satz ermöglicht, daß sie keine bestimmte Geschwindigkeit und Speicherplätze von der Rechenmaschine erfordert, daß sie die Wiedergabe wegen Ausfallen der Abstimmungsoperationen erleichtert, daß die Anwendung von neuen elektronischen Elementen mit hoher Integration wie Speicher, Mikrorechner usw. gestattet ist und daß sie zum Aufbau veon Einrichtungen mit kleineren Abmessungen und Gewicht, grös- serer Zuverläßigkeit und niedrigem Preis führt.
Ein Ausführungsbeispiel der Anordnung, gemäß der Erfindung, ist in den Zeichnungen dargestellt und wird nachfolgend näher erläutert.
809816/06Θ0
~10~ 27A0520
Es zeigen:
Figur 1 eine Block-Schaltung der Anordnung;
Figur 2 die Aufzeichnung der AmpIitudenkurve des Wortes "ΠΗΗΑ" von einem Sprecher ausgesprochen;
Figur 3 Aufzeichnung der Amplitudenkurve des synthetisierten Wortes "ΠΗΗΑ", gemäß der Erfindung;
Figur 4 Aufzeichnung der Amplitudenkurve des Wortes "MHMH", von einem Sprecher ausgesprochen;
Figur 5 Aufzeichnung der Amplitudenkurve des synthetisierten V/ortes "MHMH", gemäß der Erfindung;
Figur 6 Sonagramm des V/ortes "MHMH", von einem Sprecher ausgesprochen;
Figur 7 Sonagramm des synthetisierten V/ortes "MHMH", gemäß der Erfindung.
Die Anordnung, gemäß Figur 1 , besteht aus einer elektronischen Rechenmaschine 1, deren Ausgang 2 am Adressenregister-Zähler 3 des Festwertspeichers 4 angeschlossen ist. Der Ausgang 5 der Rechenmaschine 1 ist am Register 6 für die Zählrichtung angeschlossen, dessen Ausgang mit dem Adressenregister-Zähler 3 verbunden ist. Die Ausgänge 7 und 8 der Rechenmaschine 1 sind am Register 9 zur Bestimmung der Zählfrequenz bzw. am Register 10 für die Anzahl der Leseadressen angeschlossen, wobei die Ausgänge der Register 9 und 10 mit dem Impulsgenerator 11 verbunden sind. Der Ausgang des Impulsgenerators 11 ist mit dem Zähl-Eingang des Adressenregister-Zählers 3 verbunden. Der Ausgang 12 der Rechenmaschine 1 ist über das Register 13 zur Amplitudensteuerung am Digital-Analog-Umwandler 14 angeschlossen, dessen Ausgang mit dem Eingang zur Änderung der Verstärkung des Verstärker-Modulators 15 verbunden ist. Der Ausgang des Festwertspeichers 4 ist am Digital-Analog-Umwandler 16, dessen Ausgang mit dem Eingang des Verstärker-Modulators 15 verbunden ist, angeschlossen. Der Ausgang des Verstärker-Modulators 15 ist mit dem Lautsprecher 17 und mit dem Ubertragungskanal 18 verbunden. Der Ausgang der Steuereinheit 19 ist mit dem Eingang 21 der Rechenmaschine 1 verbunden und der Ausgang 20 der Rechenmaschine
809816/0590
ist mit dem Eingang der Steuereinheit ^\9 verbunden.
Im folgenden werden die wichtigsten von den verwendeten Begriffen erläutert:
Synthese von Sprache - ist die Erzeugung von einem akustischen Ausgangssignal irgendeiner Einrichtung gemeint, in dem eine Sprache, nicht unbedingt bulgarisch, erkennbar ist;
Formant-Verteilungen - die Frequenzverteilung der entsprechenden Komponenten eines bestimmten Phonems;
Sprachelemente - os sind Kurvenabschnitte gemeint, die die Sprache als akustische Funktion kennzeichenen;
Die sprachbegleitenden Laute - z.B. der Laut bei Einatmung oder Ausatmung am Anfang und am Ende der Phrase, oder bei Interpunktion;
Laut-Periode - Perioden, die die Laut-Phoneme bilden.
Aufgrund einiger Besonderheiten, die auch mit der Methode ihrer Synthetisierung zusammenhängen, werden folgende Gruppen von Phonemen betrachtet: Laut-Phoneme, Rausch-Phoneme und Misch-Phoneme. Jede Gruppe enthält kurze und dauerhafte Phoneme.
Die Laut-Phoneme werden durch aufeinanderfolgende Wiedergabe einer Folge von Laut-Perioden, die in einem Speicher eingespeichert und aus einer natürlichen Sprache gewonnen sind, oder vorher synthetisiert sind und eine bestimmte Formant-Verteilung kennzeichnen, gebildet. Die Anzahl und die Art der Perioden zur Synthese eines gegebenen Laut-Phonems werden gemäß dem Charakter des Phonems in der betreffenden Sprache, der Art und dem Charakter der Nachbar-Phoneme, der Stelle der Betonung, der Intonation des Satzes usw. festgestellt. Demzufolge entsprechen der linguistischen Einheit Phoneme nach dem Gesichtspunkt der Methode zur Synthese einer Menge von verschiedenen Periodenfolgen.
809816/0590
Im konkreten Fall werden die erforderlichen Kombinationen von Lautperioden, ihrer Anzahl, Dauer und Amplituden mit Hilfe eines Programms gemäß einem bestimmten Algorithmus in Real-Zeit ausgerechnet, nachdem sie zu ihrer Wiedergabe in eine Wiedergabeeinrichtung weitergeführt werden. Die Natürlichkeit der synthetisierten Sprache wird durch quasizufällige Modulation der Amplituden und der Dauer der einzelnen Perioden erreicht.
Die Rausch-Phoneme werden durch Lesen aus dem Speicher eventuell mit Amplitudenmodulation oder durch aufeinanderfolgende Wiedergabe quasizufällig ausgewühlter Teile eines eingespeicherten Abschnittes von dem entsprechenden Rausch-Phonem synthetisiert, wobei die Amplitudenmodulation und die Dauer entsprechend dem Algorithmus der Synthese bestimmt werden.
Die Misch-Phoneme werden teilweise wie die Laut-Phoneme, teilweise wie die Rausch-Phoneme mit zusätzlicher Amplitudenmodulation der Rausch-Teile mit der Periode der Laut-Phoneme synthethisiert.
Beispiele:
Bei dem Phonem "P" ("R" lateinisch) wirddie synthetisierte Stimme einer Amplitudenmodulation mit der Schwingungsfrequenz der Zunge unterworfen.
In der bulgarischen Sprache können als Laut-Phoneme "A", 11E", "H", "0", "1B", «Υ», »Η», "Λ", »Μ», "H" und »Ρ», als Rausch-Phoneme "Φ", "C", »1», "X", "II", "H", "K", "Π", und »T» und als Misch-Phoneme "B", "3", "K", "B", 1W. "Γ", "Λ3" und »;ρκ" synthetisiert werden.
Die Verbindung zwischen den Phonemen wird durch eventuelles Einfügen von Laut-Perioden mit der für einen glatten übergang notwendigen Formant-Verteilung hergestellt.
Der Hauptteil der Anordnung zur Synthese der Sprache ist der Festwertspeicher 4, in dem die Information, die zur Synthese
809816/0590
der Sprache gemäß des vorgeschlagenen Verfahrens verwendet wird, eingespeichert ist. Diese Information stellt digitale Werte der Amplitude von Teilen der Laut- und Rausch-Phoneme und von Tönen, die die Sprache begleiten, dar. Die Anfangsadressen und die Längen der Folgen von Amplitudenwerten der verschiedenen Sprachelemente , die im Festwertspeicher 4 eingespeichert sind, stellen die Steuerinformation für den Lesevorgang dar und sind im Speicher der Rechenmaschine leingespeichert. Der Auswahl der Sprachelemente, die zur Synthese einer Sprache im Festwertspeicher eingeschrieben werden müssen, erfolgt gemäß der phonetischen Besonderheiten der betreffenden Sprache, so daß die gewählten Elemente ein vollständiges System hinsichtlich der Phonetik der Sprache darstellen. Im Speicher der Rechenmaschine 1 ist das Programm eingespeichert, das das vorgeschlagene Verfahren realisiert und es berücksichtigt die Intonation und die Betonung der konkreten Sprache.
Eingangsinformation für das Programm ist eine Textkonstante, die eventuell auch phonetische Zeichen enthält und die Aufzeichnung eines Satzes in der betreffenden Sprache ist. In der Rechenmaschine 1 wird der Satz grammatisch und phonetisch nach den Regeln der betreffenden Sprache untersucht, um seinen Frequenz- und Amplitudencharakteristiken, sowie auch die Stellen und die Dauer der Pausen und die die Sprache begleitenden Töne festzustellen. Danach werden nach diesen Charakteristiken und dem Einfluß der Machbar-Phoneme im Satz die Zusammensetzung (die Art der Perioden, von denen die Phoneme gebildet werden), die Amplitudencharakteristik und die Dauer jedes Phonems festgestellt. Es werden auch für jedes Sprachelement, das in dem zu synthetisierenden Satz enthalten ist, die Amplitude, die Dauer, die Anfangsadresse im Festwertspeicher 4 und die Leserichtung bestimmt. Auf diese Weise wird der Satz in einige Folgen von Sprachelementen und Pausen untergliedert, die durch die obenerwähnten Größen gekennzeichnet sind. Alle das betreffende Sprachelement kennzeichnenden Größen werden in der Rechenmaschine 1 mit Hilfe eines Programms in Real-Zeit ermittelt und durch die
809816/0590
Steuereinheit nacheinander den entsprechenden Blöcken bei Anforderung zugeführt. Aufgrund dieser Daten wird aus dem Speicher 4 ein Sprachelement aus der im Adressenregister-Zähler enthaltenen Anfangsadresse ausgelesen, wobei die Leserichtung durch das Register zur Bestimmung der Leserichtung 6 angegeben wird. Die Lesegeschwindigkeit aus dem Festwertspeicher 4 wird von dem im Register zur Bestimmung der Lesefrequenz 9 enthaltenen Wert bestimmt, und die Anzahl von den zu lesenden Daten wird von dem im Register für die Anzahl der Leseadressen 10 enthaltenen Wert bestimmt. Die im Register 9 und 10 enthaltene Information steuert die Arbeit des Impulsgenerators 11, der seinerseits die Änderung des Inhaltes des Adressenregister-Zählers 3 in der Zeit steuert.
Die Amplitudenwerte des auf diese Weise bestimmten Sprachelementes werden nacheinander dem Digital-Analog-Umwandler 16 mit der vom Register 9 vorgegebenen Lesegeschwindigkeit zugeführt. Der Ausgang des Digital-Analog-Umwandlers 16 ist mit dem Eingang des Verstärker-Modulators 15 verbunden, dessen Verstärkung durch den Ausgang des zur Umwandlung der digitalen Werte der Wiedergabeamplitude des in diesemMoment synthetisierten Sprachelementes dienenden Digital-Analog-Umwandlers 14 gesteuert wird. Das im Verstärker-Modulator 15 verstärkte Signal wird zur Wiedergabe dem Lautsprecher 17 und dem Übertragungskanal 18 zugeführt. Nach dem Ende der Wiedergabe des entsprechenden Elements gibt die Steuereinheit der Rechenmaschine 1 Anweisung zur Herstellung von neuen Daten zum Weiterführen der Synthese.
Während des Auslesens aus dem Festwertspeicher 4 und der Wiedergabe des entsprechenden Elementes ist die Rechenmaschine frei und führt die Analyse zur Vorbereitung von neuen Daten zur Steuerung der Synthese durch.
Bei der Anwendung einer Rechenmaschine ausreichender Geschwindigkeit ist es möglich, eine Rechenmaschine zur Steuerung mehrerer Anordnungen zur Synthese von Sprache zu verwenden. Als
809816/0590
Rechenmaschine 1 kann eine universale Rechenmaschine, ein Minirechner oder ein Mikroprozessor benutzt werden.
Aus der Figur 2 ist der kurze Explosivlaut "n" ersichtlich, danach folgen einige Perioden von "H" und eine längere Folge von Perioden "A". Es folgen zwei Gruppen von Lautperioden, die den Phonemen "H" und "A" entsprechen. Die aufgezeichnete Amplitudencharakteristik gehört einem Wort, das von einem Sprecher ausgesprochen ist und bei dem die Glätte der Formant-Ubergänge auf eine natürliche Weise zustande gekommen ist.
Im synthetisierten Wort, das in Figur 3 gezeigt ist, sind nacheinander "n"f zwei Perioden von "H", Perioden von "E", die einen glatten Formant-Ubergang zwischen "H" und das folgende "A" gewährleisten, Perioden von den Laut-Phonemen "A", "H", und "A" mit Längen, die so ausgewählt sind, daß eine glatte Veränderung des Grundtones gewährleistet ist, angeordnet.
In analoger Beziehtung stehen die Figuren 4 und 5, in denen das Einfügen des Phonems "U" zwischen dem ersten "M" und dem ersten "K" zum Gewährleisten eines glatten Grundformant-Uberganges ersichtlich ist.
Die Sonogramme der Wörter von Fig. 4 und 5 sind in Fig. 6 und 7 dargestellt. Das Sonagramm des Wortes von natürlichem Ursprung ( Fig. 6) ist viel reicher an Formanten, doch unabhängig davon empfängt das Ohr das synthetisierte Wort richtig.
809816/0590
-46 ' Leerseite

Claims (5)

  1. PAT L . vJ TA .'ν WA LT J.
    SCHIFF ν. FUN F. R STREHL SC H ÜBEL-H OPF EBßlNGHAUS FlNCK
    MARIAHILFPLATZ 2 A 3, MUNCHtN 9O 2 / H U b 4U U
    POSTAOfn-.SiiE: F5OSTFACH 95 OI GO, D-BOOO MÖNCHEN 95
    KARL LUOWIO SCMIFF
    DIPL. CHEM. nt-ΐ. ALEXANDER v. KÖNER
    DIPL. INO. Pf. TE-IR STREHL
    DIPL. CHlEM lift. LKiSLILA SCHÜHEL-HOPK
    DIPL. ING. DtECTER EBDINGHAUb
    DR. INCi. DITTi R FINCK
    EDINEIJ ZJSNTAR PO PIIYSIKA
    DA-18 168
    TELEFON (OBO) 48SO64
    KILtX Γ. 23!5Gr, AURO LI
    TELEGRAMMt-: AUROMARCPAT MÜNCHEN
    8. September 1977
    Verfahren und Anordnung; zur Synthese vnn Sprache
    PATENTANSPRÜCHE
    f1.ι Vorfahren zur Synthese von Sprache, dadurch gekennzeichnet , daß jedes Phonem von in einem Speicher eingespeicherten Phonem-Elementen gebildet wird, daß diese Phonem-Elemente aus dem Speicher in Reihe, Geschwindigkeit, Richtung und Anzahl nach der Art und der Länge jedes Phonems gemäß den Satzcharakteristiken und der' Art der Nachbnr-Phoneme ausgelesen v/erden, und der zu synthetisierende Text grammatisch und phonetisch Satz für Satz nach den Regeln der Sprache zur Bestimmung der Grundcharakterisfciken - die Veränderung der Stjmmhöhe als Frequenzcharakteristik, die Veränderung der Stärke der Stimme als Amplitudencharakteristik und die Dauer der Pausen - des betreffenden Satzes, der als Textkonstnntc aufgeschrieben ist, die erforderlichenfalls auch phonetische Zeichen enthalten kann, analysiert wird, nachdem die Folge von Phonemen zur Auswertung des Einflußes der Nachbar-
    809816/0590
    274052Q
    Phoneme analysiert wird und die Plätze und die Art der Veränderung der Phoneme innerhalb der Folge bestimmt werden, daß jedem Phonem bei Festhalten der Grundcharakteristiken des Satzes bestimmte Arten und eine Anzahl von Perioden von Lautschwingungen mit charakteristischer Formant-Verteilung, die aus einer natürlichen Sprache gewonnen sind und/oder künstlich synthetisiert sind, sowie bestimmte Arten und eine Anzahl von Zeit-Abschnitten von Rausch-Phonemen mit entsprechender Dauer, Amplituden und Spektralverteilung gegenübergestellt werden, daß die erwähnten Perioden der Lautschwingungen und die Elemente der Rausch-Phoneme, die für die Sprache vorbestimmt sind, in digitaler Form als Folge von Amplitudenwerten der entsprechenden Schwingung in einem Speicher eingespeichert sind, und zur Gewinnung der entsprechenden Frequenzcharakteristik der Phoneme der Lesevorgang der Amplitudenwerte der Schwingungen vor dem Ende der Periode zur Frequenzerhöhtuig unterbrochen und nach dem Ende der Periode zur Frequenzverminderung mit Nullwerten der Lesevorgang verlängert wird, daß zum Erreichen der Natürlichkeit der Sprache eine quasizufällige Veränderung der Längen der Perioden und der Amplituden der Schwingungen beim Lesen vorgenommen wird, daß zum Erreichen gleichmäßiger Spektral-Verteilungen bei der Synthetisierung von Rausch- und Misch-Phonemen Teile von Rausch-Elementen mit quasizufälliger Anfangeadresse, quasizufälliger Dauer und quasizufälliger Leserichtung ausgelesen werden, und zur Gewinnung verschiedener Phoneme aus gleichen eingespeicherten Rausch-Elementen die Lesefrequenz der eingespeicherten Amplitudenwerte geändert wird oder mit dem gleichen Ziel die Amplitudencharakteristiken der
    809816/0690
    Phoneme Reändert werden, daß die Gewinnung von Misch-Phonernen durch entsprechendes Verbinden von Laut-Perioden und Rausch-Teile realisiert, und die Realisierung glatter Phonem-Übergänge durch Benutzen von Perioden mit Formant --Verteilungen, die dem Charakter den Übergangs zwischen den Phonemen entsprechen, erreicht wird, daß zum Erreichen eines glatten Phonem-tiborgnngs die Amplituden der Schwingungen im Bereich des betreffenden Übergangs vermindert werden, daß die Steuerung der Wiedergabe der· im Speicher eingespeicherten Sprach-Elemente aufgrund der bei der Analyse der Phonem-Zusammensetzung und der Grundoharnkteristiken vorbereiteten Daten erfolgt, und daß die Amplituiencharaktcristiken der Phoneme durch Steuerung der Verstärkung des durch Umwandlung der digitalen Werte gewonnenen Analogsignale der synthetisierten Phoneme mittels einem Analogsignal, das den digitalen Werten der Amplitudencharnkteristjkon der Phoneme entspricht, gebildet werden.
  2. 2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß die Veränderung der Längen der Perioden i AO % betragen kann.
  3. 3. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß die quasizufällige Veränderung der Längen der Perioden und der Amplituden beim Lesen - 3 % betragen kann.
    809816/0500
  4. 4. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet , daß zum Erreichen der Natürlichkeit der Sprache quacizufällig die Periode der Lautschwingungen, ihrer Amplitude, die Periode der modulierten Amplituden-Rausch-Schwingungen zur Gewinnung von Misch-Phonemen und die Periode der amplitudenmoduliert en Laut-Schwingungen zur Gev/innung des Phonems "P" bulgarisch ("R" lateinisch) verändert werden.
  5. 5. Anordnung zur Synthese von Sprache, die eine Rechenmaschine benutzt, dadurch gekennzeichnet , daß ein Ausgang (2) der Rechenmaschine (1) an einem Adressenregister-Zähler (3) eines Festwertspeichers (4) angeschlossen ist, ein zweiter Ausgang (5) der Rechenmaschine (1) an einem Register (6) für Zählrichtung angeschlossen ist, dessen Ausgang mit dem Adressenregister-Zähler (3) verbunden ist, ein dritter und ein vierter Ausgang (7, 0) der Rechenmaschine (1) entsprechend an einem Register (9) zur Bestimmung der Zählfrequenz und an einem Register (10) für die Anzahl der Leseadressen angeschlossen sind, die Ausgänge der beiden letzten Register (9, 10) mit einem Impulsgenerator (11) mit vorgegebener Anzahl und Frequenz verbunden sind, dessen Ausgang mit dem Zähl-Eingang des Adressenregister-Zählers (3) verbunden ist, ein fünfter Ausgang (12) der Rechenmaschine (1) über ein Register (13) zur Amplitudensteuerung an einen Digital-Analog-Umwandler (14) angeschlossen ist, dessen Ausgang mit dem Eingang zur Änderung der Verstärkung eines Verstärker-Modulators (15) verbunden ist, der Ausgang des Festwertspeichers (4) an
    809816/0590
    einem zweiten Digital-Analog-Umwandler (16) angeschlossen ist, dessen Ausgang mit dem Eingang des Verstärker-Modulators (15) verbunden ist, der Ausgang des Verstärker-Modulators (15) mit einem Lautsprecher (17) und einem Ubertragungskanal (18) verbunden ist und der Ausgang der Steuereinheit (19) mit dem Eingang (21) der Rechenmaschine (1) verbunden ist, deren sechster Ausgang (20) mit dem Eingang der Steuereinheit (19) verbunden ist.
    809816/0690
DE19772740520 1976-09-08 1977-09-08 Verfahren und anordnung zur synthese von sprache Withdrawn DE2740520A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BG7600034160A BG24190A1 (en) 1976-09-08 1976-09-08 Method of synthesis of speech and device for effecting same

Publications (1)

Publication Number Publication Date
DE2740520A1 true DE2740520A1 (de) 1978-04-20

Family

ID=3902565

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19772740520 Withdrawn DE2740520A1 (de) 1976-09-08 1977-09-08 Verfahren und anordnung zur synthese von sprache

Country Status (10)

Country Link
US (1) US4278838A (de)
JP (1) JPS5953560B2 (de)
BG (1) BG24190A1 (de)
DD (1) DD143970A1 (de)
DE (1) DE2740520A1 (de)
FR (1) FR2364522A1 (de)
GB (1) GB1592473A (de)
HU (1) HU176776B (de)
SE (1) SE7709773L (de)
SU (1) SU691918A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2917161A1 (de) 1978-04-28 1979-11-29 Texas Instruments Inc Elektronisches lernhilfegeraet
DE19610019A1 (de) * 1996-03-14 1997-09-18 Data Software Gmbh G Digitales Sprachsyntheseverfahren

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56161600A (en) * 1980-05-16 1981-12-11 Matsushita Electric Ind Co Ltd Voice synthesizer
DE3104551C2 (de) * 1981-02-10 1982-10-21 Neumann Elektronik GmbH, 4330 Mülheim Elektronischer Textgeber zur Abgabe von Kurztexten
US4398059A (en) * 1981-03-05 1983-08-09 Texas Instruments Incorporated Speech producing system
US4685135A (en) * 1981-03-05 1987-08-04 Texas Instruments Incorporated Text-to-speech synthesis system
US4470150A (en) * 1982-03-18 1984-09-04 Federal Screw Works Voice synthesizer with automatic pitch and speech rate modulation
JPS58168096A (ja) * 1982-03-29 1983-10-04 日本電気株式会社 複数言語音声合成装置
JPS58175074A (ja) * 1982-04-07 1983-10-14 Toshiba Corp 構文分析方式
US4579533A (en) * 1982-04-26 1986-04-01 Anderson Weston A Method of teaching a subject including use of a dictionary and translator
WO1983003914A1 (en) * 1982-04-26 1983-11-10 Gerald Myer Fisher Electronic dictionary with speech synthesis
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
US4527274A (en) * 1983-09-26 1985-07-02 Gaynor Ronald E Voice synthesizer
JPS6145747U (ja) * 1984-08-30 1986-03-26 パイオニア株式会社 カセツト型テ−プレコ−ダ
US4695975A (en) * 1984-10-23 1987-09-22 Profit Technology, Inc. Multi-image communications system
US4788649A (en) * 1985-01-22 1988-11-29 Shea Products, Inc. Portable vocalizing device
JPS61145356U (de) * 1985-02-27 1986-09-08
US4589138A (en) * 1985-04-22 1986-05-13 Axlon, Incorporated Method and apparatus for voice emulation
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
JP2595235B2 (ja) * 1987-03-18 1997-04-02 富士通株式会社 音声合成装置
JPS63285598A (ja) * 1987-05-18 1988-11-22 ケイディディ株式会社 音素接続形パラメ−タ規則合成方式
DE68913669T2 (de) * 1988-11-23 1994-07-21 Digital Equipment Corp Namenaussprache durch einen Synthetisator.
JPH02239292A (ja) * 1989-03-13 1990-09-21 Canon Inc 音声合成装置
US5091931A (en) * 1989-10-27 1992-02-25 At&T Bell Laboratories Facsimile-to-speech system
AU632867B2 (en) * 1989-11-20 1993-01-14 Digital Equipment Corporation Text-to-speech system having a lexicon residing on the host processor
US5157759A (en) * 1990-06-28 1992-10-20 At&T Bell Laboratories Written language parser system
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US6150011A (en) * 1994-12-16 2000-11-21 Cryovac, Inc. Multi-layer heat-shrinkage film with reduced shrink force, process for the manufacture thereof and packages comprising it
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5832434A (en) * 1995-05-26 1998-11-03 Apple Computer, Inc. Method and apparatus for automatic assignment of duration values for synthetic speech
US5751907A (en) * 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6230135B1 (en) 1999-02-02 2001-05-08 Shannon A. Ramsay Tactile communication apparatus and method
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR20020067921A (ko) * 2000-10-23 2002-08-24 소니 가부시끼 가이샤 각식 로봇 및 각식 로봇의 행동 제어 방법, 및 기억 매체
US7280969B2 (en) * 2000-12-07 2007-10-09 International Business Machines Corporation Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US6988068B2 (en) * 2003-03-25 2006-01-17 International Business Machines Corporation Compensating for ambient noise levels in text-to-speech applications
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
CN1831896A (zh) * 2005-12-08 2006-09-13 曲平 一种语音发声装置
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
KR100699050B1 (ko) 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8027837B2 (en) * 2006-09-15 2011-09-27 Apple Inc. Using non-speech sounds during text-to-speech synthesis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6728755B2 (ja) * 2015-03-25 2020-07-22 ヤマハ株式会社 歌唱音発音装置
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
RU2591640C1 (ru) * 2015-05-27 2016-07-20 Александр Юрьевич Бредихин Способ модификации голоса и устройство для его осуществления (варианты)
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN113593521B (zh) * 2021-07-29 2022-09-20 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
US4130730A (en) * 1977-09-26 1978-12-19 Federal Screw Works Voice synthesizer

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2917161A1 (de) 1978-04-28 1979-11-29 Texas Instruments Inc Elektronisches lernhilfegeraet
DE2954377C2 (de) * 1978-04-28 1988-11-03 Texas Instruments Inc., Dallas, Tex., Us
DE19610019A1 (de) * 1996-03-14 1997-09-18 Data Software Gmbh G Digitales Sprachsyntheseverfahren
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US6308156B1 (en) 1996-03-14 2001-10-23 G Data Software Gmbh Microsegment-based speech-synthesis process

Also Published As

Publication number Publication date
FR2364522B3 (de) 1980-07-04
BG24190A1 (en) 1978-01-10
JPS5953560B2 (ja) 1984-12-25
SU691918A1 (ru) 1979-10-15
US4278838A (en) 1981-07-14
HU176776B (en) 1981-05-28
FR2364522A1 (fr) 1978-04-07
GB1592473A (en) 1981-07-08
DD143970A1 (de) 1980-09-17
SE7709773L (sv) 1978-03-09
JPS5367301A (en) 1978-06-15

Similar Documents

Publication Publication Date Title
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
EP1168298B1 (de) Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
EP1184839A2 (de) Graphem-Phonem-Konvertierung
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
DE69816049T2 (de) Vorrichtung und verfahren zur prosodie-erzeugung bei der visuellen synthese
DE1811040A1 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE3006339A1 (de) Verfahren und einrichtung zur sprachsynthese
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE3232835C2 (de)
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
DE60025120T2 (de) Amplitudensteuerung für die Sprachsynthese
DE2016572A1 (de) Verfahren und Einrichtung zur Sprachsynthese
DE3406540C1 (de) Verfahren und Anordnung fuer die Sprachsynthese

Legal Events

Date Code Title Description
OAR Request for search filed
OC Search report available
8128 New person/name/address of the agent

Representative=s name: VON FUENER, A., DIPL.-CHEM. DR.RER.NAT. EBBINGHAUS

8141 Disposal/no request for examination