DE2115258B2 - Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern - Google Patents
Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woerternInfo
- Publication number
- DE2115258B2 DE2115258B2 DE19712115258 DE2115258A DE2115258B2 DE 2115258 B2 DE2115258 B2 DE 2115258B2 DE 19712115258 DE19712115258 DE 19712115258 DE 2115258 A DE2115258 A DE 2115258A DE 2115258 B2 DE2115258 B2 DE 2115258B2
- Authority
- DE
- Germany
- Prior art keywords
- word
- words
- message
- processor
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 19
- 238000003786 synthesis reaction Methods 0.000 title claims description 18
- 238000000034 method Methods 0.000 title claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 26
- 230000007704 transition Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000009795 derivation Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 206010017577 Gait disturbance Diseases 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 238000005267 amalgamation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese aus. Darstellungen von individuell
gesprochenen Wörtern, bei dem parametrische Darstellungen (z. B. Formantfrcquenzen, Amplitude,
Tonhöhe, Pol- und Nullfrequenzen stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe
von eine vollständige Nachricht bildenden Wörtern entwickelt werden. Ferner bezieht sich die Erfindung
auf eine Anordnung zcr Durchführung dieses Verfahrens.
Seit kurzem werden viele Anstrengungen zur Erzeugung
von künstlicher Sprache aus Daten, die einem Digitalrechner zugeführt oder in diesem gespeichert
werden, unternommen. Nachrichten aus künstlich erzeugter Sprache werden beispielsweise in
telefonischen rutomatischen Abhör- und Informationssystemen,
in automatischen Bestandsberichten, für Wettervorhersagen und für die mündliche
Wiedergabe der Börsennotierungen benutzt. In jeder dieser Anwendungen wird eine Anfrage an ein
System gestellt, das System antwortet auf die Anfrage, entwickelt die erforderliche Antwort und ruft
eine gespeicherte Anzahl von gesprochenen Sprachdaten ab. um eine entsprechende Information zu
formulieren, weiche einem Sprachsynthetisator zuucführt
wird. Die Antwort auf die Franc wird iie-
!cbenenfalls in Form einer vollständig gesprochenen Xußerung wiedergegeben.
Für einen derartigen Dienst muß das System .Henbar ein großes und flexibles Vokabular bcs'itzen.
)as System muß daher beträchtliche Mengen von •iprachinformationcn speichern, und es muß" die In-"i-rmation
in einer solchen Form zur Verfügung iahen, daß eine Vielzahl von Nachrichten erzeugt
..•.erden kann. Von dem System erzeugte Sprache
Millie so verstandlich sein wie natürliche Sprache.
Is besteht sogar die Möglichkeit, daß die künstliche sprach.- verständlicher ist als natürliche Sprache. Sie
MHiIi jedoch nicht wie die eines bestimmten Menschen
klingen, und es is; sogar möglich, daß sie einen Nlaschinenakzent besitzt.
Eine Technik zur Synthese von Nachrichten bc- -;ehi darin, individuell gesprochene Wörter zu spei-J:ci
η und die Wörter in Übereinstimmung mit der j. wünschten Nachricht für einen Ausgan« auszuwählen
(USA.-Patentschrift 3 209 014). In dieser VV. .se zusammengefügte Wörter führen zu verständ-,
er. aber in hohem Maße unnatürlich klingender Sr ache. Eine Schwierigkeit besteht darin, daß Wort-■
hwingungen nicht leicht bezüglich ihrer Länge einuC-iellt
werden können. Auch ist es schwierig, «leitende
Übergänge von einem Wort zum nächsten durchzuführen. Derartige Systeme sind jedoch
relativ einfach gerätemäßig aufzubauen und bieten einen relativ großen Wortschatz mit einfachen Speii
licrmitteln.
I'm einige der Schwierigkeiten bei der Speicherui.g
voii Wörtern zu vermeiden und um die Speicherkapazität
für eine vernünftige Vielfalt von Nachncluenantwortcn
zu verringern, können individuell ^prochene Laute in der Form von i! oncm-Aufzeichnungen
gespeichert werden. Derartige Aufzeichnungen können aus dem Speicher in Übereinstimmung
mit den Wort- und Nachrichtenzusammenliigungsregeln
abgerufen werden und zum Betrieb eines Sprachsynthetisators verwendet werden. Leider
ist die Sprache auf der akustischen Ebene nicht besonders verständlich. Artikulationen von benachbarten
Phonemen machen sich bemerkbar, und die Übergantsvorgänge des Vokaltraktes in der Erzeugung
eines Phonems dauern langer als die durchschnittliche Dauer eines Phonems. Dies bedeutet,
daß sich die artikulatorischen Gesten überschneiden und einander überlagern. Daher sind die Übergangsbewegungen des Vokaltraktes besonders wichtig.
Darüber hinaus ist viel Information über die Identität eines Konsonanten nicht durch die spektrale
Gestalt im Dauerzustand des Konsonanten, sondern durch die dynamischen gegenseitigen Beeinfliissungei.
benachbarter Phoneme gegeben.
Die Sprachsynthese ist daher sehr stark mit dynamischen Vorgängen befaßt. Ein Synthetisator muß
nicht nur die Charakteristika von Lauten wiedergeben, weiche dem Ideal jedes Phonems möglichst
nahekommen, sondern auch die dynamischen Vorgänge des Vokaltraktes, wenn von einem zum anderen
Phonem fortgeschritten wird. Diese Tatsache wirft ein Licht auf den Unterschied zwischen der
Sprachsynthese aus gespeicherten Wörtern oder Sätzen und der Syn'.nese aus elementareren Sprecheinheiten.
Wenn der Schatz der Sprachelemente eine kleine Anzahl kurzer Einheiten ist. beispielsweise
Phoneme, kommen uie Verbindungsverfahren der Knmnlizierlheit des Vokaltraktes nahe. Umiiekehrt.
wenn der Schatz der Sprachelemente eine wesentlich größere Anzahl von längeren Sprachausschnitten ist.
beispielsweise Worten oder Sätzen, können die Elemente an Nachrichtenstellen zusammengeknüpft werden,
wo der Aufwand für die Übergänge minimal ist. Obwohl die Synthese von Phonemen daher erstrebenswert
und manches Mal auch passend ist. führen die Zwischenschritte der Zusammenfügung von
elementaren Sprachaufzeichnungen in Worte und
ίο Worte in Nachrichten entsprechend vorgeschriebenen
Regeln zu einem komplizierten Gerät, und es wird bestenfalls mechanisch klingende Sprache erhalten.
Der Erfindung liegt die Aufgabe zugrunde, ein
Verfahren zur Sprachsynthese anzugeben, das von der Speicherung individuell gesprochener Wörter
ausgeht und diese zu möglichst verständlich und natürlich klingenden Sätz.en zusammenfügt. Die gestelh.
Aufgabe wird, ausgehend von einem V'erfah-
ren der eingangs angegebenen \rt. erfindungsgemäß dadurch gelöst, daß jedes zu >ynthetisierende Wort
in vorgewählte Unterintervalle eines stimmhaften Lauts zur Entwicklung der die Änderungsgeschwindigkeit
einer Formantkontur des Unterintcrvalls dar-
stell nden Spektralableitung für jedes Unterintervall
unterteilt und die Länge eines Worts nur dann geändert wird, wenn der kleinste Spektralableitungswert
in Abhängigkeit von einer abgeleiteten Sil'oen-Zeitkontur
für die zu synthetisierende Nachricht gefunden wird, und daß ein geeigneter Übergang /wischen
den Wörtern der vollständigen Nachricht dadurch entwickelt wird, daß eine gleitende Interpolationskurve
über den Grenzen benachbarter, zu synthetisierender Wörter vor deren Übertragung zu
einem Synthesegerät aus den zuvor entwickelten Spektralableitungen abgeleitet wird.
Weitere Einzelheiten der Erfindung werden an Hand eines Ausführungsbeispieles besprochen. Dabei
zeigt
F i g. 1 eine Anordnung gemäß der Erfindung zur Synthese aus Worten auf Kommando.
F i g. 2 die Art der Überlappung individueller Wortformanten in Übereinstimmung mit der Erfindung
für vier verschiedene Wortkombinationen.
F i g. 3 Zeitdaten zur Verwendung bei der Verarbeitung von Formantdaten.
Fig. 4 die Verarbeitung von stimmhafien Formantdaten
für individuelle Wörter, um eine zusammengekettete Formantstruktur zu erzeugen, die
zur Betätigung eines Sprechsynthetisators dient,
F i g. 5 die Verarbeitung von sowohl stimmhaften als auch Reiblautformantdaten für individuelle Wörter
zur Erzev'gung einer zusammpngckettenen Formantstruktur.
die zur Betätigung eines Sprachsynthetisatcrs dient, und
Fig. 6A, 6B und 6C ein Flußdiagramm der Betätigungen
entsprechend der Erfindung zur Verarbeitung parametrischer Daten und zur Verknüpfung
dieser Daten zur Erzeugung eine? vollständigen Satzes von Steuersignalen zur Betätigung eines Formantsprachsynthetisators.
Bei dem Ve-fahren gemäß der Erfindung werden Darstellungen von geschrochenen Wörtern oder Sätzen
in Ausdrücken von individuellen Formaruen und
anderen sprachdefinierenden Charakteristiken in an sich bekannter Weise gespeichert. Formanten sind
die natürlichen Resonanzen des Vokaltraktes, und sie nehmen unterschiedliche Frequenzwerte an. wenn
der Vokaltrakt seine Gestalt während des Sprechens ändert. Typischerweise treten drei derartige Resonanzen
in dem Frequenzbereich auf, der für die Verständlichkeit wichtig ist, nämlich zwischen 0 und
3 kHz. Die Darstellung der Sprachwelle als ein Satz von sich langsam ändernden Anregungsparametern
und Vokaltraktresonanzen ist aus mindestens zwei Gründen vorzüglich geeignet. Erstens ist diese Darstellung
für Datenspeicherzwecke geeigneter als beispielsweise eine Darstellung der Sprachwellenform
in Impulscodemodulation, zweitens erlaubt die Formant-Darstellung
eine Flexibilität in der Handhabung der Sprachsignale zur Verknüpfung von Wörtern oder Sätzen.
Daher werden individuelle, natürlich gesprochene, isolierte Worte analysiert, um einen Wortschatz zu
erzeugen, der in Ausdrücken von Formantfrequenzen gespeichert wird. In der Formant-Darstellung einer
Äußerung können Formantfrequenzen, Stimmhöhe, Amplitude und Zeitdauer jeweils unabhängig voneinander
gehandhabt werden. Daher kann bei der Synthese einer Äußerung eine künstliche Tonhöhenkontur,
d. h. der Zeitverlauf der betreffenden Parameter an Stelle der natürlichen Kontur, gesetzt werden.
Ein andauernder Ton kann verlängert oder gekürzt werden, und selbst eine ganze Äußerung kann
beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt ohne Verlust an Verständlichkeit.
Fermenten können lokal verzerrt werden, und die gesamte Formantkontur kann gleichmäßig gehoben
oder gesenkt werden, um die Stimmqualität zu ändern.
Auf einen Programmbefehl werden Wortlängenformantdaten
abgerufen und miteinander verknüpft, um die vollständigen Formantfunktionen für die gewünschte
Äußerung zu bilden. Die Formantfunktionen werden in Übereinstimmung mit spektralen
Ableitungen interpoliert, um Konturen aufzustellen, welche sanfte Übergänge zwischen den Wörtern bestimmen.
Sprachkontur- und Wortdauerdaten werden entsprechend eingespeicherten Regeln berechnet. Im
Anschluß an die notwendige Verarbeitung und Interpolation werden verknüpfte Formantfunktionen zur
Synthese einer Wellenform benutzt, welche einer natürlich gesprochenen Nachricht ziemlich nahekommt.
Ais zusätzlicher Vorteil kommt, man mit wenig Speicherraum aus, weil die Formant- und Anregungsparametei
sich relativ langsam ändern und durch wenige Binärzahlen (Bits) pro Sekunde beschrieben
werden können, als beispielsweise die Sprach-Wellenform.
Ein System zur Synthese von Sprache durch Verknüpfung von in Formantform codierten Wörtern in
Übereinstimmung mit der Erfindung ist fcchematisch in F i g. 1 dargestellt. Isolierte, von einem menschlichen
Wesen gesprochene Wörter werden analysiert, um die zur Synthese erforderlichen Parameter abzuschätzen.
Diese natürlich gesprochenen, isolierten Wörter können entweder im Studio erzeugt oder aufgezeichnete
Worte sein und werden in dem System 10 zur Verfügung gestellt und, falls erwünscht, im
Umsetzer 11 in digitale Form gebracht. Die in welcher Form auch immer vorliegenden individuellen
Wörter werden dem Sprachanalysator 12 zugeführt, worin individuelle Formanten, Amplituden, Tonhöhen-Periode-Bestimmungen
und Reiblaut-Poluüd Null-Merkmale gemäß Nyquist-Zahl abgeleitet
werden. Geeignete Sprachanalysatoren sind gemäß dem Stand der Technik bekannt. Im wesentlichen weist
der Analysator 12 mehrere individuelle Kanäle auf. nämlich einen Analysator 13 zur Identifizierung von
Formantfrequenzen F1, F.,, /\, (für stimmhafte
Laute), einen Analysator 14 zur Ableitung eines Tonhöhenperiodensignals P. einen Analysator 15 zur
Ableitung von Pegclstcuersignalen für Summen Av
und für Zischen Αχ und einen Analysator 16 zur
Ableitung von Pol- und Null-Signalen F1, und F1
ίο für Reiblaute bzw stimmlose Sprachteile.
Diese Werte der Steuerparameter werden an die Speichereinheit 17 für parametrische Beschreibung
geliefert, welche eine beliebige Form aufweisen kann. Sowohl analoge als auch digitale Speicher, zu denen
i; Befehlszugriff besteht, sind gemäß dem Stand der
Technik bekannt. Wenn der Speicher 17 gefüllt ist. enthält er einen Wortkatalog, zu dem von dem Wortverknüpfungsteil
des Systems Zugang besteht. Die in dem Katalog 17 enthaltenen parametrischen Werte
ao können von Zeit zu Zeit durch Zufügung neuer Wörter oder Wegfall revidiert werden.
Eingangsbefehl
as Ein von .lern Wortfolgeeingang 18 stammender
Eingangsbefehl veranlaßt die notwendigen Betätigungen zur Synthese einer Nachricht, die aus Wörtern
des Katalogs 17 zusammengesetzt wird. Die genaue Form des Einganges 18 hängt von der speziellen An-
Wendung des Wortsynthesesystems ab. Typtscherweise liegt eine Anfrage bestimmter Form an dem
durch die Einheit 18 verkörperten System an, die notwendigen Daten für eine Antwort werden formuliert,
und die geeigneten Wortdarstellungen für die Antwort, beispielsweise in der englischen Sprache,
werden in Codesprache zusammengesetzt und an das Synthesesystem als Ausgangssignal der Einheit 18
geliefert. Derartige Antworteinheiten gehören dem Stand der Technik an und werden in zahlreichen
Patenten und Aufsätzen beschrieben. Das von einer derartigen Antworteinheit gelieferte Ausgangssignal
kann daher in der Form von maschinencodierter Sprache, Phonemen oder anderen Sprachsymbolen
od. dgl. vorliegen. In welcher Form auch das Ausgangssignal vorliegt, es wird in Übereinstimmung mit
der Erfindung dem Wortverarbeitungssystem 20 zugeführt, worin die erforderlichen Wortdaten zusammengefügt,
verarbeitet und an einen Sprachsynthetisator 26 geliefert werden.
Die Erzeugung einer aus Wörtern zusammengesetzten Nachricht, wobei die Wörter aus der
Speichereinheit 17 stammen, macht die Erzeugung von Zeitkonturen. Tonhöhenkonturen sowie von
Formant- und Amplitudenkonturen erforderlich. Der Prozessor 20 wendet gemäß Erfindung unterschiedliche
Strategien zur Behandlung der »Ausschnitts« Merkmale
der Nachricht an, beispielsweise Formant frequenzen. Pol- und Nullfrequenzen und Amplituden
für stimmlose Laute und die »Silbene-Merkmale,
beispielsweise Zeitablauf und Tonhöhe. Die Programmstrategie zur Behandlung der Ausschnittsoder Teilmerkmale ist in dem Prozessor selbst gespeichert.
Das Merkmal bezüglich Silbeninformation, welches zur Verarbeitung benötigt wird, wird entweder
im Prozessor 20 abgeleitet oder diesem zugeführt. Diese Flexibilität in der Verarbeitung von
Sprache, welche formantweise codiert ist, erlaubt die Aufteilung der Syniheseproblerne in zwei Teile.
(ο
7 8
Zeitablauf-Daten Es ist auch möglich, die Tonhöhenkonturinformation
über Regeln zu berechnen. Daher gibt es viele Wege.
Zeitablaufinformntion kann in einem von unter- die Silbeninformation für eine Nachricht zu erhallen,
schicdlichcn Wegen abgeleitet werden. Für Anwcn- und die Wahl hangi stark son der erwünschten
düngen mit beschränktem Wortschatz, beispielsweise 5 Qualität der künstlichen Sprache und der speziellen
automatischen Abhördiensten, müssen die Zeit- vorgesehenen Anwendung ah.
ablautrcfi In nicht komplizierter sein als eine Tabelle
ablautrcfi In nicht komplizierter sein als eine Tabelle
mit Wortlängen als Funktion der Lage in einer Reine Wortdauer-Einstellutm
von Daten und als Funktion der Anzahl der Phoneme pro Wort. Zeitablauf-Daten für eine sieben- io Sobald das Zeitablaufmuster der Nachricht aufstellige
Digit-Reihe sind in der Tabelle der F i g. 3 gestellt ist. können isolierte Wörter aus dem Wortdargestellt
und werden normalerweise in der Zeit- katalog 17 herausgezogen werden und entsprechend
ablaufeinheit 22 gespeichert. Bei ausgeklügelten An- dem jeweiligen Zeitablauf verändert werden. In diewendungen
wird die Wortdauer durch Regeln bc- sem Sinne können Formanldaten eines Wortes in
stimmt, welche die Syntax der speziellen, zu produ- 15 dem Katalog entweder gestreckt oder verkürzt werzierenden
Nachricht berücksichtigen, d. h. Regeln. den. Die Formantkonturen oder -umrisse für aufdie
beispielsweise auf Modellen der englischen einanderfolgende stimmhafte Worte werden glatt
Sprache beruhen. Derartige Daten werden auch in miteinander verbunden und bilden durchgehende
dem Zeitablaufspeicher 22 gespeichert. Es ist auch Übergänge und kontinuierliche Formantkonturen für
möglich, die Dauer jedes zu synthetisierenden Wortes ao die Nachricht. Die Wahl der Stelle in einem Wort
in der Eingangsreihe aus äußeren Zeitablaufdaten zur Änderung der Dauer basiert auf den dynavon
der Einheit 23 festzulegen. In diesem Fall wird mischen Veränderungen der Formantkonturen. Für
die Wortdauer entsprechend beispielsweise einigen jedes Unterintervall eines stimmhaften Lautes,
äußeren Kriterien oder von einem Meßergebnis einer typischerweise 10 ms in der Dauer, wird ein Maß
natürlich gesprochenen Version der zu synthetisie- 25 der Änderungsgeschwindigkeit der Formantkontur
renden Nachricht gewählt und braucht nicht not- in dem Prozessor 21 errechnet. Dieses Maß wird al«,
wendig eine typische Dauer dieses Wortes zu sein, »spektrale Ableitung« bezeichnet. Stellen eines Worunabhängig
vom Zusammenhang. Daher können tes. wo die spektrale Ableitung klein ist sind Stellen,
äußere Zeitablaufdaten von äußeren Speichern zu- an denen das Wort mit der geringsten Einwirkung
geführt werden oder von Realzeiteinstellungen, die 30 bezüglich Wortverständlichkeit gekürzt oder gedehnt
während der Synthese gemacht werden. werden kann. Um daher ein Wort um einen ge
gebenen Betrag zu verkürzen, wird eine geeignete
Tonhöhen-Daten Anzahl von Intervallen von 10 ms in dem Bereich
der kleinsten spektralen Ableitungen abgezogen. Um
Die Synthese macht auch die Bestimmung der ge- 35 e'n Wort auszudehnen, wird der Bereich der geeigneten
Tonhöhenkontur, d. h. die Tonhöhen- ringsten spektralen Ableitung durch Hinzufügung
periode als Funk.ion der Zeit, für die zusammen- einer geeigneten Anzahl von Intervallen von 10 ms
zusetzende Nachricht erforderlich. Tonhöheninfor- gedehnt. Stimmlose Bereiche von Wörtern werden
mation kann auf verschiedenen Wegen erhalten niemals modifiziert.
werden. Beispielsweise kann der Tonhöhencharakter 40 In der Praxis wird das Maß der spektralen Abder
ursprünglichen Folge der gesprochenen Worte leitung SD1 nach folgender Formel berechnet:
gemessen werden. Alternativ kann eine monotone
gemessen werden. Alternativ kann eine monotone
oder willkürlich geformte Kontur verwendet werden. 3
Tn der Praxis jedoch haben diese beiden Möglich- SD1 = V F;(/) — FAi-I) , m
keiten zu nicht annehmbaren, unnatürlichen Ergeb- 45 j=\ " '
nissen geführt. Deshalb wird gemäß der Erfindung
eine zeitablaufnormalisierte Tonhöhenkontur verwendet, die in der Einheit 24 gespeichert wird, und hierbei ist / (1, 2 ...) das i-te Intervall von 10 ms diese Tonhöhe wird in Übereinstimmung mit den und F1 (/) der Wert des Hen Formanten in dem /-ten Wortteilen gemäß Zeitablaufregeln verändert. Daher 50 Zeitintervall. Um zu bestimmen, wie viele Intervalle werden die in der Einheit 24 gespeicherten Ton- von 10 ms zu den isolierten Wortbefehlsignalen hinhöhen-Daten dem Verknüpfungsprozessor 21 zu- zugefügt (oder subtrahiert) werden müssen, wird geführt, wo die Kontur örtlich gedehnt oder verkürzt eine Gleichung verwendet, die auf der gewünschten wird, wie dies durch den speziellen Äußerungfablauf, Wortlänge, der isolierten Wortlänge und einiger geliefert durch die Zeitablaufdaten, gefordert wird. 55 einfachen Verknüpfungsinformationen bezüglich dei Falls gewünscht, können Tonhöhenänderungsdaten Verknüpfung des betreffenden Wortes mit den vorvon der äußeren Quelle 25 zugeführt werden, ent- und nachfolgenden Nachbarwörtern beruht. Im folweder in der Form von Hilfsspeicherdaten oder als genden werden Symboldefinitionen gegeben:
Realzeiteingangsdaten. Beispielsweise kann eine _
eine zeitablaufnormalisierte Tonhöhenkontur verwendet, die in der Einheit 24 gespeichert wird, und hierbei ist / (1, 2 ...) das i-te Intervall von 10 ms diese Tonhöhe wird in Übereinstimmung mit den und F1 (/) der Wert des Hen Formanten in dem /-ten Wortteilen gemäß Zeitablaufregeln verändert. Daher 50 Zeitintervall. Um zu bestimmen, wie viele Intervalle werden die in der Einheit 24 gespeicherten Ton- von 10 ms zu den isolierten Wortbefehlsignalen hinhöhen-Daten dem Verknüpfungsprozessor 21 zu- zugefügt (oder subtrahiert) werden müssen, wird geführt, wo die Kontur örtlich gedehnt oder verkürzt eine Gleichung verwendet, die auf der gewünschten wird, wie dies durch den speziellen Äußerungfablauf, Wortlänge, der isolierten Wortlänge und einiger geliefert durch die Zeitablaufdaten, gefordert wird. 55 einfachen Verknüpfungsinformationen bezüglich dei Falls gewünscht, können Tonhöhenänderungsdaten Verknüpfung des betreffenden Wortes mit den vorvon der äußeren Quelle 25 zugeführt werden, ent- und nachfolgenden Nachbarwörtern beruht. Im folweder in der Form von Hilfsspeicherdaten oder als genden werden Symboldefinitionen gegeben:
Realzeiteingangsdaten. Beispielsweise kann eine _
Tonhöhenkontur verwendet werden, die von einer 60 'pm = 1>
wenn das Ende des vorhergehender natürlich gesprochenen Version der Nachricht Wortes stimmhaft ist und der Beginn de«
stammt. Derartige Daten werden normalerweise laufejden Wortes ebenfalls stimmhaft ist
dann verwendet, wenn die Dauer der Wörter in ahn- 0 im anderen Fall,
licher Weise gewonnen worden ist, beispielsweise . Λ , _ .
von der äußeren Zeitablaufeinheit 23. 65 !™ = 1 ' ™enn da* .End<\ des laufenden Worte;
Tonhöhen- und Zeitinformation, die in dieser stimmhaft ist und der Beginn des folgen
Weise von außen zugeführt werden, führen zu der aeu Wortes ebenfalls stimmhaft ist,
am natürlichsten klingenden künstlichen Sprache. 0 im anderen Fall,
3194
ίο
W1 = Dauer des laufenden Wortes, einzeln gesprachen,
W1, = Dauer des laufenden Wortes, im Zusammenhang
gesprochen (gemäß Zeitabiauiregeln), "
W1- = Anzahl von Intervallen von 10 ms. die
addiert werden müssen, wenn W,: >
0 (oder substrahiert werden müssen, wenn Wc <0).
dabei ist
^ _ Anfangsintervall des Vermischungs-
bereichs des laufenden Wortes
/·',(,) = Wert des Formanten / der Nachrichtcnkontur zur Zeit / während des Vermischungsbereiches I = 0, 1 ... 9.
/·',(,) = Wert des Formanten / der Nachrichtcnkontur zur Zeit / während des Vermischungsbereiches I = 0, 1 ... 9.
Es wird folgendc Interpolations-Funktion bcnuizt:
Es gilt folgende Regel:
Wc= W0- W1 + 5
(2)
(^-/)375T + Z-5252
(3)
Der Grund für den letzten Ausdruck in der obigen 15 hierbei ist
Gleichung ist der daß, wenn immer IP„ = 1 oder
I11M = I, dies bedeutet, daß die beiden Worter allmählich
miteinander verm.scht werden müssen und
«eh um 100 ms überlappen. Dieser Bereich von
100 ms wird von beiden Wörtern eingenommen, daher werden 50 ms (5 Intervalle) jedem Wort getrennt
in Ausdrücken des Gesamtzeitablaufes zugeteilt. Die Technik, durch welche die gemäß Wc zusätzlichen
Intervalle von 10 ms hinzugefügt oder entfernt wer-
d kl
pk(f>
= w des . Formanten 7ur Zcit/ fUr
· da$ Woft k (Jfc = j bedeutet das laufende
· da$ Woft k (Jfc = j bedeutet das laufende
k = £ das f j de Woft)
Formant-Interpolation
vallen, hinzugefügt.
Beschreibung von W ortuberschnetdungen
Mit Ausnahme des Falles, wenn das Ende des laufenden
Wortes und der Beginn des folgenden Wortes stimmhaft sind, werden die Steuerdaten wortweisc
Fig. 2 stellt die Art der Interpolation für vier eingg
fache Fälle in Übereinstimmung mit obigen Betrach-
den, beruht ganz auf der Messung der spektralen 25 tungen dar. Obwohl alle drei Formanten eines Lau-Ableitungen.
Wie zuvor angeführt, wird die spektrale tes interpoliert werden, wird zum Zwecke der VerAbleitung
für jedes stimmhaftp Intervall von 10 ms einfachung der Darstellung nur ein Formant beeines
isolierten Wortes berechnet. Um ein Wort zu trachtet. Für die Wörter in Spalte 1 zeigt das Wort 1
verkürzen, werden die ^-Intervalle mit den klein- (das oberste Spektrum) eine sehr kleine Änderung in
»ten spektralen Ableitungen entfernt. Um ein Wort 30 den letzten 100 ms auf, während das Wort 2 (mittauszudehiicii,
wird der Bereich des Wortes mit den leres Spektrum) eine große Änderung wiedergibt,
kleinsten spektralen Ableitungen festgestellt, und Die interpolierte Kurve ist unten in der ersten Spalte
Wt-Intervalle werden in der Mitte dieses Bereiches dargestellt und beginnt mit den Formanten des
hinzugefügt. Jedem der Wc-Intervalle werden die Wortes 1, macht einen raschen Übergang und folgt
Steuerparameter der Mitte des Intervalls, d. h. ein 35 den Formanten des Wortes 2. Die Spalte 2 zeigt eine
gleichbleibender Zustandsbereich von Wc-Inter- umgekehrte Situation: das Wort 2 zeigt eine kleine
hifü Spektrumänderung, während das Wort 1 eine große
Spektrumänderung aufweist. Die interpolierte Kurve folgt daher den Formanten des Wortes 1 im Groß-40 teil der
Vermischungs- oder Überlappungsregion und führt den Übergang zu den Formanten des Wortes 2
am Ende des Bereiches bzw. der Region durch. Die Spalten 3 und 4 zeigen Beispiele, bei welchen die
Spektrumänderungen in beiden Worten im großen aneinanderstoßend zusammengestellt. Wenn das 45 und ganzen die "gleichen sind. Wenn sie, wie in
Ende eines Wortes stimmhaft ist und der Beginn des Spalte 3, klein sind, dann ist die Interpolationskurve
nächsten Wortes ebenfalls stimmhaft ist, wird ein im wesentlichen linear. Wenn sie, wie in Spalte 4,
allmählicher Übergang von den Formanten am Ende groß sind, versucht die Interpciationskurve den Fordes
einen Wortes zum Beginn des nächsten Wortes manten des ersten Wortes in der einen Hälfte des
gemacht. Dieser Übergang wird beispielsweise über 50 Überlappungsbereiches und den Formanten des
die letzten 100 ms des ersten Wortes und die ersten zweiten Wortes für die andere Hälfte des Über-
lappur.gsbereiches zu folgen
Die Interpolationskurve beginnt also immer mü
den Formanten des Wortes 1 (des laufenden Wortes] und endigt mit den Formanten des Wortes 2 (de:
folgenden Wortes). Die Geschwindigkeit mit welche; die Interpolationskurve einen Übergang von dei
Formanten des ersten Wortes zu denen des zweitei
g gg Wortes durchführt, wird durch die durchschnitt
reich abhängen. Die spektralen Ableitungssymbole 60 liehen spektralen Ableitungen 5Z7T und Ώ52 be
werden wie folgt definiert: stimmt. Im Beispiel der Spalte 1 ist die spektral·
Ableitung des zweiten Wortes viel größer als die de ersten Wortes, so daß der Übergang rasch mit den
Beginn des Überlappungsbereiches durchgefühi wird. Im Beispiel der zweiten Spalte ist die spektral
Ableitung des ersten Wortes größer, so daß de Übergang am Ende des Über'ippungsbereiche
rasch durchgeführt wird. Wie zuvor angedeutet, sin<
100 ms des zweiten Wortes durchgeführt. Die Übergangsgeschwindigkeit
hängt von der relativen Spektrumänderungsgeschwindigkeit
der beiden Worte in dem Übergangsbereich ab.
Um diese Übergangsaufgabe zu losen, wird eine
Interpolationsfunktion benutzt, deren Parameter sehr stark von den durchschnittlichen spektralen Ableitungen
der beiden Wörter in dem Übergangsbei kl Abl
"3±9
fr-.
194
die .pefirr Ableitung für be«er in den
Beispielen der Spalten-, und 4 m große,,und an«n
dieselben, so u daß>.ei"e,™'n Lber-dn^
uberlappungsbere.cn stattfinden.
Beispiele der Verkettung os.Zeichendaten A und A und den Reib-
laut-Pol-Nulldaten F1. und F7 dem Sprachsynthcti-
^ zugeführt
Intensitätsclaten Weise in Der stimmlose Intensitätsparameter As wird di-
stimmhafte Worte, die engl.schen Worte
»Were« und >>^<
—mengeknup werfen. um den Satz zu bilden
>We were away«, uespr
chen haben ^e Wörter die jeweil.geDaujr WW
W3, und eine Analyse ^t egeben^ß «J^
STsind' fn2 ϊ£ ίρΑΑί^ίί™?) für
,SeTÄduelle Wo'rt gespeichert, wie bereits er-
55S S1SAfSTSS?^J in !Ä
were away« zusammenzufügen wird die Fo™anten"
information von der Speicheremhe.t 17 bezogen una
dWrtlüfunppro^My^^
ablaufdaten vom Speicher .22 (oder al™
einer äußeren Einheit 23und Tj^ohenv««
daten vom Speicher 24^ (oder aJe™JtIV ^^
äußeren Quelle 25) werden ^JJÄ
zugeführt. Es wird zunächst bestimmt, daB ^
»We« und »Were« normalerweise ;bam^Sprechen
durch einen santten uoergmiB I''''"""-- fl""wi»
den werden und als eir. kont.nuier -^tz
>We-
were« ausgesprochen weTfn\D,a™\™pr Oauer auf
den stimmhaften Worte bezüglich ihre-Dauer_ au
Werte D1, D2 in übere.nst.mmung mit ten. Zujam_
der Ausnahme
^^ Mischungsbereich;s zweier stimm-Intervalle,
in welchem Fall er durch Inter- ^ ' stimmhaften Intensifäten der
P J ·η äh 6 nlicher Weise erhalten wird, wie
fies für die.Interpolation von Formanten beschneben
worden ,st.
Ausführung des Verknüpfungsprozessors
Qbwohl die oben beschriebenen Betätigungen zur
Wortformantdaten zur Bildung von Wortsequenzinformationen durch Verwendung von
entsprechend geeigneten Einrichtungen und Techf
durch führt werden können<
beruht eine in
der Praxis verwendbare Einrichtung auf der Fähigkeit eines Digitalcomputers für hohe Verarbeitungshwindigk°it.
In der Praxis wurde ein digitaler
^lzweckre8hner>
nämlich der Honeywell DDP-516
oder GE-635 für geeignet gefunden. Diese beiden gj^gj^^ g und ihre Programmie-
rungssysteme sind gleicherweise zur Aufstellung eines
g y s diese m ^n
Progr ^J
einen
eines sanften Überganges
Weise werden die Worter
malerweise als »wereaway« mit g
ausgesprochen. Daher wird dw Dauer des^a y
auf D3 gedehnt, und die Formanten «r beiden wor
ter überlappen sich und werden ui "Ρ°'ιε«·
Der sich daraus ergebende glat int"P0^ der
mant wird ferner durch Überlagerung der^Kontur oer
fffS —der formant
^ Flußdim der programmierungsschritte
zur Umwandlung einer derartigen Anlage in einen Spezialzweckrechner, um den Erfordernissen gemäß
E H rfindun zu genügen, ist in den Fi6.6A, 6B und
^ enthalten, die jeweils aneinanderzufügen sind. Jeder ·η dem Flußdiagramm dargestellte Schritt ist
für sich bekannt und kann durch einen Fachmann
^ ^ q^ ^ programmierens auf ein geeigne-
tes Programm rückgeführt werden.
πβ^ΓτοηϊοηΤ"und" den Stimmhaft-Stolos^
chendaten Λν und An dem Sprachsynthetisator
^Ftg^zefS Verkettung der eng^r, Worte
»K, »law«, »This« und »Man« zur BiWun des Sa^
zes »I saw this man«. In diesem ran
Wörter »I« und »Saw« nicht überlappt und^zwar
wegen des dazwischenliegenden R«^«8^«
ginn von »Saw«. Jedoch werden die Wörter^baw
und »This« im allgemeinen mit ^/^.f^ ^ gang
gesprochen. Daher werden diese Wörter über
läppt und die Formanten interpo iert Dadas Wort
»This« mit einem Reiblaut endigt werden die wor
ter »This« und »Man« nicht überlappt In überm
Stimmung mit dem Zusammenhang ^s Ausdruckes werden die individuellen Wortlangen ^ je«ert .™
neuen Werten D modifiziert. Schließlich Nv.rd eine
gespeicherte Periodenkontur fur die Tonhöhe ent
Sprechend einer gespeicherten Regel überlagert, ü.e
-zessor-Operationen
^^ ^χ der Fig. 6A ist die Speicherein^^
^ ^ parametrische Beschreibung nach Fig. 1
schematisch angedeutet, welche einen Katalog vor ^^ Tonhohe.t Amplituden- und Reiblautdar-Stellungen
für jedes der Wörter in dem Katalog ent- ^ ^ ^^ ße{ehl des Wortfolgeeinganges It
werden diese Daten in das Wortverknüpfungsprozes sorsystem 20 übertragen, welches durch den Res
des Flußdiagramms dargestellt wird.
Zunachst wird die Dauer jedes Wortes in der ver
knüpften Folge bestimmt, wie in Block 61 angedeu ^^ beispielsweise durch Befragung einer Speicher
tafel für Zeitablaufdaten 62, derart, wie sie in Fig.:
und durch die Einheit 22 in Fig. 1 dargestellt sind
Wenn eine Zeitablaufänderung notwendig ist, be
stimmen Programmfeststellungen der Einheit 63, ο
die im Speicher 62 gespeicherten Daten ausreiche oder ob außere Zeitablaufdaten von der Einheit 6
t ' f -,
3194
(Block 23 der Fig. 1) verwendet werden sollen. In
jedem Fall wird die Dauer jedes »kommandierten« Wortes aufgestellt, und ein Wortsecjuenzzähler wird
in der F.inheit 65 durch Setzen von / = 1 gestartet.
Es ist dann notwendig, die parametrische Beschreibung
des ersten Wortes in Übereinstimmung mit Zeitablaufdaten oder anderen gespeicherten Regeln
zu modifizieren. Demgemäß wird in Fig. 6B bestimmt, ob das /-te Wort mit dem (/ - l)-ten Wort
vermischt werden soll oder nicht. Diese Bestimmung ivird durch den Block 66 dargestellt. Wenn dies nicht
Zutrifft, wird Information für das /-te Wort von dem Wonkatalog 17 entnommen, und die ersten 50 ms
des /-ten Wortes werden durch die Einheit 67 synthetisiert
Wenn das /te Wort vermischt werden soll, ♦mi das / U Wort verlängert oder gekürzt, damit
der Zeitablauf mit den zugeführten Daten bezüglich
"Dauer übereinstimmt. Diese Operation findet in der hinheil 68 in Übereinstimmung mit dem Unterprogramm
CIiDIiLL tier Fortran-I V-Programmiersprache
statt.
F.s wird dann überprüft, ob das /-te Wort n~it dem
(/ 1 )-ten Wort über die Schritte des Blockes 69 vermocht werden soll. Wenn eine Vermischung stattfinden
soll, werden die Operationen ties Blockes 70 ausgeführt, um das Ende des /-ten Wortes mit dem
Beg:.m des (/ ■ I )-ten Wortes zu überlappen. Diese Operation wird in Übereinstimmung mit dem Unterprogramm
INTPL der Fortran-IV-Programmiersprache
durchgeführt. Wenn im Block 69 bestimmt wird, daß keine Vermischung stattfinden soll, führen die
Operationen des Blockes 71 zu einer Synthese der letzten 50 ms des /-ten Wortes unter Verwendung
der Daten für dieses Wort aus dem Speicher 17.
In der Einheit 72 wird dann die Wortfolge des Index / auf den letzten Stand gebracht, und in der Operation
73 wird bestimmt, ob der Wortfolgeindex größer als der Index des letzten Wortes in der Eingangsfolge
ist. Wenn er es nicht ist. wird die Steuerung auf den Block 66 zurückgeschaltet, und das
nächste Wort wird in der bereits beschriebenen Weise zusammengesetzt. Die Operationen werden in dieser
Weise iteriert, bis der Index gleich dem Index des letzten Wortes in der Eingangsfolge ist, zu welcher
Zeit die Daten des Blockes 73 zum Block 74 übertragen werden.
Gemäß Fig. 6C werden dann die Tonhöhendaten
den. Formantdaten überlagert und die Struktur jede> Wortes in der Äußerung in der bereits beschriebenen
Weise erhalten. Diese Daten rind in dem Datenspeicher 75 für Tonhöhenvariation (Speicher 24 der
F i g. 1) verfügbar. Es wird dann durch die im Block
76 angedeuteten Schritte bestimmt, ob äußere Tonhöhendaten Verwendung finden sollen. Wenn dio
zutrifft, werden derartige Daten von der Einheit 77 (Einheit 25 in Fig. 1) über den Datenspeicher 75 zu
ίο den Operationen der Einheit 74 zugefügt.
Wenn die Tonhöhenkonturoperationen beendet sind, werden die gesamten Daten in dem Wortserknüpfungsprozessor
20. wie diese durch das Programm der Fig. 6 modifiziert worden sind, beispiel·-
weise dem Sprachsynthetisator 26 de< Fig. 1 zugeführt.
Formant-S\ nihcse
Wenn alle Steuerparameierkonturen der befohlenen Äußerung erzeugt worden sind, können sie. fall·
erwünscht, geglättet und die Bandbreite auf ungefähr
16Hz begrenzt werden. Sie werden dann zur Steuerung eines Formantsynthetisatcrs benutzt, welcher
ein kontinuierliches Sprachausgangssignal erzeugt. Zahlreiche Systeme, sowohl analoger sowie digitaler
Art. sind zur S\>ithese von Sprache aus Formantdaten
beschrieben worden. Geeignete Synthetisatoren sind in USA.-Patentschrift 3 330 910 (j'. L. F I a η a gan).
USA.-Patentschrift 3 190 963 (David Flanagan, insbesondere Fig. 5) und in USA.-Patentschrift
3 158 685 (Ge rs t m an-Ke Il ν) beschrieben. In vereinfachter Darstellung umfaßt ein Formants\nthetisator
ein System zur Erzeugung von Anicgungen als eine Folge von Impulsen mit einem Abstand,
der proportional der Grund-Tonhöhe des gewünschten Signals ist. Die intensität der !iipulserregung
wird gesteuert, und das Signal wird an eine Kaskade von unterschiedlichen Resonatoren angelegt.
Fs genügt zu sagen, daß der Sprachsynthetisator 26 eine Wellenform erzeugt, welche der nahekommt,
die für die gewünschte Äußerung benötigt wird. Dieses Signal wird in einer beliebig gewünschten Weise
verwendet, beispielsweise zur Anreg'ing der Ausgangseinheit
27, die in der Form eines Lautsprechers, einer Aufzeichnungseinrichtung od. dgl. vorliegen
kann.
Hierzu 2 Blatt Zeichnungen
Claims (7)
1. Verfahren zur Sprachsynthese aus Darstellungen von individuell gesprochenen Worten, bei
dem parametrische Darstellungen (z. B. Formantfrequenzen, Amplitude, Tonhöhe, Pol- und Nullfrequenzen
stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe von eine vollständige
Nachricht bildenden Wörtern entwickelt werden, dadurch gekennzeichnet, daß jedes zu
synthetisierende Wort in vorgewählte Unterintervalle eines stimmhaften Lauts zur Entwicklung
der die Änderungsgeschwindigkeit einer Formantkuntur des Unterintervalls ■ !abteilenden
Spektralableitung für jedes Unterintervall unterteilt und die Länge eines Wortes nur dann
geändert wird, wenn der kleinste Spektralableitungswert in Abhängigkeit von einer abgeleiteten
Silben Zeitkontur für die zu synthetisierende Nachricht gefunden wird, und daß ein geeigneter
Übergang zwischen den Wörtern der voll-Ständigen Nachricht dadurch entwickelt wird,
daß eine gleitende !nterpolationskurve über den Grenzen benachbarter, zu synthetisierender Wörter
vor deren Übertragung zu eir.^m Synthesegerät aus den Spektralableitungen abgeleitet
wird.
2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1., mit einem ersten Eingang
zur Aufnahme von durch einen Sprachanalysator gelieferten parametrischen Darstellungen zu
synthetisierender individuell gesprochener Worte, einem zweiten Eingang zur Aufnai./ne von die
zu synthetisierenden Nachrichten bestimmenden Befehlssignalen, einem Ausgang zu einem Sprachsynthesegerät
und einem mit den ersten und zweiten Eingängen und dem Ausgang verbundenen Prozessor, der in Abhängigkeit von den über den
zweiten Eingang anstehenden Befehlssignalen den ersten Eingang zur Aufnahme und danach
zum Kombinieren der parametrischen Darstellungen der individuellen Wörter der zu synthetisierenden
Nachricht aktiviert, dadurch gekennzeichnet, daß der Prozessor (21) derart ausgebildet
ist, daß er zur Bildung geeigneter Übergänge zwischen den Wörtern sowohl den Spektralableitungswert
für jedes vorgewählte Unterintervall eines stimmhaften Lauts als auch eine gleitende
Interpolationskurve über Wortgrenzen in Abhängigkeit von den Spektralableitungen in
dem den Grenzen benachbarten Bereich ableitet und die Übergänge nachfolgend -zusammen mit
der parametrischen Darstellung der zu synthetisierenden Nachricht an den Ausgang zum
Sprachsynthesegerät (26) anlegt.
3. Anordnung nach A.isnruch 2, dadurch gekennzeichnet,
daß die Anordnung (20) eine Zeitfblauf-Einstelleinrichtung (22, 23) aufweist, die
«lern Prozessor (21) Zcitablaufdaten mit allen Zeitablaufregeln zuführt, wobei die Zcitablauf-
«laten einen Meßplan der Wortlängen als Funktion der Lage in der Nachricht und der Zahl vor:
Phonemen pro Wort enthalten und wobei die Syntax der gesamten Nachricht im Prozessor (21)
Zum Modifizieren des Zeitablaufes und der
Dauer der zu synthetisierenden Wörter auswcrthnr ist
4. Anordnung nach den Ansprüchen 2 und 3. dadurch gekennzeichnet, daß die Anordnung (20)
eine Tonhöhen-Einstelleinrichtung (24, 25) aufweist, welche dem Prozessor (21) eine zeitlich
normalisierte Tonhöhenkontur der die zu synthetisierende Nachricht darstellenden Tonhöhendaten
zuführt, und die Tonhöhendaten im Prozessor nach Maßgabe der von der Zeitablauf-Einstelleinrichtung
(22, 23) zugeführten Zeitabiaufdaten zum Modifizieren der zeitlich normalisierten
Tonhöhenkontur der Nachricht auswertbar sind.
5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) zur Änderung
der Dauer der über den ersten Eingang (17) eingehenden Daten geeignet ist, indem er Unterintervalle,
die typischerweise eine Lange von 10 ms haben, bei jedem gesprochenen Wort an einer solchen Stelle des Wortes einfügt od«.r abzieht,
an der die Spektralableitungswerte am kleinsten sind.
6. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) einen
phonetisch realistischen Übergang zwischen den miteinander zu kombinierenden Wörtern bildet,
indem eine parametrische Darstellung des Überganges zwischen gesprochenen Wortbereichen
entwickelt wird, und zwar für ungefähr die letzten 100 ms des ersten von den beiden miteinander
zu verschmelzenden Worten und für ungefähr die ersten 100 ms des zweiten der beiden
miteinander zu verschmelzenden Worte.
7 Anordnung nach Anspruch 6, dadurch gekennzeichnet,
daß die Geschwindigkeit des Übergangs zwischen den beiden zu verschmelzenden Wörtern proportional dem Durchschnitt der
Spektralableitungen der beiden Wörter ist.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US00085660A US3828132A (en) | 1970-10-30 | 1970-10-30 | Speech synthesis by concatenation of formant encoded words |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| DE2115258A1 DE2115258A1 (de) | 1972-05-10 |
| DE2115258B2 true DE2115258B2 (de) | 1973-06-07 |
| DE2115258C3 DE2115258C3 (de) | 1974-01-24 |
Family
ID=22193116
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE2115258A Expired DE2115258C3 (de) | 1970-10-30 | 1971-03-30 | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US3828132A (de) |
| JP (1) | JPS539041B1 (de) |
| CA (1) | CA941968A (de) |
| DE (1) | DE2115258C3 (de) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE2551632A1 (de) * | 1974-11-18 | 1976-05-26 | Western Electric Co | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache |
| DE2854601A1 (de) * | 1977-12-16 | 1979-06-21 | Sanyo Electric Co | Ton-synthesizer und verfahren zur ton-aufbereitung |
| DE2954413C2 (de) * | 1978-04-28 | 1989-12-14 | Texas Instruments Inc., Dallas, Tex., Us |
Families Citing this family (178)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4060848A (en) * | 1970-12-28 | 1977-11-29 | Gilbert Peter Hyatt | Electronic calculator system having audio messages for operator interaction |
| US4144582A (en) * | 1970-12-28 | 1979-03-13 | Hyatt Gilbert P | Voice signal processing system |
| US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
| GB1541429A (en) * | 1975-12-19 | 1979-02-28 | Int Computers Ltd | Speech synthesising apparatus |
| US4384170A (en) * | 1977-01-21 | 1983-05-17 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
| US4163120A (en) * | 1978-04-06 | 1979-07-31 | Bell Telephone Laboratories, Incorporated | Voice synthesizer |
| US4304965A (en) * | 1979-05-29 | 1981-12-08 | Texas Instruments Incorporated | Data converter for a speech synthesizer |
| US4455551A (en) * | 1980-01-08 | 1984-06-19 | Lemelson Jerome H | Synthetic speech communicating system and method |
| US4559602A (en) * | 1983-01-27 | 1985-12-17 | Bates Jr John K | Signal processing and synthesizing method and apparatus |
| US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
| US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
| US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
| JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
| US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
| US6792615B1 (en) * | 1999-05-19 | 2004-09-14 | New Horizons Telecasting, Inc. | Encapsulated, streaming media automation and distribution system |
| US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| DE10048069A1 (de) * | 2000-09-28 | 2002-04-25 | Global Language Comm Systems E | Elektronische Textübertragungsvorrichtung |
| US20020123130A1 (en) * | 2001-03-01 | 2002-09-05 | Cheung Ling Y. | Methods and compositions for degrading polymeric compounds |
| US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
| ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
| US8229086B2 (en) | 2003-04-01 | 2012-07-24 | Silent Communication Ltd | Apparatus, system and method for providing silently selectable audible communication |
| US7409347B1 (en) | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
| US7643990B1 (en) | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| EP2127337A4 (de) | 2007-02-22 | 2012-01-04 | Silent Comm Ltd | System und verfahren zur telefonkommunikation |
| US8494490B2 (en) * | 2009-05-11 | 2013-07-23 | Silent Communicatin Ltd. | Method, circuit, system and application for providing messaging services |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US7895041B2 (en) * | 2007-04-27 | 2011-02-22 | Dickson Craig B | Text to speech interactive voice response system |
| JP4469883B2 (ja) * | 2007-08-17 | 2010-06-02 | 株式会社東芝 | 音声合成方法及びその装置 |
| JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
| US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
| US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
| US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
| US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
| US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
| US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
| US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
| US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
| US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
| US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
| US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
| US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
| US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
| US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
| US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
| US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
| WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
| KR102698417B1 (ko) | 2013-02-07 | 2024-08-26 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
| US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
| US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
| US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
| US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
| US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
| KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
| US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
| AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
| US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
| US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US9756185B1 (en) * | 2014-11-10 | 2017-09-05 | Teton1, Llc | System for automated call analysis using context specific lexicon |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| US10915227B1 (en) | 2019-08-07 | 2021-02-09 | Bank Of America Corporation | System for adjustment of resource allocation based on multi-channel inputs |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US2860187A (en) * | 1955-12-08 | 1958-11-11 | Bell Telephone Labor Inc | Artificial reconstruction of speech |
| US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
| US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
| US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
| GB1225142A (de) * | 1967-11-29 | 1971-03-17 | ||
| US3588353A (en) * | 1968-02-26 | 1971-06-28 | Rca Corp | Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition |
-
1970
- 1970-10-30 US US00085660A patent/US3828132A/en not_active Expired - Lifetime
-
1971
- 1971-03-09 CA CA107,266A patent/CA941968A/en not_active Expired
- 1971-03-30 DE DE2115258A patent/DE2115258C3/de not_active Expired
- 1971-04-01 JP JP1928771A patent/JPS539041B1/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE2551632A1 (de) * | 1974-11-18 | 1976-05-26 | Western Electric Co | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache |
| DE2854601A1 (de) * | 1977-12-16 | 1979-06-21 | Sanyo Electric Co | Ton-synthesizer und verfahren zur ton-aufbereitung |
| DE2954413C2 (de) * | 1978-04-28 | 1989-12-14 | Texas Instruments Inc., Dallas, Tex., Us |
Also Published As
| Publication number | Publication date |
|---|---|
| CA941968A (en) | 1974-02-12 |
| JPS539041B1 (de) | 1978-04-03 |
| US3828132A (en) | 1974-08-06 |
| DE2115258A1 (de) | 1972-05-10 |
| DE2115258C3 (de) | 1974-01-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE2115258B2 (de) | Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern | |
| DE3244476C2 (de) | ||
| DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
| DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
| DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
| AT400646B (de) | Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung | |
| DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
| DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
| DE69227650T2 (de) | Digitaler Sprachkodierer | |
| DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
| DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
| DE2659096C2 (de) | ||
| EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
| DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
| DE3036680A1 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit | |
| DE69720861T2 (de) | Verfahren zur Tonsynthese | |
| DE69231266T2 (de) | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium | |
| DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
| DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
| DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
| DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
| DE69631037T2 (de) | Sprachsynthese | |
| DE19861167A1 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten | |
| DE69318209T2 (de) | Verfahren und Anordnung zur Sprachsynthese | |
| DE4033350B4 (de) | Verfahren und Vorrichtung für die Sprachverarbeitung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C3 | Grant after two publication steps (3rd publication) | ||
| E77 | Valid patent as to the heymanns-index 1977 |